Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian
thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient).
Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20
người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được.
Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ
các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương
pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời
gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector
machines - máy học véctơ hỗ trợ) SVM và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping
– xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ
chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu
cầu điều khiển robot thời gian thực.
10 trang |
Chia sẻ: candy98 | Lượt xem: 590 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Điều khiển robot PIONEER P3-DX bằng tiếng nói với đặc trưng MFCC và giải thuật Naïve Bayes Nearest Neighbors, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9_10/7/2015
ĐIỀU KHIỂN ROBOT PIONEER P3-DX BẰNG TIẾNG NÓI VỚI
ĐẶC TRƯNG MFCC VÀ GIẢI THUẬT NAÏVE BAYES NEAREST NEIGHBORS
Mã Trường Thành1, Đỗ Thanh Nghị2, Phạm Nguyên Khang2, Châu Ngân Khánh3
1Khoa Kỹ thuật – Công nghệ, Trường CĐCĐ Sóc Trăng
2Khoa CNTT&TT, Trường Đại học Cần Thơ
3Trường Đại học An Giang
truongthanh1511@gmail.com,dtnghi@cit.ctu.edu.vn
TÓM TẮT - Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian
thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient).
Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20
người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được.
Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ
các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương
pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời
gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector
machines - máy học véctơ hỗ trợ) SVM và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping
– xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ
chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu
cầu điều khiển robot thời gian thực.
Từ khóa - Nhận dạng âm thanh, Đặc trưng MFCC, Naive Bayes Nearest Neighbor, Điều khiển robot Pioneer P3-DX.
I. GIỚI THIỆU
Nghiên cứu điều khiển robot là bài toán được các nhà khoa học quan tâm, nhằm phục vụ cho con người trong
nhiều lĩnh vực ứng dụng như: robot khuân hàng hóa, robot dọn rác, lau nhà, đá bóng, dẫn dường, robot trong công
nghiệp ôtô, thăm dò khai thác mỏ, robot thợ lặn, v.v. Do có tính ứng dụng cao nên các nhà nghiên cứu đã bắt tay vào
phát triển robot thông minh hơn, phục vụ tốt cho nhu cầu phát triển kinh tế - xã hội. Để làm được điều đó, cần có sự kết
nối giữa “bộ não thông minh” và robot để tạo nên những robot thông minh như ngày nay. Máy học chính là nền tảng
giúp robot có thể thông minh, hoạt động tinh vi hơn. Trong các hướng nghiên cứu về lĩnh vực robot, điều khiển robot
thông qua nhận dạng hình ảnh và nhận dạng tiếng nói là một trong những lĩnh vực được các nhiều nhà nghiên cứu quan
tâm rất nhiều do tính khả thi và khả năng ứng dụng trong thực tiễn.
Hiện nay các nghiên cứu liên quan đến nhận dạng tiếng nói đã được thực hiện trên nhiều hướng phát triển, mục
tiêu khác nhau và đạt hiệu quả cao. Tiêu biểu là hệ thống Desktop Via Voice của IBM hay hệ thống Speed Recognition
Engine của Microsoft và bộ công cụ HTK dựa trên mô hình Markov ẩn của Đại học Cambridge hay Đại học Mellon
với CMU Sphinx. Những sản phẩm (công cụ) đã được áp dụng nhiều trong thực tế, nhận dạng và xử lý âm thanh. Hệ
thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình
máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] là MFCC (Mel-scale
Frequency Cepstral Coefficient), LPC (Linear Prediction Coefficients), FFT (Fast Fourier Transform). Mô hình máy
học thường được sử dụng có thể là mạng nơron nhân tạo [10], [12], mô hình Markov ẩn HMM [16], [20].
Các nghiên cứu trong thời gian gần đây [11], [15], [19] tập trung vào sử dụng đặc trưng MFCC [7] đạt được
hiệu quả cao. Nhóm tác giả trong [11] đề xuất rút trích đặc trưng MFCC từ âm thanh, biểu diễn các đặc trưng MFCC
theo mô hình túi từ với hỗ trợ của giải thuật gom cụm kmeans [13], huấn luyện mô hình máy học véctơ hỗ trợ SVM
[18] để nhận dạng âm thanh. Nghiên cứu của [15], [19] cũng thực hiện rút trích đặc trưng MFCC nhưng sử dụng giải
thuật xoắn thời gian động DTW (Dynamic Time Warping) để nhận dạng trực tiếp tiếng nói.
Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời
gian thực. Hệ thống thực hiện rút trích đặc trưng âm thanh MFCC, không cần qua bước tiền xử lý và biểu diễn phức
tạp, hệ thống sử dụng giải thuật NBNN (Naïve Bayes Nearest Neighbor [2]) để nhận dạng trực tiếp tiếng nói là các
lệnh điều khiển. Kết quả thử nghiệm trên tập dữ liệu thu thập từ 20 người nói khác nhau cho thấy đề xuất của chúng tôi
đạt được độ chính xác đến 98.5% nhưng vẫn đáp ứng được về thời gian nhận dạng để điều khiển robot theo thời gian
thực.
Phần tiếp theo của bài báo được tổ chức như sau: Phần II giới thiệu về robot Pioneer P3-DX. Phần III trình bày
việc điều khiển robot Pioneer P3-DX bằng tiếng nói thông qua giải thuật NBNN với đặc trưng MFCC được rút trích để
nhận dạng. Phần IV trình bày kết quả thực nghiệm cũng như cách di chuyển của robot và khoảng cách thông qua Sonar
và Laser tương ứng với vận tốc điều khiển robot trước khi kết luận và hướng phát triển được trình bày trong phần V.
II. SƠ LƯỢC VỀ ROBOT PIONEER P3-DX
Robot được sử dụng trong bài báo này là loại robot di động của hãng Adept Mobile Robot với dòng Pioneer P3-
DX. Robot Pioneer [22] là một dòng sản phẩm robot được nhiều nhà chuyên gia, các nghiên cứu đánh giá cao và được
1
s
c
g
1
b
d
đ
p
c
tr
b
P
1
tr
98
ử dụng phổ b
ó thể “lập trìn
Robot P
ọi là bánh ch
9.5cm, thân đ
iến siêu âm đ
Vì khả
ành cho nhữn
ộng nhịp nhà
Cốt lõi
hần mềm cho
họn ngôn ngữ
ên đa nền (W
Gói thư
iên dịch gói t
ublic License
.2 m/s và có t
Xây dự
ưng, huấn lu
iến trong các
h được”.
ioneer P3-DX
ính và bánh
ược bao bọc
ể dò tìm vật c
năng có thể l
g nhà nghiên
ng.
của SDK mà
tất cả các nề
phù hợp cho
indows và Li
viện Aria sử
hư viện. Aria
). Robot Pion
ải trọng đồ vậ
III.
ng một hệ th
yện mô hình
ĐIỀU KHIỂN R
nghiên cứu ro
[22] là loại
phụ sau di c
bởi kim loại n
ản. Robot Pio
ập trình được
cứu robot, c
robot Pionee
n tảng và các
mình với 3
nux).
dụng gcc trên
là một gói th
eer P3-DX có
y lên đến 22k
Hình 2. Đề x
ĐIỀU KHIỂ
ống nhận dạn
máy học nhậ
OBOT PIONEE
bot hiện nay.
robot di động
huyển tự do,
hôm cứng cá
neer P3-DX c
nên hãng Ad
ác loại máy t
r hoạt động c
thiết bị, gói t
ngôn ngữ hỗ
Linux và Vi
ư viện mã ng
thể di chuyể
g.
Hình 1. Ro
uất mô hình ho
N ROBOT P
g tiếng nói b
n dạng. Tron
R P3-DX BẰNG
Robot này đư
nhỏ, trọng lư
thực hiện nh
p. Phía trước
ó 3 pin nhằm
ept Mobile R
ính có thể dễ
hính là gói thư
hư viện khá l
trợ: C++, Jav
sual C++ trên
uồn mở được
n tới và di chu
bot Pionner P3
ạt động điều kh
IONEER P3
ao gồm hai b
g bài báo này
TIẾNG NÓI VỚ
ợc tạo ra và c
ợng nhẹ với 3
iệm vụ cân b
được trang bị
dự trữ và có
obot đã hỗ trợ
dàng cài đặt
viện ARIA[
inh hoạt giúp
a hoặc Python
Window để t
đính kèm the
yển lui cũng
-DX [22]
iển robot Pion
-DX BẰNG T
ước chính [5
, chúng tôi đ
I ĐẶC TRƯNG
ho phép ngư
bánh xe (2 b
ằng và rẽ), b
8 cảm biến S
thể thay đổi n
bộ SDK (so
và tích hợp v
21], đây là gó
cho nhiều nh
, gói thư viện
hực hiện viết
o giấy phép c
như di chuyển
eer P3-DX
IẾNG NÓI
], [6], [7]: rú
ề xuất mô hì
MFCC VÀ GIẢ
ời nghiên cứu
ánh trước chủ
ánh xe có đ
onar – đây là
hanh chóng.
ftware develo
ào để robot c
i thư viện để
à phát triển d
có thể được
các ứng dụng
ủa GNU GPL
rẽ với vận tố
t trích và biể
nh nhận dạng
I THUẬT
hoàn toàn
động còn
ường kính
dạng cảm
pment kit)
ó thể hoạt
phát triển
ễ dàng lựa
phát triển
cũng như
(General
c tối đã là
u diễn đặc
dạng âm
Mth
â
th
l
c
lý
t
n
t
M
g
3
đ
v
tr
h
l
s
q
x
h
n
t
t
s
H
ã Trường Thành
anh trực tiếp
m thanh thu
anh), trước h
ệnh. Có 5 lệnh
ơ bản).
Tín hiệ
nào, tín hiệu
ín hiệu đầu và
hau, mỗi mẫu
ín hiệu âm th
FCC [7] để n
ia trong lĩnh v
.1. Đặc trưng
Kỹ thuậ
ược biến đổi
ới âm thanh.
ước sẽ là đầu
iệu âm thanh
iên tiếp nhau,
Trong b
ố lượng nhất
uả là một tập
uất đặc trưng
Bước 1
Thực hi
ai khung kề n
gười ta thườn
ần số cao lên
iếng nói lớn h
ố được thực h
ܻሾ݊ሿ ൌ
Trong đ
Bước 2
Lấy cử
amming (với
ݓሾ݊ሿ ൌ
Trong đ
, Đỗ Thanh Ngh
bằng giải thu
thập như mô
ết chúng tôi t
điều khiển c
u âm thanh ng
âm thanh cầ
o. Như vậy,
là giá trị biê
anh là tần số
ghiên cứu ch
ực âm thanh
MFCC [7]
t rút trích đặ
Fourier dạng
Kỹ thuật tríc
vào của bướ
sau khi được
mỗi mẫu là m
ài này, chúng
định tạo thành
trong trích ch
MFCC sẽ bao
: Phân khung
ện chia tín hi
hau lệch nha
g tăng âm th
nhằm làm tăn
ơn lên để ảnh
iện như công
ܺሾ݊ሿ െ 0.95
ó X là tín hiệ
: Lấy cửa sổ
a sổ nhằm g
α = 0.54), th
ቊ∝ െ (1െ∝
ó: w[n] là hệ
ị, Phạm Nguyên K
ật NBNN [2]
tả trong hình
iến hành thu
ơ bản là: thẳn
oài đời thực
n được số hóa
một tín hiệu
n độ của tín h
lấy mẫu (Fs
o hệ thống đi
sử dụng và rấ
c trưng MFC
phổ) về than
h chọn đặc tr
c biến đổi sau
đưa vào máy
ột giá trị thực
tôi thực hiện
một frame, t
ọn được sử d
gồm 5 bước
(Frame Blo
ệu đầu vào th
u M mẫu: M
anh (Pre-emp
g năng lượn
hưởng của cá
thức (1):
ൈ ܺሾ݊ െ 1ሿ
u đầu vào trê
(Windowing)
iảm sự gián
eo công thức
) ܿݏ ቀଶగ ቁ ݒ
0
số cho mẫu th
hang, Châu Ngâ
sử dụng đặc
2. Để chuẩn
âm từ 20 ngư
g tiến, đi lùi,
là tín hiệu liê
. Việc này đư
âm thanh bất
iệu tại một th
), là số mẫu đ
ều khiển này
t thành công t
C dựa trên vi
g đo tần số M
ưng này gồm
. Đầu vào của
tính đã đượ
, thể hiện giá
lấy mẫu với
rích chọn đặc
ụng trong bài
cơ bản như h
Hình 3. T
cking)
ành các đoạn
=(1/2)N (Biết
hasis) trước k
g ở vùng có t
c âm thanh m
n từng khung
đoạn của tín
(2):
ớ݅ 0 ݊ ܰ
ứ n trong fram
n Khánh
trưng MFCC
bị cho pha hu
ời đọc khác n
quẹo trái, qu
n tục, hay tính
ợc thực hiện
kỳ khi đã đư
ời điểm nhất
ược lấy tron
bởi vì MFCC
rong việc nhậ
ệc thực hiện
el, một thang
các bước biế
quá trình đặc
c rời rạc hóa
trị biên độ củ
tần số 16.000
trưng MFCC
viết gồm 39 g
ình 3.
rích đặc trưng
nhỏ khoảng 2
N>M). Tron
hi thực hiện p
ần số cao – v
ôi trường và
mẫu; Y là cư
hiệu ở đầu v
െ 1,ܰ ݈à ݏố
ݐݎườ݊݃ ݄
e.
để thực hiện
ấn luyện và
hau, mỗi chỉ
ẹo phải, dừng
hiệu tương t
tự động bởi c
ợc đưa vào m
định. Một th
g một giây. C
là phương ph
n dạng tiếng
biến đổi để c
đo diễn tả tố
n đổi liên tiế
trưng này sẽ
nên đoạn tín
a âm thanh tạ
Hz (âm thanh
cho ta tập đặ
iá trị đặc trưn
MFCC
0ms-30ms. Ph
g bước này, đ
hân khung v
ùng tần số củ
nhiễu trở thàn
ờng độ tần số
à cuối mỗi
݉ẫݑ ݐݎ݊݃ ݉
ợ ݄݇áܿ
điều khiển ro
nhận dạng tiế
thị lệnh âm th
lại và lệnh kh
ự trước khi th
ác thiết bị thu
áy tính, là m
am số quan tr
húng tôi đề
áp trích đặc tr
nói.
huyển dữ liệu
t hơn sự nhạ
p, trong đó đ
là một đoạn
hiệu tiếng nó
i một thời điể
nghe được)
c trưng cho m
g cho mỗi mộ
ân khung tín
ể hiệu quả c
ì thực hiện tă
a tiếng nói, m
h không đáng
tăng (pre-em
khung vừa đ
ộݐ ݂ݎܽ݉݁
bot theo các c
ng nói (chỉ th
anh tương ứn
ác (không th
ực hiện bất c
âm, bằng các
ột tập các mẫ
ọng trong việ
xuất sử dụng
ưng được nh
âm thanh đ
y cảm của tai
ầu ra của bướ
tín hiệu tiếng
i này bao gồm
m nhất định.
, một đoạn mẫ
ỗi frame tiến
t frame tiếng
hiệu mỗi khu
ho âm thanh
ng cường độ
ột cách dễ h
kể. Tăng cư
phasis after).
ược chia. Dù
199
hỉ thị lệnh
ị lệnh âm
g với một
uộc 5 lệnh
ứ bước xử
h lấy mẫu
u liên tiếp
c lấy mẫu
đặc trưng
iều chuyên
ầu vào (đã
người đối
c biến đổi
nói. Vì tín
các mẫu
u với một
g nói. Kết
nói. Trích
ng N mẫu,
được nhận
của những
iểu là làm
ờng độ tần
(1)
ng cửa sổ
(2)
2
k
đ
c
c
b
th
s
00
Trong l
hác, nếu sử d
iểm nữa là cá
Sử dụn
ửa sổ được đị
Frame
Frame
Mỗi fra
Trong đ
ho mẫu thứ n
Bước 3
Bước b
iến đổi này, t
Công th
Trong đ
ành phần tần
Tuy nh
ử dụng FFT:
Bước 4
oại cửa sổ Ha
ụng cửa sổ H
c giá trị biên
g một cửa sổ
nh nghĩa bằng
size: độ rộng
shift: bước nh
me sau đó sẽ
ó X[n] là gi
trong frame đ
H
: Biến đổi FF
iến đổi tiếp th
ín hiệu sẽ đượ
ức của biến đ
ó x[n] là giá
số trong tín h
iên, để cải tiế
: Biến đổi sa
ĐIỀU KHIỂN R
mming, giá t
amming để lấ
của cửa sổ Ha
(window) chạ
các thông số
của cửa sổ, cũ
ảy của cửa sổ
được nhân vớ
á trị của mẫu
ó.
ình 4. Chia cử
T (Fast Four
eo là thực hiệ
c đưa về khôn
ổi Fourier rời
ܺሾ݇ሿ ൌ
trị của mẫu
iệu gốc, N là
n cho chuyển
ng thang đo M
OBOT PIONEE
rị của tín hiệu
y ra các fram
mming tiến d
y dọc tín hiện
:
ng là độ lớn c
, là độ dài đoạ
i một hệ số, g
thứ n và Y[n
a sổ (Windowin
ier Transform
n biến đổi Fo
g gian tần số
rạc như sau:
∑ ݔሾ݊ሿ݁ିேିଵୀ
thứ n trong f
số mẫu trong
đổi mỗi khun
ܻ(߱
Hình 5.
el (Mel-freq
R P3-DX BẰNG
sẽ giảm dần
e, năng lượng
ần về 0 sẽ làm
âm thanh và
ủa frame tín h
n mà cửa sổ
iá trị của hệ s
ܻሾ݊
] là giá trị củ
g) dựa vào độ r
)
urier rời rạc đ
.
ଶഏಿ
rame, X[k] là
một frame.
g với N mẫu
) ൌ ݕ(ିஶାஶ
Thang đo tần s
uency Wrap
TIẾNG NÓI VỚ
về 0 khi tiến
của mỗi fram
bước biến đ
cắt ra các đo
iệu sẽ được c
sẽ trượt để cắt
ố này tùy thuộ
ሿ ൌ ݓሾ݊ሿ ∗ ܺ
a mẫu thứ n
ộng và bước nh
ối với từng m
một số phức
từ miền thời
ݐ)݁ିఠ௧
ố Mel
ping)
I ĐẶC TRƯNG
dần ra hai b
e sẽ tập trun
ổi Fourier trở
ạn tín hiệu nằ
ắt ra.
ra frame tiếp
c vào từng lo
ሾ݊ሿ
sau khi nhân
ảy của cửa sổ
ẩu tín hiệu đ
biểu diễn cư
gian sang miề
MFCC VÀ GIẢ
iên của frame
g ở giữa fram
nên dễ dàng h
m trong cửa
theo.
ại cửa sổ.
với hệ số, w[
ã được cắt ra
ờng độ và ph
n tần số đượ
I THUẬT
. Nói cách
e, một ưu
ơn.
sổ đó. Một
(3)
n] là hệ số
. Qua phép
(4)
a của một
c nhanh sẽ
(5)
Mã Trường Thành, Đỗ Thanh Nghị, Phạm Nguyên Khang, Châu Ngân Khánh 201
Trong mô hình trích chọn đặc trưng MFCC, tần số sẽ được chuyển sang thang đo tần số Mel theo công thức:
݂- ൌ 2595 ∗ ln ቀ1 ቁ (6)
Trong đó f là tần số ở thang đo thường, fmel là tần số ở thang đo Mel. Người ta sử dụng các băng lọc để tính các
hệ số Mel. Sử dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ số Mel và các hệ số Mel này sẽ là đầu vào cho quá
trình tiếp theo của trích chọn đặc trưng MFCC.
Bước 5: Hệ số Cepstrum (Cepstral Coefficients)
Bước tiếp theo của việc trích chọn đặc trưng MFCC là biến đổi Fourier ngược với đầu vào là các hệ số phổ Mel
của bước trước, đầu ra sẽ là các hệ số cepstrum (MFCC – Mel Frequency Cepstrum Coefficients).
Kết quả của bước này là ta tính được hệ số MFCC theo công thức:
ܯܨܥܥ(݅) ൌ ଵே௧௦ ൈ ∑ ݂ܾ݉(݈) ൈ cos (݅(݈ െ
ଵ
ଶ) ൈ
గ
ே௧)
ே௧௦
ୀଵ (7)
Trích chọn đặc trưng MFCC sẽ thu được các đặc trưng sau đây:
- 12 giá trị đặc trưng phổ Mel được biến đổi Fourier ngược
- 12 giá trị delta phổ
- 12 giá trị double delta phổ
- 1 giá trị mức năng lượng
- 1 giá trị delta mức năng lượng
- 1 giá trị double delta mức năng lượng
Tổng cộng: 39 đặc trưng cho mỗi frame tiếng nói.
Việc rút trích đặc trưng MFCC từ một chỉ thị lệnh âm thanh cho ra tập hợp các véctơ đặc trưng khác nhau. Các
giải thuật máy học (như mạng nơron hay SVM) thường cần dữ liệu đầu vào là bảng có cùng số chiều (cột, thuộc tính)
để huấn luyện mô hình nhận dạng. Để có thể tạo cấu trúc bảng cho giải thuật học, cần phải biểu diễn lại các đặc trưng
theo mô hình túi từ, như đã thực hiện trong các nghiên cứu [3], [11]. Sử dụng giải thuật kmeans [13] gom nhóm các
véctơ MFCC vào các nhóm (cluster) và mỗi cluster tương ứng với một từ. Tập các cluster này tạo thành một từ điển.
Sau cùng, mỗi véctơ MFCC trong chỉ thị lệnh âm thanh sẽ được gán vào cluster gần nhất (dựa vào khoảng cách mỗi
véctơ đến các tâm của các cluster đại diện đã được định nghĩa trước đó. Tiếp theo, một chỉ thị lệnh âm thanh được biểu
diễn bằng tần số của các từ trong chỉ thị lệnh âm thanh. Bước tiền xử lý này thường làm giảm độ chính xác khi nhận
dạng tuy xử lý rất nhanh.
Các nghiên cứu của [15], [19] sử dụng giải thuật xoắn thời gian động DTW (Dynamic Time Warping) để nhận
dạng trực tiếp tiếng nói mà không cần qua bước biểu diễn mô hình túi từ. Phương pháp tuy đơn giản nhưng độ chính
xác cao hơn sử dụng mô hình túi từ. Khuyết điểm của phương pháp chính là thời gian thực thi khi nhận dạng rất lâu do
việc so khớp theo giải thuật xoắn thời gian động bậc 2 so với số lượng véctơ đặc trưng MFCC.
Phương pháp chúng tôi đề xuất dựa trên giải thuật Naïve Bayes Nearest Neighbor (NBNN) [11], để nhận dạng
trực tiếp các chỉ thị lệnh âm thanh mà cũng không cần có bước tiền xử lý để biểu diễn mô hình túi từ. Phương pháp có
ưu điểm rất lớn do tính đơn giản, đạt được độ chính xác cao và thời gian nhận dạng nhanh hơn rất nhiều so với dùng
giải thuật DTW.
3.2. Giải thuật NBNN
Giải thuật NBNN đã được đề xuất bởi O. Boiman [11] vào năm 2008. NBNN thực hiện tính toán trực tiếp
khoảng cách từ “ảnh đến lớp”, để thực hiện phân lớp ảnh mà không cần phải qua bước tạo mô hình túi từ như thường
thấy trong phân lớp ảnh [3]. NBNN là phương pháp phân loại ảnh rất thành công, được mở rộng xử lý trong phân lớp
ảnh và các ứng dụng tương tự [1], [9], [14] và [17].
Chúng tôi đề xuất sử dụng phương pháp NBNN thực hiện nhận dạng tiếng nói như sau. Khi có chỉ thị lệnh âm
thanh được đưa vào, thực hiện rút trích các đặc trưng MFCC, thu được các mô tả của âm thanh d1, ..., dn (đặc trưng
MFCC). Tương ứng với mỗi lớp C, cần tính tổng khoảng cách mỗi di đến láng giềng gần nhất của di trong lớp C, là nhỏ
nhất.
ݏݑ݉ ൌ ‖݀ െ ܰ ܰ(݀)‖ଶୀଵ (8)
Trong đó NNC(di) là mô tả láng giềng gần nhất của di trong phân lớp C.
Ý tưởng NBNN là thực hiện tính mật độ xác suất p(d|C) của mô tả di trong lớp C. Vì các mô tả trong cơ sở dữ
liệu là rất lớn việc tính toán trở nên khó khăn hơn, nên một ước lượng mật độ xác suất Parzen cung cấp một xấp xỉ mật
độ xác suất p(d|C) làm cho việc tính toán nhẹ hơn. Cho ݀ଵ, ݀ଶ, ., ݀ trong lớp C là các mô tả của tất cả các đặc
trưng MFCC của âm thanh trong lớp C.
Sau đó ta ước tính Parzen của p(d|C) ta được:
2
đ
tr
݀
k
th
x
th
g
k
l
h
02
Trong đ
Trong t
Như đã
ộ (݀|ܥ).
Để tính
ình (9), việc
(j=1.L).
há xa so với h
ể tính xấp xỉ
., ݀ trong l
Trong c
ác. Có thể xe
ì khả năng ph
iềng gần nhấ
hi r thay đổi
og[p(d|C)] kh
Trong
ọa giải thuật N
ó K(*) là một
hực tiễn, K(*)
chỉ ra trong [
toán có được
tính toán này
Gần như các m
ầu hết các m
phương trình
ớp C.
ông thức (11
m điều này ở
ân biệt mô tả
t) thì khả năng
(r =1.1000
ông còn phụ t
đó, các mô t
BNN tính kh
Thuật toán N
Bước 1:
Bước 2:
Bước 3:
ĐIỀU KHIỂN R
̂(݀
hàm của Par
là một hàm G
2], khi L tiến
độ chính xá
tốn rất nhiều
ô tả của âm
ô tả trong cơ s
(9) bằng cách
), ngay cả khi
hình 6. Khi c
d trong ܥ và
phân biệt gầ
). Chọn r=1
huộc vào sự k
lo
ả di của tập ti
oảng cách đế
BNN nhận
Tính toán tất
∀݀∀ܥ tìm lá
ܥመ ൌ argmin
OBOT PIONEE
|ܥ) ൌ ଵ ∑ୀଵ
zen và hàm K
auss:
ܭ(݀ െ ݀)
đến vô cùng v
Hình 6. Biểu đ
c cao, tất cả
thời gian vì n
thanh đầu và
ở dữ liệu, chỉ
sử dụng r lá
ேே
r=1 láng giề
ác mô tả d củ
̅ܥ là rất thấp.
n như có chín
là thuận tiện
hác biệt của
)|(g ∞CQp
n âm thanh tư
n láng giềng
dạng âm tha
cả các mô tả
ng giềng gần
(∑ ‖݀ െ ܰୀଵ
R P3-DX BẰNG
ܭ൫݀ െ ݀൯
(*) > 0.
ൌ exp (െ ଵଶఙమ
à σ giảm một
ồ so sánh 1-NN
các mô tả tron
ó đòi