Điều khiển robot PIONEER P3-DX bằng tiếng nói với đặc trưng MFCC và giải thuật Naïve Bayes Nearest Neighbors

Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20 người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được. Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector machines - máy học véctơ hỗ trợ) SVM và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping – xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu cầu điều khiển robot thời gian thực.

pdf10 trang | Chia sẻ: candy98 | Lượt xem: 603 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Điều khiển robot PIONEER P3-DX bằng tiếng nói với đặc trưng MFCC và giải thuật Naïve Bayes Nearest Neighbors, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9_10/7/2015 ĐIỀU KHIỂN ROBOT PIONEER P3-DX BẰNG TIẾNG NÓI VỚI ĐẶC TRƯNG MFCC VÀ GIẢI THUẬT NAÏVE BAYES NEAREST NEIGHBORS Mã Trường Thành1, Đỗ Thanh Nghị2, Phạm Nguyên Khang2, Châu Ngân Khánh3 1Khoa Kỹ thuật – Công nghệ, Trường CĐCĐ Sóc Trăng 2Khoa CNTT&TT, Trường Đại học Cần Thơ 3Trường Đại học An Giang truongthanh1511@gmail.com,dtnghi@cit.ctu.edu.vn TÓM TẮT - Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20 người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được. Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector machines - máy học véctơ hỗ trợ) SVM và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping – xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu cầu điều khiển robot thời gian thực. Từ khóa - Nhận dạng âm thanh, Đặc trưng MFCC, Naive Bayes Nearest Neighbor, Điều khiển robot Pioneer P3-DX. I. GIỚI THIỆU Nghiên cứu điều khiển robot là bài toán được các nhà khoa học quan tâm, nhằm phục vụ cho con người trong nhiều lĩnh vực ứng dụng như: robot khuân hàng hóa, robot dọn rác, lau nhà, đá bóng, dẫn dường, robot trong công nghiệp ôtô, thăm dò khai thác mỏ, robot thợ lặn, v.v. Do có tính ứng dụng cao nên các nhà nghiên cứu đã bắt tay vào phát triển robot thông minh hơn, phục vụ tốt cho nhu cầu phát triển kinh tế - xã hội. Để làm được điều đó, cần có sự kết nối giữa “bộ não thông minh” và robot để tạo nên những robot thông minh như ngày nay. Máy học chính là nền tảng giúp robot có thể thông minh, hoạt động tinh vi hơn. Trong các hướng nghiên cứu về lĩnh vực robot, điều khiển robot thông qua nhận dạng hình ảnh và nhận dạng tiếng nói là một trong những lĩnh vực được các nhiều nhà nghiên cứu quan tâm rất nhiều do tính khả thi và khả năng ứng dụng trong thực tiễn. Hiện nay các nghiên cứu liên quan đến nhận dạng tiếng nói đã được thực hiện trên nhiều hướng phát triển, mục tiêu khác nhau và đạt hiệu quả cao. Tiêu biểu là hệ thống Desktop Via Voice của IBM hay hệ thống Speed Recognition Engine của Microsoft và bộ công cụ HTK dựa trên mô hình Markov ẩn của Đại học Cambridge hay Đại học Mellon với CMU Sphinx. Những sản phẩm (công cụ) đã được áp dụng nhiều trong thực tế, nhận dạng và xử lý âm thanh. Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] là MFCC (Mel-scale Frequency Cepstral Coefficient), LPC (Linear Prediction Coefficients), FFT (Fast Fourier Transform). Mô hình máy học thường được sử dụng có thể là mạng nơron nhân tạo [10], [12], mô hình Markov ẩn HMM [16], [20]. Các nghiên cứu trong thời gian gần đây [11], [15], [19] tập trung vào sử dụng đặc trưng MFCC [7] đạt được hiệu quả cao. Nhóm tác giả trong [11] đề xuất rút trích đặc trưng MFCC từ âm thanh, biểu diễn các đặc trưng MFCC theo mô hình túi từ với hỗ trợ của giải thuật gom cụm kmeans [13], huấn luyện mô hình máy học véctơ hỗ trợ SVM [18] để nhận dạng âm thanh. Nghiên cứu của [15], [19] cũng thực hiện rút trích đặc trưng MFCC nhưng sử dụng giải thuật xoắn thời gian động DTW (Dynamic Time Warping) để nhận dạng trực tiếp tiếng nói. Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực. Hệ thống thực hiện rút trích đặc trưng âm thanh MFCC, không cần qua bước tiền xử lý và biểu diễn phức tạp, hệ thống sử dụng giải thuật NBNN (Naïve Bayes Nearest Neighbor [2]) để nhận dạng trực tiếp tiếng nói là các lệnh điều khiển. Kết quả thử nghiệm trên tập dữ liệu thu thập từ 20 người nói khác nhau cho thấy đề xuất của chúng tôi đạt được độ chính xác đến 98.5% nhưng vẫn đáp ứng được về thời gian nhận dạng để điều khiển robot theo thời gian thực. Phần tiếp theo của bài báo được tổ chức như sau: Phần II giới thiệu về robot Pioneer P3-DX. Phần III trình bày việc điều khiển robot Pioneer P3-DX bằng tiếng nói thông qua giải thuật NBNN với đặc trưng MFCC được rút trích để nhận dạng. Phần IV trình bày kết quả thực nghiệm cũng như cách di chuyển của robot và khoảng cách thông qua Sonar và Laser tương ứng với vận tốc điều khiển robot trước khi kết luận và hướng phát triển được trình bày trong phần V. II. SƠ LƯỢC VỀ ROBOT PIONEER P3-DX Robot được sử dụng trong bài báo này là loại robot di động của hãng Adept Mobile Robot với dòng Pioneer P3- DX. Robot Pioneer [22] là một dòng sản phẩm robot được nhiều nhà chuyên gia, các nghiên cứu đánh giá cao và được 1 s c g 1 b d đ p c tr b P 1 tr 98 ử dụng phổ b ó thể “lập trìn Robot P ọi là bánh ch 9.5cm, thân đ iến siêu âm đ Vì khả ành cho nhữn ộng nhịp nhà Cốt lõi hần mềm cho họn ngôn ngữ ên đa nền (W Gói thư iên dịch gói t ublic License .2 m/s và có t Xây dự ưng, huấn lu iến trong các h được”. ioneer P3-DX ính và bánh ược bao bọc ể dò tìm vật c năng có thể l g nhà nghiên ng. của SDK mà tất cả các nề phù hợp cho indows và Li viện Aria sử hư viện. Aria ). Robot Pion ải trọng đồ vậ III. ng một hệ th yện mô hình ĐIỀU KHIỂN R nghiên cứu ro [22] là loại phụ sau di c bởi kim loại n ản. Robot Pio ập trình được cứu robot, c robot Pionee n tảng và các mình với 3 nux). dụng gcc trên là một gói th eer P3-DX có y lên đến 22k Hình 2. Đề x ĐIỀU KHIỂ ống nhận dạn máy học nhậ OBOT PIONEE bot hiện nay. robot di động huyển tự do, hôm cứng cá neer P3-DX c nên hãng Ad ác loại máy t r hoạt động c thiết bị, gói t ngôn ngữ hỗ Linux và Vi ư viện mã ng thể di chuyể g. Hình 1. Ro uất mô hình ho N ROBOT P g tiếng nói b n dạng. Tron R P3-DX BẰNG Robot này đư nhỏ, trọng lư thực hiện nh p. Phía trước ó 3 pin nhằm ept Mobile R ính có thể dễ hính là gói thư hư viện khá l trợ: C++, Jav sual C++ trên uồn mở được n tới và di chu bot Pionner P3 ạt động điều kh IONEER P3 ao gồm hai b g bài báo này TIẾNG NÓI VỚ ợc tạo ra và c ợng nhẹ với 3 iệm vụ cân b được trang bị dự trữ và có obot đã hỗ trợ dàng cài đặt viện ARIA[ inh hoạt giúp a hoặc Python Window để t đính kèm the yển lui cũng -DX [22] iển robot Pion -DX BẰNG T ước chính [5 , chúng tôi đ I ĐẶC TRƯNG ho phép ngư bánh xe (2 b ằng và rẽ), b 8 cảm biến S thể thay đổi n bộ SDK (so và tích hợp v 21], đây là gó cho nhiều nh , gói thư viện hực hiện viết o giấy phép c như di chuyển eer P3-DX IẾNG NÓI ], [6], [7]: rú ề xuất mô hì MFCC VÀ GIẢ ời nghiên cứu ánh trước chủ ánh xe có đ onar – đây là hanh chóng. ftware develo ào để robot c i thư viện để à phát triển d có thể được các ứng dụng ủa GNU GPL rẽ với vận tố t trích và biể nh nhận dạng I THUẬT hoàn toàn động còn ường kính dạng cảm pment kit) ó thể hoạt phát triển ễ dàng lựa phát triển cũng như (General c tối đã là u diễn đặc dạng âm Mth â th l c lý t n t M g 3 đ v tr h l s q x h n t t s H ã Trường Thành anh trực tiếp m thanh thu anh), trước h ệnh. Có 5 lệnh ơ bản). Tín hiệ nào, tín hiệu ín hiệu đầu và hau, mỗi mẫu ín hiệu âm th FCC [7] để n ia trong lĩnh v .1. Đặc trưng Kỹ thuậ ược biến đổi ới âm thanh. ước sẽ là đầu iệu âm thanh iên tiếp nhau, Trong b ố lượng nhất uả là một tập uất đặc trưng Bước 1 Thực hi ai khung kề n gười ta thườn ần số cao lên iếng nói lớn h ố được thực h ܻሾ݊ሿ ൌ Trong đ Bước 2 Lấy cử amming (với ݓሾ݊ሿ ൌ Trong đ , Đỗ Thanh Ngh bằng giải thu thập như mô ết chúng tôi t điều khiển c u âm thanh ng âm thanh cầ o. Như vậy, là giá trị biê anh là tần số ghiên cứu ch ực âm thanh MFCC [7] t rút trích đặ Fourier dạng Kỹ thuật tríc vào của bướ sau khi được mỗi mẫu là m ài này, chúng định tạo thành trong trích ch MFCC sẽ bao : Phân khung ện chia tín hi hau lệch nha g tăng âm th nhằm làm tăn ơn lên để ảnh iện như công ܺሾ݊ሿ െ 0.95 ó X là tín hiệ : Lấy cửa sổ a sổ nhằm g α = 0.54), th ቊ∝ െ (1െ∝ ó: w[n] là hệ ị, Phạm Nguyên K ật NBNN [2] tả trong hình iến hành thu ơ bản là: thẳn oài đời thực n được số hóa một tín hiệu n độ của tín h lấy mẫu (Fs o hệ thống đi sử dụng và rấ c trưng MFC phổ) về than h chọn đặc tr c biến đổi sau đưa vào máy ột giá trị thực tôi thực hiện một frame, t ọn được sử d gồm 5 bước (Frame Blo ệu đầu vào th u M mẫu: M anh (Pre-emp g năng lượn hưởng của cá thức (1): ൈ ܺሾ݊ െ 1ሿ u đầu vào trê (Windowing) iảm sự gián eo công thức ) ܿ݋ݏ ቀଶగ௡௅ ቁ ݒ 0 số cho mẫu th hang, Châu Ngâ sử dụng đặc 2. Để chuẩn âm từ 20 ngư g tiến, đi lùi, là tín hiệu liê . Việc này đư âm thanh bất iệu tại một th ), là số mẫu đ ều khiển này t thành công t C dựa trên vi g đo tần số M ưng này gồm . Đầu vào của tính đã đượ , thể hiện giá lấy mẫu với rích chọn đặc ụng trong bài cơ bản như h Hình 3. T cking) ành các đoạn =(1/2)N (Biết hasis) trước k g ở vùng có t c âm thanh m n từng khung đoạn của tín (2): ớ݅ 0 ൑ ݊ ൑ ܰ ứ n trong fram n Khánh trưng MFCC bị cho pha hu ời đọc khác n quẹo trái, qu n tục, hay tính ợc thực hiện kỳ khi đã đư ời điểm nhất ược lấy tron bởi vì MFCC rong việc nhậ ệc thực hiện el, một thang các bước biế quá trình đặc c rời rạc hóa trị biên độ củ tần số 16.000 trưng MFCC viết gồm 39 g ình 3. rích đặc trưng nhỏ khoảng 2 N>M). Tron hi thực hiện p ần số cao – v ôi trường và mẫu; Y là cư hiệu ở đầu v െ 1,ܰ ݈à ݏố ݐݎườ݊݃ ݄ e. để thực hiện ấn luyện và hau, mỗi chỉ ẹo phải, dừng hiệu tương t tự động bởi c ợc đưa vào m định. Một th g một giây. C là phương ph n dạng tiếng biến đổi để c đo diễn tả tố n đổi liên tiế trưng này sẽ nên đoạn tín a âm thanh tạ Hz (âm thanh cho ta tập đặ iá trị đặc trưn MFCC 0ms-30ms. Ph g bước này, đ hân khung v ùng tần số củ nhiễu trở thàn ờng độ tần số à cuối mỗi ݉ẫݑ ݐݎ݋݊݃ ݉ ợ݌ ݄݇áܿ điều khiển ro nhận dạng tiế thị lệnh âm th lại và lệnh kh ự trước khi th ác thiết bị thu áy tính, là m am số quan tr húng tôi đề áp trích đặc tr nói. huyển dữ liệu t hơn sự nhạ p, trong đó đ là một đoạn hiệu tiếng nó i một thời điể nghe được) c trưng cho m g cho mỗi mộ ân khung tín ể hiệu quả c ì thực hiện tă a tiếng nói, m h không đáng tăng (pre-em khung vừa đ ộݐ ݂ݎܽ݉݁ bot theo các c ng nói (chỉ th anh tương ứn ác (không th ực hiện bất c âm, bằng các ột tập các mẫ ọng trong việ xuất sử dụng ưng được nh âm thanh đ y cảm của tai ầu ra của bướ tín hiệu tiếng i này bao gồm m nhất định. , một đoạn mẫ ỗi frame tiến t frame tiếng hiệu mỗi khu ho âm thanh ng cường độ ột cách dễ h kể. Tăng cư phasis after). ược chia. Dù 199 hỉ thị lệnh ị lệnh âm g với một uộc 5 lệnh ứ bước xử h lấy mẫu u liên tiếp c lấy mẫu đặc trưng iều chuyên ầu vào (đã người đối c biến đổi nói. Vì tín các mẫu u với một g nói. Kết nói. Trích ng N mẫu, được nhận của những iểu là làm ờng độ tần (1) ng cửa sổ (2) 2 k đ c c b th s 00 Trong l hác, nếu sử d iểm nữa là cá Sử dụn ửa sổ được đị Frame Frame Mỗi fra Trong đ ho mẫu thứ n Bước 3 Bước b iến đổi này, t Công th Trong đ ành phần tần Tuy nh ử dụng FFT: Bước 4 oại cửa sổ Ha ụng cửa sổ H c giá trị biên g một cửa sổ nh nghĩa bằng size: độ rộng shift: bước nh me sau đó sẽ ó X[n] là gi trong frame đ H : Biến đổi FF iến đổi tiếp th ín hiệu sẽ đượ ức của biến đ ó x[n] là giá số trong tín h iên, để cải tiế : Biến đổi sa ĐIỀU KHIỂN R mming, giá t amming để lấ của cửa sổ Ha (window) chạ các thông số của cửa sổ, cũ ảy của cửa sổ được nhân vớ á trị của mẫu ó. ình 4. Chia cử T (Fast Four eo là thực hiệ c đưa về khôn ổi Fourier rời ܺሾ݇ሿ ൌ trị của mẫu iệu gốc, N là n cho chuyển ng thang đo M OBOT PIONEE rị của tín hiệu y ra các fram mming tiến d y dọc tín hiện : ng là độ lớn c , là độ dài đoạ i một hệ số, g thứ n và Y[n a sổ (Windowin ier Transform n biến đổi Fo g gian tần số rạc như sau: ∑ ݔሾ݊ሿ݁ିேିଵ௡ୀ଴ thứ n trong f số mẫu trong đổi mỗi khun ܻ(߱ Hình 5. el (Mel-freq R P3-DX BẰNG sẽ giảm dần e, năng lượng ần về 0 sẽ làm âm thanh và ủa frame tín h n mà cửa sổ iá trị của hệ s ܻሾ݊ ] là giá trị củ g) dựa vào độ r ) urier rời rạc đ . ௝ଶഏಿ௞௡ rame, X[k] là một frame. g với N mẫu ) ൌ ׬ ݕ(ିஶାஶ Thang đo tần s uency Wrap TIẾNG NÓI VỚ về 0 khi tiến của mỗi fram bước biến đ cắt ra các đo iệu sẽ được c sẽ trượt để cắt ố này tùy thuộ ሿ ൌ ݓሾ݊ሿ ∗ ܺ a mẫu thứ n ộng và bước nh ối với từng m một số phức từ miền thời ݐ)݁ି௜ఠ௧ ố Mel ping) I ĐẶC TRƯNG dần ra hai b e sẽ tập trun ổi Fourier trở ạn tín hiệu nằ ắt ra. ra frame tiếp c vào từng lo ሾ݊ሿ sau khi nhân ảy của cửa sổ ẩu tín hiệu đ biểu diễn cư gian sang miề MFCC VÀ GIẢ iên của frame g ở giữa fram nên dễ dàng h m trong cửa theo. ại cửa sổ. với hệ số, w[ ã được cắt ra ờng độ và ph n tần số đượ I THUẬT . Nói cách e, một ưu ơn. sổ đó. Một (3) n] là hệ số . Qua phép (4) a của một c nhanh sẽ (5) Mã Trường Thành, Đỗ Thanh Nghị, Phạm Nguyên Khang, Châu Ngân Khánh 201 Trong mô hình trích chọn đặc trưng MFCC, tần số sẽ được chuyển sang thang đo tần số Mel theo công thức: ௠݂௘௟- ൌ 2595 ∗ ln ቀ1 ൅ ୤଻଴଴ቁ (6) Trong đó f là tần số ở thang đo thường, fmel là tần số ở thang đo Mel. Người ta sử dụng các băng lọc để tính các hệ số Mel. Sử dụng bao nhiêu băng lọc thì sẽ cho ra bấy nhiêu hệ số Mel và các hệ số Mel này sẽ là đầu vào cho quá trình tiếp theo của trích chọn đặc trưng MFCC. Bước 5: Hệ số Cepstrum (Cepstral Coefficients) Bước tiếp theo của việc trích chọn đặc trưng MFCC là biến đổi Fourier ngược với đầu vào là các hệ số phổ Mel của bước trước, đầu ra sẽ là các hệ số cepstrum (MFCC – Mel Frequency Cepstrum Coefficients). Kết quả của bước này là ta tính được hệ số MFCC theo công thức: ܯܨܥܥ(݅) ൌ ଵே௙௜௟௧௘௥௦ ൈ ∑ ݂ܾ݉(݈) ൈ cos (݅(݈ െ ଵ ଶ) ൈ గ ே௙௜௟௧௘௥) ே௙௜௟௧௘௥௦ ௜ୀଵ (7) Trích chọn đặc trưng MFCC sẽ thu được các đặc trưng sau đây: - 12 giá trị đặc trưng phổ Mel được biến đổi Fourier ngược - 12 giá trị delta phổ - 12 giá trị double delta phổ - 1 giá trị mức năng lượng - 1 giá trị delta mức năng lượng - 1 giá trị double delta mức năng lượng Tổng cộng: 39 đặc trưng cho mỗi frame tiếng nói. Việc rút trích đặc trưng MFCC từ một chỉ thị lệnh âm thanh cho ra tập hợp các véctơ đặc trưng khác nhau. Các giải thuật máy học (như mạng nơron hay SVM) thường cần dữ liệu đầu vào là bảng có cùng số chiều (cột, thuộc tính) để huấn luyện mô hình nhận dạng. Để có thể tạo cấu trúc bảng cho giải thuật học, cần phải biểu diễn lại các đặc trưng theo mô hình túi từ, như đã thực hiện trong các nghiên cứu [3], [11]. Sử dụng giải thuật kmeans [13] gom nhóm các véctơ MFCC vào các nhóm (cluster) và mỗi cluster tương ứng với một từ. Tập các cluster này tạo thành một từ điển. Sau cùng, mỗi véctơ MFCC trong chỉ thị lệnh âm thanh sẽ được gán vào cluster gần nhất (dựa vào khoảng cách mỗi véctơ đến các tâm của các cluster đại diện đã được định nghĩa trước đó. Tiếp theo, một chỉ thị lệnh âm thanh được biểu diễn bằng tần số của các từ trong chỉ thị lệnh âm thanh. Bước tiền xử lý này thường làm giảm độ chính xác khi nhận dạng tuy xử lý rất nhanh. Các nghiên cứu của [15], [19] sử dụng giải thuật xoắn thời gian động DTW (Dynamic Time Warping) để nhận dạng trực tiếp tiếng nói mà không cần qua bước biểu diễn mô hình túi từ. Phương pháp tuy đơn giản nhưng độ chính xác cao hơn sử dụng mô hình túi từ. Khuyết điểm của phương pháp chính là thời gian thực thi khi nhận dạng rất lâu do việc so khớp theo giải thuật xoắn thời gian động bậc 2 so với số lượng véctơ đặc trưng MFCC. Phương pháp chúng tôi đề xuất dựa trên giải thuật Naïve Bayes Nearest Neighbor (NBNN) [11], để nhận dạng trực tiếp các chỉ thị lệnh âm thanh mà cũng không cần có bước tiền xử lý để biểu diễn mô hình túi từ. Phương pháp có ưu điểm rất lớn do tính đơn giản, đạt được độ chính xác cao và thời gian nhận dạng nhanh hơn rất nhiều so với dùng giải thuật DTW. 3.2. Giải thuật NBNN Giải thuật NBNN đã được đề xuất bởi O. Boiman [11] vào năm 2008. NBNN thực hiện tính toán trực tiếp khoảng cách từ “ảnh đến lớp”, để thực hiện phân lớp ảnh mà không cần phải qua bước tạo mô hình túi từ như thường thấy trong phân lớp ảnh [3]. NBNN là phương pháp phân loại ảnh rất thành công, được mở rộng xử lý trong phân lớp ảnh và các ứng dụng tương tự [1], [9], [14] và [17]. Chúng tôi đề xuất sử dụng phương pháp NBNN thực hiện nhận dạng tiếng nói như sau. Khi có chỉ thị lệnh âm thanh được đưa vào, thực hiện rút trích các đặc trưng MFCC, thu được các mô tả của âm thanh d1, ..., dn (đặc trưng MFCC). Tương ứng với mỗi lớp C, cần tính tổng khoảng cách mỗi di đến láng giềng gần nhất của di trong lớp C, là nhỏ nhất. ݏݑ݉ ൌ ෌ ‖݀௜ െ ܰ ஼ܰ(݀௜)‖ଶ௡௜ୀଵ (8) Trong đó NNC(di) là mô tả láng giềng gần nhất của di trong phân lớp C. Ý tưởng NBNN là thực hiện tính mật độ xác suất p(d|C) của mô tả di trong lớp C. Vì các mô tả trong cơ sở dữ liệu là rất lớn việc tính toán trở nên khó khăn hơn, nên một ước lượng mật độ xác suất Parzen cung cấp một xấp xỉ mật độ xác suất p(d|C) làm cho việc tính toán nhẹ hơn. Cho ݀ଵ஼, ݀ଶ஼, ., ݀௅஼ trong lớp C là các mô tả của tất cả các đặc trưng MFCC của âm thanh trong lớp C. Sau đó ta ước tính Parzen của p(d|C) ta được: 2 đ tr ݀ k th x th g k l h 02 Trong đ Trong t Như đã ộ ݌(݀|ܥ). Để tính ình (9), việc ௝஼ (j=1.L). há xa so với h ể tính xấp xỉ ., ݀௅஼ trong l Trong c ác. Có thể xe ì khả năng ph iềng gần nhấ hi r thay đổi og[p(d|C)] kh Trong ọa giải thuật N ó K(*) là một hực tiễn, K(*) chỉ ra trong [ toán có được tính toán này Gần như các m ầu hết các m phương trình ớp C. ông thức (11 m điều này ở ân biệt mô tả t) thì khả năng (r =1.1000 ông còn phụ t đó, các mô t BNN tính kh Thuật toán N Bước 1: Bước 2: Bước 3: ĐIỀU KHIỂN R ݌̂(݀ hàm của Par là một hàm G 2], khi L tiến độ chính xá tốn rất nhiều ô tả của âm ô tả trong cơ s (9) bằng cách ), ngay cả khi hình 6. Khi c d trong ܥ và phân biệt gầ ). Chọn r=1 huộc vào sự k lo ả di của tập ti oảng cách đế BNN nhận Tính toán tất ∀݀௜∀ܥ tìm lá ܥመ ൌ argmin OBOT PIONEE |ܥ) ൌ ଵ௅ ∑௅௝ୀଵ zen và hàm K auss: ܭ(݀ െ ௝݀஼) đến vô cùng v Hình 6. Biểu đ c cao, tất cả thời gian vì n thanh đầu và ở dữ liệu, chỉ sử dụng r lá ݌ேே r=1 láng giề ác mô tả d củ ̅ܥ là rất thấp. n như có chín là thuận tiện hác biệt của )|(g ∞CQp n âm thanh tư n láng giềng dạng âm tha cả các mô tả ng giềng gần (∑ ‖݀௜ െ ܰ௡௜ୀଵ R P3-DX BẰNG ܭ൫݀ െ ௝݀஼൯ (*) > 0. ൌ exp (െ ଵଶఙమ à σ giảm một ồ so sánh 1-NN các mô tả tron ó đòi
Tài liệu liên quan