Thử nghiệm và đánh giá nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room

Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2

pdf20 trang | Chia sẻ: vietpd | Lượt xem: 1307 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Thử nghiệm và đánh giá nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
45 Chƣơng 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1. Dữ liệu thực nghiệm Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2: Bảng 4-1 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2007. Tổng thời gian là 3h, tổng số người tham gia là 35. Số tập tin tương ứng với số microphone trong cuộc họp đó Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin CMU_20061115-1030 4 28.4 3 CMU_20061115-1530 4 22.6 3 EDI_20061113-1500 4 22.6 8 EDI_20061114-1500 4 22.7 8 NIST_20051104-1515 4 22.4 7 NIST_20060216-1347 6 22.5 7 VT_20050408-1500 5 22.4 4 VT_20050425-1000 4 22.6 7 Bảng 4-2 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2009. Tổng thời gian là 3h, tổng số người tham gia là 38. Số tập tin tương ứng với số microphone trong cuộc họp đó Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin EDI_20071128-1000 4 29.4 8 EDI_20071128-1500 4 30.8 8 IDI_20090128-1600 4 30.1 8 IDI_20090129-1000 4 30.1 8 NIST_20080201-1405 5 20.3 7 NIST_20080227-1501 6 18.9 7 NIST_20080307-0955 11 21.3 7 46 Ngoài ra, luận văn cũng xây dựng một bộ dữ liệu riêng tại phòng Lab Emerging Research (ER) tại trường ĐH Kỹ thuật Nanyang, Singapore. Chúng tôi thiết kế một phòng họp có diện tích 12m2 gồm 4 microphone đặt trên bàn cách người nói khoảng 1m. Độ phản âm trong phòng khoảng 350ms. Số người nói tham gia là 3 người. Không có chồng lấp tiếng nói trong quá trình diễn ra cuộc họp và thời gian cho mỗi cuộc họp là từ 10-11 phút. Có tổng cộng 5 cuộc họp được thực hiện với thông tin chi tiết như sau (Bảng 4.3): Bảng 4-3 Thông tin về các cuộc họp trong bộ dữ liệu tự tạo. Tổng thời gian là 51 phút, tổng số người tham gia là 15. Số tập tin tương ứng với số microphone trong cuộc họp đó Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin Test1 3 11 4 Test2 3 10 4 Test3 3 10 4 Test4 3 10 4 Test5 3 10 4 4.2. Độ đo đánh giá Độ đo đánh giá được sử dụng trong luận văn là độ đo lỗi DER [62] (Diarization Error Rate) theo định nghĩa sau: 𝐷𝐸𝑅 = tổng tất cả thời gian ghi nhật ký lỗi tổng thời gian tham chiếu (4.1) = 𝑆𝐸 +𝑀𝑆 + 𝐹𝐴 𝑆𝑃𝐾 % (4.2)  Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ đoạn âm thanh của Người A nhưng lại bị gán cho Người B.  Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện được đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người cùng nói đồng thời nhưng chỉ có một người được phát hiện. 47  Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược lại với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát hiện là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai người nói.  Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời gian được tính theo người nói thực sự, làm cơ sở để tham chiếu. 4.3. Các kĩ thuật áp dụng và tham số 4.3.1. Kĩ thuật lọc nhiễu Kỹ thuật lọc nhiễu sử dụng trong Hệ thống xử lý đa kênh là kỹ thuật lọc Wiener [51] cho từng microphone và kỹ thuật Delay-and-Sum beamforming [58] cho nhiều microphone sử dụng hai thư viện mã nguồn mở “Qualcomm-ICSI-OGI front end for Wiener Filter” [2] và “Delay-and-Sum BeamformIt Tool-kit” [56] tương ứng. Các tham số cho từng bộ thư viện trên như sau:  Qualcomm-ICSI-OGI front end for Wiener Filter o Window_length = 20ms o Window_shift = 10ms o FFT_length = 256 o Noisest_Threshold = 2.0 o Noisest_Alpha = 0.99 o Filter_Power = 2.0  Delay-and-Sum BeamformIt Tool-kit o Input_audio_sample_rate: 16000Hz o Input_audio_sample_size: 16bits/sample 4.3.2. Kĩ thuật tính TDOA Để thực nghiệm trong môi trường SMR, luận văn sử dụng phương pháp tính TDOA dựa theo GCC-PHAT (Generalized Cross-Correlation using Phase 48 Transform) [8]. Đây là phương pháp tính TDOA phổ biến nhất hiện nay với độ chính xác cao và tốc độ xử lý nhanh. Các tham số cho thuật toán tính TDOA theo GCC-PHAT:  Window_length = 500ms  Window_shift = 250ms 4.3.3. Đặc trƣng ngữ âm cho Hệ thống xử lý đa kênh Đối với Hệ thống xử lý đa kênh, luận văn sử dụng hai đặc trưng ngữ âm là MFCC (Mel Frequency Cepstral Coefficients) [45] và LPCC (Linear Prediction Cepstral Coefficients) [22]. MFCC là đặc trưng thể hiện cho các phổ có mức năng lượng bước sóng ngắn và LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin được rút trích từ mô hình dự báo tuyến tính. Đặc trưng MFCC được sử dụng trong kỹ thuật phát hiện tiếng nói (chi tiết trong mục 4.3.4). Tuy nhiên, trong các thử nghiệm thuật toán phân nhóm của hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị, LPCC lại cho thấy tính vượt trội so với các đặc trưng khác như MFCC hay PLPC. Với đặc trưng MFCC, hệ thống rút trích 36 hệ số (12 hệ số MFCC cộng với đạo hàm bậc 1 và bậc 2 của chúng). Với đặc trưng LPCC, hệ thống rút trích 19 hệ số. 4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) Luận văn thực hiện hai cách tiếp cận khác nhau cho mỗi hệ thống Ghi nhật ký người nói: Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh. 4.3.4.1. Trong Hệ thống xử lý đa kênh Trong hệ thống này, thuật toán tính VAD (sau đây sẽ gọi là chương trình) được thực hiện bằng việc xây dựng mô hình ngữ liệu, xem Hình 4.1. Đầu tiên với mỗi frame dữ liệu, chương trình tạo ra 36 đặc trưng MFCC (12 MFCC cộng với đạo hàm bậc 1 và bậc 2 của chúng). Chương trình sử dụng tất cả các đặc trưng trong mỗi đọan thu để huấn luyện các mô hình tiếng nói – phi tiếng nói (Speech – NonSpeech) khởi tạo bằng phương pháp EM. Cụ thể, chương trình lựa chọn 10% các đặc trưng có năng lượng cao nhất với tỉ lệ ngưỡng zero (zero cross) cao để làm 49 thành mô hình tiếng nói khởi tạo. Bên cạnh đó, chương trình cũng lấy ra 20% đặc trưng có mức năng lượng thấp nhất với tỉ lệ ngưỡng zero thấp để xây dựng mô hình phi tiếng nói ban đầu. Hai mô hình này sẽ được huấn luyện bằng phương pháp EM. Tất cả các frame dữ liệu còn lại sẽ được phân loại thành các thành phần tiếng nói hoặc phi tiếng nói dựa vào phương pháp Ước lượng xác suất cực đại. Cuối cùng chương trình sử dụng các đặc trưng đã phân loại này để huấn luyện lại cho mô hình tiếng nói và không tiếng nói bằng phương pháp MAP (Maximum A Posteriori) cho đến khi tỷ lệ phần trăm thay đổi của các frame tiếng nói và phi tiếng nói ít hơn 1%. Hình 4.1 Thuật toán tính VAD của Hệ thống xử lý đa kênh 4.3.4.2. Trong Hệ thống xử lý nhanh Trong hệ thống này, luận văn sử dụng phương pháp tính VAD theo mức năng lượng, cụ thể là phương pháp AMR1-VAD [16]. Chi tiết thuật toán xem Mục 3.9.2. Các tham số cho thuật toán tính AMR1-VAD:  VAD_frame_length: 256  Number_of_sub_bands: 12  Threshold_for_tone_detection: 0.65  Threshold_for_pitch_detection: 686080.0  MIN_SPEECH_SNR: 0.125  NOISE_INIT: 150*100  VAD_POW_LOW: 30000.0 Ƣớc lƣợng 10% thấp nhất 10% cao nhất Mô hình tiếng nói Mô hình phi tiếng nói EM EM Phân loại Tiếng nói Phi tiếng nói MAP (2) (1) 50 4.3.5. Phƣơng pháp phân đoạn và phân nhóm theo ngƣời nói 4.3.5.1. Trong Hệ thống xử lý đa kênh Ở quá trình phân đoạn theo người nói, luận văn thực hiện việc phân đoạn theo thông tin TDOA với hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều chiều (K2) là 9. Ở quá trình phân nhóm theo người nói, luận văn sử dụng phương pháp phân nhóm tích tụ theo bottom-up sử dụng độ đo khoảng cách Td [50]. Td là độ đo được phát triển dựa trên độ đo CLR (Cross Likelihood Ratio), sẽ được trình bày dưới đây: Tất cả các độ đo dựa theo tính toán likelihood như GLR, BIC và CLR đều giả định rằng nếu )( iM  và )( jM  là hai mô hình của cùng một người nói thì giá trị likelihood L(X| )( iM  ) sẽ gần với giá trị likelihood L(X| )( jM  ) với X={x1,…xN} là các vector đặc trưng được quan sát. Với Td, tác giả xây dựng dựa trên giả thuyết khác: nếu )( iM  và )( jM  là hai mô hình của cùng một người nói thì phân bố của các giá trị likelihood   XxMxL mim ,)(|  sẽ gần với phân bố của các giá trị likelihood   XxMxL mjm ,)(|  . Công thức xác định của độ đo Td được mô tả sau: Cho hai đoạn âm thanh (i, j) với các vector đặc trưng  iNiii ixxxX ,,, 21  và  jNjjj jxxxX ,,, 21  tương ứng. Định nghĩa:    )(|log)(|log)( Uii MxLMxLxf   (4.3)    )(|log)(|log)( Ujj MxLMxLxf   (4.4)    jjii XxxfXxxfS  |)(|)(1  (4.5)    ijji XxxfXxxfS  |)(|)(2  (4.6) Trong đó )( iM  , )( jM  là hai mô hình lượng giá cho Xi và Xj; )( UM  là mô hình nền tổng quát. Gọi m1, m2, 1 , 2 , n1, n2 tương ứng là giá trị trung bình, độ lệch chuẩn và kích thước của S1 và S2. Độ đo khoảng cách Td giữa hai đoạn Xi và Xj được tính như sau: 51 2 2 2 1 2 1 21 nn mm Td     (4.7) 4.3.5.2. Trong Hệ thống xử lý nhanh Ở quá trình phân đoạn theo người nói, tương tự như Hệ thống xử lý đa kênh, luận văn cũng thực hiện việc phân đoạn theo thông tin TDOA theo hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều chiều (K2) là 30. Ở quá trình phân nhóm theo người nói, luận văn sử dụng thuật toán phân nhóm nhanh (Fast Clustering) cải tiến. Đây là thuật toán phân nhóm tích tụ theo bottom-up dựa trên độ đo khoảng cách Manhattan. Ngòai ra để tăng thêm độ chính xác của thuật toán trong trường hợp hai cặp vector có khoảng cách Manhattan bằng nhau nhưng không tương đồng với nhau, hệ thống áp dụng thêm độ đo Most Identified Score và độ đo nhãn. Tiêu chí dừng (Threshold) là 4.0, dựa theo số lượng phần tử trong mỗi vector (là 6). 4.3.6. Kỹ thuật post-processing Kỹ thuật post-processing sử dụng thuật toán giải mã Viterbi nằm trong bộ công cụ HTK Toolkit. Các tham số cho thuật toán như sau: - Số trạng thái cho mô hình HMM: 50 - Đặc trưng sử dụng: LPCC 4.4. Kết quả thực nghiệm và thảo luận Mục tiêu của thực nghiệm nhằm chứng tỏ khả năng Phân đoạn và Phân nhóm của Hệ thống cải tiến Fast Clustering so với Hệ thống xử lý đa kênh cũng như một số hệ thống xử lý khác trong môi trường Smart Meeting Room. 4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh Hệ thống được thực nghiệm trên hai bộ dữ liệu RT2007 và RT2009 với tổng thời gian thu âm là 6 giờ, tổng số người tham gia là 73 người trong 15 cuộc họp. Chi tiết kết quả được thể hiện trong Bảng 4.4 và 4.5. 52 Bảng 4-4 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2007 RT2007 MST FST SET DER #Spk CMU_20061115-1030 9.90 2.30 4.10 16.30 4 CMU_20061115-1530 5.30 1.70 1.10 8.10 4 EDI_20061113-1500 8.00 1.50 5.90 15.40 4 EDI_20061114-1500 3.10 1.20 4.60 8.90 4 NIST_20051104-1515 4.20 0.30 1.20 5.70 4 NIST_20060216-1347 3.00 1.20 11.30 15.50 6 VT_20050408-1500 1.00 1.20 16.40 18.60 5 VT_20050425-1000 5.50 1.30 2.30 9.10 4 ALL 12.2 Bảng 4-5 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009 RT2009 MST FST SET DER #Spk EDI_20071128-1000 3.70 2.80 7.60 14.10 4 EDI_20071128-1500 8.20 6.10 11.60 25.90 4 IDI_20090128-1600 4.20 2.30 2.40 8.90 4 IDI_20090129-1000 4.80 5.80 9.20 19.80 4 NIST_20080201-1405 16.70 1.80 28.50 47.00 5 NIST_20080227-1501 8.80 0.30 2.90 12.00 6 NIST_20080307-0955 3.20 2.90 4.10 10.20 11 ALL 18.2 Trong mỗi bảng, các giá trị lỗi MST (Missed Speaker Time), FST (False Alarm Time), SET (Speaker Error Time) và lỗi tổng cộng DER được thể hiện cho từng bộ dữ liệu test. Dòng cuối cùng chỉ định giá trị trung bình của tất cả các cuộc họp. Cột cuối cùng bên phải chỉ định số người nói tương ứng. Các giá trị MST dao động từ 1.0% đến 9.9% (Bảng 4.4) và từ 3.2% đến 16.7% (Bảng 4.5) cho thấy lỗi bỏ sót người nói không ổn định. Tương tự, lỗi xác định nhãn người nói sai cũng không ổn định qua các kết quả thực nghiệm. Tuy nhiên giá trị DER cuối cùng lại khá ổn định. Với những cuộc họp có nhiều người tham gia, giá trị lỗi DER khá cao so với các cuộc họp ít người. Điều này có thể giải thích do khi có nhiều người tham gia, số lượng các phân nhóm lớn hơn và đặc biệt khả năng tiếng nói chồng lấp xảy ra cũng lớn hơn. 53 Bảng 4.6 cho biết giá trị lỗi, gọi là SAD DER (Speech Activity Detection DER), của thuật toán tính VAD trong Hệ thống xử lý đa kênh: Bảng 4-6 Giá trị lỗi SER của thuật toán tính VAD trong Hệ thống xử lý đa kênh RT2007 RT2009 SAD DER 2.97 3.55 4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh Đầu tiên, để có thể dễ dàng so sánh hiệu quả của Hệ thống xử lý nhanh so với các hệ thống Ghi nhật ký người nói khác, luận văn tiến hành thử nghiệm trên hai bộ dữ liệu RT2007 và RT2009. Trong đó, luận văn chia hệ thống ra thành hai hệ thống con với các điều kiện môi trường sau: - Hệ thống 1 (PerfectVAD): Hệ thống này sẽ tập trung vào việc thử nghiệm cho hai thuật toán Phân đoạn và Phân nhóm của Hệ thống xử lý nhanh. Do đó sẽ không tính giá trị VAD mà sẽ sử dụng thông tin VAD tham chiếu, tức thông tin VAD được xác định chính xác theo dữ liệu âm thanh đầu vào. - Hệ thống 2 (NonPerfectVAD): Hệ thống này sẽ sử dụng kết quả tính VAD theo phương pháp phát hiện tiếng nói trong Hệ thống xử lý đa kênh (dựa trên mô hình ngữ liệu) để đảm bảo tính nhất quán khi so sánh. Kết quả thử nghiệm trên bộ dữ liệu RT2007 và RT2009 của hai hệ thống được mô tả chi tiết trong các Bảng 4.7 và 4.8 sau: Bảng 4-7 Bảng kết quả thực nghiệm của Hệ thống PerfectVAD cho bộ dữ liệu RT2007 và RT2009: (a) Kết quả cho bộ RT2007 – (b) Kết quả cho bộ RT2009 54 (a) RT2007 MST FST SET DER #Spk #Initial Cluster #Detected Spk CMU_20061115-1030 8.00 0.70 7.50 16.20 4 30 4 CMU_20061115-1530 4.50 1.20 3.20 8.90 4 30 7 EDI_20061113-1500 8.20 1.10 31.60 40.90 4 30 3 EDI_20061114-1500 3.10 1.30 15.20 19.60 4 30 3 NIST_20051104-1515 4.50 1.00 21.10 26.60 4 30 7 NIST_20060216-1347 3.30 1.30 11.50 16.10 6 30 9 VT_20050408-1500 1.80 1.30 44.50 47.60 5 30 3 VT_20050425-1000 5.90 1.40 40.40 47.70 4 30 15 ALL 27.95 1 - (b) RT2009 MST FST SET DER #Spk #Initial Cluster #Detected Spk EDI_20071128-1000 4.50 1.00 4.60 10.10 4 30 5 EDI_20071128-1500 8.20 1.80 5.60 15.60 4 30 5 IDI_20090128-1600 5.10 0.60 2.80 8.50 4 30 7 IDI_20090129-1000 5.90 1.20 4.90 12.00 4 30 4 NIST_20080201-1405 15.50 1.10 31.70 48.30 5 30 9 NIST_20080227-1501 9.50 0.50 33.40 43.40 6 30 8 NIST_20080307-0955 4.30 0.70 28.10 33.10 11 30 10 ALL 24.43 1 Bảng 4-8 Bảng kết quả thực nghiệm của Hệ thống NonPerfectVAD cho bộ dữ liệu RT2007 và RT2009: (c) Kết quả cho bộ RT2007 – (d) Kết quả cho bộ RT2009 (c) RT2007 MST FST SET DER #Spk #Initial Cluster #Detected Spk CMU_20061115-1030 9.70 3.00 6.90 19.60 4 30 5 CMU_20061115-1530 5.10 2.60 2.90 10.60 4 30 6 EDI_20061113-1500 8.20 2.30 15.90 26.40 4 30 3 EDI_20061114-1500 4.90 3.20 29.70 37.80 4 30 3 NIST_20051104-1515 4.40 1.20 23.00 28.60 4 30 7 NIST_20060216-1347 2.90 2.10 26.00 31.00 6 30 9 VT_20050408-1500 1.80 2.00 58.50 62.30 5 30 4 VT_20050425-1000 5.80 2.60 16.40 24.80 4 30 9 ALL 30.14 0 - (d) RT2009 MST FST SET DER #Spk #Initial Cluster #Detected Spk EDI_20071128-1000 12.40 2.20 6.60 21.20 4 30 5 55 EDI_20071128-1500 9.40 4.80 8.60 22.80 4 30 5 IDI_20090128-1600 4.50 2.00 4.20 10.70 4 30 6 IDI_20090129-1000 5.10 6.20 9.30 20.60 4 30 5 NIST_20080201-1405 17.60 1.70 31.50 50.80 5 30 10 NIST_20080227-1501 8.80 0.30 26.60 35.70 6 30 8 NIST_20080307-0955 3.40 2.90 31.70 38.00 11 30 13 ALL 28.54 0 Trong các bảng này, ngoài các giá trị MST, FST, SET, DER còn có thêm số lượng người nói tham gia (#Spk), số lượng phân nhóm ban đầu (#Initial_Cluster = K2) và số lượng người nói xác định được (#Detected_Spk). Dòng cuối cùng cho biết giá trị trung bình của DER và số lượng phát hiện đúng của #Detected_Spk. Có thể nhận thấy rằng giá trị DER trung bình trong hệ thống NonPerfectVAD cao hơn hệ thống PerfectVAD là 2.19% (RT2007) và 4.11% (RT2009). Đó là do hệ thống PerfectVAD sử dụng giá trị VAD “hoàn hảo” trong khi hệ thống NonPerfectVAD có tính toán giá trị VAD cho riêng nó. Hơn nữa, các giá trị chênh lệch này gần đúng với giá trị lỗi SAD DER của thuật toán phát hiện tiếng nói (SAD DER) trong Hệ thống xử lý đa kênh mà hệ thống NonPerfectVAD đang sử dụng. Điều này chứng tỏ thuật toán Phân đoạn và Phân nhóm nhanh (Fast Clustering) hoạt động khá ổn định và không phụ thuộc vào kết quả phát hiện tiếng nói. Tuy nhiên, hai hệ thống trên vẫn bộc lộ những điểm yếu khá lớn. Đó là khi dữ liệu cuộc họp có số người tham gia đông đồng thời có nhiều tiếng nói chồng lấp sẽ làm cho kết quả DER tăng rất cao (> 30%). Ví dụ trong bộ dữ liệu RT2007, kết quả DER chạy cho trường hợp VT_20050408-1500 lên đến 62.3% (với hệ thống NonPerfectVAD) và thậm chí khi sử dụng VAD “chuẩn” thì DER vẫn là 47.6% (với hệ thống PerfectVAD). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói chồng lấp thì kỹ thuật tính TDOA chưa xác định được tất cả các hướng đến của người nói. Ngoài ra, cả hai hệ thống này đều rất kém trong việc phát hiện số người nói. Hệ thống PerfectVAD chỉ duy nhất một lần phát hiện chính xác số người nói. Trong khi đó hệ thống NonPerfectVAD phát hiện sai hoàn toàn. 56 Như đã biết, giá trị K2 là số phân nhóm khởi tạo cho thuật toán Phân nhóm nhanh, có được qua quá trình Lượng giá và Chuẩn hoá TDOA. Hình 4.2 cho ta thấy giá trị DER biến đổi ứng với các giá trị K2 khác nhau. Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy, với mỗi hệ thống, giá trị DER khá ổn định khi K2 tăng từ 9 đến 45. Do đó luận văn đã chọn giá trị K2 = 30 để làm số phân nhóm khởi tạo, và kết quả DER thu được khá tương đương với các hệ thống Ghi nhật ký người nói khác (sẽ được thảo luận trong phần sau). Ngoài ra, giá trị K2 tăng lên không làm cho thời gian xử lý tăng lên đột biến. Thực nghiệm cho thấy thời gian xử lý khi K2 tăng từ 9 đến 45 chỉ dao động quanh mức 35s, và thời gian chênh lệch giữa K2=9 và K2=45 là khoảng 3s (thời gian được xét cho Module xử lý chính). (a) 0 5 10 15 20 25 30 35 40 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 D ia ri za ti o n E rr o r R at e (% ) PerfectVAD System DER Giá trị K2 57 (b) Hình 4.2 Lỗi DER với nhiều giá trị K2 khác nhau. (a)Trong Hệ thống PerfectVAD. (b) Trong Hệ thống NonPerfectVAD. Một câu hỏi đặt ra là liệu việc thay đổi giá trị K1 (số cặp microphone có số lượng peak nhiều nhất được chọn trong bước Lượng giá TDOA) có giúp tăng tính hiệu quả của hệ thống hay không? Luận văn đã thử nghiệm việc tăng giá trị K1 từ 3 đến 12 và kiểm tra giá trị lỗi DER, đồng thời cũng kiểm tra chi phí tính toán tương ứng (xem Hình 4.3). Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy giá trị lỗi DER không giảm thêm bao nhiêu trong khi đó chi phí tính toán lại tăng dần. Như vậy có thể kết luận rằng chọn K1 sao cho giá trị lỗi DER thấp nhất không hẳn là một giải pháp tốt vì ta cần giữ độ cân bằng giữa tính hiệu quả và chi phí tính toán. K1 quá nhỏ sẽ không bao quát hết thông tin TDOA của các cặp microphone, K1 quá lớn lại làm tăng chí phí tính toán một cách không cần thiết. Trong thực nghiệm, K1 được chọn bằng 6 để đáp ứng cả ba yêu cầu về tính tổng quát, giá trị lỗi DER và chi phí tính toán. 0 10 20 30 40 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 D ia ri za ti o n E rr o r R at e (% ) NonPerfectVAD System DER Giá t
Tài liệu liên quan