Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2
                
              
                                            
                                
            
 
            
                 20 trang
20 trang | 
Chia sẻ: vietpd | Lượt xem: 1466 | Lượt tải: 1 
              
            Bạn đang xem nội dung tài liệu Thử nghiệm và đánh giá nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
45 
Chƣơng 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 
4.1. Dữ liệu thực nghiệm 
Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich 
Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm 
với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người 
tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2: 
Bảng 4-1 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2007. Tổng thời gian là 3h, 
tổng số người tham gia là 35. Số tập tin tương ứng với số microphone trong cuộc họp đó 
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin 
CMU_20061115-1030 4 28.4 3 
CMU_20061115-1530 4 22.6 3 
EDI_20061113-1500 4 22.6 8 
EDI_20061114-1500 4 22.7 8 
NIST_20051104-1515 4 22.4 7 
NIST_20060216-1347 6 22.5 7 
VT_20050408-1500 5 22.4 4 
VT_20050425-1000 4 22.6 7 
Bảng 4-2 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2009. Tổng thời gian là 3h, 
tổng số người tham gia là 38. Số tập tin tương ứng với số microphone trong cuộc họp đó 
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin 
EDI_20071128-1000 4 29.4 8 
EDI_20071128-1500 4 30.8 8 
IDI_20090128-1600 4 30.1 8 
IDI_20090129-1000 4 30.1 8 
NIST_20080201-1405 5 20.3 7 
NIST_20080227-1501 6 18.9 7 
NIST_20080307-0955 11 21.3 7 
46 
Ngoài ra, luận văn cũng xây dựng một bộ dữ liệu riêng tại phòng Lab 
Emerging Research (ER) tại trường ĐH Kỹ thuật Nanyang, Singapore. Chúng tôi 
thiết kế một phòng họp có diện tích 12m2 gồm 4 microphone đặt trên bàn cách 
người nói khoảng 1m. Độ phản âm trong phòng khoảng 350ms. Số người nói tham 
gia là 3 người. Không có chồng lấp tiếng nói trong quá trình diễn ra cuộc họp và 
thời gian cho mỗi cuộc họp là từ 10-11 phút. Có tổng cộng 5 cuộc họp được thực 
hiện với thông tin chi tiết như sau (Bảng 4.3): 
Bảng 4-3 Thông tin về các cuộc họp trong bộ dữ liệu tự tạo. Tổng thời gian là 51 phút, 
tổng số người tham gia là 15. Số tập tin tương ứng với số microphone trong cuộc họp đó 
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin 
Test1 3 11 4 
Test2 3 10 4 
Test3 3 10 4 
Test4 3 10 4 
Test5 3 10 4 
4.2. Độ đo đánh giá 
Độ đo đánh giá được sử dụng trong luận văn là độ đo lỗi DER [62] 
(Diarization Error Rate) theo định nghĩa sau: 
𝐷𝐸𝑅 =
tổng tất cả thời gian ghi nhật ký lỗi
tổng thời gian tham chiếu
 (4.1) 
 =
𝑆𝐸 +𝑀𝑆 + 𝐹𝐴
𝑆𝑃𝐾
% (4.2) 
 Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện 
đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ 
đoạn âm thanh của Người A nhưng lại bị gán cho Người B. 
 Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện 
được đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người 
cùng nói đồng thời nhưng chỉ có một người được phát hiện. 
47 
 Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược 
lại với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát 
hiện là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai 
người nói. 
 Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời 
gian được tính theo người nói thực sự, làm cơ sở để tham chiếu. 
4.3. Các kĩ thuật áp dụng và tham số 
4.3.1. Kĩ thuật lọc nhiễu 
Kỹ thuật lọc nhiễu sử dụng trong Hệ thống xử lý đa kênh là kỹ thuật lọc 
Wiener [51] cho từng microphone và kỹ thuật Delay-and-Sum beamforming [58] 
cho nhiều microphone sử dụng hai thư viện mã nguồn mở “Qualcomm-ICSI-OGI 
front end for Wiener Filter” [2] và “Delay-and-Sum BeamformIt Tool-kit” [56] 
tương ứng. 
Các tham số cho từng bộ thư viện trên như sau: 
 Qualcomm-ICSI-OGI front end for Wiener Filter 
o Window_length = 20ms 
o Window_shift = 10ms 
o FFT_length = 256 
o Noisest_Threshold = 2.0 
o Noisest_Alpha = 0.99 
o Filter_Power = 2.0 
 Delay-and-Sum BeamformIt Tool-kit 
o Input_audio_sample_rate: 16000Hz 
o Input_audio_sample_size: 16bits/sample 
4.3.2. Kĩ thuật tính TDOA 
Để thực nghiệm trong môi trường SMR, luận văn sử dụng phương pháp tính 
TDOA dựa theo GCC-PHAT (Generalized Cross-Correlation using Phase 
48 
Transform) [8]. Đây là phương pháp tính TDOA phổ biến nhất hiện nay với độ 
chính xác cao và tốc độ xử lý nhanh. 
Các tham số cho thuật toán tính TDOA theo GCC-PHAT: 
 Window_length = 500ms 
 Window_shift = 250ms 
4.3.3. Đặc trƣng ngữ âm cho Hệ thống xử lý đa kênh 
Đối với Hệ thống xử lý đa kênh, luận văn sử dụng hai đặc trưng ngữ âm là 
MFCC (Mel Frequency Cepstral Coefficients) [45] và LPCC (Linear Prediction 
Cepstral Coefficients) [22]. MFCC là đặc trưng thể hiện cho các phổ có mức năng 
lượng bước sóng ngắn và LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin 
được rút trích từ mô hình dự báo tuyến tính. Đặc trưng MFCC được sử dụng trong 
kỹ thuật phát hiện tiếng nói (chi tiết trong mục 4.3.4). Tuy nhiên, trong các thử 
nghiệm thuật toán phân nhóm của hệ thống Ghi nhật ký người nói cho dữ liệu hội 
nghị, LPCC lại cho thấy tính vượt trội so với các đặc trưng khác như MFCC hay 
PLPC. 
Với đặc trưng MFCC, hệ thống rút trích 36 hệ số (12 hệ số MFCC cộng với 
đạo hàm bậc 1 và bậc 2 của chúng). Với đặc trưng LPCC, hệ thống rút trích 19 hệ 
số. 
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) 
Luận văn thực hiện hai cách tiếp cận khác nhau cho mỗi hệ thống Ghi nhật 
ký người nói: Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh. 
4.3.4.1. Trong Hệ thống xử lý đa kênh 
Trong hệ thống này, thuật toán tính VAD (sau đây sẽ gọi là chương trình) 
được thực hiện bằng việc xây dựng mô hình ngữ liệu, xem Hình 4.1. Đầu tiên với 
mỗi frame dữ liệu, chương trình tạo ra 36 đặc trưng MFCC (12 MFCC cộng với đạo 
hàm bậc 1 và bậc 2 của chúng). Chương trình sử dụng tất cả các đặc trưng trong 
mỗi đọan thu để huấn luyện các mô hình tiếng nói – phi tiếng nói (Speech – 
NonSpeech) khởi tạo bằng phương pháp EM. Cụ thể, chương trình lựa chọn 10% 
các đặc trưng có năng lượng cao nhất với tỉ lệ ngưỡng zero (zero cross) cao để làm 
49 
thành mô hình tiếng nói khởi tạo. Bên cạnh đó, chương trình cũng lấy ra 20% đặc 
trưng có mức năng lượng thấp nhất với tỉ lệ ngưỡng zero thấp để xây dựng mô hình 
phi tiếng nói ban đầu. Hai mô hình này sẽ được huấn luyện bằng phương pháp EM. 
Tất cả các frame dữ liệu còn lại sẽ được phân loại thành các thành phần tiếng nói 
hoặc phi tiếng nói dựa vào phương pháp Ước lượng xác suất cực đại. Cuối cùng 
chương trình sử dụng các đặc trưng đã phân loại này để huấn luyện lại cho mô hình 
tiếng nói và không tiếng nói bằng phương pháp MAP (Maximum A Posteriori) cho 
đến khi tỷ lệ phần trăm thay đổi của các frame tiếng nói và phi tiếng nói ít hơn 1%. 
Hình 4.1 Thuật toán tính VAD của Hệ thống xử lý đa kênh 
4.3.4.2. Trong Hệ thống xử lý nhanh 
Trong hệ thống này, luận văn sử dụng phương pháp tính VAD theo mức 
năng lượng, cụ thể là phương pháp AMR1-VAD [16]. Chi tiết thuật toán xem Mục 
3.9.2. Các tham số cho thuật toán tính AMR1-VAD: 
 VAD_frame_length: 256 
 Number_of_sub_bands: 12 
 Threshold_for_tone_detection: 0.65 
 Threshold_for_pitch_detection: 686080.0 
 MIN_SPEECH_SNR: 0.125 
 NOISE_INIT: 150*100 
 VAD_POW_LOW: 30000.0 
Ƣớc lƣợng 
10% thấp nhất 
10% cao nhất Mô hình 
tiếng nói 
Mô hình 
phi tiếng nói 
EM 
EM 
Phân loại 
Tiếng nói 
Phi tiếng nói 
MAP 
(2) 
(1) 
50 
4.3.5. Phƣơng pháp phân đoạn và phân nhóm theo ngƣời nói 
4.3.5.1. Trong Hệ thống xử lý đa kênh 
Ở quá trình phân đoạn theo người nói, luận văn thực hiện việc phân đoạn 
theo thông tin TDOA với hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp 
microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số 
lượng bin cao nhất trong histogram nhiều chiều (K2) là 9. 
Ở quá trình phân nhóm theo người nói, luận văn sử dụng phương pháp phân 
nhóm tích tụ theo bottom-up sử dụng độ đo khoảng cách Td [50]. Td là độ đo được 
phát triển dựa trên độ đo CLR (Cross Likelihood Ratio), sẽ được trình bày dưới đây: 
Tất cả các độ đo dựa theo tính toán likelihood như GLR, BIC và CLR đều 
giả định rằng nếu 
)( iM 
 và 
)( jM 
 là hai mô hình của cùng một người nói thì giá 
trị likelihood L(X|
)( iM 
) sẽ gần với giá trị likelihood L(X|
)( jM 
) với X={x1,…xN} 
là các vector đặc trưng được quan sát. Với Td, tác giả xây dựng dựa trên giả thuyết 
khác: nếu 
)( iM 
 và 
)( jM 
 là hai mô hình của cùng một người nói thì phân bố của 
các giá trị likelihood 
  XxMxL mim ,)(| 
 sẽ gần với phân bố của các giá trị 
likelihood 
  XxMxL mjm ,)(| 
. Công thức xác định của độ đo Td được mô tả 
sau: 
Cho hai đoạn âm thanh (i, j) với các vector đặc trưng 
 iNiii ixxxX ,,, 21 
 và 
 jNjjj jxxxX ,,, 21 
 tương ứng. Định nghĩa: 
   )(|log)(|log)( Uii MxLMxLxf   (4.3) 
   )(|log)(|log)( Ujj MxLMxLxf   (4.4) 
   jjii XxxfXxxfS  |)(|)(1 
 (4.5) 
   ijji XxxfXxxfS  |)(|)(2 
 (4.6) 
Trong đó 
)( iM 
, 
)( jM 
là hai mô hình lượng giá cho Xi và Xj; 
)( UM 
 là mô 
hình nền tổng quát. Gọi m1, m2, 
1
, 
2
, n1, n2 tương ứng là giá trị trung bình, độ 
lệch chuẩn và kích thước của S1 và S2. Độ đo khoảng cách Td giữa hai đoạn Xi và Xj 
được tính như sau: 
51 
2
2
2
1
2
1
21
nn
mm
Td
(4.7) 
4.3.5.2. Trong Hệ thống xử lý nhanh 
Ở quá trình phân đoạn theo người nói, tương tự như Hệ thống xử lý đa kênh, 
luận văn cũng thực hiện việc phân đoạn theo thông tin TDOA theo hai bước: Lượng 
giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất 
(K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều 
chiều (K2) là 30. 
Ở quá trình phân nhóm theo người nói, luận văn sử dụng thuật toán phân 
nhóm nhanh (Fast Clustering) cải tiến. Đây là thuật toán phân nhóm tích tụ theo 
bottom-up dựa trên độ đo khoảng cách Manhattan. Ngòai ra để tăng thêm độ chính 
xác của thuật toán trong trường hợp hai cặp vector có khoảng cách Manhattan bằng 
nhau nhưng không tương đồng với nhau, hệ thống áp dụng thêm độ đo Most 
Identified Score và độ đo nhãn. Tiêu chí dừng (Threshold) là 4.0, dựa theo số lượng 
phần tử trong mỗi vector (là 6). 
4.3.6. Kỹ thuật post-processing 
Kỹ thuật post-processing sử dụng thuật toán giải mã Viterbi nằm trong bộ 
công cụ HTK Toolkit. Các tham số cho thuật toán như sau: 
- Số trạng thái cho mô hình HMM: 50 
- Đặc trưng sử dụng: LPCC 
4.4. Kết quả thực nghiệm và thảo luận 
Mục tiêu của thực nghiệm nhằm chứng tỏ khả năng Phân đoạn và Phân nhóm 
của Hệ thống cải tiến Fast Clustering so với Hệ thống xử lý đa kênh cũng như một 
số hệ thống xử lý khác trong môi trường Smart Meeting Room. 
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh 
Hệ thống được thực nghiệm trên hai bộ dữ liệu RT2007 và RT2009 với tổng 
thời gian thu âm là 6 giờ, tổng số người tham gia là 73 người trong 15 cuộc họp. 
Chi tiết kết quả được thể hiện trong Bảng 4.4 và 4.5. 
52 
Bảng 4-4 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2007 
RT2007 MST FST SET DER #Spk 
CMU_20061115-1030 9.90 2.30 4.10 16.30 4 
CMU_20061115-1530 5.30 1.70 1.10 8.10 4 
EDI_20061113-1500 8.00 1.50 5.90 15.40 4 
EDI_20061114-1500 3.10 1.20 4.60 8.90 4 
NIST_20051104-1515 4.20 0.30 1.20 5.70 4 
NIST_20060216-1347 3.00 1.20 11.30 15.50 6 
VT_20050408-1500 1.00 1.20 16.40 18.60 5 
VT_20050425-1000 5.50 1.30 2.30 9.10 4 
ALL 12.2 
Bảng 4-5 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009 
RT2009 MST FST SET DER #Spk 
EDI_20071128-1000 3.70 2.80 7.60 14.10 4 
EDI_20071128-1500 8.20 6.10 11.60 25.90 4 
IDI_20090128-1600 4.20 2.30 2.40 8.90 4 
IDI_20090129-1000 4.80 5.80 9.20 19.80 4 
NIST_20080201-1405 16.70 1.80 28.50 47.00 5 
NIST_20080227-1501 8.80 0.30 2.90 12.00 6 
NIST_20080307-0955 3.20 2.90 4.10 10.20 11 
ALL 18.2 
Trong mỗi bảng, các giá trị lỗi MST (Missed Speaker Time), FST (False 
Alarm Time), SET (Speaker Error Time) và lỗi tổng cộng DER được thể hiện cho 
từng bộ dữ liệu test. Dòng cuối cùng chỉ định giá trị trung bình của tất cả các cuộc 
họp. Cột cuối cùng bên phải chỉ định số người nói tương ứng. 
Các giá trị MST dao động từ 1.0% đến 9.9% (Bảng 4.4) và từ 3.2% đến 
16.7% (Bảng 4.5) cho thấy lỗi bỏ sót người nói không ổn định. Tương tự, lỗi xác 
định nhãn người nói sai cũng không ổn định qua các kết quả thực nghiệm. Tuy 
nhiên giá trị DER cuối cùng lại khá ổn định. Với những cuộc họp có nhiều người 
tham gia, giá trị lỗi DER khá cao so với các cuộc họp ít người. Điều này có thể giải 
thích do khi có nhiều người tham gia, số lượng các phân nhóm lớn hơn và đặc biệt 
khả năng tiếng nói chồng lấp xảy ra cũng lớn hơn. 
53 
Bảng 4.6 cho biết giá trị lỗi, gọi là SAD DER (Speech Activity Detection 
DER), của thuật toán tính VAD trong Hệ thống xử lý đa kênh: 
Bảng 4-6 Giá trị lỗi SER của thuật toán tính VAD trong Hệ thống xử lý đa kênh 
 RT2007 RT2009 
SAD DER 2.97 3.55 
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh 
Đầu tiên, để có thể dễ dàng so sánh hiệu quả của Hệ thống xử lý nhanh so 
với các hệ thống Ghi nhật ký người nói khác, luận văn tiến hành thử nghiệm trên 
hai bộ dữ liệu RT2007 và RT2009. Trong đó, luận văn chia hệ thống ra thành hai hệ 
thống con với các điều kiện môi trường sau: 
- Hệ thống 1 (PerfectVAD): Hệ thống này sẽ tập trung vào việc thử 
nghiệm cho hai thuật toán Phân đoạn và Phân nhóm của Hệ thống xử lý 
nhanh. Do đó sẽ không tính giá trị VAD mà sẽ sử dụng thông tin VAD 
tham chiếu, tức thông tin VAD được xác định chính xác theo dữ liệu âm 
thanh đầu vào. 
- Hệ thống 2 (NonPerfectVAD): Hệ thống này sẽ sử dụng kết quả tính 
VAD theo phương pháp phát hiện tiếng nói trong Hệ thống xử lý đa kênh 
(dựa trên mô hình ngữ liệu) để đảm bảo tính nhất quán khi so sánh. 
Kết quả thử nghiệm trên bộ dữ liệu RT2007 và RT2009 của hai hệ thống 
được mô tả chi tiết trong các Bảng 4.7 và 4.8 sau: 
Bảng 4-7 Bảng kết quả thực nghiệm của Hệ thống PerfectVAD cho bộ dữ liệu RT2007 và 
RT2009: (a) Kết quả cho bộ RT2007 – (b) Kết quả cho bộ RT2009 
54 
(a) 
RT2007 MST FST SET DER #Spk #Initial Cluster 
#Detected 
Spk 
CMU_20061115-1030 8.00 0.70 7.50 16.20 4 30 4 
CMU_20061115-1530 4.50 1.20 3.20 8.90 4 30 7 
EDI_20061113-1500 8.20 1.10 31.60 40.90 4 30 3 
EDI_20061114-1500 3.10 1.30 15.20 19.60 4 30 3 
NIST_20051104-1515 4.50 1.00 21.10 26.60 4 30 7 
NIST_20060216-1347 3.30 1.30 11.50 16.10 6 30 9 
VT_20050408-1500 1.80 1.30 44.50 47.60 5 30 3 
VT_20050425-1000 5.90 1.40 40.40 47.70 4 30 15 
ALL 27.95 1 
- 
(b) 
RT2009 MST FST SET DER #Spk #Initial Cluster 
#Detected 
Spk 
EDI_20071128-1000 4.50 1.00 4.60 10.10 4 30 5 
EDI_20071128-1500 8.20 1.80 5.60 15.60 4 30 5 
IDI_20090128-1600 5.10 0.60 2.80 8.50 4 30 7 
IDI_20090129-1000 5.90 1.20 4.90 12.00 4 30 4 
NIST_20080201-1405 15.50 1.10 31.70 48.30 5 30 9 
NIST_20080227-1501 9.50 0.50 33.40 43.40 6 30 8 
NIST_20080307-0955 4.30 0.70 28.10 33.10 11 30 10 
ALL 24.43 1 
Bảng 4-8 Bảng kết quả thực nghiệm của Hệ thống NonPerfectVAD cho bộ dữ liệu 
RT2007 và RT2009: (c) Kết quả cho bộ RT2007 – (d) Kết quả cho bộ RT2009 
(c) 
RT2007 MST FST SET DER #Spk 
#Initial 
Cluster 
#Detected 
Spk 
CMU_20061115-1030 9.70 3.00 6.90 19.60 4 30 5 
CMU_20061115-1530 5.10 2.60 2.90 10.60 4 30 6 
EDI_20061113-1500 8.20 2.30 15.90 26.40 4 30 3 
EDI_20061114-1500 4.90 3.20 29.70 37.80 4 30 3 
NIST_20051104-1515 4.40 1.20 23.00 28.60 4 30 7 
NIST_20060216-1347 2.90 2.10 26.00 31.00 6 30 9 
VT_20050408-1500 1.80 2.00 58.50 62.30 5 30 4 
VT_20050425-1000 5.80 2.60 16.40 24.80 4 30 9 
ALL 30.14 0 
- 
(d) RT2009 MST FST SET DER #Spk 
#Initial 
Cluster 
#Detected 
Spk 
EDI_20071128-1000 12.40 2.20 6.60 21.20 4 30 5 
55 
EDI_20071128-1500 9.40 4.80 8.60 22.80 4 30 5 
IDI_20090128-1600 4.50 2.00 4.20 10.70 4 30 6 
IDI_20090129-1000 5.10 6.20 9.30 20.60 4 30 5 
NIST_20080201-1405 17.60 1.70 31.50 50.80 5 30 10 
NIST_20080227-1501 8.80 0.30 26.60 35.70 6 30 8 
NIST_20080307-0955 3.40 2.90 31.70 38.00 11 30 13 
ALL 28.54 0 
Trong các bảng này, ngoài các giá trị MST, FST, SET, DER còn có thêm số 
lượng người nói tham gia (#Spk), số lượng phân nhóm ban đầu (#Initial_Cluster = 
K2) và số lượng người nói xác định được (#Detected_Spk). Dòng cuối cùng cho biết 
giá trị trung bình của DER và số lượng phát hiện đúng của #Detected_Spk. Có thể 
nhận thấy rằng giá trị DER trung bình trong hệ thống NonPerfectVAD cao hơn hệ 
thống PerfectVAD là 2.19% (RT2007) và 4.11% (RT2009). Đó là do hệ thống 
PerfectVAD sử dụng giá trị VAD “hoàn hảo” trong khi hệ thống NonPerfectVAD 
có tính toán giá trị VAD cho riêng nó. Hơn nữa, các giá trị chênh lệch này gần đúng 
với giá trị lỗi SAD DER của thuật toán phát hiện tiếng nói (SAD DER) trong Hệ 
thống xử lý đa kênh mà hệ thống NonPerfectVAD đang sử dụng. Điều này chứng tỏ 
thuật toán Phân đoạn và Phân nhóm nhanh (Fast Clustering) hoạt động khá ổn định 
và không phụ thuộc vào kết quả phát hiện tiếng nói. 
Tuy nhiên, hai hệ thống trên vẫn bộc lộ những điểm yếu khá lớn. Đó là khi 
dữ liệu cuộc họp có số người tham gia đông đồng thời có nhiều tiếng nói chồng lấp 
sẽ làm cho kết quả DER tăng rất cao (> 30%). Ví dụ trong bộ dữ liệu RT2007, kết 
quả DER chạy cho trường hợp VT_20050408-1500 lên đến 62.3% (với hệ thống 
NonPerfectVAD) và thậm chí khi sử dụng VAD “chuẩn” thì DER vẫn là 47.6% 
(với hệ thống PerfectVAD). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp 
cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói chồng lấp thì 
kỹ thuật tính TDOA chưa xác định được tất cả các hướng đến của người nói. Ngoài 
ra, cả hai hệ thống này đều rất kém trong việc phát hiện số người nói. Hệ thống 
PerfectVAD chỉ duy nhất một lần phát hiện chính xác số người nói. Trong khi đó hệ 
thống NonPerfectVAD phát hiện sai hoàn toàn. 
56 
Như đã biết, giá trị K2 là số phân nhóm khởi tạo cho thuật toán Phân nhóm 
nhanh, có được qua quá trình Lượng giá và Chuẩn hoá TDOA. Hình 4.2 cho ta thấy 
giá trị DER biến đổi ứng với các giá trị K2 khác nhau. Dữ liệu được thử nghiệm ở 
đây là RT2009. Có thể thấy, với mỗi hệ thống, giá trị DER khá ổn định khi K2 tăng 
từ 9 đến 45. Do đó luận văn đã chọn giá trị K2 = 30 để làm số phân nhóm khởi tạo, 
và kết quả DER thu được khá tương đương với các hệ thống Ghi nhật ký người nói 
khác (sẽ được thảo luận trong phần sau). Ngoài ra, giá trị K2 tăng lên không làm cho 
thời gian xử lý tăng lên đột biến. Thực nghiệm cho thấy thời gian xử lý khi K2 tăng 
từ 9 đến 45 chỉ dao động quanh mức 35s, và thời gian chênh lệch giữa K2=9 và 
K2=45 là khoảng 3s (thời gian được xét cho Module xử lý chính). 
(a) 
0
5
10
15
20
25
30
35
40
9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45
D
ia
ri
za
ti
o
n
 E
rr
o
r 
R
at
e
(%
)
PerfectVAD System
DER Giá trị K2
57 
(b) 
Hình 4.2 Lỗi DER với nhiều giá trị K2 khác nhau. 
(a)Trong Hệ thống PerfectVAD. (b) Trong Hệ thống NonPerfectVAD. 
Một câu hỏi đặt ra là liệu việc thay đổi giá trị K1 (số cặp microphone có số 
lượng peak nhiều nhất được chọn trong bước Lượng giá TDOA) có giúp tăng tính 
hiệu quả của hệ thống hay không? Luận văn đã thử nghiệm việc tăng giá trị K1 từ 3 
đến 12 và kiểm tra giá trị lỗi DER, đồng thời cũng kiểm tra chi phí tính toán tương 
ứng (xem Hình 4.3). Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy giá trị 
lỗi DER không giảm thêm bao nhiêu trong khi đó chi phí tính toán lại tăng dần. 
Như vậy có thể kết luận rằng chọn K1 sao cho giá trị lỗi DER thấp nhất không hẳn 
là một giải pháp tốt vì ta cần giữ độ cân bằng giữa tính hiệu quả và chi phí tính toán. 
K1 quá nhỏ sẽ không bao quát hết thông tin TDOA của các cặp microphone, K1 quá 
lớn lại làm tăng chí phí tính toán một cách không cần thiết. Trong thực nghiệm, K1 
được chọn bằng 6 để đáp ứng cả ba yêu cầu về tính tổng quát, giá trị lỗi DER và chi 
phí tính toán. 
0
10
20
30
40
9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45
D
ia
ri
za
ti
o
n
 E
rr
o
r 
R
at
e
(%
)
NonPerfectVAD System
DER Giá t