Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2
20 trang |
Chia sẻ: vietpd | Lượt xem: 1313 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Thử nghiệm và đánh giá nhật kí người nói cho dữ liệu hội nghị và ứng dụng trong môi trường smart meeting room, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
45
Chƣơng 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ
4.1. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm được luận văn sử dụng là bộ dữ liệu NIST Rich
Transcription 2007 (RT2007) [61] và 2009 (RT2009) [62], bao gồm 6 giờ thu âm
với 15 cuộc họp (thời gian mỗi cuộc họp từ 20-30 phút) và tổng cộng 73 người
tham gia. Chi tiết của từng bộ dữ liệu được mô tả trong Bảng 4.1 và 4.2:
Bảng 4-1 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2007. Tổng thời gian là 3h,
tổng số người tham gia là 35. Số tập tin tương ứng với số microphone trong cuộc họp đó
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin
CMU_20061115-1030 4 28.4 3
CMU_20061115-1530 4 22.6 3
EDI_20061113-1500 4 22.6 8
EDI_20061114-1500 4 22.7 8
NIST_20051104-1515 4 22.4 7
NIST_20060216-1347 6 22.5 7
VT_20050408-1500 5 22.4 4
VT_20050425-1000 4 22.6 7
Bảng 4-2 Thông tin về các cuộc họp trong bộ dữ liệu NIST RT2009. Tổng thời gian là 3h,
tổng số người tham gia là 38. Số tập tin tương ứng với số microphone trong cuộc họp đó
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin
EDI_20071128-1000 4 29.4 8
EDI_20071128-1500 4 30.8 8
IDI_20090128-1600 4 30.1 8
IDI_20090129-1000 4 30.1 8
NIST_20080201-1405 5 20.3 7
NIST_20080227-1501 6 18.9 7
NIST_20080307-0955 11 21.3 7
46
Ngoài ra, luận văn cũng xây dựng một bộ dữ liệu riêng tại phòng Lab
Emerging Research (ER) tại trường ĐH Kỹ thuật Nanyang, Singapore. Chúng tôi
thiết kế một phòng họp có diện tích 12m2 gồm 4 microphone đặt trên bàn cách
người nói khoảng 1m. Độ phản âm trong phòng khoảng 350ms. Số người nói tham
gia là 3 người. Không có chồng lấp tiếng nói trong quá trình diễn ra cuộc họp và
thời gian cho mỗi cuộc họp là từ 10-11 phút. Có tổng cộng 5 cuộc họp được thực
hiện với thông tin chi tiết như sau (Bảng 4.3):
Bảng 4-3 Thông tin về các cuộc họp trong bộ dữ liệu tự tạo. Tổng thời gian là 51 phút,
tổng số người tham gia là 15. Số tập tin tương ứng với số microphone trong cuộc họp đó
Tên cuộc họp Số ngƣời nói Thời gian (phút) Số tập tin
Test1 3 11 4
Test2 3 10 4
Test3 3 10 4
Test4 3 10 4
Test5 3 10 4
4.2. Độ đo đánh giá
Độ đo đánh giá được sử dụng trong luận văn là độ đo lỗi DER [62]
(Diarization Error Rate) theo định nghĩa sau:
𝐷𝐸𝑅 =
tổng tất cả thời gian ghi nhật ký lỗi
tổng thời gian tham chiếu
(4.1)
=
𝑆𝐸 +𝑀𝑆 + 𝐹𝐴
𝑆𝑃𝐾
% (4.2)
Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện
đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ
đoạn âm thanh của Người A nhưng lại bị gán cho Người B.
Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện
được đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người
cùng nói đồng thời nhưng chỉ có một người được phát hiện.
47
Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược
lại với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát
hiện là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai
người nói.
Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời
gian được tính theo người nói thực sự, làm cơ sở để tham chiếu.
4.3. Các kĩ thuật áp dụng và tham số
4.3.1. Kĩ thuật lọc nhiễu
Kỹ thuật lọc nhiễu sử dụng trong Hệ thống xử lý đa kênh là kỹ thuật lọc
Wiener [51] cho từng microphone và kỹ thuật Delay-and-Sum beamforming [58]
cho nhiều microphone sử dụng hai thư viện mã nguồn mở “Qualcomm-ICSI-OGI
front end for Wiener Filter” [2] và “Delay-and-Sum BeamformIt Tool-kit” [56]
tương ứng.
Các tham số cho từng bộ thư viện trên như sau:
Qualcomm-ICSI-OGI front end for Wiener Filter
o Window_length = 20ms
o Window_shift = 10ms
o FFT_length = 256
o Noisest_Threshold = 2.0
o Noisest_Alpha = 0.99
o Filter_Power = 2.0
Delay-and-Sum BeamformIt Tool-kit
o Input_audio_sample_rate: 16000Hz
o Input_audio_sample_size: 16bits/sample
4.3.2. Kĩ thuật tính TDOA
Để thực nghiệm trong môi trường SMR, luận văn sử dụng phương pháp tính
TDOA dựa theo GCC-PHAT (Generalized Cross-Correlation using Phase
48
Transform) [8]. Đây là phương pháp tính TDOA phổ biến nhất hiện nay với độ
chính xác cao và tốc độ xử lý nhanh.
Các tham số cho thuật toán tính TDOA theo GCC-PHAT:
Window_length = 500ms
Window_shift = 250ms
4.3.3. Đặc trƣng ngữ âm cho Hệ thống xử lý đa kênh
Đối với Hệ thống xử lý đa kênh, luận văn sử dụng hai đặc trưng ngữ âm là
MFCC (Mel Frequency Cepstral Coefficients) [45] và LPCC (Linear Prediction
Cepstral Coefficients) [22]. MFCC là đặc trưng thể hiện cho các phổ có mức năng
lượng bước sóng ngắn và LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin
được rút trích từ mô hình dự báo tuyến tính. Đặc trưng MFCC được sử dụng trong
kỹ thuật phát hiện tiếng nói (chi tiết trong mục 4.3.4). Tuy nhiên, trong các thử
nghiệm thuật toán phân nhóm của hệ thống Ghi nhật ký người nói cho dữ liệu hội
nghị, LPCC lại cho thấy tính vượt trội so với các đặc trưng khác như MFCC hay
PLPC.
Với đặc trưng MFCC, hệ thống rút trích 36 hệ số (12 hệ số MFCC cộng với
đạo hàm bậc 1 và bậc 2 của chúng). Với đặc trưng LPCC, hệ thống rút trích 19 hệ
số.
4.3.4. Kỹ thuật phát hiện tiếng nói (VAD)
Luận văn thực hiện hai cách tiếp cận khác nhau cho mỗi hệ thống Ghi nhật
ký người nói: Hệ thống xử lý đa kênh và Hệ thống xử lý nhanh.
4.3.4.1. Trong Hệ thống xử lý đa kênh
Trong hệ thống này, thuật toán tính VAD (sau đây sẽ gọi là chương trình)
được thực hiện bằng việc xây dựng mô hình ngữ liệu, xem Hình 4.1. Đầu tiên với
mỗi frame dữ liệu, chương trình tạo ra 36 đặc trưng MFCC (12 MFCC cộng với đạo
hàm bậc 1 và bậc 2 của chúng). Chương trình sử dụng tất cả các đặc trưng trong
mỗi đọan thu để huấn luyện các mô hình tiếng nói – phi tiếng nói (Speech –
NonSpeech) khởi tạo bằng phương pháp EM. Cụ thể, chương trình lựa chọn 10%
các đặc trưng có năng lượng cao nhất với tỉ lệ ngưỡng zero (zero cross) cao để làm
49
thành mô hình tiếng nói khởi tạo. Bên cạnh đó, chương trình cũng lấy ra 20% đặc
trưng có mức năng lượng thấp nhất với tỉ lệ ngưỡng zero thấp để xây dựng mô hình
phi tiếng nói ban đầu. Hai mô hình này sẽ được huấn luyện bằng phương pháp EM.
Tất cả các frame dữ liệu còn lại sẽ được phân loại thành các thành phần tiếng nói
hoặc phi tiếng nói dựa vào phương pháp Ước lượng xác suất cực đại. Cuối cùng
chương trình sử dụng các đặc trưng đã phân loại này để huấn luyện lại cho mô hình
tiếng nói và không tiếng nói bằng phương pháp MAP (Maximum A Posteriori) cho
đến khi tỷ lệ phần trăm thay đổi của các frame tiếng nói và phi tiếng nói ít hơn 1%.
Hình 4.1 Thuật toán tính VAD của Hệ thống xử lý đa kênh
4.3.4.2. Trong Hệ thống xử lý nhanh
Trong hệ thống này, luận văn sử dụng phương pháp tính VAD theo mức
năng lượng, cụ thể là phương pháp AMR1-VAD [16]. Chi tiết thuật toán xem Mục
3.9.2. Các tham số cho thuật toán tính AMR1-VAD:
VAD_frame_length: 256
Number_of_sub_bands: 12
Threshold_for_tone_detection: 0.65
Threshold_for_pitch_detection: 686080.0
MIN_SPEECH_SNR: 0.125
NOISE_INIT: 150*100
VAD_POW_LOW: 30000.0
Ƣớc lƣợng
10% thấp nhất
10% cao nhất Mô hình
tiếng nói
Mô hình
phi tiếng nói
EM
EM
Phân loại
Tiếng nói
Phi tiếng nói
MAP
(2)
(1)
50
4.3.5. Phƣơng pháp phân đoạn và phân nhóm theo ngƣời nói
4.3.5.1. Trong Hệ thống xử lý đa kênh
Ở quá trình phân đoạn theo người nói, luận văn thực hiện việc phân đoạn
theo thông tin TDOA với hai bước: Lượng giá TDOA và Chuẩn hoá TDOA. Số cặp
microphone có số lượng peak nhiều nhất (K1) được chọn là 6. Số centroid có số
lượng bin cao nhất trong histogram nhiều chiều (K2) là 9.
Ở quá trình phân nhóm theo người nói, luận văn sử dụng phương pháp phân
nhóm tích tụ theo bottom-up sử dụng độ đo khoảng cách Td [50]. Td là độ đo được
phát triển dựa trên độ đo CLR (Cross Likelihood Ratio), sẽ được trình bày dưới đây:
Tất cả các độ đo dựa theo tính toán likelihood như GLR, BIC và CLR đều
giả định rằng nếu
)( iM
và
)( jM
là hai mô hình của cùng một người nói thì giá
trị likelihood L(X|
)( iM
) sẽ gần với giá trị likelihood L(X|
)( jM
) với X={x1,…xN}
là các vector đặc trưng được quan sát. Với Td, tác giả xây dựng dựa trên giả thuyết
khác: nếu
)( iM
và
)( jM
là hai mô hình của cùng một người nói thì phân bố của
các giá trị likelihood
XxMxL mim ,)(|
sẽ gần với phân bố của các giá trị
likelihood
XxMxL mjm ,)(|
. Công thức xác định của độ đo Td được mô tả
sau:
Cho hai đoạn âm thanh (i, j) với các vector đặc trưng
iNiii ixxxX ,,, 21
và
jNjjj jxxxX ,,, 21
tương ứng. Định nghĩa:
)(|log)(|log)( Uii MxLMxLxf (4.3)
)(|log)(|log)( Ujj MxLMxLxf (4.4)
jjii XxxfXxxfS |)(|)(1
(4.5)
ijji XxxfXxxfS |)(|)(2
(4.6)
Trong đó
)( iM
,
)( jM
là hai mô hình lượng giá cho Xi và Xj;
)( UM
là mô
hình nền tổng quát. Gọi m1, m2,
1
,
2
, n1, n2 tương ứng là giá trị trung bình, độ
lệch chuẩn và kích thước của S1 và S2. Độ đo khoảng cách Td giữa hai đoạn Xi và Xj
được tính như sau:
51
2
2
2
1
2
1
21
nn
mm
Td
(4.7)
4.3.5.2. Trong Hệ thống xử lý nhanh
Ở quá trình phân đoạn theo người nói, tương tự như Hệ thống xử lý đa kênh,
luận văn cũng thực hiện việc phân đoạn theo thông tin TDOA theo hai bước: Lượng
giá TDOA và Chuẩn hoá TDOA. Số cặp microphone có số lượng peak nhiều nhất
(K1) được chọn là 6. Số centroid có số lượng bin cao nhất trong histogram nhiều
chiều (K2) là 30.
Ở quá trình phân nhóm theo người nói, luận văn sử dụng thuật toán phân
nhóm nhanh (Fast Clustering) cải tiến. Đây là thuật toán phân nhóm tích tụ theo
bottom-up dựa trên độ đo khoảng cách Manhattan. Ngòai ra để tăng thêm độ chính
xác của thuật toán trong trường hợp hai cặp vector có khoảng cách Manhattan bằng
nhau nhưng không tương đồng với nhau, hệ thống áp dụng thêm độ đo Most
Identified Score và độ đo nhãn. Tiêu chí dừng (Threshold) là 4.0, dựa theo số lượng
phần tử trong mỗi vector (là 6).
4.3.6. Kỹ thuật post-processing
Kỹ thuật post-processing sử dụng thuật toán giải mã Viterbi nằm trong bộ
công cụ HTK Toolkit. Các tham số cho thuật toán như sau:
- Số trạng thái cho mô hình HMM: 50
- Đặc trưng sử dụng: LPCC
4.4. Kết quả thực nghiệm và thảo luận
Mục tiêu của thực nghiệm nhằm chứng tỏ khả năng Phân đoạn và Phân nhóm
của Hệ thống cải tiến Fast Clustering so với Hệ thống xử lý đa kênh cũng như một
số hệ thống xử lý khác trong môi trường Smart Meeting Room.
4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh
Hệ thống được thực nghiệm trên hai bộ dữ liệu RT2007 và RT2009 với tổng
thời gian thu âm là 6 giờ, tổng số người tham gia là 73 người trong 15 cuộc họp.
Chi tiết kết quả được thể hiện trong Bảng 4.4 và 4.5.
52
Bảng 4-4 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2007
RT2007 MST FST SET DER #Spk
CMU_20061115-1030 9.90 2.30 4.10 16.30 4
CMU_20061115-1530 5.30 1.70 1.10 8.10 4
EDI_20061113-1500 8.00 1.50 5.90 15.40 4
EDI_20061114-1500 3.10 1.20 4.60 8.90 4
NIST_20051104-1515 4.20 0.30 1.20 5.70 4
NIST_20060216-1347 3.00 1.20 11.30 15.50 6
VT_20050408-1500 1.00 1.20 16.40 18.60 5
VT_20050425-1000 5.50 1.30 2.30 9.10 4
ALL 12.2
Bảng 4-5 Bảng kết quả thực nghiệm của Hệ thống xử lý đa kênh cho bộ dữ liệu RT2009
RT2009 MST FST SET DER #Spk
EDI_20071128-1000 3.70 2.80 7.60 14.10 4
EDI_20071128-1500 8.20 6.10 11.60 25.90 4
IDI_20090128-1600 4.20 2.30 2.40 8.90 4
IDI_20090129-1000 4.80 5.80 9.20 19.80 4
NIST_20080201-1405 16.70 1.80 28.50 47.00 5
NIST_20080227-1501 8.80 0.30 2.90 12.00 6
NIST_20080307-0955 3.20 2.90 4.10 10.20 11
ALL 18.2
Trong mỗi bảng, các giá trị lỗi MST (Missed Speaker Time), FST (False
Alarm Time), SET (Speaker Error Time) và lỗi tổng cộng DER được thể hiện cho
từng bộ dữ liệu test. Dòng cuối cùng chỉ định giá trị trung bình của tất cả các cuộc
họp. Cột cuối cùng bên phải chỉ định số người nói tương ứng.
Các giá trị MST dao động từ 1.0% đến 9.9% (Bảng 4.4) và từ 3.2% đến
16.7% (Bảng 4.5) cho thấy lỗi bỏ sót người nói không ổn định. Tương tự, lỗi xác
định nhãn người nói sai cũng không ổn định qua các kết quả thực nghiệm. Tuy
nhiên giá trị DER cuối cùng lại khá ổn định. Với những cuộc họp có nhiều người
tham gia, giá trị lỗi DER khá cao so với các cuộc họp ít người. Điều này có thể giải
thích do khi có nhiều người tham gia, số lượng các phân nhóm lớn hơn và đặc biệt
khả năng tiếng nói chồng lấp xảy ra cũng lớn hơn.
53
Bảng 4.6 cho biết giá trị lỗi, gọi là SAD DER (Speech Activity Detection
DER), của thuật toán tính VAD trong Hệ thống xử lý đa kênh:
Bảng 4-6 Giá trị lỗi SER của thuật toán tính VAD trong Hệ thống xử lý đa kênh
RT2007 RT2009
SAD DER 2.97 3.55
4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh
Đầu tiên, để có thể dễ dàng so sánh hiệu quả của Hệ thống xử lý nhanh so
với các hệ thống Ghi nhật ký người nói khác, luận văn tiến hành thử nghiệm trên
hai bộ dữ liệu RT2007 và RT2009. Trong đó, luận văn chia hệ thống ra thành hai hệ
thống con với các điều kiện môi trường sau:
- Hệ thống 1 (PerfectVAD): Hệ thống này sẽ tập trung vào việc thử
nghiệm cho hai thuật toán Phân đoạn và Phân nhóm của Hệ thống xử lý
nhanh. Do đó sẽ không tính giá trị VAD mà sẽ sử dụng thông tin VAD
tham chiếu, tức thông tin VAD được xác định chính xác theo dữ liệu âm
thanh đầu vào.
- Hệ thống 2 (NonPerfectVAD): Hệ thống này sẽ sử dụng kết quả tính
VAD theo phương pháp phát hiện tiếng nói trong Hệ thống xử lý đa kênh
(dựa trên mô hình ngữ liệu) để đảm bảo tính nhất quán khi so sánh.
Kết quả thử nghiệm trên bộ dữ liệu RT2007 và RT2009 của hai hệ thống
được mô tả chi tiết trong các Bảng 4.7 và 4.8 sau:
Bảng 4-7 Bảng kết quả thực nghiệm của Hệ thống PerfectVAD cho bộ dữ liệu RT2007 và
RT2009: (a) Kết quả cho bộ RT2007 – (b) Kết quả cho bộ RT2009
54
(a)
RT2007 MST FST SET DER #Spk #Initial Cluster
#Detected
Spk
CMU_20061115-1030 8.00 0.70 7.50 16.20 4 30 4
CMU_20061115-1530 4.50 1.20 3.20 8.90 4 30 7
EDI_20061113-1500 8.20 1.10 31.60 40.90 4 30 3
EDI_20061114-1500 3.10 1.30 15.20 19.60 4 30 3
NIST_20051104-1515 4.50 1.00 21.10 26.60 4 30 7
NIST_20060216-1347 3.30 1.30 11.50 16.10 6 30 9
VT_20050408-1500 1.80 1.30 44.50 47.60 5 30 3
VT_20050425-1000 5.90 1.40 40.40 47.70 4 30 15
ALL 27.95 1
-
(b)
RT2009 MST FST SET DER #Spk #Initial Cluster
#Detected
Spk
EDI_20071128-1000 4.50 1.00 4.60 10.10 4 30 5
EDI_20071128-1500 8.20 1.80 5.60 15.60 4 30 5
IDI_20090128-1600 5.10 0.60 2.80 8.50 4 30 7
IDI_20090129-1000 5.90 1.20 4.90 12.00 4 30 4
NIST_20080201-1405 15.50 1.10 31.70 48.30 5 30 9
NIST_20080227-1501 9.50 0.50 33.40 43.40 6 30 8
NIST_20080307-0955 4.30 0.70 28.10 33.10 11 30 10
ALL 24.43 1
Bảng 4-8 Bảng kết quả thực nghiệm của Hệ thống NonPerfectVAD cho bộ dữ liệu
RT2007 và RT2009: (c) Kết quả cho bộ RT2007 – (d) Kết quả cho bộ RT2009
(c)
RT2007 MST FST SET DER #Spk
#Initial
Cluster
#Detected
Spk
CMU_20061115-1030 9.70 3.00 6.90 19.60 4 30 5
CMU_20061115-1530 5.10 2.60 2.90 10.60 4 30 6
EDI_20061113-1500 8.20 2.30 15.90 26.40 4 30 3
EDI_20061114-1500 4.90 3.20 29.70 37.80 4 30 3
NIST_20051104-1515 4.40 1.20 23.00 28.60 4 30 7
NIST_20060216-1347 2.90 2.10 26.00 31.00 6 30 9
VT_20050408-1500 1.80 2.00 58.50 62.30 5 30 4
VT_20050425-1000 5.80 2.60 16.40 24.80 4 30 9
ALL 30.14 0
-
(d) RT2009 MST FST SET DER #Spk
#Initial
Cluster
#Detected
Spk
EDI_20071128-1000 12.40 2.20 6.60 21.20 4 30 5
55
EDI_20071128-1500 9.40 4.80 8.60 22.80 4 30 5
IDI_20090128-1600 4.50 2.00 4.20 10.70 4 30 6
IDI_20090129-1000 5.10 6.20 9.30 20.60 4 30 5
NIST_20080201-1405 17.60 1.70 31.50 50.80 5 30 10
NIST_20080227-1501 8.80 0.30 26.60 35.70 6 30 8
NIST_20080307-0955 3.40 2.90 31.70 38.00 11 30 13
ALL 28.54 0
Trong các bảng này, ngoài các giá trị MST, FST, SET, DER còn có thêm số
lượng người nói tham gia (#Spk), số lượng phân nhóm ban đầu (#Initial_Cluster =
K2) và số lượng người nói xác định được (#Detected_Spk). Dòng cuối cùng cho biết
giá trị trung bình của DER và số lượng phát hiện đúng của #Detected_Spk. Có thể
nhận thấy rằng giá trị DER trung bình trong hệ thống NonPerfectVAD cao hơn hệ
thống PerfectVAD là 2.19% (RT2007) và 4.11% (RT2009). Đó là do hệ thống
PerfectVAD sử dụng giá trị VAD “hoàn hảo” trong khi hệ thống NonPerfectVAD
có tính toán giá trị VAD cho riêng nó. Hơn nữa, các giá trị chênh lệch này gần đúng
với giá trị lỗi SAD DER của thuật toán phát hiện tiếng nói (SAD DER) trong Hệ
thống xử lý đa kênh mà hệ thống NonPerfectVAD đang sử dụng. Điều này chứng tỏ
thuật toán Phân đoạn và Phân nhóm nhanh (Fast Clustering) hoạt động khá ổn định
và không phụ thuộc vào kết quả phát hiện tiếng nói.
Tuy nhiên, hai hệ thống trên vẫn bộc lộ những điểm yếu khá lớn. Đó là khi
dữ liệu cuộc họp có số người tham gia đông đồng thời có nhiều tiếng nói chồng lấp
sẽ làm cho kết quả DER tăng rất cao (> 30%). Ví dụ trong bộ dữ liệu RT2007, kết
quả DER chạy cho trường hợp VT_20050408-1500 lên đến 62.3% (với hệ thống
NonPerfectVAD) và thậm chí khi sử dụng VAD “chuẩn” thì DER vẫn là 47.6%
(với hệ thống PerfectVAD). Đây cũng chính là điểm yếu lớn nhất đối với cách tiếp
cận chỉ sử dụng duy nhất đặc trưng TDOA, bởi những đoạn tiếng nói chồng lấp thì
kỹ thuật tính TDOA chưa xác định được tất cả các hướng đến của người nói. Ngoài
ra, cả hai hệ thống này đều rất kém trong việc phát hiện số người nói. Hệ thống
PerfectVAD chỉ duy nhất một lần phát hiện chính xác số người nói. Trong khi đó hệ
thống NonPerfectVAD phát hiện sai hoàn toàn.
56
Như đã biết, giá trị K2 là số phân nhóm khởi tạo cho thuật toán Phân nhóm
nhanh, có được qua quá trình Lượng giá và Chuẩn hoá TDOA. Hình 4.2 cho ta thấy
giá trị DER biến đổi ứng với các giá trị K2 khác nhau. Dữ liệu được thử nghiệm ở
đây là RT2009. Có thể thấy, với mỗi hệ thống, giá trị DER khá ổn định khi K2 tăng
từ 9 đến 45. Do đó luận văn đã chọn giá trị K2 = 30 để làm số phân nhóm khởi tạo,
và kết quả DER thu được khá tương đương với các hệ thống Ghi nhật ký người nói
khác (sẽ được thảo luận trong phần sau). Ngoài ra, giá trị K2 tăng lên không làm cho
thời gian xử lý tăng lên đột biến. Thực nghiệm cho thấy thời gian xử lý khi K2 tăng
từ 9 đến 45 chỉ dao động quanh mức 35s, và thời gian chênh lệch giữa K2=9 và
K2=45 là khoảng 3s (thời gian được xét cho Module xử lý chính).
(a)
0
5
10
15
20
25
30
35
40
9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45
D
ia
ri
za
ti
o
n
E
rr
o
r
R
at
e
(%
)
PerfectVAD System
DER Giá trị K2
57
(b)
Hình 4.2 Lỗi DER với nhiều giá trị K2 khác nhau.
(a)Trong Hệ thống PerfectVAD. (b) Trong Hệ thống NonPerfectVAD.
Một câu hỏi đặt ra là liệu việc thay đổi giá trị K1 (số cặp microphone có số
lượng peak nhiều nhất được chọn trong bước Lượng giá TDOA) có giúp tăng tính
hiệu quả của hệ thống hay không? Luận văn đã thử nghiệm việc tăng giá trị K1 từ 3
đến 12 và kiểm tra giá trị lỗi DER, đồng thời cũng kiểm tra chi phí tính toán tương
ứng (xem Hình 4.3). Dữ liệu được thử nghiệm ở đây là RT2009. Có thể thấy giá trị
lỗi DER không giảm thêm bao nhiêu trong khi đó chi phí tính toán lại tăng dần.
Như vậy có thể kết luận rằng chọn K1 sao cho giá trị lỗi DER thấp nhất không hẳn
là một giải pháp tốt vì ta cần giữ độ cân bằng giữa tính hiệu quả và chi phí tính toán.
K1 quá nhỏ sẽ không bao quát hết thông tin TDOA của các cặp microphone, K1 quá
lớn lại làm tăng chí phí tính toán một cách không cần thiết. Trong thực nghiệm, K1
được chọn bằng 6 để đáp ứng cả ba yêu cầu về tính tổng quát, giá trị lỗi DER và chi
phí tính toán.
0
10
20
30
40
9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45
D
ia
ri
za
ti
o
n
E
rr
o
r
R
at
e
(%
)
NonPerfectVAD System
DER Giá t