Trong phần này luận văn trình bày hai hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị. Hệ thống thứ nhất được gọi là Hệ thống xử lý đa kênh (Hệ thống nền). Đây là hệ thống xử lý dựa trên việc mô hình hoá nhiều đặc trưng ngữ âm (đa kênh) và là phương pháp nghiên cứu phổ biến trong môi trường có nhiều microphone (Smart Meeting Room) hiện nay. Hệ thống thứ hai là hệ thống cải tiếndo luận văn cài đặt, gọi là Hệ thống xử lý nhanh. Mục tiêu của việc xây dựng hệ thống này là cung cấp cho người dùng một ứng dụng Ghi nhật ký người nói hiệu quả và nhanh chóng trong các lĩnh vực hội nghị trực tuyến. Ngoài ra, hệ thống được xây dựng theo dạng module hoá, rất dễ dàng trong việc tích hợp linh hoạt những thuật toán xử lý khác.
                
              
                                            
                                
            
 
            
                 28 trang
28 trang | 
Chia sẻ: vietpd | Lượt xem: 1632 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Hệ thống ghi nhật ký người nói cho dữ liệu hội nghị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
17 
Chƣơng 3 HỆ THỐNG GHI NHẬT KÝ NGƢỜI NÓI 
CHO DỮ LIỆU HỘI NGHỊ 
Trong phần này luận văn trình bày hai hệ thống Ghi nhật ký người nói cho 
dữ liệu hội nghị. Hệ thống thứ nhất được gọi là Hệ thống xử lý đa kênh (Hệ thống 
nền). Đây là hệ thống xử lý dựa trên việc mô hình hoá nhiều đặc trưng ngữ âm (đa 
kênh) và là phương pháp nghiên cứu phổ biến trong môi trường có nhiều 
microphone (Smart Meeting Room) hiện nay. Hệ thống thứ hai là hệ thống cải tiến 
do luận văn cài đặt, gọi là Hệ thống xử lý nhanh. Mục tiêu của việc xây dựng hệ 
thống này là cung cấp cho người dùng một ứng dụng Ghi nhật ký người nói hiệu 
quả và nhanh chóng trong các lĩnh vực hội nghị trực tuyến. Ngoài ra, hệ thống được 
xây dựng theo dạng module hoá, rất dễ dàng trong việc tích hợp linh hoạt những 
thuật toán xử lý khác. 
3.1. Mô hình hệ thống xử lý đa kênh 
Hệ thống xử lý đa kênh được xây dựng theo cấu trúc sau (xem Hình 3.1): 
 Đầu vào: các kênh âm thanh (từ microphone 1 đến K). 
 Đầu ra: bản ghi nhật ký người nói của cuộc họp, gồm các đoạn âm thanh được 
chia và đánh nhãn theo người nói cụ thể. 
 Bao gồm hai module là module tiền xử lý và module xử lý Phân đoạn – Phân 
nhóm. 
 Module tiền xử lý: gồm các chức năng như lọc nhiễu, beamforming, tính toán 
TDOA, rút trích đặc trưng ngữ âm và phát hiện tiếng nói. Những thông tin đầu 
ra của module này sẽ gồm đặc trưng ngữ âm, đặc trưng thời gian TDOA và giá 
trị nhận dạng tiếng nói – phi tiếng nói (VAD). 
o Bước 1 – Lọc nhiễu: thực hiện việc lọc các âm thanh nhiễu như background 
noise, tiếng ồn do các thiết bị trong phòng gây ra, tiếng vang… 
o Bước 2 – Beamforming: tạo ra một kênh âm thanh “tổng” có chất lượng tốt 
hơn bằng cách lọc và tổng hợp tín hiệu từ tất cả các kênh đầu vào. 
18 
o Bước 3 – Tính toán TDOA: tính toán đặc trưng TDOA dựa trên sự chênh 
lệch về thời gian đến của tín hiệu âm thanh, bằng cách áp dụng các phương 
pháp hiệu quả như [8],[40]. 
o Bước 4 – Phát hiện tiếng nói (VAD): phát hiện những frame nào trong dữ 
liệu âm thanh đầu vào là tiếng nói hay phi tiếng nói, có thể được thực hiện 
bằng cách xây dựng mô hình ngữ liệu với một số dữ liệu huấn luyện như 
RT05s, RT06s và RT07s [59],[60],[61], hoặc bằng cách so sánh mức năng 
lượng như [16]. 
o Bước 5 – Rút trích đặc trưng ngữ âm: sử dụng đặc trưng ngữ âm, ví dụ như 
MFCC, LPCC, để biểu diễn cho tín hiệu âm thanh. Việc rút trích đặc trưng 
được tiến hành trên dữ liệu của kênh âm thanh “tổng”. Kết quả sẽ là một 
vector đặc trưng có Nvector giá trị. 
 Module xử lý Phân đoạn – Phân nhóm: 
o Bước 6 – Phân đoạn: Chia tập tin âm thanh thành các phân đoạn theo các vị 
trí chuyển lượt người nói hoặc các vị trí ranh giới giữa các frame tiếng nói 
và phi tiếng nói. 
o Bước 7 – Phân nhóm: 
 Bước 7.1 – Xây dựng mô hình: xây dựng mô hình ngữ liệu cho các 
vector đặc trưng. Số nhóm khởi tạo ban đầu sẽ được quyết định ở 
bước Phân đoạn. 
 Bước 7.2 – Phân nhóm tích tụ: thực hiện việc phân nhóm tích tự theo 
bottom-up hoặc top-down. Tại mỗi vòng lặp sẽ tính toán khoảng 
cách giữa các cặp mô hình và chọn ra cặp mô hình có khoảng cách 
nhỏ nhất để trộn lại với nhau. Quá trình lặp lại cho đến khi giá trị 
tiêu chí dừng được thoả. 
o Bước 8 – Post-Processing: quá trình xử lý sau cùng sẽ làm mịn lại các biên 
giữa các phân đoạn thông qua một bộ giải mã Viterbi [3]. 
19 
Hình 3.1 Mô hình hệ thống xử lý đa kênh 
3.2. Mô hình hệ thống xử lý nhanh 
Mô hình hệ thống xử lý đa kênh đạt hiệu quả tốt trong hầu hết những điều 
kiện, tuy nhiên lại không thể triển khai trong điều kiện ứng dụng theo thời gian 
thực. Với mục tiêu xây dựng một hệ thống Ghi nhật ký người nói trong môi trường 
MODULE TIỀN XỬ LÝ 
: 
microphone 1 
microphone K 
Lọc nhiễu 
Âm thanh đầu vào 
Tính toán TDOA 
Rút trích 
đặc trƣng 
ngữ âm 
Phát hiện 
tiếng nói (VAD) 
MODULE XỬ LÝ 
vector 
VAD 
TDOA 
Phân đoạn 
Nhật ký ngƣời nói 
Đầu ra 
Phân nhóm 
Xây dựng 
mô hình 
Phân nhóm 
tích tụ 
Tất cả các kênh 
Danh sách các đoạn S={s1,s2,..,sM} 
beamforming Tất cả các kênh 
Post-Processing 
20 
không có hoặc có ít tiếng nói chồng lấp đồng thời đòi hỏi chi phí tính toán thấp và 
đạt hiệu quả tương đương như các hệ thống xử lý đa kênh, luận văn đã đề xuất mô 
hình cho hệ thống xử lý nhanh theo cấu trúc sau (xem Hình 3.2): 
 Đầu vào: các kênh âm thanh (từ microphone 1 đến K). 
 Đầu ra: bản ghi nhật ký người nói của cuộc họp, gồm các đoạn âm thanh được 
chia và đánh nhãn theo người nói cụ thể. 
 Bao gồm hai module là module tiền xử lý và module xử lý Phân đoạn – Phân 
nhóm. 
 Module tiền xử lý: gồm các chức năng tính toán TDOA và phát hiện tiếng nói. 
Những thông tin đầu ra của module này sẽ gồm đặc trưng thời gian TDOA và 
giá trị nhận dạng tiếng nói – phi tiếng nói (VAD). 
o Bước 1 – Tính toán TDOA: tính toán đặc trưng TDOA dựa trên sự chênh 
lệch về thời gian đến của tín hiệu âm thanh. 
o Bước 2 – Phát hiện tiếng nói (VAD): phát hiện những frame nào trong dữ 
liệu âm thanh đầu vào là tiếng nói hay phi tiếng nói. 
 Module xử lý Phân đoạn – Phân nhóm: 
o Bước 3 – Lượng giá TDOA: lọc ra những giá trị xuất hiện nhiều nhất (gọi là 
các peak hay centroid) trong chuỗi giá trị TDOA bởi đó chính là những 
hướng đến chính của người nói, nhằm loại bỏ những giá trị nhiễu. Phương 
pháp lọc phổ biến là xây dựng biểu đồ histogram. 
o Bước 4 – Chuẩn hoá TDOA: đưa các giá trị còn lại về theo giá trị của các 
peak (centroid). Với một vector thì tiến hành chuẩn hoá một chiều. Với N 
vector (ứng với N microphone) thì sẽ chuẩn hoá N-chiều. Tất cả các giá trị 
TDOA sau khi chuẩn hoá sẽ được trộn lại thành các đoạn âm thanh S = {S1, 
S2, …, SM} (những giá trị TDOA gần nhau theo thứ tự frame được nhóm lại 
với nhau thành phân đoạn Si). 
o Bước 5 – Phân nhóm nhanh theo mô hình bottom-up: thuật toán phân nhóm 
cải tiến dựa trên phương pháp phân nhóm tích tụ bottom-up. Khoảng cách 
giữa hai phân nhóm (đại diện là hai centroid vì tất cả các giá trị TDOA 
21 
trong cùng một nhóm đều bằng giá trị của centroid) được tính bằng khoảng 
cách Manhattan. 
Hình 3.2 Mô hình hệ thống xử lý nhanh 
3.3. Các kĩ thuật tiền xử lý 
3.3.1. Kỹ thuật lọc nhiễu 
Nhiễu là những tín hiệu âm học không mong muốn (ví dụ tiếng nhạc, tiếng 
ồn của xe cộ, máy móc…) xuất hiện trong một dãy tín hiệu âm thanh [63] (ví dụ 
như trong Hình 3.3). Các tín hiệu nhiễu này ảnh hưởng rất lớn đến hiệu quả của các 
hệ thống xử lý tiếng nói như hệ thống Nhận dạng tiếng nói hay hệ thống Ghi nhật 
MODULE TIỀN XỬ LÝ 
: 
microphone 1 
microphone K 
Âm thanh đầu vào 
Tính toán TDOA 
Phát hiện 
tiếng nói (VAD) 
MODULE XỬ LÝ 
VAD 
TDOA 
Nhật ký ngƣời nói 
Đầu ra 
Phân đoạn 
Lƣợng giá TDOA 
Chuẩn hoá TDOA 
TDOA đã chuẩn hoá 
hoá Phân nhóm 
Phân nhóm nhanh 
theo bottom-up 
Tất cả các kênh 
Chọn kênh đầu tiên 
22 
ký người nói. Ví dụ, trong hệ thống Nhận dạng tiếng nói, nhiễu có thể gây ra sự 
không tương thích giữa các điều kiện huấn luyện và thực nghiệm, hơn nữa sẽ làm 
giảm độ chính xác của việc nhận dạng trong môi trường thực tế. Do đó, việc lọc 
nhiễu sẽ giúp cải thiện độ chính xác và độ ổn định cho các ứng dụng xử lý tiếng nói. 
(a) (b) 
 Hình 3.3 Một số ví dụ về nhiễu: (a) Tiếng xe hơi (b) Tiếng ồn trên đường 
Có nhiều loại nhiễu khác nhau được phân chia theo màu sắc như nhiễu trắng, 
nhiễu hồng, nhiễu nâu…[64]. Để giải quyết bài toán lọc nhiễu, ta có các phương 
pháp phổ biến như sau: 
 Với một microphone (single microphone): 
- Phương pháp trừ phổ (Spectral Subtraction): giá trị tần số của các phổ 
tiếng nói được lượng giá theo các phổ nhiễu để từ đó loại bỏ các phổ 
nhiễu [43]. 
- Phương pháp tham số (Parametric Technique): áp dụng các bộ lọc như 
bộ lọc Wiener [21],[51], bộ lọc Kalman [32] cho các tín hiện nhiễu. 
 Với nhiều microphone (multiple microphone): phương pháp beamforming 
(sử dụng thông tin âm thanh từ nhiều microphone để loại bỏ những thành 
phần âm thanh nhiễu) 
- Phương pháp cố định (fixed beamforming): lọc các tín hiệu microphone 
bằng các bộ lọc cố định và do đó độc lập với dữ liệu. Gồm có các kỹ 
thuật như Delay-And-Sum [58], Differential Microphone Array [33], 
Superdirective Microphone Array [37] và Frequency-Invariant [30]. 
23 
- Phương pháp thích nghi (adaptive beamforming): ngược với phương 
pháp cố định, phương pháp thích nghi sử dụng những bộ lọc phụ thuộc 
vào dữ liệu đã được thích nghi với các loại nhiễu, được áp dụng đặc 
biệt trong môi trường có ít nguồn nhiễu (nghĩa là số nguồn gây nhiễu 
nhỏ hơn số microphone) và ít tiếng vang [30],[37],[40]. 
Hình 3.4 Mô hình hoạt động của phương pháp Delay-and-Sum beamforming 
Trong đó, kỹ thuật lọc Wiener và Delay-And-Sum là hai phương pháp được 
sử dụng phổ biến trong việc lọc nhiễu với một microphone và nhiều microphone do 
đặc tính cài đặt đơn giản nhưng hiệu quả đem lại khá cao. Hình 3.4 mô tả cách thức 
hoạt động của phương pháp Delay-And-Sum. 
3.3.2. Kỹ thuật tính TDOA 
Các kỹ thuật tính TDOA thường được thực hiện trong môi trường hội nghị 
có nhiều microphone (Multiple Distant Microphone - MDM). Tại bất cứ thời điểm 
nào của cuộc họp, vì các microphone được đặt ở các vị trí khác nhau trong phòng 
nên khoảng cách về không gian giữa người nói và mỗi microphone là khác nhau. Vì 
tốc độ âm thanh là hằng số và giả định rằng sóng âm truyền từ người nói đến các 
microphone theo hướng song song, điều này sẽ dẫn tới sự chênh lệch về thời gian 
đến của tiếng nói tại mỗi microphone. Sự chênh lệch thời gian này được gọi là Time 
Delay of Arrival (TDOA) giữa các kênh nhận âm thanh (các microphone) (xem 
Hình 3.5). 
24 
Hình 3.5 Minh hoạ hướng đến của tiếng nói: c là tốc độ âm thanh, d là khoảng cách giữa 
các microphone 
Để tính toán giá trị TDOA, có hai phương pháp chủ ỵếu là phương pháp 
GCC-PHAT (Generalized Cross-Correlation using Phase Transform) [8] và bộ lọc 
NLMS (Normalized Least Means Squared) [40]. Phương pháp GCC-PHAT là 
phương pháp phổ biến nhất hiện nay và được luận văn lựa chọn để tính toán giá trị 
TDOA giữa các microphone trong môi trường SMR có độ phản âm cao (350ms). 
3.3.3. Đặc trƣng ngữ âm 
Một cách tổng quát, tín hiệu tiếng nói thô được chuyển hoá thành một dãy 
các vector đặc trưng ngữ âm mang thông tin đặc tính về tín hiệu đó. Các đặc trưng 
được sử dụng phổ biến hiện nay trong bài toán Ghi nhật ký người nói là Mel 
Frequency Cepstral Coefficients (MFCC) [45], Linear Prediction Cepstral 
Coefficients (LPCC) [22] and Perceptual Linear Prediction Cepstral (PLPC) 
Coefficients [19]. 
Tất cả các đặc trưng này đều dựa trên thông tin phổ từ các khung tiếng nói có 
kích thước ngắn. Điều này có được do quan sát rằng tín hiệu tiếng nói luôn luôn 
biến thiên theo thời gian, tuy nhiên trong khoảng thời gian 10-20ms tín hiệu tiếng 
nói được coi là tương đối ổn định. Các đặc trưng trên chỉ khác nhau ở bước phân 
tích thời gian-tần số và các kỹ thuật làm trơn tần số. 
d d d 
c c c c 
mic2 mic3 mic4 
Người nói 
mic1 
25 
Hình 3.6 Đặc trưng LPCC 
Luận văn sử dụng hai đặc trưng MFCC và LPCC để biểu diễn cho tín hiệu 
âm thanh trong Hệ thống xử lý đa kênh. Hình 3.6 là một ví dụ của đặc trưng LPCC. 
MFCC là đặc trưng thể hiện cho các phổ có mức năng lượng bước sóng 
ngắn, dựa trên biến đổi cosin tuyến tính của logarit phổ năng lượng trong miền tần 
số [45]. Các bước để tính toán giá trị MFCC được miêu tả như trong Hình 3.7. 
Hình 3.7 Các bước tính toán hệ số MFCC 
26 
LPCC là đặc trưng nén của dữ liệu âm thanh với thông tin được rút trích từ 
mô hình dự báo tuyến tính (linear predictive model) [22]. Định nghĩa của mô hình 
dự báo tuyến tính như sau: 
Giả sử giá trị mẫu hiện tại của tiếng nói được tiên đoán từ N mẫu trước đó: 
𝑥 𝑛 = 𝑎1𝑥 𝑛 − 1 + 𝑎2𝑥 𝑛 − 2 +. . +𝑎𝑁𝑥 𝑛 − 𝑁 = 𝑎𝑖𝑥(𝑛 − 𝑖)
𝑁
𝑖=1
 (3.1) 
trong đó 𝑥 𝑛 là dự báo tuyến tính của x(n), x(n-i) là giá trị mẫu tại bước thứ 
i trước đó, N là số mẫu hay còn gọi là bậc của dự báo và {ai} được gọi là các hệ số 
dự báo tuyến tính (linear prediction coefficients). Giá trị lỗi giữa giá trị mẫu thực sự 
và giá trị dự báo được biểu diễn như sau: 
𝜀 𝑛 = 𝑥 𝑛 − 𝑥 𝑛 = 𝑥 𝑛 − 𝑎𝑖𝑥(𝑛 − 𝑖)
𝑁
𝑖=1
 (3.2) 
Các hệ số ai được chọn để làm cực tiểu hàm lỗi dự báo trung bình bình 
phương sau: 
𝐸 = 𝜀2 𝑛 
𝑛
= 𝑥 𝑛 − 𝑎𝑖𝑥(𝑛 − 𝑖)
𝑁
𝑖=1
2
𝑛
 (3.3) 
Có nhiều phương pháp để tính các hệ số này: phương pháp dùng ma trận 
hiệp phương sai (covariance matrix), phương pháp tự tương quan (auto-correlation 
method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or 
harmonic). Phương pháp thường được áp dụng nhất là phương pháp tự tương quan 
dùng thuật toán đệ qui Levinson-Durbin như sau: 
Tính p+1 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính – 
bậc đệ quy) bằng công thức sau: 
𝑟𝑖 = 𝑠𝑗 𝑠𝑗+𝑖
𝑁−𝑖
𝑗=1
 (3.4) 
Các hệ số sau đó được tính toán đệ qui như sau: 
𝐸 0 = 𝑟0 , với i = 0 (3.5a) 
27 
𝑘𝑖 =
 𝑟𝑖− 𝑎𝑗
𝑖−1𝑟𝑖−𝑗
𝑖−1
𝑗=1 
𝐸𝑖−1
 , trong đó 1 ≤ i ≤ p (3.5b) 
𝑎𝑖
𝑖 = 𝑘𝑖 (3.5c) 
𝑎𝑗
𝑖 = 𝑎𝑗
𝑖−1 − 𝑘𝑖𝑎𝑖−𝑗
𝑖−1 , với 1 ≤ j ≤ i-1 (3.5d) 
𝐸 𝑖 = (1 − 𝑘𝑖
2)𝐸 𝑖−1 (3.5e) 
Các bước trên được tính toán lặp với i=1,2,…,p. Cuối cùng ta thu các hệ số 
aj=aj
p
 với 1 ≤ j ≤ p. 
3.4. Mô hình ngữ âm 
Hai mô hình ngữ âm thường sử dụng trong bài toán Ghi nhật ký người nói là 
Mô hình Markov ẩn (HMM – Hidden Markov Model) và Mô hình Hỗn hợp 
Gaussian (GMM – Gaussian Mixture Model). 
3.4.1. Mô hình Markov ẩn (HMM) 
HMM là một tập hữu hạn các trạng thái, mỗi trạng thái được liên kết với một 
phân số xác suất. Việc chuyển trạng thái được chỉ định bởi một tập các xác suất gọi 
là ma trận xác suất chuyển trạng thái. Tại mỗi trạng thái, một quan sát có thể được 
tạo ra dựa trên phân bố xác suất liên kết. Một mô hình Markov ẩn bao gồm các 
thành phần sau: 
 Tập các trạng thái S = {S1,…,SN}. 
 Tập các ký hiệu đầu ra Y = {Y1,…,YM}. 
 Phân bố trạng thái ban đầu π = {πi} với 
𝜋 = 𝑃 𝑞1 = 𝑆𝑗 , 1 ≤ 𝑗 ≤ 𝑁 (3.6) 
 Tập các chuyển trạng thái A = {aij} giữa các trạng thái. Chú ý rằng xác suất 
chuyển trạng thái độc lập với thời gian 
𝑎𝑖𝑗 = 𝑃 𝑞𝑡+1 = 𝑆𝑗 |𝑞𝑡 = 𝑆𝑖 , 1 ≤ 𝑖, 𝑗 ≤ 𝑁 (3.7) 
 Phân bố xác suất ký hiệu quan sát trong trạng thái j, B={bj(k)}, độc lập với 
thời gian 
𝑏𝑗 𝑘 = 𝑃 𝑥𝑡 = 𝑌𝑘 𝑞𝑡 = 𝑆𝑗 , 1 ≤ 𝑗 ≤ 𝑁, 1 ≤ 𝑘 ≤ 𝑀 (3.8) 
28 
Trong đó, Ʌ được chỉ định là các tham số của mô hình Markov ẩn. Khi được 
dùng cho tiếng nói, mô hình HMM thường có dạng đồ thị từ trái sang phải. Cho một 
dãy các vector quan sát X, các tham số của mô hình HMM được huấn luyện bằng 
thuật toán Expectation-Maximization (EM) [4] để tối ưu hoá giá trị likelihood: 
 
Xpmaxarg*
 (3.9) 
Dãy trạng thái ẩn tốt nhất (qbest) được xác định bằng thuật toán Viterbi [3]: 
      qpqXpqXpq
qq
best .,maxarg,maxarg
 (3.10) 
Giá trị likelihood của vector quan sát xn được cho bởi trạng thái qk,p(xn|qk), 
được mô hình một cách tổng quát bởi một mô hình Gaussian Mixture Model 
(GMM) như định nghĩa dưới đây. 
3.4.2. Mô hình Gaussian Mixture Model (GMM) 
GMM là một phân bố xác suất với sự kết hợp lồi của nhiều phân bố 
Gaussian. Mật độ hỗn hợp như sau: 
K
k
kk xfaxf
1
)()(
 (3.11) 
Trong đó: 
 K là số hỗn hợp. 
 ak là xác suất tiên nghiệm của hỗn hợp k sao cho 
  
K
k k
a
1
1
 fk(x) là mật độ thành phần của phân bố Gaussian được tham số hoá bởi giá trị 
trung bình 
k
 và hiệp phương sai 
k
: 
   
 
2
exp
)2(
1
)(
1
kk
t
k
k
dk
xx
xf
 (3.12) 
với d là chiều của vector đặc trưng. 
Cho một dãy các vector quan sát, các tham số của GMM có thể được huấn 
luyện thông qua thuật toán EM để tối ưu hoá giá trị likelihood của dữ liệu . Với 
tiếng nói, giả sử rằng mỗi quan sát trong dãy X={x1,…,xn} độc lập và được phân bố 
một cách đồng nhất. Theo đó, giá trị likelihood của một GMM được tham số hoá 
bởi 
 xác định bởi dãy quan sát X được tính như sau: 
29 
    inii xpXp  1
 (3.13) 
3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) 
Phát hiện tiếng nói là kỹ thuật tìm ra các vùng âm thanh có chứa tiếng nói 
của một người nói bất kỳ trong đoạn thu âm, xem Hình 3.8. Phụ thuộc vào miền dữ 
liệu được dùng, các vùng phi tiếng nói có thể là các khoảng lặng, tiếng cười, tiếng 
nhạc, tiếng ồn trong phòng hay là background noise. Các kỹ thuật phát hiện tiếng 
nói/phi tiếng nói là một phần quan trọng của hệ thống Ghi nhật ký người nói. Sự tồn 
tại của các frame phi tiếng nói trong quá trình phân nhóm sẽ khiến việc phân biệt 
chính xác hai mô hình người nói thêm khó khăn hơn. 
Hình 3.8 Minh hoạ cho việc phát hiện VAD trong dãy tín hiệu âm thanh 
Các kỹ thuật phát hiện tiếng nói có thể được phân theo ba loại sau: 
 Phát hiện tiếng nói dựa trên mức năng lượng. 
 Phát hiện tiếng nói dựa trên mô hình. 
 Phát hiện tiếng nói lai. 
Kỹ thuật phát hiện tiếng nói dựa trên mức năng lượng là phương pháp cổ 
điển nhất và hiện nay vẫn được ứng dụng rộng rãi trong lĩnh vực truyền thông [16]. 
Ở phương pháp này, việc phát hiện tiếng nói chủ yếu dựa trên những đặc trưng theo 
mức năng lượng như cao độ (pitch), âm sắc (tone), SNR (Signal-to-Noise 
Ratio)…Tuy nhiên, phương pháp này có hạn chế là không thể chạy tốt trong môi 
trường có nhiều loại nhiễu như tiếng gõ bàn phím, tiếng ho hay tiếng cười. Hình 3.9 
thể hiện lượt đồ khối của kỹ thuật tính VAD theo mức năng lượng. Có ba bước 
30 
chính: rút trích đặc trưng (feature extraction), xây dựng công thức tính VAD 
(decision module) và cuối cùng là làm trơn (decision smoothing). 
Hình 3.9 Sơ đồ khối của kỹ thuật tính VAD theo mức năng lượng 
Kỹ thuật phát hiện tiếng nói dựa trên mô hình ngược lại có thể mô hình hoá 
nhiều loại hiện tượng ngữ âm khác nhau. Hệ thống đơn giản nhất chỉ dùng hai mô 
hình tiếng nói và phi tiếng nói như của Wooters et al. [9]. Hệ thống phức tạp hơn 
được mô tả trong Nguyen et al. [39] với bốn mô hình tiếng nói. Tiếng ồn và tiếng 
nhạc được đặc biệt mô hình hoá trong Gauvain et al. [23], và Zhu et al. [53]. Hệ 
thống bao gồm năm lớp: tiếng nói, tiếng nhạc, tiếng ồn, tiếng nói + tiếng nhạc, và 
tiếng nói + tiếng ồn. Các mô hình tiếng nói + tiếng nhạc và tiếng nói + tiếng ồn 
được dùng để cực tiểu hoá việc bỏ qua tiếng nói khi có xuất hiện tiếng nhạc hoặc 
tiếng ồn, và các dữ liệu này được phân loại lại thành dữ liệu tiếng nói 
[23],[41],[49],[53]. 
Kỹ thuật phát hiện tiếng nói theo mô hình, tuy nhiên, lại có giới hạn của nó: 
các mô hình cần phải được huấn luyện với các dữ liệu được gán nhãn trong tập huấn 
luyện. Điều này đòi hỏi dữ liệu phải được đánh nhãn và việc này tốn khá nhiều chi 
phí. Hơn nữa, bởi vì sự phức tạp của các âm thanh phi tiếng nói nên không thể tìm 
đủ dữ liệu để xây dựng nên các mô hình cho các loại âm thanh này. Hiệu quả thấp 
của hệ thống trên các dữ liệu chưa được huấn luyện cũng là khuyết điểm chính của 
kỹ thuật phát hiện tiếng nói dựa trên mô hình. 
Kỹ thuật lai là sự kết hợp giữa hai kỹ thuật dựa vào mức năng lượng và dựa 
vào mô hình ở trên [54][55]. Phương pháp này bao gồm hai bước: bước đầu tiên là 
31 
một bộ phát hiện dựa vào mức năng lượng đơn giản, bước thứ hai sử dụng cách tiếp 
cận theo mô hình được huấn luyện trên chính dữ liệu thực nghiệm [9][40]. 
Tuy nhiên, do yêu cầu xử lý nhanh và có thể triển khai theo hướng thời gian 
thực, luận văn đã sử dụng phương pháp phát hiện tiếng nói theo mức năng lượng. 
Thực nghiệm cho thấy phương pháp này cho kết quả chấp nhận được trong môi 
trường SMR với ít tiếng nói chồng lấp. 
3.6. Kỹ thuật phân đoạn theo ngƣời nói 
Mục tiêu chính của bài toán phân đoạn theo người nói là tìm những điểm 
chuyển trạng thái (từ người nói này sang người nói khác, từ tín hiệu tiếng nói sang 
tín hiệu phi tiếng nói) trong dãy tín hiệu âm thanh đầu vào. Để thực hiện điều này, 
cần phải có phương pháp phù hợp để ước lượng sự khác biệt giữa các vùng âm 
thanh. Các hướng tiếp cận phổ biến để ước lượn