Ngày nay, việc giảm chi phí đi kèm với việc tăng hiệu suất xử lý cho các thiết bị điện tử, tăng khả năng lưu trữ, cũng như tăng băng thông mạng đã giúp cho con người có thể lưu trữ một số lượng khổng lồ các dữ liệu âm thanh, bao gồm các bản tin truyền hình, thư thoại, hội nghị và nhiều loại “tài liệu nói” khác. Điều này đặt ra nhu cầu phải xây dựng các kỹ thuật xử lý ngôn ngữ tự động để cho phép tìm kiếm, đánh chỉ số và truy cập những nguồn thông tin này một cách có hiệu quả.
10 trang |
Chia sẻ: vietpd | Lượt xem: 1353 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Bài toán ghi nhật ký người nói cho dữ liệu hội nghị, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
7
Chƣơng 2 BÀI TOÁN GHI NHẬT KÝ NGƢỜI NÓI
CHO DỮ LIỆU HỘI NGHỊ
2.1. Giới thiệu bài toán
Ngày nay, việc giảm chi phí đi kèm với việc tăng hiệu suất xử lý cho các
thiết bị điện tử, tăng khả năng lưu trữ, cũng như tăng băng thông mạng đã giúp cho
con người có thể lưu trữ một số lượng khổng lồ các dữ liệu âm thanh, bao gồm các
bản tin truyền hình, thư thoại, hội nghị và nhiều loại “tài liệu nói” khác. Điều này
đặt ra nhu cầu phải xây dựng các kỹ thuật xử lý ngôn ngữ tự động để cho phép tìm
kiếm, đánh chỉ số và truy cập những nguồn thông tin này một cách có hiệu quả. Các
kỹ thuật nhận dạng tiếng nói có thể giúp chuyển tập tin âm thanh thành văn bản
(bản ghi), tuy nhiên chất lượng của các bản ghi này thường không tốt, khó đọc và
không thể hiện được toàn bộ những thông tin chứa trong tập tin âm thanh đó (các
siêu thông tin hay còn gọi là meta-data). Một ví dụ cho meta-data trong dữ liệu âm
thanh hội nghị là thông tin lượt người nói (speaker turn) và biên câu nói (sentence
boundary). Hai thông tin này sẽ giúp tạo ra một bản ghi giàu ý nghĩa hơn, dễ đọc
hơn và xa hơn có thể giúp ích cho các tác vụ như tóm tắt, phân tích từ hay dịch
máy.
Hình 2.1 Ví dụ về Ghi nhật ký âm thanh cho bản tin truyền hình. Các thông tin được
đánh dấu bao gồm nhiều vùng âm thanh có cấu trúc như đoạn quảng cáo, các sự kiện âm
thanh như tiếng nhạc hay tiếng ồn, và tiếng người nói.
8
Một cách tổng quát, có thể xem một tài liệu nói là một bản thu đơn-kênh của
nhiều nguồn âm thanh. Các nguồn âm thanh ở đây có thể là các tiếng nói khác nhau,
các đoạn nhạc hay các loại tiếng ồn… Ví dụ, một bản tin truyền hình bao gồm nhiều
âm thanh trộn lẫn vào nhau như tiếng người, tiếng nhạc, tiếng quảng cáo và cả tiếng
ồn trong trường quay (xem Hình 2.1). Ghi nhật ký âm thanh là quá trình đánh dấu
và phân loại các nguồn âm thanh bên trong một tài liệu nói. Một cách đơn giản
nhất, việc ghi nhật ký là chỉ ra đâu là những đoạn tiếng nói và đâu là những đoạn
phi-tiếng nói, trong đó phi-tiếng nói là một lớp tổng quát của các thành phần âm
thanh như nhạc, khoảng lặng, tiếng ồn, v.v. Phức tạp hơn, trong những đoạn tiếng
nói ở trên, việc ghi nhật ký sẽ chỉ ra những “điểm chuyển tiếng nói (speaker turn)”
(giống như việc phân shot trong xử lý video) và nhóm những đoạn tiếng nói của
cùng một người nói lại. Quá trình này được gọi là Ghi nhật ký người nói (Speaker
Diarization), hay cũng được biết đến là “Ai đã nói Ở đâu – Who spoken When?”.
Quá trình này còn được gọi là quá trình Phân đoạn và Phân nhóm theo người nói,
bởi phân đoạn và phân nhóm là hai nhiệm vụ chính yếu trong Ghi nhật ký người
nói.
Một số ứng dụng của Ghi nhật ký người nói cho dữ liệu hội nghị là:
Với việc nhận dạng tiếng nói tự động truyền thống (ASR), Ghi nhật ký
người nói sẽ cung cấp thêm thông tin về lượt người nói, biên câu nói
(nhất là trong các đoạn hội thoại dài). Điều này sẽ giúp cho văn bản sau
khi nhận dạng dễ đọc hơn do được phân chia theo người nói cụ thể.
Với việc phát triển lớn mạnh các công cụ lưu trữ số cho dữ liệu đa truyền
thông (âm thanh và hình ảnh), việc đánh chỉ số đã trở thành một phần
thiết yếu cho các tác vụ duyệt và tìm kiếm. Ghi nhật ký người nói có thể
cho phép dữ liệu âm thanh được đánh chỉ số dễ dàng hơn, được duyệt và
tìm kiếm theo người nói một cách chính xác hơn.
Với các hệ thống ASR, các mô hình phụ thuộc người nói thường cho kết
quả tốt hơn các mô hình độc lập người nói. Ghi nhật ký người nói có thể
9
giúp các mô hình độc lập người nói thích nghi theo dữ liệu người nói cụ
thể và do đó độ chính xác sẽ được cải thiện.
2.2. Phát biểu bài toán
Hình 2.2 Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị.
Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị là một bài toán thuộc về
họ bài toán phân loại mẫu. Mục tiêu của bài toán là đề xuất các giải pháp hiệu quả
cho việc phân loại các tín hiệu âm thanh về định danh người nói xác định. Luận văn
sẽ tập trung giải quyết bài toán trong phạm vi môi trường SMR, với số người nói
không biết trước và số lượng tiếng nói bị chồng lấp ít hoặc không có.
Tập tin âm thanh A
S1 S2 S3 SM
Phân đoạn tiếng nói
C1 CN
……………
..
Gán nhãn tiếng nói
Si
Điểm chuyển
ngƣời nói
Nhật ký người nói
Si
…
Sj
Sm
…
Sn
10
Với dữ liệu âm thanh thu được từ hội nghị, gọi là A, với số người nói tham
gia là N, tiến hành chia dữ liệu thành M đoạn rời nhau liên tiếp theo thời gian Si,
1≤i≤M và gán nhãn Cj, 1≤j≤N (đại diện cho N người nói), cho tất cả M đoạn này.
Kết quả thu được là danh sách D = {Li=j, 1≤i≤M, 1≤j≤N } với M là số đoạn âm
thanh, N là số người nói và Li là nhãn của đoạn thứ i, tương ứng với người nói thứ
j. D chính là bản ghi nhật ký người nói cho dữ liệu hội nghị (xem Hình 2.2).
Như vậy bài toán Ghi nhật ký người nói cho dữ liệu hội nghị thực ra là tổng
hợp của hai bài toán Phân đoạn người nói và Phân nhóm người nói:
Phân đoạn người nói là chia tập tin âm thanh thành các phân đoạn theo
các vị trí chuyển lượt người nói hoặc các vị trí ranh giới giữa các frame
tiếng nói và phi tiếng nói.
Phân nhóm người nói là việc nhóm các phân đoạn của cùng một người
nói lại với nhau.
2.3. Độ đo đánh giá
Các hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị thường sử dụng độ
đo đánh giá là DER [62] (Diarization Error Rate) do học viện NIST, Hoa Kỳ đề
xuất. Độ đo DER được tính bằng tỉ lệ của tất cả thời gian lỗi thu được trên tổng thời
gian của dữ liệu đầu vào. Như vậy, giá trị DER hoàn hảo sẽ là 0% và 100% có
nghĩa là kết quả nhận được hoàn toàn không chính xác. Hình 2.3 minh hoạ các loại
lỗi khác nhau trong biểu thức tính DER.
𝐷𝐸𝑅 =
tổng tất cả thời gian ghi nhật ký lỗi
tổng thời gian tham chiếu
(2.1)
=
𝑆𝐸 +𝑀𝑆 + 𝐹𝐴
𝑆𝑃𝐾
%
(2.2)
Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện
đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ
đoạn âm thanh của Người A nhưng lại bị gán cho Người B.
11
Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện được
đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người cùng nói
đồng thời nhưng chỉ có một người được phát hiện.
Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược lại
với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát hiện
là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai người nói.
Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời
gian được tính theo người nói thực sự, làm cơ sở để tham chiếu.
Hình 2.3 Các loại lỗi trong DER.
2.4. Các hƣớng tiếp cận giải quyết bài toán
2.4.1. Bài toán phân đoạn theo ngƣời nói
Các hướng tiếp cận giải quyết bài toán phân đoạn theo người nói được chia
theo ba loại sau:
Phân đoạn dựa vào mô hình: Các mô hình cho một tập đóng các lớp
ngữ âm (giọng trên điện thoại–trên voice chat, giọng nam–giọng nữ, âm
nhạc-tiếng nói-khoảng lặng hay tổ hợp của chúng) được khởi tạo bằng
cách sử dụng dữ liệu huấn luyện. Dữ liệu âm thanh sau đó sẽ được phân
loại bằng bộ lựa chọn ML (Maximum Likelihood) sử dụng những mô
hình khởi tạo trên, như trong [5],[23],[28],[42]. Vùng biên giữa các mô
hình trở thành các điểm phân đoạn.
Phân đoạn dựa vào độ đo: Việc phân đoạn dựa vào độ đo có lẽ là
phương pháp mới nhất hiện nay. Sử dụng kỹ thuật này, dữ liệu âm thanh
12
sẽ được phân đoạn bằng cách lượng giá một độ đo giữa hai đoạn âm
thanh gần nhau. Một cửa sổ trượt sẽ được dùng trong toàn bộ dữ liệu âm
thanh để tính toán sự khác biệt bên trong cửa sổ. Độ đo phân kỳ sẽ được
tính giữa hai cửa sổ con này. Việc phân đoạn chỉ cần dựa vào những vị
trí tại đó độ đo phân kỳ là lớn nhất (xem Hình 2.4).
Hình 2.4 Dãy thời gian của độ đo phân kỳ nhận được khi cửa sổ trượt trượt
theo toàn dữ liệu âm thanh. Các điểm cực đại đại diện cho các lượt chuyển
người nói.
Những độ đo sau thường được sử dụng nhiều trong các nghiên cứu về
Ghi nhật ký người nói cho dữ liệu hội nghị: Bayesian Information
Criterion (BIC và BIC) [17], Cross-Likelihood Ratio (CLR) [13] và
Generalized Likelihood Ratio (GLR) [6].
Phân đoạn dựa vào đặc trƣng:
o Đặc trƣng mức năng lƣợng: Cách tiếp cận dựa trên mức năng lượng
có lẽ là cách tiếp cận căn bản nhất của tất cả các thuật toán phân đoạn.
Nó được thực hiện dựa trên việc phát hiện những vùng âm thanh liên
tục mà tại đó mức năng lượng là thấp nhất. Những vị trí tại các mức
năng lượng thấp này đại diện cho một khoảng dừng và do đó có nhiều
khả năng là đoạn chuyển tiếp giữa những người nói. Cách tiếp cận này
đã được trình bày trong các bài báo như [28],[38],[46],[52].
o Đặc trƣng TDOA: Trong điều kiện môi trường đa microphone
(Multiple Distant Microphones – MDM) như Smart Meeting Room,
13
một số nghiên cứu về TDOA (Time Delay Of Arrival) đã được giới
thiệu cho tác vụ phân đoạn âm thanh. TDOA là sự chênh lệch thời
gian giữa các kênh âm thanh có được do độ trễ về thời gian đến khi
sóng âm truyền từ nguồn phát đến nguồn thu (các microphone).
Hướng đến của tín hiệu tiếng nói cũng có thể suy được dựa vào thông
tin TDOA này. Với giả thiết rằng “các nguồn tiếng nói (người nói) sẽ
không di chuyển trong suốt quá trình hội nghị”, thông tin TDOA có
thể giúp việc phân đoạn âm thanh đầu vào được chính xác hơn [29].
2.4.2. Bài toán phân nhóm theo ngƣời nói
Hầu hết các phương pháp phân nhóm phổ biến hiện nay có thể phân loại
thành hai loại chính như sau:
Phân nhóm lƣợng hoá vector (Vector Quantization Clustering): đã
được giới thiệu và thử nghiệm trong [11],[35]. Với phương pháp này, các
vector đặc trưng từ một người nói chưa biết sẽ được ánh xạ tương ứng
đến các vector mẫu đã biết trong một codebook. Mỗi vector mẫu sẽ đại
diện cho một định danh người nói cụ thể. Việc ánh xạ các vector đặc
trưng được thực hiện bằng cách sử dụng độ đo khoảng cách và quyết
định liệu người nói chưa biết đó sẽ khớp với định danh người nói đã biết
nào.
Phân nhóm tích tụ (Agglomerative Clustering): Đây là phương pháp
phân nhóm phổ biến trong các hệ thống Ghi nhật ký người nói. Phân
nhóm tích tụ sử dụng cách tiếp cận phân nhóm phân cấp trong đó các
đoạn (có được từ quá trình Phân đoạn) hay nhóm (nhóm khởi tạo) được
tách/trộn lặp lại nhiều lần cho đến khi một tiêu chí dừng nào đó được
thoả mãn. Quá trình tách gọi là top-down, và quá trình trộn gọi là
bottom-up (xem Hình 2.5). Cả hai phương pháp này đều đòi hỏi một độ
đo khoảng cách để quyết định sự tương đồng ngữ âm giữa hai
nhóm/đoạn bất kỳ và một tiêu chí dừng để dừng việc trộn/tách khi số
lượng các nhóm đạt tối ưu. Do đó hầu hết các công trình nghiên cứu về
14
phương pháp phân nhóm tích tụ đều tập trung vào việc nghiên cứu một
độ đo khoảng cách thích hợp và tiêu chí dừng tương ứng.
Hình 2.5 Phân nhóm tích tụ theo bottom-up hoặc top-down.
Dưới đây là các độ đo phổ biến được dùng như các độ đo khoảng cách cũng
như các tiêu chí dừng cho thuật toán Phân nhóm tích tụ:
o Phân nhóm theo Bottom-up: Bayesian Information Criterion (BIC và
BIC) [12], Kullback-Leibler distance (KL) [20], Cross-Likelihood
Ratio (CLR) [14], Generalized Likelihood Ratio (GLR) [6], Ts criterion
and ρ criterion ([36],[50])
o Phân nhóm theo Top-down: Arithmetic Harmonic Sphericity (AHS) [7]
2.4.3. Hƣớng tiếp cận phổ biến trong môi trƣờng SMR
Trong môi trường SMR, việc có nhiều microphone cùng thu tiếng nói ở các
vị trí khác nhau đã tạo nên một lợi thế lớn so với các môi trường thu tiếng chỉ với
một microphone. Đặc trưng TDOA có được từ môi trường đa microphone kết hợp
với các đặc trưng ngữ âm cổ điển như MFCC (Mel Frequency Cepstral
Coefficients), LPCC (Linear Prediction Cepstral Coefficients) có thể giúp giảm lỗi
DER của thuật toán Ghi nhật ký người nói đến 15-21% (giá trị tương đối) [27]. Do
đó, hầu hết các phương pháp Ghi nhật ký người nói cho dữ liệu hội nghị trong môi
15
trường SMR phổ biến hiện nay đều kết hợp nhiều loại đặc trưng âm thanh với nhau.
Trong [27], Jose M. Pardo et al. kết hợp đặc trưng MFCC và TDOA và xây dựng
mô hình e-HMM (ergodic Hidden Markov Model). Trong [15], Deepu Vijayasenan
et al. kết hợp hai đặc trưng MFCC, TDOA và một số đặc trưng khác cùng với việc
xây dựng mô hình ngữ liệu GMM (Gaussian Mixture Model).
2.5. Phƣơng pháp phân nhóm nhanh cải tiến (Fast Clustering)
Một hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị tốt ngoài yếu tố
chính xác cũng cần phải tính đến yếu tố về thời gian. Như trong mục 2.4.2, hầu hết
các phương pháp phổ biến hiện nay ở cả hai bước Phân đoạn và Phân nhóm đều đòi
hỏi việc mô hình hoá các đặc trưng về âm thanh, tính toán độ đo khoảng cách và
tiêu chí dừng dựa trên các mô hình đó. Điều này làm cho hệ thống Ghi nhật ký
người nói phải xử lý theo tất cả các frame, hơn nữa lại có mức chi phí tính toán quá
lớn (thời gian tính toán toàn bộ thường gấp nhiều lần thời gian dữ liệu âm thanh đầu
vào), do đó khó có thể áp dụng trong các ứng dụng đòi hỏi thời gian thực như tường
thuật trực tiếp bóng đá, các bản tin thời sự hay trong một số hội nghị trực tuyến. Để
vượt qua trở ngại này, luận văn nghiên cứu và trình bày một phương pháp phân
nhóm nhanh cải tiến (Fast Clustering), có khả năng Phân đoạn và Phân nhóm với độ
chính xác tương đương các phương pháp phổ biến hiện nay nhưng vẫn duy trì chi
phí tính toán ở mức thấp, có thể tiến tới triển khai theo thời gian thực.
Cụ thể, luận văn sử dụng cách phân đoạn theo hướng tiếp cận sử dụng thông
tin TDOA trong môi trường Smart Meeting Room. Với giả thuyết “vị trí của người
nói không thay đổi trong suốt thời gian cuộc họp”, việc sử dụng thông tin TDOA sẽ
giúp cho việc phân đoạn và phân nhóm người nói chính xác và nhanh, đồng thời
không đòi hỏi phải mô hình hoá. Tuy nhiên, trong quá trình tiến hành thu âm cho
một hội nghị, những âm thanh nhiễu (tiếng ồn, tiếng vang…) sẽ ảnh hưởng rất lớn
đến việc xác định hướng đến của âm thanh. Luận văn đã áp dụng phương pháp
lượng giá TDOA để lựa chọn những cặp microphone có tín hiệu âm thanh đến tin
cậy nhất, đồng thời “chuẩn hoá” các giá trị TDOA nhằm loại bỏ những giá trị nhiễu
(xem Hình 2.6).
16
Hình 2.6 Ý tưởng chuẩn hoá TDOA.
Cuối cùng luận văn cài đặt một phương pháp Phân nhóm nhanh cải tiến (Fast
Clustering) dựa trên thông tin TDOA đã được chuẩn hoá. Phương pháp cải tiến có
độ chính xác tương đương những phương pháp phổ biến hiện nay theo hướng mô
hình hoá đặc trưng âm thanh, trong khi chi phí thấp hơn rất nhiều (thời gian tính
toán trung bình xấp xỉ 0.46% thời gian dữ liệu âm thanh đầu vào, và bằng 1/20 thời
gian tính toán của phương pháp theo mô hình hoá).
Phương pháp Fast Clustering và các thuật toán xử lý TDOA sẽ được trình
bày chi tiết trong Chương 3.
50 100 150 200 250 300 350 400 450
33
42
47
55
DO
A
es
tim
ate
time (sec)
Quantized DOA estimation vs. time for part of CMU_20061115-1030