Bài toán ghi nhật ký người nói cho dữ liệu hội nghị

Ngày nay, việc giảm chi phí đi kèm với việc tăng hiệu suất xử lý cho các thiết bị điện tử, tăng khả năng lưu trữ, cũng như tăng băng thông mạng đã giúp cho con người có thể lưu trữ một số lượng khổng lồ các dữ liệu âm thanh, bao gồm các bản tin truyền hình, thư thoại, hội nghị và nhiều loại “tài liệu nói” khác. Điều này đặt ra nhu cầu phải xây dựng các kỹ thuật xử lý ngôn ngữ tự động để cho phép tìm kiếm, đánh chỉ số và truy cập những nguồn thông tin này một cách có hiệu quả.

10 trang | Chia sẻ: vietpd | Lượt xem: 1571 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Bài toán ghi nhật ký người nói cho dữ liệu hội nghị, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

7 Chƣơng 2 BÀI TOÁN GHI NHẬT KÝ NGƢỜI NÓI CHO DỮ LIỆU HỘI NGHỊ 2.1. Giới thiệu bài toán Ngày nay, việc giảm chi phí đi kèm với việc tăng hiệu suất xử lý cho các thiết bị điện tử, tăng khả năng lưu trữ, cũng như tăng băng thông mạng đã giúp cho con người có thể lưu trữ một số lượng khổng lồ các dữ liệu âm thanh, bao gồm các bản tin truyền hình, thư thoại, hội nghị và nhiều loại “tài liệu nói” khác. Điều này đặt ra nhu cầu phải xây dựng các kỹ thuật xử lý ngôn ngữ tự động để cho phép tìm kiếm, đánh chỉ số và truy cập những nguồn thông tin này một cách có hiệu quả. Các kỹ thuật nhận dạng tiếng nói có thể giúp chuyển tập tin âm thanh thành văn bản (bản ghi), tuy nhiên chất lượng của các bản ghi này thường không tốt, khó đọc và không thể hiện được toàn bộ những thông tin chứa trong tập tin âm thanh đó (các siêu thông tin hay còn gọi là meta-data). Một ví dụ cho meta-data trong dữ liệu âm thanh hội nghị là thông tin lượt người nói (speaker turn) và biên câu nói (sentence boundary). Hai thông tin này sẽ giúp tạo ra một bản ghi giàu ý nghĩa hơn, dễ đọc hơn và xa hơn có thể giúp ích cho các tác vụ như tóm tắt, phân tích từ hay dịch máy. Hình 2.1 Ví dụ về Ghi nhật ký âm thanh cho bản tin truyền hình. Các thông tin được đánh dấu bao gồm nhiều vùng âm thanh có cấu trúc như đoạn quảng cáo, các sự kiện âm thanh như tiếng nhạc hay tiếng ồn, và tiếng người nói. 8 Một cách tổng quát, có thể xem một tài liệu nói là một bản thu đơn-kênh của nhiều nguồn âm thanh. Các nguồn âm thanh ở đây có thể là các tiếng nói khác nhau, các đoạn nhạc hay các loại tiếng ồn… Ví dụ, một bản tin truyền hình bao gồm nhiều âm thanh trộn lẫn vào nhau như tiếng người, tiếng nhạc, tiếng quảng cáo và cả tiếng ồn trong trường quay (xem Hình 2.1). Ghi nhật ký âm thanh là quá trình đánh dấu và phân loại các nguồn âm thanh bên trong một tài liệu nói. Một cách đơn giản nhất, việc ghi nhật ký là chỉ ra đâu là những đoạn tiếng nói và đâu là những đoạn phi-tiếng nói, trong đó phi-tiếng nói là một lớp tổng quát của các thành phần âm thanh như nhạc, khoảng lặng, tiếng ồn, v.v. Phức tạp hơn, trong những đoạn tiếng nói ở trên, việc ghi nhật ký sẽ chỉ ra những “điểm chuyển tiếng nói (speaker turn)” (giống như việc phân shot trong xử lý video) và nhóm những đoạn tiếng nói của cùng một người nói lại. Quá trình này được gọi là Ghi nhật ký người nói (Speaker Diarization), hay cũng được biết đến là “Ai đã nói Ở đâu – Who spoken When?”. Quá trình này còn được gọi là quá trình Phân đoạn và Phân nhóm theo người nói, bởi phân đoạn và phân nhóm là hai nhiệm vụ chính yếu trong Ghi nhật ký người nói. Một số ứng dụng của Ghi nhật ký người nói cho dữ liệu hội nghị là:  Với việc nhận dạng tiếng nói tự động truyền thống (ASR), Ghi nhật ký người nói sẽ cung cấp thêm thông tin về lượt người nói, biên câu nói (nhất là trong các đoạn hội thoại dài). Điều này sẽ giúp cho văn bản sau khi nhận dạng dễ đọc hơn do được phân chia theo người nói cụ thể.  Với việc phát triển lớn mạnh các công cụ lưu trữ số cho dữ liệu đa truyền thông (âm thanh và hình ảnh), việc đánh chỉ số đã trở thành một phần thiết yếu cho các tác vụ duyệt và tìm kiếm. Ghi nhật ký người nói có thể cho phép dữ liệu âm thanh được đánh chỉ số dễ dàng hơn, được duyệt và tìm kiếm theo người nói một cách chính xác hơn.  Với các hệ thống ASR, các mô hình phụ thuộc người nói thường cho kết quả tốt hơn các mô hình độc lập người nói. Ghi nhật ký người nói có thể 9 giúp các mô hình độc lập người nói thích nghi theo dữ liệu người nói cụ thể và do đó độ chính xác sẽ được cải thiện. 2.2. Phát biểu bài toán Hình 2.2 Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị. Bài toán Ghi nhật ký người nói cho dữ liệu hội nghị là một bài toán thuộc về họ bài toán phân loại mẫu. Mục tiêu của bài toán là đề xuất các giải pháp hiệu quả cho việc phân loại các tín hiệu âm thanh về định danh người nói xác định. Luận văn sẽ tập trung giải quyết bài toán trong phạm vi môi trường SMR, với số người nói không biết trước và số lượng tiếng nói bị chồng lấp ít hoặc không có. Tập tin âm thanh A S1 S2 S3 SM Phân đoạn tiếng nói C1 CN …………… .. Gán nhãn tiếng nói Si Điểm chuyển ngƣời nói Nhật ký người nói Si … Sj Sm … Sn 10 Với dữ liệu âm thanh thu được từ hội nghị, gọi là A, với số người nói tham gia là N, tiến hành chia dữ liệu thành M đoạn rời nhau liên tiếp theo thời gian Si, 1≤i≤M và gán nhãn Cj, 1≤j≤N (đại diện cho N người nói), cho tất cả M đoạn này. Kết quả thu được là danh sách D = {Li=j, 1≤i≤M, 1≤j≤N } với M là số đoạn âm thanh, N là số người nói và Li là nhãn của đoạn thứ i, tương ứng với người nói thứ j. D chính là bản ghi nhật ký người nói cho dữ liệu hội nghị (xem Hình 2.2). Như vậy bài toán Ghi nhật ký người nói cho dữ liệu hội nghị thực ra là tổng hợp của hai bài toán Phân đoạn người nói và Phân nhóm người nói:  Phân đoạn người nói là chia tập tin âm thanh thành các phân đoạn theo các vị trí chuyển lượt người nói hoặc các vị trí ranh giới giữa các frame tiếng nói và phi tiếng nói.  Phân nhóm người nói là việc nhóm các phân đoạn của cùng một người nói lại với nhau. 2.3. Độ đo đánh giá Các hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị thường sử dụng độ đo đánh giá là DER [62] (Diarization Error Rate) do học viện NIST, Hoa Kỳ đề xuất. Độ đo DER được tính bằng tỉ lệ của tất cả thời gian lỗi thu được trên tổng thời gian của dữ liệu đầu vào. Như vậy, giá trị DER hoàn hảo sẽ là 0% và 100% có nghĩa là kết quả nhận được hoàn toàn không chính xác. Hình 2.3 minh hoạ các loại lỗi khác nhau trong biểu thức tính DER. 𝐷𝐸𝑅 = tổng tất cả thời gian ghi nhật ký lỗi tổng thời gian tham chiếu (2.1) = 𝑆𝐸 +𝑀𝑆 + 𝐹𝐴 𝑆𝑃𝐾 % (2.2)  Thời gian xác định nhãn người nói sai (Speaker Error Time - SE): Phát hiện đúng đoạn âm thanh có người nói, nhưng gán nhãn không chính xác. Ví dụ đoạn âm thanh của Người A nhưng lại bị gán cho Người B. 11  Thời gian bỏ lỡ người nói (Missed Speaker Time – MS): Không phát hiện được đoạn âm thanh đó là có người nói. Ví dụ trong trường hợp hai người cùng nói đồng thời nhưng chỉ có một người được phát hiện.  Thời gian xác định Người nói sai (False Alarm Speaker Time – FA): Ngược lại với MS, trong một đoạn âm thanh không có người nói nhưng lại được phát hiện là có người nói, hay chỉ có một người nói nhưng lại phát hiện đến hai người nói.  Tổng thời gian tham chiếu (Scored Speaker Time – SPK): là tổng tất cả thời gian được tính theo người nói thực sự, làm cơ sở để tham chiếu. Hình 2.3 Các loại lỗi trong DER. 2.4. Các hƣớng tiếp cận giải quyết bài toán 2.4.1. Bài toán phân đoạn theo ngƣời nói Các hướng tiếp cận giải quyết bài toán phân đoạn theo người nói được chia theo ba loại sau:  Phân đoạn dựa vào mô hình: Các mô hình cho một tập đóng các lớp ngữ âm (giọng trên điện thoại–trên voice chat, giọng nam–giọng nữ, âm nhạc-tiếng nói-khoảng lặng hay tổ hợp của chúng) được khởi tạo bằng cách sử dụng dữ liệu huấn luyện. Dữ liệu âm thanh sau đó sẽ được phân loại bằng bộ lựa chọn ML (Maximum Likelihood) sử dụng những mô hình khởi tạo trên, như trong [5],[23],[28],[42]. Vùng biên giữa các mô hình trở thành các điểm phân đoạn.  Phân đoạn dựa vào độ đo: Việc phân đoạn dựa vào độ đo có lẽ là phương pháp mới nhất hiện nay. Sử dụng kỹ thuật này, dữ liệu âm thanh 12 sẽ được phân đoạn bằng cách lượng giá một độ đo giữa hai đoạn âm thanh gần nhau. Một cửa sổ trượt sẽ được dùng trong toàn bộ dữ liệu âm thanh để tính toán sự khác biệt bên trong cửa sổ. Độ đo phân kỳ sẽ được tính giữa hai cửa sổ con này. Việc phân đoạn chỉ cần dựa vào những vị trí tại đó độ đo phân kỳ là lớn nhất (xem Hình 2.4). Hình 2.4 Dãy thời gian của độ đo phân kỳ nhận được khi cửa sổ trượt trượt theo toàn dữ liệu âm thanh. Các điểm cực đại đại diện cho các lượt chuyển người nói. Những độ đo sau thường được sử dụng nhiều trong các nghiên cứu về Ghi nhật ký người nói cho dữ liệu hội nghị: Bayesian Information Criterion (BIC và BIC) [17], Cross-Likelihood Ratio (CLR) [13] và Generalized Likelihood Ratio (GLR) [6].  Phân đoạn dựa vào đặc trƣng: o Đặc trƣng mức năng lƣợng: Cách tiếp cận dựa trên mức năng lượng có lẽ là cách tiếp cận căn bản nhất của tất cả các thuật toán phân đoạn. Nó được thực hiện dựa trên việc phát hiện những vùng âm thanh liên tục mà tại đó mức năng lượng là thấp nhất. Những vị trí tại các mức năng lượng thấp này đại diện cho một khoảng dừng và do đó có nhiều khả năng là đoạn chuyển tiếp giữa những người nói. Cách tiếp cận này đã được trình bày trong các bài báo như [28],[38],[46],[52]. o Đặc trƣng TDOA: Trong điều kiện môi trường đa microphone (Multiple Distant Microphones – MDM) như Smart Meeting Room, 13 một số nghiên cứu về TDOA (Time Delay Of Arrival) đã được giới thiệu cho tác vụ phân đoạn âm thanh. TDOA là sự chênh lệch thời gian giữa các kênh âm thanh có được do độ trễ về thời gian đến khi sóng âm truyền từ nguồn phát đến nguồn thu (các microphone). Hướng đến của tín hiệu tiếng nói cũng có thể suy được dựa vào thông tin TDOA này. Với giả thiết rằng “các nguồn tiếng nói (người nói) sẽ không di chuyển trong suốt quá trình hội nghị”, thông tin TDOA có thể giúp việc phân đoạn âm thanh đầu vào được chính xác hơn [29]. 2.4.2. Bài toán phân nhóm theo ngƣời nói Hầu hết các phương pháp phân nhóm phổ biến hiện nay có thể phân loại thành hai loại chính như sau:  Phân nhóm lƣợng hoá vector (Vector Quantization Clustering): đã được giới thiệu và thử nghiệm trong [11],[35]. Với phương pháp này, các vector đặc trưng từ một người nói chưa biết sẽ được ánh xạ tương ứng đến các vector mẫu đã biết trong một codebook. Mỗi vector mẫu sẽ đại diện cho một định danh người nói cụ thể. Việc ánh xạ các vector đặc trưng được thực hiện bằng cách sử dụng độ đo khoảng cách và quyết định liệu người nói chưa biết đó sẽ khớp với định danh người nói đã biết nào.  Phân nhóm tích tụ (Agglomerative Clustering): Đây là phương pháp phân nhóm phổ biến trong các hệ thống Ghi nhật ký người nói. Phân nhóm tích tụ sử dụng cách tiếp cận phân nhóm phân cấp trong đó các đoạn (có được từ quá trình Phân đoạn) hay nhóm (nhóm khởi tạo) được tách/trộn lặp lại nhiều lần cho đến khi một tiêu chí dừng nào đó được thoả mãn. Quá trình tách gọi là top-down, và quá trình trộn gọi là bottom-up (xem Hình 2.5). Cả hai phương pháp này đều đòi hỏi một độ đo khoảng cách để quyết định sự tương đồng ngữ âm giữa hai nhóm/đoạn bất kỳ và một tiêu chí dừng để dừng việc trộn/tách khi số lượng các nhóm đạt tối ưu. Do đó hầu hết các công trình nghiên cứu về 14 phương pháp phân nhóm tích tụ đều tập trung vào việc nghiên cứu một độ đo khoảng cách thích hợp và tiêu chí dừng tương ứng. Hình 2.5 Phân nhóm tích tụ theo bottom-up hoặc top-down. Dưới đây là các độ đo phổ biến được dùng như các độ đo khoảng cách cũng như các tiêu chí dừng cho thuật toán Phân nhóm tích tụ: o Phân nhóm theo Bottom-up: Bayesian Information Criterion (BIC và BIC) [12], Kullback-Leibler distance (KL) [20], Cross-Likelihood Ratio (CLR) [14], Generalized Likelihood Ratio (GLR) [6], Ts criterion and ρ criterion ([36],[50]) o Phân nhóm theo Top-down: Arithmetic Harmonic Sphericity (AHS) [7] 2.4.3. Hƣớng tiếp cận phổ biến trong môi trƣờng SMR Trong môi trường SMR, việc có nhiều microphone cùng thu tiếng nói ở các vị trí khác nhau đã tạo nên một lợi thế lớn so với các môi trường thu tiếng chỉ với một microphone. Đặc trưng TDOA có được từ môi trường đa microphone kết hợp với các đặc trưng ngữ âm cổ điển như MFCC (Mel Frequency Cepstral Coefficients), LPCC (Linear Prediction Cepstral Coefficients) có thể giúp giảm lỗi DER của thuật toán Ghi nhật ký người nói đến 15-21% (giá trị tương đối) [27]. Do đó, hầu hết các phương pháp Ghi nhật ký người nói cho dữ liệu hội nghị trong môi 15 trường SMR phổ biến hiện nay đều kết hợp nhiều loại đặc trưng âm thanh với nhau. Trong [27], Jose M. Pardo et al. kết hợp đặc trưng MFCC và TDOA và xây dựng mô hình e-HMM (ergodic Hidden Markov Model). Trong [15], Deepu Vijayasenan et al. kết hợp hai đặc trưng MFCC, TDOA và một số đặc trưng khác cùng với việc xây dựng mô hình ngữ liệu GMM (Gaussian Mixture Model). 2.5. Phƣơng pháp phân nhóm nhanh cải tiến (Fast Clustering) Một hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị tốt ngoài yếu tố chính xác cũng cần phải tính đến yếu tố về thời gian. Như trong mục 2.4.2, hầu hết các phương pháp phổ biến hiện nay ở cả hai bước Phân đoạn và Phân nhóm đều đòi hỏi việc mô hình hoá các đặc trưng về âm thanh, tính toán độ đo khoảng cách và tiêu chí dừng dựa trên các mô hình đó. Điều này làm cho hệ thống Ghi nhật ký người nói phải xử lý theo tất cả các frame, hơn nữa lại có mức chi phí tính toán quá lớn (thời gian tính toán toàn bộ thường gấp nhiều lần thời gian dữ liệu âm thanh đầu vào), do đó khó có thể áp dụng trong các ứng dụng đòi hỏi thời gian thực như tường thuật trực tiếp bóng đá, các bản tin thời sự hay trong một số hội nghị trực tuyến. Để vượt qua trở ngại này, luận văn nghiên cứu và trình bày một phương pháp phân nhóm nhanh cải tiến (Fast Clustering), có khả năng Phân đoạn và Phân nhóm với độ chính xác tương đương các phương pháp phổ biến hiện nay nhưng vẫn duy trì chi phí tính toán ở mức thấp, có thể tiến tới triển khai theo thời gian thực. Cụ thể, luận văn sử dụng cách phân đoạn theo hướng tiếp cận sử dụng thông tin TDOA trong môi trường Smart Meeting Room. Với giả thuyết “vị trí của người nói không thay đổi trong suốt thời gian cuộc họp”, việc sử dụng thông tin TDOA sẽ giúp cho việc phân đoạn và phân nhóm người nói chính xác và nhanh, đồng thời không đòi hỏi phải mô hình hoá. Tuy nhiên, trong quá trình tiến hành thu âm cho một hội nghị, những âm thanh nhiễu (tiếng ồn, tiếng vang…) sẽ ảnh hưởng rất lớn đến việc xác định hướng đến của âm thanh. Luận văn đã áp dụng phương pháp lượng giá TDOA để lựa chọn những cặp microphone có tín hiệu âm thanh đến tin cậy nhất, đồng thời “chuẩn hoá” các giá trị TDOA nhằm loại bỏ những giá trị nhiễu (xem Hình 2.6). 16 Hình 2.6 Ý tưởng chuẩn hoá TDOA. Cuối cùng luận văn cài đặt một phương pháp Phân nhóm nhanh cải tiến (Fast Clustering) dựa trên thông tin TDOA đã được chuẩn hoá. Phương pháp cải tiến có độ chính xác tương đương những phương pháp phổ biến hiện nay theo hướng mô hình hoá đặc trưng âm thanh, trong khi chi phí thấp hơn rất nhiều (thời gian tính toán trung bình xấp xỉ 0.46% thời gian dữ liệu âm thanh đầu vào, và bằng 1/20 thời gian tính toán của phương pháp theo mô hình hoá). Phương pháp Fast Clustering và các thuật toán xử lý TDOA sẽ được trình bày chi tiết trong Chương 3. 50 100 150 200 250 300 350 400 450 33 42 47 55 DO A es tim ate time (sec) Quantized DOA estimation vs. time for part of CMU_20061115-1030