Đánh giá hệ thống tổng hợp tiếng nói

Việc đánh giá chất lượng của một hệ thống tổng hợp tiếng nói, cho đến thời điểm này vẫn còn phải thực hiện một cách thủ công. Người ta đưa ra một tập câu kiểm tra, một số tiêu chí và cách cho điểm rồi chọn một số người nghe để đánh giá cho điểm. Bảng 5.1 tổng kết một số tiêu chí đánh giá và thang điểm [4], theo đó, điểm thấp nhất là 1 và cao nhất là 5. Chúng tôi sử dụng cách đánh giá này để xem xét chất lượng tiếng nói tổng hợp từ hệ thống của mình cũng như các hệ thống khác.

pdf15 trang | Chia sẻ: vietpd | Lượt xem: 1465 | Lượt tải: 2download
Bạn đang xem nội dung tài liệu Đánh giá hệ thống tổng hợp tiếng nói, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
51 CHƢƠNG 5. THỰC NGHIỆM 5.1. Đánh giá hệ thống tổng hợp tiếng nói Việc đánh giá chất lƣợng của một hệ thống tổng hợp tiếng nói, cho đến thời điểm này vẫn còn phải thực hiện một cách thủ công. Ngƣời ta đƣa ra một tập câu kiểm tra, một số tiêu chí và cách cho điểm rồi chọn một số ngƣời nghe để đánh giá cho điểm. Bảng 5.1 tổng kết một số tiêu chí đánh giá và thang điểm [4], theo đó, điểm thấp nhất là 1 và cao nhất là 5. Chúng tôi sử dụng cách đánh giá này để xem xét chất lƣợng tiếng nói tổng hợp từ hệ thống của mình cũng nhƣ các hệ thống khác. Có thể thấy tổng hợp tiếng nói có phạm vi ứng dụng rất lớn, trong mọi mặt đời sống xã hội. Các nghiên cứu trên thế giới về tổng hợp tiếng nói vẫn đang hƣớng đến việc giải quyết hai yêu cầu cơ bản về chất lƣợng của tiếng nói tổng hợp, đó là mức độ tự nhiên và mức độ dễ nghe, đƣợc chi tiết hóa thành các tiêu chí trong bảng 5.1. Bảng 5.1 Tiêu chí và thang điểm đánh giá hệ thống tổng hợp tiếng nói Tiêu chí đánh giá Thang điểm và giải thích Chất lƣợng tổng thể 1. Tệ 2. Kém 3. Khá tốt 4. Tốt 5. Tuyệt vời Mức độ hiểu (của các từ khó phát âm) 1. Hoàn toàn không rõ 2. Không rõ lắm 3. Khá rõ 52 4. Đủ rõ để hiểu 5. Rất rõ Mức độ rõ trong cách phát âm 1. Không thể phân biệt 2. Không phân biệt rõ 3. Hơi rõ 4. Đủ rõ để phân biệt 5. Rất rõ Mức độ bất thƣờng trong phát âm 1. Sự bất thường rất khó chịu 2. Sự bất thường khó chịu 3. Sự bất thường hơi khó chịu 4. Có sự bất thường nhưng không khó chịu 5. Không có sự bất thường Mức độ hài lòng về giọng đọc 1. Rất không hài lòng 2. Không hài lòng 3. Khá hài lòng 4. Hài lòng 5. Rất hài lòng 5.2. Hệ thống nền (Baseline system) Hệ thống nền là hệ thống tổng hợp tiếng nói trên thiết bị di động sử dụng phƣơng pháp tổng hợp ghép nối chọn đơn vị trong đó văn bản đầu vào sau khi đƣợc chuẩn hóa sẽ đƣợc tách thành từng từ / cụm từ và ghép các file âm thanh tƣơng ứng với các từ / cụm từ đó trong cơ sở dữ liệu âm thanh thành file kết quả. Ngoài ra, khi con ngƣời phát âm, các từ / cụm từ không phải đƣợc phát âm liên tiếp nhau mà luôn tồn tại các khoảng lặng giữa các từ / cụm từ. Do đó, khi ghép các từ / cụm từ đòi hỏi phải chèn thêm một khoảng lặng giữa các đơn vị này nhằm bảo đảm tính tự nhiên của kết quả ghép nối. 53 Qua kết quả thực nghiệm, hệ thống nền chọn khoảng lặng này là 0.025 giây, với khoảng cách này âm thanh “tự nhiên” hơn. 5.2.1. Bộ dữ liệu âm thanh Bộ dữ liệu âm thanh sử dụng bao gồm 16,290 tập tin âm thanh tƣơng ứng với 16,290 từ / cụm từ tƣơng ứng đƣợc dùng làm từ điển từ / cụm từ của hệ thống, phủ khoảng 8,765 tiếng trong tiếng Việt. Bộ dữ liệu này đƣợc thu âm cho từng từ / cụm từ đọc theo từ điển tiếng Việt. Toàn bộ các tập tin âm thanh có cùng giọng đọc của phát thanh viên Kim Phƣợng, đài tiếng nói Nhân Dân Thành Phố Hồ Chí Minh. Bộ dữ liệu do nhóm nghiên cứu xử lý tiếng nói của TS. Vũ Hải Quân xây dựng. Bộ dữ liệu sau đó đƣợc nén theo định dạng WAV (8kHz, mono) để giảm không gian lƣu trữ vốn khá hạn chế trên các thiết bị di động. Bộ dữ liệu sau khi nén chiếm khoảng 97.5MB, hoàn toàn khả thi để lƣu trên các thẻ nhớ của các thiết bị di động hiện nay. 5.2.2. Kết quả thực nghiệm Thực nghiệm đƣợc thực hiện trên máy HTC Cingular 8525, với CPU tốc độ 400Mhz, bộ nhớ RAM 64MB, bộ nhớ Flash 128MB, thẻ nhớ 2GB. Quá trình đánh giá đƣợc thực hiện bằng cách sử dụng 8 ngƣời để nghe và đánh giá kết quả tổng hợp của 40 câu đƣợc chọn ngẫu nhiên theo các tiêu chí đã trình bày ở bảng 5.1 Kết quả đánh giá chất lƣợng tổng hợp của hệ thống nền đƣợc trình bày ở bảng 5.2. 54 Bảng 5.2 Kết quả đánh giá chất lƣợng tổng hợp của hệ thống nền Tiêu chí đánh giá Hệ thống nền Chất lượng tổng thể 3.7 Cách phát âm 3.2 Mức độ hiểu 4.2 Mức độ rõ trong phát âm 4 Mức độ hài lòng 3.4 Bên cạnh tiêu chí về chất lƣợng tổng hợp, tiêu chí về hiệu năng (hay thời gian thực thi) cũng rất quan trọng với các ứng dụng trên thiết bị di động. Với hệ thống nền, thời gian khởi động chƣơng trình (cho lần chạy đầu tiên) là 10 giây (do phải tải từ điển từ và một số từ điển khác vào bộ nhớ), thời gian. thực hiện đọc tin nhắn văn bản tiếng Việt trong thực nghiệm nhƣ bảng 5.3: Bảng 5.3 Kết quả thực nghiệm với hệ thống nền STT Nội dung tin nhắn Thời gian xử lý Thời gian đọc Anh có xem đã banh không ? 1 giây 4 giây Chiều này mấy giờ? Có những ai? 1 giây 4 giây Em chào thầy!em là sv ngày trƣớc đƣợc thầy Bắc giới thiệu gặp thầy để xin thầy tài liệu hệ thống efac của khoa để làm tài liệu nghiên cứu luận văn.thầy có mail cho thầy Khanh bên phòng selab nói tụi em liên hệ thầy xin tài liệu.nhƣng em mail cho thầy Khanh mà chƣa thấy thầy trả lời.em 10 giây 43 giây 55 muốn xin thầy số phone của thầy Khanh có đƣợc không ạ!mong thầy giúp đỡ,em cám ơn thầy nhiều lắm!em chúc thầy khỏe! Viettel Telecom trân trọng thông báo: Tổng số tiền khuyến mãi, giảm trừ Quý khách nhận đƣợc trong tháng 12/2008 là: 108286 VNĐ. Trân trọng cám ơn! 8 giây 20 giây Anh có rảnh xuống uống café với tụi em ở căn tin? 2 giây 6 giây 5.3. Hệ thống cải tiến Hệ thống nền sử dụng một khoảng lặng có độ dài cố định 0.025 giây để chèn vào giữa 2 từ / cụm từ bất kỳ khi ghép nối. Điều này chƣa phù hợp với thực tế khi đọc một câu, độ dài khoảng lặng giữa 2 từ / cụm từ sẽ thay đổi tùy theo từ/cụm từ trƣớc và sau nó. Do đó, hệ thống cải tiến trình bày trong phần này sử dụng máy chuyển đổi trạng thái hữu hạn nhằm xác định độ dài khoảng lặng giữa các từ / cụm từ một cách mềm dẻo nhằm tăng tính tự nhiên của kết quả tổng hợp. 5.3.1. Bộ dữ liệu âm thanh Bộ dữ liệu âm thanh của hệ thống này cũng là bộ dữ liệu âm thanh đƣợc sử dụng trong hệ thống nền. 56 5.3.2. Xác định khoảng lặng giữa các đơn vị âm thanh Hệ thống cải tiến xác định khoảng lặng giữa các đơn vị âm thanh bằng cách xây dựng máy chuyển đổi trạng thái hữu hạn có trọng số. Quá trình xây dựng bao gồm 2 bƣớc: Chuẩn bị dữ liệu. Xây dựng máy chuyển đổi trạng thái hữu hạn có trọng số. 5.3.2.1. Chuẩn bị dữ liệu Yêu cầu của bƣớc này là xây dựng kho ngữ liệu tiếng nói và phân đoạn chúng thành các đơn vị âm thanh, cùng với thông tin độ dài khoảng lặng giữa các đơn vị âm thanh. Các thông tin độ dài khoảng lặng này sau đó sẽ đƣợc sử dụng để xây dựng máy chuyển đổi trạng thái hữu hạn. Vấn đề đặt ra là làm sao có thể phân đoạn một cách tự động và chính xác kho ngữ liệu tiếng nói ra thành các đơn vị âm thanh. Để giải quyết điều này nhóm của TS. Vũ Hải Quân sử dụng hệ thống nhận dạng có ràng buộc [4]. Hệ thống này có thể đƣợc tóm tắt nhƣ trong hình 5.1: 57 Hình 5.1 Hệ thống nhận dạng tiếng nói tiếng Việt. Tín hiệu tiếng nói tiếng Việt liên tục trƣớc tiên sẽ đi qua mô-đun trích đặc trƣng. Các đặc trƣng đƣợc trích chọn này sẽ làm đầu vào cho bƣớc tìm kiếm trên đồ thị. Đồ thị tìm kiếm đƣợc xây dựng dựa trên sự tích hợp giữa mô hình ngôn ngữ và mô hình ngữ âm. Thực nghiệm trên dữ liệu là các bản tin thu âm từ đài tiếng nói Nhân Dân Thành Phố Hồ Chí Minh, hệ thống đạt kết quả cao nhất là 85.6% [4]. Giai đoạn tiếp theo là thu thập dữ liệu. Từ kho ngữ liệu âm thanh các bản tin thời sự trên sóng phát thanh của đài tiếng nói Nhân Dân Thành Phố Hồ Chí Minh các năm 2007, 2008, 2009, một kho ngữ liệu âm thanh chỉ gồm một giọng nữ theo phƣơng ngữ Nam Bộ đƣợc lọc ra và kết quả là hơn 36 giờ tiếng nói. Hệ thống nhận dạng tiếng nói đã đƣợc sử dụng để 58 phân đoạn tự động các đơn vị trong kho ngữ liệu [4]. Kết quả phân đoạn của một câu trong kho ngữ liệu thu đƣợc nhƣ sau: 0 10700000 silence -6777.011230 10700000 17100000 TAJI -4188.057617 17300000 19200000 HOOJI -1256.910645 19200000 21800000 NGHIJ -1743.075073 22000000 23900000 KHOA -1373.160522 23900000 25500000 HOJC -1168.884033 25700000 27300000 KYX -1082.334351 27300000 28900000 THUAAJT -1228.222046 29100000 31400000 THUWOWFNG -1550.166138 31400000 33400000 NIEEN -1468.683472 33600000 34800000 VUWFA -1176.245972 35000000 36500000 DDUWOWJC -1233.340698 36700000 38600000 TOOR -1267.462646 38600000 41200000 CHUWSC -4019.213623 45100000 47000000 DDAJI -1352.613770 47000000 48300000 HOJC -989.179016 48500000 50400000 Y -1251.579346 50400000 52100000 DUWOWJC -1377.427368 52300000 54100000 THAFNH -1151.686401 54100000 56500000 PHOOS -1637.225342 56700000 58200000 CHO -1012.201477 58200000 60800000 BIEEST -1858.379517 59 Tuy nhiên, kết quả phân đoạn này vẫn chỉ ở mức tiếng (syllable). Do đó, cần tổ chức lại kết quả theo mức từ / cụm từ. Với ví dụ trên, kết quả sau khi tổ chức lại ở mức từ / cụm từ áp dụng phƣơng pháp so khớp dài nhất (longest matching) cùng với một từ điển 73,900 từ tiếng Việt nhƣ sau: 10700000 17100000 TAJI 17300000 21800000 HOOJI NGHIJ 22000000 25500000 KHOA HOJC 25700000 28900000 KYX THUAAJT 29100000 33400000 THUWOWFNG NIEEN 33600000 34800000 VUWFA 35000000 36500000 DDUWOWJC 36700000 41200000 TOOR CHUWSC 45100000 48300000 DDAJI HOJC 48500000 52100000 Y DUWOWJC 52300000 56500000 THAFNH PHOOS 56700000 60800000 CHO BIEEST Từ kết quả trên, chúng ta chuyển dữ liệu văn bản sang Unicode để tiện xử lý. Thông tin chúng ta cần quan tâm là khoảng lặng giữa các đơn vị âm thanh, vì vậy chúng ta chỉ cần lƣu khoảng cách này và từ / cụm từ tƣơng ứng. Ví dụ đoạn kết quả trên sau khi chuyển sang Unicode và tính khoảng cách (giá trị đầu của dòng thứ n chỉ khoảng lặng giữa từ / cụm từ dòng n-1 và n) 0 tại 60 200000 hội nghị 200000 khoa học 200000 kỹ thuật 200000 thƣờng niên 200000 vừa 200000 đƣợc 200000 tổ chức 3900000 đại học 200000 y dƣợc 200000 thành phố 200000 cho biết Quá trình chuẩn bị dữ liệu này đƣợc thực hiện off-line. 5.3.2.2. Xây dựng máy chuyển đổi trạng thái hữu hạn Từ kết quả trên chúng ta tiếp tục xây dựng máy chuyển đổi trạng thái hữu hạn (FST) dùng thƣ viện OpenFST [17]. Mỗi cung sẽ có nhãn đầu vào và đầu ra giống nhau và chính là từ / cụm từ tƣơng ứng với trọng số là khoảng lặng (tính bằng 1/10 giây). Mặc khác, do các nhãn sử dụng trong máy chuyển đổi trạng thái hữu hạn không chấp nhận dạng chuỗi (string) mà chỉ chấp nhận dạng số nên không thể dùng từ / cụm từ làm nhãn đƣợc, vì vậy chúng ta sẽ dùng thứ thự của từ / cụm từ trong từ điển để thay thế. Ví dụ đƣa vào máy chuyển đổi trạng thái hữu hạn hai câu sau: Tại / hội nghị / khoa học / kỹ thuật / thƣờng niên (8455 / 4464 / 4870 / 5114 / 9639) 61 Sau / hơn / một / năm / thực hiện / kế hoạch (7892 / 4493 / 6092 / 6214 / 9606 / 4674) Hình 6.2 Máy chuyển đổi trạng thái hữu hạn kết quả Dùng thƣ viện OpenFST để chạy các thuật toán tối ƣu máy chuyển đổi trạng thái hữu hạn vừa tạo. Đầu tiên là chạy thuật toán Determinize để tối ƣu số cung, tiếp theo là chạy thuật toán Minimize để tối ƣu số trạng thái và số cung. Kết quả thu đƣợc máy chuyển đổi trạng thái hữu hạn có trọng số đã tối ƣu có số trạng thái (state) và số cung (transition) nhỏ nhất (tạm gọi là WFST0). 5.3.2.3. Xác định khoảng lặng giữa các đơn vị âm thanh Để xác định khoảng lặng giữa các đơn vị âm thanh trong một câu, chúng ta tiến hành các bƣớc sau: - Bƣớc 1: Tạo máy chuyển đổi trạng thái hữu hạn có trọng số từ câu cần xác định khoảng lặng, mỗi cung có nhãn đầu vào và đầu ra giống nhau và bằng với thứ tự từ điển của từ / cụm từ trong câu, trọng số của tất cả các cung đều bằng 0 để khi chạy thuật toán compose, giá trị khoảng lặng trong kết quả chính là trong WFST0 (tạm gọi máy chuyển đổi trạng thái hữu hạn có trọng số này là WFST1). 0 8455:8455/0 4464:4464/0.2 1 2 4870:4870/0.22 3 5114:5114/0.21 4 9639:9639/0.2 5 4493:4493/0.2 6 7 6092:6092/0.21 8 6214:6214/0.23 9 9606:9606/0.2 11 7892:7892/0 10 4674:4674/0.3 62 Hình 6.3 máy chuyển đổi trạng thái hữu hạn truy vấn - Bƣớc 2: sau khi tạo đƣợc máy chuyển đổi trạng thái hữu hạn có trọng số từ bƣớc 1, chúng ta sử dụng công cụ OpenFST để chạy thuật toán kết hợp (compose) với máy chuyển đổi trạng thái hữu hạn có trọng số WFST0, kết quả ta đƣợc máy chuyển đổi trạng thái hữu hạn có trọng số mới có các cung tƣơng tự WFST1 (nếu tất cả các nhãn đều so khớp với nhau, điều kiện này thƣờng đƣợc thỏa bởi số lƣợng câu trong WFST0 khá lớn) với trọng số bằng với giá trị trong WFST0 ứng với câu so khớp. Nhƣ vậy ta đã có đƣợc thông tin về khoảng lặng giữa các đơn vị âm thanh trong câu cần xét. 5.3.3. Kết hợp hệ thống tổng hợp tiếng nói và máy chuyển đổi trạng thái hữu hạn Việc chạy thuật toán compose giữa hai máy chuyển đổi trạng thái hữu hạn có trọng số có chi phí khá cao, đồng thời hiện chƣa có thƣ viện chạy trên môi trƣờng di động (cụ thể ở đây là windows mobile), vì vậy tôi đã xây dựng một webservice để chạy thuật toán này trên một server. Khi cần chạy thuật toán, ứng dụng trên windows mobile sẽ kết nối với webservice thông qua GPRS để chạy thuật toán compose. Đƣờng dẫn của webservice sử dụng trong thực nghiệm: Webservice sẽ nhận đầu vào là danh sách theo thứ tự các từ / cụm từ trong câu cần xác định khoảng lặng (mỗi từ / cụm từ đại diện bởi thứ tự trong từ điển của từ / cụm từ đó), đầu ra là danh sách các khoảng lặng theo đúng thứ tự đầu vào, với những câu không có trong dữ liệu của WFST0 thì giá trị của 0 8455:8455/0 4464:4464/0 1 2 4870:4870/0 3 5114:5114/0 5 63 khoảng lặng là 0 và ứng dụng trên windows mobile sẽ thay thế giá trị này bằng một hằng số (trong thực nghiệm, giá trị này là 25ms). 5.3.4. Kết quả thực nghiệm Hệ thống cải tiến đƣợc thực nghiệm trên cùng các thiết bị phần cứng nhƣ của hệ thống nền. Kết quả đánh giá chất lƣợng tổng hợp của hệ thống cải tiến so với hệ thống nền đƣợc trình bày ở bảng 5.4 Bảng 5.4 Kết quả đánh giá Tiêu chí đánh giá Hệ thống nền Hệ thống cải tiến Chất lượng tổng thể 3.7 3.95 Cách phát âm 3.2 3.3 Mức độ hiểu 4.2 4.5 Mức độ rõ trong phát âm 4 4.3 Mức độ hài lòng 3.4 3.7 Thời gian khởi động chƣơng trình (cho lần chạy đầu tiên) là 15 giây (do phải tải từ điển từ và một số từ điển khác vào bộ nhớ), thời gian thực hiện đọc tin nhắn văn bản tiếng Việt trong thực nghiệm nhƣ bảng 6.4 (thời gian thực hiện còn phụ thuộc vào một số yếu tố khác nhƣ các ứng dụng đang chạy trên thiết bị di động; tốc độ kết nối GPRS). 64 Bảng 5.5 Kết quả thực nghiệm với phƣơng pháp cải tiến. Nội dung tin nhắn Hệ thống nền Hệ thống cải tiến Thời gian xử lý Thời gian đọc Thời gian xử lý Thời gian đọc Anh có xem đã banh không ? 1 giây 4 giây 4 giây 4 giây Chiều này mấy giờ? Có những ai? 1 giây 4 giây 4 giây 5 giây Em chào thầy!em là sv ngày trƣớc đƣợc thầy Bắc giới thiệu gặp thầy để xin thầy tài liệu hệ thống efac của khoa để làm tài liệu nghiên cứu luận văn.thầy có mail cho thầy Khanh bên phòng selab nói tụi em liên hệ thầy xin tài liệu.nhƣng em mail cho thầy Khanh mà chƣa thấy thầy trả lời.em muốn xin thầy số phone của thầy Khanh có đƣợc không ạ!mong thầy giúp đỡ,em cám ơn thầy nhiều lắm!em chúc thầy khỏe! 10 giây 43 giây 15 giây 45 giây Viettel Telecom trân trọng thông báo: Tổng số tiền khuyến mãi, giảm trừ Quý khách nhận đƣợc trong tháng 12/2008 là: 108286 VNĐ. Trân trọng cám ơn! 8 giây 20 giây 15 giây 24 giây 65 Anh có rảnh xuống uống café với tụi em ở căn tin? 2 giây 6 giây 5 giây 7 giây 5.3.5. Nhận xét Khi áp dụng phƣơng pháp chèn khoảng lặng theo dữ liệu thống kê trong máy chuyển đổi trạng thái hữu hạn có trọng số thì kết quả phát âm có cải thiện, khoảng cách giữa các đơn vị âm thanh ghép nối gần với thực tế hơn. Tuy nhiên thời gian xử lý tăng lên. Vì vậy để áp dụng phƣơng pháp này cần nghiên cứu giải thuật phù hợp để cải thiện tốc độ. Mặt khác do bộ dữ liệu từ điển âm thanh đƣợc chuẩn hóa chƣa tốt nên còn hiện tƣợng khoảng lặng cuối mỗi đơn vị âm thanh khác nhau, làm cho kết quả chèn khoảng lặng chƣa hợp lý (dài hơn so với yêu cầu).
Tài liệu liên quan