Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con người. Hiện nay trên thế giới, lĩnh vực Nhận dạng Tiếng nói đã đạt được nhiều tiến bộ vượt bậc. Tuy nhiên, hầu hết các công trình vẫn còn thực hiện ở trong phòng thí nghiệm, đặc biệt là đối với các thứ tiếng ít phổ biến như tiếng Việt của chúng ta.
91 trang |
Chia sẻ: vietpd | Lượt xem: 1531 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Nhận dạng tiếng nói tiếng Việt theo hướng tiếp cận nhận dạng âm vị tự động, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
KH
OA
C
NT
T –
Đ
H
KH
TN
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
ĐẶNG THÁI DƯƠNG – 0012535
HÀ GIANG HẢI – 0012544
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
THEO HƯỚNG TIẾP CẬN
NHẬN DẠNG ÂM VỊ TỰ ĐỘNG
LUẬN VĂN CỬ NHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
Th.S. THÁI HÙNG VĂN
NIÊN KHOÁ 2000 – 2004
KH
OA
C
NT
T –
Đ
H
KH
TN
Lời cảm ơn
LỜI CẢM ƠN
Xin chân thành cảm ơn thầy Thái Hùng Văn đã tận tình hướng dẫn chúng em
trong quá trình hoàn thành đề tài. Những buổi nói chuyện, những kinh nghiệm cùng
những tài liệu của thầy đã giúp chúng em có được những định hướng đúng đắn và
đưa ra các phương pháp tốt để thực hiện đề tài.
Xin gởi lời cảm ơn đến các thầy cô trong Khoa Công nghệ thông tin, những
người đã dìu dắt chúng em trong suốt 4 năm ở Đại học.
Xin cảm ơn bạn bè và các anh chị Khóa trên, những người đã cùng chúng tôi
học tập, san sẻ khó khăn, trong đó có những ủng hộ tinh thần quý giá. Đặc biệt, anh
Nguyễn Tấn Dũng đã nhiệt tình giúp đỡ nhiều về tài liệu.
Và cuối cùng, nhưng quan trọng nhất, xin cám ơn ba mẹ và những người
thân, những người ủng hộ chúng con về mọi mặt. Không có sự quan tâm đó, chúng
con không thể hoàn thành tốt đồ án này.
TP. HCM, ngày 10 tháng 7 năm 2004
Các sinh viên
Đặng Thái Dương – Hà Giang Hải
i
KH
OA
C
NT
T –
Đ
H
KH
TN
Mục lục
MỤC LỤC
LỜI CẢM ƠN ..............................................................................................................i
MỤC LỤC...................................................................................................................ii
DANH SÁCH CÁC HÌNH .......................................................................................vii
DANH SÁCH CÁC BẢNG.......................................................................................ix
GIỚI THIỆU CHUNG ................................................................................................x
CHƯƠNG 1 Sơ lược về ngữ âm tiếng Việt............................................................1
1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói Tiếng Việt....1
1.2. Phân loại âm tố theo cấu âm.............................................................................1
1.2.1. Định nghĩa âm tố........................................................................................1
1.2.2. Các âm tố phụ âm ......................................................................................2
1.2.2.1. Đặc điểm cấu tạo của phụ âm .............................................................2
1.2.2.2. Một số cách phân chia phụ âm............................................................2
1.2.2.3. Cấu âm bổ sung...................................................................................4
1.2.3. Các âm tố nguyên âm ................................................................................4
1.2.3.1. Đặc điểm cấu tạo của nguyên âm .......................................................4
1.2.3.2. Một số cách phân chia nguyên âm......................................................4
1.3. Phân loại âm tố về mặt âm học - nhận dạng tiếng nói dựa vào đặc trưng âm
học ...........................................................................................................................6
1.3.1. Ý nghĩa của phân loại về mặt âm học........................................................6
ii
KH
OA
C
NT
T –
Đ
H
KH
TN
Mục lục
1.3.2. Các đặc trưng âm học ................................................................................6
1.3.3. Nhận dạng tiếng nói dựa vào các đặc trưng âm học................................11
1.4. Sơ lược về âm tiết tiếng Việt..........................................................................11
1.4.1. Giới thiệu về âm tiết ................................................................................11
1.4.2. Một số đặc điểm của âm tiết tiếng Việt ...................................................12
1.4.2.1. Là ngôn ngữ có kết cấu âm tiết tính..................................................12
1.4.2.2. Mỗi âm tiết có thanh điệu riêng ........................................................12
1.4.2.3. Âm tiết có cấu trúc chặt chẽ và ổn định............................................13
1.5. Lý thuyết về âm vị..........................................................................................14
1.5.1. Định nghĩa âm vị......................................................................................14
1.5.2. Chức năng của âm vị ...............................................................................15
1.5.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm ..................................15
CHƯƠNG 2 Mô hình HMM áp dụng vào nhận dạng âm vị ................................17
2.1. Giới thiệu........................................................................................................17
2.2. Những vấn đề cơ bản của HMM ....................................................................17
2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhận
dạng tiếng nói.....................................................................................................17
2.2.1.1. Giới thiệu về nhận dạng thống kê và HMM .....................................18
2.2.1.2. Các thành phần chính của HMM ......................................................19
2.2.1.3. Ví dụ về nhận dạng từ đơn dựa trên HMM.......................................21
2.2.1.4. Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên
HMM..............................................................................................................22
2.2.1.5. Ba vấn đề thiết yếu của mô hình HMM và cách giải quyết các vấn đề
trên .................................................................................................................24
iii
KH
OA
C
NT
T –
Đ
H
KH
TN
Mục lục
2.3. Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM..............................28
2.3.1. Mô hình Nhận dạng .................................................................................28
2.3.2. Các thành phần cơ bản của hệ thống nhận dạng tiếng nói dựa trên HMM
và mối liên hệ giữa chúng..................................................................................30
2.4. Mô hình HMM cho âm vị được sử dụng trong bài làm .................................32
CHƯƠNG 3 Tiền xử lý tín hiệu Tiếng nói và rút trích đặc trưng........................34
3.1. Ý nghĩa của Tiền xử lý Tiếng nói...................................................................34
3.2. Một số công việc trong Tiền xử lý tín hiệu tiếng nói.....................................35
3.2.1. Làm nổi tín hiệu (pre-emphasis)..............................................................35
3.2.2. Lọc tiếng ồn .............................................................................................36
3.3. Rút trích đặc trưng..........................................................................................37
3.3.1. Giới thiệu .................................................................................................37
3.3.2. Một số phương pháp trích đặc trưng........................................................38
3.3.2.1. Phương pháp Mã hóa dự báo tuyến tính (LPC) ................................38
3.3.2.3. Phương pháp Mã hoá cepstral tần số Mel dựa trên LPC (MFCC) ...42
3.3.2.4. Các hệ số delta (D) và hệ số gia tốc (A) ...........................................42
3.3.3. So sánh các phương pháp trích đặc trưng................................................43
CHƯƠNG 4 Thuật giải Embedded training – tách và xây dựng mô hình HMM
tự động cho âm vị......................................................................................................45
4.1. Tách và nhận dạng âm vị tự động dựa trên HMM .........................................45
4.1.1. Thuật toán huấn luyện đối với những đơn vị độc lập - Huấn luyện trên dữ
liệu gán nhãn......................................................................................................45
4.1.2. Thuật giải Embedded training - huấn luyện trên dữ liệu âm thanh không
gán nhãn âm vị ...................................................................................................46
iv
KH
OA
C
NT
T –
Đ
H
KH
TN
Mục lục
4.2. Các công thức ước lượng tham số của mô hình HMM..................................49
4.2.1. Ước lượng tham số khi huấn luyện các mô hình HMM độc lập .............49
4.2.2. Ước lượng tham số trong thuật giải Embedded training .........................51
4.3. Các vấn đề về tham số của HMM khi sử dụng thuật giải Embedded training.
...............................................................................................................................53
4.3.1. Khởi tạo tham số ......................................................................................53
4.3.2. Ngưỡng ....................................................................................................54
4.3.3. Số lần lặp trong mỗi bước luyện của thuật toán ......................................54
4.3.4. Dữ liệu huấn luyện...................................................................................54
CHƯƠNG 5 Thực hiện chương trình...................................................................56
5.1. Các khó khăn trong quá trình nhận dạng........................................................56
5.1.1. Âm vị độc lập và âm vị phụ thuộc ngữ cảnh ...........................................56
5.1.2. Tách âm tiết trong tiếng nói liên tục và sự phụ thuộc giữa các âm vị lẫn
nhau trong tiếng nói liên tục ..............................................................................58
5.1.3. Các nguyên âm đôi ..................................................................................58
5.1.4. Ảnh hưởng của thanh điệu lên âm vị .......................................................59
5.2. Quá trình thực hiện chương trình ...................................................................59
5.2.1. Các bước chính ........................................................................................60
5.2.2. Thu dữ liệu và gán nhãn dữ liệu ..............................................................60
5.2.2.1. Thu dữ liệu ........................................................................................60
5.2.2.2. Gán nhãn dữ liệu ...............................................................................61
5.2.2.3. Đánh giá dữ liệu................................................................................61
5.2.2.4. Rút trích đặc trưng dữ liệu ................................................................61
5.2.3. Khởi tạo mô hình HMM ..........................................................................62
v
KH
OA
C
NT
T –
Đ
H
KH
TN
Mục lục
5.2.4. Huấn luyện mô hình HMM......................................................................63
5.2.4.1. Huấn luyện mô hình HMM cho âm vị độc lập ngữ cảnh
(monophone) ..................................................................................................63
5.2.4.2. Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (triphone).......66
5.2.5. Nhận dạng ................................................................................................70
5.3. Đánh giá kết quả và hướng phát triển: ...........................................................71
5.3.1. Kết quả nhận dạng ...................................................................................71
5.3.2. Nhận xét ...................................................................................................73
5.3.3. Hướng phát triển ......................................................................................73
TÀI LIỆU THAM KHẢO.........................................................................................75
vi
KH
OA
C
NT
T –
Đ
H
KH
TN
Danh sách các hình
DANH SÁCH CÁC HÌNH
HÌNH 1 – Phổ (spectrum) của một nguồn âm thanh tại thời điểm t ...........................7
HÌNH 2 – Phổ đồ (spectrogram) của tiếng “hai” (trên) và sóng âm tương ứng (dưới).
Những vùng có cường độ cao (vùng đen) tạo thành những dãi bắt ngang qua
phổ đồ, đó là những vệt formant, được đánh số từ dưới lên là F1, F2, F3, …....8
HÌNH 3 – Cụm từ “âm tiết tiếng Việt” thể hiện trên sóng âm. Mỗi âm tiết có biên
độ lớn ở giữa âm và giảm dần khi đi về đầu và cuối âm...................................12
HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âm vị
“n” cuối âm tiết “bốn” và âm vị “l” đầu âm tiết “lăm” .....................................16
HÌNH 5 – Hai cách tách âm vị cho cùng một sóng âm của chữ “hai”......................16
HÌNH 6 – Mô hình HMM 5 trạng thái......................................................................19
HÌNH 7 – Sơ đồ huấn luyện mô hình HMM ............................................................28
HÌNH 8 – Sơ đồ nhận dạng từ mô hình HMM đã được huấn luyện.........................29
HÌNH 9 – Mô hình nhận dạng theo 3 cấp .................................................................30
HÌNH 10 – Sóng âm của chữ “hai” trước khi (hình trái) và sau khi (hình phải) được
làm phẳng...........................................................................................................36
HÌNH 11 – Sơ đồ của bộ lọc MFCC dựa trên biến đổi dự báo tuyến tính và các biến
đổi Fourier .........................................................................................................42
HÌNH 12 – Lưu đồ huấn luyện từ đơn của công cụ HRest (HTK)...........................46
HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T” ........................47
HÌNH 14 – Mô hình huấn luyện Embedded training................................................48
HÌNH 15 – Các âm vị không nằm trong 1 siêu cầu ..................................................57
HÌNH 16 – Mô hình huấn luyện monophone (Từ in nghiêng trong dấu ngoặc đơn là
tên thư mục hoặc tập tin trong bài làm của nhóm) ............................................63
HÌNH 17 – Mối liên hệ giữa likelihood trung bình và số bước huấn luyện .............64
vii
KH
OA
C
NT
T –
Đ
H
KH
TN
Danh sách các hình
HÌNH 18 – Phương pháp góm nhóm âm vị dựa vào cây quyết định âm học ...........68
HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering....................69
HÌNH 20 – Sự phụ thuộc của kết quả nhận dạng vào ngưỡng phân nhóm các trạng
thái của HMM....................................................................................................69
viii
KH
OA
C
NT
T –
Đ
H
KH
TN
Danh sách các bảng
DANH SÁCH CÁC BẢNG
BẢNG 1 – Phân chia nguyên âm theo độ nâng của lưỡi ............................................6
BẢNG 2 – Ảnh hưởng của số bước lặp huấn luyện đến kết quả nhận dạng ............64
BẢNG 3 – Kết quả nhận dạng các tiếng là chữ số đọc liên tục................................72
BẢNG 4 – Kết quả nhận dạng từ đơn.......................................................................73
ix
KH
OA
C
NT
T –
Đ
H
KH
TN
Giới thiệu chung
GIỚI THIỆU CHUNG
Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và
máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con người. Hiện nay
trên thế giới, lĩnh vực Nhận dạng Tiếng nói đã đạt được nhiều tiến bộ vượt bậc. Tuy
nhiên, hầu hết các công trình vẫn còn thực hiện ở trong phòng thí nghiệm, đặc biệt
là đối với các thứ tiếng ít phổ biến như Tiếng Việt của chúng ta.
Ý tưởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm
50 của thế kỷ 20 và đến nay đã đạt được nhiều kết quả đáng kể. Có 3 hướng tiếp cận
chính cho nhận dạng tiếng nói:
Tiếp cận Âm học: Hướng tiếp cận này dựa vào các đặc điểm âm học được
rút ra được từ phổ âm thanh. Tuy nhiên kết quả của hướng tiếp cận này
còn thấp vì trong thực tế, các đặc trưng âm học có sự biến động rất lớn.
Hơn nữa phương pháp này đòi hỏi tri thức rất đầy đủ về âm học (Vốn tri
thức âm học hiện nay chưa thể đáp ứng).
Tiếp cận Nhận dạng mẫu thống kê: Sử dụng các phương pháp máy học
dựa trên thống kê để học và rút ra mẫu tham khảo từ lượng dữ liệu lớn.
Hướng này đang được sử dụng nhiều, chủ yếu là dựa vào Mô hình
Markov ẩn (HMM).
Tiếp cận Trí tuệ nhân tạo: là hướng kết hợp của cả hai hướng trên.
Phương pháp này kết hợp được cả tri thức của chuyên gia và phương
pháp mẫu thống kê. Đây sẽ là hướng tiếp cận tương lai của nhận dạng
tiếng nói.
Việc nhận dạng tiếng nói gặp một số khó khăn sau:
x
KH
OA
C
NT
T –
Đ
H
KH
TN
Giới thiệu chung
Trong môi trường sinh hoạt hàng ngày, chất lượng tiếng nói biến động rất
lớn do chịu ảnh hưởng của các yếu tố ngoại cảnh, tâm và sinh lý người nói: một câu
của cùng một người nói khi thâu vào máy sẽ khác nhau nếu nói ở hai tâm trạng khác
nhau (lúc vui nói khác, lúc giận nói khác,…), sức khoẻ khác nhau (lúc khoẻ nói
khác, lúc bệnh nói khác), tốc độ nói khác nhau (nói chậm thì rõ hơn nói nhanh), môi
trường xung quanh khác nhau (môi trường có tiêng ồn thì âm thu vào sẽ bị nhiễu),
v.v… Và còn nhiều yếu tố khác nữa tác động lên chất lượng của lời nói như thiết bị
thu không tốt, tín hiệu bị nhiễu điện,… Do đó, việc nhận dạng trở nên rất khó khăn.
Nói về nhận dạng tiếng Việt, chúng ta đi sau thế giới rất lâu. Vì vậy, thành
quả đạt được còn hạn chế: chưa có những hệ thống nhận dạng thật sự tốt, chưa có
các kho dữ liệu quí như trong tiếng Anh,… Tuy nhiên, chúng ta được thừa hưởng
nhiều thành quả của thế giới về kỹ thuật nhận dạng. Hiện nay, trong khi chưa có các
công trình nghiên cứu đầy đủ về ngữ âm tiếng Việt dưới góc độ làm tin học, hướng
tiếp cận chủ yếu để nhận dạng tiếng nói tiếng Việt vẫn là nhận dạng thống kê. Và
khó khăn của chúng ta là xây dựng các kho dữ liệu đủ lớn và chính xác dùng để học
mẫu và kiểm tra kết quả nhận dạng.
Trong hệ nhận dạng tiếng nói, đơn vị cơ bản phải nhận được là từ, hay còn
gọi là âm tiết. Trong hầu hết các ngôn ngữ, số lượng âm tiết là rất lớn. Tiếng Việt có
hơn 8000 âm tiết, khoảng 6000 âm tiết được dùng phổ biến. Với số lượng lớn như
vậy, việc nhận dạng từng âm tiết là khó thực hiện được. Vì vậy, chúng ta phải đi
theo hướng nhận dạng các đơn vị nhỏ hơn cấu thành âm tiết (đơn vị dưới từ, ví dụ
như âm vị) vì các đơn vị này có số lượng ít. Theo thống kê, trong hầu hết các ngôn
ngữ, số lượng âm vị dao động từ 20 đến 60 (ít hơn nhiều so với hàng ngàn hay hàng
chục ngàn âm tiết). Vì vậy, nhận dạng âm vị là hướng thường được chọn trong số
các hướng nhận dạng đơn vị dưới từ.
Trong nhận dạng tiếng nói theo hướng nhận dạng từng âm vị, một khó khăn
chúng ta gặp phải là: các âm vị liền nhau trong chuỗi tiếng nói không có vách ngăn
rõ ràng (2 âm vị sát nhau có một phần giao nhau, khó xác định được phần giao nhau
xi
KH
OA
C
NT
T –
Đ
H
KH
TN
Giới thiệu chung
thuộc âm vị trước hay âm vị sau). Ngay cả đối với con người, tách âm vị từ một âm
tiết (xác định vị trí bắt đầu và vị trí kết thúc của âm vị đó trên sóng âm của âm tiết)
cũng không phải là công việc đơn giản.
Hiện nay, hầu hết các hướng tiếp cận để nhận dạng âm vị là nhận dạng theo
học mẫu thống kê. Thông thường, để học mẫu, người ta cung cấp cho chương trình
học một nguồn dữ liệu có nhiều mẫu được đã phân loại thành nhiều lớp và có gán
nhãn (nhãn cho biết mỗi mẫu thuộc lớp nào). Nguồn dữ liệu này phải được phân lớp
và gán nhãn chính xác hoàn toàn để máy học. Tuy nhiên, do không thể tách âm vị
một cách chính xác, nguồn dữ liệu âm vị đưa vào khó đạt được mức độ chính xác,
kết quả là việc huấn luyện giảm hiệu suất, làm cho hiệu suất của chương trình nhận
dạng cũng giảm theo.
Chúng tôi xin nêu ra một hướng giải quyết để tránh việc gán nhãn