Nhận dạng người nói phụ thuộctừ khóa (text
dependent speaker recognition) làkỹ thuật nhậndạng
người nói có khảnăng ứngdụngrấtlớn, vídụ như
đăng nhập vào cáchệ thống an ninhbằngmật khẩu
tiếng nói hay truycậpbằng tiếng nói vào cáchệ thống
giaodịch ngân hàng trênmạng điện thoại thông qua
mãsố cá nhân (số PIN). Dotậndụng được các thông
tin biết trước lànội dung tiếng nói khi huấn luyệncũng
như khi nhậndạng nên độ chính xác nhậndạngtăng
lên trong khi thời gian huấn luyện và nhậndạnglại
giảm nhiều sovới nhândạng người nói không phụ
thuộctừ khóa (text independent speaker recognition).
Tuy nhiênhạn chếcủakỹ thuật này là không cósự
thay đổi trongmật khẩu nênhệ thốngdễbịtấn công
bởi nhữngkẻ giảmạobằng cách ghi âmlạimật khẩu
vàtấn cônghệ thống. Để chốnglại điều này, nhiềuhệ
thống đã thay đổi cáccụmtừmật khẩu. Chẳnghạn
trong trườnghợpcụmtừ là cácsố,hệ thốngsẽ sinh
mộtcụmtừmật khẩu làmột dãysố ngẫu nhiên nào đó
và thông báo nómỗi khi có người đăng nhậphệ thống.
Các nghiêncứu chỉ rarằng việcsửdụng các dãysố và
mộtsố cáctừcố định trongcụmtừmật khẩu khá hiệu
quả khi chốnglạisự giảmạo theo kiểu ghi âmtừ khóa
[1]. Trong pha huấn luyện, những người đăng kýsẽ nói
cácsố vàmộtsố cáctừcố định. Khi nhậndạng,hệ
thốngsẽ thay đổicụmtừmỗilần đăng nhập trongtập
cáctừ được huấn luyện.Mặc dù việc nhậndạng này
vẫn là phụ thuộctừ khóa song nó làm chosự giảmạo
trở nên khó khănhơnrất nhiều vì không biết được
chính xáccụmtừmật khẩutự sinhcủahệ thống. Các
hệ thống nhưvậy đượcgọi là cáchệ nhậndạng người
nói phụ thuộctừ khóa thay đổi (text prompted speaker
recognition).
7 trang |
Chia sẻ: vietpd | Lượt xem: 2403 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Đề tài Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa Tiếng Việt theo mô hình Markov ẩn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 93 -
Abstract: A text-dependent speaker identification
system for Vietnamese language was proposed. Vietnamese
isolated digits 09 and their concatenations were used for
speaking text. Well-known Hiden Markov Model (HMM)
was conducted for recognition engine. The problem is that
how many word of the Vietnamese text so that the system
is most effective. Studying the identification rate shows
optimum number of words of the text for the system.
I. GIỚI THIỆU
Nhận dạng người nói phụ thuộc từ khóa (text
dependent speaker recognition) là kỹ thuật nhận dạng
người nói có khả năng ứng dụng rất lớn, ví dụ như
đăng nhập vào các hệ thống an ninh bằng mật khẩu
tiếng nói hay truy cập bằng tiếng nói vào các hệ thống
giao dịch ngân hàng trên mạng điện thoại thông qua
mã số cá nhân (số PIN)... Do tận dụng được các thông
tin biết trước là nội dung tiếng nói khi huấn luyện cũng
như khi nhận dạng nên độ chính xác nhận dạng tăng
lên trong khi thời gian huấn luyện và nhận dạng lại
giảm nhiều so với nhân dạng người nói không phụ
thuộc từ khóa (text independent speaker recognition).
Tuy nhiên hạn chế của kỹ thuật này là không có sự
thay đổi trong mật khẩu nên hệ thống dễ bị tấn công
bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu
và tấn công hệ thống. Để chống lại điều này, nhiều hệ
thống đã thay đổi các cụm từ mật khẩu. Chẳng hạn
trong trường hợp cụm từ là các số, hệ thống sẽ sinh
một cụm từ mật khẩu là một dãy số ngẫu nhiên nào đó
và thông báo nó mỗi khi có người đăng nhập hệ thống.
Các nghiên cứu chỉ ra rằng việc sử dụng các dãy số và
một số các từ cố định trong cụm từ mật khẩu khá hiệu
quả khi chống lại sự giả mạo theo kiểu ghi âm từ khóa
[1]. Trong pha huấn luyện, những người đăng ký sẽ nói
các số và một số các từ cố định. Khi nhận dạng, hệ
thống sẽ thay đổi cụm từ mỗi lần đăng nhập trong tập
các từ được huấn luyện. Mặc dù việc nhận dạng này
vẫn là phụ thuộc từ khóa song nó làm cho sự giả mạo
trở nên khó khăn hơn rất nhiều vì không biết được
chính xác cụm từ mật khẩu tự sinh của hệ thống. Các
hệ thống như vậy được gọi là các hệ nhận dạng người
nói phụ thuộc từ khóa thay đổi (text prompted speaker
recognition).
Trên phương diện ngữ âm, tiếng Việt là một ngôn
ngữ đơn âm tiết do vậy độ dài từ khóa ở đây được xác
định là số âm tiết trong từ khóa. Trong trường hợp
cụm từ khóa là các số tự nhiên từ 0 đến 9, từ khóa (tức
mật khẩu từ sinh của hệ thống) sẽ là một dãy số ngẫu
nhiên nào đó, ví dụ 5372693 là một từ khóa có độ dài
là 7 âm tiết. Vấn đề đặt ra ở đây là độ dài từ khóa tự
sinh của hệ thống bằng bao nhiêu thì hợp lý. Nếu quá
ngắn độ chính xác nhận dạng sẽ khó được đảm bảo,
ngược lại nếu quá dài thời gian nhận dạng sẽ tăng lên
nhưng độ chính xác nhận dạng liệu có tăng như mong
muốn hay chỉ tiêu tốn thêm thời gian nhận dạng. Với
các ngôn ngữ khác vấn đề này cũng đã được đặt ra. Ví
dụ như với tiếng Thái, cũng là một ngôn ngữ đơn âm
tiết và có thanh điệu như tiếng Việt, các tác giả trong
[6] đã sử dụng các đặc trưng là các hệ số LPCC và
mạng nơron perception nhiều lớp (MLP) để phân lớp
người nói các con số bằng tiếng Thái, kết quả cho thấy
khi độ dài từ khóa lớn hơn 4 độ chính xác nhận dạng
hầu như không tăng hoặc tăng không đáng kể. Bài viết
này trình bày các kết quả khảo sát độ chính xác nhận
Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người
nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn
Developing and Studying the Length of the Text in Vietnamese Text
Dependent Speaker Recognition by HMM
Ngô Minh Dũng, Đặng Văn Chuyết
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 94 -
dạng người nói với các độ dài cụm từ mật khẩu khác
nhau của một hệ thống nhận dạng người nói phụ thuộc
từ khóa thay đổi theo mô hình Markov ẩn (HMM) với
tập từ khóa huấn luyện là các âm tiếng Việt từ số 0 đến
số 9 .
Bài viết gồm 5 phần. Ngoài phần giới thiệu này,
phần 2 sẽ trình bày về lựa chọn vector đặc trưng và mô
hình phân lớp cho người nói khi xây dựng hệ nhận
dạng người nói phụ thuộc từ khóa là các âm tiết tiếng
Việt. Phần 3 trình bày cơ sở dữ liệu tiếng nói để huấn
luyện, kiểm tra hệ thống và lựa chọn phương pháp
nghiên cứu. Phần 4 xây dựng một hệ nhận dạng người
nói phụ thuộc từ khóa thay đổi theo mô hình HMM.
Phần 5 là kết quả khảo sát mô hình được đề xuất theo
độ dài từ khóa và kết luận đánh giá.
II. LỰA CHỌN VECTOR ĐẶC TRƯNG VÀ MÔ
HÌNH PHÂN LỚP NGƯỜI NÓI
Cũng giống như khi xây dựng các hệ nhận dạng tự
động, hai vấn đề luôn được đặt ra khi xây dựng hệ
nhận dạng người nói đó là trích chọn đặc trưng nào và
lựa chọn mô hình phân lớp như thế nào cho nhận dạng
người nói.
1. Trích chọn các đặc trưng người nói
Việc trích chọn đặc trưng người nói có một ý nghĩa
hết sức quan trọng, tác dộng trực tiếp tới độ chính xác
nhận dạng của hệ nhận dạng người nói. Với các hệ
nhận dạng người nói nói chung, các đặc trưng về người
nói được trích chọn có thể chia ra 2 nhóm. Nhóm một
bao gồm các loại đặc trưng mang thông tin về tiếng nói
như các tần số formant, tần số âm cơ bản, hay năng
lượng… Nhóm hai gồm các loại đặc trưng mang thông
tin về đường bao phổ như các hệ số dự đoán tuyến tính
(LPC), các hệ số cepstrum, các hệ số cepstrum dự
đoán tuyến tính (LPCC) hay các hệ số ceptrum tần số
Mel (MFCC).... Các nghiên cứu về nhận dạng người
nói đều chỉ ra rằng, các đặc trưng thuộc nhóm hai hiệu
quả hơn so với nhóm một. Trong số các loại đặc trưng
mang thông tin về đường bao phổ, họ các hệ số
ceptrum có khả năng phân biệt người nói tốt hơn so
với các đặc trưng khác do các hệ số này khai thác khá
tốt các đặc tính của tuyến âm, một trong các đặc tính
quan trọng nhất phân biệt giọng nói người này với
người khác.
Để xây dựng hệ nhận dạng người nói phụ thuộc từ
khóa cho tiếng Việt chúng tôi chọn các hệ số MFCC
làm đặc trưng trích chọn vì so với các đặc trưng khác
việc tính toán MFCC không quá phức tạp. Và một
thực tế là rất nhiều hệ nhận dạng người nói hiện nay
trên thế giới sử dụng các hệ số MFCC làm đặc trưng
trích chọn. Việc lựa chọn số hệ số MFCC dựa trên
những yêu cầu khác nhau về độ chính xác nhận dạng
hay tốc độ tính toán, tùy theo từng tác giả, có thể chọn
bằng 12 như tác giả J.E. Higgins and R.I.Damper
trong [2], bằng 15 như Chai Wutiwiwachai và các
cộng sự trong [3] hay thậm chí là 20 như tác giả Minh
N Do trong [4]. Với hệ thống nhận dạng khảo sát ở
đây chúng tôi đã chọn số hệ số MFCC bằng 19 sau khi
đã bỏ đi hệ số đầu tiên. Việc lựa chọn số hệ số MFCC
này dựa trên kết quả khảo sát độ chính xác nhận dạng
người nói của các âm tiết tiếng Việt đã được chúng tôi
trình bày trong [12]. Còn việc loại bỏ hệ số MFCC đầu
tiên do hệ số này mang thông tin về thành phần một
chiều, một thông tin không có ý nghĩa phân biệt người
nói [5].
Tất cả các đặc trưng người nói trên được gọi chung
các đặc trưng tĩnh. Bên cạnh đó còn có các đặc trưng
động biểu diễn tốc độ cũng như gia tốc thay đổi của
các đặc trưng tĩnh. Các đặc trưng động này còn được
gọi là các tham số Delta và Delta-Delta của các đặc
trưng nguyên mẫu (tức các đặc trưng tĩnh). Rất nhiều
hệ nhận dạng người nói được xây dựng dựa trên các
đặc trưng nguyên mẫu kết hợp với các tham số Delta
cũng như các tham số Delta-Delta của chúng như trong
[2] chẳng hạn và kết quả nhận dạng thực sự đã tăng
lên so với khi chỉ dùng các đặc trưng nguyên mẫu. Một
khảo sát nhận dạng người nói dựa trên mô hình HMM
và các đặc trưng MFCC trong [11] đã chỉ ra sai số
nhận dạng người nói giảm từ 11.22% xuống còn
10.33% khi các đặc trưng là các hệ số MFCC được kết
hợp với tham số Delta và xuống còn 10.05% khi kết
hợp thêm cả với tham số Delta-Delta.
Tuy nhiên, việc kết hợp này cũng có một số nhược
điểm. Thứ nhất, việc kết hợp này sẽ làm không gian
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 95 -
vector đặc trưng tăng lên 2 đến 3 lần so với không gian
vector đặc trưng nguyên mẫu, và do vậy sẽ phải đòi
hỏi nhiều dữ liệu hơn cho huấn luyện cũng như khi
nhận dạng người nói, và hệ lụy là thời gian tính toán
cũng phải tăng lên. Hơn nữa, do phạm vi thay đổi của
các tham số Delta và các đặc trưng nguyên mẫu là
không như nhau do vậy cần phải chuẩn hóa trước khi
kết hợp chúng vào trong một không gian vector đặc
trưng duy nhất và điều đó cũng làm tiêu tốn thêm thời
gian xử lý. Bên cạnh đó là việc xác định giá trị tối ưu
cho kích thước cửa sổ hồi quy khi xác định các tham
số Delta và Delta-Delta là không dễ dàng khi mà tốc
độ cũng như gia tốc thay đổi của các hệ số của đặc
trưng nguyên mẫu là không như nhau. Cuối cùng, một
số khảo sát cho thấy nếu chỉ sử dụng các tham số
Delta thì độ chính xác nhận dạng người nói thấp hơn
nhiều so với khi chỉ sử dụng các đặc trưng nguyên mẫu
[5]. Điều này chứng tỏ các đặc trưng tĩnh mang thông
tin về người nói nhiều hơn so với các đặc trưng động.
Đứng trước sự lựa chọn giữa độ chính xác và tốc độ
xử lý, trong nghiên cứu ở đây chúng tôi chỉ sử dụng
các đặc trưng nguyên mẫu là 19 hệ số MFCC.
2. Mô hình phân lớp người nói
Do trong các hệ nhận dạng người nói phụ thuộc từ
khóa, số lượng từ khóa thường bị giới hạn trong một số
từ (word) hoặc một số cụm từ/câu cố định (phrase),
nên mô hình người nói của các hệ này thường dựa trên
chính các từ hoặc các cụm từ cố định đó. Việc xác
định từ hay cụm từ hay một đơn vị ngôn ngữ nào đó để
xây dựng mô hình người nói cần phải được đặt ra
trước khi lựa chọn mô hình thích hợp. Thông thường
các đơn vị ngôn ngữ dùng để xây dựng mô hình người
nói là các cụm từ, từ và dưới mức từ (âm tiết (syllable)
hay âm vị (phoneme) …). Các mô hình người nói dựa
trên các đơn vị ngôn ngữ khác nhau có các ưu nhược
điểm khác nhau và việc lựa chọn đơn vị nào là tùy
thuộc vào từng ứng dụng cụ thể. Một khảo sát hệ nhận
dạng người nói tiếng Anh trong [9] cho thấy mô hình
người nói dựa trên các cụm từ có khả năng nhận dạng
người nói tốt nhất, tiếp đến là mô hình dựa trên các từ,
trong khi các mô hình dựa trên âm vị cho kết quả kém
nhất. Tuy nhiên, nhược điểm chính của các mô hình
cụm từ là từ khóa bị cố định hoàn toàn và vì thế tính
bảo mật không cao. Ngược lại mô hình dựa trên âm vị
rất linh hoạt, chỉ với một số nhỏ các âm vị cũng có thể
tạo ra vô số các từ khóa khác nhau. Dung hòa giữa 2
loại này chính là các mô hình dựa trên các từ. Về tính
khả thi, việc dán nhãn tự động cho các âm vị là một
bài toán rất khó trong khi đó với mức từ, bài toán dán
nhãn vẫn có tính khả thi hơn nhiều đặc biệt với lối nói
rời rạc. Còn với tiếng Việt thì sao? Khác với tiếng Anh
là ngôn ngữ đa âm tiết (mỗi từ gồm nhiều âm tiết),
tiếng Việt là ngôn ngữ đơn âm tiết và ranh giới giữa
đơn vị phát âm nhỏ nhất (âm tiết) trùng với ranh giới
giữa đơn vị ngôn ngữ có nghĩa nhỏ nhất (hình vị ) [13],
do vậy không như tiếng Anh, vai trò của âm tiết trong
ngữ âm tiếng Việt lớn hơn rất nhiều. Rõ ràng việc xây
dựng các mô hình người nói cho tiếng Việt dựa trên
đơn vị ngôn ngữ là âm tiết / hình vị sẽ giúp làm dễ
dàng hơn khi dán nhãn tự động các âm tiết cũng như
khi tổ hợp chúng để tạo ra các từ khóa khác nhau.
Hiện có nhiều mô hình phân lớp nhận dạng cho hệ
nhận dạng người nói phụ thuộc từ khóa đã được nghiên
cứu như phương pháp đối sánh mẫu áp dụng thuật
toán gói thời gian động (DTW) [5], nhận dạng bằng
mạng nơron perception nhiều lớp (MLP) [7], hay sử
dụng mô hình thống kê như mô hình Markov ẩn
(HMM) [2] [8]…. Trong đó nhận dạng bằng mô hình
HMM được đánh giá là có tính hiện thực cao, do mô
hình này còn đề cập đến yếu tố thay đổi theo thời gian
của tiếng nói. Trong một khảo sát so sánh khả năng
nhận dạng người nói phụ thuộc từ khóa của cả 3 loại
mô hình DTW, MLP và HMM các tác giả trong [10]
cũng chỉ ra mô hình HMM cho độ chính xác cao nhất.
Nhìn chung một mô hình HMM có thể coi như bộ
sinh trạng thái hữu hạn, áp dụng trong nhận dạng
người nói thì mỗi trạng thái của mô hình này có thể
biểu diễn một âm vị hay một vị trí tương đối tĩnh của
cơ quan cấu âm, còn chuỗi quan sát là chuỗi các vector
đặc trưng được trích chọn. Thông tin thời gian được
mã hóa bằng việc chuyển từ trạng thái này sang trạng
thái khác theo chuỗi chuyển tiếp. Thời gian tiêu tốn
trên mỗi trạng thái không giống nhau tùy thuộc vào
tiếng nói mỗi người. Do vậy chúng tôi đã chọn mô hình
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 96 -
Markov ẩn có hàm mật độ xác suất liên tục (continue
density HMM) với các trạng thái chuyển đổi từ trái
qua phải để biểu diễn các âm tiết của người nói tiếng
Việt
Do cấu tạo của mỗi âm tiết tiếng Việt có ít nhất là 1
âm vị và nhiều nhất là 5 âm vị [13], nên việc chọn số
trạng thái cho mô hình HMM biểu diễn một âm tiết
tiếng Việt có thể thay đổi từ 3 cho đến 7 trạng thái tùy
thuộc từng âm tiết. Tuy nhiên, nếu chúng ta coi mỗi
trạng thái chỉ đơn giản là tương ứng với một vị trí
tương đối tĩnh của cơ quan cấu âm thì việc chọn số
trạng thái bằng 7 cho mô hình HMM biểu diễn mỗi âm
tiết tiếng Việt là hợp lý nhất.
Thực tế với hệ thống nhận dạng khảo sát ở đây
chúng tôi đã chọn mô hình Markov ẩn có hàm mật độ
xác suất liên tục (CDHMM) với 7 trạng thái chuyển
đổi từ trái qua phải (bao gồm cả 2 trạng thái bắt đầu
và kết thúc) để xây dựng mô hình cho từng người nói
trong hệ nhận dạng này. Một nghiên cứu khảo sát độ
chính xác nhận dạng người nói dựa trên âm tiết tiếng
Việt trước đây của chúng tôi [12] cũng chỉ ra rằng việc
lựa chọn số trạng thái bằng 7 cho loại mô hình này là
giá trị tối ưu. So với tiếng Hán, một ngôn ngữ cũng có
đặc trưng đơn âm tiết và có thanh điệu như tiếng Việt,
khi sử dụng mô hình HMM chuyển đổi trạng thái từ
trái qua phải với các đặc trưng là các hệ số LPCC để
xây dựng mô hình người nói cho từng âm tiết tiếng
Hán, các tác giả trong [10] đã chỉ ra số trạng thái bằng
6 cho độ chính xác nhận dạng người nói tốt nhất.
III. CƠ SỞ DỮ LIỆU TỪ KHÓA VÀ LỰA
CHỌN PHƯƠNG PHÁP NGHIÊN CỨU
Như đã nói ở trên, để nghiên cứu khả năng nhận
dạng người nói theo độ dài từ khóa chúng tôi chọn cụm
từ khóa là các số và hệ thống sẽ sinh một cụm từ mật
khẩu là một dãy số ngẫu nhiên. Tập từ khóa huấn
luyện là các âm tiếng Việt từ số 0 đến số 9, đó là các
âm tiết: “Không”, “Một”, “Hai”, “Ba”, “Bốn”, “Năm”,
“Sáu”, “Bẩy”, “Tám”, “Chín”. Cơ sở dữ liệu gồm 140
người nói (61 nam, 79 nữ độ tuổi từ 20 đến 55 và đều
nói giọng Bắc bộ), mỗi người nói 15 lần các âm tiết
trên trực tiếp vào micro của máy tính trong những
khoảng thời gian khác nhau, trong môi trường văn
phòng. Một chương trình cho phép thu và ghi tự động
tín hiệu âm thanh của mỗi âm tiết trong khoảng thời
gian 1 giây. Với từng âm tiết, mỗi lần phát âm của mỗi
người được lấy mẫu ở tần số 11025 Hz, mã hóa PCM,
16 bit, mono và lưu dưới một file wav riêng. Với mỗi
người nói, các file âm thanh dữ liệu của 10 lần phát âm
đầu được dùng để huấn luyện hệ thống, còn các file
của 5 lần sau được dùng để kiểm tra.
Với một cơ sở dữ liệu là các âm tiết rời rạc thuộc
từng file âm thanh khác nhau như vậy, việc nghiên cứu
khả năng nhận dạng người nói theo độ dài từ khóa có
thể được thực hiện bằng một trong hai phương pháp
sau.
Phương pháp thứ nhất, thực hiện việc sinh ra dãy số
ngẫu nhiên trong miền thời gian bằng cách kết hợp
ngẫu nhiên các âm tiết rời rạc từ các file dữ liệu âm
thanh của các số từ 0 đến 9. Với mỗi dãy số sinh ra,
xây dựng một hệ nhận dạng người nói phụ thuộc từ
khóa và đánh giá độ chính xác nhận dạng của nó.
Khảo sát so sánh độ chính xác nhận dạng của các hệ
nhận dạng người nói phụ thuộc từ khóa này theo độ dài
từ khóa. Phương pháp này khá tốn kém do số lượng
dãy số ngẫu nhiên sinh ra rất lớn nên chỉ có thể khảo
sát trên một số hệ nhận dạng người nói đại diện nào đó
mà thôi.
Phương pháp thứ hai, thực hiện việc sinh ra dãy số
ngẫu nhiên trong miền tham số. Cách này thay vì phải
xây dựng rất nhiều các hệ nhận dạng người nói phụ
thuộc từ khóa như trên, trong pha huấn luyện ta chỉ
xây dựng 10 hệ nhận dạng người nói ứng với các 10 từ
khóa lần lượt là các âm tiết từ “không” đến “chín”.
Quyết định đầu ra của hệ thống sẽ là sự kết hợp đầu ra
của 10 hệ nhận dạng người nói phụ thuộc từ khóa này.
Việc khảo sát độ chính xác nhận dạng người nói theo
độ dài từ khóa sẽ được thực hiện bằng cách thay đổi số
lượng kết hợp đầu ra của các hệ nhận dạng này. Như
vậy về bản chất phương pháp này chính là xây dựng
một hệ nhận dạng người nói phụ thuộc từ khóa thay
đổi không chỉ nội dung mà cả độ dài từ khóa. Rõ ràng
phương pháp thứ hai này tỏ ra khả thi hơn phương
pháp đầu và chúng tôi đã quyết định chọn phương
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 97 -
pháp này để nghiên cứu khảo sát.
IV. XÂY DỰNG HỆ NHẬN DẠNG NGƯỜI NÓI
PHỤ THUỘC TỪ KHÓA THAY ĐỔI
Như mọi hệ nhận dạng tự động khác, nhận dạng
người nói phụ thuộc từ khóa thay đổi cũng bao gồm
hai pha, pha huấn luyện (hay pha học) và pha nhận
dạng. Để xây dựng hệ nhận dạng người nói phụ thuộc
từ khóa thay đổi là các chuỗi số khác nhau trước hết hệ
thống phải được huấn luyện tập từ khóa là các âm tiết
từ số 0 đến số 9 như đã nói ở trên (pha huấn luyện).
Trong pha này, hệ thống được huấn luyện như khi xây
dựng các hệ nhận dạng người nói phụ thuộc từ khóa là
các âm tiết rời rạc từ 0 đến 9 (hình 1a). Đầu tiên tín
hiệu tiếng nói từ các file âm thanh dữ liệu được loại bỏ
các khoảng lặng. Sau đó tín hiệu này được phân
khung, mỗi khung khoảng 25ms với độ chồng khung
50% và được hiệu chỉnh (bù suy giảm vùng tần số cao)
bằng một bộ lọc thông cao. Sử dụng hàm cửa sổ
Hamming để tối thiểu hóa sự ngắt quãng của tín hiệu
tại điểm đầu và cuối của mỗi khung. Tiếp đến các hệ
số MFCC (vector đặc trưng) sẽ được trích chọn trên
mỗi khung tín hiệu.
Trong quá trình huấn luyện, với mỗi người nói,
chuỗi các vector đặc trưng của 10 lần phát âm đầu ứng
với từng âm tiết nói trên sẽ được đưa vào huấn luyện.
Áp dụng thuật toán vọng
số cực đại EM
(Expectance
Maximization) cho quá
trình huấn luyện để tính
toán các tham số của các
mô hình HMM cho từng
người nói.
Trong pha nhận dạng,
nguyên lý làm việc của hệ
nhận dạng người nói.phụ
thuộc từ khóa có độ dài
không đổi được xây dựng
từ các hệ nhận dạng người
nói phụ thuộc từ khóa đơn
âm tiết như trên sơ đồ
(hình 1b). Đầu tiên bộ tạo
số ngẫu nhiên tạo chuỗi số
bất kỳ có độ dài M.
Người được nhận dạng sẽ
phải phát âm chuỗi số này
một cách rời rạc từng số
một vào hệ thống. Ở đây,
để tiện việc kiểm tra, bất
kỳ lần nào trong số 5 lần
phát âm còn lại của mỗi
âm tiết từ 0 đến 9 của mỗi
người nói có trong cơ sở
dữ liệu sẽ được dùng để
Hình 1a: Pha huấn luyện hệ nhận dạng người nói phụ thuộc từ khóa thay đổi
Hình 1b: Pha nhận dạng hệ nhận dạng người nói phụ thuộc từ khóa thay đổi
Tạp chí BCVT & CNTT kỳ 3 10/2007
- 98 -
kiểm tra. Quá trình trích chọn đặc trưng (các hệ số
MFCC) được tiến hành như trong pha huấn luyện.
Chuỗi vector đặc trưng trích chọn từ mỗi âm tiết được
coi là chuỗi quan sát, áp dụng thuật toán Viterbi để
tính xác suất tích lũy của chuỗi quan sát phù hợp nhất
với mỗi mô hình trong quá trình nhận dạng của hệ
thống. Tổ hợp xác xuất tích lũy từ các âm tiết được
thực hiện theo phương pháp tổng logarit các xác suất
thành phần Quyết định nhận dạng người thứ i trong cơ
sở dữ liệu N người nói được thực hiện theo hàm quyết
định sau:
( )( )arg max arg max log ,
M
n
m
i y p x ω m n
=
é ù= =ë û å
1
Trong đó:
yn: điểm số đối sánh của người thứ n trong tập dữ
liệu N người nói (1 £ n £ N)
M: độ dài từ khóa
p(x|w(m,n)): xác suất của mô hình markov ẩn
(w(m,n)) của âm tiết thứ m của người thứ n với chuỗi
quan sát x.
Như vậy, nếu lấy thời gian phát âm trung bình của
một âm tiết tiếng Việt vào khoảng 300ms thì hệ nhận
dạng người nói này có thời gian tín hiệu tiếng nói dùng
cho pha huấn luyện là