Sinh trắc học (biometrics) được dùng trong việc nhận dạng người dựa trên các đặc điểm sinh lý học (physiological) và hành vi (behavioral). Phương pháp nhận dạng này có nhiều thuận lợi chẳng hạn như không nhất thiết phải nhớ mật mã (password) hay mang một thẻ (cards) gì đó như trong các phương pháp truyền thống. Nó có thể thay thếvà hoạt động tiện lợi hơn so với các phương pháp truyền thống.
31 trang |
Chia sẻ: vietpd | Lượt xem: 2621 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Xác minh người qua giọng nói, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
CHƯƠNG 1 - TỔNG QUAN
1.1 Tổng quan về sinh trắc học
1.1.1 Giới thiệu
Sinh trắc học (biometrics) được dùng trong việc nhận dạng người dựa trên các
đặc điểm sinh lý học (physiological) và hành vi (behavioral). Phương pháp nhận
dạng này có nhiều thuận lợi chẳng hạn như không nhất thiết phải nhớ mật mã
(password) hay mang một thẻ (cards) gì đó như trong các phương pháp truyền
thống. Nó có thể thay thế và hoạt động tiện lợi hơn so với các phương pháp truyền
thống.
Không giống như sinh trắc học, mật mã có thể quên, thẻ có thể bị giả mạo, bị
đánh cấp hay bị mất. Tuy nhiên, nhận dạng dựa trên kỹ thuật sinh trắc học thì tiện
lợi hơn (với việc thay thế mật mã hoặc sử dụng sinh trắc học cùng với mật mã). Nó
có khả năng ngăn ngừa các truy cập bất hợp pháp vào thẻ ATM, điện thoại di động,
laptops, và mạng máy tính… giúp tăng cường khả năng bảo vệ dữ liệu. Các hệ
thống sinh trắc học ngày nay đang được triển khai để tăng cường tính an toàn và
giảm sự gian trá trong tài chính. Các nét sinh trắc học khác nhau cũng đã được dùng
trong việc nhận dạng. Phổ biến nhất là nhận dạng qua khuôn mặt (face), tròng mắt
(iris) và dấu vân tay (fingerprint). Tuy nhiên, cũng có những hệ thống nhận dạng
dựa trên võng mạc mắt (retina), giọng nói (voice), chữ ký (signature) và hình dạng
bàn tay (hand geometry).
Các đặc điểm sinh trắc học có thể được chia thành hai lớp chính (xem hình
1.1.1).
• Đặc điểm sinh lý học: Những nét liên quan đến hình dáng của cơ thể. Nét
được dùng lâu nhất là dấu vân tay (fingerprint). Ngoài ra còn có những nét
khác như khuôn mặt (face), hình bàn tay (hand geometry) hay tròng mắt
(iris).
• Đặc điểm về hành vi: Những nét liên quan đến hành vi của con người như
chữ ký (signature), giọng nói (voice), v.v…
2
Sinh trắc học
Sinh lý học Hành vi
khuôn mặt gõ phím
dấu vân tay chữ ký
giọng nóibàn tay
tròng mắt
Hình 1.1.1: Hai lớp chính của các đặc điểm sinh trắc học.
Thật ra, giọng nói (voice) cũng là một nét thuộc nhóm sinh lý học bởi vì mỗi
người có một cường độ âm thanh (pitch) khác nhau. Tuy nhiên, nhận dạng giọng
nói chủ yếu nghiên cứu cách một người nói, vì vậy nó thường được phân vào lớp
‘hành vi’.
Thực tế có nhiều ứng dụng nhận dạng dựa trên các đặc trưng sinh trắc học
khác cũng đang được nghiên cứu hiện nay như dựa trên dáng đi (gait), võng mạc
mắt (retina), tai (ear), chỉ tay (palm prints).
1.1.2 Hệ thống nhận dạng tự động dựa trên sinh trắc học
Hai thao tác chính mà một hệ thống nhận dạng luôn thực hiện là lưu giữ
(enrollment) và kiểm tra (testing). Trong suốt quá trình lưu giữ, thông tin sinh trắc
học của một cá nhân được rút trích và lưu trữ trong cơ sơ dữ liệu. Trong quá trình
kiểm tra, thông tin sinh trắc học được dò tìm và được so sánh với thông tin đã lưu
trữ này (xem hình 1.1.2).
3
Nơi lưu trữ
mẫu
Hình 1.1.2: Sơ đồ khối cơ bản của một hệ thống nhận dạng dựa trên sinh trắc học
Khối đầu tiên (Thiết bị thu nhận - sensor) là giao diện giữa thế giới thật và hệ
thống của chúng ta. Nó phải thu được tất cả những thông tin cần thiết.
Khối thứ hai (Tiền xử lý - pre-processing) thực hiện tất cả những thao tác
tiền xử lý cần thiết. Nó có nhiệm vụ làm tăng cường chất lượng của mẫu đầu vào.
Khối thứ 3 (Rút trích đặc trưng - feature extractor) dùng để rút trích đặc
trưng. Bước này rất quan trọng bởi vì các đặc trưng phù hợp, các đặc trưng tốt nhất,
tối ưu nhất cần phải được rút trích. Một véc tơ số hay một ảnh với các thuộc tính
đặc biệt được dùng tạo ra mẫu (template). Mẫu là một sự tổng hợp của tất cả các
đặc trưng được rút trích từ nguồn đầu vào.
Nếu bước lưu giữ đang được thực hiện thì mẫu chỉ đơn giản là được lưu trữ ở
đâu đó (có thể trong thẻ hay trong cơ sở dữ liệu hay cả hai). Nếu bước so khớp
(matching) đang được thực hiện, mẫu thu được sẽ được so sánh với những mẫu đã
tồn tại và một giải thuật đo lường sự tương tự giữa chúng cần được xem xét.
1.2 Sơ lược về hệ thống nhận dạng tự động người qua giọng nói
Nhận dạng tự động người qua giọng nói (Automatic Speaker Recognition - ASR)
đã được nghiên cứu từ hơn bốn thập kỷ qua và cũng đã đạt được nhiều thành tựu
đáng kể. Nó sử dụng các đặc trưng âm thanh mà được cho là khác nhau giữa các cá
nhân.
Về cơ bản, hệ thống nhận dạng người qua giọng nói cũng tuân thủ các bước của
một hệ thống nhận dạng dựa trên sinh trắc học. Tuy nhiên, cần có những biến đổi
chuyên sâu về lĩnh vực này. Chẳng hạn ở giai đoạn rút trích đặc trưng, tùy ứng dụng
Tiền xử lý
Rút trích
đặc trưng Bộ tạo mẫu
Thiết bị
thu nhận
Sự lưu giữ
Bộ so khớp
Thiết bị
ứng dụng
Kiểm tra
Hệ thống sinh
trắc học
Kiểm
tra
4
mà chúng ta nên xem xét những đặc trưng nào cần được rút trích sao cho phù hợp
và đạt hiệu quả cao. Nếu cần thiết có thể bổ sung một số bước mới vào trong hệ
thống.
1.2.1 Hai loại ứng dụng của lĩnh vực nhận dạng người qua giọng nói
Nói chung, lời nói (speech) chứa một lượng lớn thông tin, bao gồm giới tính,
cảm nghĩ, một thông điệp, một sự nhận dạng, và sức khoẻ vật lý. Con người dễ dàng
nghe được các thông tin này một cách độc lập. Một người phụ nữ lớn tuổi sẽ có âm
thanh giống “người phụ nữ lớn tuổi”, và một người đàn ông mệt mỏi sẽ có âm thanh
giống “người đàn ông mệt mỏi”, mặc dù họ phát ra cùng một thông điệp. Từ những
điều này, lần lượt ra đời các ứng dụng thuộc về lĩnh vực nhận dạng tự động người
qua giọng nói. Thật ra, có hai loại ứng dụng chính cho lĩnh vực này. Nếu người nói
có nhu cầu xác minh thì đây gọi là ứng dụng xác minh người bằng giọng nói
(automatic speaker verfication - ASV). Tuy nhiên, ứng dụng định danh người bằng
giọng nói (automatic speaker identification - ASI) là công việc quyết định xem
người đang nói là ai.
Xác minh người qua giọng nói là một sự so khớp 1: 1, trong đó giọng của một
người nói được so khớp với một mẫu có sẵn và câu trả lời là ‘true’ hay ‘false’. Tuy
nhiên, định danh người qua giọng nói là một sự so khớp 1:n, trong đó giọng của
người nói trước hệ thống được so khớp với n mẫu có sẵn và câu trả lời là mẫu khớp
nhất. Có một sự khác nhau rất lớn trong độ phức tạp tính toán giữa hai loại trên.
Trong hệ thống xác minh người qua giọng nói, không đòi hỏi kiểm tra các mô hình
người nói khác ngoài mô hình người nói đầu vào (mô hình người nói quan tâm).
Tuy nhiên trong các ứng dụng thực tế, chỉ đơn giản xem xét một mô hình sẽ không
có đủ nhận xét đúng đắn để đưa ra quyết định tốt. Mặc khác, hệ thống không thể
phân lớp đoạn âm thanh đầu vào nếu như không có lớp nào được định nghĩa. Việc
định nghĩa các lớp có thể được thiết lập bởi việc tổng hợp các tính toán trước từ các
mô hình (có hoặc không có mô hình người nói đầu vào) hoặc kiểm tra lại với các
mô hình khác (còn gọi là mô hình giả danh hay impostor). Về hệ thống định danh
người qua giọng nói, nó đòi hỏi phải có giải thuật kiểm tra các mô hình để tìm ra
5
một mô hình phù hợp nhất (khớp nhất). Điều này thường được thực hiện bởi việc
cho điểm (scoring). Ví dụ, so khớp đoạn âm thanh đầu vào với tất cả các mô hình
người nói có sẵn và cho ra một điểm tuyệt đối cho từng mô hình. Đầu ra có thể là
mô hình có điểm cao nhất. Chẳng hạn một ứng dụng của xác minh người qua giọng
nói kiểm tra bạn có thật sự là chị A không khi bạn vào ngân hàng và lấy một số tiền
từ tài khoản của chị A. Ngược lại, ứng dụng định danh người qua giọng nói sẽ xem
xét giọng của một tội phạm nào đó và tìm lại trong các giọng tội phạm đã có sẵn để
làm một sự nhận dạng.
1.2.2 Tính đa dạng của hệ thống nhận dạng người qua giọng nói.
Theo chúng ta đã biết, mỗi hệ thống nhận dạng người qua giọng nói đều có hai
giai đoạn: lưu giữ và kiểm tra. Trong suốt giai đoạn lưu giữ, giọng người nói được
thu nhận và các đặc trưng được rút trích, sau đó sinh ra các mẫu hoặc mô hình.
Trong giai đoạn kiểm tra, giọng người nói được so khớp với các mẫu hay các mô
hình có sẵn này. Hơn nữa, các hệ thống nhận dạng thường được cài đặt theo hai thể
thức: phụ thuộc văn bản (text-dependent) hoặc độc lập văn bản (text-independent).
Điều này liên quan tới đoạn văn được đọc dùng trong giai đoạn lưu giữ và kiểm tra.
Hệ thống độc lập văn bản đòi hỏi đoạn văn được nói khi sử dụng hệ thống
(trong giai đoạn kiểm tra) phải giống với đoạn văn được dùng trong lúc huấn luyện
(trong giai đoạn lưu giữ) hoặc phải là một sự kết hợp của đoạn văn được dùng trong
lúc huấn luyện. Trường hợp đoạn văn này cố định (có nghĩa là chỉ dùng một đoạn
duy nhất trong lúc sử dụng hệ thống) sẽ làm cho hệ thống dễ bị tấn công từ những
người giả danh. Để tránh điều này, hệ thống huấn luyện sẵn vài câu và khi người
dùng tiến hành kiểm tra, nó lấy ra một câu ngẫu nhiên từ những câu đã có sẵn. Tuy
nhiên, trường hợp này cũng không bảo đảm mức độ an toàn cao do nó có thể bị phát
hiện nếu kẻ giả danh kiên nhẫn một vài lần. Như vậy, cần có một giải pháp tinh vi
hơn và cuối cùng một giải pháp khác đã ra đời đó là cài đặt hệ thống chỉ sử dụng
các con số. Trong trường hợp này, giai đoạn lưu giữ chỉ yêu cầu người nói đọc một
chuỗi số mà tất cả các con số có số lần xuất hiện như nhau. Đối với mỗi số, mô hình
người nói được huấn luyện. Như vậy chỉ cần huấn luyện 10 mô hình là đủ. Sau đó
6
trong giai đoạn kiểm tra, một chuỗi số ngẫu nhiên được chọn và các mô hình số
tương ứng được nối kết thành mô hình của riêng người nói đó. Vì vậy, người nói
không thay đổi ngôn ngữ thường xuyên. Các hệ thống như thế có thể được tạo độc
lập ngôn ngữ một cách dễ dàng.
Hệ thống độc lập văn bản thường được dùng cho việc định danh người qua
giọng nói do chúng đòi hỏi rất ít sự hợp tác của người dùng. Trong trường hợp này,
văn bản của giai đoạn lưu giữ and kiểm tra có thể khác nhau. Thật ra, giai đoạn lưu
giữ có thể xảy ra mà không cần tri thức người dùng. Một vài lời nói được thu nhận
có thể đã đủ. Vì vậy, các hệ thống độc lập văn bản không có tri thức của đoạn văn
bản đang được nói, chỉ các thuộc tính đặc biệt và tổng quát của giọng người nói là
được sử dụng. Điều này giới hạn tính chính xác của việc nhận dạng. Tuy nhiên, nó
hoàn toàn độc lập ngôn ngữ.
7
CHƯƠNG 2 - PHƯƠNG PHÁP XÁC MINH NGƯỜI NÓI
2.1 Dẫn nhập
Lấy mẫu Rút trích
đặc trưng
Đánh nhãn
speech hoặc
non-speech
Dò tìm
năng lượng
Chuẩn hoá
đặc trưng
Huấn luyện mô
hình nền
Lời nói
được số
hoá
MFCC
Các véc tơ
đặc trưng
Các đặc trưng đã
được chuẩn hoá
Kiểm
tra
Chuẩn hoá
điểm
Quyết định
Các
đặc
trưng
của
mẫu
đầu
vào
cần
xác
minh
Các
Gaussian Mixture Models
True/False?
Các điểm
của các mô
hình tương
ứng
Log Likelihood
Ratio (LLR) T-norm
Ngưỡng θ
Huấn luyện mô
hình người
nói/người giả danh
Dùng giải
thuật EM
Dùng
giải thuật
EM
Lời nói
Hình 2.1: Các bước thực hiện của một hệ thống xác minh người qua giọng nói
Chương này tóm tắt ngắn gọn các bước thực hiện của một hệ thống xác minh tự
động người qua giọng nói theo hướng độc lập văn bản. Một vài bước gần như là
giống nhau cho tất cả các hệ thống. Tuy nhiên, chương trình bày nghiêng theo các
giải thuật được cài đặt trong phần mềm mở Alize và Lia-ral. Hình 2.1 bên trên sẽ
cho thấy các bước thực hiện của hệ thống.
2.2 Rút trích đặc trưng
Có nhiều đặc trưng có thể được rút trích từ một tín hiệu đầu vào. Tuy nhiên,
chúng tôi chỉ trình bày cách rút trích các hệ số MFCCs - Mel-Frequency Cepstral
Coefficients [16]. Hình 2.2 bên dưới cho thấy các bước tiến hành rút trích các hệ số
này.
8
Hình 2.2: Các bước xử lý tín hiệu đầu vào để cho ra các hệ số MFCCs tại đầu ra.
Tín hiệu đầu vào sau khi được phân thành từng đoạn thì tất cả các đoạn được
nhân với hàm cửa sổ để giảm tối đa tính không liên tục tại các cạnh của đoạn. Sau
đó dùng biến đổi Fourier để chuyển mỗi đoạn từ miền thời gian sang miền tần số.
Cường độ (magnitude) được tính toán bằng cách bình phương biên độ (amplitude)
tại mỗi tần số. Các hệ số này được chuyển đổi tới mức mel sau khi qua dải bộ lọc
(filterbank). Năng lượng đầu ra từ mỗi bộ lọc của từng đoạn được lấy log và được
biến đổi thành các hệ số MFCCs qua biến đổi cosin rời rạc (Discrete Cosine
Transform-DCT).
2.2.1 Phân đoạn, pre-emphasis và hàm cửa sổ
Pre-emphasis: Thường dùng để lọc tín hiệu bằng bộ lọc tần số cao (high-
pass).
H(z) = 1−kz-1,
với k ∈ [0, 1]. Tuy nhiên, giá trị k thường dùng là 0.97.
Giai đoạn này được thực hiện nhằm tăng cường các tần số cao của dải âm thanh
(spectrum). Bộ lọc này không luôn luôn được áp dụng nhưng có thể lấy lại các tần
số cao đã bị mất trong quá trình thu nhận tín hiệu.
Phân đoạn và hàm cửa sổ:
Lời nói là một tín hiệu không ổn định. Vì vậy, việc phân tích lời nói dùng FFT
hay LPC phải được thực hiện trên các đoạn ngắn mà qua các đoạn này tín hiệu lời
nói được xem là ổn định. Đây là lý do vì sao chúng ta cần chia tín hiệu đầu vào
thành những đoạn con.
Phân
đoạn
Pre-
emphasis
Dải bộ lọc
tần số Mel
Biến đổi Fourier
rời rạc - DFT
Hàm cửa sổ
Hamming
Lấy
Log
Biến đổi Cosin
rời rạc
Lấy đạo
hàm
25 ms
frame
Tín hiệu lời nói
16 KHz, 16 bits
Dải âm
thanh theo
tần số Mel
Dải âm thanh
(Bình phương
biên độ)
Các hệ
số MFCCs
9
Rút trích đặc trưng (feature extraction) thường được thực hiện trên các cửa sổ
từ 20 tới 30 ms. Để tránh mất mát thông tin do việc chia nhỏ, các đoạn gần kề
thường được chồng lên nhau khoảng 30 tới 50% (khoảng 10 đến 15ms). Nguyên lý
này được minh họa trong hình 2.2.1:
Hình 2.2.1: Minh hoạ việc chia nhỏ tín hiệu đầu vào.
Sau khi tín hiệu được chia nhỏ, mỗi đoạn được nhân với một trong các hàm cửa
sổ wi sau:
Hamming wi = 0.54 − 0.46 cos(iπ2/N)
Hanning wi = (1 − cos(iπ2/N))/2
Blackman wi = 0.42 − 0.5 cos(iπ2/N) + 0.08cos(2iπ2/N)
trong đó:
N là số mẫu (samples) trong cửa sổ
và i ∈ 2 [0, N − 1].
Mục đích của việc sử dụng hàm cửa sổ là để làm mượt các cạnh của mỗi đoạn,
để giảm tính không liên tục hay các thay đổi bất ngờ tại các điểm cuối của đoạn.
Các mẫu trong vùng cửa sổ có giá trị khác 0 và các mẫu tại những điểm cuối của
cửa sổ là 0.
2.2.2 Biến đổi Fourier rời rạc
Như được miêu tả trong hình 2.2.2.1, biến đổi Fourier rời rạc (Discrete Fourier
Transform - DFT) là phân rã tín hiệu đầu vào có N điểm thành hai tín hiệu đầu ra,
mỗi tín hiệu có N/2 +1 điểm. Tín hiệu đầu ra sẽ chứa các biên độ (amplitudes) của
các sóng hình sin và cosin (chi tiết trong [20]).
20-30ms
10-15ms
10
Hình 2.2.2.1: Trong miền thời gian, x[] chứa N điểm chạy từ 0 tới N-1. Trong miền
tần số, x[] được chia thành hai tín hiệu con có chiều dài là N/2+1 điểm và chạy từ 0
tới N/2.
Biến đổi Fourier là chuyển từ miền thời gian tới miền tần số, trong khi biến đổi
Fourier ngược (Inverse Discrete Fourier Transform) là từ miền tần số trở về miền
thời gian.
Miền tần số chứa cùng thông tin với miền thời gian, chỉ ở một hình thức khác.
Nếu chúng ta biết một miền, chúng ta có thể tính toán tới miền còn lại.
Hình 2.2.2.2 minh hoạ cách một tín hiệu được phân rã thành các sóng hình sin
và cosin. Hình (a) cho thấy một tín hiệu ví dụ có chiều dài 16 điểm, chạy từ 0 tới
15. Hình (b) cho thấy việc phân rã Fourier của tín hiệu này thành 9 sóng hình cosin
và 9 sóng hình sin. Mỗi một sóng có tần số và biên độ riêng của nó. Mười tám sóng
này nếu tổng hợp lại sẽ cho ra sóng ban đầu, ở hình (a). Không có sự khác nhau
giữa tín hiệu trong (a) và tổng của những tín hiệu trong (b), giống như không có sự
khác nhau giữa 7 và 3+4.
…
x[ ]
N điểm
Miền thời gian
… …
ReX[] ImX[]
N/2 + 1 điểm
(biên độ sóng cosin)
N/2 + 1 điểm
(biên độ sóng sin)
Miền tần số
DFT
IDFT0 -1 0 /2 0 N N N/2
PHÂN RÃ
Biên
độ
TỔNG HỢP
Số mẫu
11
Các sóng Cosin
(a)
Các sóng Sin
(b)
Hình 2.2.2.2: Một ví dụ cho việc phân rã Fourier. Một tín hiệu 16 điểm (a) được
phân thành 9 sóng cosin và 9 sóng sin (b) [20].
12
Biểu thức toán học để tín toán miền tần số từ miền thời gian như sau:
ΣReX [k] = x [i] cos (2N-1
i=0
πki/N)
Σ
trong đó, x[i] là tín hiệu miền thời gian; ReX[k] và ImX[k] là hai tín hiệu miền tần
số; i chạy từ 0 tới N-1, trong khi k chạy từ 0 tới N/2.
Hay nói cách khác, mỗi mẫu trong miền tần số được tính toán bằng cách nhân
tín hiệu miền thời gian với các sóng hình sin hoặc cosin, và cộng các điểm kết quả.
Như được mô tả ở trên, miền tần số là một nhóm các biên độ của các sóng hình
cosin và sin. Điều này được biết như là ký hiệu vuông góc. Ngoài ra, miền tần số
còn có thể được biểu diễn dưới toạ độ cực. Trong ký hiệu này, ReX[] và ImX[]
được thay thế bằng hai mảng khác: MagX[] được gọi là cường độ (magnitude) của
X[] và PhaseX[], được gọi là pha (Phase) của X[]. Ví dụ, MagX[0] và PhaseX[0]
được tính toán sử dụng chỉ ReX[0] và ImX[0]. Hoặc MagX[14] và PhaseX[14]
được tính toán sử dụng chỉ ReX[14] và ImX[14], và … Để hiểu về phép chuyển đổi
này, chúng ta hãy xem xét những gì sẽ xảy ra khi chúng ta cộng một sóng cosin và
một sóng sin có cùng tần số. Kết quả là một sóng cosin có cùng tần số nhưng với
một biên độ mới và một pha mới như biểu thức sau:
A cos (x) + B sin (x) = M cos (x + θ)
Điểm quan trọng là không có thông tin bị mất trong quá trình này. Nếu cho
trước một đại diện, chúng ta có thể tính toán cái còn lại. Hay nói cách khác, thông
tin được chứa trong các biên độ A và B cũng được chứa trong M và θ. Mặc dù biểu
thức này liên quan đến các sóng sin và cosin, nhưng nó cũng cùng biểu thức chuyển
đổi như các véc tơ đơn giản. Hình 2.2.2.3 cho thấy A và B trong toạ độ vuông góc;
M và θ là các tham số trong toạ độ cực.
Im X [k] = − x [i] sin (2
N-1
i=0
πki/N)
13
θ
MB
A
M = (A2 + B2)1/
Hình 2.2.2.3: Chuyển đổi từ tọa độ vuông góc sang toạ độ cực. Cộng một sóng
cosin và sóng sin có cùng biểu thức toán học như cộng các véc tơ đơn giản.
Trong toạ độ cực, MagX[] giữ biên độ của sóng cosin, trong khi Phase[] giữ
pha của sóng cosin. Các biểu thức sau chuyển đổi miền tần số từ toạ độ vuông góc
sang toạ độ cực và ngược lại.
MagX [k] = ( ReX [k]2 + ImX [k]2 ) ½
2
θ = arctan(B/A)
arctan PhaseX[k] =
ImX [k]
ReX [k]
ReX [k] = MagX [k] cos ( PhaseX [k] )
ImX [k] = MagX [k] sin ( PhaseX [k] )
2.2.3 Dải bộ lọc tần số mel
Dải bộ lọc (filter bank) được áp dụng để loại bỏ một số biến đổi trong dải âm
thanh. Nó là dải các bộ lọc tần số có dạng hình tam giác và được thiết kế để giữ lại
các tần số mong muốn. Một chọn lựa rõ ràng là giữ lại chỉ những tần số mà tai
người có thể nghe được.
Dải bộ lọc có dạng hình tam giác này được đặt trên trục tần số sao cho tần số
trung tâm của mỗi bộ lọc là tuyến tính theo mức mel (melody), và logaric theo mức
tần số bình thường. Hơn nữa, các cạnh phải được đặt sao cho trùng với các tần số
trung tâm của các bộ lọc lân cận. Chúng ta có thể hình tượng như sau
14
Hình 2.2.3.1: Dải bộ lọc tần số hình tam giác
Bây giờ giả sử chúng ta có dải các bộ lọc như hình 2.2.3.2, trong đó fm là tần số
trung tâm của bộ lọc thứ m; Fs là tỉ lệ lấy mẫu (sampling rate) và em là năng lượng
đầu ra của bộ lọc thứ m. Lúc này em được tính theo biểu thức sau
Hình 2.2.3.2: Dải bộ lọc hình tam giác với tần số trung tâm fm được đặt theo
logaric.
trong đó, m = 1..M (M: số bộ lọc và M << N); N là chiều dài của tín hiệu đầu vào;
X(j) là cường độ tại tần số j; hm(j) là bộ lọc thứ m, được định nghĩa
Hertz
m1 mp
H
Mels
m1 mp
H
Σem = log (hm(j) * X(j)) N
j=1
fm-1 fm+1 fm
em
Fs/2
hm(j) =
0 for fj < fm-1
for fm-1 ≤ fj ≤ fm
for fm ≤ fj ≤ fm+1
0 for fj ≥ fm+1
fj – fm-1
fm – fm-1
fj – fm+1
fm – fm+1
15
Tần số mel (m) trung tâm của các bộ lọc được tính theo biểu thức
m = 1127.01048 loge (1 + f/700)
Sau đó dựa vào mức mel, phân chia phạm vi cho từng bộ lọc
Δφ = (φmax − φmin)/(M + 1) (*)
trong đó, φmax là tần số mel cao nhất trong dải bộ lọc, được tính từ tần số f cao nhất
(fmax) sử dụng biểu thức (*) bên trên; φmin là tần số mel thấp nhất được tính từ tần số
f thấp nh