Luận văn Xác minh người qua giọng nói - Luận văn, đồ án, luan van, do an

Sinh trắc học (biometrics) được dùng trong việc nhận dạng người dựa trên các đặc điểm sinh lý học (physiological) và hành vi (behavioral). Phương pháp nhận dạng này có nhiều thuận lợi chẳng hạn như không nhất thiết phải nhớ mật mã (password) hay mang một thẻ (cards) gì đó như trong các phương pháp truyền thống. Nó có thể thay thếvà hoạt động tiện lợi hơn so với các phương pháp truyền thống.

31 trang | Chia sẻ: vietpd | Lượt xem: 2534 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Xác minh người qua giọng nói, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1 CHƯƠNG 1 - TỔNG QUAN 1.1 Tổng quan về sinh trắc học 1.1.1 Giới thiệu Sinh trắc học (biometrics) được dùng trong việc nhận dạng người dựa trên các đặc điểm sinh lý học (physiological) và hành vi (behavioral). Phương pháp nhận dạng này có nhiều thuận lợi chẳng hạn như không nhất thiết phải nhớ mật mã (password) hay mang một thẻ (cards) gì đó như trong các phương pháp truyền thống. Nó có thể thay thế và hoạt động tiện lợi hơn so với các phương pháp truyền thống. Không giống như sinh trắc học, mật mã có thể quên, thẻ có thể bị giả mạo, bị đánh cấp hay bị mất. Tuy nhiên, nhận dạng dựa trên kỹ thuật sinh trắc học thì tiện lợi hơn (với việc thay thế mật mã hoặc sử dụng sinh trắc học cùng với mật mã). Nó có khả năng ngăn ngừa các truy cập bất hợp pháp vào thẻ ATM, điện thoại di động, laptops, và mạng máy tính… giúp tăng cường khả năng bảo vệ dữ liệu. Các hệ thống sinh trắc học ngày nay đang được triển khai để tăng cường tính an toàn và giảm sự gian trá trong tài chính. Các nét sinh trắc học khác nhau cũng đã được dùng trong việc nhận dạng. Phổ biến nhất là nhận dạng qua khuôn mặt (face), tròng mắt (iris) và dấu vân tay (fingerprint). Tuy nhiên, cũng có những hệ thống nhận dạng dựa trên võng mạc mắt (retina), giọng nói (voice), chữ ký (signature) và hình dạng bàn tay (hand geometry). Các đặc điểm sinh trắc học có thể được chia thành hai lớp chính (xem hình 1.1.1). • Đặc điểm sinh lý học: Những nét liên quan đến hình dáng của cơ thể. Nét được dùng lâu nhất là dấu vân tay (fingerprint). Ngoài ra còn có những nét khác như khuôn mặt (face), hình bàn tay (hand geometry) hay tròng mắt (iris). • Đặc điểm về hành vi: Những nét liên quan đến hành vi của con người như chữ ký (signature), giọng nói (voice), v.v… 2 Sinh trắc học Sinh lý học Hành vi khuôn mặt gõ phím dấu vân tay chữ ký giọng nóibàn tay tròng mắt Hình 1.1.1: Hai lớp chính của các đặc điểm sinh trắc học. Thật ra, giọng nói (voice) cũng là một nét thuộc nhóm sinh lý học bởi vì mỗi người có một cường độ âm thanh (pitch) khác nhau. Tuy nhiên, nhận dạng giọng nói chủ yếu nghiên cứu cách một người nói, vì vậy nó thường được phân vào lớp ‘hành vi’. Thực tế có nhiều ứng dụng nhận dạng dựa trên các đặc trưng sinh trắc học khác cũng đang được nghiên cứu hiện nay như dựa trên dáng đi (gait), võng mạc mắt (retina), tai (ear), chỉ tay (palm prints). 1.1.2 Hệ thống nhận dạng tự động dựa trên sinh trắc học Hai thao tác chính mà một hệ thống nhận dạng luôn thực hiện là lưu giữ (enrollment) và kiểm tra (testing). Trong suốt quá trình lưu giữ, thông tin sinh trắc học của một cá nhân được rút trích và lưu trữ trong cơ sơ dữ liệu. Trong quá trình kiểm tra, thông tin sinh trắc học được dò tìm và được so sánh với thông tin đã lưu trữ này (xem hình 1.1.2). 3 Nơi lưu trữ mẫu Hình 1.1.2: Sơ đồ khối cơ bản của một hệ thống nhận dạng dựa trên sinh trắc học Khối đầu tiên (Thiết bị thu nhận - sensor) là giao diện giữa thế giới thật và hệ thống của chúng ta. Nó phải thu được tất cả những thông tin cần thiết. Khối thứ hai (Tiền xử lý - pre-processing) thực hiện tất cả những thao tác tiền xử lý cần thiết. Nó có nhiệm vụ làm tăng cường chất lượng của mẫu đầu vào. Khối thứ 3 (Rút trích đặc trưng - feature extractor) dùng để rút trích đặc trưng. Bước này rất quan trọng bởi vì các đặc trưng phù hợp, các đặc trưng tốt nhất, tối ưu nhất cần phải được rút trích. Một véc tơ số hay một ảnh với các thuộc tính đặc biệt được dùng tạo ra mẫu (template). Mẫu là một sự tổng hợp của tất cả các đặc trưng được rút trích từ nguồn đầu vào. Nếu bước lưu giữ đang được thực hiện thì mẫu chỉ đơn giản là được lưu trữ ở đâu đó (có thể trong thẻ hay trong cơ sở dữ liệu hay cả hai). Nếu bước so khớp (matching) đang được thực hiện, mẫu thu được sẽ được so sánh với những mẫu đã tồn tại và một giải thuật đo lường sự tương tự giữa chúng cần được xem xét. 1.2 Sơ lược về hệ thống nhận dạng tự động người qua giọng nói Nhận dạng tự động người qua giọng nói (Automatic Speaker Recognition - ASR) đã được nghiên cứu từ hơn bốn thập kỷ qua và cũng đã đạt được nhiều thành tựu đáng kể. Nó sử dụng các đặc trưng âm thanh mà được cho là khác nhau giữa các cá nhân. Về cơ bản, hệ thống nhận dạng người qua giọng nói cũng tuân thủ các bước của một hệ thống nhận dạng dựa trên sinh trắc học. Tuy nhiên, cần có những biến đổi chuyên sâu về lĩnh vực này. Chẳng hạn ở giai đoạn rút trích đặc trưng, tùy ứng dụng Tiền xử lý Rút trích đặc trưng Bộ tạo mẫu Thiết bị thu nhận Sự lưu giữ Bộ so khớp Thiết bị ứng dụng Kiểm tra Hệ thống sinh trắc học Kiểm tra 4 mà chúng ta nên xem xét những đặc trưng nào cần được rút trích sao cho phù hợp và đạt hiệu quả cao. Nếu cần thiết có thể bổ sung một số bước mới vào trong hệ thống. 1.2.1 Hai loại ứng dụng của lĩnh vực nhận dạng người qua giọng nói Nói chung, lời nói (speech) chứa một lượng lớn thông tin, bao gồm giới tính, cảm nghĩ, một thông điệp, một sự nhận dạng, và sức khoẻ vật lý. Con người dễ dàng nghe được các thông tin này một cách độc lập. Một người phụ nữ lớn tuổi sẽ có âm thanh giống “người phụ nữ lớn tuổi”, và một người đàn ông mệt mỏi sẽ có âm thanh giống “người đàn ông mệt mỏi”, mặc dù họ phát ra cùng một thông điệp. Từ những điều này, lần lượt ra đời các ứng dụng thuộc về lĩnh vực nhận dạng tự động người qua giọng nói. Thật ra, có hai loại ứng dụng chính cho lĩnh vực này. Nếu người nói có nhu cầu xác minh thì đây gọi là ứng dụng xác minh người bằng giọng nói (automatic speaker verfication - ASV). Tuy nhiên, ứng dụng định danh người bằng giọng nói (automatic speaker identification - ASI) là công việc quyết định xem người đang nói là ai. Xác minh người qua giọng nói là một sự so khớp 1: 1, trong đó giọng của một người nói được so khớp với một mẫu có sẵn và câu trả lời là ‘true’ hay ‘false’. Tuy nhiên, định danh người qua giọng nói là một sự so khớp 1:n, trong đó giọng của người nói trước hệ thống được so khớp với n mẫu có sẵn và câu trả lời là mẫu khớp nhất. Có một sự khác nhau rất lớn trong độ phức tạp tính toán giữa hai loại trên. Trong hệ thống xác minh người qua giọng nói, không đòi hỏi kiểm tra các mô hình người nói khác ngoài mô hình người nói đầu vào (mô hình người nói quan tâm). Tuy nhiên trong các ứng dụng thực tế, chỉ đơn giản xem xét một mô hình sẽ không có đủ nhận xét đúng đắn để đưa ra quyết định tốt. Mặc khác, hệ thống không thể phân lớp đoạn âm thanh đầu vào nếu như không có lớp nào được định nghĩa. Việc định nghĩa các lớp có thể được thiết lập bởi việc tổng hợp các tính toán trước từ các mô hình (có hoặc không có mô hình người nói đầu vào) hoặc kiểm tra lại với các mô hình khác (còn gọi là mô hình giả danh hay impostor). Về hệ thống định danh người qua giọng nói, nó đòi hỏi phải có giải thuật kiểm tra các mô hình để tìm ra 5 một mô hình phù hợp nhất (khớp nhất). Điều này thường được thực hiện bởi việc cho điểm (scoring). Ví dụ, so khớp đoạn âm thanh đầu vào với tất cả các mô hình người nói có sẵn và cho ra một điểm tuyệt đối cho từng mô hình. Đầu ra có thể là mô hình có điểm cao nhất. Chẳng hạn một ứng dụng của xác minh người qua giọng nói kiểm tra bạn có thật sự là chị A không khi bạn vào ngân hàng và lấy một số tiền từ tài khoản của chị A. Ngược lại, ứng dụng định danh người qua giọng nói sẽ xem xét giọng của một tội phạm nào đó và tìm lại trong các giọng tội phạm đã có sẵn để làm một sự nhận dạng. 1.2.2 Tính đa dạng của hệ thống nhận dạng người qua giọng nói. Theo chúng ta đã biết, mỗi hệ thống nhận dạng người qua giọng nói đều có hai giai đoạn: lưu giữ và kiểm tra. Trong suốt giai đoạn lưu giữ, giọng người nói được thu nhận và các đặc trưng được rút trích, sau đó sinh ra các mẫu hoặc mô hình. Trong giai đoạn kiểm tra, giọng người nói được so khớp với các mẫu hay các mô hình có sẵn này. Hơn nữa, các hệ thống nhận dạng thường được cài đặt theo hai thể thức: phụ thuộc văn bản (text-dependent) hoặc độc lập văn bản (text-independent). Điều này liên quan tới đoạn văn được đọc dùng trong giai đoạn lưu giữ và kiểm tra. Hệ thống độc lập văn bản đòi hỏi đoạn văn được nói khi sử dụng hệ thống (trong giai đoạn kiểm tra) phải giống với đoạn văn được dùng trong lúc huấn luyện (trong giai đoạn lưu giữ) hoặc phải là một sự kết hợp của đoạn văn được dùng trong lúc huấn luyện. Trường hợp đoạn văn này cố định (có nghĩa là chỉ dùng một đoạn duy nhất trong lúc sử dụng hệ thống) sẽ làm cho hệ thống dễ bị tấn công từ những người giả danh. Để tránh điều này, hệ thống huấn luyện sẵn vài câu và khi người dùng tiến hành kiểm tra, nó lấy ra một câu ngẫu nhiên từ những câu đã có sẵn. Tuy nhiên, trường hợp này cũng không bảo đảm mức độ an toàn cao do nó có thể bị phát hiện nếu kẻ giả danh kiên nhẫn một vài lần. Như vậy, cần có một giải pháp tinh vi hơn và cuối cùng một giải pháp khác đã ra đời đó là cài đặt hệ thống chỉ sử dụng các con số. Trong trường hợp này, giai đoạn lưu giữ chỉ yêu cầu người nói đọc một chuỗi số mà tất cả các con số có số lần xuất hiện như nhau. Đối với mỗi số, mô hình người nói được huấn luyện. Như vậy chỉ cần huấn luyện 10 mô hình là đủ. Sau đó 6 trong giai đoạn kiểm tra, một chuỗi số ngẫu nhiên được chọn và các mô hình số tương ứng được nối kết thành mô hình của riêng người nói đó. Vì vậy, người nói không thay đổi ngôn ngữ thường xuyên. Các hệ thống như thế có thể được tạo độc lập ngôn ngữ một cách dễ dàng. Hệ thống độc lập văn bản thường được dùng cho việc định danh người qua giọng nói do chúng đòi hỏi rất ít sự hợp tác của người dùng. Trong trường hợp này, văn bản của giai đoạn lưu giữ and kiểm tra có thể khác nhau. Thật ra, giai đoạn lưu giữ có thể xảy ra mà không cần tri thức người dùng. Một vài lời nói được thu nhận có thể đã đủ. Vì vậy, các hệ thống độc lập văn bản không có tri thức của đoạn văn bản đang được nói, chỉ các thuộc tính đặc biệt và tổng quát của giọng người nói là được sử dụng. Điều này giới hạn tính chính xác của việc nhận dạng. Tuy nhiên, nó hoàn toàn độc lập ngôn ngữ. 7 CHƯƠNG 2 - PHƯƠNG PHÁP XÁC MINH NGƯỜI NÓI 2.1 Dẫn nhập Lấy mẫu Rút trích đặc trưng Đánh nhãn speech hoặc non-speech Dò tìm năng lượng Chuẩn hoá đặc trưng Huấn luyện mô hình nền Lời nói được số hoá MFCC Các véc tơ đặc trưng Các đặc trưng đã được chuẩn hoá Kiểm tra Chuẩn hoá điểm Quyết định Các đặc trưng của mẫu đầu vào cần xác minh Các Gaussian Mixture Models True/False? Các điểm của các mô hình tương ứng Log Likelihood Ratio (LLR) T-norm Ngưỡng θ Huấn luyện mô hình người nói/người giả danh Dùng giải thuật EM Dùng giải thuật EM Lời nói Hình 2.1: Các bước thực hiện của một hệ thống xác minh người qua giọng nói Chương này tóm tắt ngắn gọn các bước thực hiện của một hệ thống xác minh tự động người qua giọng nói theo hướng độc lập văn bản. Một vài bước gần như là giống nhau cho tất cả các hệ thống. Tuy nhiên, chương trình bày nghiêng theo các giải thuật được cài đặt trong phần mềm mở Alize và Lia-ral. Hình 2.1 bên trên sẽ cho thấy các bước thực hiện của hệ thống. 2.2 Rút trích đặc trưng Có nhiều đặc trưng có thể được rút trích từ một tín hiệu đầu vào. Tuy nhiên, chúng tôi chỉ trình bày cách rút trích các hệ số MFCCs - Mel-Frequency Cepstral Coefficients [16]. Hình 2.2 bên dưới cho thấy các bước tiến hành rút trích các hệ số này. 8 Hình 2.2: Các bước xử lý tín hiệu đầu vào để cho ra các hệ số MFCCs tại đầu ra. Tín hiệu đầu vào sau khi được phân thành từng đoạn thì tất cả các đoạn được nhân với hàm cửa sổ để giảm tối đa tính không liên tục tại các cạnh của đoạn. Sau đó dùng biến đổi Fourier để chuyển mỗi đoạn từ miền thời gian sang miền tần số. Cường độ (magnitude) được tính toán bằng cách bình phương biên độ (amplitude) tại mỗi tần số. Các hệ số này được chuyển đổi tới mức mel sau khi qua dải bộ lọc (filterbank). Năng lượng đầu ra từ mỗi bộ lọc của từng đoạn được lấy log và được biến đổi thành các hệ số MFCCs qua biến đổi cosin rời rạc (Discrete Cosine Transform-DCT). 2.2.1 Phân đoạn, pre-emphasis và hàm cửa sổ Pre-emphasis: Thường dùng để lọc tín hiệu bằng bộ lọc tần số cao (high- pass). H(z) = 1−kz-1, với k ∈ [0, 1]. Tuy nhiên, giá trị k thường dùng là 0.97. Giai đoạn này được thực hiện nhằm tăng cường các tần số cao của dải âm thanh (spectrum). Bộ lọc này không luôn luôn được áp dụng nhưng có thể lấy lại các tần số cao đã bị mất trong quá trình thu nhận tín hiệu. Phân đoạn và hàm cửa sổ: Lời nói là một tín hiệu không ổn định. Vì vậy, việc phân tích lời nói dùng FFT hay LPC phải được thực hiện trên các đoạn ngắn mà qua các đoạn này tín hiệu lời nói được xem là ổn định. Đây là lý do vì sao chúng ta cần chia tín hiệu đầu vào thành những đoạn con. Phân đoạn Pre- emphasis Dải bộ lọc tần số Mel Biến đổi Fourier rời rạc - DFT Hàm cửa sổ Hamming Lấy Log Biến đổi Cosin rời rạc Lấy đạo hàm 25 ms frame Tín hiệu lời nói 16 KHz, 16 bits Dải âm thanh theo tần số Mel Dải âm thanh (Bình phương biên độ) Các hệ số MFCCs 9 Rút trích đặc trưng (feature extraction) thường được thực hiện trên các cửa sổ từ 20 tới 30 ms. Để tránh mất mát thông tin do việc chia nhỏ, các đoạn gần kề thường được chồng lên nhau khoảng 30 tới 50% (khoảng 10 đến 15ms). Nguyên lý này được minh họa trong hình 2.2.1: Hình 2.2.1: Minh hoạ việc chia nhỏ tín hiệu đầu vào. Sau khi tín hiệu được chia nhỏ, mỗi đoạn được nhân với một trong các hàm cửa sổ wi sau: Hamming wi = 0.54 − 0.46 cos(iπ2/N) Hanning wi = (1 − cos(iπ2/N))/2 Blackman wi = 0.42 − 0.5 cos(iπ2/N) + 0.08cos(2iπ2/N) trong đó: N là số mẫu (samples) trong cửa sổ và i ∈ 2 [0, N − 1]. Mục đích của việc sử dụng hàm cửa sổ là để làm mượt các cạnh của mỗi đoạn, để giảm tính không liên tục hay các thay đổi bất ngờ tại các điểm cuối của đoạn. Các mẫu trong vùng cửa sổ có giá trị khác 0 và các mẫu tại những điểm cuối của cửa sổ là 0. 2.2.2 Biến đổi Fourier rời rạc Như được miêu tả trong hình 2.2.2.1, biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) là phân rã tín hiệu đầu vào có N điểm thành hai tín hiệu đầu ra, mỗi tín hiệu có N/2 +1 điểm. Tín hiệu đầu ra sẽ chứa các biên độ (amplitudes) của các sóng hình sin và cosin (chi tiết trong [20]). 20-30ms 10-15ms 10 Hình 2.2.2.1: Trong miền thời gian, x[] chứa N điểm chạy từ 0 tới N-1. Trong miền tần số, x[] được chia thành hai tín hiệu con có chiều dài là N/2+1 điểm và chạy từ 0 tới N/2. Biến đổi Fourier là chuyển từ miền thời gian tới miền tần số, trong khi biến đổi Fourier ngược (Inverse Discrete Fourier Transform) là từ miền tần số trở về miền thời gian. Miền tần số chứa cùng thông tin với miền thời gian, chỉ ở một hình thức khác. Nếu chúng ta biết một miền, chúng ta có thể tính toán tới miền còn lại. Hình 2.2.2.2 minh hoạ cách một tín hiệu được phân rã thành các sóng hình sin và cosin. Hình (a) cho thấy một tín hiệu ví dụ có chiều dài 16 điểm, chạy từ 0 tới 15. Hình (b) cho thấy việc phân rã Fourier của tín hiệu này thành 9 sóng hình cosin và 9 sóng hình sin. Mỗi một sóng có tần số và biên độ riêng của nó. Mười tám sóng này nếu tổng hợp lại sẽ cho ra sóng ban đầu, ở hình (a). Không có sự khác nhau giữa tín hiệu trong (a) và tổng của những tín hiệu trong (b), giống như không có sự khác nhau giữa 7 và 3+4. … x[ ] N điểm Miền thời gian … … ReX[] ImX[] N/2 + 1 điểm (biên độ sóng cosin) N/2 + 1 điểm (biên độ sóng sin) Miền tần số DFT IDFT0 -1 0 /2 0 N N N/2 PHÂN RÃ Biên độ TỔNG HỢP Số mẫu 11 Các sóng Cosin (a) Các sóng Sin (b) Hình 2.2.2.2: Một ví dụ cho việc phân rã Fourier. Một tín hiệu 16 điểm (a) được phân thành 9 sóng cosin và 9 sóng sin (b) [20]. 12 Biểu thức toán học để tín toán miền tần số từ miền thời gian như sau: ΣReX [k] = x [i] cos (2N-1 i=0 πki/N) Σ trong đó, x[i] là tín hiệu miền thời gian; ReX[k] và ImX[k] là hai tín hiệu miền tần số; i chạy từ 0 tới N-1, trong khi k chạy từ 0 tới N/2. Hay nói cách khác, mỗi mẫu trong miền tần số được tính toán bằng cách nhân tín hiệu miền thời gian với các sóng hình sin hoặc cosin, và cộng các điểm kết quả. Như được mô tả ở trên, miền tần số là một nhóm các biên độ của các sóng hình cosin và sin. Điều này được biết như là ký hiệu vuông góc. Ngoài ra, miền tần số còn có thể được biểu diễn dưới toạ độ cực. Trong ký hiệu này, ReX[] và ImX[] được thay thế bằng hai mảng khác: MagX[] được gọi là cường độ (magnitude) của X[] và PhaseX[], được gọi là pha (Phase) của X[]. Ví dụ, MagX[0] và PhaseX[0] được tính toán sử dụng chỉ ReX[0] và ImX[0]. Hoặc MagX[14] và PhaseX[14] được tính toán sử dụng chỉ ReX[14] và ImX[14], và … Để hiểu về phép chuyển đổi này, chúng ta hãy xem xét những gì sẽ xảy ra khi chúng ta cộng một sóng cosin và một sóng sin có cùng tần số. Kết quả là một sóng cosin có cùng tần số nhưng với một biên độ mới và một pha mới như biểu thức sau: A cos (x) + B sin (x) = M cos (x + θ) Điểm quan trọng là không có thông tin bị mất trong quá trình này. Nếu cho trước một đại diện, chúng ta có thể tính toán cái còn lại. Hay nói cách khác, thông tin được chứa trong các biên độ A và B cũng được chứa trong M và θ. Mặc dù biểu thức này liên quan đến các sóng sin và cosin, nhưng nó cũng cùng biểu thức chuyển đổi như các véc tơ đơn giản. Hình 2.2.2.3 cho thấy A và B trong toạ độ vuông góc; M và θ là các tham số trong toạ độ cực. Im X [k] = − x [i] sin (2 N-1 i=0 πki/N) 13 θ MB A M = (A2 + B2)1/ Hình 2.2.2.3: Chuyển đổi từ tọa độ vuông góc sang toạ độ cực. Cộng một sóng cosin và sóng sin có cùng biểu thức toán học như cộng các véc tơ đơn giản. Trong toạ độ cực, MagX[] giữ biên độ của sóng cosin, trong khi Phase[] giữ pha của sóng cosin. Các biểu thức sau chuyển đổi miền tần số từ toạ độ vuông góc sang toạ độ cực và ngược lại. MagX [k] = ( ReX [k]2 + ImX [k]2 ) ½ 2 θ = arctan(B/A) arctan PhaseX[k] = ImX [k] ReX [k] ReX [k] = MagX [k] cos ( PhaseX [k] ) ImX [k] = MagX [k] sin ( PhaseX [k] ) 2.2.3 Dải bộ lọc tần số mel Dải bộ lọc (filter bank) được áp dụng để loại bỏ một số biến đổi trong dải âm thanh. Nó là dải các bộ lọc tần số có dạng hình tam giác và được thiết kế để giữ lại các tần số mong muốn. Một chọn lựa rõ ràng là giữ lại chỉ những tần số mà tai người có thể nghe được. Dải bộ lọc có dạng hình tam giác này được đặt trên trục tần số sao cho tần số trung tâm của mỗi bộ lọc là tuyến tính theo mức mel (melody), và logaric theo mức tần số bình thường. Hơn nữa, các cạnh phải được đặt sao cho trùng với các tần số trung tâm của các bộ lọc lân cận. Chúng ta có thể hình tượng như sau 14 Hình 2.2.3.1: Dải bộ lọc tần số hình tam giác Bây giờ giả sử chúng ta có dải các bộ lọc như hình 2.2.3.2, trong đó fm là tần số trung tâm của bộ lọc thứ m; Fs là tỉ lệ lấy mẫu (sampling rate) và em là năng lượng đầu ra của bộ lọc thứ m. Lúc này em được tính theo biểu thức sau Hình 2.2.3.2: Dải bộ lọc hình tam giác với tần số trung tâm fm được đặt theo logaric. trong đó, m = 1..M (M: số bộ lọc và M << N); N là chiều dài của tín hiệu đầu vào; X(j) là cường độ tại tần số j; hm(j) là bộ lọc thứ m, được định nghĩa Hertz m1 mp H Mels m1 mp H Σem = log (hm(j) * X(j)) N j=1 fm-1 fm+1 fm em Fs/2 hm(j) = 0 for fj < fm-1 for fm-1 ≤ fj ≤ fm for fm ≤ fj ≤ fm+1 0 for fj ≥ fm+1 fj – fm-1 fm – fm-1 fj – fm+1 fm – fm+1 15 Tần số mel (m) trung tâm của các bộ lọc được tính theo biểu thức m = 1127.01048 loge (1 + f/700) Sau đó dựa vào mức mel, phân chia phạm vi cho từng bộ lọc Δφ = (φmax − φmin)/(M + 1) (*) trong đó, φmax là tần số mel cao nhất trong dải bộ lọc, được tính từ tần số f cao nhất (fmax) sử dụng biểu thức (*) bên trên; φmin là tần số mel thấp nhất được tính từ tần số f thấp nh

Các file đính kèm theo tài liệu này:

10.pdf
0.pdf
1.pdf
2.pdf
3.pdf
4.pdf
5.pdf
6.pdf
7.pdf
8.pdf
9.pdf
11.pdf
12.pdf
13.pdf
14.pdf
15.pdf
16.pdf