Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ

Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp dụng cho dịch máy thống kê.

pdf24 trang | Chia sẻ: vietpd | Lượt xem: 1637 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5 CHƢƠNG 2 : TỔNG QUAN Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp dụng cho dịch máy thống kê. 2.1 Dịch máy thống kê (Statistical Machine Translation - SMT) Bài toán cơ bản mà dịch máy cần giải quyết là: cho một câu f ở ngôn ngữ F, phát sinh chuỗi e ở ngôn ngữ E sao cho khả năng f là bản dịch của e là cao nhất. Trong ngữ cảnh của dịch máy thống kê thì bài toán được hiểu theo cách: tìm câu e sao cho hàm xác xuất P(e|f) là cực đại [3]: * arg max ( | )ee P e f . Theo định lý Bayes thì : ( | )* ( ) ( | ) (1) ( ) P f e P e P e f P f  Trong (1) vì P(f) không đổi đối với mỗi câu f nên: * argmax ( | ) argmax ( | )* ( ) (2)e ee P e f P f e P e  Để tính được các xác suất ( | )P f e và ( )P e cần 2 thông tin sau:  Mô hình ngôn ngữ ( ( )P e ): mô hình sẽ gán xác suất cao hơn cho những câu e đúng ngữ pháp hơn. Xác suất này được ước lượng bằng cách sử dụng ngữ liệu đơn ngữ.  Mô hình dịch ( ( | )P f e ): câu dịch f thích hợp hơn sẽ có xác suất cao hơn. Xác suất này được ước lượng bằng cách sử dụng ngữ liệu song ngữ. Tùy vào đơn vị được tính xác suất trong mô hình dịch mà SMT sẽ có ba hướng tiếp cận chính: dựa trên từ (word-based), dựa trên ngữ (phrase-based) và dựa trên cú pháp (syntax-based). 2.1.1 Dịch máy thống kê dựa trên từ (Word-based SMT) Như đã trình bày ở trên, trong hướng dịch máy thống kê dựa trên từ, mô hình dịch ( | )P f e sẽ được tính dựa vào xác suất dịch của từ hay còn gọi là gióng hàng từ dựa 6 vào ngữ liệu song ngữ. Tới đây, ta thấy xuất hiện vấn đề con gà – quả trứng, nếu chúng ta có sẵn các gióng hàng từ thì dễ dàng ước lượng xác suất, và nếu có xác suất trước thì dễ dàng xác định gióng hàng từ. Vậy làm sao để giải quyết vấn đề này? [9] Câu trả lời là dùng mô hình huấn luyện EM (Expectation Maximization). Cụ thể như sau: - Với một cặp câu được xem là bản dịch của nhau, ta giả định một từ ở câu nguồn có khả năng gióng hàng đến tất cả các từ ở câu đích. - Mô hình sẽ học để chọn ra cặp từ nào thường gióng hàng với nhau nhất. - Sau một số lần lặp, xác suất này sẽ hội tụ và không thay đổi nhiều, khi đó ta được cả hai thông tin là thông tin về gióng hàng từ và xác suất của nó. Lấy ví dụ cho cặp ngôn ngữ Anh-Việt, ban đầu trong ngữ liệu song ngữ có các cặp sau: ... my computer ... ... máy_tính của tôi ... this computer máy_tính này ... my book ... ... quyển sách của tôi ... Sau vòng lặp đầu tiên liên kết từ “my” và “của tôi” được xác định: ... my computer ... ... máy_tính của tôi ... this computer máy_tính này ... my book ... ... quyển sách của tôi ... Sau vòng lặp kế tiếp: liên kết từ “computer” và “máy tính” ... my computer ... ... máy_tính của tôi ... this computer máy_tính này ... my book ... ... quyển sách của tôi ... Thêm một vòng lặp nữa, liên kết từ “this” và “này”, “book” và “quyển sách” dựa trên nguyên tắc “Chim bồ câu” (Pigeon hole principle). Cuối cùng ta có kết quả gióng hàng từ như sau: 7 ... my computer ... ... máy_tính của tôi ... this computer máy_tính này ... my book ... ... quyển sách của tôi ... Theo hướng dịch dựa trên từ, mô hình dịch ( | )P f e sẽ được phân rã dựa trên gióng hang từ a theo công thức (3): ( | ) ( , | ) ( | )* ( | , ) (3) a a P f e P a f e P a e P f a e   Để lượng giá các thành phần trong công thức (3) [1] cung cấp năm mô hình khác nhau có tên gọi lần lượt là mô hình IBM 1, IBM 2, IBM 3, IBM 4 và IBM 5. Tóm tắt đặc điểm của các mô hình này như sau:  IBM 1: tính xác suất gióng hàng chỉ dựa trên xác suất dịch từ (lexical translation)  IBM 2: thêm mô hình chuyển đổi trật tự từ cố định (absolute reordering model)  IBM 3: thêm tham số f (f: là lấy từ fertility model)  IBM 4: mô hình chuyển đổi trật tự quan hệ (relative reordering model)  IBM 5: loại bỏ một số khuyết điểm của mô hình 3 và mô hình 4 [1] trong các mô hình trên thì mô hình IBM 3 đòi hỏi phải tính toán nhiều nhất và tốn nhiều chi phí nhất. 2.1.2 Dịch máy thống kê dựa trên ngữ (Phrase-based SMT) Theo hướng tiếp cận dựa trên ngữ [10], f sẽ được tách thành một chuỗi gồm I ngữ 1 If với giả định là có một phân phối xác suất chuẩn giữa các ngữ này. Mỗi ngữ if trong chuỗi 1 If sẽ được dịch thành một ngữ ie tương ứng; việc dịch ngữ này được thực hiện dựa vào phân phối xác suất ( | )i if e . Ngoài ra các ie sẽ được chuyển đổi trật tự dựa trên mô hình chuyển đổi 1( )i id a b  , với ia là vị trí bắt đầu của ngữ if và 1ib  là vị trí kết thúc của ngữ 1ie  . 8 Tóm lại, câu dịch e tốt nhất là câu dịch thỏa công thức (2) ở trên nhưng mô hình dịch ( | )P f e được phân rã thành: 1 1 1 1 ( | ) ( | ) ( ) I I I i i i i i P f e f e d a b     Có nhiều mô hình khác nhau được áp dụng để tính xác suất dịch ngữ hay còn gọi là xác suất gióng hàng ngữ ( | )i if e . [10] đã thực nghiệm trên ba phương pháp sau: i) Việc tách ngữ và tính xác suất gióng hàng ngữ dựa vào kết quả gióng hàng từ của công cụ GIZA++. Theo hướng tiếp cận này, ngữ là một chuỗi các từ được gom nhóm dựa vào tính nhất quán của gióng hàng từ chứ không phải là một ngữ tuân theo định nghĩa trong ngữ pháp. Để tối ưu hóa giai đoạn này tác giả còn dùng thêm một số heuristic. ii) Tách ngữ dựa vào đặc điểm cú pháp theo các bước sau: o Gióng hàng từ ngữ liệu song ngữ. o Phân tích cú pháp câu ngôn ngữ nguồn và câu ngôn ngữ đích o Chỉ rút ra các ngữ là cây con của cây cú pháp và có các từ được gióng hàng với nhau ở cả hai ngôn ngữ. iii) Dùng mô hình kết hợp do [13] đề xuất. Qua thực nghiệm tác giả kết luận rằng mô hình dựa trên gióng hàng từ (i) cho kết quả tốt nhất so với các mô hình còn lại. Xét cặp câu Anh-Việt: List the five most common types of computer systems Liệt kê năm kiểu hệ thống máy tính thông dụng nhất Gióng hàng từ ban đầu của cặp câu trên như sau: Mô hình dịch dựa trên ngữ với cách dùng gióng hàng từ để tách ngữ được áp dụng như sau: 9  Bắt đầu từ ma trận gióng hàng từ:  Phát sinh các cặp ngữ nhất quán có dạng như hình (a): (a) (b) Những cặp có dạng như hình (b) được gọi là không nhất quán.  Với cặp câu ví dụ trên, có thể có các trường hợp sau: (list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), (computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), (computer systems, hệ thống máy tính), 10 (list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), (computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), (computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu) (list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), (computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), (computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu), (list the five, liệt kê năm), (types of computer systems, kiểu hệ thống máy tính) 11 (list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), (computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), (computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu), (list the five, liệt kê năm), (types of computer systems, kiểu hệ thống máy tính), (most common types of computer systems, kiểu hệ thống máy tính thông dụng nhất), (the five most common types of computer systems, năm kiểu hệ thống máy tính thông dụng nhất), Sau khi phát sinh các cặp ngữ, tính ( | )i if e của từng cặp ta sẽ có được bảng ngữ (phrase-table) lưu trữ các cặp ngữ có thể có và xác suất của nó. 2.1.3 Dịch máy thống kê dựa trên cú pháp (Syntax-based SMT) Trong các hướng tiếp cận trên, việc lựa chọn câu dịch đa số dựa vào các con số thống kê mà rất ít sử dụng các tri thức về ngôn ngữ. Dịch thông kê dựa trên cú pháp là một hướng tiếp cận cố gắng dung hòa giữa kết quả thống kê và một số qui định, ràng buộc trong ngữ pháp. [9] Một số điểm thuận lợi trong hướng tiếp cận này: - Chuyển đổi trật tự từ/ngữ dựa trên cây cú pháp - Dịch các từ chức năng (function words) tốt hơn, ví dụ như giới từ (preposition), từ hạn định (determiner), … - Dịch các từ có quan hệ cú pháp tốt hơn, ví dụ: việc dịch động từ có thể phụ thuộc vào chủ từ hoặc tân từ. - Tận dụng các mô hình ngôn ngữ cú pháp (syntactic language models) Câu dịch tốt là câu dịch có cây cú pháp “đúng” dựa vào mô hình ngôn ngữ cú pháp, ngoài ra mô hình này còn cho phép chúng ta kiểm tra một số ràng buộc của các từ cách xa nhau trong câu. Ví dụ, xét hai cây cú pháp sau: 12 Bằng cách sử dụng mô hình ngôn ngữ cú pháp, cây cú pháp bên trái sẽ được chọn lựa thay vì chọn cây cú pháp ở bên phải. Nguyên nhân là do “VP is the man” là cây cú pháp không tồn tại trong mô hình cú pháp. Có nhiều mô hình khác nhau cho hướng dịch máy thông kê dựa trên cú pháp, có thể nêu một số trường hợp tiêu biểu sau: - Dịch từ câu sang cây cú pháp (string to tree ) - Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) - Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer) - Dịch dựa trên mệnh đề (clause level restructuring) - … Trong giới hạn của phần này, luận văn chọn hướng tiếp cận dịch từ câu sang cây cú pháp [23] – có mô hình khá giống với mô hình chung của dịch máy thống kê để trình bày. Hình 2.1 minh họa các bước thực hiện trong dịch máy thống kê Anh-Việt dựa trên cú pháp.  Bước 1: thực hiện chuyển đổi trật tự từ trên cây cú pháp tiếng Anh. Sau bước chuyển đổi này, kết quả nhận được là cây cú pháp tiếng Anh có trật tự các nút lá gần với trật tự từ trong câu tiếng Việt nhất.  Bước 2: thực hiện chèn một số nút vào cây cú pháp. Các nút được chèn là các nút tiếng Việt, vì vậy thao tác chèn giúp cho câu dịch tiếng Việt được trôi chảy và tự nhiên hơn.  Bước 3: Dịch các nút là từ tiếng Anh sang tiếng Việt, riêng các từ vừa được chèn vào thì giữ nguyên. 13 Hình 2.1 Minh họa các bước thực hiện trong dịch máy thống kê dựa trên cú pháp Bước cuối cùng là đọc các nút lá từ cây cú pháp, ta có được câu dịch tiếng Việt “Mẹ của tôi đang xem một bộ phim rất thú vị”. Như vậy có ba thao tác cơ bản trong hướng tiếp cận này: chuyển đổi trật tự (Reordering), chèn (Insertion) và dịch (Translation). Tổng quát hóa mô hình dịch như sau: Câu f ở ngôn ngữ F sẽ gồm 1 2, ......, nf f f từ, cây cú pháp  ở ngôn ngữ E có 1 2, ,....., n   nút. Qui ước: N: phép chèn, R: phép chuyển đổi trật tự, T: dịch , ,    là tập các giá trị , ,i i i i    là giá trị cho i tương ứng Mô hình dịch được phân rã như sau: 1 2 1 2( | ) ( , ,...., | , ,...., )n nP f P       14 ( | ) ( , , | ) ( | ) ( | ) ( | ) ( | ( )) ( | ( )) ( | ( )) ( | ( )) ( | ( )) ( | ( )) i i i i i i i i i i i i i i i i i i i i i i i i P P P P P P P P n r t                                   Trong đó:  ,  và  là các đặc trưng có liên quan đến N, R và T. Ví dụ như:  có thể là nhãn nút cha hoặc nhãn nút con,  có thể là chuỗi cú pháp của các nút con. Các tham số n, r, t chính là xác suất ( | )P   , ( | )P   , ( | )P   . Tóm lại : ( ( )) : ( ( )) 1 ( | ) ( | ) ( | ( )) ( | ( )) ( | ( )) Str f n i i i i i i Str f i P f P n r t                           Muốn tính được các thành phần n, r, t trong công thức trên ta cần học từ ngữ liệu song ngữ và tạo ra các bảng xác suất tương ứng. Các bảng trong hình 2.2 minh họa cho trường hợp ví dụ ở trên. English my mother interesting … Vietnamese của tôi 1.000 mẹ 0.92 mẹ đẻ 0.18 thú vị 0.333 quan tâm 0.333 thích thú 0.333 t-table Hình 2.2 Các bảng kết quả sau khi huấn luyện SMT theo hướng tiếp cận dựa trên cú pháp Nhìn chung ý tưởng của dịch thống kê dựa trên cú pháp là tốt và về mặt lý thuyết nó phải cho hiệu quả dịch cao hơn hai cách tiếp cận còn lại. [9] Tuy nhiên, cho tới nay dịch máy thống kê dựa trên ngữ vẫn cho kết quả cao nhất, nguyên nhân là do, dịch dựa trên cú pháp phải dùng đến các công cụ phân tích cú pháp, mà bản thân các Orignal Order Reordering P(reorder) PRP$ NN PRP$ NN 0.251 NN PRP$ 0.749 DT ADJP NN DT ADJP NN 0.074 DT NN ADJP 0.723 ADJP DT NN 0.061 ADJP NN DT 0.037 NN DT ADJP 0.083 NN ADJP DT 0.021 r-table Parent VP NP … Node VBG NN … P(none) 0.004 0.687 … P(left) 0.735 0.061 … P(right) 0.260 0.252 … n-table w P(ins-w) đang 0.219 cái 0.131 bộ 0.078 mà 0.099 … … à 0.007 15 công cụ này không thể đạt độ chính xác 100%. Ngoài ra, việc tạo ngữ liệu học có chứa thông tin cú pháp thì rất phức tạp và tốn nhiều công sức, thêm vào đó quá trình huấn luyện và dịch dựa trên cây cú pháp lại chậm và rất khó kiểm soát. Và nguyên nhân cuối cùng là có rất ít nhà nghiên cứu vừa nắm vững về mô hình xác suất, đồng thời hiểu rõ về lý thuyết ngôn ngữ học. 2.2 Các hƣớng tiếp cận trong chuyển đổi trật tự từ Hiệu quả của mô hình dịch máy thống kê hiện nay chưa cao do chỉ dựa hoàn toàn vào xác suất mà không quan tâm đến đặc điểm về mặt ngôn ngữ học cũng như nhưng điểm tương đồng và dị biệt của cặp ngôn ngữ dịch. Trong đó, sự khác nhau về trật tự từ giữa hai ngôn ngữ ảnh hưởng rất lớn đến chất lượng dịch máy. Mục đích của việc chuyển đổi trật tự từ là làm cho trật từ từ của câu ngôn ngữ nguồn càng gần với trật tự từ của câu ngôn ngữ đích càng tốt. Việc chuyển đổi này sẽ giúp làm giảm các gióng hàng chéo, hay nói cách khác là làm phẳng các gióng hàng giữa 2 câu nguồn và đích (xem hình 2.3). Trước khi chuyển đổi trật tự từ chúng ta thấy hầu hết các gióng hàng đều bị chéo. Sau khi chuyển đổi, tất cả các gióng hàng chéo đều được “làm phẳng” (flatten). Đối với dịch máy SMT, càng ít gióng hàng chéo hệ dịch càng cho kết quả tốt, vì lúc này bộ giải mã của SMT có thể dịch các từ / ngữ tương ứng từ ngôn ngữ nguồn sang ngôn ngữ địch mà không cần phải quan tâm đến vấn đề trật tự từ. Đây là lí do mà chuyển đổi trật tự từ trong SMT đang trở thành một trong những bài toán rất được quan tâm hiện nay. the computermost commonly used nhấtphổ biếnđược sử dụngcái máy tính a. Trước khi chuyển đổi the mostcomputer used commonly nhấtphổ biếnđược sử dụ gcái máy tí h b. Sau khi chuyển đổi Hình 2.3 Gióng hàng từ trước và sau khi chuyển đổi trật tự từ câu tiếng Anh. Sau khi chuyển đổi các gióng hàng từ chéo giảm đáng kể Có hai hướng tiếp cận chính trong bài toán chuyển đổi trật tự từ trong SMT: 16  Chuyển đổi trật tự từ của câu ngôn ngữ đích, hay còn gọi là hậu xử lý (post- editing) cho SMT.  Chuyển đổi trật tự từ của câu ngôn ngữ nguồn hay còn gọi là tiền xử lý (pre- processing) cho SMT. 2.2.1 Chuyển đổi trật tự câu ngôn ngữ đích Gần đây [11] đã sử dụng hướng tiếp cận này bằng cách dùng mô hình học FST có trọng số (weighted finite state transducers) để chuyển đổi các ngữ. Các tác giả đã sử dụng 2 mô hình WFST khác nhau, mô hình đơn giản nhất cho phép hoán đổi các ngữ ở gần kề nhau, mô hình thứ 2 cho phép hoán đổi các ngữ trong vùng cửa sổ 3 ngữ liền kề nhau. Giai đoạn chuyển đổi ngữ (xem hình 2.4) sẽ nhận vào một ngữ tiếng Pháp theo trật tự từ tiếng Anh (hệ dịch Anh-Pháp) 1 2, ,..., Kx x x , sau đó thực hiện chuyển đổi theo trật tự từ của tiếng Pháp 1 2, ,..., Ky y y . Lưu ý là trật tự các từ trong một ngữ không thay đổi. Hình 2.4 Chuyển đổi ngữ trong hệ dịch Anh-Pháp Một giả định về điều kiện độc lập đã được sử dụng: 1 1 1 1 1 1 1( | , , , ) ( | , ) K K K I K K KP y x u K e P y x u Cho một ngữ đầu vào 1 Kx , sẽ có 1 chuỗi chuyển đổi trật tự duy nhất 1 Kb để chuyển từ 1 Kx sang 1 Ky ; 1 Kb sẽ cho biết việc đổi chỗ ngữ xk, cụ thể như sau: , {1,2,..., } kk k b x y k K  . Mô hình được định nghĩa lại theo chuỗi chuyển đổi trật tự: 1 1 1 1 1 1 ( | , ) ( | , ) 0 k K K K k bK K K P b x u y k P y x u nguoclai       Mỗi bước chuyển đổi bk phụ thuộc vào cặp ngữ (xk, uk) và bước chuyển đổi trước đó 1 1 Kb  : 1 1 1 1 1 ( | , ) ( | , , ) K K K K k k k k k P y x u P b x u     . Chuỗi chuyển đổi 1 Kb có thể được mô tả 17 bằng một máy chuyển đổi trạng thái xác định (deterministic finite state machine). 1 1( ) Kb  là trạng thái đến của 1 1 Kb  , và 1K  được dùng để biểu diễn 1 1( ) Kb  . Như đã trình bày ở trên, trong công trình của mình tác giả sử dụng hai mô hình WFST khác nhau, mô hình MJ-1: {0, 1, 1}kb    , và mô hình MJ-2: {0, 1, 1, 2, 2}kb      . Hình 2.5a là qui trình chuyển đổi trật tự ngữ cho MJ-1, và hình 2.5b là mô hình trạng thái WFST tương ứng. a. Mô hình chuyển đổi ngữ b. Mô hình trạng thái WFST Hình 2.5 Mô hình chuyển đổi trật tự MJ-1 Với mô hình trên, xác suất chuyển đổi bk được tính theo công thức: 1 1 1 1 1 1 1 ( , ) 1, 1 ( | , , ( )) 1 ( , ) 0, 1 1 1, 2 k k k k k k k k k k k k k k x u b P b x u b x u b b                       Mô hình MJ-2 giới hạn bước nhảy tối đa là hai ngữ và việc chuyển đổi trật tự diễn ra trong cửa sổ 3. Điều kiện thứ hai có nghĩa là, với ngữ đầu vào là {a, b, c, d} thì các chuyển đổi sau đây là không được phép {b, d, a, c; c, a, d, b; c, d, a, b}. Trong 18 máy chuyển đổi trạng thái cho MJ-2, một 1 1 Kb  có thể có 1 trong 6 trạng thái được mô tả trong hình 2.6. Hình 2.6 Qui trình chuyển đổi trật tự MJ-2 Các tác giả đã áp dụng mô hình đề nghị cho việc chuyển đổi trật tự ngữ và đạt được kết quả khích lệ trong các thực nghiệm cho hệ dịch Ả Rập – Anh và Hoa – Anh. 2.2.2 Chuyển đổi trật tự câu ngôn ngữ nguồn Ý tưởng chính của hướng tiếp cận này là nhằm tránh vấn đề dịch chéo (non- monotonous translation) bằng cách chuyển đổi trật tự của câu ngôn ngữ nguồn. Điều này giúp cho mô hình dịch không cần quan tâm đến xác suất chuyển đổi trật tự; ngoài ra nó còn giúp cho giai đoạn giải mã của SMT có thể dịch trực tiếp từng từ một (word-by-word) hay dịch theo ngữ (phrase-by-phrase) mà không quan tâm đến trật tự từ/ngữ của hai ngôn ngữ. Thuận lợi chính của hướng tiếp cận này là câu ngôn ngữ nguồn được cho trước, do vậy chúng ta sẽ có thêm thông tin cho quá trình chuyển đổi trật tự. Đây cũng chính là lí do vì sao có rất nhiều công trình nghiên cứu theo hướng này. [19] sử dụng hướng tiếp cận này. Ý tưởng chính của tác giả là xem câu chuyển đổi trật tự của ngôn ngữ nguồn như một ngôn ngữ mới và tạo ra một mô hình giống mô hình dịch của SMT. Mô hình chuyển đổi này có từ vựng giống với từ vựng của ngôn ngữ nguồn, nhưng có trật tự từ theo ngôn ngữ đích, như vậy chỉ có thể huấn luyện mô hình này trên ngữ liệu song ngữ đã được chuyển đổi trật tự rồi 19 (monotonized corpus). Ngoài ra, mô hình này cũng không phụ thuộc vào câu dịch đầu ra, chỉ cần dịch từng từ thì cũng đạt được độ chính xác khá cao. Từ những lý luận trên, tác giả định nghĩa mô hình chuyển đổi theo công thức: ' arg max Pr( ) Pr( | ) r r r s s s s s  Trong đó Pr(sr) là mô hình ngôn ngữ chuyển đổi và Pr(s|sr) là mô hình chuyển đổi. Như đã nói ở trên, mô hình này hoàn toàn tương tự mô hình chính của SMT, do đó tác giả dùng các phương pháp giải quyết cho mô hình của mình giống với mô hình SMT. Tuy nhiên để giảm thiểu lỗi của mô hình chuyển đổi, tác giả nhận thấy sẽ tốt hơn nếu phát sinh danh sách n ứng viên có thể có, sau đó dịch n ứng viên này sang ngôn ngữ đích và chọn ứng viên cho xác suất cao nhất theo công thức (2) của SMT. Tác giả đã thử nghiệm mô hình này cho hệ dịch tiếng Basque sang tiếng Tây Ban Nha và làm tăng hiệu quả dịch khoảng 7% điểm BLEU. Thực tế, dịch máy thống kê dựa trên ngữ cũng có mô hình chuyển đổi trật tự từ. Trong giai đo

Các file đính kèm theo tài liệu này:

  • pdf7.pdf
  • pdf0.pdf
  • pdf1.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf4_2.pdf
  • pdf5.pdf
  • pdf6.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10.pdf
  • pdf11.pdf
  • pdf12.pdf
  • pdf13.pdf