Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp dụng cho dịch máy thống kê.
                
              
                                            
                                
            
 
            
                 24 trang
24 trang | 
Chia sẻ: vietpd | Lượt xem: 1814 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang tài liệu Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5 
 CHƢƠNG 2 : TỔNG QUAN 
Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình 
dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các 
hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp 
dụng cho dịch máy thống kê. 
2.1 Dịch máy thống kê (Statistical Machine Translation - SMT) 
Bài toán cơ bản mà dịch máy cần giải quyết là: cho một câu f ở ngôn ngữ F, phát 
sinh chuỗi e ở ngôn ngữ E sao cho khả năng f là bản dịch của e là cao nhất. Trong 
ngữ cảnh của dịch máy thống kê thì bài toán được hiểu theo cách: tìm câu e sao cho 
hàm xác xuất P(e|f) là cực đại [3]: 
* arg max ( | )ee P e f
. 
Theo định lý Bayes thì : 
( | )* ( )
( | ) (1)
( )
P f e P e
P e f
P f
Trong (1) vì P(f) không đổi đối với mỗi câu f nên: 
* argmax ( | ) argmax ( | )* ( ) (2)e ee P e f P f e P e  
Để tính được các xác suất 
( | )P f e
 và 
( )P e
cần 2 thông tin sau: 
 Mô hình ngôn ngữ (
( )P e
): mô hình sẽ gán xác suất cao hơn cho những 
câu e đúng ngữ pháp hơn. Xác suất này được ước lượng bằng cách sử 
dụng ngữ liệu đơn ngữ. 
 Mô hình dịch (
( | )P f e
): câu dịch f thích hợp hơn sẽ có xác suất cao hơn. 
Xác suất này được ước lượng bằng cách sử dụng ngữ liệu song ngữ. 
Tùy vào đơn vị được tính xác suất trong mô hình dịch mà SMT sẽ có ba hướng tiếp 
cận chính: dựa trên từ (word-based), dựa trên ngữ (phrase-based) và dựa trên cú 
pháp (syntax-based). 
2.1.1 Dịch máy thống kê dựa trên từ (Word-based SMT) 
Như đã trình bày ở trên, trong hướng dịch máy thống kê dựa trên từ, mô hình dịch
( | )P f e
 sẽ được tính dựa vào xác suất dịch của từ hay còn gọi là gióng hàng từ dựa 
6 
vào ngữ liệu song ngữ. Tới đây, ta thấy xuất hiện vấn đề con gà – quả trứng, nếu 
chúng ta có sẵn các gióng hàng từ thì dễ dàng ước lượng xác suất, và nếu có xác 
suất trước thì dễ dàng xác định gióng hàng từ. Vậy làm sao để giải quyết vấn đề 
này? [9] Câu trả lời là dùng mô hình huấn luyện EM (Expectation Maximization). 
Cụ thể như sau: 
- Với một cặp câu được xem là bản dịch của nhau, ta giả định một từ ở câu 
nguồn có khả năng gióng hàng đến tất cả các từ ở câu đích. 
- Mô hình sẽ học để chọn ra cặp từ nào thường gióng hàng với nhau nhất. 
- Sau một số lần lặp, xác suất này sẽ hội tụ và không thay đổi nhiều, khi đó ta 
được cả hai thông tin là thông tin về gióng hàng từ và xác suất của nó. 
Lấy ví dụ cho cặp ngôn ngữ Anh-Việt, ban đầu trong ngữ liệu song ngữ có các cặp 
sau: 
... my computer ...
... máy_tính của tôi ...
this computer 
máy_tính này 
... my book ...
... quyển sách của tôi ...
Sau vòng lặp đầu tiên liên kết từ “my” và “của tôi” được xác định: 
... my computer ...
... máy_tính của tôi ...
this computer 
máy_tính này 
... my book ...
... quyển sách của tôi ...
Sau vòng lặp kế tiếp: liên kết từ “computer” và “máy tính” 
... my computer ...
... máy_tính của tôi ...
this computer 
máy_tính này 
... my book ...
... quyển sách của tôi ...
Thêm một vòng lặp nữa, liên kết từ “this” và “này”, “book” và “quyển sách” dựa 
trên nguyên tắc “Chim bồ câu” (Pigeon hole principle). Cuối cùng ta có kết quả 
gióng hàng từ như sau: 
7 
... my computer ...
... máy_tính của tôi ...
this computer 
máy_tính này 
... my book ...
... quyển sách của tôi ...
Theo hướng dịch dựa trên từ, mô hình dịch 
( | )P f e sẽ được phân rã dựa trên gióng 
hang từ a theo công thức (3): 
( | ) ( , | ) ( | )* ( | , ) (3)
a a
P f e P a f e P a e P f a e  
Để lượng giá các thành phần trong công thức (3) [1] cung cấp năm mô hình khác 
nhau có tên gọi lần lượt là mô hình IBM 1, IBM 2, IBM 3, IBM 4 và IBM 5. Tóm 
tắt đặc điểm của các mô hình này như sau: 
 IBM 1: tính xác suất gióng hàng chỉ dựa trên xác suất dịch từ (lexical 
translation) 
 IBM 2: thêm mô hình chuyển đổi trật tự từ cố định (absolute reordering 
model) 
 IBM 3: thêm tham số f (f: là lấy từ fertility model) 
 IBM 4: mô hình chuyển đổi trật tự quan hệ (relative reordering model) 
 IBM 5: loại bỏ một số khuyết điểm của mô hình 3 và mô hình 4 
[1] trong các mô hình trên thì mô hình IBM 3 đòi hỏi phải tính toán nhiều nhất và 
tốn nhiều chi phí nhất. 
2.1.2 Dịch máy thống kê dựa trên ngữ (Phrase-based SMT) 
Theo hướng tiếp cận dựa trên ngữ [10], f sẽ được tách thành một chuỗi gồm I ngữ 
1
If
với giả định là có một phân phối xác suất chuẩn giữa các ngữ này. Mỗi ngữ 
if 
trong chuỗi 
1
If
 sẽ được dịch thành một ngữ 
ie 
tương ứng; việc dịch ngữ này được 
thực hiện dựa vào phân phối xác suất 
( | )i if e
. Ngoài ra các 
ie 
sẽ được chuyển đổi 
trật tự dựa trên mô hình chuyển đổi 
1( )i id a b 
, với 
ia
là vị trí bắt đầu của ngữ 
if
 và 
1ib 
 là vị trí kết thúc của ngữ 
1ie 
. 
8 
Tóm lại, câu dịch e tốt nhất là câu dịch thỏa công thức (2) ở trên nhưng mô hình 
dịch 
( | )P f e
được phân rã thành: 
1 1 1
1
( | ) ( | ) ( )
I
I I
i i i i
i
P f e f e d a b 
 
Có nhiều mô hình khác nhau được áp dụng để tính xác suất dịch ngữ hay còn gọi là 
xác suất gióng hàng ngữ 
( | )i if e
. [10] đã thực nghiệm trên ba phương pháp sau: 
i) Việc tách ngữ và tính xác suất gióng hàng ngữ dựa vào kết quả gióng hàng 
từ của công cụ GIZA++. Theo hướng tiếp cận này, ngữ là một chuỗi các từ 
được gom nhóm dựa vào tính nhất quán của gióng hàng từ chứ không phải 
là một ngữ tuân theo định nghĩa trong ngữ pháp. Để tối ưu hóa giai đoạn này 
tác giả còn dùng thêm một số heuristic. 
ii) Tách ngữ dựa vào đặc điểm cú pháp theo các bước sau: 
o Gióng hàng từ ngữ liệu song ngữ. 
o Phân tích cú pháp câu ngôn ngữ nguồn và câu ngôn ngữ đích 
o Chỉ rút ra các ngữ là cây con của cây cú pháp và có các từ được gióng 
hàng với nhau ở cả hai ngôn ngữ. 
iii) Dùng mô hình kết hợp do [13] đề xuất. 
Qua thực nghiệm tác giả kết luận rằng mô hình dựa trên gióng hàng từ (i) cho kết 
quả tốt nhất so với các mô hình còn lại. 
Xét cặp câu Anh-Việt: 
List the five most common types of computer systems 
Liệt kê năm kiểu hệ thống máy tính thông dụng nhất 
Gióng hàng từ ban đầu của cặp câu trên như sau: 
Mô hình dịch dựa trên ngữ với cách dùng gióng hàng từ để tách ngữ được áp dụng 
như sau: 
9 
 Bắt đầu từ ma trận gióng hàng từ: 
 Phát sinh các cặp ngữ nhất quán có dạng như hình (a): 
(a) 
(b) 
Những cặp có dạng như hình (b) được gọi là không nhất quán. 
 Với cặp câu ví dụ trên, có thể có các trường hợp sau: 
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), 
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), 
(computer systems, hệ thống máy tính), 
10 
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), 
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), 
(computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu) 
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), 
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), 
(computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu), (list the 
five, liệt kê năm), (types of computer systems, kiểu hệ thống máy tính) 
11 
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu), 
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất), 
(computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu), (list the 
five, liệt kê năm), (types of computer systems, kiểu hệ thống máy tính), (most 
common types of computer systems, kiểu hệ thống máy tính thông dụng nhất), (the 
five most common types of computer systems, năm kiểu hệ thống máy tính thông 
dụng nhất), 
Sau khi phát sinh các cặp ngữ, tính 
( | )i if e
của từng cặp ta sẽ có được bảng ngữ 
(phrase-table) lưu trữ các cặp ngữ có thể có và xác suất của nó. 
2.1.3 Dịch máy thống kê dựa trên cú pháp (Syntax-based SMT) 
Trong các hướng tiếp cận trên, việc lựa chọn câu dịch đa số dựa vào các con số 
thống kê mà rất ít sử dụng các tri thức về ngôn ngữ. Dịch thông kê dựa trên cú pháp 
là một hướng tiếp cận cố gắng dung hòa giữa kết quả thống kê và một số qui định, 
ràng buộc trong ngữ pháp. 
[9] Một số điểm thuận lợi trong hướng tiếp cận này: 
- Chuyển đổi trật tự từ/ngữ dựa trên cây cú pháp 
- Dịch các từ chức năng (function words) tốt hơn, ví dụ như giới từ 
(preposition), từ hạn định (determiner), … 
- Dịch các từ có quan hệ cú pháp tốt hơn, ví dụ: việc dịch động từ có thể phụ 
thuộc vào chủ từ hoặc tân từ. 
- Tận dụng các mô hình ngôn ngữ cú pháp (syntactic language models) 
Câu dịch tốt là câu dịch có cây cú pháp “đúng” dựa vào mô hình ngôn ngữ cú pháp, 
ngoài ra mô hình này còn cho phép chúng ta kiểm tra một số ràng buộc của các từ 
cách xa nhau trong câu. 
Ví dụ, xét hai cây cú pháp sau: 
12 
Bằng cách sử dụng mô hình ngôn ngữ cú pháp, cây cú pháp bên trái sẽ được chọn 
lựa thay vì chọn cây cú pháp ở bên phải. Nguyên nhân là do “VP is the man” là 
cây cú pháp không tồn tại trong mô hình cú pháp. 
Có nhiều mô hình khác nhau cho hướng dịch máy thông kê dựa trên cú pháp, có thể 
nêu một số trường hợp tiêu biểu sau: 
- Dịch từ câu sang cây cú pháp (string to tree ) 
- Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) 
- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer) 
- Dịch dựa trên mệnh đề (clause level restructuring) 
- … 
Trong giới hạn của phần này, luận văn chọn hướng tiếp cận dịch từ câu sang cây cú 
pháp [23] – có mô hình khá giống với mô hình chung của dịch máy thống kê để 
trình bày. Hình 2.1 minh họa các bước thực hiện trong dịch máy thống kê Anh-Việt 
dựa trên cú pháp. 
 Bước 1: thực hiện chuyển đổi trật tự từ trên cây cú pháp tiếng Anh. Sau bước 
chuyển đổi này, kết quả nhận được là cây cú pháp tiếng Anh có trật tự các 
nút lá gần với trật tự từ trong câu tiếng Việt nhất. 
 Bước 2: thực hiện chèn một số nút vào cây cú pháp. Các nút được chèn là 
các nút tiếng Việt, vì vậy thao tác chèn giúp cho câu dịch tiếng Việt được 
trôi chảy và tự nhiên hơn. 
 Bước 3: Dịch các nút là từ tiếng Anh sang tiếng Việt, riêng các từ vừa được 
chèn vào thì giữ nguyên. 
13 
Hình 2.1 Minh họa các bước thực hiện trong dịch máy thống kê dựa trên cú pháp 
Bước cuối cùng là đọc các nút lá từ cây cú pháp, ta có được câu dịch tiếng Việt “Mẹ 
của tôi đang xem một bộ phim rất thú vị”. 
Như vậy có ba thao tác cơ bản trong hướng tiếp cận này: chuyển đổi trật tự 
(Reordering), chèn (Insertion) và dịch (Translation). Tổng quát hóa mô hình dịch 
như sau: 
Câu f ở ngôn ngữ F sẽ gồm 
1 2, ......, nf f f
từ, cây cú pháp  ở ngôn ngữ E có 
1 2, ,....., n  
 nút. 
Qui ước: 
N: phép chèn, R: phép chuyển đổi trật tự, T: dịch 
, ,   
 là tập các giá trị 
, ,i i i i   
 là giá trị cho i tương ứng 
Mô hình dịch được phân rã như sau: 
1 2 1 2( | ) ( , ,...., | , ,...., )n nP f P       
14 
( | ) ( , , | )
( | ) ( | ) ( | )
( | ( )) ( | ( )) ( | ( ))
( | ( )) ( | ( )) ( | ( ))
i i i i i i
i i i i i i
i i i i i i
i i i i i i
P P
P P P
P P P
n r t
     
     
     
     
   
   
Trong đó: 
, 
 và 
 là các đặc trưng có liên quan đến N, R và T. Ví dụ như: 
có 
thể là nhãn nút cha hoặc nhãn nút con, 
 có thể là chuỗi cú pháp của các nút con. 
Các tham số n, r, t chính là xác suất 
( | )P  
, 
( | )P  
, 
( | )P  
. 
Tóm lại 
: ( ( ))
: ( ( )) 1
( | ) ( | )
( | ( )) ( | ( )) ( | ( ))
Str f
n
i i i i i i
Str f i
P f P
n r t
  
  
  
     
 
   
 
Muốn tính được các thành phần n, r, t trong công thức trên ta cần học từ ngữ liệu 
song ngữ và tạo ra các bảng xác suất tương ứng. 
Các bảng trong hình 2.2 minh họa cho trường hợp ví dụ ở trên. 
English my mother interesting … 
Vietnamese của tôi 1.000 mẹ 0.92 
mẹ đẻ 0.18 
thú vị 0.333 
quan tâm 0.333 
thích thú 0.333 
t-table 
Hình 2.2 Các bảng kết quả sau khi huấn luyện SMT 
theo hướng tiếp cận dựa trên cú pháp 
Nhìn chung ý tưởng của dịch thống kê dựa trên cú pháp là tốt và về mặt lý thuyết nó 
phải cho hiệu quả dịch cao hơn hai cách tiếp cận còn lại. [9] Tuy nhiên, cho tới nay 
dịch máy thống kê dựa trên ngữ vẫn cho kết quả cao nhất, nguyên nhân là do, dịch 
dựa trên cú pháp phải dùng đến các công cụ phân tích cú pháp, mà bản thân các 
Orignal Order Reordering P(reorder) 
PRP$ NN 
PRP$ NN 
0.251 
NN PRP$ 0.749 
DT ADJP NN 
DT ADJP NN 0.074 
DT NN ADJP 0.723 
ADJP DT NN 0.061 
ADJP NN DT 0.037 
NN DT ADJP 0.083 
NN ADJP DT 0.021 
r-table 
Parent VP NP … 
Node VBG NN … 
P(none) 0.004 0.687 … 
P(left) 0.735 0.061 … 
P(right) 0.260 0.252 … 
 n-table 
w P(ins-w) 
đang 0.219 
cái 0.131 
bộ 0.078 
mà 0.099 
… … 
à 0.007 
15 
công cụ này không thể đạt độ chính xác 100%. Ngoài ra, việc tạo ngữ liệu học có 
chứa thông tin cú pháp thì rất phức tạp và tốn nhiều công sức, thêm vào đó quá trình 
huấn luyện và dịch dựa trên cây cú pháp lại chậm và rất khó kiểm soát. Và nguyên 
nhân cuối cùng là có rất ít nhà nghiên cứu vừa nắm vững về mô hình xác suất, đồng 
thời hiểu rõ về lý thuyết ngôn ngữ học. 
2.2 Các hƣớng tiếp cận trong chuyển đổi trật tự từ 
Hiệu quả của mô hình dịch máy thống kê hiện nay chưa cao do chỉ dựa hoàn toàn 
vào xác suất mà không quan tâm đến đặc điểm về mặt ngôn ngữ học cũng như 
nhưng điểm tương đồng và dị biệt của cặp ngôn ngữ dịch. Trong đó, sự khác nhau 
về trật tự từ giữa hai ngôn ngữ ảnh hưởng rất lớn đến chất lượng dịch máy. 
Mục đích của việc chuyển đổi trật tự từ là làm cho trật từ từ của câu ngôn ngữ 
nguồn càng gần với trật tự từ của câu ngôn ngữ đích càng tốt. Việc chuyển đổi này 
sẽ giúp làm giảm các gióng hàng chéo, hay nói cách khác là làm phẳng các gióng 
hàng giữa 2 câu nguồn và đích (xem hình 2.3). Trước khi chuyển đổi trật tự từ 
chúng ta thấy hầu hết các gióng hàng đều bị chéo. Sau khi chuyển đổi, tất cả các 
gióng hàng chéo đều được “làm phẳng” (flatten). Đối với dịch máy SMT, càng ít 
gióng hàng chéo hệ dịch càng cho kết quả tốt, vì lúc này bộ giải mã của SMT có thể 
dịch các từ / ngữ tương ứng từ ngôn ngữ nguồn sang ngôn ngữ địch mà không cần 
phải quan tâm đến vấn đề trật tự từ. Đây là lí do mà chuyển đổi trật tự từ trong SMT 
đang trở thành một trong những bài toán rất được quan tâm hiện nay. 
the computermost commonly used
nhấtphổ biếnđược sử dụngcái máy tính
a. Trước khi chuyển đổi 
the mostcomputer used commonly
nhấtphổ biếnđược sử dụ gcái máy tí h
b. Sau khi chuyển đổi 
Hình 2.3 Gióng hàng từ trước và sau khi chuyển đổi trật tự từ câu tiếng Anh. Sau 
khi chuyển đổi các gióng hàng từ chéo giảm đáng kể 
Có hai hướng tiếp cận chính trong bài toán chuyển đổi trật tự từ trong SMT: 
16 
 Chuyển đổi trật tự từ của câu ngôn ngữ đích, hay còn gọi là hậu xử lý (post-
editing) cho SMT. 
 Chuyển đổi trật tự từ của câu ngôn ngữ nguồn hay còn gọi là tiền xử lý (pre-
processing) cho SMT. 
2.2.1 Chuyển đổi trật tự câu ngôn ngữ đích 
Gần đây [11] đã sử dụng hướng tiếp cận này bằng cách dùng mô hình học FST có 
trọng số (weighted finite state transducers) để chuyển đổi các ngữ. Các tác giả đã sử 
dụng 2 mô hình WFST khác nhau, mô hình đơn giản nhất cho phép hoán đổi các 
ngữ ở gần kề nhau, mô hình thứ 2 cho phép hoán đổi các ngữ trong vùng cửa sổ 3 
ngữ liền kề nhau. Giai đoạn chuyển đổi ngữ (xem hình 2.4) sẽ nhận vào một ngữ 
tiếng Pháp theo trật tự từ tiếng Anh (hệ dịch Anh-Pháp) 
1 2, ,..., Kx x x
, sau đó thực 
hiện chuyển đổi theo trật tự từ của tiếng Pháp 
1 2, ,..., Ky y y
. Lưu ý là trật tự các từ 
trong một ngữ không thay đổi. 
Hình 2.4 Chuyển đổi ngữ trong hệ dịch Anh-Pháp 
Một giả định về điều kiện độc lập đã được sử dụng: 
1 1 1 1 1 1 1( | , , , ) ( | , )
K K K I K K KP y x u K e P y x u
Cho một ngữ đầu vào 
1
Kx
, sẽ có 1 chuỗi chuyển đổi trật tự duy nhất 
1
Kb
 để chuyển từ 
1
Kx 
sang 
1
Ky
; 
1
Kb
sẽ cho biết việc đổi chỗ ngữ xk, cụ thể như sau: 
, {1,2,..., }
kk k b
x y k K 
. Mô hình được định nghĩa lại theo chuỗi chuyển đổi trật tự: 
1 1 1
1 1 1
( | , )
( | , )
0
k
K K K
k bK K K
P b x u y k
P y x u
nguoclai
 
 
Mỗi bước chuyển đổi bk phụ thuộc vào cặp ngữ (xk, uk) và bước chuyển đổi trước đó
1
1
Kb 
: 
1 1 1 1
1
( | , ) ( | , , )
K
K K K
k k k k
k
P y x u P b x u  
. Chuỗi chuyển đổi 
1
Kb
có thể được mô tả 
17 
bằng một máy chuyển đổi trạng thái xác định (deterministic finite state machine). 
1
1( )
Kb 
là trạng thái đến của 
1
1
Kb 
, và 
1K 
được dùng để biểu diễn 
1
1( )
Kb 
. Như đã 
trình bày ở trên, trong công trình của mình tác giả sử dụng hai mô hình WFST khác 
nhau, mô hình MJ-1: 
{0, 1, 1}kb   
, và mô hình MJ-2: 
{0, 1, 1, 2, 2}kb     
. Hình 
2.5a là qui trình chuyển đổi trật tự ngữ cho MJ-1, và hình 2.5b là mô hình trạng thái 
WFST tương ứng. 
a. Mô hình chuyển đổi ngữ 
b. Mô hình trạng thái WFST 
Hình 2.5 Mô hình chuyển đổi trật tự MJ-1 
Với mô hình trên, xác suất chuyển đổi bk được tính theo công thức: 
1 1
1
1 1 1
1
( , ) 1, 1
( | , , ( )) 1 ( , ) 0, 1
1 1, 2
k k k k
k
k k k k k k k
k k
x u b
P b x u b x u b
b
 
  
  
   
   
Mô hình MJ-2 giới hạn bước nhảy tối đa là hai ngữ và việc chuyển đổi trật tự diễn 
ra trong cửa sổ 3. Điều kiện thứ hai có nghĩa là, với ngữ đầu vào là {a, b, c, d} thì 
các chuyển đổi sau đây là không được phép {b, d, a, c; c, a, d, b; c, d, a, b}. Trong 
18 
máy chuyển đổi trạng thái cho MJ-2, một 
1
1
Kb 
có thể có 1 trong 6 trạng thái được mô 
tả trong hình 2.6. 
Hình 2.6 Qui trình chuyển đổi trật tự MJ-2 
Các tác giả đã áp dụng mô hình đề nghị cho việc chuyển đổi trật tự ngữ và đạt được 
kết quả khích lệ trong các thực nghiệm cho hệ dịch Ả Rập – Anh và Hoa – Anh. 
2.2.2 Chuyển đổi trật tự câu ngôn ngữ nguồn 
Ý tưởng chính của hướng tiếp cận này là nhằm tránh vấn đề dịch chéo (non-
monotonous translation) bằng cách chuyển đổi trật tự của câu ngôn ngữ nguồn. 
Điều này giúp cho mô hình dịch không cần quan tâm đến xác suất chuyển đổi trật 
tự; ngoài ra nó còn giúp cho giai đoạn giải mã của SMT có thể dịch trực tiếp từng từ 
một (word-by-word) hay dịch theo ngữ (phrase-by-phrase) mà không quan tâm đến 
trật tự từ/ngữ của hai ngôn ngữ. Thuận lợi chính của hướng tiếp cận này là câu ngôn 
ngữ nguồn được cho trước, do vậy chúng ta sẽ có thêm thông tin cho quá trình 
chuyển đổi trật tự. Đây cũng chính là lí do vì sao có rất nhiều công trình nghiên cứu 
theo hướng này. 
[19] sử dụng hướng tiếp cận này. Ý tưởng chính của tác giả là xem câu chuyển đổi 
trật tự của ngôn ngữ nguồn như một ngôn ngữ mới và tạo ra một mô hình giống mô 
hình dịch của SMT. Mô hình chuyển đổi này có từ vựng giống với từ vựng của 
ngôn ngữ nguồn, nhưng có trật tự từ theo ngôn ngữ đích, như vậy chỉ có thể huấn 
luyện mô hình này trên ngữ liệu song ngữ đã được chuyển đổi trật tự rồi 
19 
(monotonized corpus). Ngoài ra, mô hình này cũng không phụ thuộc vào câu dịch 
đầu ra, chỉ cần dịch từng từ thì cũng đạt được độ chính xác khá cao. Từ những lý 
luận trên, tác giả định nghĩa mô hình chuyển đổi theo công thức: 
' arg max Pr( ) Pr( | )
r
r r
s
s s s s 
Trong đó Pr(sr) là mô hình ngôn ngữ chuyển đổi và Pr(s|sr) là mô hình chuyển đổi. 
Như đã nói ở trên, mô hình này hoàn toàn tương tự mô hình chính của SMT, do đó 
tác giả dùng các phương pháp giải quyết cho mô hình của mình giống với mô hình 
SMT. Tuy nhiên để giảm thiểu lỗi của mô hình chuyển đổi, tác giả nhận thấy sẽ tốt 
hơn nếu phát sinh danh sách n ứng viên có thể có, sau đó dịch n ứng viên này sang 
ngôn ngữ đích và chọn ứng viên cho xác suất cao nhất theo công thức (2) của SMT. 
Tác giả đã thử nghiệm mô hình này cho hệ dịch tiếng Basque sang tiếng Tây Ban 
Nha và làm tăng hiệu quả dịch khoảng 7% điểm BLEU. 
Thực tế, dịch máy thống kê dựa trên ngữ cũng có mô hình chuyển đổi trật tự từ. 
Trong giai đo