Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp dụng cho dịch máy thống kê.
24 trang |
Chia sẻ: vietpd | Lượt xem: 1658 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5
CHƢƠNG 2 : TỔNG QUAN
Chương này sẽ mô tả các vấn đề lý thuyết về dịch máy thống kê và các mô hình
dịch khác nhau trong dịch máy thống kê. Sau đó là phần trình bày tổng quan về các
hướng tiếp cận cũng như các công trình có liên quan trong chuyển đổi trật tự từ áp
dụng cho dịch máy thống kê.
2.1 Dịch máy thống kê (Statistical Machine Translation - SMT)
Bài toán cơ bản mà dịch máy cần giải quyết là: cho một câu f ở ngôn ngữ F, phát
sinh chuỗi e ở ngôn ngữ E sao cho khả năng f là bản dịch của e là cao nhất. Trong
ngữ cảnh của dịch máy thống kê thì bài toán được hiểu theo cách: tìm câu e sao cho
hàm xác xuất P(e|f) là cực đại [3]:
* arg max ( | )ee P e f
.
Theo định lý Bayes thì :
( | )* ( )
( | ) (1)
( )
P f e P e
P e f
P f
Trong (1) vì P(f) không đổi đối với mỗi câu f nên:
* argmax ( | ) argmax ( | )* ( ) (2)e ee P e f P f e P e
Để tính được các xác suất
( | )P f e
và
( )P e
cần 2 thông tin sau:
Mô hình ngôn ngữ (
( )P e
): mô hình sẽ gán xác suất cao hơn cho những
câu e đúng ngữ pháp hơn. Xác suất này được ước lượng bằng cách sử
dụng ngữ liệu đơn ngữ.
Mô hình dịch (
( | )P f e
): câu dịch f thích hợp hơn sẽ có xác suất cao hơn.
Xác suất này được ước lượng bằng cách sử dụng ngữ liệu song ngữ.
Tùy vào đơn vị được tính xác suất trong mô hình dịch mà SMT sẽ có ba hướng tiếp
cận chính: dựa trên từ (word-based), dựa trên ngữ (phrase-based) và dựa trên cú
pháp (syntax-based).
2.1.1 Dịch máy thống kê dựa trên từ (Word-based SMT)
Như đã trình bày ở trên, trong hướng dịch máy thống kê dựa trên từ, mô hình dịch
( | )P f e
sẽ được tính dựa vào xác suất dịch của từ hay còn gọi là gióng hàng từ dựa
6
vào ngữ liệu song ngữ. Tới đây, ta thấy xuất hiện vấn đề con gà – quả trứng, nếu
chúng ta có sẵn các gióng hàng từ thì dễ dàng ước lượng xác suất, và nếu có xác
suất trước thì dễ dàng xác định gióng hàng từ. Vậy làm sao để giải quyết vấn đề
này? [9] Câu trả lời là dùng mô hình huấn luyện EM (Expectation Maximization).
Cụ thể như sau:
- Với một cặp câu được xem là bản dịch của nhau, ta giả định một từ ở câu
nguồn có khả năng gióng hàng đến tất cả các từ ở câu đích.
- Mô hình sẽ học để chọn ra cặp từ nào thường gióng hàng với nhau nhất.
- Sau một số lần lặp, xác suất này sẽ hội tụ và không thay đổi nhiều, khi đó ta
được cả hai thông tin là thông tin về gióng hàng từ và xác suất của nó.
Lấy ví dụ cho cặp ngôn ngữ Anh-Việt, ban đầu trong ngữ liệu song ngữ có các cặp
sau:
... my computer ...
... máy_tính của tôi ...
this computer
máy_tính này
... my book ...
... quyển sách của tôi ...
Sau vòng lặp đầu tiên liên kết từ “my” và “của tôi” được xác định:
... my computer ...
... máy_tính của tôi ...
this computer
máy_tính này
... my book ...
... quyển sách của tôi ...
Sau vòng lặp kế tiếp: liên kết từ “computer” và “máy tính”
... my computer ...
... máy_tính của tôi ...
this computer
máy_tính này
... my book ...
... quyển sách của tôi ...
Thêm một vòng lặp nữa, liên kết từ “this” và “này”, “book” và “quyển sách” dựa
trên nguyên tắc “Chim bồ câu” (Pigeon hole principle). Cuối cùng ta có kết quả
gióng hàng từ như sau:
7
... my computer ...
... máy_tính của tôi ...
this computer
máy_tính này
... my book ...
... quyển sách của tôi ...
Theo hướng dịch dựa trên từ, mô hình dịch
( | )P f e sẽ được phân rã dựa trên gióng
hang từ a theo công thức (3):
( | ) ( , | ) ( | )* ( | , ) (3)
a a
P f e P a f e P a e P f a e
Để lượng giá các thành phần trong công thức (3) [1] cung cấp năm mô hình khác
nhau có tên gọi lần lượt là mô hình IBM 1, IBM 2, IBM 3, IBM 4 và IBM 5. Tóm
tắt đặc điểm của các mô hình này như sau:
IBM 1: tính xác suất gióng hàng chỉ dựa trên xác suất dịch từ (lexical
translation)
IBM 2: thêm mô hình chuyển đổi trật tự từ cố định (absolute reordering
model)
IBM 3: thêm tham số f (f: là lấy từ fertility model)
IBM 4: mô hình chuyển đổi trật tự quan hệ (relative reordering model)
IBM 5: loại bỏ một số khuyết điểm của mô hình 3 và mô hình 4
[1] trong các mô hình trên thì mô hình IBM 3 đòi hỏi phải tính toán nhiều nhất và
tốn nhiều chi phí nhất.
2.1.2 Dịch máy thống kê dựa trên ngữ (Phrase-based SMT)
Theo hướng tiếp cận dựa trên ngữ [10], f sẽ được tách thành một chuỗi gồm I ngữ
1
If
với giả định là có một phân phối xác suất chuẩn giữa các ngữ này. Mỗi ngữ
if
trong chuỗi
1
If
sẽ được dịch thành một ngữ
ie
tương ứng; việc dịch ngữ này được
thực hiện dựa vào phân phối xác suất
( | )i if e
. Ngoài ra các
ie
sẽ được chuyển đổi
trật tự dựa trên mô hình chuyển đổi
1( )i id a b
, với
ia
là vị trí bắt đầu của ngữ
if
và
1ib
là vị trí kết thúc của ngữ
1ie
.
8
Tóm lại, câu dịch e tốt nhất là câu dịch thỏa công thức (2) ở trên nhưng mô hình
dịch
( | )P f e
được phân rã thành:
1 1 1
1
( | ) ( | ) ( )
I
I I
i i i i
i
P f e f e d a b
Có nhiều mô hình khác nhau được áp dụng để tính xác suất dịch ngữ hay còn gọi là
xác suất gióng hàng ngữ
( | )i if e
. [10] đã thực nghiệm trên ba phương pháp sau:
i) Việc tách ngữ và tính xác suất gióng hàng ngữ dựa vào kết quả gióng hàng
từ của công cụ GIZA++. Theo hướng tiếp cận này, ngữ là một chuỗi các từ
được gom nhóm dựa vào tính nhất quán của gióng hàng từ chứ không phải
là một ngữ tuân theo định nghĩa trong ngữ pháp. Để tối ưu hóa giai đoạn này
tác giả còn dùng thêm một số heuristic.
ii) Tách ngữ dựa vào đặc điểm cú pháp theo các bước sau:
o Gióng hàng từ ngữ liệu song ngữ.
o Phân tích cú pháp câu ngôn ngữ nguồn và câu ngôn ngữ đích
o Chỉ rút ra các ngữ là cây con của cây cú pháp và có các từ được gióng
hàng với nhau ở cả hai ngôn ngữ.
iii) Dùng mô hình kết hợp do [13] đề xuất.
Qua thực nghiệm tác giả kết luận rằng mô hình dựa trên gióng hàng từ (i) cho kết
quả tốt nhất so với các mô hình còn lại.
Xét cặp câu Anh-Việt:
List the five most common types of computer systems
Liệt kê năm kiểu hệ thống máy tính thông dụng nhất
Gióng hàng từ ban đầu của cặp câu trên như sau:
Mô hình dịch dựa trên ngữ với cách dùng gióng hàng từ để tách ngữ được áp dụng
như sau:
9
Bắt đầu từ ma trận gióng hàng từ:
Phát sinh các cặp ngữ nhất quán có dạng như hình (a):
(a)
(b)
Những cặp có dạng như hình (b) được gọi là không nhất quán.
Với cặp câu ví dụ trên, có thể có các trường hợp sau:
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu),
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất),
(computer systems, hệ thống máy tính),
10
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu),
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất),
(computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu)
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu),
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất),
(computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu), (list the
five, liệt kê năm), (types of computer systems, kiểu hệ thống máy tính)
11
(list, liệt kê), (five, năm), (most, nhất), (common, thông dụng), (types, kiểu),
(computer, máy tính), (systems, hệ thống), (most comomon, thông dụng nhất),
(computer systems, hệ thống máy tính), (the five, năm), (types of, kiểu), (list the
five, liệt kê năm), (types of computer systems, kiểu hệ thống máy tính), (most
common types of computer systems, kiểu hệ thống máy tính thông dụng nhất), (the
five most common types of computer systems, năm kiểu hệ thống máy tính thông
dụng nhất),
Sau khi phát sinh các cặp ngữ, tính
( | )i if e
của từng cặp ta sẽ có được bảng ngữ
(phrase-table) lưu trữ các cặp ngữ có thể có và xác suất của nó.
2.1.3 Dịch máy thống kê dựa trên cú pháp (Syntax-based SMT)
Trong các hướng tiếp cận trên, việc lựa chọn câu dịch đa số dựa vào các con số
thống kê mà rất ít sử dụng các tri thức về ngôn ngữ. Dịch thông kê dựa trên cú pháp
là một hướng tiếp cận cố gắng dung hòa giữa kết quả thống kê và một số qui định,
ràng buộc trong ngữ pháp.
[9] Một số điểm thuận lợi trong hướng tiếp cận này:
- Chuyển đổi trật tự từ/ngữ dựa trên cây cú pháp
- Dịch các từ chức năng (function words) tốt hơn, ví dụ như giới từ
(preposition), từ hạn định (determiner), …
- Dịch các từ có quan hệ cú pháp tốt hơn, ví dụ: việc dịch động từ có thể phụ
thuộc vào chủ từ hoặc tân từ.
- Tận dụng các mô hình ngôn ngữ cú pháp (syntactic language models)
Câu dịch tốt là câu dịch có cây cú pháp “đúng” dựa vào mô hình ngôn ngữ cú pháp,
ngoài ra mô hình này còn cho phép chúng ta kiểm tra một số ràng buộc của các từ
cách xa nhau trong câu.
Ví dụ, xét hai cây cú pháp sau:
12
Bằng cách sử dụng mô hình ngôn ngữ cú pháp, cây cú pháp bên trái sẽ được chọn
lựa thay vì chọn cây cú pháp ở bên phải. Nguyên nhân là do “VP is the man” là
cây cú pháp không tồn tại trong mô hình cú pháp.
Có nhiều mô hình khác nhau cho hướng dịch máy thông kê dựa trên cú pháp, có thể
nêu một số trường hợp tiêu biểu sau:
- Dịch từ câu sang cây cú pháp (string to tree )
- Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer)
- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer)
- Dịch dựa trên mệnh đề (clause level restructuring)
- …
Trong giới hạn của phần này, luận văn chọn hướng tiếp cận dịch từ câu sang cây cú
pháp [23] – có mô hình khá giống với mô hình chung của dịch máy thống kê để
trình bày. Hình 2.1 minh họa các bước thực hiện trong dịch máy thống kê Anh-Việt
dựa trên cú pháp.
Bước 1: thực hiện chuyển đổi trật tự từ trên cây cú pháp tiếng Anh. Sau bước
chuyển đổi này, kết quả nhận được là cây cú pháp tiếng Anh có trật tự các
nút lá gần với trật tự từ trong câu tiếng Việt nhất.
Bước 2: thực hiện chèn một số nút vào cây cú pháp. Các nút được chèn là
các nút tiếng Việt, vì vậy thao tác chèn giúp cho câu dịch tiếng Việt được
trôi chảy và tự nhiên hơn.
Bước 3: Dịch các nút là từ tiếng Anh sang tiếng Việt, riêng các từ vừa được
chèn vào thì giữ nguyên.
13
Hình 2.1 Minh họa các bước thực hiện trong dịch máy thống kê dựa trên cú pháp
Bước cuối cùng là đọc các nút lá từ cây cú pháp, ta có được câu dịch tiếng Việt “Mẹ
của tôi đang xem một bộ phim rất thú vị”.
Như vậy có ba thao tác cơ bản trong hướng tiếp cận này: chuyển đổi trật tự
(Reordering), chèn (Insertion) và dịch (Translation). Tổng quát hóa mô hình dịch
như sau:
Câu f ở ngôn ngữ F sẽ gồm
1 2, ......, nf f f
từ, cây cú pháp ở ngôn ngữ E có
1 2, ,....., n
nút.
Qui ước:
N: phép chèn, R: phép chuyển đổi trật tự, T: dịch
, ,
là tập các giá trị
, ,i i i i
là giá trị cho i tương ứng
Mô hình dịch được phân rã như sau:
1 2 1 2( | ) ( , ,...., | , ,...., )n nP f P
14
( | ) ( , , | )
( | ) ( | ) ( | )
( | ( )) ( | ( )) ( | ( ))
( | ( )) ( | ( )) ( | ( ))
i i i i i i
i i i i i i
i i i i i i
i i i i i i
P P
P P P
P P P
n r t
Trong đó:
,
và
là các đặc trưng có liên quan đến N, R và T. Ví dụ như:
có
thể là nhãn nút cha hoặc nhãn nút con,
có thể là chuỗi cú pháp của các nút con.
Các tham số n, r, t chính là xác suất
( | )P
,
( | )P
,
( | )P
.
Tóm lại
: ( ( ))
: ( ( )) 1
( | ) ( | )
( | ( )) ( | ( )) ( | ( ))
Str f
n
i i i i i i
Str f i
P f P
n r t
Muốn tính được các thành phần n, r, t trong công thức trên ta cần học từ ngữ liệu
song ngữ và tạo ra các bảng xác suất tương ứng.
Các bảng trong hình 2.2 minh họa cho trường hợp ví dụ ở trên.
English my mother interesting …
Vietnamese của tôi 1.000 mẹ 0.92
mẹ đẻ 0.18
thú vị 0.333
quan tâm 0.333
thích thú 0.333
t-table
Hình 2.2 Các bảng kết quả sau khi huấn luyện SMT
theo hướng tiếp cận dựa trên cú pháp
Nhìn chung ý tưởng của dịch thống kê dựa trên cú pháp là tốt và về mặt lý thuyết nó
phải cho hiệu quả dịch cao hơn hai cách tiếp cận còn lại. [9] Tuy nhiên, cho tới nay
dịch máy thống kê dựa trên ngữ vẫn cho kết quả cao nhất, nguyên nhân là do, dịch
dựa trên cú pháp phải dùng đến các công cụ phân tích cú pháp, mà bản thân các
Orignal Order Reordering P(reorder)
PRP$ NN
PRP$ NN
0.251
NN PRP$ 0.749
DT ADJP NN
DT ADJP NN 0.074
DT NN ADJP 0.723
ADJP DT NN 0.061
ADJP NN DT 0.037
NN DT ADJP 0.083
NN ADJP DT 0.021
r-table
Parent VP NP …
Node VBG NN …
P(none) 0.004 0.687 …
P(left) 0.735 0.061 …
P(right) 0.260 0.252 …
n-table
w P(ins-w)
đang 0.219
cái 0.131
bộ 0.078
mà 0.099
… …
à 0.007
15
công cụ này không thể đạt độ chính xác 100%. Ngoài ra, việc tạo ngữ liệu học có
chứa thông tin cú pháp thì rất phức tạp và tốn nhiều công sức, thêm vào đó quá trình
huấn luyện và dịch dựa trên cây cú pháp lại chậm và rất khó kiểm soát. Và nguyên
nhân cuối cùng là có rất ít nhà nghiên cứu vừa nắm vững về mô hình xác suất, đồng
thời hiểu rõ về lý thuyết ngôn ngữ học.
2.2 Các hƣớng tiếp cận trong chuyển đổi trật tự từ
Hiệu quả của mô hình dịch máy thống kê hiện nay chưa cao do chỉ dựa hoàn toàn
vào xác suất mà không quan tâm đến đặc điểm về mặt ngôn ngữ học cũng như
nhưng điểm tương đồng và dị biệt của cặp ngôn ngữ dịch. Trong đó, sự khác nhau
về trật tự từ giữa hai ngôn ngữ ảnh hưởng rất lớn đến chất lượng dịch máy.
Mục đích của việc chuyển đổi trật tự từ là làm cho trật từ từ của câu ngôn ngữ
nguồn càng gần với trật tự từ của câu ngôn ngữ đích càng tốt. Việc chuyển đổi này
sẽ giúp làm giảm các gióng hàng chéo, hay nói cách khác là làm phẳng các gióng
hàng giữa 2 câu nguồn và đích (xem hình 2.3). Trước khi chuyển đổi trật tự từ
chúng ta thấy hầu hết các gióng hàng đều bị chéo. Sau khi chuyển đổi, tất cả các
gióng hàng chéo đều được “làm phẳng” (flatten). Đối với dịch máy SMT, càng ít
gióng hàng chéo hệ dịch càng cho kết quả tốt, vì lúc này bộ giải mã của SMT có thể
dịch các từ / ngữ tương ứng từ ngôn ngữ nguồn sang ngôn ngữ địch mà không cần
phải quan tâm đến vấn đề trật tự từ. Đây là lí do mà chuyển đổi trật tự từ trong SMT
đang trở thành một trong những bài toán rất được quan tâm hiện nay.
the computermost commonly used
nhấtphổ biếnđược sử dụngcái máy tính
a. Trước khi chuyển đổi
the mostcomputer used commonly
nhấtphổ biếnđược sử dụ gcái máy tí h
b. Sau khi chuyển đổi
Hình 2.3 Gióng hàng từ trước và sau khi chuyển đổi trật tự từ câu tiếng Anh. Sau
khi chuyển đổi các gióng hàng từ chéo giảm đáng kể
Có hai hướng tiếp cận chính trong bài toán chuyển đổi trật tự từ trong SMT:
16
Chuyển đổi trật tự từ của câu ngôn ngữ đích, hay còn gọi là hậu xử lý (post-
editing) cho SMT.
Chuyển đổi trật tự từ của câu ngôn ngữ nguồn hay còn gọi là tiền xử lý (pre-
processing) cho SMT.
2.2.1 Chuyển đổi trật tự câu ngôn ngữ đích
Gần đây [11] đã sử dụng hướng tiếp cận này bằng cách dùng mô hình học FST có
trọng số (weighted finite state transducers) để chuyển đổi các ngữ. Các tác giả đã sử
dụng 2 mô hình WFST khác nhau, mô hình đơn giản nhất cho phép hoán đổi các
ngữ ở gần kề nhau, mô hình thứ 2 cho phép hoán đổi các ngữ trong vùng cửa sổ 3
ngữ liền kề nhau. Giai đoạn chuyển đổi ngữ (xem hình 2.4) sẽ nhận vào một ngữ
tiếng Pháp theo trật tự từ tiếng Anh (hệ dịch Anh-Pháp)
1 2, ,..., Kx x x
, sau đó thực
hiện chuyển đổi theo trật tự từ của tiếng Pháp
1 2, ,..., Ky y y
. Lưu ý là trật tự các từ
trong một ngữ không thay đổi.
Hình 2.4 Chuyển đổi ngữ trong hệ dịch Anh-Pháp
Một giả định về điều kiện độc lập đã được sử dụng:
1 1 1 1 1 1 1( | , , , ) ( | , )
K K K I K K KP y x u K e P y x u
Cho một ngữ đầu vào
1
Kx
, sẽ có 1 chuỗi chuyển đổi trật tự duy nhất
1
Kb
để chuyển từ
1
Kx
sang
1
Ky
;
1
Kb
sẽ cho biết việc đổi chỗ ngữ xk, cụ thể như sau:
, {1,2,..., }
kk k b
x y k K
. Mô hình được định nghĩa lại theo chuỗi chuyển đổi trật tự:
1 1 1
1 1 1
( | , )
( | , )
0
k
K K K
k bK K K
P b x u y k
P y x u
nguoclai
Mỗi bước chuyển đổi bk phụ thuộc vào cặp ngữ (xk, uk) và bước chuyển đổi trước đó
1
1
Kb
:
1 1 1 1
1
( | , ) ( | , , )
K
K K K
k k k k
k
P y x u P b x u
. Chuỗi chuyển đổi
1
Kb
có thể được mô tả
17
bằng một máy chuyển đổi trạng thái xác định (deterministic finite state machine).
1
1( )
Kb
là trạng thái đến của
1
1
Kb
, và
1K
được dùng để biểu diễn
1
1( )
Kb
. Như đã
trình bày ở trên, trong công trình của mình tác giả sử dụng hai mô hình WFST khác
nhau, mô hình MJ-1:
{0, 1, 1}kb
, và mô hình MJ-2:
{0, 1, 1, 2, 2}kb
. Hình
2.5a là qui trình chuyển đổi trật tự ngữ cho MJ-1, và hình 2.5b là mô hình trạng thái
WFST tương ứng.
a. Mô hình chuyển đổi ngữ
b. Mô hình trạng thái WFST
Hình 2.5 Mô hình chuyển đổi trật tự MJ-1
Với mô hình trên, xác suất chuyển đổi bk được tính theo công thức:
1 1
1
1 1 1
1
( , ) 1, 1
( | , , ( )) 1 ( , ) 0, 1
1 1, 2
k k k k
k
k k k k k k k
k k
x u b
P b x u b x u b
b
Mô hình MJ-2 giới hạn bước nhảy tối đa là hai ngữ và việc chuyển đổi trật tự diễn
ra trong cửa sổ 3. Điều kiện thứ hai có nghĩa là, với ngữ đầu vào là {a, b, c, d} thì
các chuyển đổi sau đây là không được phép {b, d, a, c; c, a, d, b; c, d, a, b}. Trong
18
máy chuyển đổi trạng thái cho MJ-2, một
1
1
Kb
có thể có 1 trong 6 trạng thái được mô
tả trong hình 2.6.
Hình 2.6 Qui trình chuyển đổi trật tự MJ-2
Các tác giả đã áp dụng mô hình đề nghị cho việc chuyển đổi trật tự ngữ và đạt được
kết quả khích lệ trong các thực nghiệm cho hệ dịch Ả Rập – Anh và Hoa – Anh.
2.2.2 Chuyển đổi trật tự câu ngôn ngữ nguồn
Ý tưởng chính của hướng tiếp cận này là nhằm tránh vấn đề dịch chéo (non-
monotonous translation) bằng cách chuyển đổi trật tự của câu ngôn ngữ nguồn.
Điều này giúp cho mô hình dịch không cần quan tâm đến xác suất chuyển đổi trật
tự; ngoài ra nó còn giúp cho giai đoạn giải mã của SMT có thể dịch trực tiếp từng từ
một (word-by-word) hay dịch theo ngữ (phrase-by-phrase) mà không quan tâm đến
trật tự từ/ngữ của hai ngôn ngữ. Thuận lợi chính của hướng tiếp cận này là câu ngôn
ngữ nguồn được cho trước, do vậy chúng ta sẽ có thêm thông tin cho quá trình
chuyển đổi trật tự. Đây cũng chính là lí do vì sao có rất nhiều công trình nghiên cứu
theo hướng này.
[19] sử dụng hướng tiếp cận này. Ý tưởng chính của tác giả là xem câu chuyển đổi
trật tự của ngôn ngữ nguồn như một ngôn ngữ mới và tạo ra một mô hình giống mô
hình dịch của SMT. Mô hình chuyển đổi này có từ vựng giống với từ vựng của
ngôn ngữ nguồn, nhưng có trật tự từ theo ngôn ngữ đích, như vậy chỉ có thể huấn
luyện mô hình này trên ngữ liệu song ngữ đã được chuyển đổi trật tự rồi
19
(monotonized corpus). Ngoài ra, mô hình này cũng không phụ thuộc vào câu dịch
đầu ra, chỉ cần dịch từng từ thì cũng đạt được độ chính xác khá cao. Từ những lý
luận trên, tác giả định nghĩa mô hình chuyển đổi theo công thức:
' arg max Pr( ) Pr( | )
r
r r
s
s s s s
Trong đó Pr(sr) là mô hình ngôn ngữ chuyển đổi và Pr(s|sr) là mô hình chuyển đổi.
Như đã nói ở trên, mô hình này hoàn toàn tương tự mô hình chính của SMT, do đó
tác giả dùng các phương pháp giải quyết cho mô hình của mình giống với mô hình
SMT. Tuy nhiên để giảm thiểu lỗi của mô hình chuyển đổi, tác giả nhận thấy sẽ tốt
hơn nếu phát sinh danh sách n ứng viên có thể có, sau đó dịch n ứng viên này sang
ngôn ngữ đích và chọn ứng viên cho xác suất cao nhất theo công thức (2) của SMT.
Tác giả đã thử nghiệm mô hình này cho hệ dịch tiếng Basque sang tiếng Tây Ban
Nha và làm tăng hiệu quả dịch khoảng 7% điểm BLEU.
Thực tế, dịch máy thống kê dựa trên ngữ cũng có mô hình chuyển đổi trật tự từ.
Trong giai đo