Chương 2 trình bày các cơ sở lý thuyết mà dựa vào đó hệ thống được xây dựng.
Chương 2 sẽ trình bày hướng tiếp cận sử dụng từ điển và trình bày lý thuyết tổng
quan về các mô hình dịch của IBM mà luận văn khai thác để xây dựng hệ thống.
Chương 2 bao gồm các nội dung như sau:
16 trang |
Chia sẻ: vietpd | Lượt xem: 1546 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Giới thiệu về từ điển máy đọc (Machine Readable Dictionary –MRD), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
18
Chương 2: CƠ SỞ LÝ THUYẾT
Chương 2 trình bày các cơ sở lý thuyết mà dựa vào đó hệ thống được xây dựng.
Chương 2 sẽ trình bày hướng tiếp cận sử dụng từ điển và trình bày lý thuyết tổng
quan về các mô hình dịch của IBM mà luận văn khai thác để xây dựng hệ thống.
Chương 2 bao gồm các nội dung như sau:
Từ điển máy đọc.
Các phương pháp khử nhập nhằng.
Mô hình thống kê.
2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary
– MRD)
2.1.1 Vai trò của MRD
Việc xử lý ngôn ngữ cho tiếng Anh và các ngôn ngữ phổ biến trên thế giời ngày
càng phổ biến và cũng đã đạt được những thành tựu đáng kể. Đối với tiếng Việt, các
kết quả còn hạn chế vì nhiều nguyên nhân khác nhau. Một trong các nguyên nhân là
thiếu những cơ sở dữ liệu cần thiết cho việc xử lý ngôn ngữ tự nhiên bằng máy tính.
Một trong những cơ sở dữ liệu đó chính là cơ sở dữ liệu từ điển tiếng Việt chuyên
dùng cho máy tính để xử lý tiếng Việt.
Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bước khác nhau,
như: phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn
bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từ
điển điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc cần thiết nhất cho
việc xử lý ngôn ngữ chính là cần phải xây dựng được từ điển điện tử mà máy tính
có thể “đọc” được (từ điển này được gọi tắt là MRD: Machine Readable
Dictionary). Ở đây chúng ta cần phân biệt MRD với từ điển điện tử dành cho người,
các từ điển điện tử dùng cho người mặc dù ở dạng điện tử nhưng không phải cho
máy sử dụng. Chẳng hạn chúng chứa một số thông tin mà máy không cần biết như
19
các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải thích… MRD
chứa các thông tin được coi là hiển nhiên, những thông tin này không có trong các
từ điển cho người vì con người có thể suy ra chúng bằng những tri thức về thế giới
thực hay từ vốn sống.
Từ điển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu
trúc và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc
được giao một cách tự động. Vì vậy, để xây dựng được từ điển MRD này, chúng ta
phải giải quyết triệt để về tiêu chí lựa chọn mục từ. Đây là vấn đề vô cùng nan giải
vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ
tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ
phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách trình bày.
Tuyệt đối không thể ghi nhập nhằng như từ điển của người dùng. Ngoài ra, việc tổ
chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương thích với
các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này cũng
cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh
chóng.
2.1.2 Sử dụng từ điển
Chúng ta có thể sử dụng từ điển MRD trong nhiều bài toán xử lý ngôn ngữ tự
nhiên khác nhau. Trong tìm kiếm thông tin xuyên ngữ ta sử dụng từ điển MRD song
ngữ, đây là từ điển mà trong đó các từ hoặc cụm từ ở một ngôn ngữ được dịch sang
ngôn ngữ khác. Từ điển song ngữ có thể là một chiều, tức bao gồm một danh sách
các từ trong ngôn ngữ này được dịch sang ngôn ngữ khác, hoặc là hai chiều, tức cho
phép người sử dụng tra cứu từ ở ngôn ngữ này sang ngôn ngữ khác và ngược lại.
Bên cạnh đó ta còn có thể tìm thấy các thông tin khác trong từ điển song ngữ như từ
loại, các biến cách của từ, các thông tin về văn phạm… Tất cả các thông tin này
được tổ chức trong một từ điển MRD song ngữ để máy có thể hiểu được và tiến
hành truy xuất nhanh chóng hỗ trợ cho quá trình dịch trong hệ tìm kiếm thông tin
xuyên ngữ.
20
2.2 Các phương pháp khử nhập nhằng
2.2.1 Giới thiệu
Việc dịch toàn bộ tài liệu của một tập lớn các tài liệu là một việc làm mất khá
nhiều thời gian và chi phí, do đó việc nghiên cứu trong lĩnh vực tìm kiếm xuyên
ngữ chủ yếu tập trung vào các phương pháp để chuyển ngữ câu truy vấn. Có nhiều
phương pháp để dịch câu truy vấn như dịch dựa trên từ điển, dùng ngữ liệu song
song hoặc ngữ liệu so sánh để xây dựng mô hình dịch hay sử dụng kỹ thuật dịch
máy. Trong đó phương pháp dịch dựa trên từ điển đã được trình bày ở trên. Phương
pháp này cho nhiều kết quả đầy hứa hẹn, tuy nhiên phương pháp này vẫn còn
khuyết điểm khi sử dụng cho các hệ thống tìm kiếm xuyên ngữ. Một trong số đó là
việc dịch bằng từ điển sẽ cho kết quả có nhiều bản dịch chứ không phải chỉ một bản
dịch duy nhất. Do đó cần phải áp dụng thêm các biện pháp khác để giải quyết tính
nhập nhằng của các bản dịch.
Nhập nhằng có thể do từ đồng âm hay do từ đa nghĩa. Từ đồng âm là từ giống
nhau nhưng nghĩa thì khác nhau và các nghĩa này không có liên hệ với nhau, từ đa
nghĩa là từ có nhiều ý nghĩa và các ý nghĩa này thường có liên hệ với nhau; ví dụ
như một nghĩa nào đó của từ đa nghĩa có thể là ẩn ý từ một nghĩa khác. Đây là các
nhập nhằng về nghĩa trong ngôn ngữ, ta có thể giải quyết các nhập nhằng này bằng
cách đánh dấu từ loại để phân biệt nghĩa của từ trong từng câu. Bên cạnh đó việc
phải chuyển ngữ trong hệ tìm kiếm thông tin xuyên ngữ gây ra sự nhập nhằng khác,
đó là nhập nhằng khi dịch. Trong khi dịch một từ ở ngôn ngữ này có thể được dịch
ra thành nhiều từ trong ngôn ngữ khác, khi đó gây ra sự nhập nhằng do có nhiều bản
dịch. Ta phải áp dụng các phương pháp khử nhập nhằng để có thể chọn ra được bản
dịch đúng nhất trong số các bản dịch có được. Sau đây sẽ là phần trình bày về các
phương pháp khử nhập nhằng khi dịch dựa trên từ điển.
2.2.2 Khử nhập nhằng
Độ hiệu quả của tìm kiếm xuyên ngữ khi sử dụng MRD có thể thấp hơn so với
tìm kiếm đơn ngữ. Việc dịch đơn giản bằng MRD gây ra những bản dịch nhập
21
nhằng. Các câu truy vấn có thể được dịch bằng cách thay thế các từ trong ngôn ngữ
nguồn bằng một từ hoặc nhiều từ tương đương trong ngôn ngữ đích. Lỗi dịch xảy ra
là do 3 nguyên nhân sau:
Việc thêm nhiều từ không liên quan vào câu truy vấn. Điều này là do một
mục từ trong từ điển có thể chỉ liệt kê một vài nghĩa của từ, và mỗi nghĩa lại
có một hoặc nhiều cách dịch.
Thuật ngữ kỹ thuật thường không được tìm thấy trong từ điển chung.
Lỗi gây ra khi dịch các cụm từ như là một ngữ.
Tiếp theo ta sẽ tìm hiểu về hai cách khử nhập nhằng đó là dùng tần số đồng xuất
hiện và dựa vào ngữ liệu song song.
Dùng tần số đồng suất hiện
Các bản dịch chính xác của các từ trong câu truy vấn có thể sẽ đồng xuất hiện
trong các tài liệu của ngôn ngữ đích và các bản dịch không chính xác có khuynh
hướng không đồng xuất hiện. Cho các bản dịch có thể của hai từ trong ngôn ngữ
nguồn, chúng ta sẽ tìm ra bản dịch tốt nhất bằng cách tính tần số đồng xuất hiện cho
từng cặp từ.
Chúng ta sẽ minh họa cách tính tần số đồng suất hiện của các cặp từ qua ví dụ
sau. Cho hai từ trong ngôn ngữ nguồn, tìm tất cả các bản dịch có thể với cùng từ
loại cho mỗi từ. Phát sinh một tập các cặp {a, b} trong đó a là bản dịch của từ thứ
nhất, b là bản dịch của từ thứ hai. Tính tần số đồng xuất hiện của mỗi phần tử trong
tập bằng ma trận em.
Trong đó: n
a
, n
b
là số lần a, b xuất hiện trong ngữ liệu
n
ab
là số lần cả a và b xuất hiện trong một văn bản có t từ
22
N: số văn bản trong ngữ liệu.
Mỗi tập sẽ được sắp xếp theo điểm em và tập đứng đầu sẽ được chọn là bản dịch
thích hợp. Nếu có nhiều hơn một tập đứng đầu, thì tất cả các bản dịch đó đều được
chọn. Việc lựa chọn được thực hiện thông qua một mô hình thống kê dựa trên tỉ lệ
của tần số đồng xuất hiện cho một bản dịch so với tần số đồng xuất hiện của tất cả
các bản dịch.
Dựa vào ngữ liệu song song
Ngữ liệu song song chứa một tập các tài liệu và bản dịch của chúng ở một hoặc
nhiều ngôn ngữ khác. Việc phân tích các tập tài liệu này có thể suy ra cách dịch tốt
nhất giữa các ngôn ngữ có trong tài liệu. L.Ballesteros đã sử dụng việc phân tích
ngữ liệu song song để quan sát tác động của việc khử nhập nhằng lên tính hiệu quả
của CLIR. Kỹ thuật này là một cải tiến kỹ thuật đã được sử dụng trong đề tài của
Davis và Odgen [4].
Câu truy vấn của ngôn ngữ nguồn đầu tiên được đánh thẻ từ loại. Mỗi cụm từ
trong câu truy vấn nguồn được thay thế bởi tất các bản dịch có cùng từ loại có thể
có trong ngôn ngữ đích. Nếu không có bản dịch nào thích hợp cho một thẻ của cụm
từ trong câu truy vấn thì các bản dịch của tất cả các từ loại được liệt kê trong từ điển
sẽ được trả về. Có thể có một hoặc nhiều cách dịch một cụm từ cho trước. Khi
nhiều cách dịch được trả về, cụm từ tốt nhất được chọn thông qua việc khử nhập
nhằng bằng ngữ liệu song song. L.Ballesteros đã tiến hành khử nhập nhằng như sau:
sử dụng 30 tài liệu tiếng Tây Ban Nha đầu tiên được tìm kiếm từ ngữ liệu song song
bằng một câu truy vấn tiếng Tây Ban Nha, từ đó trích ra 5000 cụm từ đầu tiên trong
các tài liệu tiếng Anh tương đương với 30 tài liệu tiếng Tây Ban Nha nói trên. Các
bản dịch của một từ trong câu truy vấn được sắp xếp dựa trên điểm của chúng trong
danh sách 5000 cụm từ. Các bản dịch ở đầu bảng được chọn là bản dịch tốt nhất cho
từ đó. Nếu không có bản dịch nào trong danh sách, thì không thực hiện việc khử
nhập nhằng và tất cả các bản dịch đều được chọn. Cách khử nhập nhằng dựa vào
23
ngữ liệu song song cũng bao gồm việc mở rộng câu truy vấn để làm giảm việc tạo
ra các bản dịch sai trong quá trình dịch do câu truy vấn quá ngắn [15].
Davis [5] thực hiện khử nhập nhằng bằng cách: tìm kiếm câu truy vấn gốc tiếng
Anh trong ngữ liệu tiếng Anh của ngữ liệu song song, sau đó các bản dịch tiếng Tây
Ban Nha sẽ được dùng như là câu truy vấn tiếng Tây Ban Nha để tìm kiếm trên ngữ
liệu tiếng Tây Ban Nha trong ngữ liệu song song. Câu truy vấn tiếng Tây Ban Nha
nào mà chọn được tài liệu tương đương với tài liệu tiếng Anh tìm được khi dùng
câu truy vấn tiếng Anh sẽ được xem là bản dịch của câu tiếng Anh.
So sánh hai phương pháp
Lisa Ballesteros [16] đã đánh giá độ hiệu quả của hai phương pháp này bằng
cách dịch từng từ tất cả 60 cụm từ dựa vào từ điển và sau đó lần lượt khử nhập
nhằng bằng cả hai phương pháp. Kết quả khử nhập nhằng sẽ được người đánh giá.
Theo dự đoán của L.Ballesteros thì phương pháp dựa trên tần số đồng xuất hiện
cũng cho kết quả tương đương với phương pháp dựa trên ngữ liệu song song.
Bảng 2.1 Bảng so sánh giữa các phương pháp
Khử nhập nhằng chính
xác bằng ngữ liệu song
song
Khử nhập nhằng không
chính xác bằng ngữ
liệu song song
Khử nhập nhằng chính
xác bằng tần số đồng
xuất hiện
36 11
Khử nhập nhằng không
chính xác bằng tần số
đồng xuất hiện
3 10
Các lỗi trong phương pháp dựa trên ngữ liệu là liên quan đến việc có rất ít hoặc
không có tài liệu nào liên quan đến câu truy vấn. Nguyên nhân là do phạm vi hẹp
hoặc do các lĩnh vực khác nhau của các ngữ liệu song song mà chúng ta có. Nghiên
cứu của L. Ballesteros dựa trên ngữ liệu song song chứa các tài liệu liên quan đến
24
vấn đề hòa bình và an ninh quốc tế, và sức khỏe và giáo dục ở các quốc gia phát
triển. Tập các câu truy vấn cũng khái quát hơn. Mặc dù từ điển có một số từ vựng
về các lĩnh vực chuyên ngành nhưng việc thiếu các tài liệu có liên quan sẽ ngăn
chặn việc khử nhập nhằng câu truy vấn trong các lĩnh vực riêng biệt.
Lisa Ballesteros dùng phương pháp dịch từng từ (word by word) để dịch các câu
truy vấn và các ngữ danh từ sẽ được dịch thông qua từ điển ngữ danh từ. Phương
pháp dựa trên tần số đồng xuất hiện (CO) khử nhập nhằng các bản dịch dựa trên
TSĐXH của nó với các bản dịch khác trong cùng một ngữ. Phương pháp dựa trên
ngữ liệu song song sử dụng ngữ cảnh của câu truy vấn khử nhập nhằng tất cả các
bản dịch bất chấp là bản dịch đó có nằm trong ngữ hay không. L.Ballesteros cũng
đã thực hiện so sánh hai phương pháp này với hệ thống dịch máy SYSTRAN.
Sử dụng cơ sở ban đầu là việc dịch từng từ (word by word), bảng 2.1 so sánh
hiệu quả của CO, PLC với hai hệ thống dịch máy. Hệ thống đầu tiên là hệ thống tìm
kiếm web T1 và thứ hai là hệ thống SYSTRAN. Bảng này cũng cho thấy hiệu quả
của tìm kiếm xuyên ngữ so với đơn ngữ.
Bảng 2.2 Bảng so sánh kết quả CO và PLC với hai hệ thống dịch máy
Phương pháp Độ chính xác % thay đổi % so với đơn
ngữ
Đơn ngữ 0.3869 -
Word by word 0.2331 60
Ngữ liệu song
song (PLC)
0.2551 9.4 65
Tần số đồng xuất
hiện (CO)
0.3057 31.1 79
T1 0.3066 31.5 79
SYSTRAN 0.2584 10.8 67
Qua đó ta thấy việc sử dụng tần số đồng xuất hiện để khử nhập nhằng có thể đạt
được những kết quả khả quan cho việc chuyển ngữ. Tuy nhiên, ta thấy việc tính
25
toán tần số đồng xuất hiện chỉ quan tâm đến mối liên hệ giữa các cặp từ một cách
riêng lẻ chứ không phải trong tổng thể câu.
Sau đây ta sẽ tìm hiểu về các mô hình thống kê được dùng để khai thác ngữ liệu
song song nhằm phân tích sác xuất thống kê (như xác suất dịch, xác suất liên kết
từ…) để phục vụ cho việc chuyển ngữ bằng phương pháp thống kê.
2.3 Mô hình thống kê
2.3.1 Giới thiệu
Các tài liệu song ngữ mà máy tính có thể đọc được ngày càng phát triển dẫn đến
việc phát triển các phương pháp khai thác thông tin ngôn ngữ từ những tài liệu này.
Một ví dụ là trong những thập niên gần đây có nhiều nghiên cứu nhằm giải quyết
vấn đề đạt được các liên kết ở mức câu một cách tự động từ ngữ liệu song song. Các
nghiên cứu của Brown, Lai, va Mercer năm 1991; Gale va Church năm 1991;
Brown et al. (1990)... đều cho thấy rằng có thể tạo ra được liên kết từng cặp câu ở
hai ngôn ngữ mà không cần kiểm tra các từ trong từng câu. Có nhiều thuật toán
khác nhau để thực hiện công việc đó như: thuật toán căn cứ vào số từ trong câu
hoặc thuật toán căn cứ vào số tiếng của câu... Điểm chung của các thuật toán này đó
là tất cả đều sử dụng phương pháp thống kê để đạt được mục tiêu về ngôn ngữ.
Nghiên cứu của Borwn et al. đã đưa ra cách tiếp cận bằng thống kê để dịch từ
tiếng Pháp sang tiếng Anh. Trong một vài nghiên cứu sau đó, họ đã phát triển thuật
toán để ước lượng xác suất một từ tiếng Anh được dịch bởi một từ tiếng Pháp và đã
sử dụng các xác suất này trong một mô hình dịch bằng thống kê để khai thác các
liên kết của các từ trong một câu tiếng Anh và các từ trong một câu tiếng Pháp. Các
cặp câu song song với các liên kết từ như vậy là nguồn tài nguyên có giá trị cho
việc tạo từ điển song ngữ và dùng cho dịch máy.
2.3.2 Dịch bằng xác suất thống kê
Vào năm 1949, Warren Weaver đã đưa ra đề nghị áp dụng thống kê nhằm giải
quyết vấn đề sử dụng máy tính để dịch văn bản từ một ngôn ngữ này sang ngôn ngữ
26
khác. Những nỗ lực theo hướng này nhanh chóng bị gạt bỏ vì những lý do về mặt lý
thuyết, nhưng vào thời điểm máy tính đạt được những phát triển mới thì những
hướng đi như vậy lại trở nên cần thiết trong việc tính toán bằng máy tính. Ngày nay,
nhiều người áp dụng những ứng dụng dùng phương pháp thống kê trong lĩnh vực
dịch máy.
Một câu tiếng Anh (bao gồm nhiều từ tiếng Anh), gọi là e, có thể được dịch sang
một câu tiếng Pháp bằng rất nhiều cách. Trong việc dịch bằng xác suất thống kê,
chúng ta giả sử rằng tất cả các câu tiếng Pháp, gọi là f, có khả năng là một bản dịch
của e. Khi đó chúng ta gán cho mỗi cặp câu (e, f) một con số là Pr(f|e) mà chúng ta
gọi nó là xác suất mà một nhà dịch thuật sẽ xem f như là một bản dịch của e. Chúng
ta có thể đưa ra một ngữ cảnh xa hơn đó là một người bản xứ Pháp khi đưa ra một
câu tiếng Pháp, anh ta sẽ nghĩ đến một câu tiếng Anh mà anh ta tự dịch trong đầu.
Như vậy, khi đưa ra một câu tiếng Pháp f, công việc của hệ thống dịch của chúng ta
là tìm một câu tiếng Anh e mà người Pháp nghĩ trong đầu khi đưa cho anh ta f.
Chúng ta sẽ làm nhỏ cơ hội dịch lỗi bằng việc chọn từ tiếng Anh ê mà Pr(e|f) là lớn
nhất.
Sử dụng luật Bayes ta có thể viết :
Pr(e|f) = Pr(e)Pr(f|e)/Pr(f)
Do mẫu số ở đây không phụ thuộc vào e nên việc tìm ê đồng nghĩa với việc tìm
e để tích Pr(e)Pr(f|e) lớn nhất có thể. Vì vậy ta có thể viết:
ê = argmaxe Pr(e)Pr(f|e)
Chúng ta có thể hình dung ra cách một người dịch một câu từ tiếng Pháp sang
tiếng Anh, họ sẽ duyệt một danh sách tất cả các câu tiếng Anh để tính xác xuất xuất
hiện của câu tiếng Anh đó, đây chính là Pr(e), và tính xác xuất điều kiện để một câu
tiếng Pháp là bản dịch của một câu tiếng Anh, đây chính là Pr(f|e).
Từ một góc nhìn khác, ta có thể xem Pr(f|e) như là một bảng khổng lồ chứa
những con số từ 0 đến 1 của mỗi cặp câu tiếng Pháp và tiếng Anh có thể. Bằng việc
lựa chọn từ sự phân bố này, ta có thể có được bản dịch có chất lượng cao. Tuy
nhiên việc làm sao có thể thiết lập được Pr(f|e) bằng việc khai thác từng cặp câu
27
Pháp và Anh cũng là một vấn đề cần quan tâm vì trong ngữ liệu song song có quá
nhiều cặp câu là bản dịch của nhau.
Công thức trên đặt ra ba vấn đề khó khăn cho việc thực hiện dịch bằng xác suất
thống kê: tính xác suất mô hình ngôn ngữ Pr(e), tính xác suất mô hình dịch Pr(f|e)
và cách để đạt được hiệu quả khi tìm kiếm câu tiếng Anh e thỏa điều kiện đạt được
giá trị lớn nhất Pr(e)Pr(f|e). Chúng ta gọi các vấn đề này lần lượt là: vấn đề về mô
hình ngôn ngữ, vấn đề về mô hình dịch và vấn đề tìm kiếm.
Ở đây có một câu hỏi được đặt ra đó là tại sao chúng ta cần tính hai xác suất
Pr(e) và Pr(f|e) thay vì tính xác suất Pr(e|f) trực tiếp. Chúng ta có thể hình dung ra
khi chúng ta dịch một câu tiếng Pháp sang tiếng Anh, chúng ta sẽ nghĩ trong đầu
một câu phổ biến tiếng Pháp và chọn một câu phổ biến tiếng Anh với hy vọng lựa
chọn đó là tốt. Vì vậy Pr(e|f) sẽ tập trung xác suất của nó càng nhiều càng tốt vào
những từ phổ biến của tiếng Anh. Nhưng điều này thì không quan trọng với mô
hình Pr(f|e) bởi vì mô hình này chỉ tập trung xác suất vào những câu phổ biến tiếng
Pháp. Và cho dù chúng ta trải rộng xác suất sang các câu không phổ biến tiếng Pháp
thì kết quả dịch của chúng ta vẫn không thay đổi vì kết quả dịch phụ thuộc sự lớn
nhất của giá trị Pr(e)Pr(f|e). Nếu ta sử dụng mô hình Pr(e|f) trực tiếp kết quả là mô
hình sẽ chỉ tập trung vào các câu phổ biến tiếng Anh mà thôi và như vậy kết quả
dịch đôi khi sẽ thiếu hoặc không chính xác.
Sử dụng công thức argmaxePr(e)Pr(f|e) chúng ta sẽ có hai yếu tố. Đó là xác suất
mô hình dịch lớn cho các từ tiếng Anh, cho dù từ đó là phổ biến hay không, mà có
thể giải thích được ý nghĩa của tiếng Pháp. Và yếu tố thứ hai đó là xác suất mô hình
ngôn ngữ lớn chỉ với những từ tiếng Anh có định dạng đúng (phổ biến và đúng ngữ
pháp) có liên quan trực tiếp đến từ tiếng Pháp. Ở đây chúng ta có thể hình dung quá
trình dịch sẽ bao gốm các bước như sau: đầu tiên chúng ta sẽ lựa chọn tất cả các
chuỗi từ tiếng Anh có thể mà giải nghĩa được các từ tiếng Pháp (đây chính là mô
hình dịch), và sau đó chúng ta sẽ lựa chọn lại từ tiếng Anh nào hợp lý, đúng ngữ
pháp nhất làm bản dịch của từ tiếng Pháp (đây là mô hình ngôn ngữ).
28
2.3.3 Mô hình ngôn ngữ
Mô hình ngôn ngữ dùng để xác định một câu tiếng Anh e xuất hiện như thế nào.
Chúng ta dùng xác suất Pr(e) để xác định việc xuất hiện của e là nhiều hay ít.
Chúng ta có thể hình dung việc tính giá trị của Pr(e) như sau: đó là số lần e xuất
hiện trong một tập hợp văn bản tiếng Anh cho trước. Tuy nhiên, có một vấn đề lớn
trong việc tính Pr(e), đó là sẽ có nhiều câu tiếng Anh có xác suất Pr(e) bằng không
vì e không xuất hiên trong tập hợp văn bản tiếng Anh. Việc có được một tập hợp
văn bản tiếng Anh đầy đủ mọi trường hợp là một việc hầu như không thể đạt được
đối với một ngôn ngữ. Để giải quyết vấn đề này ta có thể xem một câu tiếng Anh
gồm nhiều phần khác nhau và việc hình thành câu là do các phần này được kết hợp
lại với nhau. Nếu các thành phần này là tốt và chúng kết hợp được với nhau theo
một cách nào đó thì chúng ta có thể xem đó là một câu tiếng Anh. Đối với câu thì
các thành phần chính là các chuỗi con của câu. Giả sử cho một chuỗi e1e2…en,
không mất tính tổng quát ta có thể viết như sau:
Pr(e1e2…en) = Pr(e1)Pr(e2|e1