Giới thiệu về từ điển máy đọc (Machine Readable Dictionary –MRD)

Chương 2 trình bày các cơ sở lý thuyết mà dựa vào đó hệ thống được xây dựng. Chương 2 sẽ trình bày hướng tiếp cận sử dụng từ điển và trình bày lý thuyết tổng quan về các mô hình dịch của IBM mà luận văn khai thác để xây dựng hệ thống. Chương 2 bao gồm các nội dung như sau:

16 trang | Chia sẻ: vietpd | Lượt xem: 1796 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Giới thiệu về từ điển máy đọc (Machine Readable Dictionary –MRD), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

18 Chương 2: CƠ SỞ LÝ THUYẾT Chương 2 trình bày các cơ sở lý thuyết mà dựa vào đó hệ thống được xây dựng. Chương 2 sẽ trình bày hướng tiếp cận sử dụng từ điển và trình bày lý thuyết tổng quan về các mô hình dịch của IBM mà luận văn khai thác để xây dựng hệ thống. Chương 2 bao gồm các nội dung như sau:  Từ điển máy đọc.  Các phương pháp khử nhập nhằng.  Mô hình thống kê. 2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary – MRD) 2.1.1 Vai trò của MRD Việc xử lý ngôn ngữ cho tiếng Anh và các ngôn ngữ phổ biến trên thế giời ngày càng phổ biến và cũng đã đạt được những thành tựu đáng kể. Đối với tiếng Việt, các kết quả còn hạn chế vì nhiều nguyên nhân khác nhau. Một trong các nguyên nhân là thiếu những cơ sở dữ liệu cần thiết cho việc xử lý ngôn ngữ tự nhiên bằng máy tính. Một trong những cơ sở dữ liệu đó chính là cơ sở dữ liệu từ điển tiếng Việt chuyên dùng cho máy tính để xử lý tiếng Việt. Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bước khác nhau, như: phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từ điển điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc cần thiết nhất cho việc xử lý ngôn ngữ chính là cần phải xây dựng được từ điển điện tử mà máy tính có thể “đọc” được (từ điển này được gọi tắt là MRD: Machine Readable Dictionary). Ở đây chúng ta cần phân biệt MRD với từ điển điện tử dành cho người, các từ điển điện tử dùng cho người mặc dù ở dạng điện tử nhưng không phải cho máy sử dụng. Chẳng hạn chúng chứa một số thông tin mà máy không cần biết như 19 các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải thích… MRD chứa các thông tin được coi là hiển nhiên, những thông tin này không có trong các từ điển cho người vì con người có thể suy ra chúng bằng những tri thức về thế giới thực hay từ vốn sống. Từ điển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu trúc và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc được giao một cách tự động. Vì vậy, để xây dựng được từ điển MRD này, chúng ta phải giải quyết triệt để về tiêu chí lựa chọn mục từ. Đây là vấn đề vô cùng nan giải vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách trình bày. Tuyệt đối không thể ghi nhập nhằng như từ điển của người dùng. Ngoài ra, việc tổ chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương thích với các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này cũng cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh chóng. 2.1.2 Sử dụng từ điển Chúng ta có thể sử dụng từ điển MRD trong nhiều bài toán xử lý ngôn ngữ tự nhiên khác nhau. Trong tìm kiếm thông tin xuyên ngữ ta sử dụng từ điển MRD song ngữ, đây là từ điển mà trong đó các từ hoặc cụm từ ở một ngôn ngữ được dịch sang ngôn ngữ khác. Từ điển song ngữ có thể là một chiều, tức bao gồm một danh sách các từ trong ngôn ngữ này được dịch sang ngôn ngữ khác, hoặc là hai chiều, tức cho phép người sử dụng tra cứu từ ở ngôn ngữ này sang ngôn ngữ khác và ngược lại. Bên cạnh đó ta còn có thể tìm thấy các thông tin khác trong từ điển song ngữ như từ loại, các biến cách của từ, các thông tin về văn phạm… Tất cả các thông tin này được tổ chức trong một từ điển MRD song ngữ để máy có thể hiểu được và tiến hành truy xuất nhanh chóng hỗ trợ cho quá trình dịch trong hệ tìm kiếm thông tin xuyên ngữ. 20 2.2 Các phương pháp khử nhập nhằng 2.2.1 Giới thiệu Việc dịch toàn bộ tài liệu của một tập lớn các tài liệu là một việc làm mất khá nhiều thời gian và chi phí, do đó việc nghiên cứu trong lĩnh vực tìm kiếm xuyên ngữ chủ yếu tập trung vào các phương pháp để chuyển ngữ câu truy vấn. Có nhiều phương pháp để dịch câu truy vấn như dịch dựa trên từ điển, dùng ngữ liệu song song hoặc ngữ liệu so sánh để xây dựng mô hình dịch hay sử dụng kỹ thuật dịch máy. Trong đó phương pháp dịch dựa trên từ điển đã được trình bày ở trên. Phương pháp này cho nhiều kết quả đầy hứa hẹn, tuy nhiên phương pháp này vẫn còn khuyết điểm khi sử dụng cho các hệ thống tìm kiếm xuyên ngữ. Một trong số đó là việc dịch bằng từ điển sẽ cho kết quả có nhiều bản dịch chứ không phải chỉ một bản dịch duy nhất. Do đó cần phải áp dụng thêm các biện pháp khác để giải quyết tính nhập nhằng của các bản dịch. Nhập nhằng có thể do từ đồng âm hay do từ đa nghĩa. Từ đồng âm là từ giống nhau nhưng nghĩa thì khác nhau và các nghĩa này không có liên hệ với nhau, từ đa nghĩa là từ có nhiều ý nghĩa và các ý nghĩa này thường có liên hệ với nhau; ví dụ như một nghĩa nào đó của từ đa nghĩa có thể là ẩn ý từ một nghĩa khác. Đây là các nhập nhằng về nghĩa trong ngôn ngữ, ta có thể giải quyết các nhập nhằng này bằng cách đánh dấu từ loại để phân biệt nghĩa của từ trong từng câu. Bên cạnh đó việc phải chuyển ngữ trong hệ tìm kiếm thông tin xuyên ngữ gây ra sự nhập nhằng khác, đó là nhập nhằng khi dịch. Trong khi dịch một từ ở ngôn ngữ này có thể được dịch ra thành nhiều từ trong ngôn ngữ khác, khi đó gây ra sự nhập nhằng do có nhiều bản dịch. Ta phải áp dụng các phương pháp khử nhập nhằng để có thể chọn ra được bản dịch đúng nhất trong số các bản dịch có được. Sau đây sẽ là phần trình bày về các phương pháp khử nhập nhằng khi dịch dựa trên từ điển. 2.2.2 Khử nhập nhằng Độ hiệu quả của tìm kiếm xuyên ngữ khi sử dụng MRD có thể thấp hơn so với tìm kiếm đơn ngữ. Việc dịch đơn giản bằng MRD gây ra những bản dịch nhập 21 nhằng. Các câu truy vấn có thể được dịch bằng cách thay thế các từ trong ngôn ngữ nguồn bằng một từ hoặc nhiều từ tương đương trong ngôn ngữ đích. Lỗi dịch xảy ra là do 3 nguyên nhân sau:  Việc thêm nhiều từ không liên quan vào câu truy vấn. Điều này là do một mục từ trong từ điển có thể chỉ liệt kê một vài nghĩa của từ, và mỗi nghĩa lại có một hoặc nhiều cách dịch.  Thuật ngữ kỹ thuật thường không được tìm thấy trong từ điển chung.  Lỗi gây ra khi dịch các cụm từ như là một ngữ. Tiếp theo ta sẽ tìm hiểu về hai cách khử nhập nhằng đó là dùng tần số đồng xuất hiện và dựa vào ngữ liệu song song. Dùng tần số đồng suất hiện Các bản dịch chính xác của các từ trong câu truy vấn có thể sẽ đồng xuất hiện trong các tài liệu của ngôn ngữ đích và các bản dịch không chính xác có khuynh hướng không đồng xuất hiện. Cho các bản dịch có thể của hai từ trong ngôn ngữ nguồn, chúng ta sẽ tìm ra bản dịch tốt nhất bằng cách tính tần số đồng xuất hiện cho từng cặp từ. Chúng ta sẽ minh họa cách tính tần số đồng suất hiện của các cặp từ qua ví dụ sau. Cho hai từ trong ngôn ngữ nguồn, tìm tất cả các bản dịch có thể với cùng từ loại cho mỗi từ. Phát sinh một tập các cặp {a, b} trong đó a là bản dịch của từ thứ nhất, b là bản dịch của từ thứ hai. Tính tần số đồng xuất hiện của mỗi phần tử trong tập bằng ma trận em. Trong đó: n a , n b là số lần a, b xuất hiện trong ngữ liệu n ab là số lần cả a và b xuất hiện trong một văn bản có t từ 22 N: số văn bản trong ngữ liệu. Mỗi tập sẽ được sắp xếp theo điểm em và tập đứng đầu sẽ được chọn là bản dịch thích hợp. Nếu có nhiều hơn một tập đứng đầu, thì tất cả các bản dịch đó đều được chọn. Việc lựa chọn được thực hiện thông qua một mô hình thống kê dựa trên tỉ lệ của tần số đồng xuất hiện cho một bản dịch so với tần số đồng xuất hiện của tất cả các bản dịch. Dựa vào ngữ liệu song song Ngữ liệu song song chứa một tập các tài liệu và bản dịch của chúng ở một hoặc nhiều ngôn ngữ khác. Việc phân tích các tập tài liệu này có thể suy ra cách dịch tốt nhất giữa các ngôn ngữ có trong tài liệu. L.Ballesteros đã sử dụng việc phân tích ngữ liệu song song để quan sát tác động của việc khử nhập nhằng lên tính hiệu quả của CLIR. Kỹ thuật này là một cải tiến kỹ thuật đã được sử dụng trong đề tài của Davis và Odgen [4]. Câu truy vấn của ngôn ngữ nguồn đầu tiên được đánh thẻ từ loại. Mỗi cụm từ trong câu truy vấn nguồn được thay thế bởi tất các bản dịch có cùng từ loại có thể có trong ngôn ngữ đích. Nếu không có bản dịch nào thích hợp cho một thẻ của cụm từ trong câu truy vấn thì các bản dịch của tất cả các từ loại được liệt kê trong từ điển sẽ được trả về. Có thể có một hoặc nhiều cách dịch một cụm từ cho trước. Khi nhiều cách dịch được trả về, cụm từ tốt nhất được chọn thông qua việc khử nhập nhằng bằng ngữ liệu song song. L.Ballesteros đã tiến hành khử nhập nhằng như sau: sử dụng 30 tài liệu tiếng Tây Ban Nha đầu tiên được tìm kiếm từ ngữ liệu song song bằng một câu truy vấn tiếng Tây Ban Nha, từ đó trích ra 5000 cụm từ đầu tiên trong các tài liệu tiếng Anh tương đương với 30 tài liệu tiếng Tây Ban Nha nói trên. Các bản dịch của một từ trong câu truy vấn được sắp xếp dựa trên điểm của chúng trong danh sách 5000 cụm từ. Các bản dịch ở đầu bảng được chọn là bản dịch tốt nhất cho từ đó. Nếu không có bản dịch nào trong danh sách, thì không thực hiện việc khử nhập nhằng và tất cả các bản dịch đều được chọn. Cách khử nhập nhằng dựa vào 23 ngữ liệu song song cũng bao gồm việc mở rộng câu truy vấn để làm giảm việc tạo ra các bản dịch sai trong quá trình dịch do câu truy vấn quá ngắn [15]. Davis [5] thực hiện khử nhập nhằng bằng cách: tìm kiếm câu truy vấn gốc tiếng Anh trong ngữ liệu tiếng Anh của ngữ liệu song song, sau đó các bản dịch tiếng Tây Ban Nha sẽ được dùng như là câu truy vấn tiếng Tây Ban Nha để tìm kiếm trên ngữ liệu tiếng Tây Ban Nha trong ngữ liệu song song. Câu truy vấn tiếng Tây Ban Nha nào mà chọn được tài liệu tương đương với tài liệu tiếng Anh tìm được khi dùng câu truy vấn tiếng Anh sẽ được xem là bản dịch của câu tiếng Anh. So sánh hai phương pháp Lisa Ballesteros [16] đã đánh giá độ hiệu quả của hai phương pháp này bằng cách dịch từng từ tất cả 60 cụm từ dựa vào từ điển và sau đó lần lượt khử nhập nhằng bằng cả hai phương pháp. Kết quả khử nhập nhằng sẽ được người đánh giá. Theo dự đoán của L.Ballesteros thì phương pháp dựa trên tần số đồng xuất hiện cũng cho kết quả tương đương với phương pháp dựa trên ngữ liệu song song. Bảng 2.1 Bảng so sánh giữa các phương pháp Khử nhập nhằng chính xác bằng ngữ liệu song song Khử nhập nhằng không chính xác bằng ngữ liệu song song Khử nhập nhằng chính xác bằng tần số đồng xuất hiện 36 11 Khử nhập nhằng không chính xác bằng tần số đồng xuất hiện 3 10 Các lỗi trong phương pháp dựa trên ngữ liệu là liên quan đến việc có rất ít hoặc không có tài liệu nào liên quan đến câu truy vấn. Nguyên nhân là do phạm vi hẹp hoặc do các lĩnh vực khác nhau của các ngữ liệu song song mà chúng ta có. Nghiên cứu của L. Ballesteros dựa trên ngữ liệu song song chứa các tài liệu liên quan đến 24 vấn đề hòa bình và an ninh quốc tế, và sức khỏe và giáo dục ở các quốc gia phát triển. Tập các câu truy vấn cũng khái quát hơn. Mặc dù từ điển có một số từ vựng về các lĩnh vực chuyên ngành nhưng việc thiếu các tài liệu có liên quan sẽ ngăn chặn việc khử nhập nhằng câu truy vấn trong các lĩnh vực riêng biệt. Lisa Ballesteros dùng phương pháp dịch từng từ (word by word) để dịch các câu truy vấn và các ngữ danh từ sẽ được dịch thông qua từ điển ngữ danh từ. Phương pháp dựa trên tần số đồng xuất hiện (CO) khử nhập nhằng các bản dịch dựa trên TSĐXH của nó với các bản dịch khác trong cùng một ngữ. Phương pháp dựa trên ngữ liệu song song sử dụng ngữ cảnh của câu truy vấn khử nhập nhằng tất cả các bản dịch bất chấp là bản dịch đó có nằm trong ngữ hay không. L.Ballesteros cũng đã thực hiện so sánh hai phương pháp này với hệ thống dịch máy SYSTRAN. Sử dụng cơ sở ban đầu là việc dịch từng từ (word by word), bảng 2.1 so sánh hiệu quả của CO, PLC với hai hệ thống dịch máy. Hệ thống đầu tiên là hệ thống tìm kiếm web T1 và thứ hai là hệ thống SYSTRAN. Bảng này cũng cho thấy hiệu quả của tìm kiếm xuyên ngữ so với đơn ngữ. Bảng 2.2 Bảng so sánh kết quả CO và PLC với hai hệ thống dịch máy Phương pháp Độ chính xác % thay đổi % so với đơn ngữ Đơn ngữ 0.3869 - Word by word 0.2331 60 Ngữ liệu song song (PLC) 0.2551 9.4 65 Tần số đồng xuất hiện (CO) 0.3057 31.1 79 T1 0.3066 31.5 79 SYSTRAN 0.2584 10.8 67 Qua đó ta thấy việc sử dụng tần số đồng xuất hiện để khử nhập nhằng có thể đạt được những kết quả khả quan cho việc chuyển ngữ. Tuy nhiên, ta thấy việc tính 25 toán tần số đồng xuất hiện chỉ quan tâm đến mối liên hệ giữa các cặp từ một cách riêng lẻ chứ không phải trong tổng thể câu. Sau đây ta sẽ tìm hiểu về các mô hình thống kê được dùng để khai thác ngữ liệu song song nhằm phân tích sác xuất thống kê (như xác suất dịch, xác suất liên kết từ…) để phục vụ cho việc chuyển ngữ bằng phương pháp thống kê. 2.3 Mô hình thống kê 2.3.1 Giới thiệu Các tài liệu song ngữ mà máy tính có thể đọc được ngày càng phát triển dẫn đến việc phát triển các phương pháp khai thác thông tin ngôn ngữ từ những tài liệu này. Một ví dụ là trong những thập niên gần đây có nhiều nghiên cứu nhằm giải quyết vấn đề đạt được các liên kết ở mức câu một cách tự động từ ngữ liệu song song. Các nghiên cứu của Brown, Lai, va Mercer năm 1991; Gale va Church năm 1991; Brown et al. (1990)... đều cho thấy rằng có thể tạo ra được liên kết từng cặp câu ở hai ngôn ngữ mà không cần kiểm tra các từ trong từng câu. Có nhiều thuật toán khác nhau để thực hiện công việc đó như: thuật toán căn cứ vào số từ trong câu hoặc thuật toán căn cứ vào số tiếng của câu... Điểm chung của các thuật toán này đó là tất cả đều sử dụng phương pháp thống kê để đạt được mục tiêu về ngôn ngữ. Nghiên cứu của Borwn et al. đã đưa ra cách tiếp cận bằng thống kê để dịch từ tiếng Pháp sang tiếng Anh. Trong một vài nghiên cứu sau đó, họ đã phát triển thuật toán để ước lượng xác suất một từ tiếng Anh được dịch bởi một từ tiếng Pháp và đã sử dụng các xác suất này trong một mô hình dịch bằng thống kê để khai thác các liên kết của các từ trong một câu tiếng Anh và các từ trong một câu tiếng Pháp. Các cặp câu song song với các liên kết từ như vậy là nguồn tài nguyên có giá trị cho việc tạo từ điển song ngữ và dùng cho dịch máy. 2.3.2 Dịch bằng xác suất thống kê Vào năm 1949, Warren Weaver đã đưa ra đề nghị áp dụng thống kê nhằm giải quyết vấn đề sử dụng máy tính để dịch văn bản từ một ngôn ngữ này sang ngôn ngữ 26 khác. Những nỗ lực theo hướng này nhanh chóng bị gạt bỏ vì những lý do về mặt lý thuyết, nhưng vào thời điểm máy tính đạt được những phát triển mới thì những hướng đi như vậy lại trở nên cần thiết trong việc tính toán bằng máy tính. Ngày nay, nhiều người áp dụng những ứng dụng dùng phương pháp thống kê trong lĩnh vực dịch máy. Một câu tiếng Anh (bao gồm nhiều từ tiếng Anh), gọi là e, có thể được dịch sang một câu tiếng Pháp bằng rất nhiều cách. Trong việc dịch bằng xác suất thống kê, chúng ta giả sử rằng tất cả các câu tiếng Pháp, gọi là f, có khả năng là một bản dịch của e. Khi đó chúng ta gán cho mỗi cặp câu (e, f) một con số là Pr(f|e) mà chúng ta gọi nó là xác suất mà một nhà dịch thuật sẽ xem f như là một bản dịch của e. Chúng ta có thể đưa ra một ngữ cảnh xa hơn đó là một người bản xứ Pháp khi đưa ra một câu tiếng Pháp, anh ta sẽ nghĩ đến một câu tiếng Anh mà anh ta tự dịch trong đầu. Như vậy, khi đưa ra một câu tiếng Pháp f, công việc của hệ thống dịch của chúng ta là tìm một câu tiếng Anh e mà người Pháp nghĩ trong đầu khi đưa cho anh ta f. Chúng ta sẽ làm nhỏ cơ hội dịch lỗi bằng việc chọn từ tiếng Anh ê mà Pr(e|f) là lớn nhất. Sử dụng luật Bayes ta có thể viết : Pr(e|f) = Pr(e)Pr(f|e)/Pr(f) Do mẫu số ở đây không phụ thuộc vào e nên việc tìm ê đồng nghĩa với việc tìm e để tích Pr(e)Pr(f|e) lớn nhất có thể. Vì vậy ta có thể viết: ê = argmaxe Pr(e)Pr(f|e) Chúng ta có thể hình dung ra cách một người dịch một câu từ tiếng Pháp sang tiếng Anh, họ sẽ duyệt một danh sách tất cả các câu tiếng Anh để tính xác xuất xuất hiện của câu tiếng Anh đó, đây chính là Pr(e), và tính xác xuất điều kiện để một câu tiếng Pháp là bản dịch của một câu tiếng Anh, đây chính là Pr(f|e). Từ một góc nhìn khác, ta có thể xem Pr(f|e) như là một bảng khổng lồ chứa những con số từ 0 đến 1 của mỗi cặp câu tiếng Pháp và tiếng Anh có thể. Bằng việc lựa chọn từ sự phân bố này, ta có thể có được bản dịch có chất lượng cao. Tuy nhiên việc làm sao có thể thiết lập được Pr(f|e) bằng việc khai thác từng cặp câu 27 Pháp và Anh cũng là một vấn đề cần quan tâm vì trong ngữ liệu song song có quá nhiều cặp câu là bản dịch của nhau. Công thức trên đặt ra ba vấn đề khó khăn cho việc thực hiện dịch bằng xác suất thống kê: tính xác suất mô hình ngôn ngữ Pr(e), tính xác suất mô hình dịch Pr(f|e) và cách để đạt được hiệu quả khi tìm kiếm câu tiếng Anh e thỏa điều kiện đạt được giá trị lớn nhất Pr(e)Pr(f|e). Chúng ta gọi các vấn đề này lần lượt là: vấn đề về mô hình ngôn ngữ, vấn đề về mô hình dịch và vấn đề tìm kiếm. Ở đây có một câu hỏi được đặt ra đó là tại sao chúng ta cần tính hai xác suất Pr(e) và Pr(f|e) thay vì tính xác suất Pr(e|f) trực tiếp. Chúng ta có thể hình dung ra khi chúng ta dịch một câu tiếng Pháp sang tiếng Anh, chúng ta sẽ nghĩ trong đầu một câu phổ biến tiếng Pháp và chọn một câu phổ biến tiếng Anh với hy vọng lựa chọn đó là tốt. Vì vậy Pr(e|f) sẽ tập trung xác suất của nó càng nhiều càng tốt vào những từ phổ biến của tiếng Anh. Nhưng điều này thì không quan trọng với mô hình Pr(f|e) bởi vì mô hình này chỉ tập trung xác suất vào những câu phổ biến tiếng Pháp. Và cho dù chúng ta trải rộng xác suất sang các câu không phổ biến tiếng Pháp thì kết quả dịch của chúng ta vẫn không thay đổi vì kết quả dịch phụ thuộc sự lớn nhất của giá trị Pr(e)Pr(f|e). Nếu ta sử dụng mô hình Pr(e|f) trực tiếp kết quả là mô hình sẽ chỉ tập trung vào các câu phổ biến tiếng Anh mà thôi và như vậy kết quả dịch đôi khi sẽ thiếu hoặc không chính xác. Sử dụng công thức argmaxePr(e)Pr(f|e) chúng ta sẽ có hai yếu tố. Đó là xác suất mô hình dịch lớn cho các từ tiếng Anh, cho dù từ đó là phổ biến hay không, mà có thể giải thích được ý nghĩa của tiếng Pháp. Và yếu tố thứ hai đó là xác suất mô hình ngôn ngữ lớn chỉ với những từ tiếng Anh có định dạng đúng (phổ biến và đúng ngữ pháp) có liên quan trực tiếp đến từ tiếng Pháp. Ở đây chúng ta có thể hình dung quá trình dịch sẽ bao gốm các bước như sau: đầu tiên chúng ta sẽ lựa chọn tất cả các chuỗi từ tiếng Anh có thể mà giải nghĩa được các từ tiếng Pháp (đây chính là mô hình dịch), và sau đó chúng ta sẽ lựa chọn lại từ tiếng Anh nào hợp lý, đúng ngữ pháp nhất làm bản dịch của từ tiếng Pháp (đây là mô hình ngôn ngữ). 28 2.3.3 Mô hình ngôn ngữ Mô hình ngôn ngữ dùng để xác định một câu tiếng Anh e xuất hiện như thế nào. Chúng ta dùng xác suất Pr(e) để xác định việc xuất hiện của e là nhiều hay ít. Chúng ta có thể hình dung việc tính giá trị của Pr(e) như sau: đó là số lần e xuất hiện trong một tập hợp văn bản tiếng Anh cho trước. Tuy nhiên, có một vấn đề lớn trong việc tính Pr(e), đó là sẽ có nhiều câu tiếng Anh có xác suất Pr(e) bằng không vì e không xuất hiên trong tập hợp văn bản tiếng Anh. Việc có được một tập hợp văn bản tiếng Anh đầy đủ mọi trường hợp là một việc hầu như không thể đạt được đối với một ngôn ngữ. Để giải quyết vấn đề này ta có thể xem một câu tiếng Anh gồm nhiều phần khác nhau và việc hình thành câu là do các phần này được kết hợp lại với nhau. Nếu các thành phần này là tốt và chúng kết hợp được với nhau theo một cách nào đó thì chúng ta có thể xem đó là một câu tiếng Anh. Đối với câu thì các thành phần chính là các chuỗi con của câu. Giả sử cho một chuỗi e1e2…en, không mất tính tổng quát ta có thể viết như sau: Pr(e1e2…en) = Pr(e1)Pr(e2|e1