Chương trình và kết quả thực nghiệm về khai thác dữ liệu

Chương 4 giới thiệu vệ hệ thống mà luận văn đã xây dựng được, bên cạnh đó còn trình bày về các cách thử nghiệm cũng như kết quả của thử nghiệm. Từ các kết quả này ta sẽ tiến hành đánh giá những kết quả đạt được của hệ thống cũng như những hạn chế mà phương pháp sử dụng trong luận văn gặp phải.

23 trang | Chia sẻ: vietpd | Lượt xem: 1683 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Chương trình và kết quả thực nghiệm về khai thác dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM Chương 4 giới thiệu vệ hệ thống mà luận văn đã xây dựng được, bên cạnh đó còn trình bày về các cách thử nghiệm cũng như kết quả của thử nghiệm. Từ các kết quả này ta sẽ tiến hành đánh giá những kết quả đạt được của hệ thống cũng như những hạn chế mà phương pháp sử dụng trong luận văn gặp phải. Nội dung gồm các phần sau:  Giới thiệu về hệ thống.  Cách khai thác ngữ liệu song song.  Trình bày về việc thử nghiệm hệ thống.  Đánh giá các kết quả đạt được. 4.1 Kiến trúc hệ thống Hệ thống tìm kiếm xuyên ngữ Việt-Anh được xây dựng để thực hiện những công việc sau:  Cho phép người dùng nhập vào câu truy vấn bằng tiếng Việt.  Hệ thống tự động tách từ và chuyển ngữ các từ tiếng Việt sang tiếng Anh. Trong quá trình dịch dùng từ điển kết quả sẽ có thể có nhiều bản dịch của một từ tiếng Việt, do đó hệ thống cũng cần phải khử nhập nhằng các từ này. Phương pháp khử nhập nhằng được sử dụng ở đây là sử dụng xác suất dịch để chọn ra bản dịch tiếng Anh của từ tiếng Việt. Bản dịch nào có xác suất cao nhất sẽ được chọn, nếu có nhiều bản dịch có cùng xác suất dịch thì tất cả các bản dịch đó sẽ được chọn.  Sau quá trình dịch các câu truy vấn sẽ được gửi cho hệ thống tìm kiếm thông tin đơn ngữ thực hiện việc tìm kiếm và trả kết quả ra cho người dùng. Hệ thống có thể được trình bày như mô hình sau: 40 Hình 4.1 Mô hình hệ thống chương trình 4.1.1 Từ điển Từ điển được sử dụng để dịch câu truy vấn nhập từ người dùng là từ điển Việt Anh bao gồm 15000 từ tiếng Việt được tổ chức lại theo cấu trúc XML như sau: từ tiếng Việt từ loại nghĩa tiếng Anh lĩnh vực Người dùng Câu truy vấn tiếng Việt Câu truy vấn tiếng Anh Hệ tìm kiếm thông tin đơn ngữ Các tài liệu liên quan đến câu truy vấn bằng tiếng Anh, tiếng Việt Thống kê từ ngữ liệu Dịch Khử nhập nhằng Từ điển Chuyển ngữ 41 từ tham chiếu tiếng Việt từ đồng nghĩa tiếng Anh Ví dụ: ác khẩu a ác miệng ác miệng a foul-mouthed Quá trình dịch câu truy vấn bằng tiếng Việt được diễn ra như sau:  Hệ thống thực hiện tách từ dựa vào các từ điển đơn ngữ tiếng Việt (bao gồm từ điển từ ghép gồm 63251 từ, từ điển tiếng Việt gồm 56317 từ và từ điển danh từ tiếng Việt gồm 909 từ)  Thực hiện dịch các từ tiếng Việt có được từ quá trình tách từ bằng các so khớp với các từ tiếng Việt có trong từ điển, nếu từ đó có từ đồng nghĩ thì từ đồng nghĩa cũng được chọn. Nếu từ tiếng Việt có trong từ điển mà chỉ có từ tham chiếu thì sẽ tìm bản dịch tiếng Anh ở từ tham chiếu. Tuy nhiên, vẫn có trường hợp từ tiếng Việt không có trong từ điển. Khi đó chương trình sẽ trả về chính từ đó. 4.1.2 Thống kê từ ngữ liệu Kết quả thống kê từ ngữ liệu có được khi sử dụng GIZA++ để khai thác ngữ liệu song song (được mô tả ở phần sau). Kết quả thống kê được lưu trữ trong tập tin vn_en.snt (kết quả khi sử dụng công cụ GIZA++ khai thác ngữ liệu song song) theo cấu trúc như sau: Ví dụ: 4827 120 0.472075 có nghĩa là xác suất dịch từ từ nguồn có ID 4827 ra từ đích có ID 120 là 0.472075 42 Do bảng thống kê được lưu trữ theo ID của từ nên ta sử dụng thêm các tập tin từ vựng cho mỗi ngôn ngữ tiếng Việt (VnCorpus.vcb) và tiếng Anh (EnCorpus.vcb) (các tập tin này được tạo ra nhờ công cụ GIZA++ khi phân tích ngữ liệu song song, được mô tả ở phần sau). Các tập tin này sẽ được chương trình đọc lên để khởi tạo bộ dữ liệu thống kê để chương trình thực hiện việc so sánh xác suất dịch của từ tiếng Việt ra các bản dịch tiếng Anh được tìm thấy trong từ điển. Bộ dữ liệu thống kê được lưu trữ trong bảng Hash theo cấu trúc sau: Ta sử dụng từ tiếng Việt được tách từ câu truy vấn để tìm các bản dịch và xác suất dịch ra các bản dịch này (được khai thác từ ngữ liệu song song) để chọn bản dịch có xác suất dịch cao nhất trong các bản dịch có được sau khi dùng từ điển để dịch. Khi sử dụng xác suất dịch để khử nhập nhằng ta cần giải quyết các vấn đề sau:  Bản dịch được tìm thấy trong từ điển nhưng không có trong bộ dữ liệu thống kê.  Có nhiều bản dịch có cùng xác suất dịch trong bộ dữ liệu thống kê. Hệ thống chương trình chọn cách giải quyết các vấn đề trên như sau:  Khi bản dịch có trong từ điển mà không có trong bộ dữ liệu thống kê, khi đó ta sẽ xem như xác suất dịch của bản dịch này bằng 0.  Có nhiều bản dịch có cùng xác suất dịch, chương trình sẽ chọn tất cả các bản dịch này để đưa vào câu truy vấn đã được chuyển ngữ (câu truy vấn tiếng Anh được dịch từ câu tiếng Việt nhập bởi người sử dụng). 4.1.3 Chương trình thử nghiệm Chương trình thử nghiệm được xây dựng là một trang web có giao diện như sau: 43 Hình 4.2 Giao diện chương trình Dòng sự kiện của chương trình:  Người sử dụng nhập câu truy vấn bằng tiếng Việt (yêu cầu đúng chính tả).  Hệ thống sẽ thực hiện việc dịch bằng từ điển và khử nhập nhằng bằng xác suất dịch của từ tiếng Việt trong bảng xác suất dịch có được từ việc khai thác ngữ liệu song song.  Người sử dụng chọn tìm kiếm, chương trình sử dụng câu truy vấn tiếng Việt (nhập bởi người sử dụng) và câu truy vấn tiếng Anh (được chuyển ngữ từ câu tiếng Việt trong hệ thống) để tìm kiếm thông qua Google. Sau khi tìm kiếm với Google, hệ thống nhận kết quả trả về từ Google và hiển thị kết quả lên cho người sử dụng.  Người sử dụng có thể chọn kết quả hiển thị chỉ là tiếng Anh hay vừa tiếng Anh vừa tiếng Việt. Nếu kết quả hiển thị được chọn là tiếng Anh thì chỉ có các kết quả tìm kiếm từ câu truy vấn chuyển ngữ tiếng Anh được trả về. Nếu kết quả hiển thị được chọn là tiếng Anh và tiếng Việt, thì kết quả tìm kiếm từ câu chuyển ngữ tiếng Anh và câu truy vấn tiếng Việt 44 được trả về và được sắp xếp theo thứ tự một kết quả tiếng Anh đến một kết quả tiếng Việt. Sử dụng hệ thống với lựa chọn chỉ hiển thị kết quả tiếng Anh: Hình 4.3 Chương tình hiển thị kết quả tiếng Anh Hệ thống thực hiện tìm kiếm với kết quả hiển thị là tiếng Việt và tiếng Anh: 45 Hình 4.4 Chương trình hiển thị kết quả bằng tiếng Việt và tiếng Anh 4.2 Khai thác ngữ liệu song song Ngữ liệu song song là một tập văn bản gồm 2500 câu tiếng Việt và tiếng Anh được sắp xếp theo thứ tự các dòng tương ứng là bản dịch của nhau. Ngữ liệu song song được lưu trữ trong hai tập tin riêng biệt nhưng vẫn đảm bảo các dòng tương ứng liên quan với nhau. 46 Bảng 4.1 Bảng ngữ liệu song song Ngữ liệu tiếng Việt Ngữ liệu tiếng Anh * Bạn đã từng xem một cảnh kỳ thú trên phim hay đã từng xem một bức tranh mà trông như thật đến nỗi bạn nghĩ là một bức ảnh chưa ? * Và bạn có ngỡ ngàng khi học được cách làm những điều đó trên máy tính không ? * Nếu có , thì chắc chắn chẳng phải mình bạn đâu * Chúng ta sẽ không hết ngạc nhiên vì những kết quả hoàn hảo nhờ sự giúp đỡ của máy tính và chúng ta sẽ thú vị bởi sự phức tạp của nó * Vì lý do này , nhiều người cho rằng máy tính thật khó hiểu và khó sử dụng * Tuy nhiên , hầu hết chúng ta không hiểu rằng , cơ bản máy tính là một thiết bị đơn giản và tất cả các máy tính đều có một sự đồng nhất * Hầu hết các máy tính từ lớn nhất cho đến nhỏ nhất đều thao tác dựa vào các qui tắc căn bản như nhau * Tất cả đều được xây dựng trên các kiểu bộ phận cấu thành như nhau và đều * Have you ever watched an incredible scene in a movie , or seen a drawing that looked so realistic you thought it was a photograph ? * Afterward , were you amazed to learn that it was done on a computer ? * If so , you are certainly not alone . * We are endlessly surprised by the feats accomplished with the help of computers , and we marvel at their complexity . * For this reason , many people assume that computers must be difficult to understand and difficult to use . * Most of us do not realize , however , that computers are basically simple devices , and all computers have a great deal in common . * Most computers from the biggest to the smallest operate on the same fundamental principles . * They are all fabricated from the same basic types of components , 47 cần phải có các chỉ dẫn để điều khiển chúng hoạt động * Là bước đầu tiên để hiểu và học cách sử dụng máy tính , bài học này cung cấp cho bạn một cái nhìn cơ bản về loại máy hấp dẫn này * Chúng ta sẽ học các kiểu phần cứng mà tất cả các máy tính đều sử dụng , và các kiểu phần mềm vận hành chúng * Chúng ta cũng sẽ thấy rằng nếu không có người sử dụng - người nào đó như bạn - thì một hệ thống máy tính sẽ thực sự không đầy đủ * Liệt kê bốn phần của một hệ thống máy tính * Xác định bốn kiểu phần cứng máy tính ………… and they all need instructions to make them run . * As a first step toward understanding and learning to use computers , this lesson gives you a peek at these fascinating machines . * You will learn about the types of hardware that all computer systems use , and the types of software that make them run . * Yours truly, will also see that without a user - someone like you - a computer system is not really complete . * List the four parts of a computer system . * Identify four types of computer hardware . ………… Để xây dựng thông tin thống kê từ ngữ liệu song song luận văn sử dụng công cụ GIZA++ phiên bản 1.03 (xem thêm phần 3.2) để khai thác ngữ liệu song song. Ngữ liệu song song được sử dụng là ngữ liệu song song mô tả ở trên. Tiền xử lý ngữ liệu song song 48 Do công cụ GIZA++ chỉ hỗ trợ tốt cho các ngôn ngữ như là tiếng Anh, đó là các ngôn ngữ mà từng từ có thể được phân biệt dựa vào việc phân cách từ (bằng khoảng trắng, các dấu câu...). Đối với ngôn ngữ tiếng Việt, việc phân biệt các từ dựa vào các dấu hiệu phân cách như vậy sẽ cho ta một kết quả không chính xác. Do đó ta cần xử lý ngữ liệu tiếng Việt trước khi sử dụng công cụ GIZA++ để khai thác thông tin thống kê của ngữ liệu. Việc tách từ tiếng được dựa vào các từ điển đơn ngữ cho tiếng Việt, các từ được nhận diện sẽ được kết nối với nhau bằng dấu gạch dưới ( _ ) để tạo thành một từ duy nhất. Việc tạo liên kết như vậy sẽ giúp cho việc tách từ bằng các dấu phân cách câu được thực hiện dễ dàng hơn, giống như việc tách từ cho tiếng Anh. Khi đó, sẽ giúp cho GIZA++ tách từ một cách chính xác và có thể khai thác ngữ liệu để có được các thống kê về ngữ liệu. Ngữ liệu tiếng Việt trước khi xử lý: * Bạn đã từng xem một cảnh kỳ thú trên phim hay đã từng xem một bức tranh mà trông như thật đến nỗi bạn nghĩ là một bức ảnh chưa ? * Và bạn có ngỡ ngàng khi học được cách làm những điều đó trên máy tính không ? * Nếu có , thì chắc chắn chẳng phải mình bạn đâu * Chúng ta sẽ không hết ngạc nhiên vì những kết quả hoàn hảo nhờ sự giúp đỡ của máy tính và chúng ta sẽ thú vị bởi sự phức tạp của nó * Vì lý do này , nhiều người cho rằng máy tính thật khó hiểu và khó sử dụng * Tuy nhiên , hầu hết chúng ta không hiểu rằng , cơ bản máy tính là một thiết bị đơn giản và tất cả các máy tính đều có một sự đồng nhất * Hầu hết các máy tính từ lớn nhất cho đến nhỏ nhất đều thao tác dựa vào các qui tắc căn bản như nhau ............ Ngữ liệu tiếng Việt sau khi thực hiện xử lý các từ: * Bạn đã từng xem một cảnh kỳ_thú trên phim hay đã từng xem một bức tranh mà trông như thật đến_nỗi bạn nghĩ là một bức ảnh chưa ? * Và bạn có ngỡ_ngàng khi học được cách_làm những điều_đó trên máy_tính không ? * Nếu có , thì chắc_chắn chẳng phải mình bạn đâu 49 * Chúng_ta sẽ không hết ngạc_nhiên vì những kết_quả hoàn_hảo nhờ sự giúp_đỡ của máy_tính và chúng_ta sẽ thú_vị bởi sự phức_tạp của_nó * Vì lý_do này , nhiều người_cho rằng máy_tính thật khó_hiểu và khó_sử_dụng * Tuy_nhiên , hầu hết chúng_ta không hiểu rằng , cơ_bản máy_tính là một_thiết_bị đơn_giản và tất_cả các máy tính_đều có một sự đồng_nhất * Hầu hết các máy tính_từ lớn_nhất cho_đến nhỏ_nhất đều thao_tác dựa vào các qui tắc căn_bản như nhau ............ Sau khi thực hiện việc tách từ cho ngữ liệu tiếng Việt thì ngữ liệu tiếng Việt bây giờ có thể được xử lý như tiếng Anh (có thể tách từ bằng cách dựa vào các dấu phân cách trong câu). Sau đó ta sử dụng công cụ được cung cấp trong GIZA++ plain2snt.out để tạo các tập tin đầu vào sử dụng cho các mô hình dịch. Thực hiện câu lệnh sau: plain2snt.out corpus.vn corpus.en Ta sẽ có được các tập tin đầu vào: corpus.vn.vcb, corpus.en.vcb, và corpus.vn_corpus.en.snt (cấu trúc các tập tin này được mô tả ở phần 3.2). Sau đó thực hiện quá trình huấn luyện cho mô hình dịch sử dụng GIZA++ bằng cách thực hiện câu lệnh sau trên môi trường Linux: corpus.vn.vcb 2 Bạn 62 3 đã 346 4 từng 24 5 xem 59 6 một 772 7 cảnh 3 8 kỳ_thú 2 9 trên 245 10 phim 10 corpus.en.vcb 2 Have 4 3 you 326 4 ever 11 5 watched 2 6 an 174 7 incredible 4 8 scene 2 9 in 705 10 a 1089 corpus.vn_corpus.en.snt 1 2 3 4 5 6 7 8 9 10 11 3 4 5 6 12 13 14 15 16 17 18 19 20 21 6 12 22 23 24 2 3 4 5 6 7 8 9 10 11 12 13 14 10 15 16 17 18 19 3 20 21 22 10 23 24 1 25 19 26 27 28 29 30 31 32 33 9 34 35 24 25 12 26 3 27 28 29 16 21 22 30 31 10 32 24 50 trainGIZA++.sh corpus.vn.vcb corpus.en.vcb corpus.vn_corpus.en.snt Ta có được các bảng xác suất (bảng xác suất dịch t, bảng xác suất đảo từ...) tương ứng với các từ trong ngữ liệu. Trong luận văn chỉ sử dụng bảng xác suất dịch để xác định xác suất dịch của một từ tiếng Việt ra các từ tiếng Anh. Bảng xác suất dịch sau khi sử dụng GIZA++ khai thác ngữ liệu song song ở trên được lưu trong tập tin GIZA++.t3.final có nội dung như trong Bảng 4.2 (xem thêm về cấu trúc tập tin này ở phần 3.2). Bảng 4.2 Bảng kết quả xác suất dịch GIZA++.t3.final 5337 16 0.124912 3649 4971 0.999298 1779 421 0.399748 3479 4825 0.16655 3479 4826 0.16655 3479 4827 0.16655 680 2273 0.0742019 680 2310 0.148404 680 2328 0.074202 5167 29 0.166531 510 2017 0.000216541 510 2020 0.0626402 850 3072 0.138092 5167 305 0.1666 1439 10 0.106795 5088 4784 0.124912 1439 38 0.0017997 5507 1247 0.100051 3388 461 3.32089e-05 3139 4457 0.166119 51 3139 4458 0.166119 3388 484 0.249807 2459 2723 0.166593 2969 4044 0.249625 4997 9 0.199886 1439 161 0.369527 4068 2297 0.332014 4997 75 0.199895 3218 134 0.108627 850 3338 0.137919 5088 4996 0.124913 2289 2446 0.505259 3218 211 0.109524 4997 182 0.199895 3218 299 0.10862 3218 318 0.129501 1269 10 0.199496 4.3 Kết quả thử nghiệm Để đánh giá hệ thống có thực hiện tốt hay không ta dựa trên độ chính xác của hệ tìm kiếm thông tin. Ở đây do hệ thống sử dụng Google như công cụ tìm kiếm cho các câu truy vấn ở cả hai ngôn ngữ tiếng Việt và tiếng Anh nên ta không thể tính được độ chính xác trên toàn bộ các tập tài liệu. Vì vậy ta sử dụng độ chính xác top- k. Ta sẽ thử nghiệm với k = 50, có nghĩa là ta tính độ chính xác dựa trên 50 kết quả đầu tiên trả về từ hệ tìm kiếm Google. Việc thử nghiệm được tiến hành trên một tập 50 câu truy vấn tiếng Việt và 50 bản dịch tiếng Anh của các câu truy vấn này. Các câu truy vấn này không thuộc 2500 cặp câu trong ngữ liệu song song dùng để khai thác các kết quả thống kê từ 52 mô hình dịch sử dụng công cụ GIZA++ đã nêu ở trên. Tập câu hỏi gồm 50 câu tiếng Việt này được xây dựng dựa trên các tiêu chí như sau:  Những câu hỏi gồm 1 từ hoặc 2 từ như: cối xay gió, tôn giáo…  Những câu hỏi gồm nhiều từ riêng rẽ (không có cấu trúc) như: cây rừng không khí…  Những câu hỏi gồm các từ đơn giản, phổ biến như: ô nhiễm môi trường, khủng hoảng kinh tế…  Câu hỏi gồm những từ đặc biệt như: thời đại trung cổ, cúm gia cầm…  Câu hỏi là các câu có cấu trúc như: hướng dẫn cách làm bánh, thay đổi về chính sách tiền tệ… Danh sách các câu hỏi được liệt kê trong Bảng 4.3. Bảng 4.3 Bảng câu hỏi thử nghiệm Thứ tự Câu hỏi tiếng Việt Câu hỏi tiếng Anh Tiêu chí 1 lạm phát inflation 1 từ hoặc 2 từ 2 cối xay gió windmill 3 giáo dục education 4 tôn giáo religion 5 nhà hàng restaurant 6 tên lửa missile 7 phân tích thiết kế cơ sở dữ liệu database design and analysis 8 du lịch bằng xe lửa máy bay travel by train or airplane Nhiều từ riêng rẽ 9 cây rừng không khí tree forest air 10 sông hồ nước ngọt river lake water 11 khủng bố cao ốc máy bay terrorism building airplane 12 thị trường địa ốc real estate market 13 hội nghị thượng đỉnh summit meeting 14 trang trí nội thất inhouse decoration 15 thị trường chứng khoán toàn cầu global stock market Những từ đơn giản phổ biến 16 giàn khoan dầu oil rig 17 khủng hoảng kinh tế economic crisis 18 ô nhiễm môi trường air pollution 19 rượu vang đỏ red wine 20 trận động đất earthquake 21 phương pháp điện phân electrolysis Những từ đặc biệt 22 thời đại trung cổ medieval time 23 mã não tourmaline 24 vũ khí hạt nhân nuclear weapon 25 bùng nổ dân số population explosion 26 thông tin đội đặc nhiệm Information of Special Detachment 53 27 nhà chọc trời skycraper 28 trung tâm mua sắm shopping mall 29 cúm gia cầm bird flu 30 mạng không dây wireless network 31 kiêu hãnh và thành kiến pride and prejudice 32 chế độ dân chủ democracy 33 giao dịch trái phiếu bond trade 34 ma cà rồng vampire 35 khủng hoảng tài chính toàn cầu global financial crisis Câu có cấu trúc 36 hệ thống giáo dục tại Hoa Kỳ education system in US 37 du lịch bằng kinh khí cầu travelling by airship 38 lãi suất của ngân hàng bank interest 39 trang phục mùa hè summer costume 40 trang trí phòng tắm hiện đại decorade modern bath room 41 hướng dẫn cách làm bánh cake making intruction 42 làm gì khi bị say xe what should do when having car sick 43 địa điểm đi du lịch vào mùa hè place to travel in summer 44 dự báo thời tiết hôm nay weather forecase for today 45 di chuyển bằng xe máy trong thành phố travelling by motorbike in the city 46 thay đổi về chính sách tiền tệ change for monetary policy 47 lợi ích của việc di chuyển bằng xe buýt advantage of travelling by bus 48 kiểu nhà trong thành phố house model in the city 49 ngành nông nghiệp lúa nước rice agriculture 50 tuổi thọ của chó dog's age Việc xây dựng tập câu hỏi bao gồm nhiều tiêu chí như trên để đảm bảo việc thử nghiệm được trải rộng trên nhiều trường hợp khác nhau nhằm mục đích đánh giá hệ thống một cách đầy đủ hơn. Tập câu hỏi bao gồm 50 câu hỏi tiếng Việt sau khi được xây dựng theo các tiêu chí trên sẽ được dịch sang tiếng Anh. Việc dịch sang tiếng Anh này do người có trình độ tiếng Anh tốt dịch nhằm đảm bảo tính đúng đắn khi dịch. Việc thử nghiệm được tiến hành bằng cách tìm kiếm xuyên ngữ bằng nhiều phương pháp khác nhau nhằm mục đích so sánh giữa các phương pháp tìm kiếm xuyên ngữ (trong đó bao gồm cả cách tiếp cận của luận văn). Bên cạnh đó, việc tìm kiếm đơn ngữ trên tập câu hỏi tiếng Anh cũng được thực hiện để có thể so sánh kết quả đạt được của tìm kiếm xuyên ngữ với kết quả tìm kiếm đơn ngữ. 54 Với mỗi câu truy vấn tiếng Việt, hệ thống thực hiện chuyển ngữ và tìm kiếm thông qua Google với câu truy vấn là câu chuyển ngữ tiếng Anh (tìm kiếm xuyên ngữ). Việc chuyển ngữ được thực hiện theo ba cách nhằm mục đích so sánh: chỉ sử dụng từ điển để chuyển ngữ, sử dụng kết quả thống kê để chuyển ngữ, và kết hợp việc sử dụng từ điển và kết quả thống kê có được bằng cách sử dụng GIZA++ khai thác ngữ liệu song song (đây là hướng tiếp cận của luận văn). Bên cạnh đó, việc tìm kiếm xuyên ngữ còn được thực hiện bằng cách tách từ câu truy vấn tiếng Việt dựa vào các khoảng trắng trong câu và thực hiện chuyển ngữ bằng việc sử dụng kết quả thống kê do sử GIZA++ khai thác ngữ liệu song song mà trong đó ngữ liệu tiếng Việt không qua bước tiền xử lý tách từ tiếng Việt (như đã nêu trong phần 4.2 ở trên). Ngoài ra, nhằm mục đích so sánh giữa các cách chuyển ngữ, việc thử nghiệm còn sử dụng Google Translator để dịch các câu truy vấn tiếng Việt sang tiếng Anh và ti