Luận văn Ứng dụng phân hạng tổng hợp cho bài toán so khớp lược đồ

So khớp lược đồ đã được tập trung nghiên cứu rất nhiều trong hai thập kỷ qua và đã có rất nhiều kỹ thuật được đề xuất để giải quyết bài toán này. Trong chương này, chúng ta tìm hiểu một số thành tựu đạt được trong lĩnh vực so khớp lược đồ, qua đó đánh giá những ưu điểm và hạn chế của từng công trình nghiên cứu.

pdf25 trang | Chia sẻ: vietpd | Lượt xem: 1414 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận văn Ứng dụng phân hạng tổng hợp cho bài toán so khớp lược đồ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
8 Chương 2- Một số thành tựu đạt được trong lĩnh vực so khớp lược đồ trả về một ánh xạ lược đồ So khớp lược đồ đã được tập trung nghiên cứu rất nhiều trong hai thập kỷ qua và đã có rất nhiều kỹ thuật được đề xuất để giải quyết bài toán này. Trong chương này, chúng ta tìm hiểu một số thành tựu đạt được trong lĩnh vực so khớp lược đồ, qua đó đánh giá những ưu điểm và hạn chế của từng công trình nghiên cứu. 2.1. Phát biểu bài toán so khớp lược đồ Lược đồ là một tập các phần tử có quan hệ với nhau, như tập các bảng, các cột trong lược đồ quan hệ hay các phần tử XML và các thuộc tính trong mô hình XML,…So khớp lược đồ là xác định sự tương ứng về ngữ nghĩa giữa các phần tử trong hai lược đồ khác nhau. Ví dụ 2.1 Cho hai lược đồ XML PO và Purchaseorder (là một phần lược đồ được trích từ hai lược đồ XML là PO và PurchaseOrder từ XCBL1 và được trình bày chi tiết trong PHỤ LỤC B) như sau: 1 www.xcbl.org 9 Hình 2.1- Hai lược đồ XML PO và PurchaseOrder Trong hai lược đồ ở Hình 2.1, hai phần tử PO.POShipTo và PurchaseOrder.DeliverTo tương ứng về ngữ nghĩa với nhau và được gọi là so khớp (match) với nhau vì chúng thể hiện cùng một khái niệm, đó là địa điểm (tên đường và thành phố) giao hàng của đơn đặt hàng tương ứng. Thao tác so khớp trong Hình 2.2 được định nghĩa như một hàm có dữ liệu vào là hai lược đồ S1, S2, và trả về một ánh xạ lược đồ . 10 Hình 2.2- Hàm so khớp lược đồ Một ánh xạ lược đồ là một tập các ánh xạ phần tử xác định các phần tử của hai lược đồ so khớp với nhau. Mỗi phần tử ánh xạ có thể có một biểu diễn ánh xạ thể hiện mối quan hệ giữa các phần tử của hai lược đồ quan hệ với nhau, biểu diễn ánh xạ có thể có hướng, hoặc vô hướng. Nó có thể sử dụng các quan hệ vô hướng (như =, ≤ ), các hàm (như hàm nối chuỗi,…), các mối quan hệ kiểu mô hình thực thể kết hợp (như “is-a”, “part-of”), các mối kết hợp hướng tập hợp (như chồng lắp, bao gồm),… Ví dụ 2.2 Trong hai lược đồ XML ở Hình 2.1, mỗi đường nối giữa một phần tử của lược đồ PO với một phần tử của lược đồ PurchaseOrder là một ánh xạ phần tử thể hiện mối quan hệ giữa chúng. Kết quả so khớp lược đồ là một ánh xạ lược đồ chứa tất cả các ánh xạ phần tử. Có rất nhiều công trình nghiên cứu cho bài toán so khớp lược đồ trả về một ánh xạ lược đồ, các công trình này đi theo nhiều hướng tiếp cận khác nhau, một số công trình tập trung nghiên cứu để cải thiện độ chính xác của các kỹ thuật so khớp cơ bản như các kỹ thuật so khớp dựa vào chuỗi, kỹ thuật so khớp dựa vào ngôn ngữ,… một số công trình nghiên cứu khác đi theo hướng tìm các chiến lược để kết hợp các thuật toán cơ bản lại với nhau. 2.2. Một số kỹ thuật so khớp lược đồ cơ bản Cho đến nay, có rất nhiều thuật toán đã được đề xuất và cài đặt để giải quyết bài toán so khớp lược đồ. Các thuật toán này thực hiện so khớp trên lược đồ dựa vào các kỹ thuật so khớp chuỗi, so khớp ngôn ngữ hoặc so khớp ràng buộc giữa các 11 phần tử của hai lược đồ và được gọi chung là các kỹ thuật mức phần tử, ngoài ra chúng có thể thực hiện so khớp ở mức cao hơn là mức cấu trúc của hai lược đồ. Các kỹ thuật so khớp mức cấu trúc ứng dụng các thuật toán đồ thị vào so khớp lược đồ để xem xét mức độ tương tự về cấu trúc giữa hai lược đồ (tương tự theo nghĩa hai cấu trúc này tương ứng về ngữ nghĩa với nhau). Trong một số công trình nghiên cứu, các thuật toán so khớp lược đồ còn sử dụng thêm thể hiện dữ liệu để thực hiện so khớp. Mỗi kỹ thuật so khớp có đầu vào là hai phần tử của hai lược đồ cần so khớp (như tên đối với so khớp chuỗi và ngôn ngữ, kiểu dữ liệu đối với so khớp ràng buộc,…) và trả về một giá trị thực thể trong khoảng [0,1] hiện mức độ tương ứng về ngữ nghĩa giữa hai phần tử này và được gọi là độ tương tự (similarity) giữa hai phần tử. Độ tương tự bằng 1 nghĩa là hai phần tử so khớp với nhau, độ tương tự bằng 0 nghĩa là hai phần tử này hoàn toàn không so khớp nhau, độ tương tự càng gần giá trị 1 thì mức độ tương ứng về ngữ nghĩa giữa hai phần tử càng cao, độ tương tự càng gần giá trị 0 thì mức độ tương ứng ngữ nghĩa giữa hai phần tử càng thấp. 2.2.1. Các kỹ thuật so khớp mức phần tử Các thuật toán so khớp lược đồ thường được bắt đầu bằng cách phát hiện những độ tương tự giữa các phần tử của hai lược đồ. Các kỹ thuật được sử dụng chủ yếu dựa vào tên các phần tử và những mô tả của các phần tử, và thường sử dụng kỹ thuật dựa vào chuỗi và dựa vào ngôn ngữ. 2.2.1.1. Các kỹ thuật so khớp dựa vào chuỗi Các kỹ thuật so khớp dựa vào chuỗi nhận đầu vào là hai chuỗi (tên hoặc mô tả tên của các phần tử của hai lược đồ) và trả về độ tương tự giữa hai chuỗi. Các kỹ thuật này đều dựa vào các kỹ thuật so khớp chuỗi trong lĩnh vực tìm kiếm thông tin (Information Retrieval) và được điều chỉnh để phù hợp với bài toán so khớp lược đồ. J. Euzenat và P. Shvaiko [12] đã tổng hợp một số công trình nghiên cứu về các kỹ thuật này. Những kỹ thuật này bao gồm so sánh chuỗi tiền tố (prefix), hậu tố 12 (suffix), so sánh chuỗi n-ký tự (n-gram), và kỹ thuật phức tạp hơn là khoảng cách biên tập (edit-distance) Tiền tố(hoặc hậu tố): Kỹ thuật này nhận đầu vào là hai chuỗi và kiểm tra chuỗi thứ nhất có phải là phần đầu (hoặc cuối) của chuỗi thứ hai không, nếu đúng thì trả về 1, ngược lại trả về 0. Ví dụ 2.3 So sánh hậu tố giữa hai chuỗi Count và ItemCount trả về giá trị 1. Chuỗi n-ký tự: Kỹ thuật này nhận đầu vào là hai chuỗi và tính số độ tương tự n-ký tự của chúng như sau: Cho n-ký tự (s, n) là tập các chuỗi con của s có chiều dài n. Độ tương tự n-ký tự được tính như sau: Gọi n-ký tự(s, n) là tập các chuỗi con của s có chiều dài, độ tương tự n-ký tự σ : S × S → R.sao cho: Ví dụ 2.4 3-gram của POLine là POL, OLi, Lin, ine và 3-n-gram của Items là Ite, tem, ems. Vậy độ tương tự 3-gram của POLine và Item là σ(POLine, Items) = 0. 3-gram của Item là Ite, tem, vậy σ(Item, Items) = 1 Khoảng cách biên tập: Có rất nhiều nghiên cứu về kỹ thuật này, mỗi nghiên cứu đề xuất một biến thể khác nhau của kỹ thuật cơ sở. Kỹ thuật khoảng cách biên tập được phát biểu như sau: cho một cặp chuỗi s và t, khoảng cách biên tập giữa hai chuỗi là một số thực r, giá trị của r thể hiện chi phí tối thiểu của một dãy các thao tác dùng để biến đổi chuỗi s thành chuỗi t, các thao tác gồm chèn, xóa và thay thế ký tự. Levenshtein đã đề xuất khoảng cách Levenshtein, khoảng cách này được tính bằng cách gán chi phí cho cả ba thao tác đều bằng 1. Nhóm tác giả Needleman và Wunsch đề xuất khoảng cách Needleman-Wunsch, trong đó thao tác chèn và xóa có 13 chi phí cao hơn thao tác thay thế ký tự. Một số các độ đo khác tính chi phí của các thao tác biên tập sử dụng một hàm với tham số là các ký tự hoặc các chuỗi con mà các thao tác này tác động lên, và chúng sử dụng một ma trận chi phí cho mỗi thao tác. Một trong những độ đo này là độ đo Smith–Waterman của nhóm tác giả Smith và Waterman, hay độ đo Monge-Eklkan của nhóm tác giả Monge và Elkan. Các kỹ thuật tính khoảng cách biên tập khác đã được đề xuất chủ yếu tập trung vào việc tìm các phương pháp tính chi phí hợp lý cho mỗi thao tác trong chuỗi thao tác để biến chuỗi s thành chuỗi t. Ví dụ 2.5 Chuỗi các thao tác biên tập để biến đổi chuỗi POLine thành Items gồm 2 thao tác thay thế ký tự (P I, Ot), 3 thao tác xóa ký tự (L, i, n), 2 thao tác chèn ký tự (m, s). Với mỗi kỹ thuật khác nhau, chi phí cho mỗi thao tác khác nhau và tính được khoảng cách biên tập khác nhau. Khoảng cách Levenshtein của hai chuỗi (POLine, Items) = 7 Tương tự, khoảng cách Levenshtein của hai chuỗi (Item, Items) = 1 2.2.1.2. Các kỹ thuật so khớp dựa vào ngôn ngữ Các kỹ thuật so khớp ngôn ngữ được phát triển theo nhiều hướng khác nhau như chun hóa về ngôn ngữ, sử dụng từ điển và hướng kết hợp hai phương pháp trên. J. Euzenat và P. Shvaiko [12] đã tổng hợp một số công trình nghiên cứu về các kỹ thuật này. Phương pháp chun hóa về ngôn ngữ (Linguistic normalisation): về mặt ngôn ngữ, cùng một từ có thể được biến thể dưới nhiều dạng khác nhau như biến tố (chẳng hạn thêm s vào sau các danh từ số nhiều), nguồn gốc của từ (như các danh từ được hình thành bằng cách thêm “ion” vào động từ hoặc các tính từ được hình thành bằng cách thêm “al” vào danh từ),…Do đó phương pháp chuNn hóa ngôn ngữ nhằm biến đổi các từ về dạng cơ bản của từ. Nhóm tác giả Maynard và Ananiadou phân biệt ba loại biến thể của từ là hình thái học (biến thể trên dạng và chức năng 14 của một từ dựa trên cùng một gốc), cú pháp (biến thể trên cấu trúc ngữ pháp của từ) và ngữ nghĩa (biến thể trên một thể (aspect) của từ, thường sử dụng từ khái quát hoặc từ chi tiết). Ví dụ 2.6 Từ theory paper có các biến thể về hình thái học như theory papers, theoretical paper, theoretical papers, các biến thể về cấu trúc ngữ pháp như paper on theory, philosophy and theory paper và các biến thể về ngữ nghĩa như foundational paper. Một loạt các phần mềm về chuNn hóa từ được xây dụng bởi Brill, chúng sử dụng những hàm sau để thực hiện chuNn hóa: • Tách từ (Tokenisation): Tên các thực thể được phân tích cú pháp thành dãy các từ đơn (token) bởi một bộ phân tích cú pháp thông qua việc nhận dạng dấu chấm câu, các chữ viết hoa, các ký tự trống, số,…( ItemNumber  , UnitOfMeasure  ). • Biến đổi về dạng cơ bản của từ (Lemmatisation): phân tích hình thái học các từ đơn để tìm các dạng cơ bản của từ. Lovins và Porter đã tập trung nghiên cứu các kỹ thuật biến đổi từ về dạng cơ bản gần đúng được gọi là kỹ thuật độn, trong đó các từ được loại bỏ phần hậu tố, ví dụ (Items Item). • Rút trích từ (Term extraction): Các nhóm tác giả Jacquemin và Tzoukermann, Bourigault và Jacquemin, Maynard và Ananiadou, và Cerbah và Euzenat đã đề xuất một số kỹ thuật rút trích từ từ một văn bản. Bộ rút trích từ nhận dạng từ thông qua sự lặp lại về hình thái của các đoạn tương tự và sử dụng các mẫu như danh từ 1 danh từ 2  danh từ 2 on danh từ 1, ví dụ theory paper cùng gốc với paper on theory. • Loại bỏ từ (Elimination): các thẻ token là các mạo từ, giới từ liên từ,…được đánh dấu để loại bỏ, như  . Sau khi ứng dụng các kỹ thuật chuNn hóa từ, tên hoặc mô tả tên của các phần tử được chuyển thành tập các từ ở dạng cơ bản, và có thể sử dụng các kỹ thuật dựa vào chuỗi để thực hiện so khớp. 15 Phương pháp sử dụng từ điển: Phương pháp này sử dụng từ điển để tìm những cặp tương tự. H. H. Do và E. Rahm [7] sử dụng từ điển từ đồng nghĩa và từ điển kiểu dữ liệu trong hệ thống COMA để thực hiện so khớp ngôn ngữ. Phương pháp kết hợp: kết hợp hai phương pháp trên lại với nhau để tăng độ chính xác so khớp. Phương pháp chun hóa từ được sử dụng trong giai đoạn tiền xử lý để biến đổi các cụm từ thành tập các từ ở dạng cơ bản, sau đó phương pháp sử dụng từ điển được ứng dụng để tìm độ tương tự giữa các từ ở dạng cơ bản này. J.Madhavan và các đồng sự [22] thực hiện chuNn hóa sử dụng các thao tác tách từ và thao tác loại bỏ từ, sau đó sử dụng từ điển gồm các dạng từ rút gọn (Qty tương ứng với Quantity), các từ viết tắt chữ cái đầu (UoM tương ứng UnitOfMeasure) và các từ đồng nghĩa (Bill and Invoice) để tìm ánh xạ phần tử trong hệ thống Cupid. F.Giunchiglia và các đồng sự [17], [18], [19] thực hiện chuNn hóa sử dụng các thao tác tách từ và thao tác biến đổi về dạng cơ bản của từ, sau đó sử dụng từ điển WordNet để rút trích ý nghĩa của các từ được chuNn hóa trong hệ thống S-Match. 2.2.1.3. Các kỹ thuật dựa vào ràng buộc Năm 2004, nhóm tác giả J. Euzenat và P.Valtchev [11] ứng dụng bộ so khớp ràng buộc trong hệ thống OWL-lite. Các lược đồ thường có các ràng buộc về khóa, kiểu dữ liệu, miền giá trị của các thuộc tính, các kiểu mối quan hệ, các bản số,…Nếu cả hai lược đồ đầu vào của thuật toán so khớp đều chứa thông tin như vậy, thuật toán so khớp ràng buộc có thể xác định các phần tử so khớp giữa hai lược đồ, như: hai phần tử tương tự nhau có thể được xác định dựa vào sự tương đương giữa kiểu dữ liệu và miền giá trị của các thuộc tính khóa (như các thuộc tính có ràng buộc duy nhất, các thuộc tính khóa chính, các thuộc tính khóa ngoại,…), có thể dựa vào bản số của mối kết hợp (như mối kết hợp 1:1,1:n, n:n) hay các mối quan hệ is-a. Kỹ thuật phổ biến nhất trong các kỹ thuật so khớp ràng buộc là so sánh kiểu dữ liệu. So sánh kiểu dữ liệu dựa vào ràng buộc kiểu dữ liệu của từng thuộc tính để tìm ra những cặp thuộc tính tương tự nhau. 16 Ví dụ 2.7 Thực hiện so khớp dựa vào ràng buộc kiểu dữ liệu cho hai lược đồ PO và PurchaseOrder trong ví dụ Hình 2.1. Kết quả trả về chia làm hai nhóm, nhóm thứ nhất gồm tất cả những ánh xạ phần tử giữa các phần tử có kiểu dữ liệu string của hai lược đồ, nhóm thứ nhất gồm tất cả những ánh xạ phần tử giữa các phần tử có kiểu dữ liệu int của hai lược đồ. Kết quả so khớp dựa vào ràng buộc kiểu dữ liệu không trả về những ánh xạ phần tử tương tự về ngữ nghĩa mà chỉ làm giảm số lượng các cặp phần tử cần so khớp (loại bỏ những cặp phần tử có một phần tử kiểu int và phần tử kia có kiểu string). Ngoài ràng buộc kiểu dữ liệu, các lược đồ quan hệ còn có các ràng buộc về khóa chính, khóa ngoại, hoặc các ràng buộc về miền giá trị của các thuộc tính, các kiểu mối quan hệ, các bản số,… Ví dụ 2.8 Trong bài báo [11], J. Euzenat và P.Valtchev đưa ra ví dụ về so khớp ràng buộc khóa như sau: Cho hai lược đồ SQL như trong Hình 2.3, lược đồ 1 gồm hai bảng Employee và Department, lược đồ 2 gồm một bảng Presonnel, thực hiện so khớp dựa vào kiểu dữ liệu và tên ràng buộc (ràng buộc khóa chính (primary key), ràng buộc tính duy nhất (unique), ràng buộc tham chiếu (references)…) 17 Lược đồ 1 Lược đồ 2 Employee EmpNo – int, primary key EmpName – varchar (50) DeptNo – int, references Department Salary - dec(15,2) Birthdate – date Personnel Pno - int, unique Pname – string Dept – string Born - date Department DeptNo – int, primary key DeptName – varchar (40) Hình 2.3 - Ví dụ về so khớp ràng buộc khóa So khớp lược đồ dựa vào kiểu dữ liệu và tên ràng buộc như sau: dựa vào kiểu dữ liệu, Born và Birthdate tương đương nhau; dựa vào kiểu dữ liệu, ràng buộc khóa chính và ràng buộc tính duy nhất, Pno tương đương với EmpNo và DepNo; Dựa vào kiểu dữ liệu string tương đương với varchar(n), Pname và DeptName có thể tương đương với EmpName và DeptName. 2.2.2. Các kỹ thuật so khớp mức cấu trúc E.Rahm và P. Bernstein [29] xem so khớp mức cấu trúc như là so khớp một kết hợp các phần tử của lược đồ này với một kết hợp các phần tử của lược đồ kia. Hiện nay, hầu hết các hệ thống so khớp đều sử dụng cấu trúc đồ thị để biểu diễn cấu trúc trong của lược đồ. Các nhóm nghiên cứu sử dụng đồ thị có hướng không chu 18 trình hoặc cây để biểu diễn lược đồ nhằm làm giảm độ phức tạp của bài toán. Tất cả các dự án nghiên cứu so khớp lược đồ gần đây đều dựa vào đồ thị, sử dụng khái niệm quan hệ láng giềng để tính độ tương tự cho từng phần tử. S. Melnik và các đồng sự [24] đã đề xuất phương pháp lan truyền độ tương tự trong hệ thống Similarity Flooding. M. Ehrig và S. Staab [10] đề xuất sử dụng thuật toán tìm kiếm láng giềng để tính độ tương tự giữa các phần tử. A. Madhavan và các đồng sự [22] đề xuất các thuật toán dựa vào mối quan hệ cha-con để tính độ tương tự giữa các phần tử của hai lược đồ. Ví dụ 2.9 Thực hiện so khớp cấu trúc dựa vào mối quan hệ cha-con để tính độ tương tự giữa các phần tử của hai cấu trúc con Line và Items của hai lược đồ PO và PurchaseOrder. PO PurchaseOrder Lines Item Line Qty UoM Items Item ItemNumber Quantity UnitOfMeasure Hình 2.4 - Hai cấu trúc con Lines và Items của hai lược đồ PO và PurchaseOrder So khớp giữa hai cấu trúc trong Hình 2.4 trả về một ánh xạ phần tử giữa Line và ItemNumber vì cha của chúng (Item) so khớp với nhau và hai con khác của Item là (Qty, Quantity) và (UoM, UnitOfMeasure) cũng so khớp nhau. Ví dụ 2.10 19 Thực hiện so khớp cấu trúc dựa vào mối quan hệ cha-con để tính độ tương tự giữa các phần tử của hai cấu trúc con ShipTo và DelieverTo của hai lược đồ PO và PurchaseOrder. PO PurchaseOrder POShipTo City Street POBillTo City Street DeliverTo Address Street City InvoiceTo Address Street City Hình 2.5 - Hai cấu trúc con ShipTo và DeliverTo của hai lược đồ PO và PurchaseOrder So khớp giữa hai cấu trúc trong Hình 2.5 trả về City và Street của POBillTo so khớp với City và Street của InvoiceTo hơn là của DeliverTo, vì Bill đồng nghĩa với Invoice nhưng không đồng nghĩa với Deliver. Một biến thể khác của các kỹ thuật so khớp mức cấu trúc được gọi là so khớp đường biên(Bounded path matching) do M. Ehrig và S. Staab đề xuất [10]. Kỹ thuật so khớp đường biên tính điểm tương tự giữa các cặp nút trên hai lược đồ bằng cách tìm tất cả các nút có nhãn giống nhau giữa hai lược đồ, sau đó tìm tất cả các cặp đường đi giữa hai cặp nút giống nhau trên hai lược đồ, và tính chiều dài của các cặp đường đi này (chiều dài của một đường đi bằng tổng số cung để đi từ nút này đến nút kia). Trên mỗi cặp đường đi có cùng chiều dài, những nút có cùng vị trí trên hai đường đi này được tăng độ tương tự lên một hằng số X. 20 2.2.3. Các kỹ thuật so khớp dựa vào các thể hiện dữ liệu và các kỹ thuật học máy K. Saleem và Z. Bellahsene [31] đã tổng hợp một số công trình nghiên cứu các kỹ thuật so khớp dựa vào thể hiện. Dữ liệu thể hiện trong so khớp lược đồ được sử dụng theo hai cách khác nhau. Cách thứ nhất được nhóm tác giả Bex, Neven và Vansummeren tập trung nghiên cứu cho trường hợp thông tin về lược đồ bị hạn chế hoặc thậm chí là không có (đối với lược đồ bán cấu trúc hoặc không có cấu trúc,…), khi đó so khớp thực hiện bằng cách sử dụng dữ liệu thể hiện để tạo ra một biểu diễn dữ liệu. Ví dụ, từ một tài liệu XML, kỹ thuật này thực hiện rút trích cấu trúc phân cấp dạng cây của các phần tử. Cách này còn được Hernedez và các đồng sự ứng dụng khi so khớp lược đồ có đầy đủ thông tin nhằm hỗ trợ trong việc tìm ngữ nghĩa của các phần tử. Cách thứ hai, so khớp lược đồ sử dụng các thể hiện dữ liệu để huấn luyện cho các thuật toán học máy. Các nút trong của lược đồ XML được A. Doan và các đồng sự thực hiện so khớp bằng cách so sánh các giá trị kết nối giữa các nút lá tương ứng của chúng sử dụng kỹ thuật máy học. Ví dụ 2.11 Thực hiện so khớp lược đồ dựa vào dữ liệu trên các bảng sau: 21 Hình 2.6 - Một ví dụ về so khớp dựa vào dữ liệu Kết quả so khớp dữ liệu trong Hình 2.6 trả về các ánh xạ phần tử (POBillTo.Street, DeliverTo.Street), (POBillTo.City, DeliverTo.City), (POShipTo.Street, InvoiceTo.Street), (POShipTo.City, InvoiceTo.City). 2.2.4. Nhận xét về các kỹ thuật so khớp cơ bản Các kỹ thuật so khớp chuỗi thường được cài đặt đơn giản. Tuy nhiên, so sánh chuỗi chỉ trả về kết quả tốt khi người thiết kế sử dụng những chuỗi rất tương tự nhau để chỉ cùng một khái niệm. Nếu những từ đồng nghĩa được sử dụng thì cặp chuỗi này sẽ được đánh giá với một độ tương tự rất thấp trong khi thật ra chúng rất tương tự nhau, ngược lại có những từ có nghĩa khác nhau nhưng được viết gần giống nhau. Trong so khớp lược đồ, mỗi lược đồ được thiết kế bởi những nhóm 22 thiết kế khác nhau, vì vậy các lược đồ sử dụng nhiều cụm từ khác nhau để biểu diễn cùng một khái niệm và cũng có thể sử dụng những cụm từ giống nhau để biểu diễn những khái niệm khác nhau. Vì vậy những kỹ thuật dựa vào chuỗi chỉ được sử dụng để phát hiện những chuỗi rất tương tự nhau. Ngược lại, so khớp phải sử dụng những kỹ thuật khác. Các thuật toán so khớp ngôn ngữ hiện nay đều sử dụng từ điển, so khớp dựa vào từ điển có thể phát hiện được từ đồng nghĩa, các từ tổng quát-chi tiết,..mà các kỹ thuật dựa vào chuỗi không thể phát hiện được. Từ điển là nguồn tài nguyên vô cùng quý trong so khớp lược đồ, chúng giúp các thuật toán nắm bắt ý nghĩa của các nhãn chính xác hơn. Tuy nhiên, cùng một từ trong từ đ

Các file đính kèm theo tài liệu này:

  • pdf5.pdf
  • pdf0.pdf
  • pdf1.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf4_2.pdf
  • pdf6.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10.pdf
Tài liệu liên quan