Luận văn Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek

Cùng với sự phát triển mạnh mẽcủa Internet là một khối lượng khổng lồ dữ liệu được phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm kiếm theo từ khoá (cụm từ khoá) như Yahoo, Google .

pdf78 trang | Chia sẻ: vietpd | Lượt xem: 1209 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Mục lục Phần mở đầu........................................................................................................................... 3 Ch−ơng 1. Tổng quan về tìm kiếm thông tin trên web.................................... 5 1.1 Giới thiệu về tìm kiếm thông tin...............................................................5 1.2 Bài toán tìm kiếm thông tin ......................................................................5 1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin ....................................9 1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời................................................10 1.3 Mô hình biểu diễn thông tin của văn bản ...............................................11 1.3.1 Mô hình biểu diễn thông tin theo từ khoá .......................................12 1.3.2 Mô hình biểu diễn thông tin theo nội dung .....................................14 1.4 Phân tích cú pháp và ngữ nghĩa ..............................................................15 1.5 Phân lớp văn bản.....................................................................................15 1.6 Phân cụm văn bản...................................................................................15 1.7 Khai thác thông tin cấu trúc web............................................................16 1.8 Khai thác thông tin sử dụng web ............................................................16 Ch−ơng 2. ph−ơng pháp biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết ......................................................................................................................... 18 2.1 Giới thiệu ................................................................................................18 2.2 Ph−ơng pháp đánh giá chất l−ợng độ đo t−ơng tự ..................................19 2.2.1 Chọn ph−ơng pháp đánh giá ............................................................19 2.2.2 Xác định thứ tự nền trong ODP .......................................................20 2.2.3 So sánh sự t−ơng quan giữa các tập thứ tự.......................................23 2.2.4 Miền của tập thứ tự ..........................................................................24 2.3 Định nghĩa mô hình vector biểu diễn thông tin văn bản ........................26 2.3.1 Vector biểu diễn thông tin văn bản..................................................27 Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 2 2.3.2 Lựa chọn từ khoá biểu diễn .............................................................27 2.3.3 L−ợc bớt từ khoá..............................................................................28 2.3.4 Xác định trọng số của từ khoá .........................................................29 2.4 Định nghĩa độ đo t−ơng tự......................................................................30 2.5 Đánh giá chất l−ợng xếp hạng đối với mỗi ph−ơng pháp xây dựng vector ..............................................................................................................31 2.5.1 Đánh giá chất l−ợng đối với cách chọn từ khoá ..............................32 2.5.2 Đánh giá chất l−ợng đối với cách chuẩn hoá trọng số từ khoá........39 2.5.3 Đánh giá chất l−ợng đối với ph−ơng pháp l−ợc bớt từ khoá............42 2.6 Các thuật toán tìm kiếm theo mô hình vector.........................................42 Ch−ơng 3. máy tìm kiếm vietseek và thử nghiệm Thuật toán tìm kiếm theo ngữ nghĩa lân cận siêu liên kết .................................................................... 45 3.1 Máy tìm kiếm VietSeek..........................................................................45 3.1.1 Các đặc điểm cơ bản của Vietseek ..................................................45 3.1.2 Cơ sở dữ liệu của Vietseek ..............................................................46 3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek ..............49 3.2.1 Những cơ sở để đề xuất thuật toán ..................................................49 3.2.2 Các thuật toán áp dụng cho máy tìm kiếm VietSeek.......................53 3.2.3 Kết quả thực hiện.............................................................................62 Phần kết luận...................................................................................................................... 67 Tài liệu tham khảo........................................................................................................... 69 Phụ lục.................................................................................................................................... 72 Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 3 Phần mở đầu Cùng với sự phát triển mạnh mẽ của Internet là một khối l−ợng khổng lồ dữ liệu đ−ợc phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm kiếm theo từ khoá (cụm từ khoá) nh− Yahoo, Google ... Tuy nhiên việc tìm kiếm theo từ khoá vẫn ch−a đủ để giúp ng−ời sử dụng nhanh chóng tìm đ−ợc trang Web cần thiết vì số l−ợng kết quả trả lại rất lớn và nhiều khi chỉ là các trang Web ít có liên quan. Vì vậy các hệ thống tìm kiếm cần đ−ợc cải tiến để ngày càng thông minh hơn. Xuất hiện những hệ h−ớng tới mục tiêu cụ thể nh− tra cứu thông tin về các chủ đề y tế, giáo dục, luật pháp, âm nhạc ... Tuy vậy, việc nghiên cứu các giải pháp tìm đ−ợc các trang thông tin theo một nội dung nào đó sát với yêu cầu ng−ời sử dụng vẫn còn nhiều hạn chế. Đã có nhiều mô hình tìm kiếm đ−ợc đề xuất, song những mô hình lý t−ởng về mặt lý thuyết thì lại ch−a có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, ng−ời ta tìm cách cải tiến các ph−ơng pháp có sẵn để áp dụng trong thực tế. Luận văn này h−ớng tới việc nghiên cứu, phân tích, đánh giá một số thuật toán tìm kiếm theo nội dung, từ đó đề xuất ph−ơng án cải tiến để nâng cao hiệu quả về tính chính xác của nội dung cũng nh− về tốc độ. Từ việc tìm hiểu, đánh giá và phân tích −u, nh−ợc điểm của các ph−ơng pháp tiếp cận khác nhau, dựa theo mục tiêu nâng cao hiệu quả tìm kiếm, luận văn đề xuất giải pháp thực hiện “Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek”. Nội dung của luận văn đ−ợc định h−ớng vào các vấn đề sau: 1. Mô hình toán học biểu diễn trang văn bản Web, Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 4 2. Khái quát các ph−ơng pháp tiếp cận trong tìm kiếm trang Web có nội dung t−ơng tự. Đánh giá −u điểm và nh−ợc điểm của mỗi ph−ơng pháp đ−ợc khảo sát. 3. Đề xuất ph−ơng pháp kết hợp để nâng cao hiệu quả trong tìm kiếm trang Web có nội dung t−ơng tự Luận văn bao gồm Phần mở đầu, ba ch−ơng nội dung và Phần kết luận với nội dung các ch−ơng đ−ợc trình bày nh− d−ới đây. Ch−ơng 1 với tiêu đề là Tổng quan về các ph−ơng pháp biểu diễn và tìm kiếm thông tin trên web giới thiệu khái quát về các ph−ơng pháp biểu diễn và tìm kiếm trên web. Tiêu đề của ch−ơng 2 là Ph−ơng pháp biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết. Ch−ơng này trình bày cơ sở, nội dung của ph−ơng pháp đ−ợc đề xuất và đánh giá ph−ơng pháp đ−ợc đề xuất với các ph−ơng pháp khác. Luận văn cũng trình bày chi tiết các lựa chọn đ−ợc đề xuất trong mỗi b−ớc của ph−ơng pháp, từ đó chọn ra giải pháp tốt nhất. Ch−ơng 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo ngữ nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm VietSeek, thiết kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo nội dung trên cơ sở biểu diễn trang web do luận văn đề xuất. Ch−ơng này cũng đề xuất những cải tiến khi áp dụng vào thực tế để nâng cao hiệu suất thực hiện của ph−ơng pháp biểu diễn. Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn và chỉ ra một số hạn chế của luận văn. Đồng thời luận văn đề xuất một số h−ớng nghiên cứu cụ thể tiếp theo của luận văn. Phần phụ lục bổ sung một số thông tin chi tiết về việc áp dụng thuật toán cho máy tìm kiếm VietSeek nh− sơ đồ khối một số module cần bổ sung chức năng, những lệnh bổ sung vào cơ sở dữ liệu của VietSeek. Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 5 1 Ch−ơng 1. Tổng quan về tìm kiếm thông tin trên web 1.1 Giới thiệu về tìm kiếm thông tin Khai phá dữ liệu trên web (Web Mining) là quá trình khảo sát và phân tích dữ liệu web một cách tự động hoặc bán tự động để phát hiện ra thông tin. Từ thông tin đ−ợc khai phá, tìm kiếm thông tin (Infomartion Retrieval) trên web là ph−ơng pháp để truy cập một cách hiệu quả nhất đến thông tin mà ng−ời dùng quan tâm, kỳ vọng cung cấp một tập hợp nhỏ các văn bản gần nhất đến lĩnh vực hoặc chủ đề mà ng−ời dùng mong muốn tiếp cận. Hình 1. Tìm kiếm thông tin 1.2 Bài toán tìm kiếm thông tin Có 2 bài toán cơ bản trong tìm kiếm thông tin là tìm kiếm theo từ khoá và tìm kiếm theo nội dung. Bài toán tìm kiếm theo từ khoá là bài toán tìm kiếm thông tin theo Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 6 các từ khóa do ng−ời dùng cung cấp [1][1]. Hệ tìm kiếm sẽ trả về cho ng−ời dùng các trang web có chứa những từ khoá trong câu hỏi. Tuy vậy, với số l−ợng khổng lồ các trang web trên internet nh− hiện nay thì số l−ợng kết quả tìm đ−ợc theo từ khoá là quá lớn. Ví dụ nếu tìm các trang web có từ khoá find similar web page thì cho kết quả 858 trang web. Hình 2. Tìm kiếm thông tin theo từ khoá Bằng cách tìm kiếm theo cụm từ khoá thì số l−ợng kết quả trả về chính xác hơn, số kết quả trả về là 25 trang web. Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 7 Hình 3. Tìm kiếm thông tin theo cụm từ khoá Nếu tìm trang web t−ơng tự với một trang web mẫu thì số l−ợng kết quả chỉ là 8 trang web. Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 8 Hình 4. Tìm kiếm thông tin theo nội dung một trang web mẫu Một cách tiếp cận khác là tìm kiếm theo các site đ−ợc đề cập trong luận văn của Phạm Thanh Nam [1] vì số l−ợng các site ít biến động và ít hơn rất nhiều so với các trang web. Tuy vậy, do l−ợng thông tin ứng với mỗi lĩnh vực đều rất lớn nên vẫn quá khó khăn để tiếp cận các trang văn bản đáp ứng mong muốn với yêu cầu ng−ời dùng. Chính vì lý do đó mà các đề tài nghiên cứu những năm gần đây đi sâu về lĩnh vực tìm kiếm theo nội dung t−ơng tự với trang văn bản mẫu nh− luận văn thạc sĩ của Phạm Thanh Nam năm 2003 [1], luận án tiến sĩ của Seán Slattery năm 2002 [13] hoặc trong một số báo cáo về WWW đ−ợc tổ chức năm 2002[12], năm 2003. Để đáp ứng các yêu cầu tìm kiếm thông tin của ng−ời dùng một cách nhanh nhất, tất cả các giải pháp tìm kiếm thông tin đều chia thành 2 giai đoạn thực hiện t−ơng đối độc lập với nhau Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 9 • Giai đoạn 1: Thu thập và phân tích thông tin về các trang web. • Giai đoạn 2: Xử lý câu hỏi và trả lời WWW web repository index process searchddaemon Client Webserver Index database Giai đoạn 1 Giai đoạn 2 Hình 5: Kiến trúc các hệ tìm kiếm thông tin Do giai đoạn 1 không t−ơng tác trực tiếp với ng−ời dùng nên các thông tin đ−ợc phân tích một cách đầy đủ nhất để giảm thiểu các phân tích ở giai đoạn sau. Số l−ợng các trang web đ−ợc phân tích rất lớn (hàng triệu trang) nên thời gian thực hiện giai đoạn 1 rất lớn (tính bằng giờ) còn thời gian thực hiện giai đoạn 2 là rất nhỏ (tính bằng phần trăm giây). 1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin Các b−ớc xử lý chính: • Tìm duyệt các trang web. Từ các danh sách địa chỉ ban đầu, bộ phận tìm duyệt sẽ tải trang web và chuyển cho bộ phận phân tích nội dung trang web. Các trang web ban đầu có độ sâu là 0, các liên kết có trong trang web sẽ đ−ợc bộ phận phân tích ghi nhận lại với độ sâu là 1. Sau khi đã phân tích xong các trang web có độ sâu là 0 thì bộ tìm duyệt tiếp tục tải nội dung các trang web có độ sâu là 1 để phân tích và tìm ra các trang web có độ sâu là Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 10 2. Quá trình tải trang web sẽ dừng lại khi đạt đến một độ sâu nhất định nào đó do ng−ời dùng đặt tham số nh− trong VietSeek là 256. • Phân tích và l−u trữ thông tin biểu diễn trang web. Đây là b−ớc cơ bản quyết định đến chất l−ợng của các hệ tìm kiếm. Các trang web đ−ợc phân tích về mặt nội dung để xây dựng thành vector biểu diễn trang web. Các liên kết có trong trang web cũng đ−ợc ghi nhận lại. Các trang web cũng đ−ợc đánh giá mối t−ơng quan với các trang khác theo mục tiêu của bài toán, ví dụ nh− sự t−ơng tự về nội dung so với các trang web khác hoặc phân vào lớp các chủ đề. Toàn bộ thời gian và tài nguyên của các hệ tìm kiếm đ−ợc sử dụng trong b−ớc này. Do đó b−ớc này cũng đ−ợc chia thành bài toán nhỏ hơn cần phải giải quyết là xây dựng cấu trúc biểu diễn thông tin đ−ợc cung cấp từ các văn bản đ−ợc phân tích, phân tích cú pháp/ngữ nghĩa, sinh vector biểu diễn, phân lớp văn bản, phân cụm văn bản, phân tích kết quả. Những nội dung này sẽ đ−ợc trình bày trong mục 1.3, 1.4 và 1.5 của ch−ơng này. • L−u trữ bản sao trang web. Để nhanh chóng truy xuất đến nội dung trang web tìm thấy, thông th−ờng các hệ tìm kiếm th−ờng l−u trữ sẵn bản sao các trang web d−ới dạng nén cung cấp cho ng−ời dùng. Ph−ơng pháp nén th−ờng đ−ợc dùng zip. Việc chọn một kỹ thuật nén th−ờng đ−ợc cân nhắc giữa tốc độ và tỷ lệ nén. Tỷ lệ nén của zip là 3/1 tuy có nhỏ hơn so với các ph−ơng pháp nén khác nh−ng tốc độ nén và giải nén của zip lại nhanh đáng kể. 1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời Các b−ớc xử lý chính: • Phân tích câu hỏi của ng−ời dùng. Các hệ tìm kiếm thông th−ờng cho phép ng−ời dùng tìm kiếm các trang web d−ới dạng biểu thức logic, ngoài ra để thuận tiện và nâng cao tính chính xác của câu hỏi, các hệ tìm kiếm Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 11 cũng cho phép ng−ời dùng đ−a vào các điều kiện nâng cao nh− tìm từ trong chủ đề, tìm các trang theo nội dung của một trang web, tìm theo thời gian xuất hiện, tìm theo ngôn ngữ ..v.v. Câu hỏi của ng−ời dùng sẽ đ−ợc phân tích thành các điều kiện để hệ tìm kiếm có những ứng xử phù hợp. • Định vị các trang web kết quả và xếp hạng. Dựa trên các điều kiện của ng−ời dùng và các trang web đã đ−ợc phân tích trong giai đoạn “thu thập và phân tích thông tin” hệ tìm kiếm nhanh chóng định vị ra đ−ợc các trang web kết quả, hơn nữa các trang web cũng đ−ợc lấy ra theo mức độ t−ơng quan với câu hỏi của ng−ời dùng theo một số tiêu chí sắp xếp, ví dụ nh− thứ tự có xuất hiện các từ khoá trong câu hỏi, mức độ gần với nội dung trang web mẫu. Mức độ chính xác của trang web đối với câu hỏi của ng−ời dùng (hạng của trang web) cũng đ−ợc tính toán và cung cấp cho ng−ời dùng. Một số hệ tìm kiếm còn bổ sung thêm tính năng xử lý các phản hồi của ng−ời dùng với kết quả để nâng cao độ chính xác cho các lần trả lời sau nh− ghi nhận số lần truy cập của trang web để tăng độ −u tiên về hạng của trang web, thay đổi độ t−ơng tự của các trang web đã phân tích, chuyển trang web vào nhóm văn bản có chủ đề chính xác hơn. • Hiển thị nội dung trang web sẵn có. Ng−ời dùng có thể lấy trang web từ địa chỉ đ−ợc cung cấp bởi hệ tìm kiếm hoặc có thể xem nội dung trang web sẵn có trong kho l−u trữ của hệ tìm kiếm. Thao tác này yêu cầu hệ tìm kiếm giải nén trang web và hiển thị. Thông th−ờng thì hệ tìm kiếm sẽ tô sáng các thành phần có trong câu hỏi của ng−ời dùng bằng các màu sắc để ng−ời dùng nhanh chóng nhận ra vị trí của chúng trong trang web kết quả. 1.3 Mô hình biểu diễn thông tin của văn bản Cơ sở dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc biểu diễn thông tin của văn bản mà dữ liệu chứa trong đó bao gồm các nội dung văn bản và các thuộc tính của các nội dung đó. Dữ liệu trong cơ sở dữ liệu Fulltext th−ờng đ−ợc tổ chức nh− một sự kết hợp Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 12 giữa hai phần: phần cơ sở dữ liệu thông th−ờng quản lý thuộc tính của các văn bản, và phần tập hợp nội dung các văn bản đ−ợc quản lý [3]. Cơ sở dữ liệu Fulltext Cơ sở dữ liệu về thuộc tính tài liệu Cơ sở dữ liệu về nội dung tài liệu Hình 6. Mô hình tổ chức của cơ sở dữ liệu Fulltext Hiện nay có ba mô hình cơ sở dữ liệu Fulltext điển hình là 1. Mô hình logic 2. Mô hình cú pháp 3. Mô hình vector Mô hình vector là mô hình đ−ợc sử dụng phổ biến nhất trong các hệ tìm kiếm hiện nay. 1.3.1 Mô hình biểu diễn thông tin theo từ khoá Mỗi văn bản đ−ợc biểu diễn nh− một vector có các thành phần là thể hiện từ khoá t−ơng ứng có mặt hoặc không có mặt trong văn bản đó. Mỗi từ khoá lại có một trọng số biểu diễn về mức độ quan trọng của nó trong văn bản. Quá trình gán các giá trị đó đ−ợc gọi là quá trình đánh chỉ số (indexing). Hiện nay có nhiều ph−ơng pháp đánh chỉ số nh− TF, IDF, TF*IDF, LSI [3]... trong đó chủ yếu dựa vào tần số xuất hiện của các từ Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 13 hoặc mối quan hệ giữa sự xuất hiện của các từ trong văn bản. Nh− vậy thì số chiều của không gian vector là lực l−ợng của tập các từ khoá. Ví dụ văn bản thứ nhất có nội dung “VietKey 32-Bit là ch−ơng trình hỗ trợ gõ tiếng Việt trong các môi tr−ờng Windows 32-Bit của Microsoft”. Và văn bản thứ 2 “VietKey có thể nhúng đ−ợc tiếng Việt trong hầu hết các ứng dụng 16-bit và 32-bit trong môi tr−ờng Windows 32-bit” Vector biểu diễn văn bản sẽ gồm các thành (từ khoá, tần suất của từ trong văn bản): Từ khoá Vector biểu diễn văn bản 1 Vector biểu diễn văn bản 2 16 0 1 32 2 2 bit 1 3 các 1 1 có 0 1 của 1 0 ch−ơng 1 0 dụng 0 1 đ−ợc 0 1 gõ 1 0 hầu 0 1 hết 0 1 hỗ 1 0 là 1 0 Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 14 môi 1 1 microsoft 1 0 nhúng 0 1 thể 0 1 tiếng 1 1 trình 1 0 tr−ờng 1 1 trợ 1 0 trong 1 2 ứng 0 1 và 0 1 vietkey 1 1 việt 1 1 windows 1 1 Bảng 1. Vector biểu diễn văn bản 1.3.2 Mô hình biểu diễn thông tin theo nội dung Đối với bài toán tìm kiếm theo nội dung, phần lớn các giải pháp tìm kiếm thông tin đều lựa chọn mô hình vector. Có ba ph−ơng pháp tiếp cận trong việc xác định từ khoá trong vector biểu diễn văn bản. 1. Ph−ơng pháp biểu diễn theo nội dung văn bản: Từ khoá trong vector biểu diễn văn bản u là những từ có mặt trong văn bản u. 2. Ph−ơng pháp tiếp cận theo liên kết: Từ khoá trong vector biểu diễn văn bản u là những từ khóa có trong định danh của những văn bản v có liên kết đến văn bản u. Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Đặng Tiểu Hùng – Luận văn cao học 15 3. Ph−ơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá trong vector biểu diễn văn bản u là những từ xuất hiện trong cửa sổ ngữ nghĩa lân cận liên kết từ những văn bản v đến văn bản u. Luận văn đề cập tới giải pháp kết hợp các ph−ơng pháp tiếp cận trên đây. 1.4 Phân tích cú pháp và ngữ nghĩa Trong trang web không chỉ có thông tin thể hiện nội dung mà còn các thông tin phụ trợ nh− các comment, các đoạn mã, các thẻ HTML. Do