Cùng với sự phát triển mạnh mẽcủa Internet là một khối lượng khổng lồ dữ liệu được phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm kiếm theo từ khoá (cụm từ khoá) như Yahoo, Google .
78 trang |
Chia sẻ: vietpd | Lượt xem: 1306 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Mục lục
Phần mở đầu........................................................................................................................... 3
Ch−ơng 1. Tổng quan về tìm kiếm thông tin trên web.................................... 5
1.1 Giới thiệu về tìm kiếm thông tin...............................................................5
1.2 Bài toán tìm kiếm thông tin ......................................................................5
1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin ....................................9
1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời................................................10
1.3 Mô hình biểu diễn thông tin của văn bản ...............................................11
1.3.1 Mô hình biểu diễn thông tin theo từ khoá .......................................12
1.3.2 Mô hình biểu diễn thông tin theo nội dung .....................................14
1.4 Phân tích cú pháp và ngữ nghĩa ..............................................................15
1.5 Phân lớp văn bản.....................................................................................15
1.6 Phân cụm văn bản...................................................................................15
1.7 Khai thác thông tin cấu trúc web............................................................16
1.8 Khai thác thông tin sử dụng web ............................................................16
Ch−ơng 2. ph−ơng pháp biểu diễn trang web theo ngữ nghĩa lân cận
siêu liên kết ......................................................................................................................... 18
2.1 Giới thiệu ................................................................................................18
2.2 Ph−ơng pháp đánh giá chất l−ợng độ đo t−ơng tự ..................................19
2.2.1 Chọn ph−ơng pháp đánh giá ............................................................19
2.2.2 Xác định thứ tự nền trong ODP .......................................................20
2.2.3 So sánh sự t−ơng quan giữa các tập thứ tự.......................................23
2.2.4 Miền của tập thứ tự ..........................................................................24
2.3 Định nghĩa mô hình vector biểu diễn thông tin văn bản ........................26
2.3.1 Vector biểu diễn thông tin văn bản..................................................27
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
2
2.3.2 Lựa chọn từ khoá biểu diễn .............................................................27
2.3.3 L−ợc bớt từ khoá..............................................................................28
2.3.4 Xác định trọng số của từ khoá .........................................................29
2.4 Định nghĩa độ đo t−ơng tự......................................................................30
2.5 Đánh giá chất l−ợng xếp hạng đối với mỗi ph−ơng pháp xây dựng vector
..............................................................................................................31
2.5.1 Đánh giá chất l−ợng đối với cách chọn từ khoá ..............................32
2.5.2 Đánh giá chất l−ợng đối với cách chuẩn hoá trọng số từ khoá........39
2.5.3 Đánh giá chất l−ợng đối với ph−ơng pháp l−ợc bớt từ khoá............42
2.6 Các thuật toán tìm kiếm theo mô hình vector.........................................42
Ch−ơng 3. máy tìm kiếm vietseek và thử nghiệm Thuật toán tìm kiếm
theo ngữ nghĩa lân cận siêu liên kết .................................................................... 45
3.1 Máy tìm kiếm VietSeek..........................................................................45
3.1.1 Các đặc điểm cơ bản của Vietseek ..................................................45
3.1.2 Cơ sở dữ liệu của Vietseek ..............................................................46
3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek ..............49
3.2.1 Những cơ sở để đề xuất thuật toán ..................................................49
3.2.2 Các thuật toán áp dụng cho máy tìm kiếm VietSeek.......................53
3.2.3 Kết quả thực hiện.............................................................................62
Phần kết luận...................................................................................................................... 67
Tài liệu tham khảo........................................................................................................... 69
Phụ lục.................................................................................................................................... 72
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
3
Phần mở đầu
Cùng với sự phát triển mạnh mẽ của Internet là một khối l−ợng khổng lồ dữ liệu
đ−ợc phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở
dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách
chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm
kiếm theo từ khoá (cụm từ khoá) nh− Yahoo, Google ... Tuy nhiên việc tìm kiếm theo
từ khoá vẫn ch−a đủ để giúp ng−ời sử dụng nhanh chóng tìm đ−ợc trang Web cần thiết
vì số l−ợng kết quả trả lại rất lớn và nhiều khi chỉ là các trang Web ít có liên quan. Vì
vậy các hệ thống tìm kiếm cần đ−ợc cải tiến để ngày càng thông minh hơn. Xuất hiện
những hệ h−ớng tới mục tiêu cụ thể nh− tra cứu thông tin về các chủ đề y tế, giáo dục,
luật pháp, âm nhạc ... Tuy vậy, việc nghiên cứu các giải pháp tìm đ−ợc các trang thông
tin theo một nội dung nào đó sát với yêu cầu ng−ời sử dụng vẫn còn nhiều hạn chế. Đã
có nhiều mô hình tìm kiếm đ−ợc đề xuất, song những mô hình lý t−ởng về mặt lý
thuyết thì lại ch−a có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, ng−ời ta
tìm cách cải tiến các ph−ơng pháp có sẵn để áp dụng trong thực tế. Luận văn này h−ớng
tới việc nghiên cứu, phân tích, đánh giá một số thuật toán tìm kiếm theo nội dung, từ
đó đề xuất ph−ơng án cải tiến để nâng cao hiệu quả về tính chính xác của nội dung
cũng nh− về tốc độ.
Từ việc tìm hiểu, đánh giá và phân tích −u, nh−ợc điểm của các ph−ơng pháp tiếp
cận khác nhau, dựa theo mục tiêu nâng cao hiệu quả tìm kiếm, luận văn đề xuất giải
pháp thực hiện “Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm
kiếm VietSeek”.
Nội dung của luận văn đ−ợc định h−ớng vào các vấn đề sau:
1. Mô hình toán học biểu diễn trang văn bản Web,
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
4
2. Khái quát các ph−ơng pháp tiếp cận trong tìm kiếm trang Web có nội dung
t−ơng tự. Đánh giá −u điểm và nh−ợc điểm của mỗi ph−ơng pháp đ−ợc
khảo sát.
3. Đề xuất ph−ơng pháp kết hợp để nâng cao hiệu quả trong tìm kiếm trang
Web có nội dung t−ơng tự
Luận văn bao gồm Phần mở đầu, ba ch−ơng nội dung và Phần kết luận với nội
dung các ch−ơng đ−ợc trình bày nh− d−ới đây.
Ch−ơng 1 với tiêu đề là Tổng quan về các ph−ơng pháp biểu diễn và tìm kiếm
thông tin trên web giới thiệu khái quát về các ph−ơng pháp biểu diễn và tìm kiếm trên
web.
Tiêu đề của ch−ơng 2 là Ph−ơng pháp biểu diễn trang web theo ngữ nghĩa lân
cận siêu liên kết. Ch−ơng này trình bày cơ sở, nội dung của ph−ơng pháp đ−ợc đề xuất
và đánh giá ph−ơng pháp đ−ợc đề xuất với các ph−ơng pháp khác. Luận văn cũng trình
bày chi tiết các lựa chọn đ−ợc đề xuất trong mỗi b−ớc của ph−ơng pháp, từ đó chọn ra
giải pháp tốt nhất.
Ch−ơng 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo ngữ
nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm VietSeek, thiết
kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo nội dung trên cơ sở
biểu diễn trang web do luận văn đề xuất. Ch−ơng này cũng đề xuất những cải tiến khi
áp dụng vào thực tế để nâng cao hiệu suất thực hiện của ph−ơng pháp biểu diễn.
Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn và chỉ ra
một số hạn chế của luận văn. Đồng thời luận văn đề xuất một số h−ớng nghiên cứu cụ
thể tiếp theo của luận văn.
Phần phụ lục bổ sung một số thông tin chi tiết về việc áp dụng thuật toán cho
máy tìm kiếm VietSeek nh− sơ đồ khối một số module cần bổ sung chức năng, những
lệnh bổ sung vào cơ sở dữ liệu của VietSeek.
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
5
1 Ch−ơng 1. Tổng quan về tìm kiếm thông tin trên web
1.1 Giới thiệu về tìm kiếm thông tin
Khai phá dữ liệu trên web (Web Mining) là quá trình khảo sát và phân tích dữ liệu
web một cách tự động hoặc bán tự động để phát hiện ra thông tin. Từ thông tin đ−ợc
khai phá, tìm kiếm thông tin (Infomartion Retrieval) trên web là ph−ơng pháp để truy
cập một cách hiệu quả nhất đến thông tin mà ng−ời dùng quan tâm, kỳ vọng cung cấp
một tập hợp nhỏ các văn bản gần nhất đến lĩnh vực hoặc chủ đề mà ng−ời dùng mong
muốn tiếp cận.
Hình 1. Tìm kiếm thông tin
1.2 Bài toán tìm kiếm thông tin
Có 2 bài toán cơ bản trong tìm kiếm thông tin là tìm kiếm theo từ khoá và tìm
kiếm theo nội dung. Bài toán tìm kiếm theo từ khoá là bài toán tìm kiếm thông tin theo
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
6
các từ khóa do ng−ời dùng cung cấp [1][1]. Hệ tìm kiếm sẽ trả về cho ng−ời dùng các
trang web có chứa những từ khoá trong câu hỏi. Tuy vậy, với số l−ợng khổng lồ các
trang web trên internet nh− hiện nay thì số l−ợng kết quả tìm đ−ợc theo từ khoá là quá
lớn. Ví dụ nếu tìm các trang web có từ khoá find similar web page thì cho kết quả 858
trang web.
Hình 2. Tìm kiếm thông tin theo từ khoá
Bằng cách tìm kiếm theo cụm từ khoá thì số l−ợng kết quả trả về chính xác hơn,
số kết quả trả về là 25 trang web.
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
7
Hình 3. Tìm kiếm thông tin theo cụm từ khoá
Nếu tìm trang web t−ơng tự với một trang web mẫu thì số l−ợng kết quả chỉ là 8
trang web.
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
8
Hình 4. Tìm kiếm thông tin theo nội dung một trang web mẫu
Một cách tiếp cận khác là tìm kiếm theo các site đ−ợc đề cập trong luận văn của
Phạm Thanh Nam [1] vì số l−ợng các site ít biến động và ít hơn rất nhiều so với các
trang web. Tuy vậy, do l−ợng thông tin ứng với mỗi lĩnh vực đều rất lớn nên vẫn quá
khó khăn để tiếp cận các trang văn bản đáp ứng mong muốn với yêu cầu ng−ời dùng.
Chính vì lý do đó mà các đề tài nghiên cứu những năm gần đây đi sâu về lĩnh vực tìm
kiếm theo nội dung t−ơng tự với trang văn bản mẫu nh− luận văn thạc sĩ của Phạm
Thanh Nam năm 2003 [1], luận án tiến sĩ của Seán Slattery năm 2002 [13] hoặc trong
một số báo cáo về WWW đ−ợc tổ chức năm 2002[12], năm 2003. Để đáp ứng các yêu
cầu tìm kiếm thông tin của ng−ời dùng một cách nhanh nhất, tất cả các giải pháp tìm
kiếm thông tin đều chia thành 2 giai đoạn thực hiện t−ơng đối độc lập với nhau
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
9
• Giai đoạn 1: Thu thập và phân tích thông tin về các trang web.
• Giai đoạn 2: Xử lý câu hỏi và trả lời
WWW
web
repository
index process searchddaemon
Client Webserver
Index
database
Giai đoạn 1
Giai đoạn 2
Hình 5: Kiến trúc các hệ tìm kiếm thông tin
Do giai đoạn 1 không t−ơng tác trực tiếp với ng−ời dùng nên các thông tin đ−ợc
phân tích một cách đầy đủ nhất để giảm thiểu các phân tích ở giai đoạn sau. Số l−ợng
các trang web đ−ợc phân tích rất lớn (hàng triệu trang) nên thời gian thực hiện giai
đoạn 1 rất lớn (tính bằng giờ) còn thời gian thực hiện giai đoạn 2 là rất nhỏ (tính bằng
phần trăm giây).
1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin
Các b−ớc xử lý chính:
• Tìm duyệt các trang web. Từ các danh sách địa chỉ ban đầu, bộ phận tìm
duyệt sẽ tải trang web và chuyển cho bộ phận phân tích nội dung trang
web. Các trang web ban đầu có độ sâu là 0, các liên kết có trong trang web
sẽ đ−ợc bộ phận phân tích ghi nhận lại với độ sâu là 1. Sau khi đã phân tích
xong các trang web có độ sâu là 0 thì bộ tìm duyệt tiếp tục tải nội dung các
trang web có độ sâu là 1 để phân tích và tìm ra các trang web có độ sâu là
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
10
2. Quá trình tải trang web sẽ dừng lại khi đạt đến một độ sâu nhất định nào
đó do ng−ời dùng đặt tham số nh− trong VietSeek là 256.
• Phân tích và l−u trữ thông tin biểu diễn trang web. Đây là b−ớc cơ bản
quyết định đến chất l−ợng của các hệ tìm kiếm. Các trang web đ−ợc phân
tích về mặt nội dung để xây dựng thành vector biểu diễn trang web. Các
liên kết có trong trang web cũng đ−ợc ghi nhận lại. Các trang web cũng
đ−ợc đánh giá mối t−ơng quan với các trang khác theo mục tiêu của bài
toán, ví dụ nh− sự t−ơng tự về nội dung so với các trang web khác hoặc
phân vào lớp các chủ đề. Toàn bộ thời gian và tài nguyên của các hệ tìm
kiếm đ−ợc sử dụng trong b−ớc này. Do đó b−ớc này cũng đ−ợc chia thành
bài toán nhỏ hơn cần phải giải quyết là xây dựng cấu trúc biểu diễn thông
tin đ−ợc cung cấp từ các văn bản đ−ợc phân tích, phân tích cú pháp/ngữ
nghĩa, sinh vector biểu diễn, phân lớp văn bản, phân cụm văn bản, phân
tích kết quả. Những nội dung này sẽ đ−ợc trình bày trong mục 1.3, 1.4 và
1.5 của ch−ơng này.
• L−u trữ bản sao trang web. Để nhanh chóng truy xuất đến nội dung trang
web tìm thấy, thông th−ờng các hệ tìm kiếm th−ờng l−u trữ sẵn bản sao các
trang web d−ới dạng nén cung cấp cho ng−ời dùng. Ph−ơng pháp nén
th−ờng đ−ợc dùng zip. Việc chọn một kỹ thuật nén th−ờng đ−ợc cân nhắc
giữa tốc độ và tỷ lệ nén. Tỷ lệ nén của zip là 3/1 tuy có nhỏ hơn so với các
ph−ơng pháp nén khác nh−ng tốc độ nén và giải nén của zip lại nhanh đáng
kể.
1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời
Các b−ớc xử lý chính:
• Phân tích câu hỏi của ng−ời dùng. Các hệ tìm kiếm thông th−ờng cho
phép ng−ời dùng tìm kiếm các trang web d−ới dạng biểu thức logic, ngoài
ra để thuận tiện và nâng cao tính chính xác của câu hỏi, các hệ tìm kiếm
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
11
cũng cho phép ng−ời dùng đ−a vào các điều kiện nâng cao nh− tìm từ trong
chủ đề, tìm các trang theo nội dung của một trang web, tìm theo thời gian
xuất hiện, tìm theo ngôn ngữ ..v.v. Câu hỏi của ng−ời dùng sẽ đ−ợc phân
tích thành các điều kiện để hệ tìm kiếm có những ứng xử phù hợp.
• Định vị các trang web kết quả và xếp hạng. Dựa trên các điều kiện của
ng−ời dùng và các trang web đã đ−ợc phân tích trong giai đoạn “thu thập
và phân tích thông tin” hệ tìm kiếm nhanh chóng định vị ra đ−ợc các
trang web kết quả, hơn nữa các trang web cũng đ−ợc lấy ra theo mức độ
t−ơng quan với câu hỏi của ng−ời dùng theo một số tiêu chí sắp xếp, ví dụ
nh− thứ tự có xuất hiện các từ khoá trong câu hỏi, mức độ gần với nội dung
trang web mẫu. Mức độ chính xác của trang web đối với câu hỏi của ng−ời
dùng (hạng của trang web) cũng đ−ợc tính toán và cung cấp cho ng−ời
dùng. Một số hệ tìm kiếm còn bổ sung thêm tính năng xử lý các phản hồi
của ng−ời dùng với kết quả để nâng cao độ chính xác cho các lần trả lời
sau nh− ghi nhận số lần truy cập của trang web để tăng độ −u tiên về hạng
của trang web, thay đổi độ t−ơng tự của các trang web đã phân tích, chuyển
trang web vào nhóm văn bản có chủ đề chính xác hơn.
• Hiển thị nội dung trang web sẵn có. Ng−ời dùng có thể lấy trang web từ
địa chỉ đ−ợc cung cấp bởi hệ tìm kiếm hoặc có thể xem nội dung trang web
sẵn có trong kho l−u trữ của hệ tìm kiếm. Thao tác này yêu cầu hệ tìm
kiếm giải nén trang web và hiển thị. Thông th−ờng thì hệ tìm kiếm sẽ tô
sáng các thành phần có trong câu hỏi của ng−ời dùng bằng các màu sắc để
ng−ời dùng nhanh chóng nhận ra vị trí của chúng trong trang web kết quả.
1.3 Mô hình biểu diễn thông tin của văn bản
Cơ sở dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc biểu diễn thông tin của văn bản
mà dữ liệu chứa trong đó bao gồm các nội dung văn bản và các thuộc tính của các nội
dung đó. Dữ liệu trong cơ sở dữ liệu Fulltext th−ờng đ−ợc tổ chức nh− một sự kết hợp
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
12
giữa hai phần: phần cơ sở dữ liệu thông th−ờng quản lý thuộc tính của các văn bản, và
phần tập hợp nội dung các văn bản đ−ợc quản lý [3].
Cơ sở dữ liệu Fulltext
Cơ sở dữ liệu về
thuộc tính tài liệu
Cơ sở dữ liệu về
nội dung tài liệu
Hình 6. Mô hình tổ chức của cơ sở dữ liệu Fulltext
Hiện nay có ba mô hình cơ sở dữ liệu Fulltext điển hình là
1. Mô hình logic
2. Mô hình cú pháp
3. Mô hình vector
Mô hình vector là mô hình đ−ợc sử dụng phổ biến nhất trong các hệ tìm kiếm
hiện nay.
1.3.1 Mô hình biểu diễn thông tin theo từ khoá
Mỗi văn bản đ−ợc biểu diễn nh− một vector có các thành phần là thể hiện từ khoá
t−ơng ứng có mặt hoặc không có mặt trong văn bản đó. Mỗi từ khoá lại có một trọng số
biểu diễn về mức độ quan trọng của nó trong văn bản. Quá trình gán các giá trị đó đ−ợc
gọi là quá trình đánh chỉ số (indexing). Hiện nay có nhiều ph−ơng pháp đánh chỉ số
nh− TF, IDF, TF*IDF, LSI [3]... trong đó chủ yếu dựa vào tần số xuất hiện của các từ
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
13
hoặc mối quan hệ giữa sự xuất hiện của các từ trong văn bản. Nh− vậy thì số chiều của
không gian vector là lực l−ợng của tập các từ khoá.
Ví dụ văn bản thứ nhất có nội dung “VietKey 32-Bit là ch−ơng trình hỗ trợ gõ
tiếng Việt trong các môi tr−ờng Windows 32-Bit của Microsoft”.
Và văn bản thứ 2 “VietKey có thể nhúng đ−ợc tiếng Việt trong hầu hết các ứng
dụng 16-bit và 32-bit trong môi tr−ờng Windows 32-bit”
Vector biểu diễn văn bản sẽ gồm các thành (từ khoá, tần suất của từ trong văn
bản):
Từ khoá Vector biểu diễn văn bản 1 Vector biểu diễn văn bản 2
16 0 1
32 2 2
bit 1 3
các 1 1
có 0 1
của 1 0
ch−ơng 1 0
dụng 0 1
đ−ợc 0 1
gõ 1 0
hầu 0 1
hết 0 1
hỗ 1 0
là 1 0
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
14
môi 1 1
microsoft 1 0
nhúng 0 1
thể 0 1
tiếng 1 1
trình 1 0
tr−ờng 1 1
trợ 1 0
trong 1 2
ứng 0 1
và 0 1
vietkey 1 1
việt 1 1
windows 1 1
Bảng 1. Vector biểu diễn văn bản
1.3.2 Mô hình biểu diễn thông tin theo nội dung
Đối với bài toán tìm kiếm theo nội dung, phần lớn các giải pháp tìm kiếm thông
tin đều lựa chọn mô hình vector. Có ba ph−ơng pháp tiếp cận trong việc xác định từ
khoá trong vector biểu diễn văn bản.
1. Ph−ơng pháp biểu diễn theo nội dung văn bản: Từ khoá trong vector biểu
diễn văn bản u là những từ có mặt trong văn bản u.
2. Ph−ơng pháp tiếp cận theo liên kết: Từ khoá trong vector biểu diễn văn bản
u là những từ khóa có trong định danh của những văn bản v có liên kết đến
văn bản u.
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Đặng Tiểu Hùng – Luận văn cao học
15
3. Ph−ơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá trong vector
biểu diễn văn bản u là những từ xuất hiện trong cửa sổ ngữ nghĩa lân cận
liên kết từ những văn bản v đến văn bản u.
Luận văn đề cập tới giải pháp kết hợp các ph−ơng pháp tiếp cận trên đây.
1.4 Phân tích cú pháp và ngữ nghĩa
Trong trang web không chỉ có thông tin thể hiện nội dung mà còn các thông tin
phụ trợ nh− các comment, các đoạn mã, các thẻ HTML. Do