Cùng với sự phát triển mạnh mẽcủa Internet là một khối lượng khổng lồ dữ liệu được phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm kiếm theo từ khoá (cụm từ khoá) như Yahoo, Google .
                
              
                                            
                                
            
 
            
                 78 trang
78 trang | 
Chia sẻ: vietpd | Lượt xem: 1490 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Mục lục 
Phần mở đầu........................................................................................................................... 3 
Ch−ơng 1. Tổng quan về tìm kiếm thông tin trên web.................................... 5 
1.1 Giới thiệu về tìm kiếm thông tin...............................................................5 
1.2 Bài toán tìm kiếm thông tin ......................................................................5 
1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin ....................................9 
1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời................................................10 
1.3 Mô hình biểu diễn thông tin của văn bản ...............................................11 
1.3.1 Mô hình biểu diễn thông tin theo từ khoá .......................................12 
1.3.2 Mô hình biểu diễn thông tin theo nội dung .....................................14 
1.4 Phân tích cú pháp và ngữ nghĩa ..............................................................15 
1.5 Phân lớp văn bản.....................................................................................15 
1.6 Phân cụm văn bản...................................................................................15 
1.7 Khai thác thông tin cấu trúc web............................................................16 
1.8 Khai thác thông tin sử dụng web ............................................................16 
Ch−ơng 2. ph−ơng pháp biểu diễn trang web theo ngữ nghĩa lân cận 
siêu liên kết ......................................................................................................................... 18 
2.1 Giới thiệu ................................................................................................18 
2.2 Ph−ơng pháp đánh giá chất l−ợng độ đo t−ơng tự ..................................19 
2.2.1 Chọn ph−ơng pháp đánh giá ............................................................19 
2.2.2 Xác định thứ tự nền trong ODP .......................................................20 
2.2.3 So sánh sự t−ơng quan giữa các tập thứ tự.......................................23 
2.2.4 Miền của tập thứ tự ..........................................................................24 
2.3 Định nghĩa mô hình vector biểu diễn thông tin văn bản ........................26 
2.3.1 Vector biểu diễn thông tin văn bản..................................................27 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
2
2.3.2 Lựa chọn từ khoá biểu diễn .............................................................27 
2.3.3 L−ợc bớt từ khoá..............................................................................28 
2.3.4 Xác định trọng số của từ khoá .........................................................29 
2.4 Định nghĩa độ đo t−ơng tự......................................................................30 
2.5 Đánh giá chất l−ợng xếp hạng đối với mỗi ph−ơng pháp xây dựng vector 
 ..............................................................................................................31 
2.5.1 Đánh giá chất l−ợng đối với cách chọn từ khoá ..............................32 
2.5.2 Đánh giá chất l−ợng đối với cách chuẩn hoá trọng số từ khoá........39 
2.5.3 Đánh giá chất l−ợng đối với ph−ơng pháp l−ợc bớt từ khoá............42 
2.6 Các thuật toán tìm kiếm theo mô hình vector.........................................42 
Ch−ơng 3. máy tìm kiếm vietseek và thử nghiệm Thuật toán tìm kiếm 
theo ngữ nghĩa lân cận siêu liên kết .................................................................... 45 
3.1 Máy tìm kiếm VietSeek..........................................................................45 
3.1.1 Các đặc điểm cơ bản của Vietseek ..................................................45 
3.1.2 Cơ sở dữ liệu của Vietseek ..............................................................46 
3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek ..............49 
3.2.1 Những cơ sở để đề xuất thuật toán ..................................................49 
3.2.2 Các thuật toán áp dụng cho máy tìm kiếm VietSeek.......................53 
3.2.3 Kết quả thực hiện.............................................................................62 
Phần kết luận...................................................................................................................... 67 
Tài liệu tham khảo........................................................................................................... 69 
Phụ lục.................................................................................................................................... 72 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
3
Phần mở đầu 
Cùng với sự phát triển mạnh mẽ của Internet là một khối l−ợng khổng lồ dữ liệu 
đ−ợc phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở 
dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách 
chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm 
kiếm theo từ khoá (cụm từ khoá) nh− Yahoo, Google ... Tuy nhiên việc tìm kiếm theo 
từ khoá vẫn ch−a đủ để giúp ng−ời sử dụng nhanh chóng tìm đ−ợc trang Web cần thiết 
vì số l−ợng kết quả trả lại rất lớn và nhiều khi chỉ là các trang Web ít có liên quan. Vì 
vậy các hệ thống tìm kiếm cần đ−ợc cải tiến để ngày càng thông minh hơn. Xuất hiện 
những hệ h−ớng tới mục tiêu cụ thể nh− tra cứu thông tin về các chủ đề y tế, giáo dục, 
luật pháp, âm nhạc ... Tuy vậy, việc nghiên cứu các giải pháp tìm đ−ợc các trang thông 
tin theo một nội dung nào đó sát với yêu cầu ng−ời sử dụng vẫn còn nhiều hạn chế. Đã 
có nhiều mô hình tìm kiếm đ−ợc đề xuất, song những mô hình lý t−ởng về mặt lý 
thuyết thì lại ch−a có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, ng−ời ta 
tìm cách cải tiến các ph−ơng pháp có sẵn để áp dụng trong thực tế. Luận văn này h−ớng 
tới việc nghiên cứu, phân tích, đánh giá một số thuật toán tìm kiếm theo nội dung, từ 
đó đề xuất ph−ơng án cải tiến để nâng cao hiệu quả về tính chính xác của nội dung 
cũng nh− về tốc độ. 
Từ việc tìm hiểu, đánh giá và phân tích −u, nh−ợc điểm của các ph−ơng pháp tiếp 
cận khác nhau, dựa theo mục tiêu nâng cao hiệu quả tìm kiếm, luận văn đề xuất giải 
pháp thực hiện “Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm 
kiếm VietSeek”. 
Nội dung của luận văn đ−ợc định h−ớng vào các vấn đề sau: 
1. Mô hình toán học biểu diễn trang văn bản Web, 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
4
2. Khái quát các ph−ơng pháp tiếp cận trong tìm kiếm trang Web có nội dung 
t−ơng tự. Đánh giá −u điểm và nh−ợc điểm của mỗi ph−ơng pháp đ−ợc 
khảo sát. 
3. Đề xuất ph−ơng pháp kết hợp để nâng cao hiệu quả trong tìm kiếm trang 
Web có nội dung t−ơng tự 
Luận văn bao gồm Phần mở đầu, ba ch−ơng nội dung và Phần kết luận với nội 
dung các ch−ơng đ−ợc trình bày nh− d−ới đây. 
Ch−ơng 1 với tiêu đề là Tổng quan về các ph−ơng pháp biểu diễn và tìm kiếm 
thông tin trên web giới thiệu khái quát về các ph−ơng pháp biểu diễn và tìm kiếm trên 
web. 
Tiêu đề của ch−ơng 2 là Ph−ơng pháp biểu diễn trang web theo ngữ nghĩa lân 
cận siêu liên kết. Ch−ơng này trình bày cơ sở, nội dung của ph−ơng pháp đ−ợc đề xuất 
và đánh giá ph−ơng pháp đ−ợc đề xuất với các ph−ơng pháp khác. Luận văn cũng trình 
bày chi tiết các lựa chọn đ−ợc đề xuất trong mỗi b−ớc của ph−ơng pháp, từ đó chọn ra 
giải pháp tốt nhất. 
Ch−ơng 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo ngữ 
nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm VietSeek, thiết 
kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo nội dung trên cơ sở 
biểu diễn trang web do luận văn đề xuất. Ch−ơng này cũng đề xuất những cải tiến khi 
áp dụng vào thực tế để nâng cao hiệu suất thực hiện của ph−ơng pháp biểu diễn. 
Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn và chỉ ra 
một số hạn chế của luận văn. Đồng thời luận văn đề xuất một số h−ớng nghiên cứu cụ 
thể tiếp theo của luận văn. 
Phần phụ lục bổ sung một số thông tin chi tiết về việc áp dụng thuật toán cho 
máy tìm kiếm VietSeek nh− sơ đồ khối một số module cần bổ sung chức năng, những 
lệnh bổ sung vào cơ sở dữ liệu của VietSeek. 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
5
1 Ch−ơng 1. Tổng quan về tìm kiếm thông tin trên web 
1.1 Giới thiệu về tìm kiếm thông tin 
Khai phá dữ liệu trên web (Web Mining) là quá trình khảo sát và phân tích dữ liệu 
web một cách tự động hoặc bán tự động để phát hiện ra thông tin. Từ thông tin đ−ợc 
khai phá, tìm kiếm thông tin (Infomartion Retrieval) trên web là ph−ơng pháp để truy 
cập một cách hiệu quả nhất đến thông tin mà ng−ời dùng quan tâm, kỳ vọng cung cấp 
một tập hợp nhỏ các văn bản gần nhất đến lĩnh vực hoặc chủ đề mà ng−ời dùng mong 
muốn tiếp cận. 
Hình 1. Tìm kiếm thông tin 
1.2 Bài toán tìm kiếm thông tin 
Có 2 bài toán cơ bản trong tìm kiếm thông tin là tìm kiếm theo từ khoá và tìm 
kiếm theo nội dung. Bài toán tìm kiếm theo từ khoá là bài toán tìm kiếm thông tin theo 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
6
các từ khóa do ng−ời dùng cung cấp [1][1]. Hệ tìm kiếm sẽ trả về cho ng−ời dùng các 
trang web có chứa những từ khoá trong câu hỏi. Tuy vậy, với số l−ợng khổng lồ các 
trang web trên internet nh− hiện nay thì số l−ợng kết quả tìm đ−ợc theo từ khoá là quá 
lớn. Ví dụ nếu tìm các trang web có từ khoá find similar web page thì cho kết quả 858 
trang web. 
Hình 2. Tìm kiếm thông tin theo từ khoá 
Bằng cách tìm kiếm theo cụm từ khoá thì số l−ợng kết quả trả về chính xác hơn, 
số kết quả trả về là 25 trang web. 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
7
Hình 3. Tìm kiếm thông tin theo cụm từ khoá 
Nếu tìm trang web t−ơng tự với một trang web mẫu thì số l−ợng kết quả chỉ là 8 
trang web. 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
8
Hình 4. Tìm kiếm thông tin theo nội dung một trang web mẫu 
Một cách tiếp cận khác là tìm kiếm theo các site đ−ợc đề cập trong luận văn của 
Phạm Thanh Nam [1] vì số l−ợng các site ít biến động và ít hơn rất nhiều so với các 
trang web. Tuy vậy, do l−ợng thông tin ứng với mỗi lĩnh vực đều rất lớn nên vẫn quá 
khó khăn để tiếp cận các trang văn bản đáp ứng mong muốn với yêu cầu ng−ời dùng. 
Chính vì lý do đó mà các đề tài nghiên cứu những năm gần đây đi sâu về lĩnh vực tìm 
kiếm theo nội dung t−ơng tự với trang văn bản mẫu nh− luận văn thạc sĩ của Phạm 
Thanh Nam năm 2003 [1], luận án tiến sĩ của Seán Slattery năm 2002 [13] hoặc trong 
một số báo cáo về WWW đ−ợc tổ chức năm 2002[12], năm 2003. Để đáp ứng các yêu 
cầu tìm kiếm thông tin của ng−ời dùng một cách nhanh nhất, tất cả các giải pháp tìm 
kiếm thông tin đều chia thành 2 giai đoạn thực hiện t−ơng đối độc lập với nhau 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
9
• Giai đoạn 1: Thu thập và phân tích thông tin về các trang web. 
• Giai đoạn 2: Xử lý câu hỏi và trả lời 
WWW
web
repository
index process searchddaemon
Client Webserver
Index
database
Giai đoạn 1
Giai đoạn 2
Hình 5: Kiến trúc các hệ tìm kiếm thông tin 
Do giai đoạn 1 không t−ơng tác trực tiếp với ng−ời dùng nên các thông tin đ−ợc 
phân tích một cách đầy đủ nhất để giảm thiểu các phân tích ở giai đoạn sau. Số l−ợng 
các trang web đ−ợc phân tích rất lớn (hàng triệu trang) nên thời gian thực hiện giai 
đoạn 1 rất lớn (tính bằng giờ) còn thời gian thực hiện giai đoạn 2 là rất nhỏ (tính bằng 
phần trăm giây). 
1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin 
Các b−ớc xử lý chính: 
• Tìm duyệt các trang web. Từ các danh sách địa chỉ ban đầu, bộ phận tìm 
duyệt sẽ tải trang web và chuyển cho bộ phận phân tích nội dung trang 
web. Các trang web ban đầu có độ sâu là 0, các liên kết có trong trang web 
sẽ đ−ợc bộ phận phân tích ghi nhận lại với độ sâu là 1. Sau khi đã phân tích 
xong các trang web có độ sâu là 0 thì bộ tìm duyệt tiếp tục tải nội dung các 
trang web có độ sâu là 1 để phân tích và tìm ra các trang web có độ sâu là 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
10
2. Quá trình tải trang web sẽ dừng lại khi đạt đến một độ sâu nhất định nào 
đó do ng−ời dùng đặt tham số nh− trong VietSeek là 256. 
• Phân tích và l−u trữ thông tin biểu diễn trang web. Đây là b−ớc cơ bản 
quyết định đến chất l−ợng của các hệ tìm kiếm. Các trang web đ−ợc phân 
tích về mặt nội dung để xây dựng thành vector biểu diễn trang web. Các 
liên kết có trong trang web cũng đ−ợc ghi nhận lại. Các trang web cũng 
đ−ợc đánh giá mối t−ơng quan với các trang khác theo mục tiêu của bài 
toán, ví dụ nh− sự t−ơng tự về nội dung so với các trang web khác hoặc 
phân vào lớp các chủ đề. Toàn bộ thời gian và tài nguyên của các hệ tìm 
kiếm đ−ợc sử dụng trong b−ớc này. Do đó b−ớc này cũng đ−ợc chia thành 
bài toán nhỏ hơn cần phải giải quyết là xây dựng cấu trúc biểu diễn thông 
tin đ−ợc cung cấp từ các văn bản đ−ợc phân tích, phân tích cú pháp/ngữ 
nghĩa, sinh vector biểu diễn, phân lớp văn bản, phân cụm văn bản, phân 
tích kết quả. Những nội dung này sẽ đ−ợc trình bày trong mục 1.3, 1.4 và 
1.5 của ch−ơng này. 
• L−u trữ bản sao trang web. Để nhanh chóng truy xuất đến nội dung trang 
web tìm thấy, thông th−ờng các hệ tìm kiếm th−ờng l−u trữ sẵn bản sao các 
trang web d−ới dạng nén cung cấp cho ng−ời dùng. Ph−ơng pháp nén 
th−ờng đ−ợc dùng zip. Việc chọn một kỹ thuật nén th−ờng đ−ợc cân nhắc 
giữa tốc độ và tỷ lệ nén. Tỷ lệ nén của zip là 3/1 tuy có nhỏ hơn so với các 
ph−ơng pháp nén khác nh−ng tốc độ nén và giải nén của zip lại nhanh đáng 
kể. 
1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời 
Các b−ớc xử lý chính: 
• Phân tích câu hỏi của ng−ời dùng. Các hệ tìm kiếm thông th−ờng cho 
phép ng−ời dùng tìm kiếm các trang web d−ới dạng biểu thức logic, ngoài 
ra để thuận tiện và nâng cao tính chính xác của câu hỏi, các hệ tìm kiếm 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
11
cũng cho phép ng−ời dùng đ−a vào các điều kiện nâng cao nh− tìm từ trong 
chủ đề, tìm các trang theo nội dung của một trang web, tìm theo thời gian 
xuất hiện, tìm theo ngôn ngữ ..v.v. Câu hỏi của ng−ời dùng sẽ đ−ợc phân 
tích thành các điều kiện để hệ tìm kiếm có những ứng xử phù hợp. 
• Định vị các trang web kết quả và xếp hạng. Dựa trên các điều kiện của 
ng−ời dùng và các trang web đã đ−ợc phân tích trong giai đoạn “thu thập 
và phân tích thông tin” hệ tìm kiếm nhanh chóng định vị ra đ−ợc các 
trang web kết quả, hơn nữa các trang web cũng đ−ợc lấy ra theo mức độ 
t−ơng quan với câu hỏi của ng−ời dùng theo một số tiêu chí sắp xếp, ví dụ 
nh− thứ tự có xuất hiện các từ khoá trong câu hỏi, mức độ gần với nội dung 
trang web mẫu. Mức độ chính xác của trang web đối với câu hỏi của ng−ời 
dùng (hạng của trang web) cũng đ−ợc tính toán và cung cấp cho ng−ời 
dùng. Một số hệ tìm kiếm còn bổ sung thêm tính năng xử lý các phản hồi 
của ng−ời dùng với kết quả để nâng cao độ chính xác cho các lần trả lời 
sau nh− ghi nhận số lần truy cập của trang web để tăng độ −u tiên về hạng 
của trang web, thay đổi độ t−ơng tự của các trang web đã phân tích, chuyển 
trang web vào nhóm văn bản có chủ đề chính xác hơn. 
• Hiển thị nội dung trang web sẵn có. Ng−ời dùng có thể lấy trang web từ 
địa chỉ đ−ợc cung cấp bởi hệ tìm kiếm hoặc có thể xem nội dung trang web 
sẵn có trong kho l−u trữ của hệ tìm kiếm. Thao tác này yêu cầu hệ tìm 
kiếm giải nén trang web và hiển thị. Thông th−ờng thì hệ tìm kiếm sẽ tô 
sáng các thành phần có trong câu hỏi của ng−ời dùng bằng các màu sắc để 
ng−ời dùng nhanh chóng nhận ra vị trí của chúng trong trang web kết quả. 
1.3 Mô hình biểu diễn thông tin của văn bản 
Cơ sở dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc biểu diễn thông tin của văn bản 
mà dữ liệu chứa trong đó bao gồm các nội dung văn bản và các thuộc tính của các nội 
dung đó. Dữ liệu trong cơ sở dữ liệu Fulltext th−ờng đ−ợc tổ chức nh− một sự kết hợp 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
12
giữa hai phần: phần cơ sở dữ liệu thông th−ờng quản lý thuộc tính của các văn bản, và 
phần tập hợp nội dung các văn bản đ−ợc quản lý [3]. 
Cơ sở dữ liệu Fulltext
Cơ sở dữ liệu về
thuộc tính tài liệu
Cơ sở dữ liệu về
 nội dung tài liệu
Hình 6. Mô hình tổ chức của cơ sở dữ liệu Fulltext 
Hiện nay có ba mô hình cơ sở dữ liệu Fulltext điển hình là 
1. Mô hình logic 
2. Mô hình cú pháp 
3. Mô hình vector 
 Mô hình vector là mô hình đ−ợc sử dụng phổ biến nhất trong các hệ tìm kiếm 
hiện nay. 
1.3.1 Mô hình biểu diễn thông tin theo từ khoá 
Mỗi văn bản đ−ợc biểu diễn nh− một vector có các thành phần là thể hiện từ khoá 
t−ơng ứng có mặt hoặc không có mặt trong văn bản đó. Mỗi từ khoá lại có một trọng số 
biểu diễn về mức độ quan trọng của nó trong văn bản. Quá trình gán các giá trị đó đ−ợc 
gọi là quá trình đánh chỉ số (indexing). Hiện nay có nhiều ph−ơng pháp đánh chỉ số 
nh− TF, IDF, TF*IDF, LSI [3]... trong đó chủ yếu dựa vào tần số xuất hiện của các từ 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
13
hoặc mối quan hệ giữa sự xuất hiện của các từ trong văn bản. Nh− vậy thì số chiều của 
không gian vector là lực l−ợng của tập các từ khoá. 
Ví dụ văn bản thứ nhất có nội dung “VietKey 32-Bit là ch−ơng trình hỗ trợ gõ 
tiếng Việt trong các môi tr−ờng Windows 32-Bit của Microsoft”. 
Và văn bản thứ 2 “VietKey có thể nhúng đ−ợc tiếng Việt trong hầu hết các ứng 
dụng 16-bit và 32-bit trong môi tr−ờng Windows 32-bit” 
Vector biểu diễn văn bản sẽ gồm các thành (từ khoá, tần suất của từ trong văn 
bản): 
Từ khoá Vector biểu diễn văn bản 1 Vector biểu diễn văn bản 2 
16 0 1 
32 2 2 
bit 1 3 
các 1 1 
có 0 1 
của 1 0 
ch−ơng 1 0 
dụng 0 1 
đ−ợc 0 1 
gõ 1 0 
hầu 0 1 
hết 0 1 
hỗ 1 0 
là 1 0 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
14
môi 1 1 
microsoft 1 0 
nhúng 0 1 
thể 0 1 
tiếng 1 1 
trình 1 0 
tr−ờng 1 1 
trợ 1 0 
trong 1 2 
ứng 0 1 
và 0 1 
vietkey 1 1 
việt 1 1 
windows 1 1 
Bảng 1. Vector biểu diễn văn bản 
1.3.2 Mô hình biểu diễn thông tin theo nội dung 
Đối với bài toán tìm kiếm theo nội dung, phần lớn các giải pháp tìm kiếm thông 
tin đều lựa chọn mô hình vector. Có ba ph−ơng pháp tiếp cận trong việc xác định từ 
khoá trong vector biểu diễn văn bản. 
1. Ph−ơng pháp biểu diễn theo nội dung văn bản: Từ khoá trong vector biểu 
diễn văn bản u là những từ có mặt trong văn bản u. 
2. Ph−ơng pháp tiếp cận theo liên kết: Từ khoá trong vector biểu diễn văn bản 
u là những từ khóa có trong định danh của những văn bản v có liên kết đến 
văn bản u. 
Ph−ơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 
Đặng Tiểu Hùng – Luận văn cao học 
15
3. Ph−ơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá trong vector 
biểu diễn văn bản u là những từ xuất hiện trong cửa sổ ngữ nghĩa lân cận 
liên kết từ những văn bản v đến văn bản u. 
Luận văn đề cập tới giải pháp kết hợp các ph−ơng pháp tiếp cận trên đây. 
1.4 Phân tích cú pháp và ngữ nghĩa 
Trong trang web không chỉ có thông tin thể hiện nội dung mà còn các thông tin 
phụ trợ nh− các comment, các đoạn mã, các thẻ HTML. Do