Bài báo này giới thiệu kết quả nghiên cứu xây dựng một hệ thống phục vụ tìm kiếm các tài liệu toán học viết
bằng tiếng Việt. Hệ thống bao gồm 2 phần mềm chính đó là tạo chỉ mục và tìm kiếm. Chúng tôi đã đề xuất 2 mô hình tổng quát cho
2 phần mềm này. Với phần tạo chỉ mục, đầu vào là các tập tin dưới định dạng PDF hoặc XHTML và đầu ra là tập tin chỉ mục. Với
phần tìm kiếm, người sử dụng có thể gõ vào truy vấn bằng từ khóa hoặc công thức bất kỳ và hệ thống trả về các tài liệu có chứa từ
khóa hoặc công thức đó. Để xây dựng hệ thống, chúng tôi đã đề xuất các giải pháp để chuyển đổi định dạng công thức toán học,
chuẩn hóa công thức toán học trong MathML, phân tích cú pháp và tạo chỉ mục, tích hợp công cụ gõ công thức toán học vào khung
tìm kiếm, xếp hạng kết quả tìm kiếm,… Chúng tôi đã xây dựng và thử nghiệm hệ thống này với hơn 5000 tài liệu toán học viết bằng
tiếng Việt, kết quả tìm kiếm cơ bản đáp ứng nhu cầu người dùng cả về độ chính xác lẫn tốc độ tìm kiếm.
8 trang |
Chia sẻ: candy98 | Lượt xem: 564 | Lượt tải: 0
Bạn đang xem nội dung tài liệu VNmathsearch - Hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015
DOI: 10.15625/vap.2015.000218
VNMATHSEARCH - HỆ THỐNG TÌM KIẾM CÁC TÀI LIỆU TOÁN HỌC
BẰNG TIẾNG VIỆT
Cao Xuân Tuấn1, Võ Trung Hùng2, Nguyễn Mạnh Hùng3, Nguyễn Thị Thu Hà4
1Bộ Giáo dục và Đào tạo
2 Khoa CNTT, Trường Đại Bách khoa, Đại học Đà Nẵng
3Học viện Công nghệ Bưu chính Viễn thông
4Khoa CNTT, Trường Đại học Điện Lực
cxtuan@moet.edu.vn, vthung@dut.udn.vn, nmhung@yahoo.com, hantt@epu.edu.vn
TÓM TẮT - Bài báo này giới thiệu kết quả nghiên cứu xây dựng một hệ thống phục vụ tìm kiếm các tài liệu toán học viết
bằng tiếng Việt. Hệ thống bao gồm 2 phần mềm chính đó là tạo chỉ mục và tìm kiếm. Chúng tôi đã đề xuất 2 mô hình tổng quát cho
2 phần mềm này. Với phần tạo chỉ mục, đầu vào là các tập tin dưới định dạng PDF hoặc XHTML và đầu ra là tập tin chỉ mục. Với
phần tìm kiếm, người sử dụng có thể gõ vào truy vấn bằng từ khóa hoặc công thức bất kỳ và hệ thống trả về các tài liệu có chứa từ
khóa hoặc công thức đó. Để xây dựng hệ thống, chúng tôi đã đề xuất các giải pháp để chuyển đổi định dạng công thức toán học,
chuẩn hóa công thức toán học trong MathML, phân tích cú pháp và tạo chỉ mục, tích hợp công cụ gõ công thức toán học vào khung
tìm kiếm, xếp hạng kết quả tìm kiếm, Chúng tôi đã xây dựng và thử nghiệm hệ thống này với hơn 5000 tài liệu toán học viết bằng
tiếng Việt, kết quả tìm kiếm cơ bản đáp ứng nhu cầu người dùng cả về độ chính xác lẫn tốc độ tìm kiếm.
Từ khóa - tìm kiếm, chỉ mục, xếp hạng, toán học.
I. GIỚI THIỆU
Cùng với sự phổ biến và phát triển nhanh chóng của CNTT và mạng Internet, thông tin được chia sẻ và nhu cầu
tìm kiếm trên mạng Internet ngày càng phong phú đa dạng hơn. Cũng như các lĩnh vực khác, ngày càng có nhiều người
chia sẻ các tài liệu toán học và tìm kiếm thông tin để giải quyết các vấn đề thông qua mạng Internet. Tuy nhiên, một
vấn đề đặt ra là làm sao có thể tìm kiếm được các nội dung toán học cần thiết trong một kho tài liệu khổng lồ trên mạng
Internet. Các máy tìm kiếm phổ biến hiện nay như Google Search, Yahoo Search, Live Search của Microsofts chưa cho
phép cung cấp và nhận diện được các công thức theo cách tự nhiên, do đó việc tìm kiếm thường không trả về kết quả
khớp với yêu cầu người dùng. Chính vì vậy cần có một bộ máy tìm kiếm công thức toán học chuyên dụng cho phép tìm
kiếm các công thức toán học trên các tài liệu và Website được chia sẻ trên mạng Internet [5][6].
Hiện nay trên thế giới đã phát triển một số công cụ tìm kiếm công thức toán học cho phép tìm theo nội dung
hiển thị của công thức hoặc theo ngữ nghĩa của nó tuy nhiên phạm vi ứng dụng của các công cụ này còn bó hẹp, chẳng
hạn như EgoMath cho phép tìm kiếm công thức toán học trên Wikipedia.org, Website LatexSearch có hỗ trợ tìm kiếm
các công thức toán học được soạn thảo bằng ngôn ngữ đánh dấu LaTeX, đây là bản quyền của MPS Technologies
(Mathematical Programming System), nhưng những kết quả tìm thấy chỉ giới hạn trên những tài liệu điện tử lưu trữ
trên máy chủ SpringerLink,... [3] Đặc biệt, hiện nay chưa có hệ thống nào tìm kiếm chuyên dụng cho các tài liệu toán
học dành cho tiếng Việt. Vì vậy, việc nghiên cứu phát triển một công cụ tìm kiếm dựa trên các công thức toán học là
cần thiết và có ý nghĩa thực tiễn cao [1].
Trong bài báo này, chúng tôi giới thiệu kết quả nghiên cứu và triển khai thử nghiệm của chúng tôi trên hệ thống
VNMathSearch. Hệ thống này nhằm hỗ trợ tìm kiếm các tài liệu toán học (có thể tìm kiếm trực tiếp qua các công thức
hoặc các từ khóa tiếng Việt) nhằm thúc đẩy việc học tập, nghiên cứu và ứng dụng khoa học tư nhiên tại Việt Nam. Bài
báo được tổ chức thành 4 phần chính. Phần 2 trình bày kết quả nghiên cứu tổng quan về các văn bản toán học, phương
thức biểu diễn công thức toán học trong tài liệu và Website và một số kết quả nghiên cứu liên quan. Phần tiếp theo mô
tả ứng dụng, xây dựng mô hình tổng quát và giới thiệu giải pháp lưu trữ công thức toán học trên văn bản, giải pháp tạo
chỉ mục cho các tài liệu toán học và giải pháp tìm kiếm công thức toán học cũng như tích hợp công cụ hỗ trợ người
dùng trong quá trình tìm kiếm. Phần cuối trình bày việc triển khai xây dựng công cụ tìm kiếm công thức toán học trên
văn bản và thử nghiệm đánh giá những kết quả đã đạt được.
II. MỘT SỐ NGHIÊN CỨU LIÊN QUAN
1. Đặc tả công thức toán trên tài liệu
Công thức toán học trên tài liệu có thể được đặc tả bằng nhiều ngôn ngữ khác nhau được gọi là ngôn ngữ đánh
dấu toán học. Các ngôn ngữ đánh dấu toán học phổ biến nhất hiện nay là TeX/LaTeX [8], MathML [13], OMDoc [10]
và OpenMath [11]. Trong đó, TeX/LaTeX có cú pháp gần gũi với ngôn ngữ tự nhiên, trong khi MathML, OpenMath và
OMDoc lại tối ưu hóa cho việc giao tiếp giữa các máy tính với nhau.
MathML (Mathematical Markup Language) là một ngôn ngữ mở rộng dựa trên XML để thể hiện ký hiệu và
công thức toán học với mục đích rộng là phương thức trao đổi thông tin toán học trên máy tính (để hiển thị cũng như để
tính toán) và mục đích hẹp là hiển thị tài liệu toán học trên World Wide Web. Tổ chức W3C (World Wide Web
Consortium) có khuyến nghị nên sử dụng ngôn ngữ này trên mạng khi biểu diễn nội dung các công thức toán học. Đối
Cv
d
c
c
L
tr
(
2
M
th
p
c
d
C
c
d
d
d
l
đ
M
d
tr
M
c
m
c
L
t
A
c
h
c
t
L
t
T
l
đ
L
n
n
E
h
c
L
đ
n
p
(
ao Xuân Tuấn, V
ới hiển thị trê
uyệt, cho phé
ác phần mềm
ùng với các p
inux, Window
MathM
ình bày của c
Content Math
. Một số máy
athWebSear
MathW
ức toán học
hát triển tại Đ
hỉ mục cho cá
ụng kỹ thuậ
ông cụ tìm k
ác truy vấn n
ạng văn bản
ạng Content
àng chuyển đ
ập chỉ mục bở
MathW
ặc biệt trên I
ySQL. Chỉ m
MathW
àng tích hợp
ình biên soạn
athWebSear
àng cao, thì c
ục cho hơn 1
àng tăng. Tra
eActiveMath
LeActiv
ập có khả nă
ctiveMath gr
LeActiv
ác tài liệu OM
ọc được mã
ó thể tìm kiếm
oán học trong
eActiveMath
iêu đề, nội du
ương tự như
iệu tìm thấy c
ộ trùng khớp
eActiveMath
ó chỉ lập chỉ
ội bộ trong m
gomath
Egomat
ọc phát triển
ó thể tìm kiếm
aTeX và văn
ược hiển thị
ội dung trùn
hần trùng k
highlight) nh
õ Trung Hùng, N
n trang mạng
p hiển thị nga
tính toán. M
hần mềm tính
s,
L cung cấp h
ông thức (Pr
ML) [9].
tìm kiếm dựa
ch
ebSearch là m
dựa trên ngữ
ại học Jacob
c công thức M
t chỉ mục Su
iếm MathWe
hanh và các ứ
nào mà có
MathML hoặ
ổi về Content
i MathWebSe
ebSearch có r
nternet, chuy
ục sẽ được tạ
ebSearch cun
vào các hệ th
công thức W
ch được xếp h
hứng tỏ số lầ
,600,000 tài l
ng chủ của M
eMath là mộ
ng tương tác
oup.
eMath thực h
Doc, trong đ
hóa bằng Op
đồng thời v
ứng dụng n
thực hiện lập
ng văn bản và
các công cụ t
ũng được sắ
của tài liệu
được phát tr
mục cho các
ôi trường học
h là một côn
tại Đại học C
các công th
bản đơn gi
cùng với đoạ
g khớp với
hớp này sẽ
ằm giúp ngư
guyễn Mạnh Hù
, cấu trúc Ma
y lập tức côn
athML được
toán kỹ thuậ
ai cách thức t
esentation Ma
trên công th
ột bộ máy tì
nghĩa của côn
s [2][7]. Hệ t
athML và O
bstitution Tr
bSearch đượ
ng dụng tươn
chứa các côn
c dạng nào đ
MathML đều
arch.
iêng bộ thu th
ển đổi các bi
o trên dữ liệu
g cấp cả một
ống sau này.
IRIS nhằm h
ạng dựa theo
n trùng khớp
iệu từ các kho
athWebSearc
t ứng dụng hỗ
được phát t
iện lập chỉ m
ó các công th
enMath. Ngư
ăn bản và cô
ày. Với mỗi
chỉ mục cho
công thức to
ìm kiếm khác
p xếp giảm d
so với câu tr
iển dựa trên
tài liệu được
tập LeActive
g cụ tìm ki
harles ở Prag
ức toán học v
ản, kết quả t
n trích dẫn c
câu truy vấn
được làm
ời dùng dễ d
ng, Nguyễn Thị
thML không n
g thức toán h
hỗ trợ bởi c
t như Maple,
rình bày ngô
thML) và cá
ức toán học
m kiếm công
g thức, được
hống này tạo
penMath, sử
ee Indexing.
c tối ưu cho
g tác. Bất kỳ
g thức dưới
ó có thể dễ
có thể được
ập (Crawler)
ểu thức toán
này.
bộ máy tìm k
Ngoài định dạ
ỗ trợ người dù
độ trùng khớ
của nó với n
chứa
h là:
trợ học
riển bởi
ục cho
ức toán
ời dùng
ng thức
tài liệu,
trường
án học.
, các tài
ần theo
uy vấn.
Lucene,
sử dụng
Math. Trang
ếm toán
ue. Nó
iết bằng
ìm thấy
hứa các
, những
nổi bật
àng đối
Thu Hà
gắn gọn như
ọc một cách đ
ác phần mềm
Mathematica
n ngữ đánh d
ch thức thứ h
để tìm về các
học thành các
iếm hoàn chỉn
ng đầu vào k
ng nhập công
p với nội dun
ội dung tìm k
nx.org và http
rch.mathweb
chủ của LeAc
TeX, nhưng c
ẹp mắt, đồng
văn phòng n
và MathCad
ấu toán học, m
ai nhấn mạnh
tài liệu có ch
chuỗi và lưu
h với giao di
iểu XML và
thức dễ dàng
g tìm kiếm. D
iếm càng nhi
://functions.w
.org/.
tiveMath là h
ó thể dễ dàng
thời truyền t
hư Microsoft
trên các hệ đ
ột cách thức
nội dung của
ứa Content M
trữ nó trong
ện trực quan
chuỗi, MathW
từ các mẫu s
o đó nếu mộ
ều. Hiện tại, M
olfram.com v
ttp://www.lea
phân tích bở
ải ý nghĩa toá
Word, Open
iều hành khác
nhằm nhấn m
công thức to
athML từ cá
cơ sở dữ liệ
và cả một AP
ebSearch còn
ẵn có. Kết qu
t tài liệu được
athWebSea
à con số này
ctivemath.org
769
i các trình
n học cho
Office.org
nhau như
ạnh cách
án học đó
c kho chứa
u sử dụng
I nhằm dễ
cung cấp
ả trả về từ
xếp hạng
rch tạo chỉ
càng ngày
/.
7
c
tr
v
h
1
x
X
Ứ
d
2
c
70
hiếu và lựa ch
ường để nhập
ăn bản và
ttp://egomath
. Mô tả ứng d
Xuất ph
uất xây dựng
HTML. Từ q
- Ứng d
- Cho p
- Cho p
hạn n
ng dụng xếp
ùng.
. Mô hình tổn
Khi xây
ho các tài liệu
Mô hìn
ọn [4]. Từ g
cho các văn
các công
.projekty.ms.m
ụng
át từ nhu cầu
một ứng dụn
uan điểm ngư
ụng cho phép
hép người dù
hép tìm kiếm
gười dùng có
hạng kết quả
g quát
dựng hệ thố
và tìm kiếm
h tổng quá củ
Hình 1. Mô h
VN
iao diện tìm k
bản đơn giản
thức toán h
ff.cuni.cz/.
thực tiễn cần
g tìm kiếm
ời dùng, ứng
tìm kiếm đư
ng nhập công
tài liệu toán
thể nhập "Pyt
trả về cho ng
ng tìm kiếm,
khi có yêu cầ
a quá trình tạo
ình quá trình
MATHSEARCH
iếm, người d
và trường c
ọc viết bằn
III. GIẢI
có một công
công thức trê
dụng cần đáp
ợc tài liệu ở c
thức toán họ
học dựa trên
hagoras form
ười dùng theo
sau khi có kh
u truy vấn của
chỉ mục và t
tạo chỉ mục
- HỆ THỐNG T
ùng có thể nh
òn lại để nhập
g LaTeX h
PHÁP ĐỀ X
cụ để tìm ki
n một kho ch
ứng một số y
ác định dạng
c một cách trự
nội dung tìm
ula aଶ bଶ ൌ
thứ tự giảm
o dữ liệu chú
người dùng.
ìm kiếm như
ÌM KIẾM CÁC
ập câu truy v
công thức t
oặc MathM
UẤT
ếm công thức
ứa các tài liệ
êu cầu như sa
PDF và XHTM
c quan từ khu
kiếm chứa đồ
cଶ" để tìm k
dần theo độ tr
ng ta trải qua
sau:
Hìn
TÀI LIỆU TOÁN
ấn thông qua
oán học. Ego
L. Trang c
toán học trê
u toán học ở
u:
L.
ng tìm kiếm.
ng thời văn b
iếm nội dung
ùng khớp với
2 quá trình
h 2. Mô hình q
HỌC BẰNG T
hai trường dữ
Math có thể x
hủ của Ego
n văn bản, ch
các định dạn
ản và công th
chính xác hơ
câu truy vấn
chính đó là tạ
uá trình tìm k
IẾNG VIỆT
liệu. Một
ử lý được
Math tại
úng tôi đề
g PDF và
ức. Chẳng
n.
của người
o chỉ mục
iếm
Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà 771
3. Một số giải pháp xử lý
Giải pháp chuyển đổi định dạng công thức toán học
Hệ thống của chúng tôi cho phép tìm kiếm trên các định dạng tài liệu PDF và XHTML. Để tạo chỉ mục trên tập
tài liệu này, chúng tôi sẽ chuyển đổi chúng về một định dạng thống nhất là XHTML+MathML.
PDF là tài liệu đã được biên dịch từ mã nguồn TeX, LaTeX, Doc hoặc là kết quả chuyển đổi từ tập tin DVI hoặc
PS, do đó không thể thực hiện tìm kiếm trực tiếp trên loại tập tin này. Để chuyển đổi PDF thành mã nguồn
XHTML+MathML nhằm thuận tiện cho việc lập chỉ mục và tìm kiếm, chúng tôi đề xuất sử dụng InftyReader.
InftyReader là ứng dụng OCR (Optical Character Recognition - Nhận dạng ký tự quang học) có khả năng nhận
dạng các tài liệu khoa học có chứa các công thức toán học. Kết quả nhận dạng có thể được xuất ra dưới nhiều định
dạng khác nhau, chẳng hạn như: LaTeX, MathML, XHTML, HRTeX, IML và liệu Microsoft Word. InftyReader được
phát triển tại thư viện Masakazu Suzuki, khoa Toán học sau đại học của trường đại học Kyushu.
Giải pháp chuẩn hóa công thức toán học
Chuẩn hóa là bước chuyển đổi các công thức toán học MathML có định dạng khác nhau (nhưng ý nghĩa giống
nhau) về một định dạng chung. Quá trình này giúp cho việc tìm kiếm được chính xác hơn. Chuẩn hóa MathML là bước
tối ưu hóa các công thức toán học bằng MathML nhằm loại bỏ các thẻ, các thuộc tính không cần thiết.
Để chuẩn hóa các công thức, chúng tôi thực hiện quá trình chuẩn hóa gồm các bước sau: Loại bỏ các thành phần
và các thuộc tính không cần thiết; loại bỏ các thực thể ẩn (thực thể ẩn là những thực thể không hiển thị trên trình duyệt
khi hiển thị công thức mà nó chỉ có tác dụng làm rõ ý nghĩa của công thức đó).
Những thuộc tính bị loại bỏ và các thực thể ẩn này chỉ có tác dụng trong việc giải thích phần ngữ nghĩa của
công thức, mà không có tác dụng trong việc lập chỉ mục và tìm kiếm. Do đó những thành phần này được loại bỏ để tối
ưu hóa hiệu suất của bộ máy tìm kiếm.
Giải pháp phân tích cú pháp và tạo chỉ mục
Đầu tiên nội dung tài liệu sẽ được phân tách thành nội dung văn bản và nội dung toán học. Các nội dung văn
bản được lập chỉ mục theo cách thông thường. Còn các công thức toán học sau khi đã hoàn thành bước chuẩn hóa sẽ
được chuyển đổi thành một chuỗi nén (chuỗi nén là chuỗi không có xuống dòng, không có khoảng trống trong chuỗi)
mà có thể được lập chỉ mục như một chuỗi văn bản bình thường.
Chuỗi nén này được tạo ra theo quy luật sau: một cặp thẻ XML (bao gồm thẻ mở và thẻ đóng) sẽ được thay thế
bằng tên của thẻ và tiếp sau đó là chuỗi các tham số của thẻ đó sẽ được đặt trong cặp dấu ngoặc. Ví dụ công thức a + b2
được viết trong MathML như sau:
a
+
b
2
sẽ được chuyển đổi sang chuỗi nén tuyến tính như sau:
math(mrow(mi(a)mo(+)msup(mi(b)mn(2))))
Giải pháp tích hợp công cụ gõ công thức toán học vào khung tìm kiếm
Trên giao diện ứng dụng, người dùng có thể gõ công thức toán học trực tiếp vào khung tìm kiếm nhờ tích hợp
một bộ công cụ gõ công thức toán học gọi là WIRIS. WIRIS là tập hợp các công cụ JavaScript giúp người dùng nhập
và chỉnh sửa công thức toán học, trong đó có trình biên soạn WIRIS là một trình biên soạn trực quan, hay còn gọi là
WYSIWYG (What You See Is What You Get). Trình biên soạn công thức WIRIS hoạt động tương tự bộ công cụ
Equation trong Word. Người dùng chọn format của công thức cần nhập sau đó chỉnh sửa các giá trị ở trong format đó
để tạo thành một công thức hoàn chỉnh.
Trình biên soạn WIRIS chạy được trên bất cứ trình duyệt (Firefox, Internet Explorer, Chrome, Safari, vv.) và
bất cứ hệ điều hành nào (Windows, Linux, Mac, vv.). Nó có thể được tích hợp vào các ứng dụng Web và ứng dụng
Desktop như một plugin.
Kết quả trả về của công thức được lưu trữ dưới dạng Presentation MathML, công thức này cũng có thể được
chuyển đổi sang Content MathML hoặc LaTeX tùy vào nhu cầu tìm kiếm. Tuy nhiên trong phạm vi luận văn này,
chúng tôi chuyển đổi công thức nhập vào thành Presentation MathML để thuận tiện cho quá trình lập chỉ mục.
7
G
từ
t
s
c
k
tr
n
C
m
th
th
72
Dưới đâ
iải pháp xếp
Chúng
- Tần số tài
ài liệu sẽ có đ
Thuật t
Trong đ
TF là tầ
IDF là
ố càng thấp (v
Thông
hỉ mục và thà
hoa học, các
ên mạng. Bản
Nguồn
Số lượn
Định dạ
Số lượn
Chúng
ày cho phép
hương trình
ục chứa tài li
Đầu và
ư mục Index
ức được lập
y là giao diện
hạng kết quả
tôi sử dụng th
liệu nghịch đ
iểm càng cao.
oán này được
ó, t là query t
n suất xuất hi
chỉ số biểu hi
ì xuất hiện qu
thường, một h
nh phần tìm
sách điện tử v
g sau mô tả v
dữ liệu
g
ng
g công thức s
tôi phát triển
người quản tr
lập chỉ mục n
ệu cần lập ch
o của chương
es, ngoài ra h
chỉ mục và tổ
VN
của công cụ
Hình 3
tìm kiếm
uật toán xếp
ảo). Ý tưởng
biểu diễn dướ
erm, d là doc
ện của mục từ
ện cho tần suấ
á nhiều đồng
ệ thống tìm k
kiếm. Kho dữ
ề toán học tại
ề kho dữ liệu
au khi đánh c
hệ thống tạo
ị chỉ định thô
ày được xây
ỉ mục và thư m
trình là thư m
ệ thống cũng
ng thời gian th
MATHSEARCH
gõ công thức
. Giao diện côn
hạng TF-IDF
của thuật toán
i công thức s
ument cần đư
t trong tài liệ
t xuất hiện củ
nghĩa với độ
IV. TH
iếm gồm có
liệu chúng tô
Đại học Đà N
được sử dụng
Bảng 1.
hỉ mục
chỉ mục như
ng tin dữ liệ
dựng độc lập
ục chứa nội
ục chứa tất c
liệt kê số lư
ực hiện việc
Hình 4. Giao
- HỆ THỐNG T
toán học WIR
g cụ gõ công th
(Term Frequ
này là mục t
au: TF െ IDF
ợc chấm điểm
u d và được t
a mục từ t tro
quan trọng rấ
ỰC NGHIỆ
3 thành phần
i xây dựng tổ
ẵng, Giáo trì
trong nghiên
Mô tả dữ liệu t
Thư viện Đại
50 file tài liệu
.doc, .docx, .p
694
một chức năn
u dùng để tạo
với chương t
dung chỉ mục
ả các tập tin c
ợng và danh s
lập chỉ mục.
diện hệ thống l
ÌM KIẾM CÁC
IS:
ức toán học W
ency - Invers
ừ truy vấn nà
ሺt, d, Dሻ ൌ TF
và D là tập h
ính ܶܨሺݐ, ݀ሻ
ng toàn bộ c
t thấp), ܫܦܨሺ
M
cơ bản gồm b
ng hợp từ cá
nh ebook và m
cứu này như
hực nghiệm
học Đà nẵng
: giáo trình, b
df, .html, .lat
g dành cho ng
chỉ mục, thự
rình tìm kiếm
tùy ý.
ần lập chỉ mụ
ách chi tiết c
ập chỉ mục
TÀI LIỆU TOÁN
IRIS
e Document F
o xuất hiện c
ሺt, dሻ ∗ IDFሺt
ợp tất cả các
ൌ ݂ݎ݁ݍݑ݁݊ܿݕ
ác tài liệu. t x
ݐ, ܦሻ ൌ log ||ሼ
ộ thu thập th
c bài báo, báo
ột số các tài
sau:
áo cáo, bài bá
ex
ười quản trị
c hiện tạo ch
. Người quản
c và đầu ra l
ác tập tin đượ
HỌC BẰNG T
requency - T
àng nhiều tro
, Dሻ
tài liệu.
ሺݐ, ݀ሻ
uất hiện càng
ୢ∈ୈ:୲∈ୢሽ||
ông tin, thàn
cáo, đề tài n
liệu khác đượ
o khoa học,
trị hệ thống.
ỉ mục và xó
trị có thể ch
à tập hợp chỉ
c tạo chỉ mụ
IẾNG VIỆT
ần số mục
ng tài liệu,
nhiều, chỉ
h phần tạo
ghiên cứu
c thu thập
Chức năng
a chỉ mục.
ỉ định thư
mục trong
c, số công
Cp
k
d
b
q
C
l
n
ao Xuân Tuấn, V
Các côn
hục vụ cho vi
Chương
iếm từ xa và
ùng, trả về kế
Hệ thốn
ao gồm một k
Sau khi
uan đến câu t
ác kết quả tìm
iệu được sẽ đư
- Tên
- Tríc
câu t
- Đườ
Ngoài n
ày, cũng như
õ Trung Hùng, N
g thức sau kh
ệc tìm kiếm.
trình tìm kiế
lấy kết quả tr
t quả dạng liê
g tìm kiếm đ
hung hỗ trợ n
người dùng n
ruy vấn của n
thấy sẽ đượ
ợc hiển thị lê
tài liệu tìm th
h dẫn một phầ
ruy vấn sẽ đư
ng dẫn tới tài
hững thông t
thời gian thực
guyễn Mạnh Hù
i chuyển đổi
m phục vụ n
ả về. Chức n
n kết để ngườ
ược xây dựn
hập công thứ
hập công thứ
gười dùng tạ
c hiển thị sắp
n giao diện w
ấy.
n tài liệu có c
ợc làm nổi bậ
liệu được tìm
in trên, ngườ
hiện truy vấn
ng, Nguyễn Thị
định định dạ
Hình 5. C
gười sử dụng
ăng chính củ
i dùng tham c
g như một tra
c toán học và
Hình 6. Giao
c toán học và
i thư mục chỉ
xếp giảm dầ
eb với các thô
hứa công thứ
t (highlight) đ
thấy.
i dùng còn có
(tính bằng đ
Thu Hà
ng sang Math
ơ sở dữ liệu hệ
. Đây là gói ứ
a thành phần
hiếu.
ng Web và c
một nút Searc
diện ứng dụng
nhấn nút Sea
mục và trả v
n theo độ trùn
ng tin như sa
c được tìm th
ể người dùng
thể xem số
ơn vị millisec
ML, được lưu
thống.
ng dụng Web
này là thực h
ài đặt trên má
h:
tìm kiếm
rch, hệ thống
ề danh sách c
g khớp của tà
u:
ấy. Phần công
dễ dàng đối
lượng tài liệu
ond).
trữ trong cơ
cho phép ng
iện tìm kiếm
y chủ tìm kiế
sẽ thực hiện t
ác tài liệu liê
i liệu đó so v
thức trùng k
chiếu và lựa c
được tìm thấ
sở dữ liệu SQ
ười dùng thự
theo yêu cầu
m. Giao diện
ìm kiếm các t
n quan cho ng
ới câu truy vấ
h