VNmathsearch - Hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt

Bài báo này giới thiệu kết quả nghiên cứu xây dựng một hệ thống phục vụ tìm kiếm các tài liệu toán học viết bằng tiếng Việt. Hệ thống bao gồm 2 phần mềm chính đó là tạo chỉ mục và tìm kiếm. Chúng tôi đã đề xuất 2 mô hình tổng quát cho 2 phần mềm này. Với phần tạo chỉ mục, đầu vào là các tập tin dưới định dạng PDF hoặc XHTML và đầu ra là tập tin chỉ mục. Với phần tìm kiếm, người sử dụng có thể gõ vào truy vấn bằng từ khóa hoặc công thức bất kỳ và hệ thống trả về các tài liệu có chứa từ khóa hoặc công thức đó. Để xây dựng hệ thống, chúng tôi đã đề xuất các giải pháp để chuyển đổi định dạng công thức toán học, chuẩn hóa công thức toán học trong MathML, phân tích cú pháp và tạo chỉ mục, tích hợp công cụ gõ công thức toán học vào khung tìm kiếm, xếp hạng kết quả tìm kiếm,… Chúng tôi đã xây dựng và thử nghiệm hệ thống này với hơn 5000 tài liệu toán học viết bằng tiếng Việt, kết quả tìm kiếm cơ bản đáp ứng nhu cầu người dùng cả về độ chính xác lẫn tốc độ tìm kiếm.

pdf8 trang | Chia sẻ: candy98 | Lượt xem: 548 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu VNmathsearch - Hệ thống tìm kiếm các tài liệu toán học bằng tiếng việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000218 VNMATHSEARCH - HỆ THỐNG TÌM KIẾM CÁC TÀI LIỆU TOÁN HỌC BẰNG TIẾNG VIỆT Cao Xuân Tuấn1, Võ Trung Hùng2, Nguyễn Mạnh Hùng3, Nguyễn Thị Thu Hà4 1Bộ Giáo dục và Đào tạo 2 Khoa CNTT, Trường Đại Bách khoa, Đại học Đà Nẵng 3Học viện Công nghệ Bưu chính Viễn thông 4Khoa CNTT, Trường Đại học Điện Lực cxtuan@moet.edu.vn, vthung@dut.udn.vn, nmhung@yahoo.com, hantt@epu.edu.vn TÓM TẮT - Bài báo này giới thiệu kết quả nghiên cứu xây dựng một hệ thống phục vụ tìm kiếm các tài liệu toán học viết bằng tiếng Việt. Hệ thống bao gồm 2 phần mềm chính đó là tạo chỉ mục và tìm kiếm. Chúng tôi đã đề xuất 2 mô hình tổng quát cho 2 phần mềm này. Với phần tạo chỉ mục, đầu vào là các tập tin dưới định dạng PDF hoặc XHTML và đầu ra là tập tin chỉ mục. Với phần tìm kiếm, người sử dụng có thể gõ vào truy vấn bằng từ khóa hoặc công thức bất kỳ và hệ thống trả về các tài liệu có chứa từ khóa hoặc công thức đó. Để xây dựng hệ thống, chúng tôi đã đề xuất các giải pháp để chuyển đổi định dạng công thức toán học, chuẩn hóa công thức toán học trong MathML, phân tích cú pháp và tạo chỉ mục, tích hợp công cụ gõ công thức toán học vào khung tìm kiếm, xếp hạng kết quả tìm kiếm, Chúng tôi đã xây dựng và thử nghiệm hệ thống này với hơn 5000 tài liệu toán học viết bằng tiếng Việt, kết quả tìm kiếm cơ bản đáp ứng nhu cầu người dùng cả về độ chính xác lẫn tốc độ tìm kiếm. Từ khóa - tìm kiếm, chỉ mục, xếp hạng, toán học. I. GIỚI THIỆU Cùng với sự phổ biến và phát triển nhanh chóng của CNTT và mạng Internet, thông tin được chia sẻ và nhu cầu tìm kiếm trên mạng Internet ngày càng phong phú đa dạng hơn. Cũng như các lĩnh vực khác, ngày càng có nhiều người chia sẻ các tài liệu toán học và tìm kiếm thông tin để giải quyết các vấn đề thông qua mạng Internet. Tuy nhiên, một vấn đề đặt ra là làm sao có thể tìm kiếm được các nội dung toán học cần thiết trong một kho tài liệu khổng lồ trên mạng Internet. Các máy tìm kiếm phổ biến hiện nay như Google Search, Yahoo Search, Live Search của Microsofts chưa cho phép cung cấp và nhận diện được các công thức theo cách tự nhiên, do đó việc tìm kiếm thường không trả về kết quả khớp với yêu cầu người dùng. Chính vì vậy cần có một bộ máy tìm kiếm công thức toán học chuyên dụng cho phép tìm kiếm các công thức toán học trên các tài liệu và Website được chia sẻ trên mạng Internet [5][6]. Hiện nay trên thế giới đã phát triển một số công cụ tìm kiếm công thức toán học cho phép tìm theo nội dung hiển thị của công thức hoặc theo ngữ nghĩa của nó tuy nhiên phạm vi ứng dụng của các công cụ này còn bó hẹp, chẳng hạn như EgoMath cho phép tìm kiếm công thức toán học trên Wikipedia.org, Website LatexSearch có hỗ trợ tìm kiếm các công thức toán học được soạn thảo bằng ngôn ngữ đánh dấu LaTeX, đây là bản quyền của MPS Technologies (Mathematical Programming System), nhưng những kết quả tìm thấy chỉ giới hạn trên những tài liệu điện tử lưu trữ trên máy chủ SpringerLink,... [3] Đặc biệt, hiện nay chưa có hệ thống nào tìm kiếm chuyên dụng cho các tài liệu toán học dành cho tiếng Việt. Vì vậy, việc nghiên cứu phát triển một công cụ tìm kiếm dựa trên các công thức toán học là cần thiết và có ý nghĩa thực tiễn cao [1]. Trong bài báo này, chúng tôi giới thiệu kết quả nghiên cứu và triển khai thử nghiệm của chúng tôi trên hệ thống VNMathSearch. Hệ thống này nhằm hỗ trợ tìm kiếm các tài liệu toán học (có thể tìm kiếm trực tiếp qua các công thức hoặc các từ khóa tiếng Việt) nhằm thúc đẩy việc học tập, nghiên cứu và ứng dụng khoa học tư nhiên tại Việt Nam. Bài báo được tổ chức thành 4 phần chính. Phần 2 trình bày kết quả nghiên cứu tổng quan về các văn bản toán học, phương thức biểu diễn công thức toán học trong tài liệu và Website và một số kết quả nghiên cứu liên quan. Phần tiếp theo mô tả ứng dụng, xây dựng mô hình tổng quát và giới thiệu giải pháp lưu trữ công thức toán học trên văn bản, giải pháp tạo chỉ mục cho các tài liệu toán học và giải pháp tìm kiếm công thức toán học cũng như tích hợp công cụ hỗ trợ người dùng trong quá trình tìm kiếm. Phần cuối trình bày việc triển khai xây dựng công cụ tìm kiếm công thức toán học trên văn bản và thử nghiệm đánh giá những kết quả đã đạt được. II. MỘT SỐ NGHIÊN CỨU LIÊN QUAN 1. Đặc tả công thức toán trên tài liệu Công thức toán học trên tài liệu có thể được đặc tả bằng nhiều ngôn ngữ khác nhau được gọi là ngôn ngữ đánh dấu toán học. Các ngôn ngữ đánh dấu toán học phổ biến nhất hiện nay là TeX/LaTeX [8], MathML [13], OMDoc [10] và OpenMath [11]. Trong đó, TeX/LaTeX có cú pháp gần gũi với ngôn ngữ tự nhiên, trong khi MathML, OpenMath và OMDoc lại tối ưu hóa cho việc giao tiếp giữa các máy tính với nhau. MathML (Mathematical Markup Language) là một ngôn ngữ mở rộng dựa trên XML để thể hiện ký hiệu và công thức toán học với mục đích rộng là phương thức trao đổi thông tin toán học trên máy tính (để hiển thị cũng như để tính toán) và mục đích hẹp là hiển thị tài liệu toán học trên World Wide Web. Tổ chức W3C (World Wide Web Consortium) có khuyến nghị nên sử dụng ngôn ngữ này trên mạng khi biểu diễn nội dung các công thức toán học. Đối Cv d c c L tr ( 2 M th p c d C c d d d l đ M d tr M c m c L t A c h c t L t T l đ L n n E h c L đ n p ( ao Xuân Tuấn, V ới hiển thị trê uyệt, cho phé ác phần mềm ùng với các p inux, Window MathM ình bày của c Content Math . Một số máy athWebSear MathW ức toán học hát triển tại Đ hỉ mục cho cá ụng kỹ thuậ ông cụ tìm k ác truy vấn n ạng văn bản ạng Content àng chuyển đ ập chỉ mục bở MathW ặc biệt trên I ySQL. Chỉ m MathW àng tích hợp ình biên soạn athWebSear àng cao, thì c ục cho hơn 1 àng tăng. Tra eActiveMath LeActiv ập có khả nă ctiveMath gr LeActiv ác tài liệu OM ọc được mã ó thể tìm kiếm oán học trong eActiveMath iêu đề, nội du ương tự như iệu tìm thấy c ộ trùng khớp eActiveMath ó chỉ lập chỉ ội bộ trong m gomath Egomat ọc phát triển ó thể tìm kiếm aTeX và văn ược hiển thị ội dung trùn hần trùng k highlight) nh õ Trung Hùng, N n trang mạng p hiển thị nga tính toán. M hần mềm tính s, L cung cấp h ông thức (Pr ML) [9]. tìm kiếm dựa ch ebSearch là m dựa trên ngữ ại học Jacob c công thức M t chỉ mục Su iếm MathWe hanh và các ứ nào mà có MathML hoặ ổi về Content i MathWebSe ebSearch có r nternet, chuy ục sẽ được tạ ebSearch cun vào các hệ th công thức W ch được xếp h hứng tỏ số lầ ,600,000 tài l ng chủ của M eMath là mộ ng tương tác oup. eMath thực h Doc, trong đ hóa bằng Op đồng thời v ứng dụng n thực hiện lập ng văn bản và các công cụ t ũng được sắ của tài liệu được phát tr mục cho các ôi trường học h là một côn tại Đại học C các công th bản đơn gi cùng với đoạ g khớp với hớp này sẽ ằm giúp ngư guyễn Mạnh Hù , cấu trúc Ma y lập tức côn athML được toán kỹ thuậ ai cách thức t esentation Ma trên công th ột bộ máy tì nghĩa của côn s [2][7]. Hệ t athML và O bstitution Tr bSearch đượ ng dụng tươn chứa các côn c dạng nào đ MathML đều arch. iêng bộ thu th ển đổi các bi o trên dữ liệu g cấp cả một ống sau này. IRIS nhằm h ạng dựa theo n trùng khớp iệu từ các kho athWebSearc t ứng dụng hỗ được phát t iện lập chỉ m ó các công th enMath. Ngư ăn bản và cô ày. Với mỗi chỉ mục cho công thức to ìm kiếm khác p xếp giảm d so với câu tr iển dựa trên tài liệu được tập LeActive g cụ tìm ki harles ở Prag ức toán học v ản, kết quả t n trích dẫn c câu truy vấn được làm ời dùng dễ d ng, Nguyễn Thị thML không n g thức toán h hỗ trợ bởi c t như Maple, rình bày ngô thML) và cá ức toán học m kiếm công g thức, được hống này tạo penMath, sử ee Indexing. c tối ưu cho g tác. Bất kỳ g thức dưới ó có thể dễ có thể được ập (Crawler) ểu thức toán này. bộ máy tìm k Ngoài định dạ ỗ trợ người dù độ trùng khớ của nó với n chứa h là: trợ học riển bởi ục cho ức toán ời dùng ng thức tài liệu, trường án học. , các tài ần theo uy vấn. Lucene, sử dụng Math. Trang ếm toán ue. Nó iết bằng ìm thấy hứa các , những nổi bật àng đối Thu Hà gắn gọn như ọc một cách đ ác phần mềm Mathematica n ngữ đánh d ch thức thứ h để tìm về các học thành các iếm hoàn chỉn ng đầu vào k ng nhập công p với nội dun ội dung tìm k nx.org và http rch.mathweb chủ của LeAc TeX, nhưng c ẹp mắt, đồng văn phòng n và MathCad ấu toán học, m ai nhấn mạnh tài liệu có ch chuỗi và lưu h với giao di iểu XML và thức dễ dàng g tìm kiếm. D iếm càng nhi ://functions.w .org/. tiveMath là h ó thể dễ dàng thời truyền t hư Microsoft trên các hệ đ ột cách thức nội dung của ứa Content M trữ nó trong ện trực quan chuỗi, MathW từ các mẫu s o đó nếu mộ ều. Hiện tại, M olfram.com v ttp://www.lea phân tích bở ải ý nghĩa toá Word, Open iều hành khác nhằm nhấn m công thức to athML từ cá cơ sở dữ liệ và cả một AP ebSearch còn ẵn có. Kết qu t tài liệu được athWebSea à con số này ctivemath.org 769 i các trình n học cho Office.org nhau như ạnh cách án học đó c kho chứa u sử dụng I nhằm dễ cung cấp ả trả về từ xếp hạng rch tạo chỉ càng ngày /. 7 c tr v h 1 x X Ứ d 2 c 70 hiếu và lựa ch ường để nhập ăn bản và ttp://egomath . Mô tả ứng d Xuất ph uất xây dựng HTML. Từ q - Ứng d - Cho p - Cho p hạn n ng dụng xếp ùng. . Mô hình tổn Khi xây ho các tài liệu Mô hìn ọn [4]. Từ g cho các văn các công .projekty.ms.m ụng át từ nhu cầu một ứng dụn uan điểm ngư ụng cho phép hép người dù hép tìm kiếm gười dùng có hạng kết quả g quát dựng hệ thố và tìm kiếm h tổng quá củ Hình 1. Mô h VN iao diện tìm k bản đơn giản thức toán h ff.cuni.cz/. thực tiễn cần g tìm kiếm ời dùng, ứng tìm kiếm đư ng nhập công tài liệu toán thể nhập "Pyt trả về cho ng ng tìm kiếm, khi có yêu cầ a quá trình tạo ình quá trình MATHSEARCH iếm, người d và trường c ọc viết bằn III. GIẢI có một công công thức trê dụng cần đáp ợc tài liệu ở c thức toán họ học dựa trên hagoras form ười dùng theo sau khi có kh u truy vấn của chỉ mục và t tạo chỉ mục - HỆ THỐNG T ùng có thể nh òn lại để nhập g LaTeX h PHÁP ĐỀ X cụ để tìm ki n một kho ch ứng một số y ác định dạng c một cách trự nội dung tìm ula aଶ ൅ bଶ ൌ thứ tự giảm o dữ liệu chú người dùng. ìm kiếm như ÌM KIẾM CÁC ập câu truy v công thức t oặc MathM UẤT ếm công thức ứa các tài liệ êu cầu như sa PDF và XHTM c quan từ khu kiếm chứa đồ cଶ" để tìm k dần theo độ tr ng ta trải qua sau: Hìn TÀI LIỆU TOÁN ấn thông qua oán học. Ego L. Trang c toán học trê u toán học ở u: L. ng tìm kiếm. ng thời văn b iếm nội dung ùng khớp với 2 quá trình h 2. Mô hình q HỌC BẰNG T hai trường dữ Math có thể x hủ của Ego n văn bản, ch các định dạn ản và công th chính xác hơ câu truy vấn chính đó là tạ uá trình tìm k IẾNG VIỆT liệu. Một ử lý được Math tại úng tôi đề g PDF và ức. Chẳng n. của người o chỉ mục iếm Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà 771 3. Một số giải pháp xử lý Giải pháp chuyển đổi định dạng công thức toán học Hệ thống của chúng tôi cho phép tìm kiếm trên các định dạng tài liệu PDF và XHTML. Để tạo chỉ mục trên tập tài liệu này, chúng tôi sẽ chuyển đổi chúng về một định dạng thống nhất là XHTML+MathML. PDF là tài liệu đã được biên dịch từ mã nguồn TeX, LaTeX, Doc hoặc là kết quả chuyển đổi từ tập tin DVI hoặc PS, do đó không thể thực hiện tìm kiếm trực tiếp trên loại tập tin này. Để chuyển đổi PDF thành mã nguồn XHTML+MathML nhằm thuận tiện cho việc lập chỉ mục và tìm kiếm, chúng tôi đề xuất sử dụng InftyReader. InftyReader là ứng dụng OCR (Optical Character Recognition - Nhận dạng ký tự quang học) có khả năng nhận dạng các tài liệu khoa học có chứa các công thức toán học. Kết quả nhận dạng có thể được xuất ra dưới nhiều định dạng khác nhau, chẳng hạn như: LaTeX, MathML, XHTML, HRTeX, IML và liệu Microsoft Word. InftyReader được phát triển tại thư viện Masakazu Suzuki, khoa Toán học sau đại học của trường đại học Kyushu. Giải pháp chuẩn hóa công thức toán học Chuẩn hóa là bước chuyển đổi các công thức toán học MathML có định dạng khác nhau (nhưng ý nghĩa giống nhau) về một định dạng chung. Quá trình này giúp cho việc tìm kiếm được chính xác hơn. Chuẩn hóa MathML là bước tối ưu hóa các công thức toán học bằng MathML nhằm loại bỏ các thẻ, các thuộc tính không cần thiết. Để chuẩn hóa các công thức, chúng tôi thực hiện quá trình chuẩn hóa gồm các bước sau: Loại bỏ các thành phần và các thuộc tính không cần thiết; loại bỏ các thực thể ẩn (thực thể ẩn là những thực thể không hiển thị trên trình duyệt khi hiển thị công thức mà nó chỉ có tác dụng làm rõ ý nghĩa của công thức đó). Những thuộc tính bị loại bỏ và các thực thể ẩn này chỉ có tác dụng trong việc giải thích phần ngữ nghĩa của công thức, mà không có tác dụng trong việc lập chỉ mục và tìm kiếm. Do đó những thành phần này được loại bỏ để tối ưu hóa hiệu suất của bộ máy tìm kiếm. Giải pháp phân tích cú pháp và tạo chỉ mục Đầu tiên nội dung tài liệu sẽ được phân tách thành nội dung văn bản và nội dung toán học. Các nội dung văn bản được lập chỉ mục theo cách thông thường. Còn các công thức toán học sau khi đã hoàn thành bước chuẩn hóa sẽ được chuyển đổi thành một chuỗi nén (chuỗi nén là chuỗi không có xuống dòng, không có khoảng trống trong chuỗi) mà có thể được lập chỉ mục như một chuỗi văn bản bình thường. Chuỗi nén này được tạo ra theo quy luật sau: một cặp thẻ XML (bao gồm thẻ mở và thẻ đóng) sẽ được thay thế bằng tên của thẻ và tiếp sau đó là chuỗi các tham số của thẻ đó sẽ được đặt trong cặp dấu ngoặc. Ví dụ công thức a + b2 được viết trong MathML như sau: a + b 2 sẽ được chuyển đổi sang chuỗi nén tuyến tính như sau: math(mrow(mi(a)mo(+)msup(mi(b)mn(2)))) Giải pháp tích hợp công cụ gõ công thức toán học vào khung tìm kiếm Trên giao diện ứng dụng, người dùng có thể gõ công thức toán học trực tiếp vào khung tìm kiếm nhờ tích hợp một bộ công cụ gõ công thức toán học gọi là WIRIS. WIRIS là tập hợp các công cụ JavaScript giúp người dùng nhập và chỉnh sửa công thức toán học, trong đó có trình biên soạn WIRIS là một trình biên soạn trực quan, hay còn gọi là WYSIWYG (What You See Is What You Get). Trình biên soạn công thức WIRIS hoạt động tương tự bộ công cụ Equation trong Word. Người dùng chọn format của công thức cần nhập sau đó chỉnh sửa các giá trị ở trong format đó để tạo thành một công thức hoàn chỉnh. Trình biên soạn WIRIS chạy được trên bất cứ trình duyệt (Firefox, Internet Explorer, Chrome, Safari, vv.) và bất cứ hệ điều hành nào (Windows, Linux, Mac, vv.). Nó có thể được tích hợp vào các ứng dụng Web và ứng dụng Desktop như một plugin. Kết quả trả về của công thức được lưu trữ dưới dạng Presentation MathML, công thức này cũng có thể được chuyển đổi sang Content MathML hoặc LaTeX tùy vào nhu cầu tìm kiếm. Tuy nhiên trong phạm vi luận văn này, chúng tôi chuyển đổi công thức nhập vào thành Presentation MathML để thuận tiện cho quá trình lập chỉ mục. 7 G từ t s c k tr n C m th th 72 Dưới đâ iải pháp xếp Chúng - Tần số tài ài liệu sẽ có đ Thuật t Trong đ TF là tầ IDF là ố càng thấp (v Thông hỉ mục và thà hoa học, các ên mạng. Bản Nguồn Số lượn Định dạ Số lượn Chúng ày cho phép hương trình ục chứa tài li Đầu và ư mục Index ức được lập y là giao diện hạng kết quả tôi sử dụng th liệu nghịch đ iểm càng cao. oán này được ó, t là query t n suất xuất hi chỉ số biểu hi ì xuất hiện qu thường, một h nh phần tìm sách điện tử v g sau mô tả v dữ liệu g ng g công thức s tôi phát triển người quản tr lập chỉ mục n ệu cần lập ch o của chương es, ngoài ra h chỉ mục và tổ VN của công cụ Hình 3 tìm kiếm uật toán xếp ảo). Ý tưởng biểu diễn dướ erm, d là doc ện của mục từ ện cho tần suấ á nhiều đồng ệ thống tìm k kiếm. Kho dữ ề toán học tại ề kho dữ liệu au khi đánh c hệ thống tạo ị chỉ định thô ày được xây ỉ mục và thư m trình là thư m ệ thống cũng ng thời gian th MATHSEARCH gõ công thức . Giao diện côn hạng TF-IDF của thuật toán i công thức s ument cần đư t trong tài liệ t xuất hiện củ nghĩa với độ IV. TH iếm gồm có liệu chúng tô Đại học Đà N được sử dụng Bảng 1. hỉ mục chỉ mục như ng tin dữ liệ dựng độc lập ục chứa nội ục chứa tất c liệt kê số lư ực hiện việc Hình 4. Giao - HỆ THỐNG T toán học WIR g cụ gõ công th (Term Frequ này là mục t au: TF െ IDF ợc chấm điểm u d và được t a mục từ t tro quan trọng rấ ỰC NGHIỆ 3 thành phần i xây dựng tổ ẵng, Giáo trì trong nghiên Mô tả dữ liệu t Thư viện Đại 50 file tài liệu .doc, .docx, .p 694 một chức năn u dùng để tạo với chương t dung chỉ mục ả các tập tin c ợng và danh s lập chỉ mục. diện hệ thống l ÌM KIẾM CÁC IS: ức toán học W ency - Invers ừ truy vấn nà ሺt, d, Dሻ ൌ TF và D là tập h ính ܶܨሺݐ, ݀ሻ ng toàn bộ c t thấp), ܫܦܨሺ M cơ bản gồm b ng hợp từ cá nh ebook và m cứu này như hực nghiệm học Đà nẵng : giáo trình, b df, .html, .lat g dành cho ng chỉ mục, thự rình tìm kiếm tùy ý. ần lập chỉ mụ ách chi tiết c ập chỉ mục TÀI LIỆU TOÁN IRIS e Document F o xuất hiện c ሺt, dሻ ∗ IDFሺt ợp tất cả các ൌ ݂ݎ݁ݍݑ݁݊ܿݕ ác tài liệu. t x ݐ, ܦሻ ൌ log ||ሼ ộ thu thập th c bài báo, báo ột số các tài sau: áo cáo, bài bá ex ười quản trị c hiện tạo ch . Người quản c và đầu ra l ác tập tin đượ HỌC BẰNG T requency - T àng nhiều tro , Dሻ tài liệu. ሺݐ, ݀ሻ uất hiện càng ୒ ୢ∈ୈ:୲∈ୢሽ|| ông tin, thàn cáo, đề tài n liệu khác đượ o khoa học, trị hệ thống. ỉ mục và xó trị có thể ch à tập hợp chỉ c tạo chỉ mụ IẾNG VIỆT ần số mục ng tài liệu, nhiều, chỉ h phần tạo ghiên cứu c thu thập Chức năng a chỉ mục. ỉ định thư mục trong c, số công Cp k d b q C l n ao Xuân Tuấn, V Các côn hục vụ cho vi Chương iếm từ xa và ùng, trả về kế Hệ thốn ao gồm một k Sau khi uan đến câu t ác kết quả tìm iệu được sẽ đư - Tên - Tríc câu t - Đườ Ngoài n ày, cũng như õ Trung Hùng, N g thức sau kh ệc tìm kiếm. trình tìm kiế lấy kết quả tr t quả dạng liê g tìm kiếm đ hung hỗ trợ n người dùng n ruy vấn của n thấy sẽ đượ ợc hiển thị lê tài liệu tìm th h dẫn một phầ ruy vấn sẽ đư ng dẫn tới tài hững thông t thời gian thực guyễn Mạnh Hù i chuyển đổi m phục vụ n ả về. Chức n n kết để ngườ ược xây dựn hập công thứ hập công thứ gười dùng tạ c hiển thị sắp n giao diện w ấy. n tài liệu có c ợc làm nổi bậ liệu được tìm in trên, ngườ hiện truy vấn ng, Nguyễn Thị định định dạ Hình 5. C gười sử dụng ăng chính củ i dùng tham c g như một tra c toán học và Hình 6. Giao c toán học và i thư mục chỉ xếp giảm dầ eb với các thô hứa công thứ t (highlight) đ thấy. i dùng còn có (tính bằng đ Thu Hà ng sang Math ơ sở dữ liệu hệ . Đây là gói ứ a thành phần hiếu. ng Web và c một nút Searc diện ứng dụng nhấn nút Sea mục và trả v n theo độ trùn ng tin như sa c được tìm th ể người dùng thể xem số ơn vị millisec ML, được lưu thống. ng dụng Web này là thực h ài đặt trên má h: tìm kiếm rch, hệ thống ề danh sách c g khớp của tà u: ấy. Phần công dễ dàng đối lượng tài liệu ond). trữ trong cơ cho phép ng iện tìm kiếm y chủ tìm kiế sẽ thực hiện t ác tài liệu liê i liệu đó so v thức trùng k chiếu và lựa c được tìm thấ sở dữ liệu SQ ười dùng thự theo yêu cầu m. Giao diện ìm kiếm các t n quan cho ng ới câu truy vấ h