Luận văn Xây dựng hệ thống truy xuất thông tin

Ngày nay, sựphát triển mạnh mẽcủa công nghệthông tin dẫn tới dung lượng dữliệu được lưu trên máy tính gia tăng nhanh chóng. Trong những tập dữliệu khổng lồ đó ẩn chứa hàm lượng thông tin vô cùng lớn. Vấn đề đặt ra là làm thếnào khai thác được khối thông tin đó đểnó trởnên có ích đối với người dùng. Những tiến bộ đạt được vềlý thuyết và công nghệtrong lĩnh vực xửlý thông tin đã giải quyết được phần nào nhu cầu nêu trên, chẳng hạn, các bài toán trong xửlý văn bản nhưtìm kiếm, phân loại, phân cụm văn bản. Information Retrieval(tạm dịch là truy xuất thông tin) là một trong sốcác vấn đềrất được quan tâm hiện nay. Đây là vấn đềkhó, ngay cảvới những hệ thống tìm kiếm phổbiến trên mạng Internet nhưGoogle, Altavista, Yahoo thì vẫn còn nhiều hạn chế. Có thểliệt kê các hạn chếthường gặp nhưsau: thứ nhất là với mỗi truy vấn, hệthống thường trảvềtập kết quảgồm hàng nghìn tài liệu, thậm chí còn lớn hơn nhiều, khiến người dùng phải mất nhiều thời gian để đọc nội dung của từng tài liệu nhằm tìm thông tin mà họquan tâm; thứhai là vấn đềtìm kiếm theo trọng sốcủa từkhoá, ví dụnếu người dùng đưa ra truy vấn “software engineering” với mong muốn rằng từ“software” có ưu tiên cao hơn từ“engineering” thì nhiều khi không nhận được kết quảnhư ý; thứba là vấn đềsắp xếp các tài liệu trảvềtheo độliên quan với truy vấn. Ngày càng nhiều tổchức và cá nhân có nhu cầu tìm kiếm thông tin trong tập dữliệu đặt trên một máy tính hoặc một mạng máy tính. Yêu cầu đặt ra là cần có những hệthống truy xuất thông tin chạy trên Desktop với hiệu quảvà độchính xác cao. Trong luận văn này, chúng tôi tập trung nghiên cứu cơsởlý thuyết truy xuất thông tinvà xây dựng thửnghiệm một hệthống truy xuất thông tin cho phép tìm kiếm các tài liệu mang nội dung tiếng Trần ThịHoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 9 Anh chứa trong một máy tính. Hệthống được xây dựng dựa trên thưviện mã nguồn mởtruy xuất thông tin Lucene. Nội dung luận văn gồm 5 chương : • Chương 1: trình bày tổng quan vềtruy xuất thông tin, các bước cần thực hiện trong quá trình truy xuất thông tin, các phương pháp đánh giá hiệu quảtruy xuất thông tin và so sánh một sốhệthống truy xuất thông tin trên thếgiới. • Chương 2: trình bày các công cụtruy xuất thông tin quan trọng là lập chỉmục và sắp xếp kết quảtìm kiếm. • Chương 3: giới thiệu và trình bày cơchếlập chỉmục và tìm kiếm của thưviện mã nguồn mởLucene. • Chương 4: trình bày kiến trúc hoạt động của chương trình và kết quả thực nghiệm. • Chương 5: kết luận và hướng phát triển tiếp theo của luận văn.

pdf103 trang | Chia sẻ: oanhnt | Lượt xem: 1209 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng hệ thống truy xuất thông tin, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Các file đính kèm theo tài liệu này:

  • pdfxay_dung_he_thong_truy_xuat_thong_tin.pdf
  • pdftom_tat_xay_dung_he_thong_truy_xuat_thong_tin.pdf