Bài giảng chương 1: Lưu trữ và tìm kiếm thông tin

Giả sử D là tập hợp các tài liệu: D={1,2,3,4,5,6,7,8} 1,2,3,. là các số hiệu của tài liệu, nó là đặc trưng hình thức của tài liệu T là tập hợp các chủ đề của tài liệu: T={A,B,C,D,E,F,G,H} Các từ khoá A=cây lúa, B=hoa màu, C=sâu bệnh, D=đất phèn E= cây ngô, F=thuỷ lợi,G=kỹ thuật trồng trọt, H=chăn nuôi, là đặc trưng nội dung của tài liệu Giữa D và T xác định quan hệ hai ngôi R: iRx nếu “Tài liệu i nói về chủ đề x” Quan hệ này xác định tập con R của tích Đề các D*T. Quan hệ này có thể biểu diễn bằng một ma trận, gọi là ma trận tư liệu

ppt12 trang | Chia sẻ: anhquan78 | Lượt xem: 950 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Bài giảng chương 1: Lưu trữ và tìm kiếm thông tin, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
BÀI GIẢNG CHƯƠNG 1 LƯU TRỮ VÀ TÌM KIẾM THÔNG TIN 1. NGUYÊN TẮC LƯU TRỮ THÔNG TINGiả sử D là tập hợp các tài liệu:D={1,2,3,4,5,6,7,8}1,2,3,... là các số hiệu của tài liệu, nó là đặc trưng hình thức của tài liệuT là tập hợp các chủ đề của tài liệu:T={A,B,C,D,E,F,G,H}Các từ khoá A=cây lúa, B=hoa màu, C=sâu bệnh, D=đất phènE= cây ngô, F=thuỷ lợi,G=kỹ thuật trồng trọt, H=chăn nuôi, là đặc trưng nội dung của tài liệuGiữa D và T xác định quan hệ hai ngôi R: iRx nếu “Tài liệu i nói về chủ đề x”Quan hệ này xác định tập con R của tích Đề các D*T. Quan hệ này có thể biểu diễn bằng một ma trận, gọi là ma trận tư liệuMA TRẬN TƯ LIỆUTDABCDEFGH1+++2++++3++++4+++5+++6++7+++++8++++MA TRẬN TƯ LIỆU THỂ HIỆN HAI NGUYÊN TẮC LƯU TRỮ THÔNG TINLưu trữ theo tài liệu:Cắt ma trận theo chiều ngang: mỗi TL ứng với một phiếu nêu lên những chủ đề của TLTL 1 ứng với t1={A,C,G}TL 2 ứng với t2={B,D,E,H}....Lưu trữ theo nội dung chủ đề của tài liệu:Cắt ma trận theo chiều dọc: mỗi TK ứng với một phiếu ghi số hiệu của tất cả những TL có nội dung đề cập tới chủ đề đóChủ đề A ứng với dA={1,3,5,8}Chủ đề B ứng với dB={2,4,5,7,8}....Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả thư mục của TL, ở mục “Từ khoá”Đây chính là các bảng đảo của TL. Chúng lập thành bộ phiếu đảo (phiếu lỗ soi, phiếu uniterm, biểu ghi trong tệp đảo của CSDL thư mục)CÁC PHƯƠNG TIỆN LƯU TRỮ THÔNG TINPhương tiện lưu trữ thông tin truyền thống: Các bộ phiếu mục lục: Mục lục tác giảMục lục chủ đềMục lục địa lýMục lục thời gianMục lục xếp kho,...Phương tiện lưu trữ thông tin bán tự đông:Phiếu lỗ mépPhiếu lỗ soiPhương tiện lưu trữ thông tin tự động hoá:Các biểu ghi trong các tệp dữ liệu của CSDL thư mụcTệp chủTệp đảo2. LƯU TRỮ THÔNG TIN TRÊN MÁY TÍNH ĐIỆN TỬTrong MTĐT thông tin được tổ chức và lưu trữ dưới dạng tệp dữ liệu. Các tệp lại có thể cấu trúc thành các biểu ghi, biểu ghi lại gồm nhiều trường.Trong công tác TTTL, các tệp lưu trữ các thông tin thư mục, gọi là tệp dữ liệu thư mục, ở đó:Mỗi biểu ghi là một bản mô tả thư mụcMỗi chỉ dẫn thư mục là một trường.Có 3 loại tệp:Tệp kế tiếpTệp truy nhập trực tiếpTệp đảoViệc quản lý dữ liệu trên máy tính được thực hiện bởi hai dạng chương trình:Hệ thống quản lý tệpHệ thống quản trị CSDLPhần mềm quản trị CSDL tài liệu, gọi là phần mềm tư liêu, ví dụ: CDS/ISIS.3. TÌM TIN 3.1. PHƯƠNG THỨC TÌM TIN CƠ BẢN Phương thức tìm tin cơ bản là phương trình, tìm còn gọi là biểu thức tìm.Cú pháp của biểu thức tìm được xây dựng trên cơ sở của các phép toán của logic mệnh đề: AND, OR, NOT, và một số phép toán khác.AND: nối 2 từ chuẩn trong bản chỉ mục của cùng một TL.OR: nối 2 từ chuẩn mà ít nhất một trong hai từ đó có trong bản chỉ mục của TL.NOT: nối 2 từ chuẩn mà từ thứ nhất có trong bản chỉ mục của TL, còn từ thứ hai thì không.Ví dụ: Q = C and (A or B) not E hay Q = C*(A+B)^E (trong ISIS)Câu trả lời là tập hợp: dQ= dc(dAdB)\dE3.2. QUÁ TRÌNH TÌM TINQuá trình tìm tin gồm 7 bước:1. Xác định câu hỏi2. Thể hiện câu hỏi bằng ngôn ngữ tư liệu: lập biểu thức tìm (lệnh tìm).3. Vạch ra chiến lược tìm: xác định bộ máy tra cứu sẽ sử dụng để tìm tin (mẫu tìm).4. Thực hiện tìm: so sánh lệnh tìm với mẫu tìm để tìm ra tài liệu thích hợp.5. Phân tích kết quả tìm, từ đó đánh giá tính đúng đắn của chiến lược tìm (có thể phải quay về bước 3)6. Chuyển kết quả tìm cho người dùng tin.7. Đánh giá tính phù hợp của thông tin nhận được (có thể phải quay về bước 1).3.3. TÌM TIN TRÊN MTĐT THÔNG QUA BỘ PHIẾU ĐẢOCSDL thư mục với cấu trúc tệp đảo, có hai loại tệp dữ liệu:Tệp chủ: chứa các biểu ghi thư mụcCác tệp đảo kết hợp với tệp chủ: chứa các giá trị của các trường, được lấy ra từ các biểu ghi trong tệp chủ, được coi là những điểm truy nhập thông tin.Cấu trúc logic của biểu ghi trong tệp đảo:Sâu bệnh 71,88Cây lúa 25,71,88Việt Nam 44,88Chúng gọi chung là các bảng đảoTÌM TIN VỚI BỘ PHIẾU ĐẢO: Quá trình tìm tin với bộ phiếu đảo:Thể hiện câu hỏi bằng biểu thức tìm. So sánh các điểm tiếp cận TT trong biểu thức tìm với các bảng đảo của chúng.Các bảng đảo ứng với các yếu tố trong biểu thức tìm được đưa ra trên một phiếu làm việc.Phiếu làm việc dùng để thực hiện các phép toán logic trong biểu thức tìm.Số hiệu các biểu ghi thoả mãn biểu thức tìm sẽ được chuyển qua bộ phiếu chủ để đưa ra câu trả lời.Một ví dụ tìm tin trong CDS/ISISLMÔ HÌNH HOÁ QUÁ TRÌNH TÌM TINGiả sử D là tập hợp các TL, Q là tập hợp các câu hỏi. Tìm tin thực chất là một quan hệ R ứng tập con D’D với câu hỏi qQ.Việc thực hiện quan hệ R trong thực tế là rất khó, vì số TL thường rất lớn. Vì thế người ta không chọn trên D các tài liệu thoả mãn câu hỏi q, mà chọn trên mô hình của chúng. Đó là tập F các ảnh y của x D, cho bởi song ánh I:DF, ứng x D với y=I(x) xác định như sau: I= {ax, bx, mx, rx}, trong đó:ax là địa chỉ của xbx là các đặc trung hình thức của xmx các đặc trung nội dung của xrx tóm tắt của xĐể thực hiện ánh xạ I người ta dùng ngôn ngữ tư liệu.Chúng gọi chung là các mẫu tìm của xMÔ HÌNH HOÁ QUÁ TRÌNH TÌM TIN (TIẾP)Câu hỏi q được biểu diễn bằng ngôn ngữ tư liệu dưới dạng một biểu thức tìm. Như vậy biểu thức tìm cũng có thể coi là ảnh của q qua ánh xạ I, I:qI(q)Nhờ ngôn ngữ tư liệu, người ta có thể so sánh biểu thức tìm (lệnh tìm) với mẫu tìm để xem tài liệu có phù hợp hay không.Việc so sánh này được thực hiện trên các bộ máy tra cứu: các bộ phiếu mục lục, các thư mục, các tệp của CSDL.Xem mô hình ở hình 20, trang 280 GT.