Đồ án Khai phá và làm sạch dữ liệu

Trong vài thập niên với những tác động mạnh mẽ của các tiến bộ trong công nghệ công nghệ thông tin và truyền thông nhu cầu về dữ liệu ngày càng nhiều Yêu cầu về các thông tin trong các lĩnh vực hoạt động đó đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình.

pdf28 trang | Chia sẻ: vietpd | Lượt xem: 1816 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Đồ án Khai phá và làm sạch dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- Khai phá và làm sạch dữ liệu ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH CÔNG NGHỆ THÔNG TIN Giáo viên hướng dẫn: PGS. TS. Đỗ Trung Tuấn Sinh viên: Nguyễn Hoài Nam Lớp: CT701 Hải Phòng, 2007 2Nội dung báo cáo  Chương 1. Mở đầu.  Chương 2. CSDL và nhu cầu về dữ liệu meta.  Chương 3. Khai phá dữ liệu.  Chương 4. Luật kết hợp và các tiếp cận.  Chương 5. Thử nghiệm việc khai phá dữ liệu.  Chương 6. Kết luận 3Chương 2. CSDL và nhu cầu về dữ liệu meta  Mô hình dữ liệu quan hệ  Nhu cầu về dữ liệu meta  Trong vài thập niên với những tác động mạnh mẽ của các tiến bộ trong công nghệ công nghệ thông tin và truyền thông nhu cầu về dữ liệu ngày càng nhiều  Yêu cầu về các thông tin trong các lĩnh vực hoạt động đó đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình. 4Chương 3. Khai phá dữ liệu  Giới thiệu chung  Về khai phá dữ liệu  Quá trình phát hiện tri thức trong CSDL  Nhiệm vụ chính trong khai phá dữ liệu  Các kĩ thuật khai phá dữ liệu  Ứng dụng của khai phá dữ liệu  Khai phá luật kết hợp và ứng dụng 5Giới thiệu chung  Những năm 60 của thế kỷ trước, người ta bắt đầu sử dụng các công cụ tin học để tổ chức và khai thác các CSDL  Người ta nói “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”  Khai phá dữ liệu là một lĩnh vực mới, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn 6Về khai phá dữ liệu  Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỉ 80  Khai phá dữ liệu sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu  Định nghĩa: Data Mining là một quá trình tìm kiếm, phát hiện tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn 7Quá trình phát hiện tri thức trong CSDL 8Nhiệm vụ chính trong khai phá dữ liệu  Phân lớp, phân loại  Hồi quy  Phân nhóm  Tóm tắt  Mô hình hoá phụ thuộc 9Các kĩ thuật khai phá dữ liệu  Các kĩ thuật tiếp cận  Dạng dữ liệu có thể khai phá 10 Các kĩ thuật tiếp cận  Trên quan điểm của học máy, các kĩ thuật trong Data Mining gồm:  Học có giám sát  Học không có giám sát  Học nửa giám sat  Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu có các kỹ thuật áp dụng sau:  Phân lớp và dự đoán  Luật kết hợp  Phân tích chuỗi theo thời gian  Phân cụm  Mô tả khái niệm 11 Dạng dữ liệu có thể khai phá  CSDL quan hệ  CSDL đa chiều  CSDL dạng giao dịch  CSDL quan hệ-hướng đối tượng  Dữ liệu không gian và thời gian  Dữ liệu chuỗi thời gian  CSDL đa phương tiện  Dữ liệu Text và Web… 12 Ứng dụng của khai phá dữ liệu  Kinh doanh  Ngân hàng  Bảo hiểm sức khoẻ  Y tế… 13 Khai phá luật kết hợp và ứng dụng  Luật kết hợp là một biểu thức có dạng: X- >Y, trong đó X và Y là tập các trường gọi là item  Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh 14 Thuật toán về khai phá dữ liệu thuật toán Apriori  Ý tưởng thuật toán  Thuật toán Apriori  Ví dụ minh hoạ 15 Ý tưởng thuật toán  Đề xuất lần đầu vào năm 1993  Thuật toán tìm giao dịch t có độ hỗ trợ và độ tin cậy thoả mãn lớn hơn một giá trị ngưỡng nào đó  Thuật toán được tỉa bớt những tập ứng cử viên có tập con không phổ biến trước khi tính độ hỗ trợ  Thuật toán Apriori tính tất cả các tập ứng cử của tập k trong một lần duyệt CSDL 16 Thuật toán Apriori Gồm 2 bước:  Tạo tập item phổ biến: tạo tất cả các tập item dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsupp.  Kiểm tra tập 1 item có là phổ biến không.  Lần duyệt thứ k: Sử dụng các tập Lk-1 của tập k-1 item phổ biến để tạo tập dự kiến Ck (dùng hàm apriori_gen). Duyệt CSDL và tính support cho Ck.  Lk: là tập hợp của các tập k_item phổ biến, mỗi phần tử là một tập có 2 trường itemset, support.  Ck: tập hợp của tập k_item dự kiến 17 Thuật toán Apriori 18 Thuật toán Apriori  Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật.  Từ tập item phổ biến L, tìm tất cả các tập con không rỗng f  L rồi tạo ra luật f  L – f thoả mãn minconf. VD: Nếu {A,B,C,D} là tập item phổ biến thì có các luật dự kiến: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC AB CD, AC  BD, AD  BC, BC AD, BD AC, CD AB,  Nếu L có k item thì có thể tạo ra 2k-2 luật kết hợp dự kiến(bỏ qua luật L   và   L)  Dựa vào tính chất của độ tin cậy để tạo ra luật có conf >= minconf.  Độ tin cậy không có tính chất c(ABC D) có thể lớn hơn hay nhỏ hơn c(AB D)  Nhưng nếu luật được sinh ra từ cùng một tập item phổ biến thì có thuộc tính đó: VD: L = {A,B,C,D} c(ABC  D)  c(AB  CD)  c(A  BCD) 19 Thuật toán Apriori 20 Ví dụ minh hoạ 21 Ví dụ minh hoạ 22 Chương 4. Luật kết hợp và các tiếp cận  Khai phá luật kết hợp  Cho trước tỉ lệ hỗ trợ  và độ tin cậy .. Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn  và  tương ứng.  Lý thuyết về luật kết hợp 23 Chương 5. Thử nghiệm 24 Chương 5. Thử nghiệm 25 Chương 5. Thử nghiệm 26 Chương 5. Thử nghiệm 27 Chương 5. Thử nghiệm 28 Chương 6. Kết luận  Trong quá trình nghiên cứu viết luận văn em đã: tìm hiểu tổng quan về lí thuyết khai phá dữ liệu, thuật toán Apriori và luật kết hợp.  Do thời gian và kinh nghiệm thực tế chưa nhiều nên luận văn còn nhiều thiếu sót mong các thầy cô bỏ qua và góp ý. Em xin chân thành cảm ơn!