Bài giảng Khai phá dữ liệu - Bài 1: Tổng quan về khai phá dữ liệu - Văn Thế Thành

Khai phá dữ liệu • Có sẵn khối dữ liệu lớn: – Các CSDL khổng lồ – Dữ liệu từ Internet – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn – Phân tích dữ liệu bán tự động – Giải thích dữ liệu trên các tập dữ liệu lớn . – Khai phá dữ liệu - Data mining • KPDL là một buớc của tiến trình KDD – Knowledge discovery in databases (KDD) • Thuật ngữ tổng quát gồm các buớc như tiền xử lý, KPDL, hậu xử lý .

pdf7 trang | Chia sẻ: candy98 | Lượt xem: 652 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Bài giảng Khai phá dữ liệu - Bài 1: Tổng quan về khai phá dữ liệu - Văn Thế Thành, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
11Khai phá dữ liệu 1 Họ tên GV: Văn Thế Thành Email: vanthethanh@gmail.com Site: https://sites.google.com/site/itcsites 2Khai phá dữ liệu Bài 1: Tổng quan về khai phá dữ liệu 3Khai phá dữ liệu Khai phá dữ liệu • Có sẵn khối dữ liệu lớn: – Các CSDL khổng lồ – Dữ liệu từ Internet 24Khai phá dữ liệu – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn – Phân tích dữ liệu bán tự động – Giải thích dữ liệu trên các tập dữ liệu lớn . Khai phá dữ liệu là gì ? 5Khai phá dữ liệu • Thuật ngữ: – Khai phá dữ liệu - Data mining • KPDL là một buớc của tiến trình KDD – Knowledge discovery in databases (KDD) • Thuật ngữ tổng quát gồm các buớc như tiền xử lý, KPDL, hậu xử lý . Khai phá dữ liệu là gì ? 6Khai phá dữ liệu Tiếp thị CSDL Tiếp thị Nhà kho dữ liệu KDD & Data Mining Cung cấp tri thức hỗ trợ ra quyêt định Dự báo Khái quát dữ liệu Khai phá dữ liệu có ích lợi gì ? 37Khai phá dữ liệu • Phân tích dữ liệu, hỗ trợ ra quyết định – Phân tích và quản lý thị trường – Quản lý và phân tích rủi ro – Quản lý và phân tích các sai hỏng • Các ứng dụng khác: – Khai thác Web – Khai thác văn bản (text mining) – etc. Các ứng dụng tiềm năng 8Khai phá dữ liệu Tiến trình khai phá dữ liệu(1) Nghiên cứu lĩnh vựcNghiên cứu lĩnh vực Rút gọn / chiềuRút gọn / chiều Tạo tập dữ liệu đầu vàoTạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóaTiền xử lý/ làm sạch, mã hóa Chọn tác vụ Khai thác dữ liệuChọn tác vụ Khai thác dữ liệu 9Khai phá dữ liệu Chọn các thuật giải KTDLChọn các thuật giải TDL Biểu diễn tri thứcBiểu diễn tri thức KTDL: Tìm kiếm tri thứcTDL: Tìm kiếm tri thức Đánh giá mẫu tìm đượcĐánh giá mẫu tìm được Sử dụng các tri thức vừa khám pháSử dụng các tri thức vừa khám phá Tiến trình khai phá dữ liệu(2) 410Khai phá dữ liệu Data miningData miningInput dataInput data ResultsResultsPreprocessing Postprocessing Operational Database Operational Database Sele ction Sele ction UtilizationUtilization Cleaned Verified Focused Eval. of interes- tingness Raw data Time based selection Selected usable patterns 1 3 2 Tiến trình KDD tiêu biểu 11Khai phá dữ liệu Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP Khai phá dữ liệu 12Khai phá dữ liệu Dữ liệu • Customer data • Store data • Demographical Data • Geographical data Thông tin • X lives in Z • S is Y years old • X and S moved • W has money in Z Tri thức • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Quyết định • Promote product A in region Z. • Mail ads to families of profile P • Cross-sell service B to clients C Từ dữ liệu đến quyết định 513Khai phá dữ liệu • Các tiếp cận tổng quan: – KPDL mô tả : • Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ liệu • Giải thích dữ liệu đó – KPDL dự báo: • Dựa trên dữ liệu quá khứ, dự báo tương lại • Xu thế phát triển! Các quan niệm về KPDL 14Khai phá dữ liệu • Quan niệm dựa trên – CSDL để khai thác – Tri thức được khám phá – Các kỹ thuật được sử dụng – Các ứng dụng Các quan niệm về KTDL 15Khai phá dữ liệu CSDL cần khai thácCSDL cần khai thác • Quan hệ • Giao tác • Huớng đối tượng • Huớng đối tượng, quan hệ • Active • Không gian • Thời gian Databases Các quan niệm về KPDL • Text, XML • Multi-media • Heterogeneous • Legacy • Inductive • WWW • etc. 616Khai phá dữ liệu Tác vụ khai thácTác vụ khai thác • Đặc trưng • Phân biệt • Kết hợp • Phân lớp • Gom cụm • Xu thế Knowledge = task Các quan niệm về KPDL • Phân tích độ lệch • Phân tích hiếm etc. 17Khai phá dữ liệu Các kỹ thuật đã sử dụngCác kỹ thuật đã sử dụng • CSDL • Nhà kho dữ liệu (OLAP) • Máy học • Thống kê • Trực quan hóa • Mạng nơron và thuật giải GA • . . . . Techniques Các quan niệm KPDL 18Khai phá dữ liệu Các ứng dụngCác ứng dụng • Bán lẻ, siêu thị • Ngân hàng • Khai thác gen Applic. Các quan niệm về KPDL • Phân tích cổ phiếu • KTDL Web • Phân tích dữ liệu 719Khai phá dữ liệu • KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ CSDL lớn • Các bước của KDD – Tiền xử lý – KTDL( data mining tasks) – Hậu xử lý • Các quan niệm, khía cánh – CSDL (quan hệ, hướng đối tượng, không gian, WWW, ) – Tri thức (đặc trưng, gom cụm, kết hợp, ) – Kỹ thuật (máy học, thống kê, trực quan hóa, ) – Ứng dụng (bán lẻ, điện thoại, khai thác Web ) Kết luận