Khai phá dữ liệu
• Có sẵn khối dữ
liệu lớn:
– Các CSDL khổng lồ
– Dữ liệu từ Internet
– Rút trích thông tin hữu ích, chưa biết, tiềm
ẩn trong khối dữ liệu lớn
– Phân tích dữ liệu bán tự động
– Giải thích dữ liệu trên các tập dữ liệu lớn .
– Khai phá dữ liệu - Data mining
• KPDL là một buớc của tiến trình KDD
– Knowledge discovery in databases (KDD)
• Thuật ngữ tổng quát gồm các buớc như tiền xử
lý, KPDL, hậu xử lý .
7 trang |
Chia sẻ: candy98 | Lượt xem: 783 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Bài giảng Khai phá dữ liệu - Bài 1: Tổng quan về khai phá dữ liệu - Văn Thế Thành, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
11Khai phá dữ liệu 1
Họ tên GV: Văn Thế Thành
Email: vanthethanh@gmail.com
Site: https://sites.google.com/site/itcsites
2Khai phá dữ liệu
Bài 1:
Tổng quan về khai phá dữ liệu
3Khai phá dữ liệu
Khai phá dữ liệu
• Có sẵn khối dữ
liệu lớn:
– Các CSDL khổng lồ
– Dữ liệu từ Internet
24Khai phá dữ liệu
– Rút trích thông tin hữu ích, chưa biết, tiềm
ẩn trong khối dữ liệu lớn
– Phân tích dữ liệu bán tự động
– Giải thích dữ liệu trên các tập dữ liệu lớn .
Khai phá dữ liệu là gì ?
5Khai phá dữ liệu
• Thuật ngữ:
– Khai phá dữ liệu - Data mining
• KPDL là một buớc của tiến trình KDD
– Knowledge discovery in databases (KDD)
• Thuật ngữ tổng quát gồm các buớc như tiền xử
lý, KPDL, hậu xử lý .
Khai phá dữ liệu là gì ?
6Khai phá dữ liệu
Tiếp thị
CSDL Tiếp thị
Nhà kho dữ liệu KDD &
Data Mining
Cung cấp tri thức hỗ trợ
ra quyêt định
Dự báo
Khái quát dữ liệu
Khai phá dữ liệu có ích lợi gì ?
37Khai phá dữ liệu
• Phân tích dữ liệu, hỗ trợ ra quyết định
– Phân tích và quản lý thị trường
– Quản lý và phân tích rủi ro
– Quản lý và phân tích các sai hỏng
• Các ứng dụng khác:
– Khai thác Web
– Khai thác văn bản (text mining)
– etc.
Các ứng dụng tiềm năng
8Khai phá dữ liệu
Tiến trình khai phá dữ liệu(1)
Nghiên cứu lĩnh vựcNghiên cứu lĩnh vực
Rút gọn / chiềuRút gọn / chiều
Tạo tập dữ liệu đầu vàoTạo tập dữ liệu đầu vào
Tiền xử lý/ làm sạch, mã hóaTiền xử lý/ làm sạch, mã hóa
Chọn tác vụ Khai thác dữ liệuChọn tác vụ Khai thác dữ liệu
9Khai phá dữ liệu
Chọn các thuật giải KTDLChọn các thuật giải TDL
Biểu diễn tri thứcBiểu diễn tri thức
KTDL: Tìm kiếm tri thứcTDL: Tìm kiếm tri thức
Đánh giá mẫu tìm đượcĐánh giá mẫu tìm được
Sử dụng các tri thức vừa khám pháSử dụng các tri thức vừa khám phá
Tiến trình khai phá dữ liệu(2)
410Khai phá dữ liệu
Data miningData miningInput dataInput data ResultsResultsPreprocessing Postprocessing
Operational
Database
Operational
Database
Sele
ction
Sele
ction
UtilizationUtilization
Cleaned
Verified
Focused
Eval. of
interes-
tingness
Raw
data
Time
based
selection
Selected
usable
patterns
1 3
2
Tiến trình KDD tiêu biểu
11Khai phá dữ liệu
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Khai phá dữ liệu
12Khai phá dữ liệu
Dữ liệu
• Customer data
• Store data
• Demographical Data
• Geographical data
Thông tin
• X lives in Z
• S is Y years old
• X and S moved
• W has money in Z
Tri thức
• A quantity Y of product A is used in
region Z
• Customers of class Y use x% of C
during period D
Quyết định
• Promote product A in region Z.
• Mail ads to families of profile P
• Cross-sell service B to clients C
Từ dữ liệu đến quyết định
513Khai phá dữ liệu
• Các tiếp cận tổng quan:
– KPDL mô tả :
• Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ
liệu
• Giải thích dữ liệu đó
– KPDL dự báo:
• Dựa trên dữ liệu quá khứ, dự báo tương lại
• Xu thế phát triển!
Các quan niệm về KPDL
14Khai phá dữ liệu
• Quan niệm dựa trên
– CSDL để khai thác
– Tri thức được khám phá
– Các kỹ thuật được sử dụng
– Các ứng dụng
Các quan niệm về KTDL
15Khai phá dữ liệu
CSDL cần khai thácCSDL cần khai thác
• Quan hệ
• Giao tác
• Huớng đối tượng
• Huớng đối
tượng, quan hệ
• Active
• Không gian
• Thời gian
Databases
Các quan niệm về KPDL
• Text, XML
• Multi-media
• Heterogeneous
• Legacy
• Inductive
• WWW
• etc.
616Khai phá dữ liệu
Tác vụ khai thácTác vụ khai thác
• Đặc trưng
• Phân biệt
• Kết hợp
• Phân lớp
• Gom cụm
• Xu thế
Knowledge
=
task
Các quan niệm về KPDL
• Phân tích độ
lệch
• Phân tích hiếm
etc.
17Khai phá dữ liệu
Các kỹ thuật đã sử dụngCác kỹ thuật đã sử dụng
• CSDL
• Nhà kho dữ liệu (OLAP)
• Máy học
• Thống kê
• Trực quan hóa
• Mạng nơron và thuật giải GA
• . . . .
Techniques
Các quan niệm KPDL
18Khai phá dữ liệu
Các ứng dụngCác ứng dụng
• Bán lẻ, siêu thị
• Ngân hàng
• Khai thác gen
Applic.
Các quan niệm về KPDL
• Phân tích cổ
phiếu
• KTDL Web
• Phân tích dữ
liệu
719Khai phá dữ liệu
• KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ
CSDL lớn
• Các bước của KDD
– Tiền xử lý
– KTDL( data mining tasks)
– Hậu xử lý
• Các quan niệm, khía cánh
– CSDL (quan hệ, hướng đối tượng, không gian, WWW, )
– Tri thức (đặc trưng, gom cụm, kết hợp, )
– Kỹ thuật (máy học, thống kê, trực quan hóa, )
– Ứng dụng (bán lẻ, điện thoại, khai thác Web )
Kết luận