Khai khoáng dữ liệu bằng luật kết hợp

Khai khoáng dữ liệu ñược ñịnh nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu ñược lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu. Hiện nay, ngoài thuật ngữ khai khoáng dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai khoáng tri thức từ CSDL, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu, nạo vét dữ liệu.

pdf29 trang | Chia sẻ: vietpd | Lượt xem: 1376 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Khai khoáng dữ liệu bằng luật kết hợp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
-28- CHƯƠNG 3: KHAI KHOÁNG DỮ LIỆU BẰNG LUẬT KẾT HỢP 3.1 Sơ lược về khai khoáng dữ liệu [14] 3.1.1 Khái niệm khai khoáng dữ liệu và quá trình khám phá tri thức Khai khoáng dữ liệu ñược ñịnh nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu ñược lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu. Hiện nay, ngoài thuật ngữ khai khoáng dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai khoáng tri thức từ CSDL, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu, nạo vét dữ liệu. Nhiều người coi khai khoáng dữ liệu và một số thuật ngữ thông dụng khác như khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như nhau. Những người khác lại xem khai khoáng dữ liệu ñơn giản là một bước chủ yếu trong tiến trình KDD. Toàn bộ tiến trình KDD ñược mô tả trong hình sau: Hình 3.1: Tiến trình KDD 1) Làm sạch dữ liệu (data cleaning): Loại bỏ các dữ liệu không thích hợp. Cơ sở dữ liệu Làm sạch dữ liệu Tích hợp dữ liệu Kho dữ liệu Chọn dữ liệu Dữ liệu có liên quan Khai khoáng dữ liệu. Mẫu dữ liệu. Tri thức -29- 2) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, Kho dữ liệu, … 3) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan sẽ ñược thu thập từ các nguồn dữ liệu ban ñầu. 4) Chuyển ñổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ ñược chuyển ñổi về dạng phù hợp cho việc khai khoáng bằng cách thực hiện các thao tác nhóm hoặc tập hợp. 5) Khai khoáng dữ liệu (data mining): Là giai ñoạn thiết yếu, trong ñó các phương pháp thông minh sẽ ñược áp dụng ñể trích xuất ra các mẩu dữ liệu. 6) ðánh giá mẫu (pattern evaluation): ðánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép ño. 7) Biểu diễn tri thức (Knowledge presentation): Sử dụng các kỹ thuật biểu diễn và trực quan hoá ñể biểu diễn tri thức khai khoáng ñược cho người sử dụng. Theo quan ñiểm khai khoáng dữ liệu là một tiến trình quan trọng trong tiến trình khai khoáng dữ liệu từ nhiều dữ liệu trong nhiều cơ sở dữ liệu, kho dữ liệu hoặc những nơi chứa thông tin khác. Vì vậy, kiến trúc của một hệ thống khai khoáng dữ liệu có thể gồm những thành phần sau ñây: Hình 3.2: Kiến trúc của một hệ thống Khai khoáng dữ liệu Cơ sở dữ liệu Kho dữ liệu Làm sạch và tích hợp dữ liệu. Lọc dữ liệu Máy chủ của cơ sở dữ liệu hoặc kho dữ liệu Bộ máy khai khoáng dữ liệu ðánh giá mẫu Giao diện ñồ họa dành cho người dùng Cơ sở tri thức -30-  Cơ sở dữ liệu, kho dữ liệu, hoặc những nơi chứa thông tin khác: Những kỹ thuật làm sạch và tích hợp dữ liệu có thể ñược thực hiện trên những dữ liệu này.  Server của cơ sở dữ liệu hoặc kho dữ liệu: Server của cơ sở dữ liệu hoặc kho dữ liệu phải ñáng tin cậy cho việc tìm nạp dữ liệu có liên quan, dựa trên yêu cầu người dùng.  Cơ sở tri thức: ðây là miền tri thức ñược dùng ñể ñịnh hướng tìm kiếm hoặc ñánh giá tính ñáng chú ý của những mẫu kết quả, có thể bao gồm những phân cấp về khái niệm, ñược dùng ñể tổ chức những thuộc tính hoặc giá trị thuộc tính thành những cấp của sự trừu tượng hoá.  Bộ máy khai khoáng dữ liệu: ðây là ñiểm cốt yếu nhất của hệ thống khai khoáng dữ liệu, gồm có một loạt những module chức năng như mô tả, phân tích tính kết hợp, phân loại, tiến hoávà phân tích ñộ lệch.  Module ñánh giá mẫu: Thành phần này thường dùng những giới hạn ñược lưu trong cơ sở tri thức ñể thực hiện ñánh giá.  Giao diện ñồ hoạ dành cho người dùng: Thành phần này cho phép người dùng chỉ ñịnh hoặc cung cấp thông tin cho việc khai khoáng dữ liệu, ngoài ra nó còn cho phép người dùng xem cơ sở dữ liệu, hoặc các cấu trúc ñể tực ñánh giá mẫu ñã khai khoáng ñồng thời có khả năng trình bày các mẫu kết quả theo những dạng khác nhau. 3.1.2 Các loại dữ liệu thường ñược khai khoáng Trên lý thuyết, khai khoáng dữ liệu ñược áp dụng trên tất cả các loại dữ liệu bao gồm: các cơ sở dữ liệu quan hệ, kho dữ liệu, những cơ sở dữ liệu giao tác, những hệ thống cơ sở dữ liệu tiên tiến, flat file (những tập tin không có cấu trúc), www. Một hệ cơ sở dữ liệu, còn gọi là hệ quản trị cơ sở dữ liệu (database management system (DBMS)), bao gồm một loạt những dữ liệu có sự tương quan, -31- ñược gọi là cơ sở dữ liệu, một tập những chương trình phần mềm ñể quản lý và truy cập dữ liệu.  Cơ sở dữ liệu quan hệ: Một cơ sở dữ liệu quan hệ là một tập những bảng dữ liệu, mỗi bảng có một tên phân biệt. Mỗi bảng bao gồm một tập các thuộc tính (các cột hoặc các trường) và thường lưu trữ rất nhiều mẫu tin. Mỗi mẫu tin trong một bảng quan hệ thể hiện một ñối tượng ñược xác ñịnh bởi một khoá phân biệt và mô tả bởi một tập các giá trị thuộc tính. Ví dụ: Một công ty bán hàng gia dụng có thể ñược mô tả bởi những bảng quan hệ sau: khách hàng, mặt hàng, nhân viên, chi nhánh mỗi bảng chứa các thuộc tính thể hiện các ñối tượng tương ứng. Các quan hệ có thể xảy ra giữa các bảng như mua hàng (khách hàng mua các mặt hàng nào tại cửa hàng nào do nhân viên nào thu ngân,…), làm việc tại (nhân viên làm việc tại cửa hàng nào), …  Kho dữ liệu: Một kho dữ liệu là nơi chứa thông tin ñược thu thập từ nhiều nguồn khác nhau ñược lưu trữ dưới một lược ñồ thống nhất và thường ñặt tại một vị trí xác ñịnh. Những kho dữ liệu ñược xây dựng hướng theo một tiến trình làm sạch dữ liệu, chuyển ñổi dữ liệu, tích hợp dữ liệu và làm mới dữ liệu ñịnh kỳ. Cấu trúc thực sự của kho dữ liệu có thể là một kho dữ liệu quan hệ hoặc một khối dữ liệu ña chiều. Ví dụ: Giả sử công ty hàng gia dụng trên là công ty ña quốc gia, họ có nhiều chi nhánh ở nhiều nơi, mỗi chi nhánh có một cơ sở dữ liệu riêng. Khi tích hợp lại, kho dữ liệu có thể ở dạng khối 3 chiều, bao gồm: ñịa chỉ chi nhánh (Việt Nam, Hàn Quốc, Thái Lan,…), thời gian (Quí 1, quí 2, quí 3, quí 4 (hoặc theo tháng, năm, …)) và mặt hàng (kem ñánh răng, dầu gội ñầu, …)  Cơ sở dữ liệu giao tác: Một cơ sở dữ liệu giao tác bao gồm một tập tin, trong ñó mỗi mẫu tin trình bày một cuộc giao dịch. Một giao tác thường bao gồm một số hiệu xác ñịnh và riêng biệt thể hiện cuộc giao dịch ñó (trans_ID)và một danh sách những mặt hàng tạo nên giao dịch ñó. Cơ sở dữ liệu giao tác có thể có thêm một số bảng phù hợp với nó bao gồm những thông tin về bán hàng như ngày thực hiện giao dịch, số hiệu khách hàng, số hiệu của người bán hàng,… -32-  Những hệ cơ sở dữ liệu tiên tiến và những ứng dụng cơ sở dữ liệu tiên tiến: Những ứng dụng cơ sở dữ liệu mới như việc nắm bắt những dữ liệu thuộc về không gian (như bản ñồ), dữ liệu thiết kế máy kỹ thuật (như xây nhà, làm các thành phần hệ thống, mạch tích hợp,…), những siêu văn bản, những dữ liệu ña phương tiện (như văn bản, hình ảnh, âm thanh, video,…), dữ liệu liên quan ñến thời gian và www. Những ứng dụng này yêu cầu có những cấu trúc dữ liệu hiệu quả, những phương pháp leo thang ñể nắm bắt những cấu trúc phức tạp của ñối tượng và những thay ñổi thường xuyên. ðáp ứng yêu cầu này, những hệ dữ liệu tiên tiến và những hệ dữ liệu hướng ứng dụng xác ñịnh ñã ñược phát triển. Những hệ thống này bao gồm các hệ cơ sở dữ liệu hướng ñối tượng và hướng quan hệ, những hệ cơ sở dữ liệu thuộc về không gian, … 3.2 Khai khoáng dữ liệu theo phương pháp luật kết hợp Việc khai khoáng luật kết hợp là việc tìm ra những sự kết hợp ñáng chú ý hoặc những mối quan hệ tương quan giữa những tập các mục dữ liệu khổng lồ. Việc khai khoáng những quan hệ này giúp ích nhiều trong việc ra các quyết ñịnh trong kinh doanh. Phương pháp khai khoáng bằng luật kết hợp ñược Agrawal ñưa ra vào năm 1993 [7] và Apriori [8] là một trong những thuật toán ñầu tiên ñược ñề xuất. 3.2.1 Khái niệm Giả sử I = {i1, i2, …,im} là tập các mặt hàng. D là tập hợp các lượt mua hàng T trong cơ sở dữ liệu. (D = {T1,T2,…Tn}) Trong ñó, T là tập con của I hoặc bằng I. A,B là tập những mặt hàng (A, B là tập con của I hoặc bằng I với A giao B bằng rỗng). Một lượt mua hàng T ñược xem là bao gồm A nếu và chỉ nếu A là con hoặc bằng T. Luật A => B [ñộ hỗ trợ, ñộ tin cậy] ñược xem là mạnh khi luật này có ñộ hỗ trợ và ñộ tin cậy lớn hơn ñộ hỗ trợ và ñộ tin cậy tối thiểu. -33- Tập những mặt hàng thường ñược gọi là itemset, một itemset bao gồm k mặt hàng ñược gọi là k-itemset. Mức ñộ diễn ra thường xuyên của một itemset là số lượt mua hàng bao gồm itemset ñó, hay chúng còn ñược gọi là mức phổ biến hoặc ñộ hỗ trợ. Một itemset ñược gọi là thoả ñộ hỗ trợ tối thiểu (min_sup) nghĩa là nó có ñộ hỗ trợ lớn hơn hoặc bằng ñộ hỗ trợ tối thiểu. Việc khai khoáng các luật kết hợp diễn ra trong 2 bước: Bước 1: Tìm những itemset phổ biến (nghĩa là có ñộ hỗ trợ thoả mãn min_sup) Bước 2: Tạo ra những luật kết hợp mạnh từ những itemset phổ biến (những luật có ñộ tin cậy cao hơn ñộ tin cậy tối thiểu). 3.2.2 Khai khoáng luật kết hợp một chiều từ cơ sở dữ liệu giao tác Trong phần này ta sẽ tìm hiểu cách phát hiện các luật ñơn giản nhất (một chiều, một cấp và luận lý) bằng phương pháp cơ bản FP_Growth. 3.2.2.1 Giải thuật FP-Growth: tìm kiếm những itemset phổ biến Thuật toán FP_Growth sử dụng một cấu trúc dữ liệu gọi là FP_tree (Frequent Pattern tree). FP_tree là một thể hiện cô ñộng các thông tin có liên quan ñến tính thường xuyên của các tập mục trong CSDL. Mỗi nhánh của cây FP_tree thể hiện một tập mục phổ biến. Các nút dọc theo các nhánh ñược lưu trữ theo thứ tự giảm dần của tính phổ biến . Các mục ở lá của cây có tính phổ biến thấp nhất. Cây FP_tree có một bảng header kết hợp với nó. Bảng header lưu các mục cùng với số lần xuất hiện của nó trong CSDL theo thứ tự giảm dần của tính phổ biến. Mỗi mục của bảng chứa một nút ñầu danh sách liên kết với tất cả các nút của cây FP_tree mà nút ñó có tên trùng với tên của nó. Phương pháp FP_Growth chỉ cần duyệt CSDL 2 lần ñể khai khoáng tất cả các tập mục phổ biến. Quét lần thứ nhất ñể xác ñịnh tần xuất của từng tập mục trong CSDL. Quét lần thứ hai ñể xây dựng cây FP_tree. Cấu trúc 1 nút của cây gồm: tên -34- mục, bộ ñếm, liên kết ñến các nút tiếp theo trên cây có cùng tên.. Ta dựa vào cây FP_tree ñể tìm các tập mục phổ biến. Các bước của thuật toán FP_Growth: Bước 1: Duyệt CSDL ñể tìm các mục riêng biệt trong CSDL và ñộ hỗ trợ tương ứng của nó. Loại bỏ các mục có ñộ hỗ trợ nhỏ hơn minsup. Sắp xếp các mục theo thứ tự giảm dần của ñộ hỗ trợ vào bảng Header Bước 2: Duyệt CSDL lần 2 ñể xây dựng cây FP_tree. Tạo nút gốc NULL cho cây T. Duyệt tập giao dịch thứ nhất sắp xếp theo thứ tự trong tập L. Chèn vào cây T . Nếu phần ñầu của tập mục không trùng với bất cứ phần ñầu của tập mục giao dịch ñã xét thì tập hợp các mục ñó ñược chèn vào cây như một nhánh của cây và bộ ñếm của mỗi nút ban ñầu là 1. Nguợc lại thì phần ñầu của tập mục của giao dịch ñang xét sẽ ñược chia sẻ với phần ñầu nhánh thể hiện giao dịch ñã xét. Mỗi nút trên ñoạn nhánh chia sẻ bộ ñếm ñược tăng lên 1 ñơn vị, phần còn lại với mỗi mục sẽ ñược tạo một nút và ñược nối liền với nhánh ñược chia sẻ ở phần ñầu. Tạo liên kết từ bảng Header ñến các mục tương ứng. Tiếp tục duyệt CSDL và chèn vào cây cho ñến khi hết CSDL. Thuật toán xây dựng cây FP_tree 1) Procedure INSERT_TREE(string[p], Tree có gốc T) 2) If T có nút con N mà N.itemname = p 3) Then N.Count ++ 4) ELSE 5) Tạo nút mới N 6) N.itemname = p, N.Count = 1; 7) Liên kết bảng từ p ñến N 8) If p khác rỗng 9) Then Insert_tree(N, p); p: là mục ñầu tiên trong danh sách các tập mục P của giao dịch ñang xét Ví dụ thuật toán FP_Growth Giả sử ta có tập dữ liệu D với Minsup=22%, minconf=70% -35- Bảng 3.1 Dữ liệu mẫu TID DANH SÁCH CÁC MỤC T1 1 2 5 T2 2 4 T3 2 3 T4 1 2 4 T5 1 3 T6 2 3 T7 1 3 T8 1 2 3 5 T9 1 2 3 Duyệt CSDL lần 1: tìm ñộ hỗ trợ tương ứng của 1 item Bảng 3.2 Kết quả duyệt lần 1 Mục (item) Số lần xuất hiện ðộ hỗ trợ 1 6 6/9*100%=66,6% 2 7 7/9*100%=77,7% 3 6 7/9*100%=77,7% 4 2 2/9*100%=22% 5 2 2/9*100%=22% Ở ñây ta không bỏ mục nào vì ñộ hỗ trợ ñều thỏa minsup. Sắp xếp lại các item theo thứ tự giảm dần của ñộ hỗ trợ vào bảng Header Bảng 3.3 Bảng Header Item ðộ hỗ trợ 2 7 1 6 3 6 4 2 5 2 Duyệt CSDL lần 2 : xây dựng cây FP_tree Duyệt tập giao dịch thứ 1 T1{1,2,5} và sắp theo thứ tự trong bảng Header  T1{2,1,5} Ta có ñược nhánh ñầu tiên của cây FP_tree với chỉ số mỗi nút là 1 -36- Hình 3.3: Bước 1 xây dựng cây FP Tương tự ta duyệt tập giao dịch thứ 2 T2{2,4} Ta thấy chỉ số của nút 2 tăng từ 1 lên 2 vì nút 2 dùng chung giữa T1 và T2 Hình 3.4: Bước 2 xây dựng cây FP Tiếp tục duyệt ñến hết CSDL ta thu ñược cây FP_tree -37- Hình 3.5: Cây FP Tìm tập mục thường xuyên từ cây FP_tree Dựa vào liên kết từ bảng Header ta ñi tìm cây FP_tree cho từng item VD: Ta xét item ”5” Hình 3.6: Tìm tập thường xuyên từ cây FP Dựa vào cây ta tìm ñược 2 phần ñược chọn là {(2:7),(1:4),(5:1)}, {(2:7),(1:4),(3:2),(5:1)}. Ở mỗi nhánh ta lấy minsup, ở ví dụ này minsup nhánh thứ nhất và thứ 2 là 1 {(2:1),(1:1),(5:1)}, {(2:1),(1:4),(3:1),(5:1)} -38- Giao 2 phần này lại ta có {(2:2),(1:2),(5:2)} tất cả các item ñều >= minsup (2/9*100% = 22%). Ta tìm ñược tập mục thường xuyên thứ nhất {2,1,5} với minsup=22%. Tương tự ta tìm hết tất cả các item trong bảng Header. Kết quả tìm ñược 2 tập thường xuyên {2,1,5}, {2,4}. Kế ñến là phần tìm luật kết hợp từ các tập mục thường xuyên. 3.2.2.2 Việc tạo ra những luật kết hợp từ những itemset phổ biến Sau khi ñã tìm ra những itemset phổ biến, những itemset này sẽ ñược dùng ñể tạo ra những luật mạnh (là những luật thoả mãn ñộ hỗ trợ tối thiểu (min_sup) và ñộ tin cậy tối thiểu (min_conf)) như sau:  Với mỗi itemset phổ biến L, tạo ra tất cả các tập con khác rỗng của L.  Với mỗi tập con khác rỗng s của L, cho ra một luật: “s => (L-s)” nếu ñộ tin cậy của nó lớn hơn hoặc bằng min_conf. Vì những luật này ñược tạo ra từ những itemset phổ biến nên nó hiển nhiên thoả ñiều kiện min_sup. VD: nếu {A,B,C,D} là itemset phổ biến thì có các luật dự kiến gồm: ABC →D, ABD →C, ACD →B, BCD→A, A →BCD, B →ACD, C →ABD, D→ABC AB →CD, AC → BD, AD → BC, BC→AD, BD →AC, CD →AB, Nếu L có k item thì có thể tạo ra 2k - 2 luật kết hợp dự kiến(bỏ qua luật L → ∅ và ∅ → L) Dựa vào tính chất của ñộ tin cậy ñể tạo ra luật có conf >= min_conf.  Nếu luật không ñược sinh ra từ cùng một itemset phổ biến thì: ñộ tin cậy của luật c(ABC →D) có thể lớn hơn hay nhỏ hơn ñộ tin cậy của luật c(AB →D)  Nhưng nếu luật ñược sinh ra từ cùng một itemset phổ biến L={A,B,C,D} thì ñộ tin cậy của các luật có thuộc tính: o c(ABC → D) ≥ c(AB → CD) ≥ c(A → BCD) -39- Hình 3.7: Trực quan về cách sinh ra luật kết hợp. 3.2.3 Khai khoáng luật kết hợp ña cấp từ cơ sở dữ liệu giao tác a. Những luật kết hợp ña cấp Trong một số ứng dụng, thật khó ñể tìm những luật kết hợp mạnh giữa những mục dữ liệu cấp thấp hoặc thô về mặt trừu tượng khi dữ liệu rải rác trong không gian tìm kiếm. Những luật mạnh ñược khám phá tại những cấp ñộ khái niệm cao có thể trình bày những tri thức về mặt ý thức chung. Tuy nhiên, những thứ có thể trình bày ý niệm chung cho một người dùng, lại là lạ lẫm với một người khác. Vì vậy những hệ thống khai khoáng dữ liệu phải cung cấp khả năng khai khoáng những luật kết hợp tại nhiều cấp trừu tượng và dễ dàng qua lại giữa những không gian trừu tượng khác nhau. b. Những phương pháp ñể khai khoáng những luật kết hợp ña cấp Ta tìm hiểu sơ qua những phương pháp khai khoáng dựa trên ñộ hỗ trợ và ñộ tin cậy. Các phương pháp này duyệt từ trên xuống ñồng thời tính toán các chỉ số về 2 giá trị này ñể tìm ra các itemset phổ biến tại mỗi cấp khái niệm. Ở mỗi cấp có thể Loại bỏ các luật Luật có ñộ tin cậy thấp -40- dùng bất kỳ phương pháp nào ñể tìm ra những itemset phổ biến. Một số kiểu phương pháp khai khoáng ña cấp:  Dùng cùng một ñộ hỗ trợ tối thiểu(min_sup) cho mọi cấp (còn gọi là uniform support)  Giảm min_sup dần tại mỗi cấp thấp hơn. Vài phương pháp giúp giảm min_sup: o ðộc lập từng cấp một: là một kiểu duyệt rộng, mỗi nút sẽ ñược duyệt, bất chấp nút cha của nó có phổ biến hay không. o Lọc chéo bằng những mục hàng ñơn. Một mục hàng thứ i chỉ ñược duyệt khi nút cha của nó là phổ biến. o Lọc chéo bằng k-itemset. Một k-itemset tại mức thứ i chỉ ñược duyệt chỉ khi k-itemset thứ k của nó tại cấp (i-1) 3.2.4 Khai khoáng luật kết hợp ña chiều từ cơ sở dữ liệu quan hệ và kho dữ liệu a. Những luật kết hợp ña chiều Trong các phần trước ta ñã ñược làm quen với những luật kết hợp một chiều dạng: Mua(x, “A”) => Mua(x,”B”) Nhưng giả sử chúng không ñược lưu trữ thành những bảng liệt kê những lượt mua hàng mà ñược lưu thành những thông tin có liên quan trong các cơ sở dữ liệu quan hệ hoặc các kho dữ liệu lớn thì những dữ liệu như vậy là ña chiều. Ví dụ: tuổi(x, “19-24”) ^ nghề nghiệp(x, “sinh vien”) => mua(x, “máy tính xách tay”) b. Việc khai khoáng những luật kết hợp ñịnh lượng Những luật kết hợp ñịnh tính là những luật kết hợp ña chiều mà trong ñó những thuộc tính bằng số ñược rời rạc hoá trong suốt quá trình khai khoáng ñể thoả -41- mãn một số tiêu chuẩn khai khoáng như cực ñại hoá ñộ tin cậy (confidence) hoặc rút gọn những luật tìm ñược. Phương pháp ñể khai khoáng những luật ña chiều (2-chiều) là phương pháp ARCS (Assiociation Rule Clustering System) mượn ý tưởng từ việc xử lý hình ảnh. Về bản chất phương pháp này ánh xạ những cặp thuộc tính ñịnh lượng trên một lưới 2 chiều cho những mẫu tin thoả ñiều kiện về thuộc tính xác ñịnh cho trước. Sau ñó, lưới 2 chiều này sẽ ñược duyệt ñể phân nhóm các ñiểm, từ ñó những luật kết hợp ñược tạo ra. c. Việc khai khoáng những luật kết hợp dựa trên khoảng cách Phương pháp như trên không nắm bắt ñược ngữ nghĩa của những dữ liệu theo khoảng thời gian vì thế nó không thể xét ñược những quan hệ về liên quan về khoảng cách giữa những ñiểm dữ liệu hoặc những khoảng thời gian. 3.2.5 Khai khoáng luật kết hợp dựa trên các ràng buộc Những ràng buộc bao gồm :  Ràng buộc về kiểu tri thức (Knowledge type constraints): Xác ñịnh kiểu tri thức nào ñược khai khoáng, ví dụ như sự kết hợp.  Ràng buộc về dữ liệu (Data constraint): Xác ñịnh tập hợp dữ liệu công việc có liên quan.  Ràng buộc về chiều/ cấp (Dimension/level constraint): Xác ñịnh kích thước của dữ liệu, hoặc cấp ñộ của cây phân cấp ñược sử dụng.  Ràng buộc về sự ñáng chú ý: ràng buộc này xác ñịnh các ngưỡng trên những số ño thống kê của những luật ñáng chú ý, như ñộ hỗ trợ (support) và ñộ tin cậy (confidence). Những ràng buộc về luật: Xác ñịnh dạng của luật dùng ñể khai khoáng, những luật này có thể là siêu luật (những khuôn mẫu về luật), hoặc việc xác ñịnh số thuộc tính lớn nhất hoặc nhỏ nhất có trong luật tổ tiên, hoặc sự thoả mãn của những thuộc tính ñặc biệt trên những giá trị thuộc tính, hoặc khối tập hợp của chúng. -42- 3.3 Một số trở ngại và giải pháp cho việc khai khoáng dữ liệu giáo dục bằng luật kết hợp [12]: Trong lĩnh vực khai khoáng luật kết hợp, hầu hết các nỗ lực nghiên cứu ñều tập trung vào hai hướng: một là cải tiến tốc ñộ các thuật toán, hai là làm nhỏ tập kết quả bằng việc áp dụng các ràng buộc vào tập kết quả sinh luật. Các thuật toán ñã ñược cải tiến rất nhiều bằng các ñề xuất mới trong chiến lược tìm kiếm, các kỹ thuật cắt tỉa và cả các cấu trúc dữ liệu. Trong khi hầu hết các thuật toán ñược cải tiến theo hướng tìm ra tất cả các luật có thể với ñộ hỗ trợ và ñộ tin cậy tối thiểu, một số thuật toán khác phát triển theo hướng cải tiến thời gian xử lý và tăng sự dễ hiểu cho người dùng thông qua việc giảm kích thước tập kết quả, kết hợp với tập tri thức liên quan. Các khó khăn trong việc áp dụng khai khoáng luật kết hợp vào dữ liệu giáo dục cũng tương tự như trên. Trong ñó, các trở ngại lớn là: thuật toán ñược sử dụng ñể khai khoáng có quá nhiều các tham số khiến người sử dụng không phải là c
Tài liệu liên quan