Xây dựng ứng dụng so sánh kỹ thuật đánh giá luật giữa các độ đo

Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM). Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan.

14 trang | Chia sẻ: vietpd | Lượt xem: 1273 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Xây dựng ứng dụng so sánh kỹ thuật đánh giá luật giữa các độ đo, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

51 Chương 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO 4.1. GIỚI THIỆU Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM). Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan. 4.1.1. Nguồn dữ liệu “Nursery” Nguồn dữ liệu Nursery được sử dụng trong ứng dụng tuyển chọn các trẻ em cho trường mầm non ở Ljubljana, Slovenia vì có quá nhiều đơn xin vào trường này. Nguồn dữ liệu Nursery gồm 9 thuộc tính và 12.960 dòng, thông tin về các thuộc tính của nguồn Nursery được trình bày trong Bảng 4.1. Loại thuộc tính Tên thuộc tính Diễn giải Miền giá trị Parents Nghề nghiệp của cha mẹ {usual, pretentious, great_pret} Has_nurs Phòng cho trẻ {proper, less_proper, improper, critical, very_crit} Form Loại gia đình {complete, completed, incomplete, foster} Children Số con trong gia đình {1, 2, 3, more} Housing Vấn đề nhà cửa {convenient, less_conv, critical} Finance Vấn đề tài chính {convenient, inconv} Social Điều kiện xã hội {non-prob, slightly_prob, problematic} Thuộc tính điều kiện Health Điều kiện sức khỏe {recommended, priority, not_recom} Thuộc tính quyết định Decision Quyết định của nhà trường {not_recom, recommend, very_recom, priority, spec_prior} Bảng 4.1. Các thuộc tính của nguồn Nursery 52 Ứng dụng nguồn dữ liệu Nursery vào việc so sánh các độ đo dựa vào trọng số của các thuộc tính điều kiện, luận văn giả sử rằng các thuộc tính điều kiện đều có giá trị bằng nhau và bằng 1. 4.1.2. Nguồn dữ liệu “BankLoan” Loại thuộc tính Tên thuộc tính Diễn giải Miền giá trị Tien Số tiền khách hàng muốn vay {0…N} Tuoi Tuổi của khách hàng {0…N} Trị số liên tục Lai Lãi xuất vay (đơn vị %) {0…N} ThoiHan Thời hạn vay (đơn vị Tháng) {12, 24, 36, 48, 60, 72, 84, 96} TraGoc Lịch trả nợ gốc {Hang thang, Cuoi ky} TraLai Lịch trả lãi {Hang nam, Hang thang} UyTin Uy tín vay của khách hàng trong những lần vay trước {Chua, Co, Khong} SL_VayTruoc Số lần khách hàng vay trước đây {0, 1, 2, 3, 4, 5} HonNhan Tình trạng hôn nhân của khách hàng {Doc than, Ket hon, Ly hon} SoNguoiPT Số người sống phụ thuộc vào khách hàng {0, 1, 2, 3, 4, 5} DamBaoNo Tỉ lệ đảm bảo nợ vay (giá trị vay so với tài sản đảm bảo) {>=1, <1} ThuNhap Mức độ ổn định thu nhập của khách hàng {On dinh, Tuong doi, Khong on dinh} Thuộc tính điều kiện Hạng mục KhaNangTra Khả năng trả nợ của khách hàng, được tính = Thời hạn vay*Thu nhập ròng hằng tháng + tài sản khác)/(Tiền vay + lãi 1 tháng*thời hạn vay). {>=1, <1} Thuộc tính quyết định ChoVay Thông tin khách hàng được cho vay hay không {Co, Khong} Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 53 Với nguồn dữ liệu cho vay thế chấp trong ngân hàng (BankLoan), tri thức mà ứng dụng muốn khai phá chính là dự đoán khả năng khách hàng có thể được ngân hàng chấp nhận cho vay tiền hay không dựa trên một số thông tin từ khách hàng. Nguồn dữ liệu BankLoan gồm 14 thuộc tính và 1323 dòng dữ liệu, trong đó có 13 thuộc tính điều kiện (3 thuộc tính có giá trị số liên tục, 10 thuộc tính có giá trị hạng mục) và 1 thuộc tính quyết định. Danh sách các thuộc tính được trình bày trong Bảng 5.1. Trọng số của các thuộc tính điều kiện của BankLoan được trình bày trong Bảng 5.2. Stt Thuộc tính điều kiện Trọng số 1 Tien 7 2 Lai 3 3 ThoiHan 3 4 TraGoc 1 5 TraLai 1 6 UyTin 7 7 SL_VayTruoc 4 8 Tuoi 7 9 HonNhan 4 10 SoNguoiPT 4 11 DamBaoNo 8 12 ThuNhap 8 13 KhaNangTra 8 Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan Trong [9], độ đo ERIM được định nghĩa dựa trên các trọng số của các thuộc tính, và các trọng số này được xác định phụ thuộc vào khái niệm cấp bậc (Concept Hierarchy), những thuộc tính thuộc cùng cấp bậc có trọng số bằng nhau và bằng trọng số của cấp bậc đó. Tuy nhiên ở ứng dụng này luận văn không xây dựng khái niệm cấp bậc vì nguồn dữ liệu BankLoan có khá ít thuộc tính và nếu chia theo cấp bậc thì số cấp bậc cũng gần bằng số thuộc tính. 54 4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG Ứng dụng luận văn xây dựng theo mô hình trong Hình.5.1. Trước tiên là giai đoạn Tiền xử lý sẽ xử lý dữ liệu trống và không nhất quán, sau đó chia ngẫu nhiên dữ liệu làm 10 phần và sử dụng phương pháp kiểm tra chéo trên 10 phần dữ liệu này (mỗi lần dùng 9 phần dùng để training và 1 phần dùng để testing). Vì nguồn dữ liệu BankLoan có 3 thuộc tính là trị số liên tục nên phải tiến hành rời rạc hóa dữ liệu training trước khi phát sinh luật. Kết quả của giai đoạn Phát sinh luật là tập luật kết hợp (với ngưỡng minSup và minConf) sau khi đã loại bỏ đi các luật dư thừa. Từ tập luật thu được, tính toán giá trị các độ đo cho từng luật và lần lượt xây dựng các phân lớp ứng với từng độ đo. Giai đoạn cuối cùng là dùng dữ liệu test để kiểm tra hiệu quả của các phân lớp đã được xây dựng dựa vào kết quả test chính xác, độ đo nào có kết quả test chính xác cao hơn chứng tỏ khả năng đánh giá luật của độ đo đó tốt hơn. Tiền xử lý Tập luật Hình 4.1. Mô hình xây dựng ứng dụng Chia dữ liệu Dữ liệu test Rời rạc hóa Phát sinh luật Xây dựng phân lớp Kết quả test chính xác Tính toán giá trị các độ đo cho từng luật Test Dữ liệu training Dữ liệu gốc 55 4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO 4.3.1. Sử dụng nguồn “Nursery” Sử dụng nguồn dữ liệu Nursery để so sánh khả năng đánh giá luật giữa các độ đo: WAERIM, AIERIM với RIM, ERIM và với các độ đo hữu ích (ở đây luận văn chọn 3 độ đo hữu ích là Jaccard, Support và Confidence). Với ngưỡng hỗ trợ minSup=1.5% và ngưỡng tin cậy minConf=60% ta thu được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 145 luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 1 rút gọn, và số lượng luật được chọn để xây dựng phân lớp trong mỗi lần test dựa vào giá trị của độ đo AIERIM (cụ thể là độ đo AIERIM≥95%). Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm độ chính xác và số lượng luật được chọn để xây dựng phân lớp), Hình 4.2 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo. 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% 1 2 3 4 5 6 7 8 9 10 Đ ộ c hí n h x ác AIERIM RIM ERIM AWERIM Jaccard Support Confidence Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery Nhận xét: - Dựa vào biểu đồ nhận thấy rằng với số rút gọn phát sinh từ nguồn training là 1, thì việc sử dụng độ đo RIM để đánh giá luật cho kết quả test chính xác không cao. WA I 56 - Với nguồn Nursery các thuộc tính điều kiện đều có trọng số bằng nhau, nên sử dụng độ đo ERIM và WAERIM đều không cho kết quả tốt hơn RIM. - Độ đo AIERIM lại cho kết quả test chính xác khá cao, tuy thấp hơn độ đo Confidence nhưng cao hơn hẳn Support và Jaccard. 4.3.2. Sử dụng nguồn “BankLoan” Nguồn dữ liệu BankLoan được sử dụng để so sánh khả năng đánh giá luật giữa các độ đo trong 2 trường hợp: trường hợp thứ nhất số lượng luật được chọn để xây dựng phân lớp là 20 luật, trường hợp thứ hai là 40 luật. Với ngưỡng hỗ trợ minSup=0.5% và ngưỡng tin cậy minConf=70% ta thu được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 240 luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 4 rút gọn. Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo trong trường hợp 1. Bảng 4.6 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 2, Hình 4.4 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo trong trường hợp 2. 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 1 2 3 4 5 6 7 8 9 10 Đ ộ c hí n h x ác RIM ERIM AWERIM AIERIM Lift Support Confidence Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) WAE I 57 50.0% 55.0% 60.0% 65.0% 70.0% 75.0% 80.0% 85.0% 90.0% 1 2 3 4 5 6 7 8 9 10 Đ ộ ch ín h xá c RIM ERIM AWERIM AIERIM Lift Support Confidence Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) Nhận xét: - Từ 2 biểu đồ trong 2 trường hợp, ta nhận thấy độ đo WAERIM đều cho kết quả test tốt hơn các độ đo RIM, ERIM, AIERIM. - Độ đo ERIM được đề xuất để cải tiến độ đo RIM nhưng chưa hẳn cho kết quả tốt hơn RIM - Hầu như trong 10 lần test, AIERIM cho kết quả tốt hơn RIM và ERIM. - So với độ đo Lift, độ đo WAERIM và AIERIM cho kết quả tốt hơn hẳn. - So với độ đo Confidence, trong một số trường hợp độ đo WAERIM và AIERIM cho kết quả tốt hơn và ngược lại. - Tuy so với độ đo Support, độ đo WAERIM và AIERIM không cho kết quả tốt hơn nhưng sự chênh lệch giữa các kết quả test là không đáng kể. 4.3.3. Kết luận Như vậy, bằng ứng dụng thực tế luận văn đã chứng minh khả năng đánh giá luật của các độ đo mà luận văn đề xuất(WAERIM, AIERIM) so với các độ đo Jiye Li đề xuất và so với các độ đo hữu ích trong các trường hợp cụ thể. WAERIM 58 Mặc dù không có độ đo nào cho kết quả tốt nhất trong các trường hợp, 2 độ đo WAERIM và AIERIM không phải là sự chọn lựa tối ưu nhưng dù sao các kết quả cũng đã chứng tỏ rằng khả năng đánh giá luật của 2 độ đo WAERIM và AIERIM có thể chấp nhận được. 59 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình AIERIM≥95% 78.4%(50) 82%(66) 83.6%(51) 82.6%(61) 84.8%(55) 84%(60) 82.2%(53) 84.1%(58) 84.5%(54) 81.6%(57) 82.8%(56.5) RIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5) ERIM 28.7%(50) 39.2%(66) 28.4%(51) 32.3%(61) 24.9%(55) 34.4%(60) 28.5%(53) 29.9%(58) 30.2%(54) 32.3%(57) 30.1%(56.5) WAERIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5) Jaccard 73.8%(50) 79.2%(66) 76.9%(51) 76.2%(61) 77.9%(55) 78.5%(60) 75.5%(53) 76.8%(58) 77.6%(54) 77.3%(57) 76.9%(56.5) Support 73.1%(50) 78.6%(66) 76.5%(51) 76.3%(61) 78%(55) 78.2%(60) 75.3%(53) 76.6%(58) 76.4%(54) 75.9%(57) 76.5%(56.5) 1 Confidence 87.3%(50) 90.4%(66) 91.4%(51) 90.2%(61) 87.2%(55) 90.4%(60) 89.2%(53) 89%(58) 90%(54) 90.9%(57) 89.6%(56.5) AIERIM≥95% 77.3%(60) 83.7%(59) 81.1%(63) 79.1%(59) 79.2%(56) 80.3%(55) 84.3%(62) 81.6%(64) 84.2%(54) 84.2%(53) 81.5%(59.2) RIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2) ERIM 38.7%(60) 31.6%(59) 31.7%(63) 32.5%(59) 30.3%(56) 32.9%(55) 34.6%(62) 35.2%(64) 28.9%(54) 32.9%(53) 32.9%(59.2) WAERIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2) Jaccard 76.2%(60) 76.3%(59) 77.6%(63) 76.2%(59) 76.4%(56) 75.7%(55) 80.9%(62) 79%(64) 75.5%(54) 75.2%(53) 76.9%(59.2) Support 75.8%(60) 76.6%(59) 77.2%(63) 76.3%(59) 76.2%(56) 75.5%(55) 90.4%(62) 78.3%(64) 75.5%(54) 75%(53) 77.7%(59.2) 2 Confidence 88.3%(60) 89.8%(59) 90%(63) 89%(59) 89.1%(56) 90.3%(55) 81.7%(62) 89%(64) 88.9%(54) 89.5%(53) 88.6%(59.2) AIERIM≥95% 82.9%(56) 82.9%(55) 83.2%(57) 83.8%(61) 81.3%(58) 82.4%(58) 82.9%(60) 83.1%(57) 83%(58) 83%(54) 82.9%(57.4) RIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4) ERIM 28.9%(56) 29.1%(55) 31.8%(57) 32.5%(61) 31.2%(58) 32%(58) 34.4%(60) 31.4%(57) 32.7%(58) 29.6%(54) 31.4%(57.4) WAERIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4) Jaccard 76.9%(56) 76.9%(55) 76.2%(57) 77%(61) 76.2%(58) 75.2%(58) 77.4%(60) 78.1%(57) 78.3%(58) 78.4%(54) 77.1%(57.4) Support 76.8%(56) 77.1%(55) 75.9%(57) 76.6%(61) 76.2%(58) 75.8%(58) 76.6%(60) 78%(57) 77.9%(58) 77.8%(54) 76.9%(57.4) 3 Confidence 88.7%(56) 89.1%(55) 90%(57) 90.2%(61) 89%(58) 89.8%(58) 90.4%(60) 90.6%(57) 91%(58) 90.5%(54) 89.9%(57.4) AIERIM≥95% 83.3%(61) 84%(63) 82.8%(60) 49.6%(68) 84%(60) 83.2%(60) 83.3%(55) 82.5%(57) 82.6%(58) 83.3%(54) 79.9%(59.6) RIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6) ERIM 34.7%(61) 35.6%(63) 31.5%(60) 34.8%(68) 32.4%(60) 34.6%(60) 30.9%(55) 30.8%(57) 30.3%(58) 31%(54) 35.7%(59.6) WAERIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6) Jaccard 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6) Support 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6) 4 Confidence 90%(61) 90.6%(63) 89.7%(60) 89.9%(68) 90.4%(60) 90.2%(60) 91.3%(55) 90.1%(57) 90.9%(58) 90.6%(54) 77%(59.6) AIERIM≥95% 83.2%(54) 83.3%(56) 80.9%(57) 84.6%(66) 81.9%(53) 83%(58) 80.3%(60) 80.9%(57) 84%(61) 82.3%(52) 82.4%(57.4) RIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4) ERIM 29.6%(54) 31%(56) 30%(57) 37.7%(66) 29.5%(53) 30.6%(58) 32.6%(60) 29.9%(57) 32.6%(61) 28.5%(52) 32.8%(57.4) WAERIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4) Jaccard 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4) Support 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4) 5 Confidence 87.2%(54) 87%(56) 90.5%(57) 89.8%(66) 90.7%(53) 90.9%(58) 89.2%(60) 89.3%(57) 90.3%(61) 88.4%(52) 76.4%(57.4) 60 AIERIM≥95% 82.8%(57) 82.6%(60) 82.6%(56) 82.3%(57) 84%(58) 82%(56) 82.9%(66) 83.8%(53) 84.3%(52) 83.4%(59) 83.1%(57.4) RIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4) ERIM 28.6%(57) 32.8%(60) 27.4%(56) 30.1%(57) 32.5%(58) 32.3%(56) 38.3%(66) 32.2%(53) 28%(52) 29.7%(59) 31.2%(57.4) WAERIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4) Jaccard 78.9%(57) 78.7%(60) 76.9%(56) 76.8%(57) 76.5%(58) 76.9%(56) 79.2%(66) 76.2%(53) 76.8%(52) 77.6%(59) 77.5%(57.4) Support 77.9%(57) 78.7%(60) 76.9%(56) 76%(57) 76%(58) 76.4%(56) 78%(66) 76.3%(53) 76.3%(52) 77.5%(59) 77%(57.4) 6 Confidence 90.7%(57) 90.4%(60) 88.7%(56) 91%(57) 89.5%(58) 90.5%(56) 90.4%(66) 89.7%(53) 88.3%(52) 88.2%(59) 89.7%(57.4) AIERIM≥95% 83.4%(52) 82.6%(57) 81.8%(54) 83.3%(62) 83%(61) 83.5%(58) 83.8%(63) 84.7%(58) 83.5%(60) 82.5%(60) 83.2%(58.5) RIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5) ERIM 29.4%(52) 32.2%(57) 30.3%(54) 35.4%(62) 33.5%(61) 30.7%(58) 36.1%(63) 30.6%(58) 34.9%(60) 31.6%(60) 32.5%(58.5) WAERIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5) Jaccard 76.2%(52) 76.8%(57) 75.9%(54) 77%(62) 77.9%(61) 77%(58) 78.7%(63) 77.9%(58) 77%(60) 77.4%(60) 77.2%(58.5) Support 76%(52) 76.5%(57) 75.8%(54) 76.4%(62) 77.8%(61) 76.9%(58) 77.6%(63) 77.5%(58) 76.9%(60) 76.9%(60) 76.8%(58.5) 7 Confidence 89.4%(52) 89.5%(57) 89.4%(54) 90.2%(62) 90.1%(61) 89.4%(58) 89.5%(63) 90.2%(58) 89.7%(60) 89.9%(60) 89.7%(58.5) AIERIM≥95% 82.5%(56) 81.8%(63) 84.4%(52) 84.8%(61) 79.5%(56) 81.8%(61) 83.2%(53) 82.5%(54) 82.9%(51) 82.9%(53) 82.6%(56) RIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56) ERIM 27.3%(56) 36%(63) 28.1%(52) 32.7%(61) 30.3%(56) 32.5%(61) 32.9%(53) 30.2%(54) 29.1%(51) 38.5%(53) 31.8%(56) WAERIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56) Jaccard 75.9%(56) 78.1%(63) 76.8%(52) 77.1%(61) 76.4%(56) 77.1%(61) 75.2%(53) 77.7%(54) 76.9%(51) 76.2%(53) 76.7%(56) Support 75.9%(56) 77.2%(63) 76.3%(52) 76.6%(61) 76.2%(56) 76.6%(61) 75.2%(53) 76.4%(54) 77.1%(51) 75.8%(53) 76.3%(56) 8 Confidence 87.7%(56) 89.4%(63) 88.2%(52) 90.3%(61) 89.1%(56) 90.2%(61) 89.5%(53) 90.4%(54) 89.1%(51) 90.5%(53) 89.4%(56) AIERIM≥95% 81.5%(58) 80.4%(57) 82.8%(61) 82.5%(53) 84.8%(66) 81.8%(55) 84.3%(58) 78.1%(50) 81.9%(57) 82.1%(59) 82%(57.4) RIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4) ERIM 31.2%(58) 30.2%(57) 31.5%(61) 28.5%(53) 39.7%(66) 34.9%(55) 29.9%(58) 28.7%(50) 30.5%(57) 28.5%(59) 31.4%(57.4) WAERIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4) Jaccard 76.5%(58) 78.6%(57) 77.2%(61) 76.3%(53) 78.5%(66) 77.9%(55) 76.8%(58) 73.1%(50) 78.5%(57) 75.7%(59) 76.9%(57.4) Support 76.5%(58) 79%(57) 75.6%(61) 76%(53) 78.5%(66) 78%(55) 76.6%(58) 73.1%(50) 78.1%(57) 75.3%(59) 76.7%(57.4) 9 Confidence 89.5%(58) 90.5%(57) 88.7%(61) 88.4%(53) 89.8%(66) 87.8%(55) 89.8%(58) 87.3%(50) 90%(57) 89.6%(59) 89.1%(57.4) AIERIM≥95% 83%(60) 82.5%(63) 83.1%(58) 77.3%(51) 81.5%(54) 83.1%(62) 82.6%(57) 81.5%(56) 83.6%(60) 82.2%(55) 82.2%(57.6) RIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6) ERIM 34.4%(60) 39.2%(63) 30.6%(58) 31.2%(51) 30.3%(54) 35.4%(62) 32.3%(57) 37.3%(56) 32.8%(60) 29.9%(55) 33.3%(57.6) WAERIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6) Jaccard 78.8%(60) 79.2%(63) 76.2%(58) 74.2%(51) 74.9%(54) 77%(62) 78.3%(57) 75.3%(56) 78.7%(60) 76.9%(55) 77%(57.6) Support 78.2%(60) 78.5%(63) 75.7%(58) 74.2%(51) 74.8%(54) 76.4%(62) 78.9%(57) 75.3%(56) 78.7%(60) 77.1%(55) 76.8%(57.6) 10 Confidence 90.1%(60) 91.4%(63) 90.5%(58) 85%(51) 89.6%(54) 89.2%(62) 92.9%(57) 87.9%(56) 90.7%(60) 89.3%(55) 89.7%(57.6) Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery 61 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình RIM 67.2%(20) 63.6%(20) 74.6%(20) 69.5%(20) 69.5%(20) 71.8%(20) 71.2%(20) 66.9%(20) 66.9%(20) 68.8%(20) 69%(20) ERIM 48.9%(20) 36.4%(20) 44.4%(20) 46.1%(20) 39.7%(20) 53.4%(20) 50.8%(20) 50%(20) 46.9%(20) 52%(20) 46.9%(20) WAERIM 83.2%(20) 86%(20) 83.3%(20) 81.2%(20) 80.2%(20) 83.2%(20) 84.1%(20) 85.4%(20) 84.6%(20) 82.4%(20) 83.4%(20) AIERIM 74%(20) 65.9%(20) 72.2%(20) 76.6%(20) 64.9%(20) 64.9%(20) 76.5%(20) 73.1%(20) 72.3%(20) 75.2%(20) 71.6%(20) Lift 49.3%(20) 55.1%(20) 67.2%(20) 75.8%(20) 66.3%(20) 55.3%(20) 50.4%(20) 58.1%(20) 65%(20) 62.3%(20) 60.5%(20) Support 81.7%(20) 85.3%(20) 87.3%(20) 85.2%(20) 82.4%(20) 86.3%(20) 83.3%(20) 83.1%(20) 84.6%(20) 83.2%(20) 84.2%(20) 1 Confidence 60.3%(20) 57.4%(20) 55.6%(20) 68%(20) 63.4%(20) 59.5%(20) 62.1%(20) 57.7%(20) 58.5%(20) 58.4%(20) 60.1%(20) RIM 68.2%(20) 73.8%(20) 69%(20) 68.5%(20) 70.5%(20) 64.8%(20) 77.1%(20) 65.6%(20) 64.3%(20) 69.4%(20) 69.1%(20) ERIM 44.7%(20) 51.5%(20) 42.6%(20) 49.2%(20) 55.3%(20) 50.8%(20) 49.6%(20) 48.4%(20) 48.1%(20) 48.4%(20) 48.9%(20) WAERIM 86.4%(20) 77.7%(20) 82.2%(20) 87.7%(20) 84.8%(20) 82.8%(20) 82.4%(20) 87.5%(20) 83.7%(20) 80.6%(20) 83.6%(20) AIERIM 68.9%(20) 67.7%(20) 69.8%(20) 73.1%(20) 71.2%(20) 68.8%(20) 72.5%(20) 75%(20) 72.9%(20) 75%(20) 71.5%(20) Lift 68.4%(20) 43.7%(20) 45.2%(20) 70.3%(20) 53.9%(20) 51.5%(20) 69.7%(20) 58.9%(20) 54.6%(20) 59.2%(20) 57.5%(20) Support 84.8%(20) 79.2%(20) 83.7%(20) 87.7%(20) 86.4%(20) 82.8%(20) 84%(20) 86.7%(20) 83.7%(20) 83.1%(20) 84.2%(20) 2 Confidence 53.8%(20) 59.2%(20) 63.6%(20) 58.5%(20) 62.9%(20) 56.2%(20) 58%(20) 64.8%(20) 60.5%(20) 62.1%(20) 60%(20) RIM 65.6%(20)