Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM). Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan.
                
              
                                            
                                
            
 
            
                 14 trang
14 trang | 
Chia sẻ: vietpd | Lượt xem: 1522 | Lượt tải: 1 
              
            Bạn đang xem nội dung tài liệu Xây dựng ứng dụng so sánh kỹ thuật đánh giá luật giữa các độ đo, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
51 
Chương 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ 
 THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO 
4.1. GIỚI THIỆU 
Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo 
được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so 
sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn 
đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM). 
Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 
2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan. 
4.1.1. Nguồn dữ liệu “Nursery” 
 Nguồn dữ liệu Nursery được sử dụng trong ứng dụng tuyển chọn các trẻ 
em cho trường mầm non ở Ljubljana, Slovenia vì có quá nhiều đơn xin vào 
trường này. Nguồn dữ liệu Nursery gồm 9 thuộc tính và 12.960 dòng, thông tin 
về các thuộc tính của nguồn Nursery được trình bày trong Bảng 4.1. 
Loại 
thuộc tính 
Tên 
thuộc tính Diễn giải Miền giá trị 
Parents Nghề nghiệp của cha mẹ {usual, pretentious, great_pret} 
Has_nurs Phòng cho trẻ {proper, less_proper, improper, 
critical, very_crit} 
Form Loại gia đình {complete, completed, incomplete, foster} 
Children Số con trong gia đình {1, 2, 3, more} 
Housing Vấn đề nhà cửa {convenient, less_conv, critical} 
Finance Vấn đề tài chính {convenient, inconv} 
Social Điều kiện xã hội {non-prob, slightly_prob, problematic} 
Thuộc tính 
điều kiện 
Health Điều kiện sức khỏe {recommended, priority, 
not_recom} 
Thuộc tính 
quyết định Decision Quyết định của nhà trường 
{not_recom, recommend, 
very_recom, priority, spec_prior} 
Bảng 4.1. Các thuộc tính của nguồn Nursery 
52 
Ứng dụng nguồn dữ liệu Nursery vào việc so sánh các độ đo dựa vào trọng 
số của các thuộc tính điều kiện, luận văn giả sử rằng các thuộc tính điều kiện 
đều có giá trị bằng nhau và bằng 1. 
4.1.2. Nguồn dữ liệu “BankLoan” 
Loại 
thuộc tính 
Tên 
thuộc tính Diễn giải Miền giá trị 
Tien Số tiền khách hàng muốn vay {0…N} 
Tuoi Tuổi của khách hàng {0…N} Trị số liên tục 
Lai Lãi xuất vay (đơn vị %) {0…N} 
ThoiHan Thời hạn vay (đơn vị Tháng) {12, 24, 36, 48, 60, 72, 84, 
96} 
TraGoc Lịch trả nợ gốc {Hang thang, Cuoi ky} 
TraLai Lịch trả lãi {Hang nam, Hang thang} 
UyTin Uy tín vay của khách hàng trong 
những lần vay trước 
{Chua, Co, Khong} 
SL_VayTruoc Số lần khách hàng vay trước đây {0, 1, 2, 3, 4, 5} 
HonNhan Tình trạng hôn nhân của khách 
hàng 
{Doc than, Ket hon, Ly hon} 
SoNguoiPT Số người sống phụ thuộc vào 
khách hàng 
{0, 1, 2, 3, 4, 5} 
DamBaoNo Tỉ lệ đảm bảo nợ vay (giá trị vay 
so với tài sản đảm bảo) 
{>=1, <1} 
ThuNhap Mức độ ổn định thu nhập của 
khách hàng 
{On dinh, Tuong doi, Khong 
on dinh} 
Thuộc 
tính 
điều 
kiện 
Hạng 
mục 
KhaNangTra Khả năng trả nợ của khách hàng, 
được tính = Thời hạn vay*Thu 
nhập ròng hằng tháng + tài sản 
khác)/(Tiền vay + lãi 1 tháng*thời 
hạn vay). 
{>=1, <1} 
Thuộc 
tính 
quyết 
định 
 ChoVay Thông tin khách hàng được cho 
vay hay không 
{Co, Khong} 
Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 
53 
Với nguồn dữ liệu cho vay thế chấp trong ngân hàng (BankLoan), tri thức 
mà ứng dụng muốn khai phá chính là dự đoán khả năng khách hàng có thể 
được ngân hàng chấp nhận cho vay tiền hay không dựa trên một số thông tin từ 
khách hàng. Nguồn dữ liệu BankLoan gồm 14 thuộc tính và 1323 dòng dữ liệu, 
trong đó có 13 thuộc tính điều kiện (3 thuộc tính có giá trị số liên tục, 10 thuộc 
tính có giá trị hạng mục) và 1 thuộc tính quyết định. Danh sách các thuộc tính 
được trình bày trong Bảng 5.1. 
Trọng số của các thuộc tính điều kiện của BankLoan được trình bày trong 
Bảng 5.2. 
Stt Thuộc tính điều kiện Trọng số 
1 Tien 7 
2 Lai 3 
3 ThoiHan 3 
4 TraGoc 1 
5 TraLai 1 
6 UyTin 7 
7 SL_VayTruoc 4 
8 Tuoi 7 
9 HonNhan 4 
10 SoNguoiPT 4 
11 DamBaoNo 8 
12 ThuNhap 8 
13 KhaNangTra 8 
Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan 
Trong [9], độ đo ERIM được định nghĩa dựa trên các trọng số của các thuộc 
tính, và các trọng số này được xác định phụ thuộc vào khái niệm cấp bậc 
(Concept Hierarchy), những thuộc tính thuộc cùng cấp bậc có trọng số bằng 
nhau và bằng trọng số của cấp bậc đó. Tuy nhiên ở ứng dụng này luận văn 
không xây dựng khái niệm cấp bậc vì nguồn dữ liệu BankLoan có khá ít thuộc 
tính và nếu chia theo cấp bậc thì số cấp bậc cũng gần bằng số thuộc tính. 
54 
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG 
Ứng dụng luận văn xây dựng theo mô hình trong Hình.5.1. Trước tiên là 
giai đoạn Tiền xử lý sẽ xử lý dữ liệu trống và không nhất quán, sau đó chia 
ngẫu nhiên dữ liệu làm 10 phần và sử dụng phương pháp kiểm tra chéo trên 10 
phần dữ liệu này (mỗi lần dùng 9 phần dùng để training và 1 phần dùng để 
testing). Vì nguồn dữ liệu BankLoan có 3 thuộc tính là trị số liên tục nên phải 
tiến hành rời rạc hóa dữ liệu training trước khi phát sinh luật. Kết quả của giai 
đoạn Phát sinh luật là tập luật kết hợp (với ngưỡng minSup và minConf) sau 
khi đã loại bỏ đi các luật dư thừa. Từ tập luật thu được, tính toán giá trị các độ 
đo cho từng luật và lần lượt xây dựng các phân lớp ứng với từng độ đo. Giai 
đoạn cuối cùng là dùng dữ liệu test để kiểm tra hiệu quả của các phân lớp đã 
được xây dựng dựa vào kết quả test chính xác, độ đo nào có kết quả test chính 
xác cao hơn chứng tỏ khả năng đánh giá luật của độ đo đó tốt hơn. 
Tiền xử lý 
Tập luật 
Hình 4.1. Mô hình xây dựng ứng dụng 
Chia dữ liệu 
Dữ liệu 
test 
Rời rạc hóa 
Phát sinh luật 
Xây dựng phân lớp 
Kết quả test 
chính xác 
Tính toán giá trị các độ đo 
cho từng luật 
Test 
Dữ liệu 
training 
Dữ liệu gốc 
55 
4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO 
4.3.1. Sử dụng nguồn “Nursery” 
Sử dụng nguồn dữ liệu Nursery để so sánh khả năng đánh giá luật giữa các 
độ đo: WAERIM, AIERIM với RIM, ERIM và với các độ đo hữu ích (ở đây 
luận văn chọn 3 độ đo hữu ích là Jaccard, Support và Confidence). Với ngưỡng 
hỗ trợ minSup=1.5% và ngưỡng tin cậy minConf=60% ta thu được tập luật từ 
nguồn training với số lượng trung bình trong 10 lần test là 145 luật, số lượng 
rút gọn trung bình phát sinh từ nguồn traning là 1 rút gọn, và số lượng luật 
được chọn để xây dựng phân lớp trong mỗi lần test dựa vào giá trị của độ đo 
AIERIM (cụ thể là độ đo AIERIM≥95%). 
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm 
độ chính xác và số lượng luật được chọn để xây dựng phân lớp), Hình 4.2 biểu 
diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo. 
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
c
hí
n
h 
x
ác
AIERIM
RIM
ERIM
AWERIM
Jaccard
Support
Confidence
Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery 
 Nhận xét: 
- Dựa vào biểu đồ nhận thấy rằng với số rút gọn phát sinh từ nguồn training 
là 1, thì việc sử dụng độ đo RIM để đánh giá luật cho kết quả test chính 
xác không cao. 
WA I 
56 
- Với nguồn Nursery các thuộc tính điều kiện đều có trọng số bằng nhau, 
nên sử dụng độ đo ERIM và WAERIM đều không cho kết quả tốt hơn 
RIM. 
- Độ đo AIERIM lại cho kết quả test chính xác khá cao, tuy thấp hơn độ đo 
Confidence nhưng cao hơn hẳn Support và Jaccard. 
4.3.2. Sử dụng nguồn “BankLoan” 
Nguồn dữ liệu BankLoan được sử dụng để so sánh khả năng đánh giá luật 
giữa các độ đo trong 2 trường hợp: trường hợp thứ nhất số lượng luật được 
chọn để xây dựng phân lớp là 20 luật, trường hợp thứ hai là 40 luật. 
Với ngưỡng hỗ trợ minSup=0.5% và ngưỡng tin cậy minConf=70% ta thu 
được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 240 
luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 4 rút gọn. 
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình 
4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng 
độ đo trong trường hợp 1. Bảng 4.6 trình bày kết quả của 10 lần thử nghiệm 
trong trường hợp 2, Hình 4.4 biểu diễn bằng hình vẽ độ chính xác trung bình 
trong 10 lần test theo từng độ đo trong trường hợp 2. 
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
c
hí
n
h 
x
ác
RIM
ERIM
AWERIM
AIERIM
Lift
Support
Confidence
Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) 
WAE I 
57 
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
90.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
ch
ín
h 
xá
c
RIM
ERIM
AWERIM
AIERIM
Lift
Support
Confidence
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) 
 Nhận xét: 
- Từ 2 biểu đồ trong 2 trường hợp, ta nhận thấy độ đo WAERIM đều cho 
kết quả test tốt hơn các độ đo RIM, ERIM, AIERIM. 
- Độ đo ERIM được đề xuất để cải tiến độ đo RIM nhưng chưa hẳn cho kết 
quả tốt hơn RIM 
- Hầu như trong 10 lần test, AIERIM cho kết quả tốt hơn RIM và ERIM. 
- So với độ đo Lift, độ đo WAERIM và AIERIM cho kết quả tốt hơn hẳn. 
- So với độ đo Confidence, trong một số trường hợp độ đo WAERIM và 
AIERIM cho kết quả tốt hơn và ngược lại. 
- Tuy so với độ đo Support, độ đo WAERIM và AIERIM không cho kết 
quả tốt hơn nhưng sự chênh lệch giữa các kết quả test là không đáng kể. 
4.3.3. Kết luận 
Như vậy, bằng ứng dụng thực tế luận văn đã chứng minh khả năng đánh giá 
luật của các độ đo mà luận văn đề xuất(WAERIM, AIERIM) so với các độ đo 
Jiye Li đề xuất và so với các độ đo hữu ích trong các trường hợp cụ thể. 
WAERIM 
58 
Mặc dù không có độ đo nào cho kết quả tốt nhất trong các trường hợp, 2 độ 
đo WAERIM và AIERIM không phải là sự chọn lựa tối ưu nhưng dù sao các 
kết quả cũng đã chứng tỏ rằng khả năng đánh giá luật của 2 độ đo WAERIM và 
AIERIM có thể chấp nhận được. 
59 
 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình 
AIERIM≥95% 78.4%(50) 82%(66) 83.6%(51) 82.6%(61) 84.8%(55) 84%(60) 82.2%(53) 84.1%(58) 84.5%(54) 81.6%(57) 82.8%(56.5) 
RIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5) 
ERIM 28.7%(50) 39.2%(66) 28.4%(51) 32.3%(61) 24.9%(55) 34.4%(60) 28.5%(53) 29.9%(58) 30.2%(54) 32.3%(57) 30.1%(56.5) 
WAERIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5) 
Jaccard 73.8%(50) 79.2%(66) 76.9%(51) 76.2%(61) 77.9%(55) 78.5%(60) 75.5%(53) 76.8%(58) 77.6%(54) 77.3%(57) 76.9%(56.5) 
Support 73.1%(50) 78.6%(66) 76.5%(51) 76.3%(61) 78%(55) 78.2%(60) 75.3%(53) 76.6%(58) 76.4%(54) 75.9%(57) 76.5%(56.5) 
1 
Confidence 87.3%(50) 90.4%(66) 91.4%(51) 90.2%(61) 87.2%(55) 90.4%(60) 89.2%(53) 89%(58) 90%(54) 90.9%(57) 89.6%(56.5) 
AIERIM≥95% 77.3%(60) 83.7%(59) 81.1%(63) 79.1%(59) 79.2%(56) 80.3%(55) 84.3%(62) 81.6%(64) 84.2%(54) 84.2%(53) 81.5%(59.2) 
RIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2) 
ERIM 38.7%(60) 31.6%(59) 31.7%(63) 32.5%(59) 30.3%(56) 32.9%(55) 34.6%(62) 35.2%(64) 28.9%(54) 32.9%(53) 32.9%(59.2) 
WAERIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2) 
Jaccard 76.2%(60) 76.3%(59) 77.6%(63) 76.2%(59) 76.4%(56) 75.7%(55) 80.9%(62) 79%(64) 75.5%(54) 75.2%(53) 76.9%(59.2) 
Support 75.8%(60) 76.6%(59) 77.2%(63) 76.3%(59) 76.2%(56) 75.5%(55) 90.4%(62) 78.3%(64) 75.5%(54) 75%(53) 77.7%(59.2) 
2 
Confidence 88.3%(60) 89.8%(59) 90%(63) 89%(59) 89.1%(56) 90.3%(55) 81.7%(62) 89%(64) 88.9%(54) 89.5%(53) 88.6%(59.2) 
AIERIM≥95% 82.9%(56) 82.9%(55) 83.2%(57) 83.8%(61) 81.3%(58) 82.4%(58) 82.9%(60) 83.1%(57) 83%(58) 83%(54) 82.9%(57.4) 
RIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4) 
ERIM 28.9%(56) 29.1%(55) 31.8%(57) 32.5%(61) 31.2%(58) 32%(58) 34.4%(60) 31.4%(57) 32.7%(58) 29.6%(54) 31.4%(57.4) 
WAERIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4) 
Jaccard 76.9%(56) 76.9%(55) 76.2%(57) 77%(61) 76.2%(58) 75.2%(58) 77.4%(60) 78.1%(57) 78.3%(58) 78.4%(54) 77.1%(57.4) 
Support 76.8%(56) 77.1%(55) 75.9%(57) 76.6%(61) 76.2%(58) 75.8%(58) 76.6%(60) 78%(57) 77.9%(58) 77.8%(54) 76.9%(57.4) 
3 
Confidence 88.7%(56) 89.1%(55) 90%(57) 90.2%(61) 89%(58) 89.8%(58) 90.4%(60) 90.6%(57) 91%(58) 90.5%(54) 89.9%(57.4) 
AIERIM≥95% 83.3%(61) 84%(63) 82.8%(60) 49.6%(68) 84%(60) 83.2%(60) 83.3%(55) 82.5%(57) 82.6%(58) 83.3%(54) 79.9%(59.6) 
RIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6) 
ERIM 34.7%(61) 35.6%(63) 31.5%(60) 34.8%(68) 32.4%(60) 34.6%(60) 30.9%(55) 30.8%(57) 30.3%(58) 31%(54) 35.7%(59.6) 
WAERIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6) 
Jaccard 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6) 
Support 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6) 
4 
Confidence 90%(61) 90.6%(63) 89.7%(60) 89.9%(68) 90.4%(60) 90.2%(60) 91.3%(55) 90.1%(57) 90.9%(58) 90.6%(54) 77%(59.6) 
AIERIM≥95% 83.2%(54) 83.3%(56) 80.9%(57) 84.6%(66) 81.9%(53) 83%(58) 80.3%(60) 80.9%(57) 84%(61) 82.3%(52) 82.4%(57.4) 
RIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4) 
ERIM 29.6%(54) 31%(56) 30%(57) 37.7%(66) 29.5%(53) 30.6%(58) 32.6%(60) 29.9%(57) 32.6%(61) 28.5%(52) 32.8%(57.4) 
WAERIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4) 
Jaccard 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4) 
Support 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4) 
5 
Confidence 87.2%(54) 87%(56) 90.5%(57) 89.8%(66) 90.7%(53) 90.9%(58) 89.2%(60) 89.3%(57) 90.3%(61) 88.4%(52) 76.4%(57.4) 
60 
AIERIM≥95% 82.8%(57) 82.6%(60) 82.6%(56) 82.3%(57) 84%(58) 82%(56) 82.9%(66) 83.8%(53) 84.3%(52) 83.4%(59) 83.1%(57.4) 
RIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4) 
ERIM 28.6%(57) 32.8%(60) 27.4%(56) 30.1%(57) 32.5%(58) 32.3%(56) 38.3%(66) 32.2%(53) 28%(52) 29.7%(59) 31.2%(57.4) 
WAERIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4) 
Jaccard 78.9%(57) 78.7%(60) 76.9%(56) 76.8%(57) 76.5%(58) 76.9%(56) 79.2%(66) 76.2%(53) 76.8%(52) 77.6%(59) 77.5%(57.4) 
Support 77.9%(57) 78.7%(60) 76.9%(56) 76%(57) 76%(58) 76.4%(56) 78%(66) 76.3%(53) 76.3%(52) 77.5%(59) 77%(57.4) 
6 
Confidence 90.7%(57) 90.4%(60) 88.7%(56) 91%(57) 89.5%(58) 90.5%(56) 90.4%(66) 89.7%(53) 88.3%(52) 88.2%(59) 89.7%(57.4) 
AIERIM≥95% 83.4%(52) 82.6%(57) 81.8%(54) 83.3%(62) 83%(61) 83.5%(58) 83.8%(63) 84.7%(58) 83.5%(60) 82.5%(60) 83.2%(58.5) 
RIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5) 
ERIM 29.4%(52) 32.2%(57) 30.3%(54) 35.4%(62) 33.5%(61) 30.7%(58) 36.1%(63) 30.6%(58) 34.9%(60) 31.6%(60) 32.5%(58.5) 
WAERIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5) 
Jaccard 76.2%(52) 76.8%(57) 75.9%(54) 77%(62) 77.9%(61) 77%(58) 78.7%(63) 77.9%(58) 77%(60) 77.4%(60) 77.2%(58.5) 
Support 76%(52) 76.5%(57) 75.8%(54) 76.4%(62) 77.8%(61) 76.9%(58) 77.6%(63) 77.5%(58) 76.9%(60) 76.9%(60) 76.8%(58.5) 
7 
Confidence 89.4%(52) 89.5%(57) 89.4%(54) 90.2%(62) 90.1%(61) 89.4%(58) 89.5%(63) 90.2%(58) 89.7%(60) 89.9%(60) 89.7%(58.5) 
AIERIM≥95% 82.5%(56) 81.8%(63) 84.4%(52) 84.8%(61) 79.5%(56) 81.8%(61) 83.2%(53) 82.5%(54) 82.9%(51) 82.9%(53) 82.6%(56) 
RIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56) 
ERIM 27.3%(56) 36%(63) 28.1%(52) 32.7%(61) 30.3%(56) 32.5%(61) 32.9%(53) 30.2%(54) 29.1%(51) 38.5%(53) 31.8%(56) 
WAERIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56) 
Jaccard 75.9%(56) 78.1%(63) 76.8%(52) 77.1%(61) 76.4%(56) 77.1%(61) 75.2%(53) 77.7%(54) 76.9%(51) 76.2%(53) 76.7%(56) 
Support 75.9%(56) 77.2%(63) 76.3%(52) 76.6%(61) 76.2%(56) 76.6%(61) 75.2%(53) 76.4%(54) 77.1%(51) 75.8%(53) 76.3%(56) 
8 
Confidence 87.7%(56) 89.4%(63) 88.2%(52) 90.3%(61) 89.1%(56) 90.2%(61) 89.5%(53) 90.4%(54) 89.1%(51) 90.5%(53) 89.4%(56) 
AIERIM≥95% 81.5%(58) 80.4%(57) 82.8%(61) 82.5%(53) 84.8%(66) 81.8%(55) 84.3%(58) 78.1%(50) 81.9%(57) 82.1%(59) 82%(57.4) 
RIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4) 
ERIM 31.2%(58) 30.2%(57) 31.5%(61) 28.5%(53) 39.7%(66) 34.9%(55) 29.9%(58) 28.7%(50) 30.5%(57) 28.5%(59) 31.4%(57.4) 
WAERIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4) 
Jaccard 76.5%(58) 78.6%(57) 77.2%(61) 76.3%(53) 78.5%(66) 77.9%(55) 76.8%(58) 73.1%(50) 78.5%(57) 75.7%(59) 76.9%(57.4) 
Support 76.5%(58) 79%(57) 75.6%(61) 76%(53) 78.5%(66) 78%(55) 76.6%(58) 73.1%(50) 78.1%(57) 75.3%(59) 76.7%(57.4) 
9 
Confidence 89.5%(58) 90.5%(57) 88.7%(61) 88.4%(53) 89.8%(66) 87.8%(55) 89.8%(58) 87.3%(50) 90%(57) 89.6%(59) 89.1%(57.4) 
AIERIM≥95% 83%(60) 82.5%(63) 83.1%(58) 77.3%(51) 81.5%(54) 83.1%(62) 82.6%(57) 81.5%(56) 83.6%(60) 82.2%(55) 82.2%(57.6) 
RIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6) 
ERIM 34.4%(60) 39.2%(63) 30.6%(58) 31.2%(51) 30.3%(54) 35.4%(62) 32.3%(57) 37.3%(56) 32.8%(60) 29.9%(55) 33.3%(57.6) 
WAERIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6) 
Jaccard 78.8%(60) 79.2%(63) 76.2%(58) 74.2%(51) 74.9%(54) 77%(62) 78.3%(57) 75.3%(56) 78.7%(60) 76.9%(55) 77%(57.6) 
Support 78.2%(60) 78.5%(63) 75.7%(58) 74.2%(51) 74.8%(54) 76.4%(62) 78.9%(57) 75.3%(56) 78.7%(60) 77.1%(55) 76.8%(57.6) 
10 
Confidence 90.1%(60) 91.4%(63) 90.5%(58) 85%(51) 89.6%(54) 89.2%(62) 92.9%(57) 87.9%(56) 90.7%(60) 89.3%(55) 89.7%(57.6) 
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery 
61 
 Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình 
RIM 67.2%(20) 63.6%(20) 74.6%(20) 69.5%(20) 69.5%(20) 71.8%(20) 71.2%(20) 66.9%(20) 66.9%(20) 68.8%(20) 69%(20) 
ERIM 48.9%(20) 36.4%(20) 44.4%(20) 46.1%(20) 39.7%(20) 53.4%(20) 50.8%(20) 50%(20) 46.9%(20) 52%(20) 46.9%(20) 
WAERIM 83.2%(20) 86%(20) 83.3%(20) 81.2%(20) 80.2%(20) 83.2%(20) 84.1%(20) 85.4%(20) 84.6%(20) 82.4%(20) 83.4%(20) 
AIERIM 74%(20) 65.9%(20) 72.2%(20) 76.6%(20) 64.9%(20) 64.9%(20) 76.5%(20) 73.1%(20) 72.3%(20) 75.2%(20) 71.6%(20) 
Lift 49.3%(20) 55.1%(20) 67.2%(20) 75.8%(20) 66.3%(20) 55.3%(20) 50.4%(20) 58.1%(20) 65%(20) 62.3%(20) 60.5%(20) 
Support 81.7%(20) 85.3%(20) 87.3%(20) 85.2%(20) 82.4%(20) 86.3%(20) 83.3%(20) 83.1%(20) 84.6%(20) 83.2%(20) 84.2%(20) 
1 
Confidence 60.3%(20) 57.4%(20) 55.6%(20) 68%(20) 63.4%(20) 59.5%(20) 62.1%(20) 57.7%(20) 58.5%(20) 58.4%(20) 60.1%(20) 
RIM 68.2%(20) 73.8%(20) 69%(20) 68.5%(20) 70.5%(20) 64.8%(20) 77.1%(20) 65.6%(20) 64.3%(20) 69.4%(20) 69.1%(20) 
ERIM 44.7%(20) 51.5%(20) 42.6%(20) 49.2%(20) 55.3%(20) 50.8%(20) 49.6%(20) 48.4%(20) 48.1%(20) 48.4%(20) 48.9%(20) 
WAERIM 86.4%(20) 77.7%(20) 82.2%(20) 87.7%(20) 84.8%(20) 82.8%(20) 82.4%(20) 87.5%(20) 83.7%(20) 80.6%(20) 83.6%(20) 
AIERIM 68.9%(20) 67.7%(20) 69.8%(20) 73.1%(20) 71.2%(20) 68.8%(20) 72.5%(20) 75%(20) 72.9%(20) 75%(20) 71.5%(20) 
Lift 68.4%(20) 43.7%(20) 45.2%(20) 70.3%(20) 53.9%(20) 51.5%(20) 69.7%(20) 58.9%(20) 54.6%(20) 59.2%(20) 57.5%(20) 
Support 84.8%(20) 79.2%(20) 83.7%(20) 87.7%(20) 86.4%(20) 82.8%(20) 84%(20) 86.7%(20) 83.7%(20) 83.1%(20) 84.2%(20) 
2 
Confidence 53.8%(20) 59.2%(20) 63.6%(20) 58.5%(20) 62.9%(20) 56.2%(20) 58%(20) 64.8%(20) 60.5%(20) 62.1%(20) 60%(20) 
RIM 65.6%(20)