Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM). Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với 2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan.
14 trang |
Chia sẻ: vietpd | Lượt xem: 1362 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Xây dựng ứng dụng so sánh kỹ thuật đánh giá luật giữa các độ đo, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
51
Chương 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ
THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO
4.1. GIỚI THIỆU
Chương này trình bày kết quả so sánh khả năng đánh giá luật giữa độ đo
được giới thiệu trong chương trước bằng các ứng dụng thực tế, đặc biệt là so
sánh khả năng đánh giá luật giữa độ đo dựa trên lý thuyết tập thô mà luận văn
đề xuất (WAERIM, AIERIM) với các độ đo mà Jiye Li đề xuất (RIM, ERIM).
Ứng dụng được cài bằng ngôn ngữ C# 2008 kết nối với SQL Server 2005, với
2 nguồn dữ liệu chính để khai phá: Nursery từ UCI[5] và BankLoan.
4.1.1. Nguồn dữ liệu “Nursery”
Nguồn dữ liệu Nursery được sử dụng trong ứng dụng tuyển chọn các trẻ
em cho trường mầm non ở Ljubljana, Slovenia vì có quá nhiều đơn xin vào
trường này. Nguồn dữ liệu Nursery gồm 9 thuộc tính và 12.960 dòng, thông tin
về các thuộc tính của nguồn Nursery được trình bày trong Bảng 4.1.
Loại
thuộc tính
Tên
thuộc tính Diễn giải Miền giá trị
Parents Nghề nghiệp của cha mẹ {usual, pretentious, great_pret}
Has_nurs Phòng cho trẻ {proper, less_proper, improper,
critical, very_crit}
Form Loại gia đình {complete, completed, incomplete, foster}
Children Số con trong gia đình {1, 2, 3, more}
Housing Vấn đề nhà cửa {convenient, less_conv, critical}
Finance Vấn đề tài chính {convenient, inconv}
Social Điều kiện xã hội {non-prob, slightly_prob, problematic}
Thuộc tính
điều kiện
Health Điều kiện sức khỏe {recommended, priority,
not_recom}
Thuộc tính
quyết định Decision Quyết định của nhà trường
{not_recom, recommend,
very_recom, priority, spec_prior}
Bảng 4.1. Các thuộc tính của nguồn Nursery
52
Ứng dụng nguồn dữ liệu Nursery vào việc so sánh các độ đo dựa vào trọng
số của các thuộc tính điều kiện, luận văn giả sử rằng các thuộc tính điều kiện
đều có giá trị bằng nhau và bằng 1.
4.1.2. Nguồn dữ liệu “BankLoan”
Loại
thuộc tính
Tên
thuộc tính Diễn giải Miền giá trị
Tien Số tiền khách hàng muốn vay {0…N}
Tuoi Tuổi của khách hàng {0…N} Trị số liên tục
Lai Lãi xuất vay (đơn vị %) {0…N}
ThoiHan Thời hạn vay (đơn vị Tháng) {12, 24, 36, 48, 60, 72, 84,
96}
TraGoc Lịch trả nợ gốc {Hang thang, Cuoi ky}
TraLai Lịch trả lãi {Hang nam, Hang thang}
UyTin Uy tín vay của khách hàng trong
những lần vay trước
{Chua, Co, Khong}
SL_VayTruoc Số lần khách hàng vay trước đây {0, 1, 2, 3, 4, 5}
HonNhan Tình trạng hôn nhân của khách
hàng
{Doc than, Ket hon, Ly hon}
SoNguoiPT Số người sống phụ thuộc vào
khách hàng
{0, 1, 2, 3, 4, 5}
DamBaoNo Tỉ lệ đảm bảo nợ vay (giá trị vay
so với tài sản đảm bảo)
{>=1, <1}
ThuNhap Mức độ ổn định thu nhập của
khách hàng
{On dinh, Tuong doi, Khong
on dinh}
Thuộc
tính
điều
kiện
Hạng
mục
KhaNangTra Khả năng trả nợ của khách hàng,
được tính = Thời hạn vay*Thu
nhập ròng hằng tháng + tài sản
khác)/(Tiền vay + lãi 1 tháng*thời
hạn vay).
{>=1, <1}
Thuộc
tính
quyết
định
ChoVay Thông tin khách hàng được cho
vay hay không
{Co, Khong}
Bảng 4.2. Các thuộc tính của dữ liệu BankLoan
53
Với nguồn dữ liệu cho vay thế chấp trong ngân hàng (BankLoan), tri thức
mà ứng dụng muốn khai phá chính là dự đoán khả năng khách hàng có thể
được ngân hàng chấp nhận cho vay tiền hay không dựa trên một số thông tin từ
khách hàng. Nguồn dữ liệu BankLoan gồm 14 thuộc tính và 1323 dòng dữ liệu,
trong đó có 13 thuộc tính điều kiện (3 thuộc tính có giá trị số liên tục, 10 thuộc
tính có giá trị hạng mục) và 1 thuộc tính quyết định. Danh sách các thuộc tính
được trình bày trong Bảng 5.1.
Trọng số của các thuộc tính điều kiện của BankLoan được trình bày trong
Bảng 5.2.
Stt Thuộc tính điều kiện Trọng số
1 Tien 7
2 Lai 3
3 ThoiHan 3
4 TraGoc 1
5 TraLai 1
6 UyTin 7
7 SL_VayTruoc 4
8 Tuoi 7
9 HonNhan 4
10 SoNguoiPT 4
11 DamBaoNo 8
12 ThuNhap 8
13 KhaNangTra 8
Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan
Trong [9], độ đo ERIM được định nghĩa dựa trên các trọng số của các thuộc
tính, và các trọng số này được xác định phụ thuộc vào khái niệm cấp bậc
(Concept Hierarchy), những thuộc tính thuộc cùng cấp bậc có trọng số bằng
nhau và bằng trọng số của cấp bậc đó. Tuy nhiên ở ứng dụng này luận văn
không xây dựng khái niệm cấp bậc vì nguồn dữ liệu BankLoan có khá ít thuộc
tính và nếu chia theo cấp bậc thì số cấp bậc cũng gần bằng số thuộc tính.
54
4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG
Ứng dụng luận văn xây dựng theo mô hình trong Hình.5.1. Trước tiên là
giai đoạn Tiền xử lý sẽ xử lý dữ liệu trống và không nhất quán, sau đó chia
ngẫu nhiên dữ liệu làm 10 phần và sử dụng phương pháp kiểm tra chéo trên 10
phần dữ liệu này (mỗi lần dùng 9 phần dùng để training và 1 phần dùng để
testing). Vì nguồn dữ liệu BankLoan có 3 thuộc tính là trị số liên tục nên phải
tiến hành rời rạc hóa dữ liệu training trước khi phát sinh luật. Kết quả của giai
đoạn Phát sinh luật là tập luật kết hợp (với ngưỡng minSup và minConf) sau
khi đã loại bỏ đi các luật dư thừa. Từ tập luật thu được, tính toán giá trị các độ
đo cho từng luật và lần lượt xây dựng các phân lớp ứng với từng độ đo. Giai
đoạn cuối cùng là dùng dữ liệu test để kiểm tra hiệu quả của các phân lớp đã
được xây dựng dựa vào kết quả test chính xác, độ đo nào có kết quả test chính
xác cao hơn chứng tỏ khả năng đánh giá luật của độ đo đó tốt hơn.
Tiền xử lý
Tập luật
Hình 4.1. Mô hình xây dựng ứng dụng
Chia dữ liệu
Dữ liệu
test
Rời rạc hóa
Phát sinh luật
Xây dựng phân lớp
Kết quả test
chính xác
Tính toán giá trị các độ đo
cho từng luật
Test
Dữ liệu
training
Dữ liệu gốc
55
4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO
4.3.1. Sử dụng nguồn “Nursery”
Sử dụng nguồn dữ liệu Nursery để so sánh khả năng đánh giá luật giữa các
độ đo: WAERIM, AIERIM với RIM, ERIM và với các độ đo hữu ích (ở đây
luận văn chọn 3 độ đo hữu ích là Jaccard, Support và Confidence). Với ngưỡng
hỗ trợ minSup=1.5% và ngưỡng tin cậy minConf=60% ta thu được tập luật từ
nguồn training với số lượng trung bình trong 10 lần test là 145 luật, số lượng
rút gọn trung bình phát sinh từ nguồn traning là 1 rút gọn, và số lượng luật
được chọn để xây dựng phân lớp trong mỗi lần test dựa vào giá trị của độ đo
AIERIM (cụ thể là độ đo AIERIM≥95%).
Bảng 4.4 trình bày kết quả của 10 lần thử nghiệm với nguồn Nursery (gồm
độ chính xác và số lượng luật được chọn để xây dựng phân lớp), Hình 4.2 biểu
diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng độ đo.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
c
hí
n
h
x
ác
AIERIM
RIM
ERIM
AWERIM
Jaccard
Support
Confidence
Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery
Nhận xét:
- Dựa vào biểu đồ nhận thấy rằng với số rút gọn phát sinh từ nguồn training
là 1, thì việc sử dụng độ đo RIM để đánh giá luật cho kết quả test chính
xác không cao.
WA I
56
- Với nguồn Nursery các thuộc tính điều kiện đều có trọng số bằng nhau,
nên sử dụng độ đo ERIM và WAERIM đều không cho kết quả tốt hơn
RIM.
- Độ đo AIERIM lại cho kết quả test chính xác khá cao, tuy thấp hơn độ đo
Confidence nhưng cao hơn hẳn Support và Jaccard.
4.3.2. Sử dụng nguồn “BankLoan”
Nguồn dữ liệu BankLoan được sử dụng để so sánh khả năng đánh giá luật
giữa các độ đo trong 2 trường hợp: trường hợp thứ nhất số lượng luật được
chọn để xây dựng phân lớp là 20 luật, trường hợp thứ hai là 40 luật.
Với ngưỡng hỗ trợ minSup=0.5% và ngưỡng tin cậy minConf=70% ta thu
được tập luật từ nguồn training với số lượng trung bình trong 10 lần test là 240
luật, số lượng rút gọn trung bình phát sinh từ nguồn traning là 4 rút gọn.
Bảng 4.5 trình bày kết quả của 10 lần thử nghiệm trong trường hợp 1, Hình
4.3 biểu diễn bằng hình vẽ độ chính xác trung bình trong 10 lần test theo từng
độ đo trong trường hợp 1. Bảng 4.6 trình bày kết quả của 10 lần thử nghiệm
trong trường hợp 2, Hình 4.4 biểu diễn bằng hình vẽ độ chính xác trung bình
trong 10 lần test theo từng độ đo trong trường hợp 2.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
c
hí
n
h
x
ác
RIM
ERIM
AWERIM
AIERIM
Lift
Support
Confidence
Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1)
WAE I
57
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
90.0%
1 2 3 4 5 6 7 8 9 10
Đ
ộ
ch
ín
h
xá
c
RIM
ERIM
AWERIM
AIERIM
Lift
Support
Confidence
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2)
Nhận xét:
- Từ 2 biểu đồ trong 2 trường hợp, ta nhận thấy độ đo WAERIM đều cho
kết quả test tốt hơn các độ đo RIM, ERIM, AIERIM.
- Độ đo ERIM được đề xuất để cải tiến độ đo RIM nhưng chưa hẳn cho kết
quả tốt hơn RIM
- Hầu như trong 10 lần test, AIERIM cho kết quả tốt hơn RIM và ERIM.
- So với độ đo Lift, độ đo WAERIM và AIERIM cho kết quả tốt hơn hẳn.
- So với độ đo Confidence, trong một số trường hợp độ đo WAERIM và
AIERIM cho kết quả tốt hơn và ngược lại.
- Tuy so với độ đo Support, độ đo WAERIM và AIERIM không cho kết
quả tốt hơn nhưng sự chênh lệch giữa các kết quả test là không đáng kể.
4.3.3. Kết luận
Như vậy, bằng ứng dụng thực tế luận văn đã chứng minh khả năng đánh giá
luật của các độ đo mà luận văn đề xuất(WAERIM, AIERIM) so với các độ đo
Jiye Li đề xuất và so với các độ đo hữu ích trong các trường hợp cụ thể.
WAERIM
58
Mặc dù không có độ đo nào cho kết quả tốt nhất trong các trường hợp, 2 độ
đo WAERIM và AIERIM không phải là sự chọn lựa tối ưu nhưng dù sao các
kết quả cũng đã chứng tỏ rằng khả năng đánh giá luật của 2 độ đo WAERIM và
AIERIM có thể chấp nhận được.
59
Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình
AIERIM≥95% 78.4%(50) 82%(66) 83.6%(51) 82.6%(61) 84.8%(55) 84%(60) 82.2%(53) 84.1%(58) 84.5%(54) 81.6%(57) 82.8%(56.5)
RIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5)
ERIM 28.7%(50) 39.2%(66) 28.4%(51) 32.3%(61) 24.9%(55) 34.4%(60) 28.5%(53) 29.9%(58) 30.2%(54) 32.3%(57) 30.1%(56.5)
WAERIM 32.6%(50) 39%(66) 29.5%(51) 34.6%(61) 30.4%(55) 38%(60) 30.3%(53) 34.4%(58) 34.2%(54) 31.9%(57) 33.5%(56.5)
Jaccard 73.8%(50) 79.2%(66) 76.9%(51) 76.2%(61) 77.9%(55) 78.5%(60) 75.5%(53) 76.8%(58) 77.6%(54) 77.3%(57) 76.9%(56.5)
Support 73.1%(50) 78.6%(66) 76.5%(51) 76.3%(61) 78%(55) 78.2%(60) 75.3%(53) 76.6%(58) 76.4%(54) 75.9%(57) 76.5%(56.5)
1
Confidence 87.3%(50) 90.4%(66) 91.4%(51) 90.2%(61) 87.2%(55) 90.4%(60) 89.2%(53) 89%(58) 90%(54) 90.9%(57) 89.6%(56.5)
AIERIM≥95% 77.3%(60) 83.7%(59) 81.1%(63) 79.1%(59) 79.2%(56) 80.3%(55) 84.3%(62) 81.6%(64) 84.2%(54) 84.2%(53) 81.5%(59.2)
RIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2)
ERIM 38.7%(60) 31.6%(59) 31.7%(63) 32.5%(59) 30.3%(56) 32.9%(55) 34.6%(62) 35.2%(64) 28.9%(54) 32.9%(53) 32.9%(59.2)
WAERIM 35%(60) 33.7%(59) 37.1%(63) 36.1%(59) 33.9%(56) 33.5%(55) 35.1%(62) 31.5%(64) 31.2%(54) 35.8%(53) 34.3%(59.2)
Jaccard 76.2%(60) 76.3%(59) 77.6%(63) 76.2%(59) 76.4%(56) 75.7%(55) 80.9%(62) 79%(64) 75.5%(54) 75.2%(53) 76.9%(59.2)
Support 75.8%(60) 76.6%(59) 77.2%(63) 76.3%(59) 76.2%(56) 75.5%(55) 90.4%(62) 78.3%(64) 75.5%(54) 75%(53) 77.7%(59.2)
2
Confidence 88.3%(60) 89.8%(59) 90%(63) 89%(59) 89.1%(56) 90.3%(55) 81.7%(62) 89%(64) 88.9%(54) 89.5%(53) 88.6%(59.2)
AIERIM≥95% 82.9%(56) 82.9%(55) 83.2%(57) 83.8%(61) 81.3%(58) 82.4%(58) 82.9%(60) 83.1%(57) 83%(58) 83%(54) 82.9%(57.4)
RIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4)
ERIM 28.9%(56) 29.1%(55) 31.8%(57) 32.5%(61) 31.2%(58) 32%(58) 34.4%(60) 31.4%(57) 32.7%(58) 29.6%(54) 31.4%(57.4)
WAERIM 33.6%(56) 32.2%(55) 35.9%(57) 37.4%(61) 33.7%(58) 32.6%(58) 35.7%(60) 33.9%(57) 35%(58) 32.7%(54) 34.3%(57.4)
Jaccard 76.9%(56) 76.9%(55) 76.2%(57) 77%(61) 76.2%(58) 75.2%(58) 77.4%(60) 78.1%(57) 78.3%(58) 78.4%(54) 77.1%(57.4)
Support 76.8%(56) 77.1%(55) 75.9%(57) 76.6%(61) 76.2%(58) 75.8%(58) 76.6%(60) 78%(57) 77.9%(58) 77.8%(54) 76.9%(57.4)
3
Confidence 88.7%(56) 89.1%(55) 90%(57) 90.2%(61) 89%(58) 89.8%(58) 90.4%(60) 90.6%(57) 91%(58) 90.5%(54) 89.9%(57.4)
AIERIM≥95% 83.3%(61) 84%(63) 82.8%(60) 49.6%(68) 84%(60) 83.2%(60) 83.3%(55) 82.5%(57) 82.6%(58) 83.3%(54) 79.9%(59.6)
RIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6)
ERIM 34.7%(61) 35.6%(63) 31.5%(60) 34.8%(68) 32.4%(60) 34.6%(60) 30.9%(55) 30.8%(57) 30.3%(58) 31%(54) 35.7%(59.6)
WAERIM 39.4%(61) 37.7%(63) 35.9%(60) 39.4%(68) 33%(60) 36.4%(60) 31.9%(55) 34.6%(57) 35.1%(58) 33.3%(54) 32.7%(59.6)
Jaccard 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6)
Support 75.8%(61) 78.1%(63) 75.6%(60) 77.6%(68) 78.2%(60) 77.1%(60) 76.8%(55) 77.3%(57) 77.3%(58) 76.6%(54) 77.5%(59.6)
4
Confidence 90%(61) 90.6%(63) 89.7%(60) 89.9%(68) 90.4%(60) 90.2%(60) 91.3%(55) 90.1%(57) 90.9%(58) 90.6%(54) 77%(59.6)
AIERIM≥95% 83.2%(54) 83.3%(56) 80.9%(57) 84.6%(66) 81.9%(53) 83%(58) 80.3%(60) 80.9%(57) 84%(61) 82.3%(52) 82.4%(57.4)
RIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4)
ERIM 29.6%(54) 31%(56) 30%(57) 37.7%(66) 29.5%(53) 30.6%(58) 32.6%(60) 29.9%(57) 32.6%(61) 28.5%(52) 32.8%(57.4)
WAERIM 32.9%(54) 31.6%(56) 30.3%(57) 41.4%(66) 31.5%(53) 33.3%(58) 31.8%(60) 31.8%(57) 35.7%(61) 27.5%(52) 31.2%(57.4)
Jaccard 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4)
Support 75.6%(54) 76.6%(56) 78%(57) 77.5%(66) 75.8%(53) 75.7%(58) 75.2%(60) 76.6%(57) 77.3%(61) 76%(52) 76.8%(57.4)
5
Confidence 87.2%(54) 87%(56) 90.5%(57) 89.8%(66) 90.7%(53) 90.9%(58) 89.2%(60) 89.3%(57) 90.3%(61) 88.4%(52) 76.4%(57.4)
60
AIERIM≥95% 82.8%(57) 82.6%(60) 82.6%(56) 82.3%(57) 84%(58) 82%(56) 82.9%(66) 83.8%(53) 84.3%(52) 83.4%(59) 83.1%(57.4)
RIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4)
ERIM 28.6%(57) 32.8%(60) 27.4%(56) 30.1%(57) 32.5%(58) 32.3%(56) 38.3%(66) 32.2%(53) 28%(52) 29.7%(59) 31.2%(57.4)
WAERIM 35.1%(57) 34.4%(60) 32%(56) 31.6%(57) 35.4%(58) 32.9%(56) 41%(66) 35%(53) 32.1%(52) 32.2%(59) 34.2%(57.4)
Jaccard 78.9%(57) 78.7%(60) 76.9%(56) 76.8%(57) 76.5%(58) 76.9%(56) 79.2%(66) 76.2%(53) 76.8%(52) 77.6%(59) 77.5%(57.4)
Support 77.9%(57) 78.7%(60) 76.9%(56) 76%(57) 76%(58) 76.4%(56) 78%(66) 76.3%(53) 76.3%(52) 77.5%(59) 77%(57.4)
6
Confidence 90.7%(57) 90.4%(60) 88.7%(56) 91%(57) 89.5%(58) 90.5%(56) 90.4%(66) 89.7%(53) 88.3%(52) 88.2%(59) 89.7%(57.4)
AIERIM≥95% 83.4%(52) 82.6%(57) 81.8%(54) 83.3%(62) 83%(61) 83.5%(58) 83.8%(63) 84.7%(58) 83.5%(60) 82.5%(60) 83.2%(58.5)
RIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5)
ERIM 29.4%(52) 32.2%(57) 30.3%(54) 35.4%(62) 33.5%(61) 30.7%(58) 36.1%(63) 30.6%(58) 34.9%(60) 31.6%(60) 32.5%(58.5)
WAERIM 32.9%(52) 32.9%(57) 30.6%(54) 39%(62) 36%(61) 34.8%(58) 41.7%(63) 34.6%(58) 37.3%(60) 34%(60) 35.4%(58.5)
Jaccard 76.2%(52) 76.8%(57) 75.9%(54) 77%(62) 77.9%(61) 77%(58) 78.7%(63) 77.9%(58) 77%(60) 77.4%(60) 77.2%(58.5)
Support 76%(52) 76.5%(57) 75.8%(54) 76.4%(62) 77.8%(61) 76.9%(58) 77.6%(63) 77.5%(58) 76.9%(60) 76.9%(60) 76.8%(58.5)
7
Confidence 89.4%(52) 89.5%(57) 89.4%(54) 90.2%(62) 90.1%(61) 89.4%(58) 89.5%(63) 90.2%(58) 89.7%(60) 89.9%(60) 89.7%(58.5)
AIERIM≥95% 82.5%(56) 81.8%(63) 84.4%(52) 84.8%(61) 79.5%(56) 81.8%(61) 83.2%(53) 82.5%(54) 82.9%(51) 82.9%(53) 82.6%(56)
RIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56)
ERIM 27.3%(56) 36%(63) 28.1%(52) 32.7%(61) 30.3%(56) 32.5%(61) 32.9%(53) 30.2%(54) 29.1%(51) 38.5%(53) 31.8%(56)
WAERIM 32.1%(56) 40.7%(63) 32.2%(52) 37.3%(61) 33.8%(56) 37.4%(61) 35.5%(53) 34.3%(54) 32.2%(51) 31.5%(53) 34.7%(56)
Jaccard 75.9%(56) 78.1%(63) 76.8%(52) 77.1%(61) 76.4%(56) 77.1%(61) 75.2%(53) 77.7%(54) 76.9%(51) 76.2%(53) 76.7%(56)
Support 75.9%(56) 77.2%(63) 76.3%(52) 76.6%(61) 76.2%(56) 76.6%(61) 75.2%(53) 76.4%(54) 77.1%(51) 75.8%(53) 76.3%(56)
8
Confidence 87.7%(56) 89.4%(63) 88.2%(52) 90.3%(61) 89.1%(56) 90.2%(61) 89.5%(53) 90.4%(54) 89.1%(51) 90.5%(53) 89.4%(56)
AIERIM≥95% 81.5%(58) 80.4%(57) 82.8%(61) 82.5%(53) 84.8%(66) 81.8%(55) 84.3%(58) 78.1%(50) 81.9%(57) 82.1%(59) 82%(57.4)
RIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4)
ERIM 31.2%(58) 30.2%(57) 31.5%(61) 28.5%(53) 39.7%(66) 34.9%(55) 29.9%(58) 28.7%(50) 30.5%(57) 28.5%(59) 31.4%(57.4)
WAERIM 33.6%(58) 30.3%(57) 35.9%(61) 27.5%(53) 42.4%(66) 30.4%(55) 34.5%(58) 32.5%(50) 30.3%(57) 33.3%(59) 33.1%(57.4)
Jaccard 76.5%(58) 78.6%(57) 77.2%(61) 76.3%(53) 78.5%(66) 77.9%(55) 76.8%(58) 73.1%(50) 78.5%(57) 75.7%(59) 76.9%(57.4)
Support 76.5%(58) 79%(57) 75.6%(61) 76%(53) 78.5%(66) 78%(55) 76.6%(58) 73.1%(50) 78.1%(57) 75.3%(59) 76.7%(57.4)
9
Confidence 89.5%(58) 90.5%(57) 88.7%(61) 88.4%(53) 89.8%(66) 87.8%(55) 89.8%(58) 87.3%(50) 90%(57) 89.6%(59) 89.1%(57.4)
AIERIM≥95% 83%(60) 82.5%(63) 83.1%(58) 77.3%(51) 81.5%(54) 83.1%(62) 82.6%(57) 81.5%(56) 83.6%(60) 82.2%(55) 82.2%(57.6)
RIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6)
ERIM 34.4%(60) 39.2%(63) 30.6%(58) 31.2%(51) 30.3%(54) 35.4%(62) 32.3%(57) 37.3%(56) 32.8%(60) 29.9%(55) 33.3%(57.6)
WAERIM 37%(60) 39.2%(63) 33.4%(58) 33.7%(51) 30.7%(54) 39%(62) 34.9%(57) 32.1%(56) 34.8%(60) 32.2%(55) 34.7%(57.6)
Jaccard 78.8%(60) 79.2%(63) 76.2%(58) 74.2%(51) 74.9%(54) 77%(62) 78.3%(57) 75.3%(56) 78.7%(60) 76.9%(55) 77%(57.6)
Support 78.2%(60) 78.5%(63) 75.7%(58) 74.2%(51) 74.8%(54) 76.4%(62) 78.9%(57) 75.3%(56) 78.7%(60) 77.1%(55) 76.8%(57.6)
10
Confidence 90.1%(60) 91.4%(63) 90.5%(58) 85%(51) 89.6%(54) 89.2%(62) 92.9%(57) 87.9%(56) 90.7%(60) 89.3%(55) 89.7%(57.6)
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery
61
Độ đo Folder1 Folder2 Folder3 Folder4 Folder5 Folder6 Folder7 Folder8 Folder9 Folder10 TrungBình
RIM 67.2%(20) 63.6%(20) 74.6%(20) 69.5%(20) 69.5%(20) 71.8%(20) 71.2%(20) 66.9%(20) 66.9%(20) 68.8%(20) 69%(20)
ERIM 48.9%(20) 36.4%(20) 44.4%(20) 46.1%(20) 39.7%(20) 53.4%(20) 50.8%(20) 50%(20) 46.9%(20) 52%(20) 46.9%(20)
WAERIM 83.2%(20) 86%(20) 83.3%(20) 81.2%(20) 80.2%(20) 83.2%(20) 84.1%(20) 85.4%(20) 84.6%(20) 82.4%(20) 83.4%(20)
AIERIM 74%(20) 65.9%(20) 72.2%(20) 76.6%(20) 64.9%(20) 64.9%(20) 76.5%(20) 73.1%(20) 72.3%(20) 75.2%(20) 71.6%(20)
Lift 49.3%(20) 55.1%(20) 67.2%(20) 75.8%(20) 66.3%(20) 55.3%(20) 50.4%(20) 58.1%(20) 65%(20) 62.3%(20) 60.5%(20)
Support 81.7%(20) 85.3%(20) 87.3%(20) 85.2%(20) 82.4%(20) 86.3%(20) 83.3%(20) 83.1%(20) 84.6%(20) 83.2%(20) 84.2%(20)
1
Confidence 60.3%(20) 57.4%(20) 55.6%(20) 68%(20) 63.4%(20) 59.5%(20) 62.1%(20) 57.7%(20) 58.5%(20) 58.4%(20) 60.1%(20)
RIM 68.2%(20) 73.8%(20) 69%(20) 68.5%(20) 70.5%(20) 64.8%(20) 77.1%(20) 65.6%(20) 64.3%(20) 69.4%(20) 69.1%(20)
ERIM 44.7%(20) 51.5%(20) 42.6%(20) 49.2%(20) 55.3%(20) 50.8%(20) 49.6%(20) 48.4%(20) 48.1%(20) 48.4%(20) 48.9%(20)
WAERIM 86.4%(20) 77.7%(20) 82.2%(20) 87.7%(20) 84.8%(20) 82.8%(20) 82.4%(20) 87.5%(20) 83.7%(20) 80.6%(20) 83.6%(20)
AIERIM 68.9%(20) 67.7%(20) 69.8%(20) 73.1%(20) 71.2%(20) 68.8%(20) 72.5%(20) 75%(20) 72.9%(20) 75%(20) 71.5%(20)
Lift 68.4%(20) 43.7%(20) 45.2%(20) 70.3%(20) 53.9%(20) 51.5%(20) 69.7%(20) 58.9%(20) 54.6%(20) 59.2%(20) 57.5%(20)
Support 84.8%(20) 79.2%(20) 83.7%(20) 87.7%(20) 86.4%(20) 82.8%(20) 84%(20) 86.7%(20) 83.7%(20) 83.1%(20) 84.2%(20)
2
Confidence 53.8%(20) 59.2%(20) 63.6%(20) 58.5%(20) 62.9%(20) 56.2%(20) 58%(20) 64.8%(20) 60.5%(20) 62.1%(20) 60%(20)
RIM 65.6%(20)