Đại học Tôn Đức Thắng được thành lập hơn 10 năm và có quy mô gần 28000 sinh viên, gồm 10 khoa chuyên ngành và 1 phòng trung học chuyên nghiệp. Dữ liệu về kết quả học tập của sinh viên hơn 10 năm qua là rất lớn. Tính đến hết học kỳ 1 năm học 2007-2008, nguồn dữ liệu về điểm của sinh viên với các môn học đã là hơn 900.000 mẫu tin cho khối sinh viên chính quy.
                
              
                                            
                                
            
 
            
                 14 trang
14 trang | 
Chia sẻ: vietpd | Lượt xem: 3991 | Lượt tải: 1 
              
            Bạn đang xem nội dung tài liệu Kết quả quy trình khám phá tri thức, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
-57- 
CHƯƠNG 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ 
4.1 Giới thiệu bài toán 
ðại học Tôn ðức Thắng ñược thành lập hơn 10 năm và có quy mô gần 
28000 sinh viên, gồm 10 khoa chuyên ngành và 1 phòng trung học chuyên nghiệp. 
Dữ liệu về kết quả học tập của sinh viên hơn 10 năm qua là rất lớn. Tính ñến hết 
học kỳ 1 năm học 2007-2008, nguồn dữ liệu về ñiểm của sinh viên với các môn học 
ñã là hơn 900.000 mẫu tin cho khối sinh viên chính quy. Tại trường còn có các môn 
học mà sinh viên toàn trường ñều phải học, ñó là các môn tiếng Anh, các môn toán 
cao cấp, các môn tin học văn phòng, các môn triết. Và hiện nay, sau khi trường ñã 
chuyển sang mô hình công lập tự chủ tài chính và ñang tiến hành mở rộng quy mô 
ñào tạo với các cơ sở mới ñược xây dựng ở phường Tân Phong, quận 7 và cơ sở 
Nha Trang ñã ñi vào hoạt ñộng, số lượng sinh viên của trường sẽ phát triển nhanh 
chóng. ðó chính là ñộng cơ thúc ñẩy luận văn tiến hành nghiên cứu khai khoáng dữ 
liệu ñể khai thác nguồn dữ liệu to lớn này. Tác giả muốn nghiên cứu về mối quan 
hệ giữa sinh viên và các môn học, cùng với việc tìm ra các mối quan hệ tiềm tàng 
bên trong khối dữ liệu khổng lồ. Việc nghiên cứu này sẽ góp phần trong việc dự báo 
kết quả học tập của sinh viên, qua ñó có thể giúp việc cải thiện chất lượng ñào tạo 
tại trường. 
4.2 Quy trình khám phá tri thức: 
Luận văn tiến hành quy trình khai khoáng dữ liệu theo các bước sau ñây: 
Hình 4.1: Quy trình khai khoáng dữ liệu giáo dục 
Dữ liệu 
Foxpro 
Tiền 
xử lý 
Dữ liệu 
SQL Server 
Khai 
khoáng 
Tập 
luật 
Ứng 
dụng 
Lượng giá 
mẫu 
Kho 
luật 
Biểu diễn 
tri thức 
-58- 
4.2.1 Giai ñoạn tiền xử lý: 
 Làm sạch dữ liệu: Tại giai ñoạn này thực hiện chuẩn hóa dữ liệu, xử lý dữ 
liệu bị thiếu mất, dữ liệu không thích hợp, ñiển hình là việc chuẩn hóa dữ liệu về 
ñiểm thi của sinh viên về dạng số thay cho các dạng chuỗi khác nhau. 
 Tích hợp dữ liệu: do dữ liệu ñược cung cấp thuộc một nguồn duy nhất và 
theo một ñịnh dạng duy nhất, nên trong quy trình của chương trình không thực hiện 
bước này. 
 Lựa chọn dữ liệu: luận văn chỉ chọn dữ liệu liên quan ñến kết quả học tập 
của sinh viên ñể nghiên cứu, gồm dữ liệu về sinh viên, dữ liệu về các môn học, dữ 
liệu về ñiểm của sinh viên. 
 Chuyển ñổi dữ liệu: dữ liệu gốc ở dạng Foxpro trên nền DOS, ñược 
chuyển sang hệ quản trị SQL Server 2005. 
Kết quả của bước này là một cơ sở dữ liệu gồm 7 bảng như sau: 
Hình 4.2: Lược ñồ quan hệ của các bảng trong cơ sở dữ liệu 
-59- 
Trong ñó, lượng dữ liệu của các bảng như sau: 
Tinh: 64 mẫu tin 
He: 2 mẫu tin 
Khoa: 10 mẫu tin 
Lop: 319 mẫu tin 
Monhoc: 1434 mẫu tin 
Sinhvien: 18106 mẫu tin 
Diem: 926583 mẫu tin 
 Chuẩn bị dữ liệu khai khoáng: tiến hành chọn các bảng, các thuộc tính 
cần thiết ñể chạy thuật toán khai khoáng. Tại bước này, luận văn tạo ra hai view dữ 
liệu chính: một là view sinh viên khoa CNTT-TUD với ñầy ñủ các môn học gồm 
2435 bản ghi với 139 thuộc tính, hai là view sinh viên toàn trường với các môn học 
chung là Toán, Ngoại ngữ, Triết, Tin học văn phòng gồm 18106 bản ghi với 118 
thuộc tính. 
4.2.2 Giai ñoạn khai khoáng: 
- Chọn thuật toán khai khoáng luật kết hợp: FP-Growth, với phương án tìm tất 
cả luật, ngưỡng ñộ hỗ trợ tối thiểu là 0.03 và ñộ tin cậy tối thiểu là 0.4. 
- Bên cạnh ñó, thuật toán SD-Map thực hiện khai khoáng nhóm con cũng ñược 
dùng ñể hỗ trợ công tác sinh luật với vế phải ñược xác ñịnh trước. 
4.2.3 Giai ñoạn lượng giá mẫu: 
- Xây dựng 2 bộ lọc luật: (1) lọc dựa trên ràng buộc về nhóm môn học và thứ 
tự trước sau của các cặp môn học, (2) lọc dựa trên các ñộ ño khách quan là 
chỉ số cosine và lift. 
- Luật sau khi ñã qua 2 bộ lọc, sẽ ñược ñánh giá bởi chuyên gia trước khi 
chuyển sang kho luật. 
-60- 
4.2.4 Giai ñoạn biểu diễn tri thức: 
- Dựa trên các luật trong kho luật, chương trình có thể khuyến cáo về các sự 
bất thường giữa các môn học. 
 ðể tìm sự bất thường trong kết quả học tập giữa các môn học của sinh viên, 
chương trình xây dựng một mô hình về sự bất thường và giải pháp ñề nghị tương 
ứng. Cụ thể, xét luật X Y thuộc tập luật thu ñược và X là môn học trước của 
Y. Nếu có sự chênh lệch về xếp loại giữa X và Y từ 2 mức trở lên (ví dụ: X 
trung bình, Y giỏi), luật XY cho thấy có sự bất thường giữa kết quả học tập 
của X và Y. 
- Ứng dụng kho luật ñể tiến hành dự báo kết quả học tập cho sinh viên. 
 Từ tập luật thu ñược, chương trình tạo ra một ñồ thị giữa các môn học với 
các ñỉnh là các môn học, các cạnh có hướng tương ứng với các luật thu ñược, ví 
dụ: cạnh XY ứng với có luật XY trong tập luật thu ñược. ðồ thị ñược lưu 
trữ dưới dạng ma trận kề, tạm gọi là ma trận luật. Trước ñó, chương trình cũng 
ñã xây dựng một ñồ thị có hướng dựa trên danh sách ràng buộc giữa các môn 
học. ðồ thị này cũng ñược lưu trữ dạng ma trận kề, tạm gọi là ma trận chuẩn. 
Sau ñó, chương trình thực hiện phép AND giữa ma trận luật và ma trận chuẩn ñể 
tạo ra ma trận luật chuẩn hóa và dùng ñể tìm ñường ñi phục vụ công tác dự báo. 
 Chương trình cho phép người dùng thực hiện 2 dạng dự báo: có vế trái và 
tìm kiếm vế phải (chiều xuôi), có vế phải và tìm kiếm vế trái (chiều ngược). Kết 
quả dự báo có 2 dạng: trực tiếp (nếu tìm thấy ñường ñi từ vế trái sang vế phải) 
và từ xa (chưa tìm thấy ñường ñi, vẫn còn nhiều tiềm ẩn bên trong). 
4.3 Một số kết quả 
4.3.1 Tập luật ñược tạo ra 
Sau khi khai khoáng trên dữ liệu sinh viên khoa CNTT-TUD, tập thô thu 
ñược khoảng hơn 15000 luật, sau ñó còn khoảng 6700 luật sau khi thực hiện ràng 
-61- 
buộc trên các vế của luật. Trong số này, sau khi tiến hành lọc bằng số cosine và lift, 
tập luật thu ñược còn khoảng 6600. 
Trong tập luật thu ñược, do ñặc thù của dữ liệu giáo dục, tập luật thu ñược có 
3370 luật có ñộ hỗ trợ trên ngưỡng 0.1, 226 luật có ñộ hỗ trợ trên ngưỡng 0.2, và 
chỉ có 3 luật có ñộ hỗ trợ trên ngưỡng 0.3. ðiều này cho thấy việc ñặt ngưỡng ñộ hỗ 
trợ tối thiểu cao, sẽ có thể gây mất nhiều luật tốt. 
Trong khi tìm kiếm sự bất thường giữa các môn học, chương trình thu ñược 
một số kết quả, tiêu biểu là các luật sau: 
Bảng 4.1: Kết quả tìm sự bất thường giữa các môn học của ngành CNTT 
STT VẾ TRÁI VẾ PHẢI 
HỖ 
TRỢ 
TIN 
CẬY COSINE LIFT 
6242 
PT thiết kế hệ thống thông tin = 
TRUNG BINH, Cơ sở dữ liệu 
nâng cao = TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.069 0.445 0.439 2.912 
6335 
Quản lý dự án phần mềm = 
TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.077 0.434 0.46 2.839 
6399 
ðồ họa máy tính = TRUNG 
BINH, Lập trình Windows = 
TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.073 0.425 0.442 2.782 
6414 
PT thiết kế hệ thống thông tin = 
TRUNG BINH, Phái = Nam 
ðồ án môn học 1 
= GIOI 
0.068 0.424 0.426 2.774 
6426 
PT thiết kế hệ thống thông tin = 
TRUNG BINH, Lý thuyết hệ ñiều 
hành = TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.067 0.423 0.424 2.764 
6464 
PT thiết kế hệ thống thông tin = 
TRUNG BINH, Phân tích thiết kế 
thuật giải = TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.079 0.418 0.457 2.732 
6488 
PT thiết kế hệ thống thông tin = 
TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.097 0.415 0.503 2.715 
6531 
ðồ họa máy tính = TRUNG 
BINH, Lập trình web = TRUNG 
BINH 
ðồ án môn học 1 
= GIOI 
0.074 0.411 0.438 2.687 
6561 
PT thiết kế hệ thống thông tin = 
TRUNG BINH, Mạng máy tính = 
TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.072 0.407 0.43 2.661 
6572 
PT thiết kế hệ thống thông tin = 
TRUNG BINH, Cấu Trúc dữ liệu 
và Thuật giải = TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.070 0.406 0.424 2.656 
6601 
Lập trình Windows = TRUNG 
BINH, Phân tích thiết kế thuật giải 
= TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.091 0.401 0.481 2.625 
6608 
ðồ họa máy tính = TRUNG 
BINH, Cơ sở dữ liệu nâng cao = 
TRUNG BINH 
ðồ án môn học 1 
= GIOI 
0.084 0.401 0.46 2.621 
-62- 
Tri thức mô tả này cho thấy có sự bất thường trong môn học “ðồ án môn học 
1”. ðiều này ñặt ra vấn ñề cho nhà giáo dục: liệu yêu cầu và ñánh giá của môn “ðồ 
án môn học 1” này có thỏa ñáng hay chưa? Giảng viên thường cảm tính trong việc 
cho ñiểm môn học này? Liệu môn “ðồ án môn học 1” có cần thiết? 
“ðồ án môn học 1” là môn giúp sinh viên nâng cao kỹ năng thông qua việc 
thực hiện một ñồ án dựa trên kiến thức ñã học về: công nghệ phần mềm, phân tích 
thiết kế hệ thống thông tin, lập trình Windows, lập trình Hướng ñối tượng,… Vì 
vậy, việc loại bỏ môn này là không thể. Tuy nhiên, luận văn ñề xuất một yêu cần cụ 
thể hơn ñối với môn này. Cụ thể là ñồ án này phải có yêu cầu về kiến thức, về kỹ 
năng ñạt ñược sau khi hoàn thành ñồ án. Ngoài ra, phải có một khung ñiểm rõ ràng 
cho việc ñánh giá. Việc ñánh giá môn học này, trước ñến nay vẫn phụ thuộc vào 
từng giảng viên hướng dẫn. ðiều này dẫn ñến việc chấm cảm tính và ñánh giá theo 
sự “thân quen”. 
Như vậy, trong chương trình ñào tạo ngành CNTT, cần có sự thay ñổi ñối 
với môn “ðồ án môn học 1” ñể môn này ñược ñánh giá ñúng và thực sự hiệu quả 
trong ñào tạo sinh viên. 
Chuyển sang xem xét luật liên quan ñến thông tin cá nhân của sinh viên khoa 
CNTT-TUD, chương trình có ñược một vài luật thú vị sau: 
Bảng 4.2: Quan hệ trong thông tin cá nhân sinh viên ngành CNTT 
STT VẾ TRÁI VẾ PHẢI HỖ TRỢ TIN CẬY COSINE LIFT 
5979 Phái = Nam Tỉnh = TPHCM 0.373 0.474 0.621 1.07 
6589 Phái = Nu Tỉnh = TPHCM 0.086 0.404 0.275 0.913 
Trong hai luật này, chỉ có luật số 5979 ñược thông qua do thỏa ñiều kiện lọc 
với cosine và lift. Luật 6589 có số cosine nhỏ hơn 0.65 và số lift dưới 1 nên cần xét 
lại. Khi xét lại ñộ hỗ trợ và ñộ tin cậy, luật 6589 có ñộ hỗ trợ quá thấp và ñộ tin cậy 
chỉ xấp xỉ 0.4 nên bị loại. Ta thu ñược luật: nếu sinh viên khoa CNTT-TUD có giới 
tính là nam thì ña số là cư dân TPHCM. Một diễn giải khác là, sinh viên nam ở 
khoa CNTT-TUD là thường là cư dân của TPHCM. 
-63- 
Liên quan ñến việc ñánh giá sinh viên học kém, chương trình có một số luật 
thu ñược như sau: 
Bảng 4.3: Các luật thu ñược từ dữ liệu khoa CNTT-TUD 
STT VẾ TRÁI VẾ PHẢI 
HỖ 
TRỢ 
TIN 
CẬY COSINE LIFT 
345 
Phân tích thiết kế thuật giải 
= KEM, Lập trình nâng cao 
= KEM 
Tổ chức máy tính = 
KEM 0.070 0.867 0.576 4.920 
469 
Lập trình nâng cao = KEM, 
Tổ chức máy tính = KEM 
Cấu Trúc dữ liệu và 
Thuật giải = KEM 0.087 0.858 0.584 4.064 
937 Ngôn ngữ lập trình = KEM 
Phân tích thiết kế 
thuật giải = KEM 0.090 0.826 0.675 5.254 
1145 
Ngôn ngữ lập trình = 
KEM, Phái = Nam 
Phân tích thiết kế 
thuật giải = KEM 0.077 0.813 0.619 5.169 
3591 
Toán cao cấp A2 = KEM, 
Phái = Nam 
Toán cao cấp A3 = 
KEM 0.087 0.681 0.622 4.580 
4034 Tổ chức máy tính = KEM 
Phân tích thiết kế 
thuật giải = KEM 0.119 0.649 0.688 4.129 
4168 Lập trình nâng cao = KEM 
Cấu Trúc dữ liệu và 
Thuật giải = KEM 0.110 0.639 0.568 3.026 
4179 
Lập trình nâng cao = KEM, 
Phái = Nam 
Cấu Trúc dữ liệu và 
Thuật giải = KEM 0.092 0.638 0.518 3.022 
4763 Lập trình nâng cao = KEM 
Tổ chức máy tính = 
KEM 0.101 0.587 0.571 3.328 
4765 
Cấu Trúc dữ liệu và Thuật 
giải = KEM, Phái = Nam 
Tổ chức máy tính = 
KEM 0.109 0.586 0.591 3.325 
4951 
Cấu Trúc dữ liệu và Thuật 
giải = KEM 
Tổ chức máy tính = 
KEM 0.125 0.570 0.624 3.235 
5054 
Tổ chức máy tính = KEM, 
Cấu Trúc dữ liệu và Thuật 
giải = KEM 
Hệ ñiều hành Unix = 
KEM 0.070 0.563 0.497 3.640 
5176 
Phân tích thiết kế thuật giải 
= KEM 
Ngôn ngữ lập trình = 
KEM 0.090 0.552 0.675 5.254 
5255 
Cấu Trúc dữ liệu và Thuật 
giải = KEM, Phái = Nam 
Phân tích thiết kế 
thuật giải = KEM 0.101 0.544 0.581 3.460 
5343 
Phân tích thiết kế thuật giải 
= KEM, Phái = Nam 
Ngôn ngữ lập trình = 
KEM 0.077 0.537 0.616 5.118 
5383 Toán cao cấp A3 = KEM 
Toán cao cấp A4 = 
KEM 0.082 0.533 0.555 3.891 
5448 
Cấu Trúc dữ liệu và Thuật 
giải = KEM 
Phân tích thiết kế 
thuật giải = KEM 0.115 0.527 0.611 3.352 
5466 
Toán cao cấp A3 = KEM, 
Phái = Nam 
Toán cao cấp A4 = 
KEM 0.070 0.526 0.510 3.838 
5639 Tổ chức máy tính = KEM 
Ngôn ngữ lập trình = 
KEM 0.093 0.508 0.658 4.837 
-64- 
5651 
Cấu Trúc dữ liệu và Thuật 
giải = KEM, Phái = Nam 
Hệ ñiều hành Unix = 
KEM 0.094 0.507 0.545 3.279 
5817 Toán cao cấp A2 = KEM 
Toán cao cấp A4 = 
KEM 0.072 0.490 0.498 3.576 
5838 
Cấu Trúc dữ liệu và Thuật 
giải = KEM 
Hệ ñiều hành Unix = 
KEM 0.107 0.488 0.570 3.157 
5931 
Lập trình nâng cao = KEM, 
Phái = Nam 
Phân tích thiết kế 
thuật giải = KEM 0.069 0.479 0.450 3.043 
6002 
Phân tích thiết kế thuật giải 
= KEM, Phái = Nam 
Hệ ñiều hành Unix = 
KEM 0.067 0.471 0.445 3.050 
6011 
Tổ chức máy tính = KEM, 
Phái = Nam 
Hệ ñiều hành Unix = 
KEM 0.074 0.470 0.467 3.043 
6032 
Phân tích thiết kế thuật giải 
= KEM Cơ sở dữ liệu = KEM 0.076 0.469 0.624 5.279 
6056 Lập trình nâng cao = KEM 
Phân tích thiết kế 
thuật giải = KEM 0.080 0.466 0.479 2.960 
6073 
Phân tích thiết kế thuật giải 
= KEM 
Hệ ñiều hành Unix = 
KEM 0.076 0.463 0.468 3.000 
6135 Tổ chức máy tính = KEM 
Hệ ñiều hành Unix = 
KEM 0.084 0.458 0.490 2.967 
6463 
Phân tích thiết kế thuật giải 
= KEM 
Công nghệ phần mềm 
= KEM 0.068 0.418 0.618 5.799 
6560 
Cấu Trúc dữ liệu và Thuật 
giải = KEM, Phái = Nam 
Ngôn ngữ lập trình = 
KEM 0.076 0.407 0.532 3.877 
6592 Lập trình nâng cao = KEM 
Ngôn ngữ lập trình = 
KEM 0.070 0.404 0.509 3.846 
Xét luật 345: sinh viên học kém môn Lập trình nâng cao và môn Phân tích 
thiết kế thuật giải thì sẽ học kém môn Tổ chức máy tính. Luật này có số cosine nhỏ 
hơn 0.65 nhưng có số lift là 4.92 rất cao so với 1, chứng tỏ vế trái và vế phải của 
luật có liên quan chặt chẽ. Luật ñược chấp nhận. 
Một cái nhìn tổng quát hơn, các luật ñược nêu trên ñây ñều có hệ số lift khá 
cao, chứng tỏ vế trái và vế phải của các luật có liên quan. Việc học kém các môn ở 
vế trái sẽ dẫn ñến học kém các môn ở vế phải. 
Bảng 4.4 dưới ñây cho thấy một số luật thông thường thu ñược từ kết quả 
học tập trung bình của sinh viên. 
Bảng 4.4: Một số luật thông thường từ khoa CNTT-TUD 
STT VẾ TRÁI VẾ PHẢI 
HỖ 
TRỢ 
TIN 
CẬY COSINE LIFT 
2254 Tổ chức máy tính = Cấu Trúc dữ liệu và 0.261 0.750 0.710 2.001 
-65- 
TRUNG BINH Thuật giải = TRUNG 
BINH 
4785 
Toán rời rạc = TRUNG 
BINH 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 0.090 0.584 0.367 1.559 
3585 
Toán rời rạc = TRUNG 
BINH 
Cơ sở dữ liệu = 
TRUNG BINH 0.104 0.681 0.439 1.916 
2466 
Lập trình nâng cao = 
TRUNG BINH 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 0.191 0.739 0.603 1.972 
3140 
Lập trình nâng cao = 
TRUNG BINH 
Cơ sở dữ liệu = 
TRUNG BINH 0.182 0.704 0.590 1.982 
2466 
Lập trình nâng cao = 
TRUNG BINH 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 0.191 0.739 0.603 1.972 
3777 
Lập trình nâng cao = 
TRUNG BINH 
Lập trình hướng ñối 
tượng = TRUNG BINH 0.172 0.668 0.598 2.147 
5775 
Lập trình nâng cao = 
TRUNG BINH 
Lập trình Windows = 
TRUNG BINH 0.128 0.494 0.490 1.950 
1938 
Lập trình nâng cao = 
TRUNG BINH 
Phân tích thiết kế thuật 
giải = TRUNG BINH 0.198 0.766 0.616 1.988 
6258 
Lập trình nâng cao = 
TRUNG BINH 
ðồ họa máy tính = 
TRUNG BINH 0.115 0.444 0.445 1.791 
3185 
Cơ sở dữ liệu = TRUNG 
BINH 
Công nghệ phần mềm = 
TRUNG BINH 0.259 0.702 0.700 1.961 
6126 
Cơ sở dữ liệu = TRUNG 
BINH 
PT thiết kế hệ thống 
thông tin = TRUNG 
BINH 0.169 0.459 0.578 2.048 
1076 
Lập trình Windows = 
TRUNG BINH 
Công nghệ phần mềm = 
TRUNG BINH 0.215 0.817 0.688 2.282 
6067 
Lập trình Windows = 
TRUNG BINH 
Trí tuệ nhân tạo = 
TRUNG BINH 0.122 0.464 0.553 2.603 
6191 
Lập trình Windows = 
TRUNG BINH 
Quản lý dự án phần 
mềm = TRUNG BINH 0.119 0.453 0.551 2.641 
590 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Hệ ñiều hành Unix = 
TRUNG BINH 0.274 0.850 0.775 2.274 
1450 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Công nghệ phần mềm = 
TRUNG BINH 0.256 0.795 0.741 2.219 
2140 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Cơ sở dữ liệu = 
TRUNG BINH 0.244 0.755 0.707 2.126 
2736 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Cơ sở dữ liệu nâng cao 
= TRUNG BINH 0.234 0.725 0.773 2.648 
3708 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Lý thuyết hệ ñiều hành 
= TRUNG BINH 0.217 0.673 0.708 2.398 
3860 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Lập trình Unix = 
TRUNG BINH 0.214 0.662 0.748 2.719 
4014 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Lập trình Windows = 
TRUNG BINH 0.210 0.651 0.721 2.567 
4287 
Lập trình hướng ñối 
tượng = TRUNG BINH 
ðồ họa máy tính = 
TRUNG BINH 0.203 0.629 0.705 2.541 
5493 Lập trình hướng ñối Thi tốt nghiệp ( Cơ sở) 0.169 0.524 0.668 2.742 
-66- 
tượng = TRUNG BINH = TRUNG BINH 
5779 
Lập trình hướng ñối 
tượng = TRUNG BINH 
PT thiết kế hệ thống 
thông tin = TRUNG 
BINH 0.159 0.494 0.582 2.204 
6273 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Trí tuệ nhân tạo = 
TRUNG BINH 0.143 0.442 0.584 2.479 
6322 
Lập trình hướng ñối 
tượng = TRUNG BINH 
Quản lý dự án phần 
mềm = TRUNG BINH 0.140 0.436 0.587 2.540 
3313 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Cơ sở dữ liệu = 
TRUNG BINH 0.270 0.696 0.714 1.957 
3273 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Lập trình hướng ñối 
tượng = TRUNG BINH 0.271 0.698 0.766 2.243 
3670 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Ngôn ngữ lập trình = 
TRUNG BINH 0.262 0.675 0.682 1.839 
4294 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Cơ sở dữ liệu nâng cao 
= TRUNG BINH 0.244 0.629 0.736 2.297 
4638 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Lý thuyết hệ ñiều hành 
= TRUNG BINH 0.232 0.597 0.690 2.129 
5092 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Lập trình Windows = 
TRUNG BINH 0.217 0.559 0.680 2.205 
5229 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
ðồ họa máy tính = 
TRUNG BINH 0.212 0.547 0.672 2.207 
6554 
Cấu Trúc dữ liệu và 
Thuật giải = TRUNG 
BINH 
Trí tuệ nhân tạo = 
TRUNG BINH 0.159 0.408 0.592 2.289 
5025 
PT thiết kế hệ thống 
thông tin = TRUNG 
BINH 
Quản lý dự án phần 
mềm = TRUNG BINH 0.131 0.565 0.646 3.296 
5754 
PT thiết kế hệ thống 
thông tin = TRUNG 
BINH 
Thi tốt nghiệp ( Cơ sở) 
= TRUNG BINH 0.115 0.496 0.538 2.600 
3984 
Trí tuệ nhân tạo = 
TRUNG BINH 
Thi tốt nghiệp ( Cơ sở) 
= TRUNG BINH 0.121 0.653 0.631 3.421 
6223 
Trí tuệ nhân tạo = 
TRUNG BINH 
Thi tốt nghiệp ( Chuyên 
ngành) = TRUNG 
BINH 0.083 0.449 0.523 3.423 
ðối với dữ liệu sinh viên toàn trường, chương trình tiến hành khai khoáng 
trên kết quả các môn học chung cho toàn trường, ñó là các môn thuộc nhóm Toán, 
Ngoại ngữ, Triết và Tin học văn phòng. Chương trình có một số kết quả như sau: 
-67- 
Số lượng luật thu ñược chưa qua lọc là 700. sau khi lọc qua các ràng buộc, số 
lượng luật còn khoảng 300. Chương trình thu ñược tập luật cuối sau khi lọc với 
cosine và lift với số lượng là 45. 
Trong nỗ lực tìm kiếm sự bất thường giữa các môn học, chương trình thu 
ñược các luật sau: 
Bảng 4.5: Tìm sự bất thường trong các môn học chung 
STT VẾ TRÁI VẾ PHẢI 
HỖ 
TRỢ 
TIN 
CẬY COSINE LIFT 
82 
Thực hành internet = GIOI, 
Anh văn giao tiếp 3 = 
TRUNG BINH 
Anh văn giao tiếp 
4 = TRUNG 
BINH 0.027 0.711 0.381 0.744 
87 
Thực hành internet = GIOI, 
Anh văn giao tiếp 2 = 
TRUNG BINH 
Anh văn giao tiếp 
3 = TRUNG 
BINH 0.023 0.705 0.336 0.678 
Tuy nhiên, khi ñánh giá trên cơ sở hai số cosine và lift, các luật này không 
thỏa mãn yêu cầu. Tuy nhiên, các luật này cũng ñáng ñược lưu tâm bởi các nhà giáo 
dục, vì chúng có ñộ tin cậy cao (>0.7). 
Dưới ñây là một số luật thu ñược sau khi ñã chọn lọc và ñánh giá qua toàn 
quy trình lượng giá: 
Bảng 4.6: Một số luật thu ñược trong các môn học chung 
STT VẾ TRÁI VẾ PHẢI 
HỖ 
TRỢ 
TIN 
CẬY COSINE LIFT 
44 Toán cao cấp A1 = KEM 
Toán cao cấp A3 
= KEM 0.024 0.746 0.493 1.400 
93 Toán cao cấp A2 = KEM 
Toán cao cấp A3 
= KEM 0.036 0.699 0.584 1.312 
113 Anh văn giao tiếp 3 = KEM 
Anh văn giao 
tiếp 4 = KEM 0.028 0.680 0.564 1.563 
115 
Anh văn giao tiếp 3 = 
TRUNG BINH 
Anh văn giao 
tiếp 4 = TRUNG 
BINH 0.098 0.6