Trong bài viết này chúng tôi đề xuất một tiếp cận mới nhằm hỗ trợ tư vấn cho thí sinh trung học phổ thông xác
định nghề nghiệp phù hợp sẽ làm trong tương lai dựa trên tiếp cận về hệ tư vấn (recommender system). Mô hình hệ tư vấn được xây
dựng trên cơ sở phương pháp hàm ý thống kê (statistical implication). Khác với các hệ tư vấn truyền thống chủ yếu tập trung về tính
chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu, trong mô hình này chúng tôi
đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể. Thông
qua thực nghiệm trên hai tập dữ liệu cho thấy rằng mô hình mà chúng tôi đề xuất đưa ra kết quả khuyến nghị khá hữu ích.
12 trang |
Chia sẻ: candy98 | Lượt xem: 541 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Hệ tư vấn dựa trên tiếp cận hàm ý thống kê, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015
HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ
Phan Quốc Nghĩa1, Nguyễn Minh Kỳ2, Nguyễn Tấn Hoàng3, Huỳnh Xuân Hiệp4,5
1 Phòng Khảo thí, Trường Đại học Trà Vinh
2 Khoa Công nghệ Thông tin, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ
3 Trung tâm Tin học tỉnh Đồng Tháp
4 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ
5 Nhóm nghiên cứu liên ngành DREAM-CTU/IRD, Trường Đại học Cần Thơ
nghiatvnt@tvu.edu.vn, nmky@ctuet.edu.vn, hoangntdt@gmail.com, hxhiep@ctu.edu.vn
TÓM TẮT - Trong bài viết này chúng tôi đề xuất một tiếp cận mới nhằm hỗ trợ tư vấn cho thí sinh trung học phổ thông xác
định nghề nghiệp phù hợp sẽ làm trong tương lai dựa trên tiếp cận về hệ tư vấn (recommender system). Mô hình hệ tư vấn được xây
dựng trên cơ sở phương pháp hàm ý thống kê (statistical implication). Khác với các hệ tư vấn truyền thống chủ yếu tập trung về tính
chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu, trong mô hình này chúng tôi
đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể. Thông
qua thực nghiệm trên hai tập dữ liệu cho thấy rằng mô hình mà chúng tôi đề xuất đưa ra kết quả khuyến nghị khá hữu ích.
Từ khóa - Độ đo hấp dẫn, hàm ý thống kê, định hướng nghề nghiệp, tuyển sinh, hệ tư vấn.
I. GIỚI THIỆU
Hệ tư vấn [9][10][14][7] trở thành lĩnh vực nghiên cứu quan trọng từ khi bắt đầu xuất hiện bài báo đầu tiên về
phương pháp lọc cộng tác [11][33][21][32] vào giữa thập niên 1990 của thế kỷ XX. Trong gần hai mươi năm qua, các
nghiên cứu về hệ tư vấn đã có được những thành tựu đáng kể trong việc ứng dụng vào cuộc sống cũng như phục vụ
nghiên cứu. Hệ tư vấn được hình thành trên cơ sở xác định hay tư vấn một cách có ý nghĩa cho một nhóm người dùng
(users) đối với các mục dữ liệu (items) hay sản phẩm (product) mà họ cần quan tâm trên cơ sở xếp hạng các mục dữ
liệu theo thứ tự ưu tiên. Các tiếp cận thông dụng được hình thành trên cơ sở nội dung (content-based) [9], lọc cộng tác
(collaborative filtering) [9][5] hoặc phối hợp cả hai tiếp cận trên tạo thành tiếp cận hỗn hợp (hybrid) [10][9]. Hiện tại,
sự quan tâm nghiên cứu về hệ tư vấn đang được nhiều nhà nghiên cứu quan tâm như: nghiên cứu tìm ra các thuật toán
mới để cải thiện độ chính xác của các mô hình hệ tư vấn đã được đề xuất, nghiên cứu cải tiến các hệ thống để thích ứng
với vấn đề bùng nổ thông tin và nghiên cứu để đề xuất các mô hình hệ tư vấn mới.
Kết quả nghiên cứu về hệ tư vấn trong thời gian qua khá đa dạng như các nghiên cứu để ứng dụng các thuật toán
nhằm cải tiến độ tin cậy của các mô hình [14][18][36][23][15][4], các nghiên cứu đánh giá mô hình và thuật toán của
hệ tư vấn [13][1][28] nghiên cứu phân rã ma trận (matrix factorization) sự tồn tại giá trị giữa người dùng và mục dữ
liệu cần quan tâm mang tính chất dự báo sự ưu tiên [37], một số tiếp cận khác quan tâm về tính hành động của mục dữ
liệu (actionable) kết hợp với luật kết hợp để tư vấn cho người dùng [28] hay tiếp cận với trừu tượng hóa và luật kết hợp
[30][30]. Tuy nhiên, các thế hệ hiện tại của hệ tư vấn vẫn cần cải tiến hơn nữa để có được các phương pháp khuyến
nghị hiệu quả hơn và áp dụng với một phạm vi rộng hơn cho các ứng dụng thực tế cuộc sống.
Trong bài báo này, chúng tôi tiếp tục phát triển ý tưởng xây dựng hệ tư vấn dựa trên phân tích hàm ý thống kê
[26], mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê nhằm khắc phục nhược điểm của các hệ
thống tư vấn truyền thống là chủ yếu tập trung về tính chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu
tiên giữa người dùng và mục dữ liệu hay sản phẩm. Trong mô hình này chúng tôi đặc biệt quan tâm đến tỷ lệ hay mối
quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể để đưa ra các khuyến nghị cho
người dùng hiệu quả hơn.
Bài viết này được tổ chức thành 6 phần. Phần I giới thiệu chung về hệ tư vấn và nêu vấn đề nghiên cứu. Phần II
giới thiệu các mô hình thông dụng của hệ tư vấn và các nghiên cứu có liên quan. Phần III trình bày về độ đo hàm ý
thống kê và công thức tính giá trị hấp dẫn dựa trên 4 tham số của hai độ đo hàm ý thống kê. Phần IV mô tả cách xây
mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê. Phần V trình bày kết quả thực nghiệm của
mô hình. Phần cuối cùng tóm tắt một số kết quả quan trọng đã đạt được.
II. HỆ TƯ VẤN
Bài toán tư vấn được coi là bài toán ước lượng trước hạng [9] (rating) của các mục dữ liệu hay các sản phẩm
chưa được người dùng xem xét. Việc ước lượng này thường được dựa trên những đánh giá đã có của chính người dùng
đó hoặc những người dùng khác. Những mục dữ liệu hay sản phẩm có hạng cao nhất sẽ được dùng để tư vấn. Một cách
hình thức, bài toán tư vấn được mô tả như sau:
Gọi C là tập tất cả người dùng, S là tập tất cả các mục dữ liệu hay sản phẩm có thể tư vấn. Tập S có giá trị trong
khoảng {1, n}, tập C có giá trị trong khoảng {1, m}. Hàm u(c, s) đo độ phù hợp (hay hạng) của mục dữ liệu hay sản
phẩm s với người dùng c: ݑ: ܥ × ܵ → ܴ với R là tập được sắp thứ tự. Với mỗi người dùng ܿ ∈ ܥ, cần tìm sản phẩm ݏ′ ∈
ܵ sao cho hàm u(s’, c) đạt giá trị lớn nhất [9]:
2
A
c
d
n
v
k
n
c
h
từ
n
th
h
d
g
d
h
c
n
th
d
h
h
đ
s
g
x
98
Trong h
đánh giá bộ
ó thể là một
ùng hoặc đượ
gười dùng [8
.v. hoặc có th
hông gian S c
gành có thể là
Vấn đề
ủa không gian
ợp được thể h
trước thườn
hư sử dụng h
ành ba loại d
Phương
ay sản phẩm
ụ, để gợi ý m
iá cao (như d
Phương
ựa trên nội du
ợp u(cj, s) giữ
ho người dùn
hững bộ phim
ống dựa trên
Phương
ung nhằm trá
Hàm ý
ay thuộc tính
oặc “xem xét
Chọn ngẫu
ồng thời cũng
ố nഥ ൌ n െ n
Và biến
ọn và tập trun
Trong t
ác định như s
ệ tư vấn, độ p
phim “Star w
hàm bất kỳ tù
c tính toán b
] (User profile
ể chỉ gồm m
ũng được xác
: tên ngành, y
chính của hệ
đó [9]. Điều
iện bằng điểm
g rất nhỏ. Có
ọc máy, lý thu
ựa trên cách n
pháp tư vấn
s với người dù
ột bộ phim ch
iễn viên, đạo
pháp tư vấn
ng, dự đoán
a người dùng
g c, đầu tiên
được họ đán
kinh nghiệm
pháp lai ghé
nh những hạn
thống kê (stat
dữ liệu, cho p
đến mức độ n
nhiên và độ
chọn tương t
. Khi đó luật
cardሺX ∩ Yഥሻ
g biến Poisso
hực tế thực n
au [24]:
hù hợp của m
ar 3” là mức 7
y thuộc vào
ởi công thức
). Hồ sơ ngư
ột trường mã
định bởi một
êu cầu kiến t
tư vấn là hàm
này dẫn tới v
và chỉ xác đ
rất nhiều các
yết xấp xỉ, c
ó dùng để ướ
dựa trên nội
ng c được đá
o người dùng
diễn), sau đ
dựa trên cộng
độ phù hợp u
cj và s, tron
hệ thống cộn
h giá cao sẽ
(heuristic-bas
p (Hybrid app
chế của cả ha
istical implica
hép phát hiện
ào mà B sẽ đ
Hìn
c lập hai tập c
ự hai tập con
hàm ý A → B
tuân theo luậ
n này thành b
ghiệm, giá trị
∀ܿ ∈ ܥ, ݏ
ột mục dữ li
điểm trên 10
lĩnh vực ứng
nào đó. Mỗi
ời dùng này c
số người dù
tập các đặc t
hức, yêu cầu n
u không đượ
iệc hàm u phả
ịnh trên tập c
h để dự đoán
ác thuật toán
c lượng hạng
dung (Conten
nh giá dựa trê
c, hệ thống
ó chỉ những b
tác (Collabo
(c, s) của mộ
g đó cj là ngư
g tác tìm nhữ
được dùng đ
ed hay memo
roaches), mộ
i phương phá
III. ĐỘ ĐO
tion) [27][24
các luật (rul
áp ứng hàm ý
h 1. Mô hình b
on nào đó X v
A và B. Cho
sẽ được chấp
PrሾcardሺX ∩ Yഥ
t phân phối P
iến [24]:
QሺA, Bഥሻ ൌ ca
quan sát đượ
ᇱ ൌ arg݉ܽݔ
௦ ∈ௌ
ݑ
ệu hay sản ph
điểm. Tuy nh
dụng cụ thể.
người dùng
ó thể gồm rất
ng (user id)
rưng. Ví dụ, t
ăng lực, yêu
c xác định trê
i được ngoại
ác mục dữ liệ
, ước lượng h
dựa trên kinh
hoặc điểm củ
t-based recom
n độ phù hợp
tư vấn sẽ tìm
ộ phim tương
rative recomm
t mục dữ liệu
ời có cùng sở
ng người dùn
ể tư vấn cho c
ry-based) và
t vài hệ tư vấn
p trên.
HÀM Ý THỐ
] nghiên cứu
es) A → B kh
của A”.
iểu diễn luật h
à Y của E (kh
Yഥ và Bഥ tương
nhận ở mức
ሻ cardሺA ∩
oisson với tha
rdሺX ∩ Yഥሻ െ
ට୬ఽሺ୬ି୬୬
c của QሺA, Bഥሻ
HỆ TƯ VẤN D
ሺܿ, ݏሻ
ẩm thường đư
iên, cách đo
Giá trị của hà
trong không g
nhiều loại th
duy nhất. Tư
rong hệ thống
cầu kỹ năng,
n toàn không
suy trong khô
u hay sản phẩ
ạng hoặc điểm
nghiệm C
a mục dữ liệu
mendations)
ݑ(ܿ, ݏ݅), trong
các đặc điểm
đồng với sở
endations), k
hay sản phẩm
thích với c
g khác có cù
. Hệ thống c
hệ thống dựa
kết hợp cả p
NG KÊ
mối quan hệ h
ông đối xứng
àm ý thống kê
ông có mối q
ứng là phần b
tin cậy 1 െ α
Bഥሻሿ α
m số ୬ఽ୬ഥా୬ . T
୬ఽሺ୬ି୬ಳሻ
୬
ಳሻ
là qሺA, Bഥሻ. C
ỰA TRÊN TIẾP
ợc cho bằng
độ phù hợp tr
m u có thể đ
ian C được
ông tin: tên, t
ơng tự như th
tư vấn ngành
v.v.
gian ܥ × ܵ m
ng gian ܥ × ܵ
m đã từng đư
cho các mụ
ác hệ thống tư
hay sản phẩm
, độ phù hợp
đó si ϵ S và
của những bộ
thích của c m
hông giống n
s với người
[9][21]. Ví dụ
ng sở thích p
ộng tác có thể
trên mô hình
hương pháp
àm ý giữa cá
theo dạng “n
A → B
uan hệ nào g
ù của Y và B
nếu và chỉ nế
rong trường h
hỉ số hàm ý (
CẬN HÀM Ý T
điểm, ví dụ n
ong các hệ th
ược xác định
xác định bởi
uổi, giới tính
ế, mỗi sản p
học, đặc trưn
à chỉ trên mộ
. Thông thườ
ợc người dùn
c dữ liệu hay
vấn thường
:
ݑ(ܿ, ݏ) của m
“tương tự” nh
phim từng đư
ới được giới t
hư phương p
dùng c dựa t
, để gợi ý mộ
him ảnh với
chia thành h
(model-based
cộng tác và dự
c biến dữ liệu
ếu A sau đó g
iữa X và Y, X
trong E và có
u [24]:
ợp nഥ ് 0, ta
implicative in
HỐNG KÊ
gười dùng
ống tư vấn
bởi người
một hồ sơ
, thu nhập,
hẩm trong
g của mỗi
t miền nhỏ
ng, độ phù
g đánh giá
sản phẩm
được phân
ục dữ liệu
ư s [9]. Ví
ợc c đánh
hiệu.
háp tư vấn
rên độ phù
t bộ phim
c. Sau đó,
ai loại: hệ
).
a trên nội
(variable)
ần như B”
∩ Y ൌ ∅),
cùng bản
có thể rút
dex) được
Pp
s
d
th
t
han Quốc Nghĩa
Trong t
hối chuẩn rút
ố qሺA, Bഥሻ là [2
Luật hà
IV. HỆ
Giả sử
ùng được mô
uộc tính từ v
ập hợp C và V
Trong m
Giải th
Input
bằng
tính từ
Outp
Begin
1
0
0
, Nguyễn Minh K
rường hợp xấ
gọn. Chỉ số m
4]:
m ý A → B đư
TƯ VẤN T
rằng chúng ta
tả bằng một
1 đến vk là thu
chúng tôi xâ
ô hình chúng
uật cho mô h
: Tập dữ liệu
m thuộc tính
vk+1 đến vm
ut: Bảng tính
: Xử lý tập d
Chọn tập c
For i=1 to
Chọn
2: Sinh tập lu
Sinh tập lu
Lựa chọn
3: Đếm các t
Với mỗi lu
Begin
Đ
Đ
Đ
Đ
End;
Tạo bảng
T
hợ
ng
dù
ỳ, Nguyễn Tấn H
p xỉ phù hợp
ật độ hàm ý
φሺA, Bሻ ൌ
ợc chấp nhận
HEO HƯỚN
có một tập h
hồ sơ người
ộc tính điều k
y dựng mô hì
Hình 2. Mô
tôi xây dựng
ình hệ tư vấn
mô tả hồ sơ
V = {v1, v2,
là các thuộc tí
giá trị hấp dẫ
ữ liệu thô
ác thuộc tính
n
các dòng dữ
ật và lựa ch
ật kết hợp từ
các luật cho h
ham số ,
ật trong tập l
ếm tham số
ếm tham số
ếm tham số
ếm tham số
dữ liệu các th
c1
c2
c3
.
.
.
cn
ập
p
ười
ng
oàng, Huỳnh Xu
qሺA, Bഥሻ
(chẳng hạn n
(implication i
1 െ PrሾQሺA, Bഥ
ở mức tin cậ
G TIẾP CẬN
ợp n người d
dùng [8] bao
iện, các thuộ
nh hệ tư vấn d
hình hệ tư vấn d
giải thuật xử
dựa trên lu
người dùng g
, vm}, trong
nh quyết định
n cho từng lu
theo cầu của
liệu tương ứn
ọn các luật ch
tập dữ liệu đã
ệ tư vấn;
, , ഥ
uật đã chọn
;
;
;
ഥ ;
am số cho tập
v1 v2
Các thuộc tính
ân Hiệp
ൌ nഥ െ
୬ఽሺ୬
୬
ට୬ఽሺ୬ି୬୬
hư ୬ఽ୬ഥా୬ 4
ntensity) với n
ሻ qሺA, Bሻሿ
y 1 െ α nếu v
LUẬT KẾT
ùng C = {c1,
gồm tập hợp
c tính từ vk+1
ựa trên luật k
ựa trên luật kết h
lý của hệ thố
ật kết hợp và
ồm n đối tượ
đó các thuộc
.
ật kết hợp đượ
hệ thống;
g với tập thuộ
o hệ tư vấn
xử lý;
luật;
vk
điều C
ି୬ಳሻ
ಳሻ
), biến QሺA, ܤത
n và n
ൌ 1√2π න
ஶ
୯ሺ,ഥሻ
à chỉ nếu φሺA
HỢP VÀ Đ
c2, , cn} tr
các thuộc tín
đến vm là các
ết hợp và độ
ợp và độ đo hàm
ng tư vấn gồm
độ đo hàm ý
ng C = {c1, c
tính từ v1 đến
c sắp xếp dựa
c tính;
vk+1
ác thuộc tính quyết
ሻ sẽ có giá t
് n được đ
eି౪
మ
మ dt
, Bሻ 1 െ α
Ộ ĐO HÀM
ong một hệ th
h V = {v1, v
thuộc tính qu
đo hàm ý thốn
ý thống kê
các bước sa
thống kê
2, , cn}, mỗ
vk là thuộc t
trên hai độ đ
vm
định
rị xấp xỉ theo
ịnh nghĩa trên
[24].
Ý THỐNG K
ống bất kỳ.
2, , vm}, tro
yết định. Trên
g kê như sau
u:
i đối tượng đ
ính điều kiện
o hàm ý thốn
299
luật phân
cơ sở chỉ
Ế
Mỗi người
ng đó các
cơ sở hai
:
ược mô tả
, các thuộc
g kê.
3
4
x
4
d
t
th
th
lu
đ
4
s
n
t
t
00
0
0
R
End;
.1. Xử lý dữ
Trong g
ác định tập cá
.2. Sinh tập l
Trong b
ữ liệu đã xử l
oán tư vấn mà
uộc tính điều
Ví dụ 1
uộc tính quy
ật, sau đó ta
ược trình bày
K
.3. Đếm các t
Để áp d
ố ݊, ݊, ݊, ݊
ày, chúng tôi
ập dữ liệu thô
ắc cứ mỗi giá
4: Áp dụng c
Với mỗi d
Begin
I
I
End;
5: Tạo bảng
Kq=
eturn(Kq)
liệu
iai đoạn xử l
c thuộc tính đ
uật và lựa ch
ước sinh luật
ý. Thông thườ
chúng ta chọ
kiện, ሼݒାଵ,
: Sinh luật từ
ết định. Áp d
tiến hành lựa
trong hình 3.
hu vực Đ
2
1
3 0
3 0
2
1
1
2
3 0
2
ham số ,
ụng được các
ത của từng lu
đề xuất phươ
, dựa trên mi
trị của thuộc
Lu
ác độ đo hàm
òng tham số ݊
mplicationind
mplicationinte
tính giá trị h
ý dữ liệu, dựa
iều kiện và tậ
ọn các luật c
kết hợp, chún
ng tập luật k
n lựa các luật
, ݒሽ là tập
tập dữ liệu c
ụng thuật toá
chọn các luậ
iểm Kết q
1.0 A
1.5 A
.5 B
.5 B
1.0 A
1.5 A
1.5 A
1.0 A
.5 B
1.0 A
Hìn
, , ഥ của
độ đo hàm ý
ật kết hợp là
ng pháp chuy
ền giá trị của
tính trên tập d
ật Implica
Luật ݊ ݊
ý thống kê
, ݊, ݊, ݊ത
ex(, , ,
nsity(, ,
ấp dẫn cho từ
trên hồ sơ ng
p các thuộc t
ho hệ tư vấn
g tôi đề xuất
ết hợp được s
có dạng ሼݒଵ,
các thuộc tính
ó 3 thuộc tính
n Apriori vớ
t có vế phải
uả
Ap
h 3. Kết quả si
hàm tính độ
thống kê cũn
một bước cầ
ển đổi tập dữ
từng thuộc tí
ữ liệu thô sẽ
tionindex
݊ ݊ത
để xếp hạng
trong tập luật
ഥ);
, ഥ);
ng luật kết h
ười dùng (tập
ính quyết định
áp dụng giải
inh ra có số lư
ݒଶ, , ݒሽ →
quyết định.
, trong đó thu
i Supp=0.01 v
chứa thuộc tí
riori
nh luật theo giả
đo hàm ý
g như các độ
n thiết trong
liệu thô và tậ
nh của tập dữ
sinh ra một cộ
Implicationin
HỆ TƯ VẤN D
các luật
đã chọn
ợp
thuộc tính) v
có dạng: ሼݒଵ
thuật Apriori
ợng rất lớn. V
ሼݒାଵ, , ݒ
ộc tính 1, 2 l
à conf=0.5 t
nh quyết định
L
1. {V1=1
2. {V2=1
3. {V1=3
4. {V2=0
5. {V2=1
6. {V1=2
7. {V1=1
8. {V1=3
9. {V1=2
i thuật Apriori
đo hấp dẫn kh
quy trình xử l
p luật kết hợp
liệu, việc chu
t trên ma trận
tensity
ỰA TRÊN TIẾP
à các yêu cầ
, ݒଶ, , ݒ , ݒ
[25] để sinh r
ì thế, tùy the
ሽ, trong đó: ሼ
à thuộc tính đ
a sinh được t
ta được tập
uật kết hợp
} => {V3=A}
.5} => {V3=A}
} => {V3=B}
.5} => {V3=B}
} => {V3=A}
} => {V3=A}
,V2=1.5} => {V
,V2=0.5} => {V
,V2=1} => {V3
[25]
ách quan khá
ý của hệ thốn
sang dạng m
yển đổi đượ
dữ liệu nhị p
CẬN HÀM Ý T
u của bài toán
ାଵ, , ݒሽ.
a tập luật kết
o yêu cầu đặt
ݒଵ, ݒଶ, , ݒሽ
iều kiện, thuộ
ập luật kết hợ
luật kết quả g
3=A}
3=B}
=A}
c thì việc đếm
g. Để đáp ứn
a trận nhị phâ
c thực hiện th
hân.
HỐNG KÊ
tư vấn để
hợp từ tập
ra của bài
là tập các
c tính 3 là
p gồm 26
ồm 9 luật
các tham
g yêu cầu
n. Đối với
eo nguyên
Ptr
h
tr
han Quốc Nghĩa
Ví dụ 2
Dữ liệ
Khu
vực Điể
2 1
1 1
3 0
3 0
2 1
1 1
1 1
2 1
3 0
2 1
Đối với
ận luật nhị p
iện theo nguy
ong ma trận l
Ví dụ 3
Luật k
{V1=1} => {V
{V2=1.5} =>
{V1=3} => {V
{V2=0.5} =>
{V2=1} => {V
{V1=2} => {V
{V1=1,V2=1
{V1=3,V2=0
{V1=2,V2=1
Luật k
{V1=1} => {V
{V2=1.5} =>
{V1=3} => {V
{V2=0.5} =>
{V2=1} => {V
{V1=2} => {V
{V1=1,V2=1
{V1=3,V2=0
{V1=2,V2=1
Luật k
{V1=1} => {V
{V2=1.5} =>
{V1=3} => {V
{V2=0.5} =>
{V2=1} => {V
{V1=2} => {V
{V1=1,V2=1
{V1=3,V2=0
{V1=2,V2=1
, Nguyễn Minh K
: Chuyển đổi
u thô
m Kết quả
.0 A
.5 A
.5 B
.5 B
.0 A
.5 A
.5 A
.0 A
.5 B
.0 A
tập luật kết
hân vế trái và
ên tắc cứ mỗ
uật nhị phân t
: Từ tập luật k
ết hợp
3=A}
{V3=A}
3=B}
{V3=B}
3=A}
3=A}
.5} => {V3=A}
.5} => {V3=B}
} => {V3=A}
ết hợp
3=A}
{V3=A}
3=B}
{V3=B}
3=A}
3=A}
.5} => {V3=A}
.5} => {V3=B}
} => {V3=A}
ết hợp
3=A}
{V3=A}
3=B}
{V3=B}
3=A}
3=A}
.5} => {V3=A}
.5} => {V3=B}
} => {V3=A}
ỳ, Nguyễn Tấn H
dữ liệu thô sa
V
Hình 4. Min
hợp, chúng tô
Ma trận luật
i thuộc tính
ương ứng.
ết hợp ở trên
V
V
V
Hình 5. Minh
oàng, Huỳnh Xu
ng dạng Ma t
1=1 V1=2
0 1
1 0
0 0
0 0
0 1
1 0
1 0
0 1
0 0
0 1
h họa chuyển t
i tách ra thàn
nhị phân vế
xuất hiện tron
ta chuyển san
1=1 V1=2
1 0
0 0
0 0
0 0
0 0
0 1
1 0
0 0
0 1
1=1 V1=2
1 0
0 0
0 0
0 0
0 0
0 1
1 0
0 0
0 1
1=1 V1=2
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
họa chuyển từ
ân Hiệp
rận dữ liệu nh
M
V1=3
0
0
1
1
0
0
0
0
1
0
ừ dữ liệu thô sa
h ba ma trận
phải. Trong t
g vế trái hoặ
g ma trận nh
Ma tr
V1=3
0
0
1
0
0
0
0
1
0
Ma tr
V1=3
0
0
1
0
0
0
0
1
0
Ma tr
V1=3
0
0
0
0
0
0
0
0
0
luật kết hợp sa
ị phân được t
a trận dữ liệu
V2=1.5 V
0
1
0
0
0
1
1
0
0
0
ng Ma trận dữ
dạng nhị phâ
ừng ma trận
c vế phải của
ị phân tương ứ
ận luật nhị p
V2=1.5 V
0
1
0
0
0
0
1
0
0
ận luật nhị p
V2=1.5 V
0
1
0
0
0
0
1
0
0
ận luật nhị p
V2=1.5 V
0
0
0
0
0
0
0
0
0
ng Ma trận dữ
hể hiện ở hình
nhị phân
2=1.0 V2=
1 0
0 0
0 1
0 1
1 0
0 0
0 0
1 0
0 1
1 0
liệu nhị phân
n: Ma trận lu
nhị phân, việ
luật kết hợp
ng được thể
hân đầy đủ
2=1 V2=0
0 0
0 0
0 0
0 1
1 0
0 0
0 0
0 1
1 0
hân vế trái
2=1 V2=0
0 0
0 0
0 0
0 1
1 0
0 0
0 0
0 1
1 0
hân vế phải
2=1 V2=0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
liệu nhị phân
4.
0.5 V3=A
1
1
0
0
1
1
1
1
0
1
ật nhị phân đ
c chuyển đổi
sẽ sinh ra m
hiện trong hìn
.5 V3=A
1
1
0
0
1
1
1
0
1
.5 V3=A
0
0
0
0
0
0
0
0
0
.5 V3=A
1
1
0
0
1
1
1
0
1
301
V3=B
0
0
1
1
0
0
0
0
1
0
ầy đủ, Ma
được thực
ột cột mới
h 5.
V3=B
0
0
1
1
0
0
0
1
0
V3=B
0
0
0
0
0
0
0
0
0
V3=B
0
0
1
1
0
0
0
1
0
302 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ
Sau khi có Ma trận dữ liệu nhị phân, Ma trận luật nhị phân vế trái và Ma trận luật nhị phân vế phải, bước tiếp
theo là tiến hành đếm các tham số ݊, ݊, ݊, ݊ത cho từng luật trong tập luật đã chọn theo công thức sau:
- Đếm tham số n: n = số dòng của Ma trận dữ liệu nhị phân.
- Đếm tham số nA: lấy từng dòng của Ma trận luật nhị phân vế trái so khớp với tất cả các dòng của Ma trận dữ
liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng nA lên 1.
- Đếm tham số nB: lấy từng dòng của Ma trận luật nhị phân vế phải so khớp với tất cả các dòng của Ma trận dữ
liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng nB lên 1.
- Đếm tham số ݊ത : lấy từng dòng của Ma trận luật nhị phân đầy đủ so khớp với tất cả các dòng của Ma trận dữ
liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng ݊ lên 1. Khi đó ݊ത ൌ ݊ െ ݊.
Ví dụ 3: Đếm các tham số ݊, ݊,݊, ݊ത từ tập luật kết hợp đã chọn được thể hiện trong bả