Hệ tư vấn dựa trên tiếp cận hàm ý thống kê

Trong bài viết này chúng tôi đề xuất một tiếp cận mới nhằm hỗ trợ tư vấn cho thí sinh trung học phổ thông xác định nghề nghiệp phù hợp sẽ làm trong tương lai dựa trên tiếp cận về hệ tư vấn (recommender system). Mô hình hệ tư vấn được xây dựng trên cơ sở phương pháp hàm ý thống kê (statistical implication). Khác với các hệ tư vấn truyền thống chủ yếu tập trung về tính chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu, trong mô hình này chúng tôi đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể. Thông qua thực nghiệm trên hai tập dữ liệu cho thấy rằng mô hình mà chúng tôi đề xuất đưa ra kết quả khuyến nghị khá hữu ích.

pdf12 trang | Chia sẻ: candy98 | Lượt xem: 555 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Hệ tư vấn dựa trên tiếp cận hàm ý thống kê, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ Phan Quốc Nghĩa1, Nguyễn Minh Kỳ2, Nguyễn Tấn Hoàng3, Huỳnh Xuân Hiệp4,5 1 Phòng Khảo thí, Trường Đại học Trà Vinh 2 Khoa Công nghệ Thông tin, Trường Đại học Kỹ thuật – Công nghệ Cần Thơ 3 Trung tâm Tin học tỉnh Đồng Tháp 4 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ 5 Nhóm nghiên cứu liên ngành DREAM-CTU/IRD, Trường Đại học Cần Thơ nghiatvnt@tvu.edu.vn, nmky@ctuet.edu.vn, hoangntdt@gmail.com, hxhiep@ctu.edu.vn TÓM TẮT - Trong bài viết này chúng tôi đề xuất một tiếp cận mới nhằm hỗ trợ tư vấn cho thí sinh trung học phổ thông xác định nghề nghiệp phù hợp sẽ làm trong tương lai dựa trên tiếp cận về hệ tư vấn (recommender system). Mô hình hệ tư vấn được xây dựng trên cơ sở phương pháp hàm ý thống kê (statistical implication). Khác với các hệ tư vấn truyền thống chủ yếu tập trung về tính chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu, trong mô hình này chúng tôi đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể. Thông qua thực nghiệm trên hai tập dữ liệu cho thấy rằng mô hình mà chúng tôi đề xuất đưa ra kết quả khuyến nghị khá hữu ích. Từ khóa - Độ đo hấp dẫn, hàm ý thống kê, định hướng nghề nghiệp, tuyển sinh, hệ tư vấn. I. GIỚI THIỆU Hệ tư vấn [9][10][14][7] trở thành lĩnh vực nghiên cứu quan trọng từ khi bắt đầu xuất hiện bài báo đầu tiên về phương pháp lọc cộng tác [11][33][21][32] vào giữa thập niên 1990 của thế kỷ XX. Trong gần hai mươi năm qua, các nghiên cứu về hệ tư vấn đã có được những thành tựu đáng kể trong việc ứng dụng vào cuộc sống cũng như phục vụ nghiên cứu. Hệ tư vấn được hình thành trên cơ sở xác định hay tư vấn một cách có ý nghĩa cho một nhóm người dùng (users) đối với các mục dữ liệu (items) hay sản phẩm (product) mà họ cần quan tâm trên cơ sở xếp hạng các mục dữ liệu theo thứ tự ưu tiên. Các tiếp cận thông dụng được hình thành trên cơ sở nội dung (content-based) [9], lọc cộng tác (collaborative filtering) [9][5] hoặc phối hợp cả hai tiếp cận trên tạo thành tiếp cận hỗn hợp (hybrid) [10][9]. Hiện tại, sự quan tâm nghiên cứu về hệ tư vấn đang được nhiều nhà nghiên cứu quan tâm như: nghiên cứu tìm ra các thuật toán mới để cải thiện độ chính xác của các mô hình hệ tư vấn đã được đề xuất, nghiên cứu cải tiến các hệ thống để thích ứng với vấn đề bùng nổ thông tin và nghiên cứu để đề xuất các mô hình hệ tư vấn mới. Kết quả nghiên cứu về hệ tư vấn trong thời gian qua khá đa dạng như các nghiên cứu để ứng dụng các thuật toán nhằm cải tiến độ tin cậy của các mô hình [14][18][36][23][15][4], các nghiên cứu đánh giá mô hình và thuật toán của hệ tư vấn [13][1][28] nghiên cứu phân rã ma trận (matrix factorization) sự tồn tại giá trị giữa người dùng và mục dữ liệu cần quan tâm mang tính chất dự báo sự ưu tiên [37], một số tiếp cận khác quan tâm về tính hành động của mục dữ liệu (actionable) kết hợp với luật kết hợp để tư vấn cho người dùng [28] hay tiếp cận với trừu tượng hóa và luật kết hợp [30][30]. Tuy nhiên, các thế hệ hiện tại của hệ tư vấn vẫn cần cải tiến hơn nữa để có được các phương pháp khuyến nghị hiệu quả hơn và áp dụng với một phạm vi rộng hơn cho các ứng dụng thực tế cuộc sống. Trong bài báo này, chúng tôi tiếp tục phát triển ý tưởng xây dựng hệ tư vấn dựa trên phân tích hàm ý thống kê [26], mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê nhằm khắc phục nhược điểm của các hệ thống tư vấn truyền thống là chủ yếu tập trung về tính chất logic thể hiện sự tồn tại hay không tồn tại mối quan hệ ưu tiên giữa người dùng và mục dữ liệu hay sản phẩm. Trong mô hình này chúng tôi đặc biệt quan tâm đến tỷ lệ hay mối quan hệ hàm ý (implicative) giữa người dùng và mục dữ liệu trong một ngữ cảnh cụ thể để đưa ra các khuyến nghị cho người dùng hiệu quả hơn. Bài viết này được tổ chức thành 6 phần. Phần I giới thiệu chung về hệ tư vấn và nêu vấn đề nghiên cứu. Phần II giới thiệu các mô hình thông dụng của hệ tư vấn và các nghiên cứu có liên quan. Phần III trình bày về độ đo hàm ý thống kê và công thức tính giá trị hấp dẫn dựa trên 4 tham số của hai độ đo hàm ý thống kê. Phần IV mô tả cách xây mô hình hệ tư vấn dựa trên tiếp cận luật kết hợp và độ đo hàm ý thống kê. Phần V trình bày kết quả thực nghiệm của mô hình. Phần cuối cùng tóm tắt một số kết quả quan trọng đã đạt được. II. HỆ TƯ VẤN Bài toán tư vấn được coi là bài toán ước lượng trước hạng [9] (rating) của các mục dữ liệu hay các sản phẩm chưa được người dùng xem xét. Việc ước lượng này thường được dựa trên những đánh giá đã có của chính người dùng đó hoặc những người dùng khác. Những mục dữ liệu hay sản phẩm có hạng cao nhất sẽ được dùng để tư vấn. Một cách hình thức, bài toán tư vấn được mô tả như sau: Gọi C là tập tất cả người dùng, S là tập tất cả các mục dữ liệu hay sản phẩm có thể tư vấn. Tập S có giá trị trong khoảng {1, n}, tập C có giá trị trong khoảng {1, m}. Hàm u(c, s) đo độ phù hợp (hay hạng) của mục dữ liệu hay sản phẩm s với người dùng c: ݑ: ܥ × ܵ → ܴ với R là tập được sắp thứ tự. Với mỗi người dùng ܿ ∈ ܥ, cần tìm sản phẩm ݏ′ ∈ ܵ sao cho hàm u(s’, c) đạt giá trị lớn nhất [9]: 2 A c d n v k n c h từ n th h d g d h c n th d h h đ s g x 98 Trong h đánh giá bộ ó thể là một ùng hoặc đượ gười dùng [8 .v. hoặc có th hông gian S c gành có thể là Vấn đề ủa không gian ợp được thể h trước thườn hư sử dụng h ành ba loại d Phương ay sản phẩm ụ, để gợi ý m iá cao (như d Phương ựa trên nội du ợp u(cj, s) giữ ho người dùn hững bộ phim ống dựa trên Phương ung nhằm trá Hàm ý ay thuộc tính oặc “xem xét Chọn ngẫu ồng thời cũng ố n୆ഥ ൌ n െ n Và biến ọn và tập trun Trong t ác định như s ệ tư vấn, độ p phim “Star w hàm bất kỳ tù c tính toán b ] (User profile ể chỉ gồm m ũng được xác : tên ngành, y chính của hệ đó [9]. Điều iện bằng điểm g rất nhỏ. Có ọc máy, lý thu ựa trên cách n pháp tư vấn s với người dù ột bộ phim ch iễn viên, đạo pháp tư vấn ng, dự đoán a người dùng g c, đầu tiên được họ đán kinh nghiệm pháp lai ghé nh những hạn thống kê (stat dữ liệu, cho p đến mức độ n nhiên và độ chọn tương t ୆. Khi đó luật cardሺX ∩ Yഥሻ g biến Poisso hực tế thực n au [24]: hù hợp của m ar 3” là mức 7 y thuộc vào ởi công thức ). Hồ sơ ngư ột trường mã định bởi một êu cầu kiến t tư vấn là hàm này dẫn tới v và chỉ xác đ rất nhiều các yết xấp xỉ, c ó dùng để ướ dựa trên nội ng c được đá o người dùng diễn), sau đ dựa trên cộng độ phù hợp u cj và s, tron hệ thống cộn h giá cao sẽ (heuristic-bas p (Hybrid app chế của cả ha istical implica hép phát hiện ào mà B sẽ đ Hìn c lập hai tập c ự hai tập con hàm ý A → B tuân theo luậ n này thành b ghiệm, giá trị ∀ܿ ∈ ܥ, ݏ௖ ột mục dữ li điểm trên 10 lĩnh vực ứng nào đó. Mỗi ời dùng này c số người dù tập các đặc t hức, yêu cầu n u không đượ iệc hàm u phả ịnh trên tập c h để dự đoán ác thuật toán c lượng hạng dung (Conten nh giá dựa trê c, hệ thống ó chỉ những b tác (Collabo (c, s) của mộ g đó cj là ngư g tác tìm nhữ được dùng đ ed hay memo roaches), mộ i phương phá III. ĐỘ ĐO tion) [27][24 các luật (rul áp ứng hàm ý h 1. Mô hình b on nào đó X v A và B. Cho sẽ được chấp PrሾcardሺX ∩ Yഥ t phân phối P iến [24]: QሺA, Bഥሻ ൌ ca quan sát đượ ᇱ ൌ arg݉ܽݔ ௦ ∈ௌ ݑ ệu hay sản ph điểm. Tuy nh dụng cụ thể. người dùng ó thể gồm rất ng (user id) rưng. Ví dụ, t ăng lực, yêu c xác định trê i được ngoại ác mục dữ liệ , ước lượng h dựa trên kinh hoặc điểm củ t-based recom n độ phù hợp tư vấn sẽ tìm ộ phim tương rative recomm t mục dữ liệu ời có cùng sở ng người dùn ể tư vấn cho c ry-based) và t vài hệ tư vấn p trên. HÀM Ý THỐ ] nghiên cứu es) A → B kh của A”. iểu diễn luật h à Y của E (kh Yഥ và Bഥ tương nhận ở mức ሻ ൑ cardሺA ∩ oisson với tha rdሺX ∩ Yഥሻ െ ට୬ఽሺ୬ି୬୬ c của QሺA, Bഥሻ HỆ TƯ VẤN D ሺܿ, ݏሻ ẩm thường đư iên, cách đo Giá trị của hà trong không g nhiều loại th duy nhất. Tư rong hệ thống cầu kỹ năng, n toàn không suy trong khô u hay sản phẩ ạng hoặc điểm nghiệm C a mục dữ liệu mendations) ݑ(ܿ, ݏ݅), trong các đặc điểm đồng với sở endations), k hay sản phẩm thích với c g khác có cù . Hệ thống c hệ thống dựa kết hợp cả p NG KÊ mối quan hệ h ông đối xứng àm ý thống kê ông có mối q ứng là phần b tin cậy 1 െ α Bഥሻሿ ൑ α m số ୬ఽ୬ഥా୬ . T ୬ఽሺ୬ି୬ಳሻ ୬ ಳሻ là qሺA, Bഥሻ. C ỰA TRÊN TIẾP ợc cho bằng độ phù hợp tr m u có thể đ ian C được ông tin: tên, t ơng tự như th tư vấn ngành v.v. gian ܥ × ܵ m ng gian ܥ × ܵ m đã từng đư cho các mụ ác hệ thống tư hay sản phẩm , độ phù hợp đó si ϵ S và của những bộ thích của c m hông giống n s với người [9][21]. Ví dụ ng sở thích p ộng tác có thể trên mô hình hương pháp àm ý giữa cá theo dạng “n A → B uan hệ nào g ù của Y và B nếu và chỉ nế rong trường h hỉ số hàm ý ( CẬN HÀM Ý T điểm, ví dụ n ong các hệ th ược xác định xác định bởi uổi, giới tính ế, mỗi sản p học, đặc trưn à chỉ trên mộ . Thông thườ ợc người dùn c dữ liệu hay vấn thường : ݑ(ܿ, ݏ) của m “tương tự” nh phim từng đư ới được giới t hư phương p dùng c dựa t , để gợi ý mộ him ảnh với chia thành h (model-based cộng tác và dự c biến dữ liệu ếu A sau đó g iữa X và Y, X trong E và có u [24]: ợp n୆ഥ ് 0, ta implicative in HỐNG KÊ gười dùng ống tư vấn bởi người một hồ sơ , thu nhập, hẩm trong g của mỗi t miền nhỏ ng, độ phù g đánh giá sản phẩm được phân ục dữ liệu ư s [9]. Ví ợc c đánh hiệu. háp tư vấn rên độ phù t bộ phim c. Sau đó, ai loại: hệ ). a trên nội (variable) ần như B” ∩ Y ൌ ∅), cùng bản có thể rút dex) được Pp s d th t han Quốc Nghĩa Trong t hối chuẩn rút ố qሺA, Bഥሻ là [2 Luật hà IV. HỆ Giả sử ùng được mô uộc tính từ v ập hợp C và V Trong m Giải th Input bằng tính từ Outp Begin 1 0 0 , Nguyễn Minh K rường hợp xấ gọn. Chỉ số m 4]: m ý A → B đư TƯ VẤN T rằng chúng ta tả bằng một 1 đến vk là thu chúng tôi xâ ô hình chúng uật cho mô h : Tập dữ liệu m thuộc tính vk+1 đến vm ut: Bảng tính : Xử lý tập d Chọn tập c For i=1 to Chọn 2: Sinh tập lu Sinh tập lu Lựa chọn 3: Đếm các t Với mỗi lu Begin Đ Đ Đ Đ End; Tạo bảng T hợ ng dù ỳ, Nguyễn Tấn H p xỉ phù hợp ật độ hàm ý φሺA, Bሻ ൌ ợc chấp nhận HEO HƯỚN có một tập h hồ sơ người ộc tính điều k y dựng mô hì Hình 2. Mô tôi xây dựng ình hệ tư vấn mô tả hồ sơ V = {v1, v2, là các thuộc tí giá trị hấp dẫ ữ liệu thô ác thuộc tính n các dòng dữ ật và lựa ch ật kết hợp từ các luật cho h ham số ࢔, ࢔࡭ ật trong tập l ếm tham số ࢔ ếm tham số ࢔ ếm tham số ࢔ ếm tham số ࢔ dữ liệu các th c1 c2 c3 . . . cn ập p ười ng oàng, Huỳnh Xu qሺA, Bഥሻ (chẳng hạn n (implication i 1 െ PrሾQሺA, Bഥ ở mức tin cậ G TIẾP CẬN ợp n người d dùng [8] bao iện, các thuộ nh hệ tư vấn d hình hệ tư vấn d giải thuật xử dựa trên lu người dùng g , vm}, trong nh quyết định n cho từng lu theo cầu của liệu tương ứn ọn các luật ch tập dữ liệu đã ệ tư vấn; , ࢔࡮, ࢔࡭࡮ഥ uật đã chọn ; ࡭ ; ࡮; ࡭࡮ഥ ; am số cho tập v1 v2 Các thuộc tính ân Hiệp ൌ n୅୆ഥ െ ୬ఽሺ୬ ୬ ට୬ఽሺ୬ି୬୬ hư ୬ఽ୬ഥా୬ ൐ 4 ntensity) với n ሻ ൑ qሺA, Bሻሿ y 1 െ α nếu v LUẬT KẾT ùng C = {c1, gồm tập hợp c tính từ vk+1 ựa trên luật k ựa trên luật kết h lý của hệ thố ật kết hợp và ồm n đối tượ đó các thuộc . ật kết hợp đượ hệ thống; g với tập thuộ o hệ tư vấn xử lý; luật; vk điều C ି୬ಳሻ ಳሻ ), biến QሺA, ܤത ୅ ൑ n୆ và n ൌ 1√2π න ஶ ୯ሺ୅,୆ഥሻ à chỉ nếu φሺA HỢP VÀ Đ c2, , cn} tr các thuộc tín đến vm là các ết hợp và độ ợp và độ đo hàm ng tư vấn gồm độ đo hàm ý ng C = {c1, c tính từ v1 đến c sắp xếp dựa c tính; vk+1 ác thuộc tính quyết ሻ sẽ có giá t ୆ ് n được đ eି౪ మ మ dt , Bሻ ൒ 1 െ α Ộ ĐO HÀM ong một hệ th h V = {v1, v thuộc tính qu đo hàm ý thốn ý thống kê các bước sa thống kê 2, , cn}, mỗ vk là thuộc t trên hai độ đ vm định rị xấp xỉ theo ịnh nghĩa trên [24]. Ý THỐNG K ống bất kỳ. 2, , vm}, tro yết định. Trên g kê như sau u: i đối tượng đ ính điều kiện o hàm ý thốn 299 luật phân cơ sở chỉ Ế Mỗi người ng đó các cơ sở hai : ược mô tả , các thuộc g kê. 3 4 x 4 d t th th lu đ 4 s n t t 00 0 0 R End; .1. Xử lý dữ Trong g ác định tập cá .2. Sinh tập l Trong b ữ liệu đã xử l oán tư vấn mà uộc tính điều Ví dụ 1 uộc tính quy ật, sau đó ta ược trình bày K .3. Đếm các t Để áp d ố ݊, ݊஺, ݊஻, ݊஺ ày, chúng tôi ập dữ liệu thô ắc cứ mỗi giá 4: Áp dụng c Với mỗi d Begin I I End; 5: Tạo bảng Kq= eturn(Kq) liệu iai đoạn xử l c thuộc tính đ uật và lựa ch ước sinh luật ý. Thông thườ chúng ta chọ kiện, ሼݒ௞ାଵ, : Sinh luật từ ết định. Áp d tiến hành lựa trong hình 3. hu vực Đ 2 1 3 0 3 0 2 1 1 2 3 0 2 ham số ࢔, ࢔࡭ ụng được các ஻ത của từng lu đề xuất phươ , dựa trên mi trị của thuộc Lu ác độ đo hàm òng tham số ݊ mplicationind mplicationinte tính giá trị h ý dữ liệu, dựa iều kiện và tậ ọn các luật c kết hợp, chún ng tập luật k n lựa các luật , ݒ௠ሽ là tập tập dữ liệu c ụng thuật toá chọn các luậ iểm Kết q 1.0 A 1.5 A .5 B .5 B 1.0 A 1.5 A 1.5 A 1.0 A .5 B 1.0 A Hìn , ࢔࡮, ࢔࡭࡮ഥ của độ đo hàm ý ật kết hợp là ng pháp chuy ền giá trị của tính trên tập d ật Implica Luật ݊ ݊஺ ý thống kê , ݊஺, ݊஻, ݊஺஻ത ex(࢔, ࢔࡭, ࢔࡮, nsity(࢔, ࢔࡭, ࢔ ấp dẫn cho từ trên hồ sơ ng p các thuộc t ho hệ tư vấn g tôi đề xuất ết hợp được s có dạng ሼݒଵ, các thuộc tính ó 3 thuộc tính n Apriori vớ t có vế phải uả Ap h 3. Kết quả si hàm tính độ thống kê cũn một bước cầ ển đổi tập dữ từng thuộc tí ữ liệu thô sẽ tionindex ݊஻ ݊஺஻ത để xếp hạng trong tập luật ࢔࡭࡮ഥ); ࡮, ࢔࡭࡮ഥ); ng luật kết h ười dùng (tập ính quyết định áp dụng giải inh ra có số lư ݒଶ, , ݒ௞ሽ → quyết định. , trong đó thu i Supp=0.01 v chứa thuộc tí riori nh luật theo giả đo hàm ý g như các độ n thiết trong liệu thô và tậ nh của tập dữ sinh ra một cộ Implicationin HỆ TƯ VẤN D các luật đã chọn ợp thuộc tính) v có dạng: ሼݒଵ thuật Apriori ợng rất lớn. V ሼݒ௞ାଵ, , ݒ௠ ộc tính 1, 2 l à conf=0.5 t nh quyết định L 1. {V1=1 2. {V2=1 3. {V1=3 4. {V2=0 5. {V2=1 6. {V1=2 7. {V1=1 8. {V1=3 9. {V1=2 i thuật Apriori đo hấp dẫn kh quy trình xử l p luật kết hợp liệu, việc chu t trên ma trận tensity ỰA TRÊN TIẾP à các yêu cầ , ݒଶ, , ݒ௞ , ݒ௞ [25] để sinh r ì thế, tùy the ሽ, trong đó: ሼ à thuộc tính đ a sinh được t ta được tập uật kết hợp } => {V3=A} .5} => {V3=A} } => {V3=B} .5} => {V3=B} } => {V3=A} } => {V3=A} ,V2=1.5} => {V ,V2=0.5} => {V ,V2=1} => {V3 [25] ách quan khá ý của hệ thốn sang dạng m yển đổi đượ dữ liệu nhị p CẬN HÀM Ý T u của bài toán ାଵ, , ݒ௠ሽ. a tập luật kết o yêu cầu đặt ݒଵ, ݒଶ, , ݒ௞ሽ iều kiện, thuộ ập luật kết hợ luật kết quả g 3=A} 3=B} =A} c thì việc đếm g. Để đáp ứn a trận nhị phâ c thực hiện th hân. HỐNG KÊ tư vấn để hợp từ tập ra của bài là tập các c tính 3 là p gồm 26 ồm 9 luật các tham g yêu cầu n. Đối với eo nguyên Ptr h tr han Quốc Nghĩa Ví dụ 2 Dữ liệ Khu vực Điể 2 1 1 1 3 0 3 0 2 1 1 1 1 1 2 1 3 0 2 1 Đối với ận luật nhị p iện theo nguy ong ma trận l Ví dụ 3 Luật k {V1=1} => {V {V2=1.5} => {V1=3} => {V {V2=0.5} => {V2=1} => {V {V1=2} => {V {V1=1,V2=1 {V1=3,V2=0 {V1=2,V2=1 Luật k {V1=1} => {V {V2=1.5} => {V1=3} => {V {V2=0.5} => {V2=1} => {V {V1=2} => {V {V1=1,V2=1 {V1=3,V2=0 {V1=2,V2=1 Luật k {V1=1} => {V {V2=1.5} => {V1=3} => {V {V2=0.5} => {V2=1} => {V {V1=2} => {V {V1=1,V2=1 {V1=3,V2=0 {V1=2,V2=1 , Nguyễn Minh K : Chuyển đổi u thô m Kết quả .0 A .5 A .5 B .5 B .0 A .5 A .5 A .0 A .5 B .0 A tập luật kết hân vế trái và ên tắc cứ mỗ uật nhị phân t : Từ tập luật k ết hợp 3=A} {V3=A} 3=B} {V3=B} 3=A} 3=A} .5} => {V3=A} .5} => {V3=B} } => {V3=A} ết hợp 3=A} {V3=A} 3=B} {V3=B} 3=A} 3=A} .5} => {V3=A} .5} => {V3=B} } => {V3=A} ết hợp 3=A} {V3=A} 3=B} {V3=B} 3=A} 3=A} .5} => {V3=A} .5} => {V3=B} } => {V3=A} ỳ, Nguyễn Tấn H dữ liệu thô sa V Hình 4. Min hợp, chúng tô Ma trận luật i thuộc tính ương ứng. ết hợp ở trên V V V Hình 5. Minh oàng, Huỳnh Xu ng dạng Ma t 1=1 V1=2 0 1 1 0 0 0 0 0 0 1 1 0 1 0 0 1 0 0 0 1 h họa chuyển t i tách ra thàn nhị phân vế xuất hiện tron ta chuyển san 1=1 V1=2 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 1=1 V1=2 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 1=1 V1=2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 họa chuyển từ ân Hiệp rận dữ liệu nh M V1=3 0 0 1 1 0 0 0 0 1 0 ừ dữ liệu thô sa h ba ma trận phải. Trong t g vế trái hoặ g ma trận nh Ma tr V1=3 0 0 1 0 0 0 0 1 0 Ma tr V1=3 0 0 1 0 0 0 0 1 0 Ma tr V1=3 0 0 0 0 0 0 0 0 0 luật kết hợp sa ị phân được t a trận dữ liệu V2=1.5 V 0 1 0 0 0 1 1 0 0 0 ng Ma trận dữ dạng nhị phâ ừng ma trận c vế phải của ị phân tương ứ ận luật nhị p V2=1.5 V 0 1 0 0 0 0 1 0 0 ận luật nhị p V2=1.5 V 0 1 0 0 0 0 1 0 0 ận luật nhị p V2=1.5 V 0 0 0 0 0 0 0 0 0 ng Ma trận dữ hể hiện ở hình nhị phân 2=1.0 V2= 1 0 0 0 0 1 0 1 1 0 0 0 0 0 1 0 0 1 1 0 liệu nhị phân n: Ma trận lu nhị phân, việ luật kết hợp ng được thể hân đầy đủ 2=1 V2=0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 hân vế trái 2=1 V2=0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 hân vế phải 2=1 V2=0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 liệu nhị phân 4. 0.5 V3=A 1 1 0 0 1 1 1 1 0 1 ật nhị phân đ c chuyển đổi sẽ sinh ra m hiện trong hìn .5 V3=A 1 1 0 0 1 1 1 0 1 .5 V3=A 0 0 0 0 0 0 0 0 0 .5 V3=A 1 1 0 0 1 1 1 0 1 301 V3=B 0 0 1 1 0 0 0 0 1 0 ầy đủ, Ma được thực ột cột mới h 5. V3=B 0 0 1 1 0 0 0 1 0 V3=B 0 0 0 0 0 0 0 0 0 V3=B 0 0 1 1 0 0 0 1 0 302 HỆ TƯ VẤN DỰA TRÊN TIẾP CẬN HÀM Ý THỐNG KÊ Sau khi có Ma trận dữ liệu nhị phân, Ma trận luật nhị phân vế trái và Ma trận luật nhị phân vế phải, bước tiếp theo là tiến hành đếm các tham số ݊, ݊஺, ݊஻, ݊஺஻ത cho từng luật trong tập luật đã chọn theo công thức sau: - Đếm tham số n: n = số dòng của Ma trận dữ liệu nhị phân. - Đếm tham số nA: lấy từng dòng của Ma trận luật nhị phân vế trái so khớp với tất cả các dòng của Ma trận dữ liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng nA lên 1. - Đếm tham số nB: lấy từng dòng của Ma trận luật nhị phân vế phải so khớp với tất cả các dòng của Ma trận dữ liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng nB lên 1. - Đếm tham số ݊஺஻ത : lấy từng dòng của Ma trận luật nhị phân đầy đủ so khớp với tất cả các dòng của Ma trận dữ liệu nhị phân, nếu các bits khớp với dòng luật đang so sánh thì tăng ݊஺஻ lên 1. Khi đó ݊஺஻ത ൌ ݊஺ െ ݊஺஻. Ví dụ 3: Đếm các tham số ݊, ݊஺,݊஻, ݊஺஻ത từ tập luật kết hợp đã chọn được thể hiện trong bả