Hệ thống thích nghi cá nhân là các hệ thống cung cấp thông tin, tài nguyên hoặc các dịch vụ cho người dùng dựa vào đặc điểm của từng cá nhân [17]. Như vậy cùng một vấn đề, những người dùng khác nhau có thể sẽ nhận được những thông tin khác nhau tuỳ thuộc vào đặc trưng của từng người. Ví dụ trong lãnh vực tư vấn phim, mỗi người có thể được giới thiệu những phim khác nhau tuỳ theo sở thích của từng người, hay trong lĩnh vực truyvấn tài liệu, cùng một từ khoá khi truy vấn,
                
              
                                            
                                
            
 
            
                 21 trang
21 trang | 
Chia sẻ: vietpd | Lượt xem: 1514 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Hệ thống thích nghi cá nhân (adaptive system), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
30 
CHƯƠNG 3 HỆ THỐNG THÍCH NGHI CÁ NHÂN 
(ADAPTIVE SYSTEM) 
3.1 GIỚI THIỆU 
Hệ thống thích nghi cá nhân là các hệ thống cung cấp thông tin, tài nguyên hoặc 
các dịch vụ cho người dùng dựa vào đặc điểm của từng cá nhân [17]. Như vậy cùng 
một vấn đề, những người dùng khác nhau có thể sẽ nhận được những thông tin khác 
nhau tuỳ thuộc vào đặc trưng của từng người. Ví dụ trong lãnh vực tư vấn phim, 
mỗi người có thể được giới thiệu những phim khác nhau tuỳ theo sở thích của từng 
người, hay trong lĩnh vực truy vấn tài liệu, cùng một từ khoá khi truy vấn, mỗi 
người có thể nhận được những kết quả trả về khác nhau tuỳ thuộc vào lãnh vực 
người đó đang nghiên cứu hay quan tâm. Hay trong lãnh vực đào tạo trực tuyến, 
cùng một chủ đề, mỗi người học có thể nhận được nội dung bài học, các tài liệu liên 
quan, bài tập thực hành khác nhau tuỳ theo kiến thức đã có cũng như mục tiêu học 
của từng cá nhân. 
Trong khoảng một thập niên vừa qua, các hệ thống thích nghi cá nhân đã phát 
triển khá mạnh, được ứng dụng rộng rãi trong lãnh vực thương mại điện tử như âm 
nhạc, phim ảnh, sách báo,…. Tiếp theo sự thành công đó, sự thích nghi cá nhân 
cũng được phát triển sang các lãnh vực khác như truy vấn thông tin, thư viện số,… 
và cũng đã đạt được một số thành quả khả quan. Bên cạnh đó, sự thích nghi cá nhân 
cũng đã được nghiên cứu ứng dụng vào lãnh vực đào tạo trực tuyến, tuy nhiên việc 
ứng dụng vẫn còn hạn chế và chủ yếu là cho các khoá đào tạo ngắn hạn theo chuyên 
đề (xem chi tiết mục 2.3).[2] 
Trong những hệ thống thích nghi này, mỗi người sử dụng sẽ có một profile mô 
tả đặc trưng riêng của từng cá nhân. Tuỳ theo lãnh vực ứng dụng cũng như phương 
pháp khai thác, profile sẽ bao gồm những thông tin khác nhau mô tả về bản thân 
như: thông tin nhân khẩu (họ tên, tuổi, nghề nghiệp, …), sở thích, nhu cầu, mục 
tiêu, trình độ, nền tảng kiến thức, đánh giá của cá nhân trên sản phẩm, quá trình 
31 
giao tiếp với hệ thống,....Như vậy profile là thành phần quan trọng nhất trong hệ 
thống thích nghi và trong phần tiếp theo chúng tôi sẽ trình bày ba nội dung chính 
liên quan đến profile : tổ chức profile, cập nhật profile, khai thác profile. 
3.2 TỔ CHỨC VÀ KHỞI TẠO PROFILE 
3.2.1 Tổ chức profile 
Xây dựng một cấu trúc thể hiện profile người dùng là một là bước rất quan trọng 
ảnh hưởng đến sự thành công của hệ thống. Việc tổ chức một profile người dùng tốt 
sẽ rất hữu ích cho vấn đề cung cấp tài nguyên (tức là bảo đảm tài nguyên cung cấp 
là phù hợp) và vấn đề cộng tác (tức là bảo đảm những người có profile tương tự 
nhau thì thật sự là tương đồng với nhau). 
Có rất nhiều cách tiếp cận khác nhau trong việc thể hiện một profile người dùng. 
Montaner [17] đã tổng hợp và phân loại một số phương pháp phổ biến đã được 
nghiên cứu và sử dụng: 
Thông tin nhân khẩu (Demographic features) 
Theo mô hình này, profile người dùng được thể hiện như một tập các đặc trưng 
về nhân khẩu (độ tuổi, giới tính, nghề nghiệp, nơi cứ trú,…). Đây là mô hình đơn 
giản nhất, hầu như hệ thống nào cũng có thể áp dụng được, tuy nhiên tính hiệu quả 
không được cao. Thông thường mô hình này được dùng kèm với một số mô hình 
khác. 
Mô hình này sẽ rất hữu ích đối với những người dùng mới, khi đó đặc trưng của 
người dùng hầu như không có gì ngoài các thông tin nhân khẩu. 
Mô hình không gian véc-tơ (Vector space model) 
Mô hình này thích hợp khi cần làm việc với các tài nguyên dạng văn bản (nội 
dung tài liệu, nội dung trang web). Profile người dùng được thể hiện bởi véc-tơ 
những đặc trưng, trong đó thường dùng nhất là những từ khoá (Keyword), với giá 
trị đi kèm có thể kiểu luận lý hoặc một con số. Giá trị này thể hiện mức độ quan 
tâm/ hữu ích của đặc trưng đối với người dùng. 
32 
Profile(u) = (w1, w2,…wn) , với wi là giá trị thể hiện mức độ hữu ích của đặc 
trưng (thông thường là từ khóa) thứ i đối với người dùng u. 
Theo mô hình này, người ta cũng tìm cách biểu diễn tài nguyên d dưới dạng véc-
tơ các đặc trưng. Việc xác định mức độ hữu ích của tài nguyên d đối với người dùng 
u sẽ tính toán dựa trên việc so sánh hai véc-tơ : véc-tơ đặc trưng của người dùng u 
với véc-tơ đặc trưng của tài nguyên d (xem chi tiết hơn ở mục 3.4.1 phương pháp 
lọc theo nội dung). 
Mô hình lịch sử khai thác (history-based model) 
Theo cách tiếp cận này, hệ thống sẽ tìm cách khai thác các thông tin từ quá trình 
tương tác của người dùng với hệ thống, chẳng hạn như những mặt hàng người dùng 
đã mua, các đường dẫn URL mà người dùng đã chọn, các thư từ của người dùng 
hay các hành động của người dùng đối với hệ thống để làm profile người dùng. 
Mô hình lịch sử khai thác được ứng dụng rất rộng rãi trong lãnh vực thương mại 
điện tử, trong đó thông thường hệ thống sẽ ghi nhận lại những sản phẩm người dùng 
đã mua hoặc đã trả lại cùng với đánh giá trên các sản phẩm. Việc lưu trữ trong 
profile những mặt hàng đã mua và đánh giá cao có thể giúp hệ thống suy diễn ra 
những chủng loại hàng yêu thích của người dùng, từ đó có thể tư vấn những mặt 
hàng khác phù hợp với sở thích hay mối quan tâm của người dùng. 
Ma trận đánh giá (user-item rating matrix) 
Là một ma trận hai chiều, một chiều là các người dùng và một chiều là các tài 
nguyên (item). Giá trị trong ma trận thể hiện đánh giá của người dùng đối với các 
tài nguyên (hình 3.1). Các giá trị này phụ thuộc vào từng hệ thống, nhưng thông 
thường nằm trong khoảng từ 1 : (xấu) đến 5 (tốt). 
Thông thường các giá trị trong ma trận trên sẽ được cập nhật thủ công bởi người 
dùng, tức là hệ thống sẽ cho người dùng tự đánh giá trên những các tài nguyên mà 
họ đã biết (chẳng những phim đã xem hay những sách đã đọc). Tuy nhiên trong một 
số lĩnh vực thì các giá trị này sẽ được hệ thống cập nhật tự động dựa vào các hành 
vi của người dùng, ví dụ như căn cứ vào những sản phẩm mà người dùng đã mua 
33 
trong lĩnh vực bán hàng qua mạng (với giả thiết là chỉ mua những sản phẩm nào 
mình quan tâm hay thích) hoặc căn cứ vào những liên kết, những tài liệu mà người 
sử dụng đã xem trong lĩnh vực tư vấn tài liệu. 
Hình 3-1- Ma trận đánh giá (Rating matrix) 
Các mô hình dựa trên bộ phân lớp 
Một số hệ thống tổ chức profile người dùng theo mô hình phục vụ cho việc khai 
thác bằng các phương pháp phân lớp. Tuỳ theo phương pháp phân lớp mà profile 
người dùng sẽ được tổ chức cho phù hợp. Một số kỹ thuật có thể được dùng là: 
· Cây quyết định : Là một tập hợp các nút và các cạnh được tổ chức theo cấu trúc 
cây. Trong cấu trúc này, mỗi nút trong là một câu hỏi, các cạnh là các câu trả lời 
cho câu hỏi này và node lá là quyết định cuối cùng. 
· Luật kết hợp: Theo phương pháp này, người ta sẽ khai thác tập profile của người 
dùng và tìm ra các luật với độ hỗ trợ và độ tin cậy nhất định nào đó. Các luật này 
sẽ được sử dụng để cung cấp tài nguyên cho người dùng thông qua những sản 
phẩm mà họ đã lựa chọn, đánh giá trước đó. 
· Ngoài ra một số hệ thống khác tổ chức profile phục vụ cho việc khai thác theo 
mô hình mạng nơ-ron, mạng Bayesian 
3.2.2 Khởi tạo profile 
Khi có người dùng mới tham gia, hệ thống cần khởi tạo profile ban đầu cho 
người dùng làm cơ sở cho việc tư vấn, và đây là một vấn đề gặp nhiều khó khăn 
chung cho tất cả các hệ tư vấn (cold-start problem) vì thông tin về người dùng còn 
 Item1 Item2 Item3 Item4 Item5 Item6 
Alice 5 2 3 3 
User1 2 4 4 1 
User2 3 1 3 1 2 
User3 4 2 3 1 1 
User4 3 3 2 1 3 1 
User5 3 1 2 
34 
quá ít. Tuy nhiên cũng đã có một số nghiên cứu các phương pháp khác nhau để giải 
quyết tạm thời vấn đề nay, sau đây là những phương pháp đã được Montaner tổng 
hợp và phân loại [17] : 
Dữ liệu trống (Empty) 
Theo phương pháp này, hệ thống sẽ không khởi tạo profile ban đầu cho người 
dùng mà profile sẽ được tích luỹ dần trong quá trình hoạt động thông qua tương tác 
của người dùng với hệ thống. 
Thủ công (Manual) 
Phương pháp này sẽ khởi tạo profile bằng cách yêu cầu người dùng điền những 
thông tin cần thiết trong quá trình đăng ký. Chẳng hạn trong hệ thống thích nghi 
ActiveMath [16], khi đăng ký tham gia, ngoài một số thông tin về nhân khẩu như họ 
tên, tuổi, ngôn ngữ chính,…hệ thống còn yêu cầu người dùng xác nhận thêm một số 
thông tin về kiến thức toán đã biết làm cơ sở để khởi tạo profile và cung cấp tài liệu 
thích nghi. 
Phương pháp này có điểm bất lợi là yêu cầu người dùng cung cấp thông tin ban 
đầu quá nhiều, ngoài ra một số thông tin người dùng cung cấp có thể không chính 
xác vì bản thân cũng khó xác định được. Ví dụ người sử dụng gặp rất nhiều khó 
khăn khi mô tả nền tảng kiến thức hay mức độ quan tâm đến các chủ đề 
Theo khuôn mẫu (Stereotyping) 
Hệ thống xây dựng sẵn một số profile mẫu. Từ một số thông tin sở khởi ban đầu 
(tên, tuổi, giới tính, nơi cư trú, nghề nghiệp,…), hệ thống sẽ gán cho người dùng 
một trong số các profile mà hệ thống cho là thích hợp nhất. Phương pháp này sẽ 
hiệu quả khi thông tin nhân khẩu ban đầu được người dùng cung cấp tương đối đầy 
đủ và chính xác. Tuy nhiên thực tế hiện nay, vì các lý do riêng tư cá nhân, người 
dùng rất ngại cung cấp đầy đủ thông chính xác về bản thân cho hệ thống. Đây là 
một trở ngại chính của phương pháp này. 
Sử dụng tập huấn luyện (Training set) 
35 
Theo phương pháp này, hệ thống sẽ đưa ra một tập dữ liệu mẫu cho người dùng 
thao tác, đánh giá. Profile người dùng sẽ được khởi tạo bằng cách rút trích các 
thông tin từ sự tương tác của người dùng với hệ thống qua tập mẫu này. Chẳng hạn 
như trong lãnh vực tư vấn phim, hệ thống sẽ yêu cầu người dùng mới đánh giá sở 
thích trên tập một số phim mẫu. Kết quả đánh giá này sẽ được sử dụng để khởi tạo 
profile ban đầu cho người dùng (phân nhóm người dùng hoặc xác định thể loại 
phim người dùng yêu thích,…). Ưu điểm của phương pháp này là dễ thực hiện 
nhưng khuyết điểm lớn nhất là có thể không chính xác nếu những mẫu hệ thống đưa 
ra không thể hiện đúng những đặc trưng của người dùng cụ thể. 
3.3 CẬP NHẬT PROFILE 
Các phương pháp vừa đề cập ở trên được sử dụng để khởi tạo profile ban đầu 
cho người dùng, giải quyết tạm thời cho vấn đề người dùng mới. Tuy nhiên thông 
tin trong các profile ban đầu này còn khá đơn giản và cũng chưa thể phản ánh chính 
xác đặc trưng của người dùng. Ngoài ra mối quan tâm, sở thích của người dùng 
cũng sẽ thay đổi theo thời gian, vì vậy việc cập nhật lại profile là điều cần thiết 
trong các hệ thống thích nghi. 
Việc cập nhật profile sẽ được căn cứ vào thông tin phản hồi (relevance 
feedback) của người dùng đối với hệ thống. Thông tin phản hồi ở đây chính là 
những thông tin về sở thích, mối quan tâm hay là đánh giá của người dùng đối với 
tài nguyên của hệ thống. Có hai hướng tiếp cận chính cho vấn đề thu thập thông tin 
phản hồi từ người dùng là phản hồi tường minh (explicit feedback) và phản hồi tiềm 
ẩn (implicit feedback). Nhiều hệ thống kết hợp cả hai phương pháp này cho việc cập 
nhật profile. 
3.3.1 Phản hồi tường minh (explicit feedback) 
Theo cách tiếp cận này, người dùng thường xuyên được yêu cầu đánh giá trên 
các tài nguyên một cách thủ công thông qua các giao diện. Phương pháp này được 
ứng dụng rất rộng rãi trong lãnh vực thương mại điện tử nhờ tính đơn giản và hiệu 
quả (người dùng sau khi xem một bộ phim hay đọc một cuốn sách là có thể có nhận 
36 
xét khá chính xác về mức độ yêu thích/ phù hợp của sản phẩm với họ). Có ba cách 
tiếp cận chính để tiếp nhận sự phản hồi tường minh của người dùng đối với tài 
nguyên : 
Thích/ Không thích : Giá trị đánh giá thể hiện ở mức nhị phân. Tuỳ từng lãnh 
vực mà có thể là quan tâm/ không quan tâm, liên quan/ không liên quan hoặc 
thích/ghét. 
Đánh giá theo điểm số : Tuỳ hệ thống mà sẽ có những thang điểm khác nhau, 
nhưng thông thường là từ 1 đến 5. 
Nhận xét bằng lời văn : Một số hệ thống cho người sử dụng đánh giá thông qua 
các lời nhận xét. Phương pháp này có ưu điểm là sẽ nhận được nhiều ý kiến hữu ích 
từ phía người dùng, nhưng việc khai thác đặc trưng thông qua các nội dung văn bản 
đòi hỏi nhiều thuật toán phức tạp hơn. 
Việc thu thập thông tin qua sự phản hồi tường minh của người dùng là một 
phương pháp đơn giản, phần lớn trường hợp đều có độ chính xác cao, tuy nhiên 
phương pháp gặp một số trở ngại như sau : 
· Mức độ hữu ích của thông tin gắn liền với sự thay đổi nhu cầu thông tin của 
người dùng, ví dụ bài báo thứ ba mặc dù có cùng chủ đề với các bài báo trước 
nhưng được người dùng đánh giá rất thấp do hai bài báo trước đã cung cấp khá 
đầy đủ các thông tin cần thiết cho người dùng. 
· Trong một số trường hợp thông tin người dùng cung cấp có thể không chính xác, 
chẳng hạn như yêu cầu đánh giá về nền tảng kiến thức hay mức độ quan tâm đến 
các chủ đề. 
· Người dùng thường không sẵn sàng cho việc phản hồi này. 
3.3.2 Phản hồi tiềm ẩn (implicit feedback) 
Phản hồi tiềm ẩn tức là hệ thống tự động xác định sở thích, mối quan tâm của 
người dùng thông qua các hành vi của người dùng đối với hệ thống. Lợi điểm lớn 
nhất của phương pháp này là người dùng sẽ cảm thấy thoải mái hơn khi không cần 
phải cung cấp quá nhiều thông tin cá nhân cho hệ thống nhưng vẫn nhận được nhiều 
37 
tư vấn hữu ích phù hợp với đặc điểm cá nhân. Đây là phương pháp luôn được quan 
tâm đầu tiên khi đề cập đến vấn đề cập nhật profile, nhiều hệ thống đã đưa vào sử 
dụng phương pháp này và đã rất thành công. 
Phần lớn các hệ thống thu thập thông tin phản hồi tiềm ẩn bằng cách phân tích 
các liên kết người dùng đã chọn, quá trình mua bán các sản phẩm, quá trình khai 
thác tài nguyên, hộp thư ý kiến người dùng. Một số hệ thống phân tích thời gian 
dừng lại trên trang web, các hành động liên quan đến tài nguyên như lưu, in, đánh 
dấu, xoá, trả lời, gởi mail, cuốn màn hình, phóng to, thu nhỏ, thay đổi kích thước 
màn hình chứa tài nguyên,…. 
Mặc dù đã khắc phục được phần lớn các khuyết điểm gặp phải khi thu thập 
thông tin bằng phản hồi tường minh, phương pháp này cũng gặp phải một trở ngại 
khá lớn là dữ liệu thu thập được sẽ rất lớn, chi phí cho xử lý tính toán sẽ cao trong 
khi mức độ tin cậy của thông tin được rút trích ra thường không được cao so với 
phương pháp phản hồi tường minh. 
3.3.3 Phương pháp kết hợp 
Việc cung cấp chức năng phản hồi tiềm ẩn sẽ giảm bớt thao tác cho người dùng, 
trong khi việc sử dụng phương pháp phản hồi tương minh sẽ giúp hệ thống xác định 
sở thích người dùng chính xác hơn. Từ nhận xét này, nhiều hệ thống đã sử dụng 
phương pháp kết hợp giữa phản hồi tường minh và phản hồi tiềm ẩn. Một hướng 
tiếp cận của phương pháp này là sử dụng sự phản hồi tiềm ẩn như là một thao tác 
kiểm tra trên những thông tin mà người dùng đã đánh giá thủ công, hoặc một hướng 
tiếp cận khác là việc phản hồi tường minh được xem như là một lựa chọn bổ sung 
khi người sử dụng có nhu cầu [19]. 
3.4 KHAI THÁC PROFILE 
Để cung cấp tài nguyên cũng các dịch vụ phù hợp cho người dùng, các hệ thống 
thích nghi cá nhân sẽ căn cứ chủ yếu vào thông tin trong profile kết hợp với một số 
thông tin về các tài nguyên đang khai thác. 
38 
Các phương pháp lựa chọn tài nguyên phù hợp sẽ dựa vào các kỹ thuật so khớp 
giữa đặc trưng của tài nguyên đang xét và đặc trưng của người dùng hoặc là kỹ 
thuật so khớp đặc trưng giữa các người dùng. Hiện nay có ba phương pháp chính 
liên quan đến vấn đề chọn lọc tài nguyên cho phù hợp với người dùng : Lọc theo nội 
dung (content-based filtering), lọc cộng tác (collaborative filtering) và lọc theo 
thông tin nhân khẩu (demographic filtering) 
3.4.1 Phương pháp lọc theo nội dung (Content-based Filtering) 
Nguyên tắc : Tài nguyên được cung cấp cho người dùng vì nó tương tự với 
những tài nguyên người dùng đã quan tâm trong quá khứ. 
Lọc theo nội dung là một phương pháp đã được nghiên cứu từ hơn một thập niên 
qua và cho đến này vẫn là một trong những phương pháp được ứng dụng khá phổ 
biến trong lãnh vực tư vấn thông tin [19]. Khi sử dụng phương pháp này profile 
người dùng sẽ chứa các đặc trưng được rút trích từ các tài nguyên mà người dùng 
đã sử dụng qua hoặc đã đánh giá. Profile này sau đó sẽ được sử dụng để tìm hoặc 
nhận ra những tài nguyên khác tương tự. Ví dụ nếu người dùng rất quan tâm đến 
“thuốc đông y” thì những tài nguyên nào có xuất hiện nhiều từ khoá ‘thuốc đông y” 
sẽ được ưu tiên tư vấn cho người dùng. Phương pháp đặc biệt tích hợp cho các tài 
nguyên có nội dung văn bản, tài nguyên trong các hệ thống này thường được mô tả 
dưới dạng các từ khoá kèm trọng số. Một trong những phương pháp nổi tiếng để 
xác định trọng số của từ khoá là phương pháp TF-IDF (Xem chi tiết phần phụ lục) 
Theo phương pháp này, nội dung tài liệu (tài nguyên có nội dung dạng văn bản) 
d sẽ được thể hiện dưới dạng véc-tơ trọng số các từ khoá. Gọi NoiDung(d) là nội 
dung tài liệu d có chứa n từ khoá quan trọng nhất, ta có : 
NoiDung (d) = (w1, w2,…wn) 
Trong đó : wi là trọng số của từ khoá thứ ki trong tài liệu 
Profile của người dùng u cũng sẽ được thể hiện dưới dạng véc-tơ trọng số các từ 
khoá, trong đó giá trị trọng số thể hiện mức độ quan tâm của người dùng đối với từ 
39 
khoá. Gọi Profile(u) là profile của người dùng u trong phương pháp lọc theo nội 
dung, ta có 
Profile(u) = (w1, w2,…wm) 
Trong đó : wi là trọng số của từ khoá thứ ki trong profile người dùng thể hiện 
mức độ quan tâm của người dùng u đối với từ khoá ki 
Để cung cấp tài nguyên cho người dùng, người ta tìm cách xác định mức độ hữu 
ích của tài nguyên d đối với người dùng u : 
h(u,d) = DiemSo(Profile(u), NoiDung(d)) 
Hàm hữu ích h(u,d) thường là các hàm heuristic. Trong lãnh vực truy vấn thông 
tin, khi làm việc với các tài nguyên dạng văn bản, để so sánh hai véc-tơ trọng số các 
từ khoá (để xác định mức độ tương đồng giữa hai tài nguyên hoặc giữa profile 
người dùng với tài nguyên), người ta thường sử dụng công thức cosine của góc tạo 
bởi hai véc-tơ 
Bên cạnh những đặc điểm vừa được mô tả, phương pháp lọc theo nội dung gặp 
phải một số hạn chế như sau [3]: 
- Các tài nguyên trong phương pháp lọc theo nội dung được thể hiện dưới dạng 
các từ khoá, đôi khi các từ khoá không thể hiện hết ngữ nghĩa tài nguyên dẫn 
đến tình trạng cung cấp tài nguyên không được chính xác. Ngoài ra việc người 
dùng lựa chọn một tài nguyên còn phụ thuộc vào các yếu tố chủ quan khác như 
được viết bởi một tác giả nổi tiếng, nội dung dễ hiểu,… Các yếu tố này không 
nằm trong các cơ sở để dự đoán mức độ quan tâm. 
- Phương pháp này rất phù hợp với các tài nguyên dạng nội dung văn bản, khi gặp 
các tài nguyên dạng khác thì sẽ gặp nhiều khó khăn. 
- Vấn đề lối mòn khai thác : Người dùng chỉ được cung cấp những gì họ đã quan 
tâm trong quá khứ, nếu mối quan tâm của người dùng thay đổi thì phải cần một 
khoảng thời gian dài hệ thống mới có thể cung cấp tài nguyên phù hợp. 
h(u, d) = cos(wu, wd) 
40 
- Khi gặp người dùng mới hệ thống sẽ gặp nhiều khó khăn do có quá ít thông tin 
về họ (đây cũng là vấn đề chung cho một số phương pháp khác). 
3.4.2 Phương pháp lọc cộng tác (Collaborative Filtering) 
3.4.2.1 Tư vấn dựa vào cộng đồng 
Nguyên tắc : Tài nguyên được cung cấp cho người dùng nếu nó được đánh giá 
cao bởi những người dùng tương tự khác. 
Lọc cộng tác (Collaborative filtering gọi tắt là CF) [4], [21] là kỹ thuật tư vấn rất 
thông dụng, đã được áp dụng trong cho rất nhiều lĩnh vực và đạt được những kết 
quả rất khả quan. Nguyên tắc hoạt động của hệ thống tư vấn CF như sau : Hệ thống 
tư vấn sẽ ghi nhận các thông tin đánh giá của người dùng trên các tài nguyên. Việc 
ghi nhận này có thể là thủ công, tức là cho người dùng tự đánh giá trên các tài 
nguyên hoặc tự động, tức là hệ thống tự đánh giá thông qua các hành vi của người 
dùng. Khi cần tư vấn cho người dùng, hệ thống sẽ tìm những người tương tự với 
người dùng dựa vào mức độ tương đồng về mặt sở thích, mối quan tâm,…. Sau đó 
chọn ra những tài nguyên mà những người dùng tương tự đã đánh giá cao để tư vấn 
cho người dùng. 
Hình 3-2- Tư vấn dựa vào cộng đồng 
Người dùng u 
Nhóm những người 
dùng ‘tương tự’ 
với user u 
Tài nguyên d 
Các user 
Dự đoán điểm số dựa vào