Trong bài báo này, chúng tôi phát biểu bài toán khai thác luật tuần tự với ràng buộc Itemset ở vế trái của
luật và đề xuất hai thuật toán MSRIC_R và MSRIC_P để giải quyết bài toán này. Trong đó, MSRIC_R
thực hiện đưa ràng buộc vào giai đoạn sinh luật từ tập mẫu tìm được, còn MSRIC_P thực hiện ở giai đoạn
tìm mẫu trước. Kết quả thực nghiệm cho thấy MSRIC_P hiệu quả hơn.
Bạn đang xem nội dung tài liệu Khai thác luật tuần tự có ràng buộc ITEMSET dựa trên tập mẫu thỏa ràng buộc, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
185
KHAI THÁC LUẬT TUẦN TỰ CÓ RÀNG BUỘC ITEMSET DỰA
TRÊN TẬP MẪU THỎA RÀNG BUỘC
Văn Thị Thiên Trang
Khoa Công nghệ Thông tin, trường Đại học Công nghệ Tp. Hồ Chí Minh, Việt Nam
TÓM TẮT
Trong bài báo này, chúng tôi phát biểu bài toán khai thác luật tuần tự với ràng buộc Itemset ở vế trái của
luật và đề xuất hai thuật toán MSRIC_R và MSRIC_P để giải quyết bài toán này. Trong đó, MSRIC_R
thực hiện đưa ràng buộc vào giai đoạn sinh luật từ tập mẫu tìm được, còn MSRIC_P thực hiện ở giai đoạn
tìm mẫu trước. Kết quả thực nghiệm cho thấy MSRIC_P hiệu quả hơn.
In this paper, we state the problem of mining sequential rules with itemset contraint in the pre-condition of
the rule and propose two algorithms, named MSRIC_R and MSRIC_P, to solve this problem. MSRIC_R
algorithm puts the constraints into the rule generating process, and MSRIC_P puts into the pattern mining
process. The experimental results show that MSRIC_P is more efficient than the other in all cases
examined in this work.
Key words: Sequential rule, constraint, sequential pattern, prefix-tree, sequence database.
1. GIỚI THIỆU
Luật tuần tự được sinh từ mẫu tuần tự, nó biểu diễn mối quan hệ giữa hai loạt sự kiện, loạt sự kiện này sẽ
xảy ra sau loạt sự kiện kia. Một luật khai thác được sẽ biểu diễn dưới dạng , nghĩa là nếu X có mặt
trong một chuỗi bất kỳ của cơ sở dữ liệu (CSDL) thì với một độ tin cậy cao có thể khẳng định Y cũng xuất
hiện trong chuỗi đó theo sau X. Nó được ứng dụng trong việc dò lỗi, phát hiện xâm nhập và bẫy lỗi, trong
lĩnh vực y dược, thương mại điện tử.
Tùy thuộc vào từng lĩnh vực ứng dụng, nhu cầu khai thác luật tuần tự cũng khác nhau. Nếu khai thác trả
về tập đầy đủ các luật tuần tự thì tốn nhiều thời gian và bộ nhớ. Một số nghiên cứu tiến hành khai thác luật
tuần tự không dư thừa nhằm tìm ra những luật tổng quát nhất, thu gọn số lượng tập luật khai thác được.
Tuy nhiên, nếu khai thác theo yêu cầu người dùng thì luật tuần tự tổng quát và luật tuần tự không dư thừa
không đáp ứng được. Do đó, trong bài báo này, chúng tôi đề xuất bài toán khai thác luật tuần tự có ràng
buộc. Ràng buộc đại diện cho yêu cầu và mối quan tâm của người dùng. Vì luật có dạng left right, ràng
buộc có thể xảy ra ở vế trái hoặc vế phải hoặc cả hai. Trong nghiên cứu này, chúng tôi tìm hiểu ràng buộc
trên vế trái, đó là vế trái phải chứa một trong số các itemset do người dùng chỉ ra. Ví dụ, trong lĩnh vực y
học, chuyên gia cần biết nếu bệnh nhân ung thư có các triệu chứng {đau ngực, ho, nổi hạch} thì triệu
chứng phổ biến ở giai đoạn tiếp theo là gì, từ đó đưa ra các chẩn đoán và điều trị phù hợp. Khi đó, bài toán
đặt ra là cần tìm những luật mà vế trái có chứa tập {đau ngực, ho, nổi hạch}. Có hai hướng giải quyết bài
toán này:
1. Đưa ràng buộc vào sau quá trình khai thác: Tìm ra tập luật đầy đủ, sau đó kiểm tra ràng buộc trên
từng luật để chọn ra các luật thỏa ràng buộc;
2. Đưa ràng buộc vào trong quá trình khai thác: Chỉ tìm những luật thỏa ràng buộc ngay trong quá
trình khai thác.
186
Ta thấy hướng giải quyết thứ nhất tốn thời gian và bộ nhớ hơn vì phương pháp này phải tìm tập mẫu đầy
đủ và tập luật đầy đủ nên đòi hỏi nhiều thời gian và bộ nhớ. Hơn nữa, nó phải tốn thêm thời gian kiểm tra
ràng buộc cho từng luật trong tập luật đầy đủ tìm được. Hướng giải quyết thứ hai là đưa ràng buộc vào
ngay trong quá trình khai thác, có thể đưa ràng buộc vào giai đoạn sinh luật hoặc giai đoạn tìm mẫu. Như
vậy, để giải quyết bài toán khai thác luật với ràng buộc Itemset ở vế trái, chúng tôi thực hiện đưa ràng
buộc vào ngay trong quá trình khai thác, trên cả hai cách đưa ràng buộc vào giai đoạn tìm mẫu và giai
đoạn sinh luật. Từ đó, đối chiếu so sánh và đưa ra phương pháp tối ưu.
2. CÁC ĐỊNH NGHĨA VÀ PHÁT BIỂU BÀI TOÁN
Cho tập I = {i1, i2, , im} gồm m phần tử còn gọi là các item.
Itemset: Một itemset là một tập không có thứ tự khác rỗng, gồm các item thuộc tập I, ký hiệu là (i1, i2, ,
ik ) với mỗi ij (1 j k) là một item.
Chuỗi: Một chuỗi (sequence) là một danh sách có thứ tự các itemset. Chuỗi S được ký hiệu là s1 s2 sn
với mỗi si (1 i n) là một itemset. Chiều dài của chuỗi là tổng số item có trong chuỗi. Chuỗi có chiều
dài k còn được gọi là k-sequence.
Chuỗi con: Chuỗi Sa = a1 a2 an được gọi là chuỗi con của chuỗi Sb =b1 b2 bm ký hiệu Sa Sb,
nếu tồn tại các số nguyên 1 j1 < j2 < < jn m sao cho a1 bj1, a2 bj2, , an bjn.
Cơ sở dữ liệu chuỗi: Cơ sở dữ liệu chuỗi SDB là một tập hợp các chuỗi dữ liệu có dạng (sid, s), trong đó
sid là định danh của chuỗi và s là chuỗi các itemset.
Độ phổ biến: Độ phổ biến (support) của một mẫu p là số lượng chuỗi trong CSDL chuỗi SDB có chứa p,
ký hiệu ( ) |* | +|.
Mẫu tuần tự: Cho trước một ngưỡng phổ biến tối thiểu (minSup) do người dùng qui định, minSup 0,
1. Một mẫu p được gọi là phổ biến nếu sup(p) minSup, khi đó p được gọi là mẫu tuần tự. Như vậy, mẫu
tuần tự là một chuỗi con phổ biến tìm được trong CSDL.
Tiền tố hoàn toàn, hậu tố. Chuỗi Sa = a1 a2 an được gọi là tiền tố hoàn toàn của chuỗi Sb =b1 b2
bm (n < m), nếu và chỉ nếu ai = bi với mọi 1 i n. Kí hiệu: Sa » Sb Sau khi loại bỏ phần tiền tố hoàn toàn
Sb trên chuỗi Sa, phần chuỗi còn lại được gọi là hậu tố của Sa. Từ định nghĩa chuỗi con, ta có tiền tố Sa
Sb. Từ định nghĩa ta thấy rằng nếu một chuỗi có kích thước k sẽ có (k-1) tiền tố hoàn toàn. Ví dụ, chuỗi
A(BC)D có 3 tiền tố là A, AB và A(BC) nhưng chỉ có 2 tiền tố hoàn toàn là A và A(BC). Do đó,
(BC)D là hậu tố đối với A và D là hậu tố đối với A(BC).
Luật tuần tự biểu diễn mối quan hệ giữa hai loạt sự kiện xảy ra tuần tự, biểu thị dưới dạng XY (sup,
conf), trong đó X là loạt sự kiện xảy ra trước, Y là loạt sự kiện xảy ra sau, sup là giá trị độ phổ biến và
conf là giá trị độ tin cậy của luật.
Từ mẫu tuần tự đã có, luật tuần tự r được xây dựng bằng cách tách mẫu tuần tự ra làm hai phần: phần tiền
tố X và phần hậu tố Y (nối tiền tố với hậu tố: X++Y, ta được mẫu tuần tự như ban đầu). Độ phổ biến và độ
tin cậy của luật được xác định như sau:
Độ phổ biến: sup(r) = sup(X++Y) 100%.
Độ tin cậy: conf(r) = sup(X++Y) / sup(X) 100%.
Độ phổ biến của một luật bằng số chuỗi trong CSDL có chứa mẫu tuần tự tạo nên luật. Độ tin cậy của luật
bằng với khả năng chuỗi trong CSDL có chứa tiền tố của luật dẫn đến chứa hậu tố của luật.
187
Với mỗi mẫu tuần tự kích thước k, có thể tạo ra (k-1) luật vì mẫu tuần tự kích thước k sẽ có (k-1) tiền tố.
Ví dụ, với mẫu tuần tự (A)(BC)(D) có kích thước là 3, có thể tạo ra 2 luật là (A)(BC)(D),
(A)(BC)(D).
Bài toán khai thác luật tuần tự với ràng buộc itemset:
Mẫu thỏa ràng buộc: Mẫu a1 a2 an được coi là chứa itemset c nếu i [1, n] sao cho c ai.
Luật thỏa ràng buộc: Cho một ràng buộc c, và luật r = a1 a2 an b1 b2 bm, nếu vế trái luật a1
a2 an có chứa itemset c thì r được gọi là luật thỏa-c.
Cho CSDL SDB, tập itemset ràng buộc ℂ = {c1, c2... ck}, ngưỡng phổ biến tối thiểu minSup và ngưỡng tin
cậy tối thiểu minConf do người dùng chỉ ra. Bài toán khai thác luật tuần tự với ràng buộc itemset là đi tìm
tất cả các luật thỏa mãn các ngưỡng minSup và minConf, trong đó vế trái của luật có chứa bất kỳ itemset
nào của tập ℂ.
R = {r: XY| sup(r) minSup conf(r) minConf i: 1 i k, X ci, ci ℂ}.
3. CÁC NGHIÊN CỨU LIÊN QUAN
Phương pháp khai thác tập luật tuần tự đầy đủ đầu tiên được đề xuất bởi Spiliopoulou [[1]]. Sau đó được
khái quát thành thuật toán Full bởi Lo và đồng sự, thuật toán này cố gắng tìm tất cả các luật từ các mẫu
tuần tự khai thác được.
Khi sinh luật từ một mẫu tuần tự, độ tin cậy của luật phụ thuộc vào độ phổ biến của tiền tố. Do đó, với mỗi
tiền tố của một mẫu tuần tự, ta phải lấy được độ phổ biến của tiền tố. Thuật toán Full xác định độ phổ biến
của tiền tố bằng cách duyệt toàn bộ tập mẫu tuần tự nên tốn nhiều thời gian. Một số thuật toán cải tiến
thuật toán Full như MSR_PreTree [[4]], IMSR_PreTree [[5]] bằng cách sử dụng đặc điểm của cấu trúc cây
tiền tố. Dựa trên cây tiền tố, các thuật toán này sẽ tạo ra các luật đáng tin cậy từ mẫu tuần tự mà không cần
duyệt lại tập mẫu tuần tự nhiều lần. Trong bài báo này, chúng tôi cũng áp dụng cấu trúc dữ liệu cây tiền tố
để sinh các luật thỏa ràng buộc itemset.
4. PHƢƠNG PHÁP ĐỀ XUẤT
Để giải quyết bài toán khai thác luật tuần tự với ràng buộc itemset ở vế trái luật, bài báo đề xuất hai thuật
toán có tên MSRIC-R và MSRIC-P, sử dụng cấu trúc cây tiền tố để lưu tập mẫu tuần tự phổ biến tìm được
và tiến hành sinh luật trực tiếp từ cây này. Cả hai thuật toán đều thực hiện đưa ràng buộc vào trong quá
trình khai thác. Với MSRIC-R đưa ràng buộc vào giai đoạn sinh luật, MSRIC-P đưa ràng buộc vào giai
đoạn tìm mẫu.
4.1. Cấu trúc cây tiền tố
Cây tiền tố là một cây có thứ tự, trong đó quan hệ giữa nút cha với nút con tương ứng là quan hệ giữa
chuỗi con và chuỗi cha. Cây tiền tố được xây dựng như sau: nút gốc được gán nhãn là một chuỗi rỗng ,
mỗi nút ở mức k được gán nhãn là một mẫu độ dài k. Mở rộng các mẫu độ dài k bằng cách thêm vào 1
item phổ biến ta được các nút cho mức (k + 1) tiếp theo. Có hai cách mở rộng: mở rộng sequence (item
được thêm vào mẫu đóng vai trò là một itemset mới) và mở rộng itemset (item được thêm vào itemset cuối
của mẫu).
Tính chất cây tiền tố: Mẫu X tại nút bất kỳ (trừ nút gốc) là tiền tố của tất cả các mẫu nằm trên các cây
con có gốc là các nút đã mở rộng sequence của X [[4]]. Các mẫu này có dạng X a1 a2 am (với ai là các
itemset).
188
4.2. Thuật toán MSRIC-R
Thuật toán MSRIC-R đưa ràng buộc vào giai đoạn sinh luật dựa trên ý tưởng chính sau: một mẫu X trên
cây là tiền tố hoàn toàn của tất cả các mẫu nằm trên các cây con có gốc là những nút mở rộng sequence
của X; vì vậy, tiến hành sinh luật từ tất cả các mẫu X a1 a2 am (m > 0) nằm trên những cây con này với
vế trái luật là X. Khi đó, luật sinh được có dạng X a1 a2 am. Lưu ý rằng, luật tạo ra phải thỏa ràng
buộc itemset ở vế trái, do đó phải kiểm tra mẫu X có chứa itemset ràng buộc không. Để tránh phải kiểm tra
ràng buộc cho mọi mẫu ở vế trái luật, chúng tôi đề xuất mệnh đề sau.
Mệnh đề 1 (Kiểm tra ràng buộc trên luật). Lấy X là một mẫu trên cây tiền tố, Y là nút mở rộng của X,
ST(Y) là cây con có gốc tại Y. Nếu X chứa itemset c thì mẫu P cũng chứa itemset c, P ST(Y).
Chứng minh: Vì Y là nút mở rộng của X nên theo định nghĩa mở rộng mẫu ta có X Y. P ST(Y), Y P
(theo cách xây dựng cây tiền tố). Do đó, X P (1). Theo giả thiết, X chứa itemset c tức i [1, size(X)], c
xi X (2). Từ (1) và (2) ta có P chứa c.
Dựa vào mệnh 1, thuật toán MSRIC-R có thể sinh luật trực tiếp từ các mẫu và bỏ qua bước kiểm tra ràng
buộc cho một số lượng lớn các luật. Mã giả của thuật toán được trình bày ở Bảng 1. Trước hết, thuật toán
tìm tập tất cả các mẫu tuần tự, áp dụng phương pháp vector bit động và cấu trúc cây tiền tố. Kết quả là tập
các mẫu tuần tự được lưu trữ trên cây tiền tố (dòng 2). Tại mức 1 của cây tiền tố, với mỗi cây con gốc tại
atom, sinh luật tuần tự ứng với từng cây con bằng cách gọi thủ tục MINE-RULE-CHECK (dòng 3 - 4) như
sau: Lấy X là mẫu tại nút gốc root, nếu X có chứa một trong số itemset ràng buộc thì luật có vế trái là X sẽ
thỏa ràng buộc. Do đó, thuật toán sinh các luật với vế trái là X, từ các mẫu trên các cây con mở rộng
sequence của X vì các mẫu này đều có tiền tố hoàn toàn là X bằng cách gọi thủ tục GENERATE-RULES
(dòng 7). Tất cả các nút mở rộng của nút gốc root hiện thời sẽ trở thành tiền tố của những cây con ở mức
kế tiếp, vì vậy gọi đệ quy thủ tục này với từng nút con của root, bao gồm nút con mở rộng sequence và
itemset (dòng 9 -16). Tuy nhiên, theo Mệnh đề 1, nếu X chứa itemset ràng buộc thì mọi mẫu thuộc cây
con mở rộng từ X cũng vậy. Do đó, khi gọi đệ quy thủ tục ta không cần kiểm tra ràng buộc nữa. Thủ tục
MINE-RULE tương tự thủ tục MINE-RULE-CHECK, và chỉ khác ở chỗ bỏ qua bước kiểm tra ràng buộc.
Quá trình đệ quy này được lặp lại cho đến mức cuối cùng của cây.
Bảng 1. Thuật toán MSRIC-R.
Thuật toán MSRIC-R
1. Duyệt CSDL chuỗi tìm F1 và tìm itemset phổ biến trong ℂ ;
2. Phát triễn mẫu từ F1, tìm FP = Tất cả các mẫu có support minSup, lưu trữ trên cây tiền tố;
3. For each node atom at level 1 in FP do
4. MINE-RULE-CHECK(atom);
MINE-RULE-CHECK(root):
5. Lấy Seq-Set = Mở rộng sequence của nút root; Lấy Items-Set = Mở rộng itemset của nút root;
6. If (X = mẫu tại root có chứa itemset c ℂ ) then
7. For each node nseq in Seq-set do
8. Gọi thủ tục GENERATE-RULES(X, ST(nseq));
9. Gọi thủ tục MINE-RULE(nseq);
10. For each node nitem in Items-Set do
11. Gọi thủ tục MINE-RULE(nitem);
12. If (X không thỏa ràng buộc c nào, c ℂ ) then
13. For each node nseq in Seq-set do
189
14. Gọi thủ tục MINE-RULE-CHECK(nseq);
15. For each node nitem in Items-Set do
16. Gọi thủ tục MINE-RULE-CHECK(nitem);
GENERATE-RULES(X, ST(nseq))
1. For each pattern p in ST(nseq) do
2. Tạo luật r = X Y, với X++Y = p;
3. If (sup(p)/sup(X) minConf) then R = R {r};
4. Else Dừng sinh luật với mọi nút con mở rộng từ p;
4.3. Thuật toán MSRIC-P
Thuật toán MSRIC-P đưa ràng buộc vào trong quá trình khai thác, tuy nhiên đưa ở giai đoạn khai thác
mẫu. Thuật toán MSRIC-P sẽ sinh trực tiếp ra mọi luật thỏa ràng buộc ngay lập tức từ tập mẫu thỏa ràng
buộc tìm được, mà không cần phải kiểm tra ràng buộc trên luật như thuật toán MSRIC-R.
Mệnh đề 2 (Sinh luật thỏa ràng buộc). Lấy X là một mẫu trên cây tiền tố chứa tập mẫu FCP, Seq-T(X)
là các cây con có gốc là các nút mở rộng sequence của X. Luật tạo ra từ mẫu p Seq-T(X) với vế trái là
tiền tố X là luật thỏa-c.
Chứng minh: Theo giả thiết vì X FCP nên X là mẫu thỏa-c với c ℂ = {c1, c2... cn}. Mặt khác, p
Seq-T(X) nên ta có X » p. Suy ra p có dạng X a1 a2 am, m > 0, ai là itemset. Vậy ta tạo được luật r từ p
với vế trái là tiền tố X có dạng X a1 a2 am. Vì X là mẫu thỏa-c nên theo ta có r là luật thỏa-c.
Bảng 2. Thuật toán MSRIC-P.
Thuật toán MSRIC-P
Đầu vào: SDB, ℂ = {c1, c2 ..., ck}, minSup, minConf.
Đầu ra: CR = {r: X Y| sup(r) minSup conf(r) minConf
k: 1 k n, X ck, ck ℂ }.
1. Duyệt CSDL chuỗi, tìm itemset trong ℂ phổ biến và tìm FCP = Tất cả các mẫu thỏa ràng buộc ℂ
có support minSup, lưu trữ trên cây tiền tố, sử dụng thuật toán MSPIC-DBV;
2. For each atom in FCP do
3. CR = CR Gọi thủ tục MINE-RULE(atom);
Thuật toán MSRIC-P cũng thực hiện sinh luật theo cách thức của MSRIC-R, đó là một mẫu X trên cây là
tiền tố hoàn toàn của tất cả các mẫu nằm trên các cây con Seq-T(X); vì vậy, thực hiện sinh luật từ tất cả các
mẫu p = X a1 a2 am Seq-T(X), với vế trái luật là X. Khi đó, luật r tạo ra từ p có dạng X a1 a2 am.
Vì mẫu X FCP nên theo Mệnh đề 2 ta có r là luật thỏa-c. Do đó, thuật toán MSRIC-P sinh được ngay
tập luật thỏa ràng buộc mà không cần thực hiện giai đoạn kiểm tra ràng buộc cho tập luật sinh được như
phương pháp đưa ràng buộc vào sau, và cũng không kiểm tra ràng buộc cho mỗi luật tạo ra như MSRIC-
R. Thuật toán MSRIC-P được trình bày ở Bảng 2 gồm hai giai đoạn:
1. Tìm tập FCP gồm các mẫu tuần tự phổ biến thỏa ràng buộc itemset từ CSDL, lưu trên cấu trúc cây
tiền tố [[3]].
2. Sinh các luật r đáng tin cậy thỏa ràng buộc từ tập mẫu FCP.
190
5. KẾT QUẢ THỰC NGHIỆM
5.1. Dữ liệu thực nghiệm
Chúng tôi tiến hành thực nghiệm trên CSDL tổng hợp C20T50S20I10N1kD100k. Vì tập itemset ràng
buộc ℂ do người dùng đưa ra, để thực nghiệm tập ℂ được phát sinh ngẫu nhiên. Độ chọn lọc của ràng buộc
là tỉ lệ (%) itemset được chọn để sinh tập ℂ. Kí hiệu là selectivity. Thực nghiệm so sánh thời gian thực
hiện của các thuật toán: MSRIC-B (đưa ràng buộc vào sau quá trình khai thác), MSRIC-R và MSRIC-P
với sự thay đổi giá trị của minSup, minConf và selectivity.
5.2. Phân tích kết quả
Về hiệu quả
Thực nghiệm so sánh khai thác luật tuần tự đầy đủ (không có ràng buộc) với luật có ràng buộc Itemset ở
vế trái. Kết quả thực nghiệm cho thấy CR R với ℂ . Điều này là dĩ nhiên vì khai thác có ràng buộc
chỉ trả về tập luật thỏa các ràng buộc mà người dùng yêu cầu.
Về thời gian
(1) Selectivity thay đổi.
(2) minSup thay đổi.
(3) minConf thay đổi
Hình 1. So sánh thời gian khai thác luật của các thuật toán trên CSDL C20T50S20I10N1kD100k
Các kết quả thực nghiệm chứng tỏ việc đưa ràng buộc vào trong quá trình khai thác hiệu quả hơn so với
đưa vào sau. Hơn nữa, thời gian khai thác khi đưa ràng buộc vào giai đoạn khai thác mẫu vượt trội hơn
nhiều so với đưa vào giai đoạn sinh luật.
5. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Trong bài báo này, chúng tôi đề xuất phương pháp khai thác luật tuần tự với ràng buộc itemset ở vế trái
một cách hiệu quả bằng cách đưa ràng buộc vào quá trình khai thác, với hai thuật toán MSRIC-R và
MSRIC-P. Trong đó, MSRIC-P thực hiện đưa ràng buộc vào giai đoạn tìm mẫu hiệu quả hơn, chứng tỏ
nên sử dụng tập mẫu thỏa ràng buộc ngay từ đầu để sinh luật có ràng buộc. Hướng phát triển tiếp theo sẽ
tiến hành nghiên cứu bổ sung thêm ràng buộc tập itemset cha, ràng buộc trên vế phải của luật.
191
TÀI LIỆU THAM KHẢO
[1] M. Spiliopoulou (1999), Managing Interesting Rules in Sequence Mining, Proceedings of European
Conference on Principles of Data Mining and Knowledge Discovery, , pp. 554-560.
[2] T. M. Thai, L. Bac, V. Bay & T.P. Hong (2016), Mining non-redundant sequential rules with
dynamic bit vectors and pruning techniques, Appl. Intell. 45(2), pp. 333-342.
[3] V. Trang, V. Bay, & L. Bac (2018), Mining sequential patterns with itemset constraints, Knowledge
and Information Systems 57(2), pp. 311-330.
[4] V. Trang, V. Bay & L. Bac (2011), Minning sequential rules based on prefix-tree, New Challenges
for Intelligent Information and Database Systems. Springer Berlin Heidelberg, pp. 147-156.
[5] V. Trang, V. Bay, & L. Bac (2014), IMSR_PreTree: an improved algorithm for mining sequential
rules based on the prefix-tree, Vietnam Journal Computer Science 1(2), pp. 97-105.