Nhắc lại rằng, các quảng cáo đăng ký trên hệ thống chúng ta được thể hiện ngữ nghĩa dưới dạng các từ khóa tiếng Việt. Nhiệm vụ của hệ thống là phải đi tìm các trang web nào có nội dung phù hợp với từ khóa đó để đăng quảng cáo.
Có nhiều cách để tiếp cận vấn đềnày. Có thể tiếp cận theo hướng phân loại văn bản bằng cách phân loại nội dung văn bản của trang web rồi xét xem từ khóa và nội dung đó có thuộc cùng lĩnh vực hay không.
14 trang |
Chia sẻ: vietpd | Lượt xem: 5021 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Rút trích từ khóa trên văn bản Tiếng việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
49
Rút trích từ khóa trên văn bản Tiếng việt
1.10 Tổng quan
Nhắc lại rằng, các quảng cáo đăng ký trên hệ thống chúng ta được thể hiện ngữ
nghĩa dưới dạng các từ khóa tiếng Việt. Nhiệm vụ của hệ thống là phải đi tìm các trang
web nào có nội dung phù hợp với từ khóa đó để đăng quảng cáo.
Có nhiều cách để tiếp cận vấn đề này. Có thể tiếp cận theo hướng phân loại văn bản
bằng cách phân loại nội dung văn bản của trang web rồi xét xem từ khóa và nội dung
đó có thuộc cùng lĩnh vực hay không. Cũng có thể tiếp cận theo hướng tóm tắt tự động
nội dung văn bản rồi từ đó tiến hành so sánh sự tương đồng của từ khóa với nội dung
đã được tóm tắt. Tuy nhiên, các cách này có vẻ không phù hợp với yêu cầu của luận
văn.
Hướng tiếp cận của luận văn đi theo một hướng khác. Chúng ta sẽ xem từ khóa
(keyword) như là đặc trưng của văn bản. Chúng ta sẽ tiến hành rút trích tự động ra các
từ khóa của nội dung của trang web. Khi đó trang web sẽ được đánh dấu ngắn gọn,
được hiểu như là một tập các từ khóa. Sau đó sẽ tiến hành so khớp giữa các từ khóa nầy
với các từ khóa của các quảng cáo để tìm ra quảng cáo thích hợp nhất cho nội dung
trang web đó.
Bàn thêm, phương pháp so khớp ở đây có thể là so khớp trực tiếp hoặc so khớp ngữ
nghĩa. So khớp trực tiếp là chỉ đơn thuần là một sự so sánh chuỗi (ví dụ: “cà phê” =
“Cà phê”, nhưng “cà phê” “café”). Còn so khớp ngữ nghĩa không so sánh về mặt ký
tự mà so khớp mức độ tương đồng hoặc liên quan về ngữ nghĩa của hai từ khóa (ví dụ:
cà phê = café, bóng đá = đá banh). So khớp về mặt ngữ nghĩa ngôn ngữ tiếng Việt cần
phải có từ điển đồng nghĩa tiếng Việt (Wordnet Tiếng Việt [14]) hoặc dựa vào một độ
đo nào đó về mức độ liên quan giữa các từ. Do thời gian của luận văn có hạn cùng với
50
sự khó khăn trong tìm hoặc xây dựng bộ từ điển Wordnet tiếng Việt nên chúng ta chỉ
thực hiện so khớp trực tiếp đơn thuần.
Lĩnh vực nghiên cứu rút trích từ khóa tự động từ nội dung cho trước là một lĩnh vực
khá quan trọng trong Information Retrieval (IR). Theo Witten [16], “từ khóa là một từ
hay cụm từ cung cấp một mô tả ngắn gọn về nội dung của một tài liệu nào đó”. Rút
trích từ khóa chính là sự chọn lựa tự động các thuật ngữ tiêu biểu mô tả một cách cô
đọng và ngắn gọn nội dung văn bản cần rút trích.
Từ khóa được sử dụng cho nhiều mục đích khác nhau. Bằng cách trích xuất các từ khóa
thích hợp, chúng ta có thể dễ dàng chọn lựa ra tài liệu nào có nội dung nên đọc, nhất là
trong nhiều năm gần đây số lượng các tài liệu được số hóa ngày càng nhiều. Một người
vào xem một trang web chắc hẳn sẽ thích biết được nội dung một cách nhanh nhất
bằng cách xem các từ khóa có sẵn để quyết định có đọc tiếp toàn bộ nội dung trang
web hay không. Khi từ khóa được in ở trang đầu tiên của các bài báo hoặc tạp chí thì
mục đích của nó là tóm tắt. Khi chúng được in ở phần chỉ mục của cuốn sách, nó đóng
vai trò là một chỉ mục, cho phép người đọc có thể nhanh chóng tìm ra được các chương
sách liên quan mà họ cần.
Ngoài ra từ khóa có vai trò quan trọng trong việc hỗ trợ người dùng tìm kiếm thông tin.
Nó có thể cải thiện hiệu quả của các bộ máy tìm kiếm. Việc gán từ khóa bằng tay cho
tài liệu tuy đơn giản, nhưng tốn khá nhiều thời gian, kinh phí, đặc biệt là khi tài liệu
nhiều. Chính vì vậy, bài toán rút trích từ khóa là một nhiệm vụ quan trọng trong IR.
1.11 Một số nghiên cứu gần đây
Một số phương pháp đã được đề xuất cho việc rút trích từ khóa tự động trên tiếng
Anh và tiếng Hoa chủ yếu dựa vào hai hướng tiếp cận: thống kê và máy học.
51
1.11.1 Hướng tiếp cận dựa vào thống kê
Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất hiện để chọn
lựa các từ khóa quan trọng trong văn bản. Ưu điểm chính của các hướng tiếp cận dựa
trên thống kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ.
Thông tin thống kê này thường bao gồm hai loại: Độ đo cục bộ (local weight) và độ đo
toàn cục (global weight). Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn
bản cần rút trích từ khóa. Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó
trong một tập hợp nhiều văn bản khác nhau cho trước.
Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng để lựa chọn các từ khóa
quan trọng như [17]: tần số xuất hiện (TF), độ phân bố chi-bình-phương ( 2χ ), độ lợi
thông tin (IG), thông tin tương hỗ (MI), hoặc độ mạnh của thuật ngữ (TS). Còn về độ
đo thống kê toàn cục thì có thể kể đến độ đo IDF (Inverse Document Frequency), dùng
để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn bản cho trước. Cần
phải có một tập dữ liệu văn bản lớn cho trước để có thể sử dụng độ đo toàn cục.
Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ và toàn
cục là TF.IDF (Term Frequency - Inverse Document Frequency) cũng cho kết quả khá
tốt. Cách tiếp cận của TF.IDF sẽ ước lượng được độ quan trọng của một từ đối với một
văn bản trong danh sách tập tài liệu văn bản cho trước. Nguyên lý cơ bản của TF.IDF
là: “độ quan trọng của một từ sẽ tăng lên cùng với số lần xuất hiện của nó trong văn
bản và sẽ giảm xuống nếu từ đó xuất hiện trong nhiều văn bản khác”. Lý do đơn giản
là vì nếu một từ xuất hiện trong nhiều văn bản khác nhau thì có nghĩa là nó là từ rất
thông dụng vì thế khả năng nó là từ khóa sẽ giảm xuống (ví dụ như các từ “vì thế”,
“tuy nhiên”, “nhưng”, “và”…). Do đó độ đo sự quan trọng của một từ t trong tài liệu f
sẽ được tính bằng: tf * idf, với tf là độ phổ biến của từ t trong tài liệu f và idf là nghịch
52
đảo độ phổ biến của từ t trong các tài liệu còn lại của tập tài liệu. Được tóm tắt trong
công thức tổng quát sau:
tf = (Số lần xuất hiện của từ t trong tài liệu f) / (Tổng số các từ trong tài liệu f)
idf = Log [ (tổng số tài liệu) / (số tài liệu có chứa từ t) ]
Ví dụ nếu chúng ta có một văn bản gồm 100 từ, trong đó từ “bác sĩ” xuất hiện 5 lần thì
ta có độ phổ biến: tf(“bác sĩ”) = 5 / 100 = 0.05. Bây giờ giả sử chúng ta có 1000 tài
liệu, trong đó có 200 tài liệu chứa từ “bác sĩ”. Lúc này ta sẽ tính được idf(“bác sĩ”) =
ln(1000 / 200) = 1.61. Như vậy ta tính được độ đo TF.IDF = tf*idf = 0.05 * 1.61 =
0.0805. Độ đo này của từ càng cao thì khả năng là từ khóa càng lớn. Hướng tiếp cận độ
đo TF.IDF này rất thông dụng hiện nay.
1.11.2 Hướng tiếp cận dựa trên máy học
Hướng này sử dụng mô hình huấn luyện dữ liệu để nhận biết từ khóa dựa vào các
đặc trưng từ vựng và cú pháp. Hướng tiếp cận này đã có nhiều ứng dụng. Taeho Jo [19]
huấn luyện mạng Nơ-ron dựa đặc trưng tf.idf của từ để xác định từ khóa, Witten [16]
áp dụng thuật toán Naïve Bayes trong hệ thống KEA. Hulth [18] sử dụng hệ thống học
có giám sát RDS kết hợp thông tin gán nhãn từ loại.
1.12 Mô hình tiếp cận của luận văn
Luận văn sẽ đi theo hướng tiếp cận thống kê có bổ sung: kết hợp giữa độ đo cục
bộ chi-bình-phương 2χ với độ đo toàn cục IDF.
Tiếp cận theo mô hình này, chúng ta sẽ dựa vào thông tin thống kê trong nội bộ văn
bản ( 2χ ) và thông tin thống kê với tập dữ liệu bên ngoài văn bản (IDF): Đầu tiên ta sẽ
tiền xử lý văn bản để tách ra được các từ khóa tiếng Việt ứng viên, sau đó tính độ phân
bố 2χ của từng từ này trong văn bản cùng với độ đo phân bố IDF của chúng trong tập
văn bản tiếng Việt huấn luyện cho trước. Từ đó tính ra được độ đo quan trọng W của
53
mỗi từ khóa ứng viên “t” bằng cách kết hợp hai độ đo này lại: W(t) = 2χ (t).IDF(t).
Cuối cùng từ nào có độ đo quan trọng cao nhất sẽ được chọn là từ khóa của văn bản.
Hình 0-1: Mô hình rút trích từ khóa trên Tiếng Việt
1.12.1 Tiền xử lý
Ta xem nội dung văn bản gồm nhiều câu. Các câu được ngăn cách nhau bởi dấu
kết thúc câu (là dấu “.”, “?” hoặc “!”) hoặc ký tự xuống hàng (“\n”). Chúng ta cũng
xem các tiêu đề như là một câu. Mỗi câu bao gồm nhiều thuật ngữ. Chú ý rằng, khái
Tiền xử lý
- Tách từ tiếng việt
- Loại bỏ hư từ và các từ chỉ có một tiếng.
Chọn từ phổ biến
- Chọn tập phổ biến: 30% từ phổ biến nhất
- Gom cụm các từ phổ biến theo độ tương tự.
Tính độ quan trọng của từ
- Tính độ đo đặc trưng 2χ của từ: dựa vào sự
đồng hiện với các cụm từ phổ biến
- Tính độ đo phổ biến IDF của từ: dựa vào
tập văn bản huấn luyện.
- Chọn 10% từ khóa có độ đo 2χ *IDF cao
nhất.
Văn bản đầu vào
Bộ từ khóa kết quả
54
niệm “thuật ngữ” trong tiếng Việt ở đây có ý nghĩa là từ hoặc cụm từ. Kể từ đây, để
ngắn gọn và dễ hiểu, ta quy ước gọi thuật ngữ là “từ” hoặc “từ khóa”.
Độ phổ biến của một từ w được xem như là số lần xuất hiện của từ w đó trên toàn bộ
văn bản. Ký hiệu là freq(w). Ví dụ: từ “học sinh” có độ phổ biến là 5, thì có nghĩa là
“học sinh” xuất hiện tổng cộng 5 lần trong toàn văn bản đó và ký hiệu là freq(“học
sinh”) = 5.
Hai từ w1 và w2 được gọi là đồng hiện nếu chúng xuất hiện cùng nhau trong một câu.
Chúng cùng xuất hiện với nhau trong bao nhiêu câu thì ta gọi chúng đồng hiện với
nhau bấy nhiêu lần. Ký hiệu là freq(w1, w2). Ví dụ: độ đồng hiện của hai từ “học sinh”
và “ca hát” là 6, thì có nghĩa là trong toàn văn bản đó có 6 câu có cùng chứa từ “học
sinh” và “ca hát” và ký hiệu là freq(“học sinh”, “ca hát”) = 6.
Chú ý là trong lập trình chúng ta sẽ sử dụng theo tần suất xuất hiện, nghĩa là lấy số lần
xuất hiện của từ chia cho tổng số các lần xuất hiện của tất cả các từ.
Tách từ tiếng Việt:
Trước khi thực hiện trích xuất từ khóa, ta tiến hành tách từ tiếng Việt trước. Như đã đề
cập, bài toán tách từ tiếng Việt là một bài toán khó. Vì không như tiếng Anh, ranh giới
giữa các từ trong tiếng Việt không phải đơn thuần chỉ là những khoảng trắng mà nó đòi
hỏi phải xử lý riêng trước. Mà bài toán xử lý tách từ trong tiếng Việt lại không đơn
giản chút nào. Ví dụ như câu: “Tổ quốc ta đẹp như tranh vẽ” sẽ được tách ra thành các
từ: Tổ quốc | ta | đẹp | như | tranh vẽ. Làm thế nào để tách được thành những từ như
vậy? Trong khuôn khổ luận văn không đề cập sâu đến vấn đề này. Ở đây, luận văn sử
dụng lại bộ công cụ tách từ tiếng Việt theo mô hình so khớp cực đại kết hợp với biểu
thức chính quy [7] của nhóm tác giả Lê Hồng Phương, Nguyễn Thị Minh Huyền,
Azim Roussanaly, Hồ Tường Vinh. Bộ công cụ này cho kết quả tách từ khá tốt với độ
chính xác cao, khoảng 96%-98%.
55
Sau khi tách văn bản thành danh sách các từ, ta tiến hành loại bỏ các hư từ (stopword),
là các từ không có ý nghĩa gì đặc biệt (ví dụ: thì, là, nhỉ, vâng, nếu, như,…). Xem thêm
danh sách các hư từ ở phần Phụ lục.
Bảng 0-1: Danh sách từ tách được cùng với tỷ lệ số lần xuất hiện của chúng trong văn
bản
Từ Độ phổ biến Tần suất
phụ huynh 13 0.265
học sinh 11 0.224
bệnh viện 7 0.142
bác sĩ 7 0.142
TP HCM 5 0.102
tiếp xúc 5 0.102
xét nghiệm 5 0.102
Lo lắng 5 0.102
Tư thục 4 0.081
Ngô Thời Nhiệm 4 0.081
xuất hiện 4 0.081
Nguyễn Khuyến 3 0.061
…. … …
sát khuẩn 2 0.040
Tổng cộng: 49 (từ) 1 (100%)
Các từ còn lại thu được sẽ là các từ khóa ứng viên cho hệ thống, tạm gọi là tập T.
56
1.12.2 Độ đo cục bộ chi-bình-phương 2χ
Độ đo 2χ là độ đo thống kê của một từ trong nội bộ văn bản, được tính toán dựa
trên độ phân bố sự đồng hiện của từ với tập từ phổ biến trong văn bản [3][20].
Đầu tiên thực hiện rút trích các từ phổ biến trong văn bản trước. Sau đó đếm sự đồng
hiện của từng từ trong văn bản với tập từ phổ biến này. Với nhận định rằng, nếu mà từ
nào có độ đồng hiện cao với tập phổ biến thì từ đó có khả năng là từ khóa quan trọng
trong văn bản. Dựa vào đó, tính được độ phân bố chi-bình-phương 2χ của từng từ.
1.12.2.1 Chọn và gom nhóm các từ khóa phổ biến
Tiếp đến, ta sẽ tính độ phổ biến (số lần xuất hiện) của từng từ khóa trong tập từ
khóa ứng viên T. Do ta chỉ quan tâm đến các từ khóa xuất hiện nhiều hơn 1 lần nên ta
sẽ loại bỏ trong tập từ khóa ứng viên các từ khóa nào chỉ xuất hiện 1 lần duy nhất trong
văn bản. Ta cũng loại bỏ các từ chỉ bao gồm một tiếng vì chúng cũng ít có ý nghĩa.
Chọn tiếp ra top 30% từ khóa có độ phổ biến cao nhất trong tập ứng viên, tạm gọi là
tập từ khóa phổ biến G.
Kế đến ta thực hiện gom nhóm các từ khóa trong tập G này. Điều này nhằm để tăng
hiệu suất của thuật toán, cải thiện chất lượng từ khóa được rút trích. Có rất nhiều công
trình nghiên cứu liên quan đến việc gom nhóm từ. Nhưng có hai tiếp cận chính:
o Gom nhóm dựa vào đặc điểm tương tự (Similarity-based clustering):
Nếu từ w1 và w2 có sự phân bố tương tự nhau về tần số đồng hiện với các từ
khác thì xem như từ w1 và w2 thuộc cùng một nhóm. Để đánh giá sự tương tự
nhau của hai cách phân bố, chúng ta sử dụng độ đo Jensen-Shannon [3]:
( ) ( ) ( )( ) ( )( ) ( )( )}{∑
∈
−−++=
Gw
wwPhwwPhwwPwwPhwwJ
'
212121 |'|'|'|'2
12log, (0.1)
57
J(w1, w2) ≥ 0.95*log2
Với:
+ h(x) = -x log x
+ ( ) ( )
)(
,'|'
1
1
1 wfreq
wwfreqwwP =
Hai từ w1 và w2 cùng thuộc một nhóm khi độ đo J(w1, w2) lớn hơn ngưỡng sau
(các ngưỡng được đưa ra trong quá trình thực nghiệm):
o Góm nhóm dựa vào sự ghép cặp của hai thuật ngữ (Pairwise clustering):
Nếu hai từ w1 và w2 đồng hiện một cách thường xuyên với nhau thì w1 và w2
xem như cùng thuộc một nhóm. Để đánh giá sự liên quan này, chúng ta sử dụng
độ đo thông tin tương hỗ Mutual Information (MI) [3]:
)()(
),(),(
21
21
21 wPwP
wwPLogwwMI =
)()(
),(
21
21
wfreqwfreq
wwfreqN
Log total= (0.2)
Với:
+ Ntotal = tổng số từ trong tập từ khóa ứng viên T.
+ freq(w1, w2) là số lần xuất hiện cùng nhau của w1 và w2.
+ freq(w1), freq(w2) là số lần xuất hiện độc lập của w1 và w2.
Hai từ w1 và w2 thuộc cùng một nhóm khi có độ đo MI lớn hơn ngưỡng:
58
Chúng ta sẽ kết hợp cả hai độ đo này để thực hiện gom nhóm trên tập các từ khóa phổ
biến G. Những từ nào trong tập G thõa mãn hai độ đo này sẽ được gom chung một
nhóm. Những nhóm gom được ta tạm gọi là tập C.
Ghi chú: Từ đây về sau, ta ngầm hiểu số lần xuất hiện của một từ w với một nhóm c (ký
hiệu freq(w, c)) là số lần cùng xuất hiện của từ w đó và với bất kỳ một từ w’ nào thuộc
nhóm c.
Tần suất xuất hiện của mỗi nhóm c trong tập C được tính bằng công thức:
pc = nc / Ntotal (0.3)
Với nc là tổng số từ trong các câu có chứa bất kỳ từ nào trong nhóm c
1.12.2.2 Tính độ phân bố 2χ của từ
Sau khi gom nhóm tập từ khóa phổ biến G. Với mỗi từ khóa w trong tập ứng viên T, ta
tính giá trị thống kê chi-bình-phương 2χ của nó theo công thức sau:
( ) ( )⎪⎩
⎪⎨
⎧
⎭⎬
⎫−−
⎩⎨
⎧
⎭⎬
⎫−=
∈∈
∑
cw
cw
CcCc cw
cw
pn
pncwfreq
pn
pncwfreqw
22
2 ),(max)),((χ (0.4)
Với:
+ freq(w, c): số lần xuất hiện cùng nhau của từ w và nhóm c.
+ nw: tổng số từ có trong các câu mà w xuất hiện.
+ pc: là tần suất xuất hiện của nhóm c
MI(w1, w2) ≥ log2
59
Độ đo 2χ được xem như độ quan trọng của từ khóa trong văn bản. Độ đo này của từ
càng cao thì từ đó có khả năng là từ khóa càng nhiều.
Bảng 0-2: Độ đo 2χ của từ
Từ Độ đo 2χ Độ phổ biến Tần suất
phụ huynh 44.566795581206236 13 0.265
TP HCM 34.1452139221521 5 0.102
bác sĩ 34.1202578052199 7 0.142
học sinh 33.7269537744935 4 0.081
bệnh viện 24.9222099635356 7 0.142
xét nghiệm 22.5462286122279 5 0.102
lo lắng 22.2193231561679 5 0.102
Sở Y Tế 21.4872531853224 3 0.061
tiếp xúc 21.2038984993111 5 0.102
Nguyễn Khuyến 13.2319696725004 3 0.061
khẩu trang 12.5039076470623 4 0.081
…. … … …
sát khuẩn 8.35747010174332 2 0.040
Tổng cộng: 49 (từ) 1 (100%)
Độ đo 2χ cho thấy rằng không phải từ xuất hiện nhiều thì từ đó sẽ là từ quan trọng.
Minh họa bởi bảng 3-2.
60
1.12.3 Độ đo toàn cục IDF
Sau khi đã tính được độ đo cục bộ 2χ , ta sẽ tính độ đo phổ biến toàn cục IDF của từ
trong tập văn bản có sẵn. Như đã đề cập ở phần trước, độ đo này được sử dụng với ý
tưởng rằng nếu một từ mà xuất hiện thường xuyên trong nhiều văn bản khác nhau thì
có nghĩa rằng từ đó ít quan trọng vì nó quá phổ biến. Nói tóm lại, càng phổ biến trong
các tài liệu khác nhau thì độ quan trọng của từ càng giảm.
Công thức tính IDF của một từ “t” trong tập văn bản D như sau:
IDF(t) = Log |}:{|
||
dtd
D
∈ (0.5)
Với:
|D| là số tài liệu trong tập tài liệu D
|{d:t∈d}| là số tài liệu trong D có chứa từ t
Luận văn chọn tập văn bản D là bộ dữ liệu gồm 1000 văn bản lấy từ trang web E-VĂN
( Dữ liệu này sẽ được xử lý phân tích tách từ sẵn và lưu
trước vào một tập tin duy nhất để tăng tốc quá trình tính toán.
Kết hợp độ đo IDF này để ước lượng lại độ quan trọng 2χ đã tính được của từ.
1.12.4 Độ đo kết hợp
Độ đo này do luận văn đề xuất để thử nghiệm cải tiến chất lượng của từ khóa. Chúng ta
sẽ đo độ quan trọng của một từ bằng cách kết hợp độ phân bố cục bộ 2χ và độ đo toàn
cục IDF:
)().()( 2 tIDFttWeight χ= (0.6)
61
Từ đây, ta sẽ chọn ra các từ khóa có giá trị Weight cao làm từ khóa đại diện của văn
bản. Trong khuôn khổ luận văn này, chúng ta sẽ chọn ra 15 từ có giá trị 2χ cao nhất làm
từ khóa.
1.13 Kết quả thử nghiệm
Để kiểm thử tính đúng đắn của thuật giải rút trích từ khóa đề xuất trên, chúng ta
sẽ làm thí nghiệm trên dữ liệu 20 tóm tắt các bài báo tiếng Việt từ các hội nghị trong
nước với các phương pháp thử nghiệm khác nhau để so sánh. Mục tiêu của thí nghiệm
này là kiểm chứng xem mô hình đề xuất có rút trích được các từ khóa một cách đúng
đắn hay không và cũng so sánh độ tin cậy so với các phương pháp khác.
Mỗi bài báo lấy được sẽ được sao chép và biên tập lại phần định dạng nội dung cho
phù hợp và lưu vào một tập tin. Các từ khóa có sẵn trong bài báo được sao chép ra mội
tập tin khác như là tập tin kết quả để có thể so sánh lại với kết quả rút trích từ khóa tự
động của hệ thống.
Để thẩm định tính đúng đắn của mô hình này, ta cũng tiến hành kiểm thử với hai độ đo
là: độ chính xác và độ bao phủ.
Trong khuôn khổ của vấn đề này, các độ đo trên được định nghĩa như sau:
+ Độ chính xác: được tính là tỷ lệ phần trăm số từ khóa rút trích đúng so với tổng số từ
khóa rút trích được.
Precision = Số từ khóa rút trích đúng / Tổng số từ khóa rút trích
+ Độ bao phủ: được tính là tỷ lệ phần trăm số từ khóa rút trích đúng so với số từ khóa
đúng của văn bản.
Recall = Số từ khóa rút trích đúng / Số từ khóa đúng của văn bản
+ Ngoài ra, ta cũng sử dụng độ đo F2 để tính độ đo trung bình của hai độ đo trên:
62
recallprecision
recallprecisionF ++= .
.).1( 2
2
βββ , với 2=β (0.7)
Các bài báo đã được biên tập và các tập tin chứa kết quả từ khóa có sẵn sẽ được sắp
xếp và đặt tên theo một định dạng thích hợp để có thể dễ dàng chạy kiểm thử.
Sau khi đã chuẩn bị đầy đủ bộ dữ liệu thử nghiệm, ta tiến hành chạy chương trình kiểm
thử giải thuật và thu được kết quả như bảng sau:
Bảng 0-3: Kết quả thử nghiệm rút trích từ khóa tự động và so sánh với các phương
pháp khác
Phương pháp/Độ đo Độ chính xác
trung bình (%)
Độ bao phủ
trung bình (%)
Độ đo F2
trung bình (%)
P/p Đồng hiện từ 21.87 60.91 44.31
P/p TF.IDF 22.33 58.59 43.71
P/p đề xuất 23.12 63.71 46.55
Kết quả này rất đáng khích lệ vì nó cho kết quả cao hơn các phương pháp khác mặc dù
tập dữ liệu thử nghiệm không quá lớn.
Chúng ta sẽ áp dụng giải thuật này vào trong hệ thống.