Rút trích từ khóa trên văn bản Tiếng việt

Nhắc lại rằng, các quảng cáo đăng ký trên hệ thống chúng ta được thể hiện ngữ nghĩa dưới dạng các từ khóa tiếng Việt. Nhiệm vụ của hệ thống là phải đi tìm các trang web nào có nội dung phù hợp với từ khóa đó để đăng quảng cáo. Có nhiều cách để tiếp cận vấn đềnày. Có thể tiếp cận theo hướng phân loại văn bản bằng cách phân loại nội dung văn bản của trang web rồi xét xem từ khóa và nội dung đó có thuộc cùng lĩnh vực hay không.

pdf14 trang | Chia sẻ: vietpd | Lượt xem: 5048 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Rút trích từ khóa trên văn bản Tiếng việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
49 Rút trích từ khóa trên văn bản Tiếng việt 1.10 Tổng quan Nhắc lại rằng, các quảng cáo đăng ký trên hệ thống chúng ta được thể hiện ngữ nghĩa dưới dạng các từ khóa tiếng Việt. Nhiệm vụ của hệ thống là phải đi tìm các trang web nào có nội dung phù hợp với từ khóa đó để đăng quảng cáo. Có nhiều cách để tiếp cận vấn đề này. Có thể tiếp cận theo hướng phân loại văn bản bằng cách phân loại nội dung văn bản của trang web rồi xét xem từ khóa và nội dung đó có thuộc cùng lĩnh vực hay không. Cũng có thể tiếp cận theo hướng tóm tắt tự động nội dung văn bản rồi từ đó tiến hành so sánh sự tương đồng của từ khóa với nội dung đã được tóm tắt. Tuy nhiên, các cách này có vẻ không phù hợp với yêu cầu của luận văn. Hướng tiếp cận của luận văn đi theo một hướng khác. Chúng ta sẽ xem từ khóa (keyword) như là đặc trưng của văn bản. Chúng ta sẽ tiến hành rút trích tự động ra các từ khóa của nội dung của trang web. Khi đó trang web sẽ được đánh dấu ngắn gọn, được hiểu như là một tập các từ khóa. Sau đó sẽ tiến hành so khớp giữa các từ khóa nầy với các từ khóa của các quảng cáo để tìm ra quảng cáo thích hợp nhất cho nội dung trang web đó. Bàn thêm, phương pháp so khớp ở đây có thể là so khớp trực tiếp hoặc so khớp ngữ nghĩa. So khớp trực tiếp là chỉ đơn thuần là một sự so sánh chuỗi (ví dụ: “cà phê” = “Cà phê”, nhưng “cà phê” “café”). Còn so khớp ngữ nghĩa không so sánh về mặt ký tự mà so khớp mức độ tương đồng hoặc liên quan về ngữ nghĩa của hai từ khóa (ví dụ: cà phê = café, bóng đá = đá banh). So khớp về mặt ngữ nghĩa ngôn ngữ tiếng Việt cần phải có từ điển đồng nghĩa tiếng Việt (Wordnet Tiếng Việt [14]) hoặc dựa vào một độ đo nào đó về mức độ liên quan giữa các từ. Do thời gian của luận văn có hạn cùng với 50 sự khó khăn trong tìm hoặc xây dựng bộ từ điển Wordnet tiếng Việt nên chúng ta chỉ thực hiện so khớp trực tiếp đơn thuần. Lĩnh vực nghiên cứu rút trích từ khóa tự động từ nội dung cho trước là một lĩnh vực khá quan trọng trong Information Retrieval (IR). Theo Witten [16], “từ khóa là một từ hay cụm từ cung cấp một mô tả ngắn gọn về nội dung của một tài liệu nào đó”. Rút trích từ khóa chính là sự chọn lựa tự động các thuật ngữ tiêu biểu mô tả một cách cô đọng và ngắn gọn nội dung văn bản cần rút trích. Từ khóa được sử dụng cho nhiều mục đích khác nhau. Bằng cách trích xuất các từ khóa thích hợp, chúng ta có thể dễ dàng chọn lựa ra tài liệu nào có nội dung nên đọc, nhất là trong nhiều năm gần đây số lượng các tài liệu được số hóa ngày càng nhiều. Một người vào xem một trang web chắc hẳn sẽ thích biết được nội dung một cách nhanh nhất bằng cách xem các từ khóa có sẵn để quyết định có đọc tiếp toàn bộ nội dung trang web hay không. Khi từ khóa được in ở trang đầu tiên của các bài báo hoặc tạp chí thì mục đích của nó là tóm tắt. Khi chúng được in ở phần chỉ mục của cuốn sách, nó đóng vai trò là một chỉ mục, cho phép người đọc có thể nhanh chóng tìm ra được các chương sách liên quan mà họ cần. Ngoài ra từ khóa có vai trò quan trọng trong việc hỗ trợ người dùng tìm kiếm thông tin. Nó có thể cải thiện hiệu quả của các bộ máy tìm kiếm. Việc gán từ khóa bằng tay cho tài liệu tuy đơn giản, nhưng tốn khá nhiều thời gian, kinh phí, đặc biệt là khi tài liệu nhiều. Chính vì vậy, bài toán rút trích từ khóa là một nhiệm vụ quan trọng trong IR. 1.11 Một số nghiên cứu gần đây Một số phương pháp đã được đề xuất cho việc rút trích từ khóa tự động trên tiếng Anh và tiếng Hoa chủ yếu dựa vào hai hướng tiếp cận: thống kê và máy học. 51 1.11.1 Hướng tiếp cận dựa vào thống kê Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất hiện để chọn lựa các từ khóa quan trọng trong văn bản. Ưu điểm chính của các hướng tiếp cận dựa trên thống kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ. Thông tin thống kê này thường bao gồm hai loại: Độ đo cục bộ (local weight) và độ đo toàn cục (global weight). Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần rút trích từ khóa. Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hợp nhiều văn bản khác nhau cho trước. Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng để lựa chọn các từ khóa quan trọng như [17]: tần số xuất hiện (TF), độ phân bố chi-bình-phương ( 2χ ), độ lợi thông tin (IG), thông tin tương hỗ (MI), hoặc độ mạnh của thuật ngữ (TS). Còn về độ đo thống kê toàn cục thì có thể kể đến độ đo IDF (Inverse Document Frequency), dùng để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn bản cho trước. Cần phải có một tập dữ liệu văn bản lớn cho trước để có thể sử dụng độ đo toàn cục. Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ và toàn cục là TF.IDF (Term Frequency - Inverse Document Frequency) cũng cho kết quả khá tốt. Cách tiếp cận của TF.IDF sẽ ước lượng được độ quan trọng của một từ đối với một văn bản trong danh sách tập tài liệu văn bản cho trước. Nguyên lý cơ bản của TF.IDF là: “độ quan trọng của một từ sẽ tăng lên cùng với số lần xuất hiện của nó trong văn bản và sẽ giảm xuống nếu từ đó xuất hiện trong nhiều văn bản khác”. Lý do đơn giản là vì nếu một từ xuất hiện trong nhiều văn bản khác nhau thì có nghĩa là nó là từ rất thông dụng vì thế khả năng nó là từ khóa sẽ giảm xuống (ví dụ như các từ “vì thế”, “tuy nhiên”, “nhưng”, “và”…). Do đó độ đo sự quan trọng của một từ t trong tài liệu f sẽ được tính bằng: tf * idf, với tf là độ phổ biến của từ t trong tài liệu f và idf là nghịch 52 đảo độ phổ biến của từ t trong các tài liệu còn lại của tập tài liệu. Được tóm tắt trong công thức tổng quát sau: tf = (Số lần xuất hiện của từ t trong tài liệu f) / (Tổng số các từ trong tài liệu f) idf = Log [ (tổng số tài liệu) / (số tài liệu có chứa từ t) ] Ví dụ nếu chúng ta có một văn bản gồm 100 từ, trong đó từ “bác sĩ” xuất hiện 5 lần thì ta có độ phổ biến: tf(“bác sĩ”) = 5 / 100 = 0.05. Bây giờ giả sử chúng ta có 1000 tài liệu, trong đó có 200 tài liệu chứa từ “bác sĩ”. Lúc này ta sẽ tính được idf(“bác sĩ”) = ln(1000 / 200) = 1.61. Như vậy ta tính được độ đo TF.IDF = tf*idf = 0.05 * 1.61 = 0.0805. Độ đo này của từ càng cao thì khả năng là từ khóa càng lớn. Hướng tiếp cận độ đo TF.IDF này rất thông dụng hiện nay. 1.11.2 Hướng tiếp cận dựa trên máy học Hướng này sử dụng mô hình huấn luyện dữ liệu để nhận biết từ khóa dựa vào các đặc trưng từ vựng và cú pháp. Hướng tiếp cận này đã có nhiều ứng dụng. Taeho Jo [19] huấn luyện mạng Nơ-ron dựa đặc trưng tf.idf của từ để xác định từ khóa, Witten [16] áp dụng thuật toán Naïve Bayes trong hệ thống KEA. Hulth [18] sử dụng hệ thống học có giám sát RDS kết hợp thông tin gán nhãn từ loại. 1.12 Mô hình tiếp cận của luận văn Luận văn sẽ đi theo hướng tiếp cận thống kê có bổ sung: kết hợp giữa độ đo cục bộ chi-bình-phương 2χ với độ đo toàn cục IDF. Tiếp cận theo mô hình này, chúng ta sẽ dựa vào thông tin thống kê trong nội bộ văn bản ( 2χ ) và thông tin thống kê với tập dữ liệu bên ngoài văn bản (IDF): Đầu tiên ta sẽ tiền xử lý văn bản để tách ra được các từ khóa tiếng Việt ứng viên, sau đó tính độ phân bố 2χ của từng từ này trong văn bản cùng với độ đo phân bố IDF của chúng trong tập văn bản tiếng Việt huấn luyện cho trước. Từ đó tính ra được độ đo quan trọng W của 53 mỗi từ khóa ứng viên “t” bằng cách kết hợp hai độ đo này lại: W(t) = 2χ (t).IDF(t). Cuối cùng từ nào có độ đo quan trọng cao nhất sẽ được chọn là từ khóa của văn bản. Hình 0-1: Mô hình rút trích từ khóa trên Tiếng Việt 1.12.1 Tiền xử lý Ta xem nội dung văn bản gồm nhiều câu. Các câu được ngăn cách nhau bởi dấu kết thúc câu (là dấu “.”, “?” hoặc “!”) hoặc ký tự xuống hàng (“\n”). Chúng ta cũng xem các tiêu đề như là một câu. Mỗi câu bao gồm nhiều thuật ngữ. Chú ý rằng, khái Tiền xử lý - Tách từ tiếng việt - Loại bỏ hư từ và các từ chỉ có một tiếng. Chọn từ phổ biến - Chọn tập phổ biến: 30% từ phổ biến nhất - Gom cụm các từ phổ biến theo độ tương tự. Tính độ quan trọng của từ - Tính độ đo đặc trưng 2χ của từ: dựa vào sự đồng hiện với các cụm từ phổ biến - Tính độ đo phổ biến IDF của từ: dựa vào tập văn bản huấn luyện. - Chọn 10% từ khóa có độ đo 2χ *IDF cao nhất. Văn bản đầu vào Bộ từ khóa kết quả 54 niệm “thuật ngữ” trong tiếng Việt ở đây có ý nghĩa là từ hoặc cụm từ. Kể từ đây, để ngắn gọn và dễ hiểu, ta quy ước gọi thuật ngữ là “từ” hoặc “từ khóa”. Độ phổ biến của một từ w được xem như là số lần xuất hiện của từ w đó trên toàn bộ văn bản. Ký hiệu là freq(w). Ví dụ: từ “học sinh” có độ phổ biến là 5, thì có nghĩa là “học sinh” xuất hiện tổng cộng 5 lần trong toàn văn bản đó và ký hiệu là freq(“học sinh”) = 5. Hai từ w1 và w2 được gọi là đồng hiện nếu chúng xuất hiện cùng nhau trong một câu. Chúng cùng xuất hiện với nhau trong bao nhiêu câu thì ta gọi chúng đồng hiện với nhau bấy nhiêu lần. Ký hiệu là freq(w1, w2). Ví dụ: độ đồng hiện của hai từ “học sinh” và “ca hát” là 6, thì có nghĩa là trong toàn văn bản đó có 6 câu có cùng chứa từ “học sinh” và “ca hát” và ký hiệu là freq(“học sinh”, “ca hát”) = 6. Chú ý là trong lập trình chúng ta sẽ sử dụng theo tần suất xuất hiện, nghĩa là lấy số lần xuất hiện của từ chia cho tổng số các lần xuất hiện của tất cả các từ. Tách từ tiếng Việt: Trước khi thực hiện trích xuất từ khóa, ta tiến hành tách từ tiếng Việt trước. Như đã đề cập, bài toán tách từ tiếng Việt là một bài toán khó. Vì không như tiếng Anh, ranh giới giữa các từ trong tiếng Việt không phải đơn thuần chỉ là những khoảng trắng mà nó đòi hỏi phải xử lý riêng trước. Mà bài toán xử lý tách từ trong tiếng Việt lại không đơn giản chút nào. Ví dụ như câu: “Tổ quốc ta đẹp như tranh vẽ” sẽ được tách ra thành các từ: Tổ quốc | ta | đẹp | như | tranh vẽ. Làm thế nào để tách được thành những từ như vậy? Trong khuôn khổ luận văn không đề cập sâu đến vấn đề này. Ở đây, luận văn sử dụng lại bộ công cụ tách từ tiếng Việt theo mô hình so khớp cực đại kết hợp với biểu thức chính quy [7] của nhóm tác giả Lê Hồng Phương, Nguyễn Thị Minh Huyền, Azim Roussanaly, Hồ Tường Vinh. Bộ công cụ này cho kết quả tách từ khá tốt với độ chính xác cao, khoảng 96%-98%. 55 Sau khi tách văn bản thành danh sách các từ, ta tiến hành loại bỏ các hư từ (stopword), là các từ không có ý nghĩa gì đặc biệt (ví dụ: thì, là, nhỉ, vâng, nếu, như,…). Xem thêm danh sách các hư từ ở phần Phụ lục. Bảng 0-1: Danh sách từ tách được cùng với tỷ lệ số lần xuất hiện của chúng trong văn bản Từ Độ phổ biến Tần suất phụ huynh 13 0.265 học sinh 11 0.224 bệnh viện 7 0.142 bác sĩ 7 0.142 TP HCM 5 0.102 tiếp xúc 5 0.102 xét nghiệm 5 0.102 Lo lắng 5 0.102 Tư thục 4 0.081 Ngô Thời Nhiệm 4 0.081 xuất hiện 4 0.081 Nguyễn Khuyến 3 0.061 …. … … sát khuẩn 2 0.040 Tổng cộng: 49 (từ) 1 (100%) Các từ còn lại thu được sẽ là các từ khóa ứng viên cho hệ thống, tạm gọi là tập T. 56 1.12.2 Độ đo cục bộ chi-bình-phương 2χ Độ đo 2χ là độ đo thống kê của một từ trong nội bộ văn bản, được tính toán dựa trên độ phân bố sự đồng hiện của từ với tập từ phổ biến trong văn bản [3][20]. Đầu tiên thực hiện rút trích các từ phổ biến trong văn bản trước. Sau đó đếm sự đồng hiện của từng từ trong văn bản với tập từ phổ biến này. Với nhận định rằng, nếu mà từ nào có độ đồng hiện cao với tập phổ biến thì từ đó có khả năng là từ khóa quan trọng trong văn bản. Dựa vào đó, tính được độ phân bố chi-bình-phương 2χ của từng từ. 1.12.2.1 Chọn và gom nhóm các từ khóa phổ biến Tiếp đến, ta sẽ tính độ phổ biến (số lần xuất hiện) của từng từ khóa trong tập từ khóa ứng viên T. Do ta chỉ quan tâm đến các từ khóa xuất hiện nhiều hơn 1 lần nên ta sẽ loại bỏ trong tập từ khóa ứng viên các từ khóa nào chỉ xuất hiện 1 lần duy nhất trong văn bản. Ta cũng loại bỏ các từ chỉ bao gồm một tiếng vì chúng cũng ít có ý nghĩa. Chọn tiếp ra top 30% từ khóa có độ phổ biến cao nhất trong tập ứng viên, tạm gọi là tập từ khóa phổ biến G. Kế đến ta thực hiện gom nhóm các từ khóa trong tập G này. Điều này nhằm để tăng hiệu suất của thuật toán, cải thiện chất lượng từ khóa được rút trích. Có rất nhiều công trình nghiên cứu liên quan đến việc gom nhóm từ. Nhưng có hai tiếp cận chính: o Gom nhóm dựa vào đặc điểm tương tự (Similarity-based clustering): Nếu từ w1 và w2 có sự phân bố tương tự nhau về tần số đồng hiện với các từ khác thì xem như từ w1 và w2 thuộc cùng một nhóm. Để đánh giá sự tương tự nhau của hai cách phân bố, chúng ta sử dụng độ đo Jensen-Shannon [3]: ( ) ( ) ( )( ) ( )( ) ( )( )}{∑ ∈ −−++= Gw wwPhwwPhwwPwwPhwwJ ' 212121 |'|'|'|'2 12log, (0.1) 57 J(w1, w2) ≥ 0.95*log2 Với: + h(x) = -x log x + ( ) ( ) )( ,'|' 1 1 1 wfreq wwfreqwwP = Hai từ w1 và w2 cùng thuộc một nhóm khi độ đo J(w1, w2) lớn hơn ngưỡng sau (các ngưỡng được đưa ra trong quá trình thực nghiệm): o Góm nhóm dựa vào sự ghép cặp của hai thuật ngữ (Pairwise clustering): Nếu hai từ w1 và w2 đồng hiện một cách thường xuyên với nhau thì w1 và w2 xem như cùng thuộc một nhóm. Để đánh giá sự liên quan này, chúng ta sử dụng độ đo thông tin tương hỗ Mutual Information (MI) [3]: )()( ),(),( 21 21 21 wPwP wwPLogwwMI = )()( ),( 21 21 wfreqwfreq wwfreqN Log total= (0.2) Với: + Ntotal = tổng số từ trong tập từ khóa ứng viên T. + freq(w1, w2) là số lần xuất hiện cùng nhau của w1 và w2. + freq(w1), freq(w2) là số lần xuất hiện độc lập của w1 và w2. Hai từ w1 và w2 thuộc cùng một nhóm khi có độ đo MI lớn hơn ngưỡng: 58 Chúng ta sẽ kết hợp cả hai độ đo này để thực hiện gom nhóm trên tập các từ khóa phổ biến G. Những từ nào trong tập G thõa mãn hai độ đo này sẽ được gom chung một nhóm. Những nhóm gom được ta tạm gọi là tập C. Ghi chú: Từ đây về sau, ta ngầm hiểu số lần xuất hiện của một từ w với một nhóm c (ký hiệu freq(w, c)) là số lần cùng xuất hiện của từ w đó và với bất kỳ một từ w’ nào thuộc nhóm c. Tần suất xuất hiện của mỗi nhóm c trong tập C được tính bằng công thức: pc = nc / Ntotal (0.3) Với nc là tổng số từ trong các câu có chứa bất kỳ từ nào trong nhóm c 1.12.2.2 Tính độ phân bố 2χ của từ Sau khi gom nhóm tập từ khóa phổ biến G. Với mỗi từ khóa w trong tập ứng viên T, ta tính giá trị thống kê chi-bình-phương 2χ của nó theo công thức sau: ( ) ( )⎪⎩ ⎪⎨ ⎧ ⎭⎬ ⎫−− ⎩⎨ ⎧ ⎭⎬ ⎫−= ∈∈ ∑ cw cw CcCc cw cw pn pncwfreq pn pncwfreqw 22 2 ),(max)),((χ (0.4) Với: + freq(w, c): số lần xuất hiện cùng nhau của từ w và nhóm c. + nw: tổng số từ có trong các câu mà w xuất hiện. + pc: là tần suất xuất hiện của nhóm c MI(w1, w2) ≥ log2 59 Độ đo 2χ được xem như độ quan trọng của từ khóa trong văn bản. Độ đo này của từ càng cao thì từ đó có khả năng là từ khóa càng nhiều. Bảng 0-2: Độ đo 2χ của từ Từ Độ đo 2χ Độ phổ biến Tần suất phụ huynh 44.566795581206236 13 0.265 TP HCM 34.1452139221521 5 0.102 bác sĩ 34.1202578052199 7 0.142 học sinh 33.7269537744935 4 0.081 bệnh viện 24.9222099635356 7 0.142 xét nghiệm 22.5462286122279 5 0.102 lo lắng 22.2193231561679 5 0.102 Sở Y Tế 21.4872531853224 3 0.061 tiếp xúc 21.2038984993111 5 0.102 Nguyễn Khuyến 13.2319696725004 3 0.061 khẩu trang 12.5039076470623 4 0.081 …. … … … sát khuẩn 8.35747010174332 2 0.040 Tổng cộng: 49 (từ) 1 (100%) Độ đo 2χ cho thấy rằng không phải từ xuất hiện nhiều thì từ đó sẽ là từ quan trọng. Minh họa bởi bảng 3-2. 60 1.12.3 Độ đo toàn cục IDF Sau khi đã tính được độ đo cục bộ 2χ , ta sẽ tính độ đo phổ biến toàn cục IDF của từ trong tập văn bản có sẵn. Như đã đề cập ở phần trước, độ đo này được sử dụng với ý tưởng rằng nếu một từ mà xuất hiện thường xuyên trong nhiều văn bản khác nhau thì có nghĩa rằng từ đó ít quan trọng vì nó quá phổ biến. Nói tóm lại, càng phổ biến trong các tài liệu khác nhau thì độ quan trọng của từ càng giảm. Công thức tính IDF của một từ “t” trong tập văn bản D như sau: IDF(t) = Log |}:{| || dtd D ∈ (0.5) Với: |D| là số tài liệu trong tập tài liệu D |{d:t∈d}| là số tài liệu trong D có chứa từ t Luận văn chọn tập văn bản D là bộ dữ liệu gồm 1000 văn bản lấy từ trang web E-VĂN ( Dữ liệu này sẽ được xử lý phân tích tách từ sẵn và lưu trước vào một tập tin duy nhất để tăng tốc quá trình tính toán. Kết hợp độ đo IDF này để ước lượng lại độ quan trọng 2χ đã tính được của từ. 1.12.4 Độ đo kết hợp Độ đo này do luận văn đề xuất để thử nghiệm cải tiến chất lượng của từ khóa. Chúng ta sẽ đo độ quan trọng của một từ bằng cách kết hợp độ phân bố cục bộ 2χ và độ đo toàn cục IDF: )().()( 2 tIDFttWeight χ= (0.6) 61 Từ đây, ta sẽ chọn ra các từ khóa có giá trị Weight cao làm từ khóa đại diện của văn bản. Trong khuôn khổ luận văn này, chúng ta sẽ chọn ra 15 từ có giá trị 2χ cao nhất làm từ khóa. 1.13 Kết quả thử nghiệm Để kiểm thử tính đúng đắn của thuật giải rút trích từ khóa đề xuất trên, chúng ta sẽ làm thí nghiệm trên dữ liệu 20 tóm tắt các bài báo tiếng Việt từ các hội nghị trong nước với các phương pháp thử nghiệm khác nhau để so sánh. Mục tiêu của thí nghiệm này là kiểm chứng xem mô hình đề xuất có rút trích được các từ khóa một cách đúng đắn hay không và cũng so sánh độ tin cậy so với các phương pháp khác. Mỗi bài báo lấy được sẽ được sao chép và biên tập lại phần định dạng nội dung cho phù hợp và lưu vào một tập tin. Các từ khóa có sẵn trong bài báo được sao chép ra mội tập tin khác như là tập tin kết quả để có thể so sánh lại với kết quả rút trích từ khóa tự động của hệ thống. Để thẩm định tính đúng đắn của mô hình này, ta cũng tiến hành kiểm thử với hai độ đo là: độ chính xác và độ bao phủ. Trong khuôn khổ của vấn đề này, các độ đo trên được định nghĩa như sau: + Độ chính xác: được tính là tỷ lệ phần trăm số từ khóa rút trích đúng so với tổng số từ khóa rút trích được. Precision = Số từ khóa rút trích đúng / Tổng số từ khóa rút trích + Độ bao phủ: được tính là tỷ lệ phần trăm số từ khóa rút trích đúng so với số từ khóa đúng của văn bản. Recall = Số từ khóa rút trích đúng / Số từ khóa đúng của văn bản + Ngoài ra, ta cũng sử dụng độ đo F2 để tính độ đo trung bình của hai độ đo trên: 62 recallprecision recallprecisionF ++= . .).1( 2 2 βββ , với 2=β (0.7) Các bài báo đã được biên tập và các tập tin chứa kết quả từ khóa có sẵn sẽ được sắp xếp và đặt tên theo một định dạng thích hợp để có thể dễ dàng chạy kiểm thử. Sau khi đã chuẩn bị đầy đủ bộ dữ liệu thử nghiệm, ta tiến hành chạy chương trình kiểm thử giải thuật và thu được kết quả như bảng sau: Bảng 0-3: Kết quả thử nghiệm rút trích từ khóa tự động và so sánh với các phương pháp khác Phương pháp/Độ đo Độ chính xác trung bình (%) Độ bao phủ trung bình (%) Độ đo F2 trung bình (%) P/p Đồng hiện từ 21.87 60.91 44.31 P/p TF.IDF 22.33 58.59 43.71 P/p đề xuất 23.12 63.71 46.55 Kết quả này rất đáng khích lệ vì nó cho kết quả cao hơn các phương pháp khác mặc dù tập dữ liệu thử nghiệm không quá lớn. Chúng ta sẽ áp dụng giải thuật này vào trong hệ thống.
Tài liệu liên quan