Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước. Đây là một bài toán rất thường gặp trong thực tế điển hình như : một nhà chuyên phân tích thị thường chứng khoán, anh ta cần phải tổng hợp rất nhiềutài liệu, bài viết về thị trường chứng khoán để đọc và đưa ra phán đoán của mình. Tuy nhiên, anh ta không thể đọc tất cả các bài viết, bài báo hay các tài liệu để rồi phân loại chúng đâu là tài liệu chứng khoán sau đó anh ta mới đọc kỹ chúng cho mục đích của anh ta.
38 trang |
Chia sẻ: vietpd | Lượt xem: 1735 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đồ án Text categorization phân loại văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN MINH THÀNH – 10 12 042
ĐỒ ÁN MÔN HỌC
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đề tài:
Text Categorization
Phân Loại Văn Bản (Chương 16)
Dựa trên tài liệu:
Foundations Of Statistical Natural Language
Processing
Christopher D.Manning, Hinrich Schutze
TP.HCM – 01/2011
MỤC LỤC
1. Tóm tắt đồ án ................................................................................................... 1
2. Bài toán phân loại văn bản............................................................................... 2
2.1 Giới thiệu ................................................................................................... 2
2.2 Phát biểu bài toán ...................................................................................... 2
2.3 Mô hình tổng quát ...................................................................................... 3
2.3.1 Giai đoạn huấn luyện ........................................................................... 4
2.3.2 Giai đoạn phân lớp .............................................................................. 5
2.4 Tiền xử lý văn bản ..................................................................................... 6
2.5 Phương pháp biểu diễn văn bản ................................................................ 7
2.5.1 Mô hình không gian vector .................................................................. 7
2.5.2 Khái niệm trọng số ............................................................................... 7
2.6 Đánh giá bộ phân lớp ................................................................................. 9
2.6.1 Macro-Averaging ............................................................................... 11
2.6.2 Micro-Averaging ................................................................................ 11
3. Các phương pháp phân loại văn bản ............................................................. 12
3.1 Thuật toán Naïve Bayes ........................................................................... 12
3.1.1 Định lý ............................................................................................... 12
3.1.2 Thuật toán ......................................................................................... 13
3.1.3 Áp dụng trong phân loại văn bản ....................................................... 15
3.2 Cây quyết định (Decision Tree) ................................................................ 18
3.2.1 Khái niệm .......................................................................................... 18
3.2.2 Thuật toán xây dựng cây ................................................................... 19
3.2.2.1 Thuật toán ID3 ............................................................................ 19
3.2.2.2 Các độ đo trong thuật toán : ........................................................ 20
3.2.2.3 Ví dụ ........................................................................................... 20
3.2.3 Áp dụng vào phân loại văn bản ......................................................... 23
3.2.3.1 Biểu diễn văn bản ....................................................................... 23
3.2.3.2 Giai đoạn huấn luyện .................................................................. 24
3.2.3.3 Cross-validation .......................................................................... 28
3.2.3.4 Giai đoạn phân lớp ..................................................................... 29
3.3 Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) .............. 29
3.3.1 Entropy .............................................................................................. 29
3.3.1.1 Khái niệm .................................................................................... 29
3.3.1.2 Entropy của biến ngẫu nhiên ...................................................... 30
3.3.2 Áp dụng vào phân loại văn bản ......................................................... 30
3.3.2.1 Biểu diễn văn bản ....................................................................... 30
3.3.2.2 Hàm đặc trưng và ràng buộc ...................................................... 31
3.3.2.3 Một số kí hiệu : ............................................................................ 31
3.3.2.4 Mô hình ....................................................................................... 31
3.3.2.5 Thủ tục huấn luyện Generalized iterative scaling ........................ 32
3.3.2.6 Giai đoạn phân lớp ..................................................................... 34
5. Tài liệu tham khảo .......................................................................................... 35
1
1. Tóm tắt đồ án
Phần này trình bày sơ lược về bài toán “Phân loại văn bản” được đề
cập đến trong cuốn sách “Foundations Of Statistical Natural
Language Processing” và các phương pháp để thực thi bài toán phân
loại văn bản theo phương pháp thống kê.
Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ.
Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho
trước. Đây là một bài toán rất thường gặp trong thực tế điển hình như : một nhà
chuyên phân tích thị thường chứng khoán, anh ta cần phải tổng hợp rất nhiều tài
liệu, bài viết về thị trường chứng khoán để đọc và đưa ra phán đoán của mình.
Tuy nhiên, anh ta không thể đọc tất cả các bài viết, bài báo hay các tài liệu để rồi
phân loại chúng đâu là tài liệu chứng khoán sau đó anh ta mới đọc kỹ chúng cho
mục đích của anh ta. Lý do của vấn đề này là bởi ví số lượng bào viết, bài báo
hiện nay rất nhiều, đặc biệt là trên internet, nếu để đọc hết được tất cả tài liệu đó
thì sẽ mất rất nhiều thời gian. Một ví dụ khác trong thực tế là việc phân loại spam
mail. Khi một mail được gửi đến hộp thư, nếu để người dùng phải đọc tất cả các
mail thì sẽ tốn rất nhiều thời gian vì spam mail rất nhiều. Vì vậy, cần có một hệ
thống phân loại đâu là spam mail và đâu là mail tốt.
Để giải bài toán này đã có rất nhiều phương pháp được đưa ra như : thuật
toán Naïve Bayes, K-NN (K-Nearest-Neighbor), Cây quyết định (Decision Tree),
Mạng Neuron nhân tạo (Artificial Neural Network) và SVM (Support Vector
Machine). Mỗi phương pháp đều cho kết quả khá tốt cho bài toán này, tuy nhiên
để có được sự so sánh đầy đủ, ở các phân sau chúng ta sẽ đi vào chi tiết từng
phương pháp.
Đồ án nêu ra chi tiết các bước thực hiện bài toán “Phân Loại Văn Bản” trong
lĩnh vực xử lý ngôn ngữ tự nhiên và một số cách tiếp cận để giải quyết bài toán
cũng những kết quả đã đạt được dựa trên một số những ví dụ thử nghiệm của tác
giả trong cuốn sách này.
2
2. Bài toán phân loại văn bản
Phần này trình bày về chi tiết các bước thực hiện bài toán phân loại
văn bản như mô hình biểu diễn, các độ đo cũng như các phương pháp
đánh giá kết quả thực hiện bài toán phân loại văn bản.
2.1 Giới thiệu
Như đã trình bày ở trên, bài toán phân loại văn bản là một bài toán quan trọng
trong xử lý ngôn ngữ. Có khá nhiều bài toán phân loại trong lĩnh vực xử lý ngôn
ngữ tự nhiên như : gán nhãn từ loại (POS tagging), khử nhập nhằng nghĩa từ
vựng (Word Sense Disambiguation) và gán nhãn ngữ tính từ (Prepositional
Phrase Attachment)…
Mỗi bài toán phân loại đều có các đối tượng thao tác khác nhau và mục tiêu
phân loại khác nhau. Trong bài toán gán nhãn từ loại (POS tagging) và khử nhập
nhằng nghĩa từ vựng (Word Sense Disambiguation), thì từ được xem là đối tượng
nội dung cần thao tác (mức độ từ). Trong gán nhãn ngữ tính từ (Prepositional
Phrase Attachment) thì một ngữ là đối tượng nội dung cần thao tác. Còn trong bài
toán phân loại văn bản thì một văn bản (document hay text) là đối tượng nội dung
cần thao tác.
Hình 2.1: Các bài toán phân loại trong xử lý ngôn ngữ tự nhiên
2.2 Phát biểu bài toán
Bài toán phân loại văn bản có thể được phát biểu như sau : Cho trước một tập
văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}.
Nhiệm vụ của bài toán là gán lớp di thuộc về cj đã được định nghĩa. Hay nói
cách khác, mục tiêu của bài toán là đi tìm hàm :
3
: DxC Boolean
( ) {
( ) nếu d thuộc về lớp c
( ) nếu d không thuộc về lớp c
Trong các thử nghiệm của tác giả, ông đã sử dụng các bài viết tin tức của
hãng tin Reuters, cũng như danh sách các chủ đề tin tức của hãng này.
Hình 2.2: Ví dụ về một bản tin tức của Reuters
Các chủ đề tin tức của Hãng Reuters với hơn 100 chủ đề và số lượng bài viết
(văn bản) tác giả sử dụng trong các thử nghiệm này là 12,902 bài viết.
2.3 Mô hình tổng quát
Có rất nhiều hướng tiếp cận bài toán phân loại văn bản đã được nghiên cứu
như: tiếp cận bài toán phân loại dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý
thuyết tập thô, cách tiếp cận thống kê… Tuy nhiên, tất cả các phương pháp trên
đều dựa vào các phương pháp chung là máy học đó là : học có giám sát, học
không giám sát và học tăng cường.
4
Vấn đề phân loại văn bản theo phương pháp thống kê dựa trên kiểu học có
giám sát được đặc tả bao gồm 2 giai đoạn : giai đoạn huấn luyện và giai đoạn
phân lớp.
2.3.1 Giai đoạn huấn luyện
Chúng ta có một tập huấn luyện, mỗi phần tử trong tập huấn luyện được gán
vào một hoặc nhiều lớp mà chúng ta sẽ thể hiện chúng bằng một mô hình mã hoá
(được trình bày chi tiết ở Phương pháp biểu diễn văn bản). Thông thường, mỗi
phần tử trong tập huấn luyện được thể hiện theo dạng ( ⃗⃗⃗ ). Trong đó, là vector
biểu diễn cho văn bản trong tập huấn luyện.
Sau đó, chúng ta định nghĩa một lớp mô hình và một thủ tục huấn luyện. Lớp
mô hình là họ các tham số của bộ phân loại, thủ tục huấn luyện là một giải thuật
(hay thuật toán) để chọn ra một họ các tham số tối ưu cho bộ phân loại. Nhưng
làm thế nào để đánh giá được họ các tham số là tối ưu ? Câu hỏi này sẽ được
trình bày trong phần Đánh giá bộ phân lớp.
Hình 2.3: Mô hình giai đoạn huấn luyện
Đầu vào : ngữ liệu huấn luyện và thuật toán huấn luyện
Đầu ra : mô hình phân lớp (bộ phân lớp – classifier)
Một ví dụ về một họ các tham số cho bộ phân loại nhị phân : ( ) ⃗⃗ .
Ở đây, bộ phân loại nhị phân chỉ phân loại cho 2 lớp. Chúng ta gọi lớp c1 là lớp
với các văn bản có ( ) và lớp c2 là lớp với các văn bản có ( ) .Họ các
tham số cần xác định là vector ⃗⃗ và ngưỡng .
Chi tiết giai đoạn huấn luyện bộ phân lớp
5
Hình 2.4: Chi tiết giai đoạn huấn luyện
Trong đó :
Ngữ liệu huấn luyện : kho ngữ liệu thu thập từ nhiều nguồn khác
nhau.
Tiền xử lý : chuyển đổi tài liệu trong kho ngữ liệu thành một hình thức
phù hợp để phân loại.
Vector hoá : mã hoá văn bản bởi một mô hình trọng số (chi tiết ở phần
Phương pháp biểu diễn văn bản).
Trích chọn đặc trưng : loại bỏ những từ (đặc trưng) không mang
thông tin khỏi tài liệu nhằm nâng cao hiệu suất phân loại và giảm độ
phức tạp của thuật toán huấn luyện.
Thuật toán huấn luyện : Thủ tục huấn luyện bộ phân lớp để tìm ra họ
các tham số tối ưu.
Đánh giá : bước đánh giá hiệu suất (chất lượng) của bộ phân lớp (chi
tiết trong phần Đánh giá bộ phân lớp).
Thủ tục huấn luyện sẽ được thực thi lặp nhiều lần để tìm họ các tham số tối
ưu sau mỗi lần lặp. Tuy nhiên, do ban đầu họ các tham số được gán với một giá
trị khởi tạo, do đó nếu giá trị khởi tạo ban đầu được gán sai thì kết quả tối ưu của
họ các tham số có thể chỉ là tối ưu cục bộ.
2.3.2 Giai đoạn phân lớp
Sau khi đã hoàn thành giai đoạn huấn luyện, mô hình phân lớp sẽ được áp
dụng cho các văn bản mới cần phân loại.
6
Hình 2.5: Mô hình giai đoạn phân lớp
Chi tiết giai đoạn phân lớp
Hình 2.6: Mô hình giai đoạn phân lớp
2.4 Tiền xử lý văn bản
Văn bản trước khi được vector hoá, tức là trước khi sử dụng, cần phải được
tiền xử lý. Quá trình tiền xử lý sẽ giúp nâng cao hiệu suất phân loại và giảm độ
phức tạp của thuật toán huấn luyện.
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền
xử lý văn bản khác nhau, như :
Chuyển vẳn bản về chữ thường
Loại bỏ dấu câu (nếu không thực hiện tách câu)
Loại bỏ các kí tự đặc biệt biệt([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`], [!],
[@], [#], [$],[%],[^],[&],[*],[(],[)]), các chữ số, phép tính toán số học
Loại bỏ các stopword (những từ xuất hiện hầu hết trong các văn bản)
không có ý nghĩa khi tham gia vào phân loại văn bản.
…
7
2.5 Phương pháp biểu diễn văn bản
Một trong những nhiệm vụ đầu tiền trong việc xử lý phân loại văn bản là chọn
được một mô hình biểu diễn văn bản thích hợp. Một văn bản ở dạng thô (dạng
chuỗi) cần được chuyển sang một mô hình khác để tạo thuận lợi cho việc biểu
diễn và tính toán. Tuỳ thuộc vào từng thuật toán phân loại khác nhau mà chúng ta
có mô hình biểu diễn riêng. Một trong những mô hình đơn giản và thường được
sử dụng trong nhiệm vụ này là mô hình không gian vector. Một văn bản trong
nhiệm vụ này được biểu diễn theo dạng , với là một vector n chiều để đo
lường giá trị của phần tử văn bản.
2.5.1 Mô hình không gian vector
Mô hình không gian vector là một trong những mô hình được sử dụng rộng
rãi nhất cho việc tìm kiếm (truy hồi) thông tin. Nguyên nhân chính là bởi vì sự đơn
giản của nó.
Trong mô hình này, các văn bản được thể hiện trong một không gian có số
chiều lớn, trong đó mỗi chiều của không gian tương ứng với một từ trong văn bản.
Phương pháp này có thể biểu diễn một cách hình tượng như sau : mỗi văn bản D
được biểu diễn dưới dạng (vector đặc trưng cho văn bản D). Trong đó,
( ), và n là số lượng đặc trưng hay số chiều của vector văn bản, là
trọng số của đặc trưng thứ i (với 1 i n).
Như vậy, nếu trong kho ngữ liệu của quá trình huấn luyện nhiều văn bản, ta kí
hiệu Dj, là văn bản thứ j trong tập ngữ liệu, và vector ⃗⃗ ⃗ ( ) là
vector đặc trưng cho văn bản Dj, và xij là trọng số thứ i của vector văn bản .
2.5.2 Khái niệm trọng số
Một vấn đề quan trọng nữa trong việc biểu diễn một văn bản đó là tính trọng
số cho vector đặc trưng của văn bản. Có nhiều cách khác nhau để tính trọng số
này như :
Word frequency weighting
Boolean weighting
tf*idf weighting
8
Entropy weighting
Tuy nhiên, để đơn giản cho vấn đề này, chúng ta sẽ chỉ xem xét cách tính
Word frequency weighting (trọng số tần suất từ) và tf*idf, một cách đơn giản đó là
đếm số từ đó trong văn bản. Tuy nhiên vẫn có nhiều cách khác nhau để tính trọng
số dạng này.
Hình 2.7: Ba giá trị trong cách tính trọng số thuật ngữ (từ) thường dùng
Có ba thông tin được sử dụng trong cách tính trọng số bằng tần suất từ là :
term frequency (tfij số lần suất hiện của từ wi trong văn bản dj), document
frequency (dfi số văn bản có chứa từ wi), collection frequency (cfi số lần suất hiện
của từ wi trong cả tập ngữ liệu). Trong đó, và ∑ .
Thông tin được nắm bắt bởi term frequency là sự nổi bật của thông tin (hay
từ) trong một văn bản. Term frequency càng cao (số lần xuất hiện càng nhiều
trong văn bản) thì đó là từ miêu tả tốt cho nội dung văn bản. Giá trị thứ hai,
document frequency, có thể giải thích như là một bộ chỉ định nội dung thông tin.
Một từ được tập trung ngữ nghĩa thường xảy ra nhiều lần trong một văn bản nếu
nó cũng xuất hiện trong tất cả các văn bản khác. Nhưng từ không được tập trung
ngữ nghĩa trải đều đồng nhất trong tất cả các văn bản.
Hãy xem xét một ví dụ sau, kho ngữ liệu của báo New York Times, và hai từ
try và insurance được thống kế như sau :
Hai từ try và insurance có giá trị gần như nhau. Nhưng ngược lại, với giá trị
, từ insurance chỉ xuất hiện trong hẫu như chỉ một nửa kho ngữ liệu. Điều này
giải thích là bởi vì, từ try có thể được sử dụng trong hầu hết các chủ đề, nhưng từ
insurance chỉ được dùng để ám chỉ đến một khái niệm nhỏ mà chỉ liên quan đến
một số lượng nhỏ các chủ đề. Một tính chất nữa của từ được tập trung ngữ nghĩa
đó là, nếu chúng xuất hiện trong một văn bản thì chúng sẽ xuất hiện vài lần.
9
Để thể hiện trọng số phản ánh hết thông tin của từ, thường ta sẽ kết hợp cả
hai loại trọng số là và trong một đơn vị chung. Dạng biểu diễn trọng số này
được gọi là . Công thức kết hợp hai giá trị trọng số :
( ) {
( ( )) (
)
Trong đó, N là tổng số văn bản. Biểu thức thứ nhất áp dụng cho các từ có
xuất hiện trong văn bản, còn biểu thức thứ hai cho các từ không xuất hiện trong
văn bản.
2.6 Đánh giá bộ phân lớp
Sau khi đã tìm được họ các tham số tối ưu cho bộ phân lớp (hay có thể nói là
bộ phân lớp đã được huấn luyện xong), nhiệm vụ tiếp theo là cần phải đánh giá
(kiểm tra) bộ phân lớp đó cho kết quả như thế nào? Tuy nhiên, quá trình kiểm tra
phải được thực hiện trên một tập ngữ liệu khác với tập ngữ liệu huấn luyện, còn
được gọi với cái tên là tập ngữ liệu kiểm tra (a test set). Việc kiểm tra bộ phân lớp
là một sự đánh giá trên một tập ngữ liệu chưa được biết vì thế đó là sự đo lường,
đánh giá duy nhất cho biết khả năng thực sự của một bộ phân lớp.
Để đơn giản, ta sẽ xem xét một bộ phân lớp nhị phân (phân hai lớp). Những
bộ phân lớp thường được đánh giá bằng cách lập một bảng thống kê sau :
Trong đó,
a : là số lượng đối tượng thuộc về lớp đang xét và được bộ phân lớp
gán vào lớp.
b : là số lượng đối tượng không thuộc về lớp đang xét nhưng được bộ
phân lớp gán vào lớp.
c : là số lượng đối tượng thuộc về lớp đang xét nhưng được bộ phân
lớp loại khỏi lớp.
10
d : là số lượng đối tượng không thuộc về lớp đang xét và được bộ phân
lớp loại khỏi lớp.
Để đánh giá chất lượng bộ phân lớp, hai đơn vị đo lường quan trọng đó là độ
đúng đắn (accuracy) được đo bằng công thức
và độ sai lỗi (Error) được
tính bằng công thức
. Độ đo này phản ánh đầy đủ chất lượng của bộ phân
lớp. Tuy nhiên, khi đánh giá bộ phân lớp, thường người ta chỉ xem xét những đối
tượng thuộc về lớp và được phân lớp đúng, còn những đối tượng không thuộc về
lớp thường sẽ ít được quan tâm. Do đó, một số độ đo khác đã được định nghĩa.
Các độ đo bao gồm :
Precision (độ chính xác) :
Recall (Độ bao phủ, độ đầy đủ) :
Fallout (Độ loại bỏ) :
Tuy nhiên, trong một số trường hợp thực tế, nếu tính độ precision và độ recall
riêng rẽ sẽ cho kết quả không cân đối. Do đó, để thuận tiện, người ta kết hợp hai
độ đo này vào một đơn vị đo tổng quát duy nhất. Để làm điều này, người ta sử
dụng đơn vị đo lường F được định nghĩa như sau :
( )
Trong đó:
P là độ chính xác Precision
R là độ bao phủ Recall
là một hệ số xác định sự cân bằng của độ quyết định và độ bao phủ.
Giá trị =5 thường được chọn cho sự cân bằng giữa P và R. Với giá trị
này độ đo được tính đơn giản là ( ).
Những độ đo trên được dùng để đánh giá cho những bộ phân lớp nhị phân
(phân hai lớp). Tuy nhiên, trong thực tế, thường các bộ phân lớp phải phân chia
nhiều lớp, chính vì vậy để đánh giá tổng thể toàn bộ các lớp phân loại, sau khi lập
11
bảng thống kê cho từng lớp, hai phương pháp nữa đã được áp dụng để đánh giá
đó là micro-averaging và macro-averaging.
2.6.1 Macro-Averaging
Đây là phương pháp tính trung bình các độ đo precious và recall của từng lớp.
Các lớp sau khi đã lập bảng thống kê và tính các độ đo precious và recall cho
từng lớp. Các độ đo này sẽ được tính trung bình lại.
Công thức tính macro-averaging :
| |
∑
| |
| |
∑
| |
Trong đó : |C| là số lớp cần phân loại.
2.6.2 Micro-Averaging
Đây là phương pháp tính trung bình các kết quả thống kê của từng lớp. Các
lớp sau khi đã lập bảng thống kê. Các bảng này sẽ được cộng này lại tương ứng
theo từng ô. Sau đó, sẽ tính độ đo Precision và Recall cho bảng thống kê lớn đó.
Công thức micro-averaging :
∑
| |
∑ ( )
| |
∑
| |
∑ ( )
| |
12
3. Các phương pháp phân loại văn bản
Phần này trình bày một số phương pháp phân loại văn bản phổ biến hiện
nay theo phương pháp thống kê : thuật toán Naïve Bayes, Cây quyết định,
Maximun Entropy Modeling và KNN. Phần này cũng trì