Đề tài Nghiên cứu các phương pháp phân loại, thu thập thông tin văn bản tiếng Việt bằng Text Mining

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người. Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết là thông qua cơ sở dữ liệu. Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin. Từ mô hình Cơ sở dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các công cụ quản lý và xử lý cơ sở dữ liệu. Ngày nay, nhu cầu lưu trữ và xử lý thông tin có mặt ở khắp mọi nơi. Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin. Khái niệm thông tin ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường và tổ chức hoạt động. Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứng dụng. Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế, các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là phần cốt yếu trong hoạt động của các tổ chức. Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn. Việc ứng dụng cơ sở dữ liệu đã giúp làm giảm rất nhiều công sức lao động của con người và nhờ đó hiệu suất lao động của họ cao hơn. Hệ quản trị cơ sở dữ liệu ngày nay không còn đơn thuần chỉ là một cơ cấu cho phép lưu trữ số liệu mà còn kèm theo đó là các công cụ, tiện ích hay các phương pháp luận để chuyển đổi số liệu thành thông tin. Tập tất cả các công cụ do người dùng phát triển hoặc do các nhà cung cấp phần mềm tung ra để phục vụ cho mục đích hoạt động của tổ chức, được tối ưu theo những yêu cầu nghiệp vụ của tổ chức được gọi là các ứng dụng hỗ trợ xử lý tác nghiệp. Cao hơn nữa, khi các nhu cầu sử dụng thông tin ở mức cao cấp hơn để hỗ trợ các nhu cầu phân tích của các nhà lãnh đạo, các nhà lập chiến lược trong một tổ chức, một loại ứng dụng mới ra đời phục vụ cho các mục đích này với tên gọi “hệ phân tích và xử lý trực tuyến”. Ở các ứng dụng này, thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thể dưới dạng hướng chủ đề. Nhờ các thông tin ở dạng này mà các phân tích, các nhà lãnh có thể đưa ra các quyết định hoạt động một cách hiệu quả nhất. Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữ dưới dạng dữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thức còn tiềm ẩn trong dữ liệu mà các mức phân tích trước đó không phát hiện ra. Lý do của vấn đề này là các phân tích trước đó chỉ mới hướng mục đích cụ thể của con người. Các mục đích này là cố định và các phân tích này hoàn toàn do con người đưa ra trong hoàn cảnh cụ thể. Khi các thông tin phản ánh môi trường thay đổi thì con người không nhận ra để điều chỉnh các phân tích và đưa ra các phân tích mới. Các tri thức đó có thể là hướng kinh doanh, các dự báo thị trường, cũng có thể là mối quan hệ giữa các trường hay nội dung dữ liệu. mà con người không hình dung ra được khi tiến hành mô hình hoá các hệ thống. Vì thế, ngành nghiên cứu về Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu. Các tư tưởng nghiên cứu và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gia đã được áp dụng và thu được những

doc41 trang | Chia sẻ: vietpd | Ngày: 01/04/2013 | Lượt xem: 2021 | Lượt tải: 5download
Bạn đang xem nội dung tài liệu Đề tài Nghiên cứu các phương pháp phân loại, thu thập thông tin văn bản tiếng Việt bằng Text Mining, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
MỤC LỤC MỤC LỤC 1 BẢNG DANH MỤC HÌNH HOẠ 3 LỜI GIỚI THIỆU 4 I. Đặt vấn đề 6 II. Cơ sở lý thuyết 7 1. Khái niệm Text Mining 7 a. Khai phá dữ liệu (Data Mining) 7 b. Khai phá dữ liệu văn bản (Text Mining) 8 2. Bài toán phân loại văn bản (Text categorization) 10 a. Khái niệm phân loại văn bản 10 b. Các phương pháp phân loại văn bản 11 b.1. Sử dụng từ điển phân cấp chủ đề 11 b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11 b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12 b.2. Phương pháp cây quyết định (Decision tree) 13 3. Bài toán thu thập thông tin (Information retrieval - IR) 14 a. Khái niệm thu thập thông tin 14 b. Các phương pháp thu thập thông tin 16 b.1. Các phương pháp chuẩn 16 b.1.1. Mô hình Boolean 16 b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18 b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21 b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22 4. Một số công cụ phân tích văn bản tiếng Anh 26 III. Các giải pháp áp dụng cho Vietnamese Text Mining 29 1. Đặc trưng của văn bản tiếng Việt 29 a. Các đơn vị của tiếng Việt 29 a.1. Tiếng và đặc điểm của tiếng 29 a.1.1. Tiếng và giá trị ngữ âm 29 a.1.2. Tiếng và giá trị ngữ nghĩa 29 a.1.3. Tiếng và giá trị ngữ pháp 29 a.2. Từ và các đặc điểm của từ 30 a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30 a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30 a.3. Câu và các đặc điểm của câu 30 a.3.1. Câu có ý nghĩa hoàn chỉnh 30 a.3.2. Câu có cấu tạo đa dạng. 30 b. Các phương tiện ngữ pháp của tiếng việt. 31 b.1. Trong phạm vi cấu tạo từ. 31 b.2. Trong phạm vi cấu tạo câu. 31 c. Từ tiếng việt 32 c.1. Từ đơn - từ ghép 32 c.2. Từ loại 32 c.3. Dùng từ cấu tạo ngữ 33 d. Câu tiếng việt 34 d.1. Câu đơn 34 d.2. Câu ghép 35 d.2.1. Câu ghép song song 35 d.2.2. Câu ghép qua lại 35 d.2.3. Các thành phần câu. 35 e. Các đặc điểm chính tả và văn bản tiếng Việt 36 2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36 a. Bài toán phân loại văn bản tiếng Việt 36 b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37 IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38 1. Chương trình và bài toán được giải quyết 38 2. Kết quả chạy chương trình 38 TÀI LIỆU THAM KHẢO 39 PHỤ LỤC 40 Các thông tin về báo cáo 40 Cách chạy chương trình demo 40 TỪ ĐIỂN THUẬT NGỮ 41 BẢNG DANH MỤC HÌNH HOẠ Hình 1: Một ví dụ về cây quyết định Hình 2. Mô hình thu thập thông tin chuẩn Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2 Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b) Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR Hình 7: Mô hình biểu diễn mạng nơ-ron Hình 8: Minh hoạ công cụ TextAnalyst Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer LỜI GIỚI THIỆU Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người. Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết là thông qua cơ sở dữ liệu. Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin. Từ mô hình Cơ sở dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các công cụ quản lý và xử lý cơ sở dữ liệu. Ngày nay, nhu cầu lưu trữ và xử lý thông tin có mặt ở khắp mọi nơi. Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin. Khái niệm thông tin ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường và tổ chức hoạt động. Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứng dụng. Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế, các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là phần cốt yếu trong hoạt động của các tổ chức. Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn. Việc ứng dụng cơ sở dữ liệu đã giúp làm giảm rất nhiều công sức lao động của con người và nhờ đó hiệu suất lao động của họ cao hơn. Hệ quản trị cơ sở dữ liệu ngày nay không còn đơn thuần chỉ là một cơ cấu cho phép lưu trữ số liệu mà còn kèm theo đó là các công cụ, tiện ích hay các phương pháp luận để chuyển đổi số liệu thành thông tin. Tập tất cả các công cụ do người dùng phát triển hoặc do các nhà cung cấp phần mềm tung ra để phục vụ cho mục đích hoạt động của tổ chức, được tối ưu theo những yêu cầu nghiệp vụ của tổ chức được gọi là các ứng dụng hỗ trợ xử lý tác nghiệp. Cao hơn nữa, khi các nhu cầu sử dụng thông tin ở mức cao cấp hơn để hỗ trợ các nhu cầu phân tích của các nhà lãnh đạo, các nhà lập chiến lược trong một tổ chức, một loại ứng dụng mới ra đời phục vụ cho các mục đích này với tên gọi “hệ phân tích và xử lý trực tuyến”. Ở các ứng dụng này, thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thể dưới dạng hướng chủ đề. Nhờ các thông tin ở dạng này mà các phân tích, các nhà lãnh có thể đưa ra các quyết định hoạt động một cách hiệu quả nhất. Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữ dưới dạng dữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thức còn tiềm ẩn trong dữ liệu mà các mức phân tích trước đó không phát hiện ra. Lý do của vấn đề này là các phân tích trước đó chỉ mới hướng mục đích cụ thể của con người. Các mục đích này là cố định và các phân tích này hoàn toàn do con người đưa ra trong hoàn cảnh cụ thể. Khi các thông tin phản ánh môi trường thay đổi thì con người không nhận ra để điều chỉnh các phân tích và đưa ra các phân tích mới. Các tri thức đó có thể là hướng kinh doanh, các dự báo thị trường, cũng có thể là mối quan hệ giữa các trường hay nội dung dữ liệu... mà con người không hình dung ra được khi tiến hành mô hình hoá các hệ thống. Vì thế, ngành nghiên cứu về Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu. Các tư tưởng nghiên cứu và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gia đã được áp dụng và thu được những kết quả rất quan trọng như: cây quyết định, mạng nơ-ron... Hầu hết các thuật toán nghiên cứu cho DataMining là tập trung trên các nguồn số liệu có cấu trúc (structured data). Nhưng phần lớn thông tin mà chúng ta lưu trữ và trao đổi hằng ngày lại được lưu trữ dưới các dạng dữ liệu bán cấu trúc (semi-structured data) hoặc phi cấu trúc (non-structured data). Ví dụ như trong các nhà xuất bản, hệ thống các trang web trên một website, tập các công văn, giấy tờ, báo cáo, thư tín điện tử trong một công ty. Thậm chí ta có thể nhận thấy rằng trong một hệ quản trị cơ sở dữ liệu (nơi mà dữ liệu được lưu trữ có cấu trúc) thì dữ liệu kiểu text vẫn chiếm một tỷ lệ cao. Do đó một vấn đề đặt ra là làm thế nào để có thể tìm kiếm và khai thác tri thức từ nguồn dữ liệu như vậy. Các kỹ thuật để giải quyết vấn đề này được gọi là kỹ thuật "TextMining" hay Khai phá dữ liệu văn bản. Bài toán Khai phá dữ liệu văn bản không chỉ tập trung vào một hay một nhóm các thông tin được lưu trữ dưới dạng văn bản, vấn đề đặt ra là làm thế nào có thể Khai phá được các thông tin theo lịch sử, từ quá khứ hướng dự đoán tương lai. Những tri thức tưởng trừng như vô ích trong quá khứ nhưng có thể được phát hiện để sử dụng cho các mục đích sau này. Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được xét đến như là các bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”. Trên thế giới đã có rất nhiều thành công trong đề tài phân lớp văn bản như các nghiên cứu của hãng IBM, trong các phòng thí nghiệm ở MIT hay ở các viện nghiên cứu của các trường đại học ở Mỹ, Pháp, Nhật Bản, Canada. Tuy nhiên, các thành công đó chủ yếu tập trung vào vấn đề nghiên cứu về các văn bản tiếng Anh, tiếng Pháp. Những ngôn ngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý. Hiện nay, chưa có một công cụ nào được coi là hiệu quả trong lĩnh vực khai phá văn bản tiếng Việt. Nền Công nghệ thông tin của nước ta được phát triển hết sức mạnh mẽ. Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày càng tăng, các thông tin được xử lý thông qua văn bản điện tử, qua web, qua email phát triển với tốc độ chóng mặt. Từ đó, nhu cầu nghiên cứu và xây dựng các công cụ Khai phá dữ liệu văn bản tiếng Việt đang được hết sức coi trọng. Trong đề tài thực tập này, em xin trình bày các nghiên cứu tổng quan của em về Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản. Mục đích của đề tài là hướng tới phát triển các công cụ phân loại văn bản tiếng Việt ở các nghiên cứu sau trong đề tài luận văn tốt nghiệp. Em xin chân thành cảm ơn thầy Nguyễn Ngọc Bình đã giúp em rất nhiều trong quá trình hướng dẫn em nghiên cứu về đề tài. Em xin cảm ơn anh Lưu Anh Tuấn đã giúp em một số định hướng trong quá trình nghiên cứu đề tài. I. Đặt vấn đề Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này. Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết. Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt. Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.” II. Cơ sở lý thuyết 1. Khái niệm Text Mining a. Khai phá dữ liệu (Data Mining) Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triển trong vòng 60 năm trở lại đây. Với dữ liệu được thu thập trong suốt quá trình hoạt động của một tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từ những dữ liệu đó. Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ sở dữ liệu. Người ta nhận thấy rằng có rất nhiều tri thức mà chúng ta không lường trước đang còn tiềm ẩn trong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phá các tri thức đó, phục vụ cho những nhu cầu sử dụng thông tin cao hơn, ví dụ như trong các hệ chuyên gia hay hệ hỗ trợ quyết định. Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở dữ liệu. Quá trình khai phá tri thức được thực hiện sau các quá trình thu thập và tinh lọc dữ liệu, có nghĩa là chỉ tìm các mẫu tri thức (pattern) có ý nghĩa trên tập dữ liệu có hy vọng chứ không phải là trên toàn bộ CSDL như các phương pháp thống kê trước đây. Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu và tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó. Mặc dù mẫu hình có thể tìm được từ bất kì một CSDL nào nhưng chỉ những mẫu phù hợp với mục đích tìm kiếm mới được gọi là tri thức. Ta sẽ có những hàm số để đánh giá các tiêu chí mẫu như mới, có lợi, đáng được xem xét. Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với hệ thống hoặc đối với người dùng. Ví dụ với dữ liệu của một công ty, quá trình Khai phá dữ liệu tìm ra được một luật như Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc, đối với hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ một cán bộ lập kế hoạch nào cũng nhận ra được điều này qua các báo cáo tài chính. Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìm kiếm. Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá trị, mặc dù là mới đối với anh ta. Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưng không phải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường, đặc biệt là khi áp dụng các kỹ thuật dựa trên thống kê. Do đó luôn phải có các tiêu chí và các hàm đánh các mẫu đáng xem xét, không tầm thường. Tóm lại, Khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từ các Datawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê, phân oại... và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như Mạng nơ-ron nhân tạo (neutral network), các thuật toán di truyền (generic algorithm), quy nạp luật rule reduction)... Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữ liệu Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một mẫu dữ liệu vào một trong các lớp cho trước. Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ liệu vào một biến dự đoán có giá trị thực Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập xác định hữu hạn các nhóm hay các loại để mô tả dữ liệu. Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả chung tóm tắt cho một tập con dữ liệu. b. Khai phá dữ liệu văn bản (Text Mining) Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textual databases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức (knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi cấu trúc. Quá trình này có thể được coi là việc mở rộng kỹ thuật Khai phá dữ liệu truyền thống, vì như ch úng ta đã thấy (đã được đề cập ở trên) kỹ thuật Khai phá dữ liệu truyền thống (DataMining) hướng tới việc phát hiện tri thức từ các cơ sở dữ liệu có cấu trúc. Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản. Thậm chí ta có thể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rất nhiều so với các dữ liệu có cấu trúc khác. Thực tế, những nghiên cứu gần đây đã cho thấy rằng có đến 80% thông tin của một tổ chức nằm dưới dạng văn bản. Đó có thể là các công văn giấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầu khiếu nại, giải quyết quyền lợi, các thư tín điện tử (email), các thông tin trên các website thương mại... Khi các nghiên cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng rằng có thể lưu mọi loại thông tin dưới dạng dữ liệu có cấu trúc. Nhưng trên thực tế sau gần 50 năm phát triển, người ta vẫn dùng các hệ thống lưu trữ ở dạng văn bản và thậm trí còn có xu hướng dùng thường xuyên hơn. Từ đó người ta có thể tin rằng các sản phẩm Khai phá dữ liệu văn bản có thể có giá trị thương mại cao hơn rất nhiều lần so với các sản phẩm Khai phá dữ liệu truyền thống khác. Tuy nhiên ta cũng có thể thấy ngay rằng các kỹ thuật Khai phá dữ liệu văn bản phức tạp hơn nhiều so với các kỹ thuật Khai phá dữ liệu truyền thống bởi vì phải thực hiện trên dữ liệu văn bản vốn đã ở dạng phi cấu trúc và có tính mờ (fuzzy). Một ví dụ cho bài toán khai phá dữ liệu văn bản, khi phân tích các bài báo nghiên cứu khoa học, ta có các thông tin sau: “stress là một bệnh liên quan đến đau đầu” “stress xuất hiện có thể do thiếu Magê trong máu” “Canxi có thể ngăn cản một số chứng đau đầu” “Magê là một nguyên tố điều hoà canxi tự nhiên trong máu” Sau khi phân tích các thông tin quan trọng này, hệ thống cần phải đưa ra các suy luân cụ thể mang tính cách mạng: “Thiếu hụt Magê có thể gây ra một số bệnh đau đầu” Rõ ràng ở đây có sự phân tích suy luận ở mức độ cao. Để đạt được khà năng như vậy cần phải có những công trình nghiên cứu về trí tuệ nhân tạo tiên tiến hơn. Bài toán Khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, bao gồm rất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thông tin (information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin (information extraction), lập đoạn (clustering), phân loại văn bản (categorization), hiển thị trực quan (visualization), công nghệ cơ sở dữ liệu, học máy (machine learning) và bản thân các kỹ thuật Khai phá dữ liệu. Trong đề tài này em chủ yếu đề cập đến hai bài toán cụ thể, đó là bài toán phân loại dữ liệu văn bản (Text categorization) và bài toán thu thập thông tin (information retrieval). Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh là tiền đề cho các nghiên cứu cụ thể sau này mà mục đích trước mắt là phục vụ cho luận văn tốt nghiệp. Với một hệ thốn