• Luận văn Hash Based approach to data mining - Lê Kim ThưLuận văn Hash Based approach to data mining - Lê Kim Thư

    Using computer, people can collect data in many types. Thus, many applications to revealing valuable information have been considered. One of the most important matters is “to shorten run time” when database become bigger and bigger. Furthermore, we look for algorithms only using minimum required resources but are doing well when database become ve...

    pdf47 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1310 | Lượt tải: 0

  • Luận văn Phân lớp bán giám sát và ứng dụng thuật toán svm vào phân lớp trang webLuận văn Phân lớp bán giám sát và ứng dụng thuật toán svm vào phân lớp trang web

    Hiện nay, với một lượng lớn các dữ liệu thì phân lớp dữ liệu có vai trò rất quan trọng, là một trong những bài toán luôn thời sự trong lĩnh vực xử lý dữ liệu văn bản. Một yêu cầu cơbản được đặt ra là cần tăng tính hiệu quả của thuật toán phân lớp, nâng cao giá trị của các độ đo hồi tưởng, chính xác của thuật toán. Mặt khác, nguồn tài nguyên về ví d...

    pdf47 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1496 | Lượt tải: 2

  • Luận văn Phương pháp lọc thư rác dựa trên nội dungLuận văn Phương pháp lọc thư rác dựa trên nội dung

    Khóa luận trình bày một số nội dung cơ bản nhất về thư rác (khái niệm, tác hại, các hình thức phát tán thư rác.), tập trung định hướng tới các phương pháp lọc thư rác, đặc biệt là phương pháp lọc dựa trên nội dung. Trong các phương pháp lọc theo nội dung, khóa luận quan tâm mô tả, phân tích hệthống hệthống Email Classification Using Examples (ECU...

    pdf53 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 2084 | Lượt tải: 3

  • Luận văn Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác - Bùi Ngọc LanLuận văn Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác - Bùi Ngọc Lan

    Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nó. Trong luận văn này, trên cơ sở nghiên ...

    pdf64 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1384 | Lượt tải: 0

  • Luận văn Phân lớp phân cấp taxonomy văn bản web và ứng dụngLuận văn Phân lớp phân cấp taxonomy văn bản web và ứng dụng

    Trích chọn thông tin trên Web đã và đang tạo thêm nhiều tài nguyên thông tin, tri thức mới đáp ứng ngày càng hiệu quảnhu cầu thông tin của con người. Ngày nay, công nghệ trích chọn thông tin trên Web đã hình thành loại hình dịch vụ đầy triển vọng trong việc cung cấp thông tin phong phú và hữu ích từnguồn dữ liệu được coi là vô hạn trên Web. Một tro...

    pdf61 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1558 | Lượt tải: 0

  • Luận văn Phân lớp tài liệu web độc lập ngôn ngữLuận văn Phân lớp tài liệu web độc lập ngôn ngữ

    Phân lớp văn bản là một trong những bài toán cơ bản và quan trọng nhất của lĩnh vực xử lý ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tế ví dụ như: ứng dụng lọc nội dung văn bản (lọc thư rác, lọc trang web có nội dung phản động, trang web có nội dung không lành mạnh, ), bài toán phân lớp văn bản sau tìm kiếm, Hiện nay có rất...

    pdf50 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1345 | Lượt tải: 1

  • Luận văn Link spam với đồ thị web và hạng trang webLuận văn Link spam với đồ thị web và hạng trang web

    Bên cạnh sự phát triển của các máy tìm kiếm đặc biệt là các phương pháp tínhhạng trang thì công nghệ spam nhằm đánh lừa máy tìm kiếm để nâng cao hạngcủa các trang web cũng phát triển không ngừng. Do vậy một vấn đề đặt ra là phải nhận diện các trang web là spam, và đưa ra giải pháp tính hạng phù hợp chính xác hơn có loại bỏ spam.

    pdf55 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1341 | Lượt tải: 0

  • Luận văn Phân đoạn từ tiếng Việt sử dụng mô hình CRFsLuận văn Phân đoạn từ tiếng Việt sử dụng mô hình CRFs

    Phân đoạn từ là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên. Trong tiếng Việt, bài toán phân đoạn từ có thể được dùng cho các máy tìm kiếm tiếng Việt, dịch tự động, kiểm tra chính tả tiếng Việt Hiện nay bài toán phân đoạn từ tiếng Việt đang được nghiên cứu, triển khai bởi rất nhiều cá nhân, tổ chức trong và ngoà...

    pdf52 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1445 | Lượt tải: 0

  • Luận văn Một số thuật toán phân lớp tiêu biểu và phương pháp biểu diễn văn bản dựa trên các khái niêm mờLuận văn Một số thuật toán phân lớp tiêu biểu và phương pháp biểu diễn văn bản dựa trên các khái niêm mờ

    Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan tâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản Khóa luận này trình bày và nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và áp dụng vào bài toán...

    pdf60 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 2855 | Lượt tải: 2

  • Luận văn Thuật toán self-Training và co-training ứng dụng trong phân lớp văn bảnLuận văn Thuật toán self-Training và co-training ứng dụng trong phân lớp văn bản

    Hiện nay, tồn tại một số thuật toán học phân lớp văn bản thực hiện có kết quả rất tốt khi được xây dựng dựa trên một tập ví dụ học lớn. Tuy nhiên, trong thi hành thực tếthì điều kiện này hết sức khó khăn vì ví dụ học thường được gán nhãn bởi con người nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữ liệu chưa gán nhãn (unlabeled da...

    pdf54 trang | Chia sẻ: vietpd | Ngày: 24/08/2013 | Lượt xem: 1304 | Lượt tải: 0