Khóa luận Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác

Thư điện tử (email) đã và đang là một trong những phương tiện, công cụ gửi nhận thông tin được sử dụng rộng rãi nhất trên thế giới. Sự phát triển của thư điện tử gắn liền với sự phát triển của ngành khoa học công nghệ thông tin. Thư rác (spam) là những thư điện tử được gửi một cách tự động tới tài khoản (hộp thư) của người dùng với những nội dung không mong đợi, không muốn nhận, không phù hợp hoặc nội dung thư không liên quan tới người nhận. Sự xuất hiện của thư rác gây ra phiền phức, mất thời gian cho người sử dụng bên cạnh đó nó cũng làm cho đường truyền Internet trở nên chậm hơn do số lượng thư rác gửi đi trong một thời điểm là rất nhiều, thư rác cũng là một trong những công cụ phát tán virus máy tính gây ra nhiều hậu quả khó lường về nhiều mặt. Để phòng ngừa và ngăn chặn thư rác, nhiều phương pháp đã được sử dụng tạo ra nhiều phần mềm lọc thư rác, một trong những phương pháp mới đã và đang được nghiên cứu phát triển là ứng dụng HMD nhân tạo (Artificial immune system - AIS) – là phương pháp dựa trên nguyên lý, chức năng, mô hình hoạt động của HMD sinh học ở người, với kĩ thuật “học máy” mang lại hiệu quả tương đối cao. Với kĩ thuật này các thư điện tử thông thường hoặc thư rác sẽ được “học” hay “huấn luyện” tạo thành cơ sở dữ liệu để phát hiện các thư rác. Vấn đề đặt ra là cần cải thiện hiệu quả của quá trình học máy, cũng như quá trình nhận dạng và loại bỏ thư rác. Vì vậy, tôi quyết định lựa chọn nội dung nghiên cứu trong khóa luận của mình là: “Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác”.

docx58 trang | Chia sẻ: truongthanhsp | Lượt xem: 1117 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Khóa luận Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC SƯ PHẠM LƯƠNG VĂN LÂM ỨNG DỤNG HỆ MIỄN DỊCH NHÂN TẠO CHO LỌC THƯ RÁC KHOÁ LUẬN TỐT NGHIỆP NGÀNH: TIN HỌC Người hướng dẫn khoa học: Ths. Nguyễn Văn Trường Thái Nguyên, năm 2015 Thái Nguyên, năm 2011 LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp này, em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo Ths. Nguyễn Văn Trường – Giảng viên Tin học, khoa Toán, Trường Đại học Sư Phạm – Đại học Thái Nguyên, đã định hướng ý tưởng, tận tình giúp đỡ, chỉ bảo em trong suốt quá trình thực hiện luận văn. Em xin chân thành cảm ơn Ban giám hiệu nhà trường, Ban chủ nhiệm khoa Toán cùng toàn thể các thầy, cô giáo trong khoa đã tận tình hướng dẫn, giúp đỡ em thực hiện luận văn. Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân đã động viên giúp đỡ em trong suốt quá trình làm luận văn. Trong quá trình tiến hành làm luận văn do chưa có nhiều kinh nghiệm nên không tránh khỏi những thiếu sót và hạn chế. Vì vậy em rất mong nhận được sự góp ý của các thầy cô và các bạn sinh viên để luận văn được hoàn thiện hơn. Em xin chân thành cảm ơn! Thái Nguyên, tháng 04 năm 2015 Sinh viên Lương Văn Lâm DANH MỤC TỪ VIẾT TẮT, KÝ HIỆU Viết tắt, ký hiệu Viết đầy đủ, ý nghĩa HMD Hệ miễn dịch. NSA Negative Selection Algorithm - Thuật toán chọn lọc tiêu cực (âm tính) SMTP Simple Mail Transfer Protocol. WEKA Waikato Environment for Knowledge Analysis. HTML HyperText Markup Language. IBM International Business Machines. TP Số lượng email spam kết luận đúng. TN Số lượng email thường kết luận đúng. FP Số lượng email thường kết luận sai thành spam. FN Số lượng email spam kết luận sai thành thường. Acc Độ chính xác tổng thể. DR Tỉ lệ phát hiện. FPR Tỉ lệ dương tính giả. DANH MỤC HÌNH VẼ DANH MỤC CÁC BẢNG Bảng 3.1. Một số kết quả 49 Bảng 3.2. Kết quả thử nghiệm trên WEKA và NSA 53 Bảng 3.3. Kết quả NSA so với một số phương pháp cho kết quả tốt 54 Bảng 3.4. Kết quả của NSA so với một số phương pháp thấp hơn 54 MỤC LỤC Trang bìa phụ..1 Lời cảm ơn..................2 Danh mục từ viết tắt, ký hiệu 3 Danh mục hình vẽ 4 Danh mục các bảng 4 MỤC LỤC 5 MỞ ĐẦU 7 CHƯƠNG 1 TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ THƯ RÁC 9 1.1. Tổng quan về thư điện tử 9 1.1.1. Lịch sử phát triển 9 1.1.2. Thư điện tử là gì 11 1.1.3. Lợi ích của thư điện tử 12 1.1.4. Cấu trúc chung và các giao thức gửi, nhận thư điện tử 13 1.2. Tổng quan về thư rác 16 1.2.1. Lịch sử 16 1.2.2. Định nghĩa 17 1.2.3. Mục đích gửi thư rác 17 1.2.4. Các đặc tính của thư rác 17 1.2.5. Các kĩ thuật tạo thư rác 19 1.2.6. Các kĩ thuật phát hiện và ngăn chặn thư rác 19 1.2.7. Cơ sở dữ liệu thống kê thư rác 24 1.3. Kết luận 26 Chương 2 TỔNG QUAN VỀ HỆ MIỄN DỊCH SINH HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO 27 2.1. Tổng quan về hệ miễn dịch sinh học 27 2.1.1. Khái niệm 27 2.1.2. Các tầng bảo vệ của hệ miễn dịch sinh học 27 2.2. Tổng quan về hệ miễn dịch nhân tạo 30 2.2.1. Khái niệm hệ miễn dịch nhân tạo 30 2.2.2. Mô hình hệ miễn dịch nhân tạo 30 2.2.3. Các thuật toán trong hệ miễn dịch nhân tạo 31 2.2.4. Sinh tập bộ dò 34 2.3. Kết luận 37 Chương 3 XÂY DỰNG CHƯƠNG TRÌNH LỌC THƯ RÁC 38 3.1. Giới thiệu 38 3.1.1. Bài toán lọc thư rác 38 3.1.2. Xây dựng chương trình 39 3.2. Các quá trình thực hiện chương trình 41 3.2.1. Quá trình chia file nguồn (Split file) 41 3.2.2. Quá trình huấn luyện – Tạo tập bộ dò (Training) 41 3.2.3. Quá trình kiểm tra – phân loại (testing) 43 3.3. Phân tích kết quả 48 3.3.1. Khả năng phát hiện thư thường và thư rác 48 3.3.2. So sánh kết quả với một số thuật toán khác 49 3.4. Kết luận 55 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 57 MỞ ĐẦU Thư điện tử (email) đã và đang là một trong những phương tiện, công cụ gửi nhận thông tin được sử dụng rộng rãi nhất trên thế giới. Sự phát triển của thư điện tử gắn liền với sự phát triển của ngành khoa học công nghệ thông tin. Thư rác (spam) là những thư điện tử được gửi một cách tự động tới tài khoản (hộp thư) của người dùng với những nội dung không mong đợi, không muốn nhận, không phù hợp hoặc nội dung thư không liên quan tới người nhận. Sự xuất hiện của thư rác gây ra phiền phức, mất thời gian cho người sử dụng bên cạnh đó nó cũng làm cho đường truyền Internet trở nên chậm hơn do số lượng thư rác gửi đi trong một thời điểm là rất nhiều, thư rác cũng là một trong những công cụ phát tán virus máy tính gây ra nhiều hậu quả khó lường về nhiều mặt. Để phòng ngừa và ngăn chặn thư rác, nhiều phương pháp đã được sử dụng tạo ra nhiều phần mềm lọc thư rác, một trong những phương pháp mới đã và đang được nghiên cứu phát triển là ứng dụng HMD nhân tạo (Artificial immune system - AIS) – là phương pháp dựa trên nguyên lý, chức năng, mô hình hoạt động của HMD sinh học ở người, với kĩ thuật “học máy” mang lại hiệu quả tương đối cao. Với kĩ thuật này các thư điện tử thông thường hoặc thư rác sẽ được “học” hay “huấn luyện” tạo thành cơ sở dữ liệu để phát hiện các thư rác. Vấn đề đặt ra là cần cải thiện hiệu quả của quá trình học máy, cũng như quá trình nhận dạng và loại bỏ thư rác. Vì vậy, tôi quyết định lựa chọn nội dung nghiên cứu trong khóa luận của mình là: “Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác”. I. Mục tiêu nghiên cứu Bước đầu tìm hiểu hệ miễn dịch nhân tạo và áp dụng nó cho bài toán lọc thư rác. II. Nhiệm vụ nghiên cứu - Nghiên cứu lịch sử phát triển của thư điện tử, những lợi ích và mặt hạn chế mà thư điện tử mang lại. - Nghiên cứu về thư rác: quá trình phát triển, cấu trúc, tác hại của chúng Tìm hiểu nội dung các phương pháp ngăn chặn thư rác, ưu – nhược điểm của các phương pháp. - Tìm hiểu nội dung hệ miễn dịch nhân tạo, một số thuật toán trong hệ miễn dịch nhân tạo. - Xây dựng chương trình áp dụng một thuật toán của hệ miễn dịch nhân tạo cho lọc thư rác. III. Phương pháp nghiên cứu - Nghiên cứu tài liệu: sách, luận văn, một số đề tài nghiên cứu cùng lĩnh vực, những bài báo, diễn đàn chuyên về thư điện tử và hệ miễn dịch nhân tạo. - Tham khảo ý kiến thầy giáo hướng dẫn, các bạn sinh viên cùng chuyên ngành. - Thử nghiệm cài đặt chương trình và so sánh hiệu quả của chương trình với một số phương pháp khác (trên WEKA) về khả năng phát hiện đúng và tỉ lệ lỗi. IV. Cấu trúc của đề tài Ngoài phần mở đầu và kết luận, đề tài có 03 chương: - Chương 1. Tìm hiểu tổng quan về thư điện tử và thư rác. - Chương 2. Tìm hiểu tổng quan nội dung hệ miễn dịch sinh học và hệ miễn dịch nhân tạo. - Chương 3. Xây dựng chương trình lọc thư rác áp dụng hệ miễn dịch nhân tạo. CHƯƠNG 1 TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ THƯ RÁC Chương này trình bày tổng quan về lịch sử phát triển, khái niệm, lợi ích của thư điện tử, cấu trúc chung và các giao thức gửi – nhận thư điện tử. 1.1. Tổng quan về thư điện tử 1.1.1. Lịch sử phát triển Ngày nay thư điện tử (email) là một trong những khái niệm quen thuộc và gần như không thể thiếu đối với hầu hết người sử dụng Internet, hàng tỉ tài khoản thư điện tử đang được sử dụng cho thấy thư điện tử là một công cụ gửi, nhận và trao đổi thông tin hàng đầu thế giới hiện nay. Lịch sử phát triển của thư điện tử gắn với các cột mốc sau: Ø Thời tiền thư điện tử - Năm 1961: Tom Van Vleck (kĩ sư phần mềm máy tính của Mĩ) đã phát triển hệ thống giao dịch tin nhắn nhiều người dùng trên một máy tính. - Năm 1965: Lần đầu tiên thư điện tử được ra mắt tại viện Công nghệ Massachusetts - Hoa Kì. - Năm 1971: Ray Tomlinson (lập trình viên người Mĩ) đã phát triển hệ thống giao dịch tin nhắn nhiều người trên nhiều máy tính và gửi bức thư điện tử đầu tiên trên mạng ARPANET (Advanced Research Projects Agency Network), bức thư điện tử đó là một bài kiểm tra e-mail. - Năm 1977: Định dạng chuẩn (RFC 733) được Dave Crocker đề xuất để phổ biến phương thức giao tiếp bằng thư điện tử qua mạng Internet. Ø Thư điện tử ra đời - Năm 1978: VA Shiva Ayyadurai đã tạo ra một hệ thống điện tử để gửi thư giữa các phòng trong nội bộ trường Đại học Y và Nha khoa New Jersey. - Năm 1979: Các thành phần: To, From, Cc, Bcc, Subject, Inbox, Outbox,.. được chuyển thành một hệ thống thư điện tử. - Năm 1980: Hệ thống thư điện tử trên được ứng dụng thực tế trong trường Đại học Y và Nha khoa New Jersey. - Ngày 30/08/1982: Thuật ngữ “email” và hệ thống thư điện tử được trao bản quyền chính thức. - Năm 1982: Giao thức truyền tải thư điện tử SMTP ra đời. SMTP là giao thức truyền tải thư điện tử qua mạng, SMTP cho phép chuyển thông điệp thư điện tử từ máy chủ thư điện tử (mail server) của người gửi đến máy chủ thư điện tử của người nhận. - Năm 1985: Hệ thống phát triển hình thức email offline cho phép người nhận lưu trữ thư trên máy tính. - Năm 1988: Microsoft Mail là hòm thư điện tử thương mại đầu tiên được phát triển dùng cho giao thức mạng MAC (Media Access Control). - Năm 1989: IBM ra mắt Lotus 1.0 – mô hình email server đầu tiên. Ø Những năm 1990 - Những năm đầu 1990 vấn nạn thư rác bắt đầu hoành hành. - Năm 1992: Microsoft Outlook phiên bản dành cho hệ điều hành MS-DOS ra đời. - Năm 1993: America Online và Delphi kết nối hệ thống email độc quyền của họ vào Internet. Cùng lúc đó hãng IBM liên doanh với BellSouth sản xuất dòng điện thoại thông minh đầu tiên Simon Personal Communicator có tính năng sử dụng email. - Năm 1996: Sabeer Bhatia và Jack Smith khởi động “HotMail” - website cung cấp dịch vụ thư điện tử miễn phí đầu tiên trên thế giới và HotMail nhanh chóng trở thành dịch vụ thư điện tử được sử dụng nhiều nhất thế giới. - Năm 1997: Yahoo! cho ra đời Yahoo Mail tạo ra sự cạnh tranh với Hotmail. - Năm 1999: Blackberry cho phép truy cập dịch vụ thư điện tử qua điện thoại di động. Khả năng gửi thư qua điện thoại làm cho việc sử dụng thư điện tử trở nên tiện lợi và nhanh chóng hơn bao giờ hết. - Cuối những năm 1990, thư điện tử sử dụng ngôn ngữ HTML ra đời cho phép định dạng văn bản phong phú hơn so với văn bản thuần túy. Ø Những năm đầu thế kỉ 21 - Năm 2000: Microsoft phát hành ứng dụng email client Microsoft Entourage dành cho hệ điều hành Mac OS. - Năm 2003: Microsoft Outlook 2003 phát triển bộ lọc thư rác và thư lừa đảo. - Năm 2004: Ủy ban Thương mại Liên bang Mĩ ban hành đạo luật chống thư rác. - Năm 2006: Microsoft Outlook 2007 ra đời hỗ trợ việc duyệt tin qua RSS và nhận tin nhắn. Cùng thời gian này mạng xã hội Facebook bắt đầu đi vào hoạt động trên quy mô toàn cầu, tạo ra sự liên kết giữa tài khoản Facebook với tài khoản thư điện tử. - Tháng 4/2007: Gmail đi vào hoạt động sau 4 năm chạy bản thử nghiệm. - Năm 2010: Microsoft Outlook 2010 ra đời tích hợp Outlook Social Connector (hỗ trợ nhận gửi thư với các mạng xã hội) bỏ qua hội thoại và dọn dẹp hội thoại. Outlook Mobile dành cho Windows Phone 7 và Outlook dành cho Mac 2011 ra đời. Mạng xã hội Facebook công khai kế hoạch kết hợp ứng dụng Microsoft nền web vào hệ thống tin nhắn mới. - Năm 2011: Hệ thống quy ước AP Stylebook của Hoa kì chính thức sử dụng chữ “email” trên các phương tiện truyền thông thay cho “e-mail”. Trải qua các giai đoạn phát triển, hiện nay thư điện tử đang được cải tiến theo hướng thuận tiện, thân thiện hơn với người dùng thể hiện qua việc cải tiến giao diện người dùng cùng với đó là các chức năng bảo vệ thư điện tử ngày càng hiệu quả hơn. 1.1.2. Thư điện tử là gì Thư điện tử (email hay electronic mail) là một hệ thống chuyển nhận thư qua các mạng máy tính. Thư điện tử là một phương tiện thông tin rất nhanh. Một mẫu thông tin có thể được gửi đi ở dạng mã hóa hay dạng thông thường và được chuyển qua các mạng máy tính đặc biệt là mạng Internet. Nó có thể chuyển thông tin từ một máy nguồn tới một hay nhiều máy nhận trong cùng một thời điểm. Ngày nay, thư điện tử không chỉ gửi thông tin dạng chữ mà nó còn có thể truyền các dạng thông tin khác như: hình ảnh, âm thanh, phim, đặc biệt là các phần mềm thư điện tử kiểu mới còn có thể hiển thị các thư điện tử dạng sống động tương thích với kiểu tệp HTML. Phần mềm thư điện tử (email software) là loại phần mềm nhằm hỗ trợ cho người dùng việc chuyển và nhận các mẫu thông tin. Thông tin có thể đưa vào phần mềm thư điện tử bằng cách thông dụng nhất là gõ chữ từ bàn phím, hoặc dùng máy quét hình ảnh scanner, máy ghi hình, webcam, Phần mềm thư điện tử giúp việc soạn thảo, gửi, nhận, đọc, in, xóa hay lưu trữ các thư điện tử. Có hai loại phần mềm thư điện tử: Ø Các phần mềm thư điện tử được cài đặt trên từng máy tính (email client), hay phần mềm thư điện tử cho máy khách. Ví dụ: Microsoft Outlook, Microsoft Outlook Express, Netscape Communicator,. Ø Các phần mềm thư điện tử không cần cài đặt trên máy tính: Phần mềm loại này được cung cấp bởi các máy chủ (web server) trên mạng Internet. Để sử dụng được các phần mềm loại này thường các máy tính nối vào phải có một máy truy cập tương thích với sự cung ứng của Webmail. Ví dụ: Mail.Yahoo.com hay Hotmail.com, Các dịch vụ thư điện tử có thể được cung ứng miễn phí hoặc có phí tùy theo nhu cầu và mục đích của người dùng. Ngày nay, thư điện tử thường được cung cấp kèm với các phương tiện Internet khi người tiêu dùng ký hợp đồng với các dịch vụ Internet một cách miễn phí. 1.1.3. Lợi ích của thư điện tử Tốc độ gửi/nhận nhanh: Thư điện tử được chuyển qua đường Internet dưới dạng các tín hiệu điện nên tốc độ di chuyển gần như là tức thời. Với các bức thư tín bình thường chúng ta có thể mất một vài ngày để thư có thể tới được địa chỉ cần thiết nhưng với thư điện tử người nhận dường như không cần chờ đợi. Chi phí không đáng kể: Với các bức thư tín bình thường, ta phải tốn một khoản chi phí khá lớn khi gửi các bức thư của mình. Còn với thư điện tử, ta chỉ tốn một khoản phí rất nhỏ để kết nối Internet cùng với chi phí cho dịch vụ thư điện tử. Hiện nay, dịch vụ thư điện tử hầu hết được cung cấp miễn phí. Không có khoảng cách: Với thư điện tử, người nhận cho dù ở xa thì việc gửi và nhận thư đều được thực hiện gần như ngay lập tức. Chi phí cho các bức thư đó cũng đều như nhau và không đáng kể. 1.1.4. Cấu trúc chung và các giao thức gửi, nhận thư điện tử 1.1.4.1. Cấu trúc hệ thống thư điện tử MUA gửi MTA chuyển tiếp SMTP (via internet) System call TCP MDA SMTP (Direction connection) Mail retrieval Agent SMTP MTA nhận System call Đọc, viết POP/IMAP MUA nhận Hộp thư MDA cục bộ Viết System call Hình 1.1. Cấu trúc hệ thống thư điện tử Để thực hiện việc trao đổi thư với người dùng, giữa máy chủ và các máy khách thống nhất sử dụng chung một bộ giao thức gửi và nhận thư, trong đó quy định cụ thể về cổng làm việc, quy trình thao tác, các câu lệnh trao đổi, cấu trúc của thư điện tử. Mô hình trên mô tả một hệ thống thư điện tử với giao thức gửi thư SMTP và giao thức nhận thư POP hoặc IMAP. Hệ thống bao gồm bốn phần tử chính: - MUA (Mail User Agent): là chương trình phần mềm của máy client được người dùng sử dụng để gửi, nhận, soạn thảo, xử lý thư điện tử. - MTA (Mail Transfer Agent): là một chương trình thư của máy chủ, cho phép truyền tải thư điện tử từ máy này sang máy khác. - MDA (Mail Delivery Agent): là chương trình MTA sử dụng để chuyển thư vào hộp thư của người dùng hoặc để truyền tải thư tới một MTA khác. Mỗi MTA sử dụng một hoặc nhiều MDA, mỗi MDA được sử dụng cho một loại yêu cầu phân phát thư riêng. - MRA (Mail Retrieval Agent): là một chương trình hoặc một dịch vụ có chức năng lấy thư điện tử về từ một hộp thư trên một máy chủ ở xa và đưa chúng tới một MUA. Các MRA truy vấn các thư và các phần header từ những hộp thư ở xa và phân phát chúng tới các MUA trên máy của người dùng. 1.1.4.2. Cấu trúc của thư điện tử Một thư điện tử thường có hai phần chính : phần đầu (Header) và phần thân (Body) là văn bản chứa nội dung của thư. Khi gửi đi, toàn bộ thư điện tử được gói trong nội dung (content). Ngoài ra, hệ thống thư còn tạo thêm một phần nữa gọi là bì thư (envelope) chứa các thông tin cần thiết cho việc chuyển thư đến nơi nhận. 1.1.4.3. Cấu trúc của một địa chỉ thư điện tử Một địa chỉ thư điện tử gồm ba phần chính dạng: Tên_định_dạng_thêm Tên_truy_cập@Địa_chỉ_máy_chủ_thư - Thành phần: Tên_định_dạng_thêm: Đây là một dạng tên để người đọc có thể dễ dàng nhận ra người gửi hay nơi gửi. Tuy nhiên, trong các thư điện tử người ta thường không cần tên định dạng thêm và lá thư điện tử vẫn được gửi đi đúng nơi. Ví dụ: Su_pham_tin spt@gmail.com có thể viết địa chỉ thư là: spt@gmail.com lúc này phần mềm thư điện tử vẫn hoạt động chính xác và gửi đến đúng địa chỉ. - Phần Tên_truy_cập: là phần xác định hộp thư. Do người đăng ký hộp thư đặt và cần phải nhớ rõ phần tên này. Phần này còn gọi là: phần tên địa phương. - Phần Địa_chỉ_máy_chủ_thư: là địa chỉ máy chủ của nhà cung cấp dịch vụ thư điện tử. Giữa Tên_truy_cập và Địa_chỉ_máy_chủ_thư ngăn cách nhau bởi kí tự @ . Ví dụ: khoatoan11@gmail.com; suphamtn@yahoo.com; thpttn@hotmail.com; 1.1.4.4. Một số giao thức sử dụng để gửi và nhận thư điện tử Hệ thống thư điện tử được xây dựng dựa trên một số giao thức: SMT, Post Office Protocol (POP), Multipurpose Internet Mail Extensions (MIME) và Interactive Mail Access Protocol (IMAP) được định dạng trong RFC 1176 là một giao thức quan trọng để thay thế POP, nó cung cấp nhiều cơ chế tìm kiếm văn bản, phân tích tin nhắn từ xa mà ta không nhìn thấy trong POP. Ø Một số giao thức gửi thư điện tử - Giao thức SMTP: Là giao thức truyền tin tin cậy, chịu trách nhiệm phân phát thư điện tử từ hệ thống mạng này sang hệ thống mạng khác, chuyển thư trong hệ thống mạng nội bộ. Hầu hết các hệ thống thư điện tử gửi thư qua Internet đều dùng giao thức này. Các mẫu thông tin có thể được lấy ra bởi một email client. Những email client này phải dùng giao thức POP hay giao thức IMAP. - Giao thức X.400: là giao thức được ITU-T và ISO định nghĩa nó đã được ứng dụng rộng rãi ở Châu Âu, Canada. X.400 cung cấp tính năng điều khiển và phân phối thư điện tử, sử dụng định nghĩa dạng nhị phân, do đó không cần mã hóa nội dung khi phân phát thư trên mạng Internet. Ø Một số giao thức nhận thư điện tử Có hai giao thức chính thường được dùng bởi các ứng dụng máy thư khách để truy cập thư từ các máy chủ: Post Office Protocol (POP) và Internet Message Access Protocol (IMAP). - Giao thức POP: là giao thức được thiết kế để hỗ trợ tiến trình thư “offline”, trong tiến trình này thư điện tử được phân phát tới một máy chủ. Một máy tính cá nhân người dùng gọi định kỳ một chương trình thư khách được kết nối tới máy chủ và tải tất cả thư treo đó tới máy tính của người dùng. Cách truy cập offline là một loại dịch vụ store-to-forward, được sử dụng để chuyển thư từ máy chủ thư tới máy của người đọc thư. - Giao thức IMAP: là một giao thức chuẩn cho việc truy cập thư điện tử từ máy chủ thư cục bộ. Là một giao thức chủ/khách trong đó thư điện tử được nhận và duy trì bởi máy chủ thư. Với những yêu cầu này chỉ một trao đổi dữ liệu nhỏ làm việc tốt thậm trí qua một kết nối chậm như một modem. Chỉ khi người dùng yêu cầu đọc một thư điện tử cụ thể thì nó sẽ được tải về từ máy chủ thư đó. Người dùng có thể tạo và chế tác các thư mục hoặc các hộp thư trên máy chủ, xóa tin nhắn, 1.2. Tổng quan về thư rác 1.2.1. Lịch sử Lịch sử thư rác có thể chia thành ba giai đoạn. 1.2.1.1. Giai đoạn thứ nhất - những năm đầu của thư rác Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng vào năm 1978, đó là một quảng cáo từ Digital Equipment Corporation (DEC) [5] nhà sản xuất máy tính mini hàng đầu thế giới. Do dịch vụ thư điện tử lúc này chưa tiên tiến nên người phát tán thư rác (spammer) phải đánh thủ công các địa chỉ thư điện tử muốn gửi và có khoảng 320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác này trong lần phát tán đầu tiên. Vào 1988 xuất hiện kiểu thư rác khác là thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền). 1.2.1.2. Giai đoạn thứ hai - thư rác được gửi thông qua phần mềm Đầu thập niên 1990, với sự phát triển của Internet gây ra vấn nạn thư rác với số tăng lên nhanh chóng. Lúc này các spammer dùng các phần mềm để gửi tự động thư rác đến một danh sách nhiều địa chỉ. Ví dụ: thư rác Jesus, Cantel và Siegel. Vào 1995 Jeff Slaton - tự nhận mình là “vua thư rác”