⚠ Vui lòng bật JavaScript để có trải nghiệm tốt nhất trên website này!

TÌM HIỂU CÁC HƯỚNG TIẾP CẬN PHÂN LOẠI EMAIL VÀ XÂY DỰNG PHẦN MỀM MAIL CLIENT HỖ TRỢ TIẾNG VIỆTTìm hiểu và phát triển cơ chế bảo mật trên mã nguồn mở của mySQL

Anh chup man hinh 2025 08 04 154405
Miễn phí
Tác giả: Chưa cập nhật
Ngày: Trước 2025
Định dạng file: .PDF
Đánh giá post
19 lượt xem

MỤC LỤC

Chương 1: MỞ ĐẦU …………………………………………………………………… 9
1.1 Giới thiệu ………………………………………………………………………………. 10
1.2 Yêu cầu bài toán ……………………………………………………………………. 12
1.3 Bố cục khóa luận …………………………………………………………………… 12
Chương 2: TỔNG QUAN …………………………………………………………… 14
2.1 Các cách thức con người xử lý với spam ………………………………….. 15
2.2 Các phương pháp tiếp cận ……………………………………………………… 16
2.2.1 Complaining to Spammers’ ISPs …………………………………………….. 16
2.2.2 Mail Blacklists / Whitelists ……………………………………………………. 16
2.2.3 Mail volume ………………………………………………………………………… 18
2.2.4 Signature / Checksum schemes ……………………………………………… 19
2.2.5 Genetic Algorithms ……………………………………………………………….. 20
2.2.6 Rule-Based (hay là Heuristic) ………………………………………………… 21
2.2.7 Challenge-Response ……………………………………………………………… 22
2.2.8 Machine Learning (Máy học) …………………………………………………. 23
2.3 Phương pháp lựa chọn …………………………………………………………….. 24
2.4 Các chỉ số đánh giá hiệu quả phân loại email ……………………………. 24
2.4.1 Spam Recall và Spam Precision ……………………………………………… 24
2.4.2 Tỉ lệ lỗi (Error) và Tỉ lệ chính xác (Accuracy) …………………………… 25
2.4.3 Tỉ lệ lỗi gia trọng (Weighted Error) và Tỉ lệ chính xác gia trọng (Weighted Accuracy) ……………………………………………………………………. 25
2.4.4 Tỉ số chi phí tổng hợp (Total Cost Ratio – TCR) ……………………….. 26
Chương 3: GIỚI THIỆU CÁC KHO NGỮ LIỆU DÙNG KIỂM THỬ PHÂN LOẠI EMAIL …………………………………………………………………… 28
3.1 Kho ngữ liệu PU (corpus PU) ………………………………………………….. 29
3.1.1 Vài nét về kho ngữ liệu PU ……………………………………………………. 29
3.1.2 Mô tả cấu trúc kho ngữ liệu PU ……………………………………………… 30
3.2 Kho ngữ liệu email chủ …………………………………………………………… 31
Chương 4: PHƯƠNG PHÁP PHÂN LOẠI NAÏVE BAYESIAN VÀ ỨNG DỤNG PHÂN LOẠI EMAIL …………………………………………………. 33
4.1 Một vài khái niệm xác suất có liên quan …………………………………… 34
4.1.1 Định nghĩa biến cố, xác suất ………………………………………………….. 34
4.1.2 Xác suất có điều kiện, công thức xác suất đầy đủ – công thức Bayes ……………………………………………………………………………………………. 35
4.2 Phương pháp phân loại Naïve Bayesian ……………………………………. 36
4.3 Phân loại email bằng phương pháp Naïve Bayesian ………………….. 37
4.3.1 Phân loại email dựa trên thuật toán Naïve Bayesian ………………… 38
4.3.2 Ngưỡng phân loại email ………………………………………………………… 39
Chương 5: THỰC HIỆN VÀ KIỂM THỬ PHÂN LOẠI EMAIL DỰA TRÊN PHƯƠNG PHÁP NAÏVE BAYESIAN …………………………………. 41
5.1 Cài đặt chương trình phân loại email ………………………………………. 42
5.1.1 Khái niệm “Token” ………………………………………………………………… 42
5.1.2 Vector thuộc tính ………………………………………………………………….. 42
5.1.3 Ngưỡng phân loại …………………………………………………………………. 43
5.1.4 Cách thức thực hiện ……………………………………………………………… 43
5.2 Thử nghiệm hiệu quả phân loại ………………………………………………. 51
5.2.1 Với kho ngữ liệu PU …………………………………………………………….. 51
5.2.2 Với kho ngữ liệu email chủ ……………………………………………………. 60
5.3 Ưu – nhược điểm của phương pháp Naïve Bayesian …………………. 61
5.3.1 Ưu điểm ……………………………………………………………………………….. 61
5.3.2 Khuyết điểm …………………………………………………………………………. 62
Chương 6: PHƯƠNG PHÁP ADABOOST VÀ ỨNG DỤNG PHÂN LOẠI EMAIL …………………………………………………………………………. 63
6.1 Thuật toán AdaBoost …………………………………………………………….. 64
6.2 AdaBoost trong phân loại văn bản nhiều lớp …………………………….. 65
Thuật toán AdaBoost.MH phân loại văn bản nhiều lớp ………………….. 66
6.3 Ứng dụng AdaBoost trong phân loại email ……………………………….. 66
6.3.1 Trong trường hợp phân loại nhị phân ……………………………………… 67
Giới hạn lỗi huấn luyện sai ………………………………………………………….. 68
6.3.2 Phương pháp lựa chọn luật yếu ……………………………………………… 70
Chương 7: THỰC HIỆN VÀ KIỂM THỬ PHÂN LOẠI EMAIL DỰA TRÊN PHƯƠNG PHÁP ADABOOST …………………………………………… 73
7.1 Cài đặt bộ phân loại email ………………………………………………………. 74
7.1.1 Tệp huấn luyện mẫu và tệp nhãn ……………………………………………. 74
7.1.2 Xây dựng tệp luật yếu ban đầu ………………………………………………. 75
7.1.3 Thủ tục WeakLearner chọn luật yếu ………………………………………… 76
7.1.4 Phân loại email ……………………………………………………………………. 76
7.2 Thử nghiệm hiệu quả phân loại ………………………………………………. 76
7.2.1 Với kho ngữ liệu PU …………………………………………………………….. 76
7.2.2 Với kho ngữ liệu email chủ ……………………………………………………. 79
7.3 Ưu – nhược điểm của phương pháp AdaBoost …………………………. 80
7.3.1 Ưu điểm ……………………………………………………………………………….. 80
7.3.2 Khuyết điểm …………………………………………………………………………. 80
Chương 8: XÂY DỰNG CHƯƠNG TRÌNH MAIL CLIENT TIẾNG VIỆT HỖ TRỢ PHÂN LOẠI EMAIL ……………………………………………. 82
8.1 Chức năng …………………………………………………………………………….. 83
8.2 Xây dựng bộ lọc email spam …………………………………………………… 83
8.3 Tổ chức dữ liệu cho chương trình ……………………………………………. 84
8.4 Giao diện người dùng ……………………………………………………………… 85
8.4.1 Sơ đồ màn hình ……………………………………………………………………. 85
8.4.2 Một số màn hình chính ………………………………………………………….. 85
Chương 9: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN ………………………. 94
9.1 Các việc đã thực hiện được …………………………………………………….. 95
9.2 Hướng cải tiến, mở rộng …………………………………………………………. 95
9.2.1 Về phân loại và lọc email spam ……………………………………………… 95
9.2.2 Về chương trình Mail Client ………………………………………………….. 96
TÀI LIỆU THAM KHẢO ……………………………………………………………. 97
Tiếng Việt ……………………………………………………………………………………. 97
Tiếng Anh ……………………………………………………………………………………. 97
PHỤ LỤC ………………………………………………………………………………….. 99

Xem thêm: