⚠ Vui lòng bật JavaScript để có trải nghiệm tốt nhất trên website này!

Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENTXây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT

Screenshot 2025 06 07 093911
Miễn phí
Tác giả: Chưa cập nhật
Ngày: Trước 2025
Định dạng file: .PDF
Đánh giá post
9 lượt xem

MỤC LỤC

LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ
MỞ ĐẦU ……………………………………………………………………………………………………… 1
Lý do chọn đề tài …………………………………………………………………………………………… 1
Mục tiêu đề tài ………………………………………………………………………………………………. 2
Nội dung thực hiện ………………………………………………………………………………………… 2
Phương pháp thực hiện …………………………………………………………………………………… 3
CHƯƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ….. 4
1.1 Giới thiệu ………………………………………………………………………………………………. 4
1.2 Các loại bộ lọc WEB có nội dung khiêu dâm …………………………………………….. 4
1.2.1 Bộ lọc WEB dựa vào địa chị mạng ………………………………………………………… 4
1.2.2 Bộ lọc WEB dựa vào URL …………………………………………………………………… 6
1.2.3 Bộ lọc WEB dựa vào DNS …………………………………………………………………… 9
1.2.4 Bộ lọc WEB dựa vào từ khóa ……………………………………………………………… 10
1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh …………………………………….. 10
1.3 Các công trình liên quan ………………………………………………………………………. 11
CHƯƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN …………. 15
2.1 Rút trích nội dung của website ……………………………………………………………….. 15
2.1.1 Phân tích mã HTML ………………………………………………………………………….. 15
2.1.2 So sánh khung mẫu ……………………………………………………………………………. 16
2.1.3 Xử lý ngôn ngữ tự nhiên …………………………………………………………………….. 17
2.2 Phân tích nội dung thành các token ………………………………………………………… 18
2.2.1 Tiền xử lý dữ liệu ………………………………………………………………………………. 19
2.2.2 Tách câu dựa trên Maximum Entropy ………………………………………………….. 19
2.2.3 Tách từ …………………………………………………………………………………………….. 21
2.2.3.1 Phƣơng pháp Maximum Matching …………………………………………………….. 25
2.2.3.2 Phƣơng pháp Transformation – based learning – TBL………………………….. 25
2.2.3.3 Mô hình tách từ bằng WFST và mạng Neural ……………………………………… 26
2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di
truyền …………………………………………………………………………………………….. 28
2.2.4 Thuật toán KEA ………………………………………………………………………………… 29
2.2.4.1 Chọn cụm ứng viên ………………………………………………………………………….. 31
2.2.4.2 Tính toán đặc trƣng ………………………………………………………………………….. 33
2.2.4.3 Huấn luyện ……………………………………………………………………………………… 33
2.2.4.4 Rút trích những cụm từ khóa …………………………………………………………….. 34
2.2.5 Thuật toán KIP ………………………………………………………………………………….. 34
2.2.6 Nhận diện thực thể có tên……………………………………………………………………. 36
2.3 Phân tích URL …………………………………………………………………………………….. 37
CHƯƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL
VÀ TEXT CONTENT ……………………………………………………………………………….. 38
3.1 Phân tích mô hình hệ thống …………………………………………………………………… 38
3.2 Module xử lý dựa vào URL …………………………………………………………………… 40
3.3 Module lọc theo nội dung ……………………………………………………………………… 40
3.3.1 Giai đoạn huấn luyện …………………………………………………………………………. 41
3.3.1.1 Tiền xử lý văn bản …………………………………………………………………………… 41
3.3.1.2 Trích lọc đặc trƣng …………………………………………………………………………… 42
3.3.1.3 Thuật toán Naïve Bayes ……………………………………………………………………. 44
3.3.2 Giai đoạn phân lớp, nhận dạng ……………………………………………………………. 47
CHƯƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ …………………………… 50
4.1 Môi trƣờng thử nghiệm ………………………………………………………………………….. 50
4.2 Giao diện chƣơng trình ………………………………………………………………………….. 50
4.2.1 Giao diện chính …………………………………………………………………………………. 50
4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ………………………. 53
4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ……………. 54
4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN …………… 54
4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website…………….. 55
4.2.6 Giao diện lấy TOKEN URL………………………………………………………………… 55
4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website …….. 56
4.3 Thu thập dữ liệu …………………………………………………………………………………… 56
4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL …………………………….. 56
4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung ………………………… 57
4.4 Đánh giá kết quả thực nghiệm ……………………………………………………………….. 58
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ……………………………………………………. 60
TÀI LIỆU THAM KHẢO