MỤC LỤC
Chương 1. TỔNG QUAN………………………………………………………………………………..2
1.1. Đặt vấn đề ………………………………………………………………………………………………2
1.2. Các phương pháp phân loại văn bản………………………………………………………….2
1.3. Tách từ Tiếng Việt – Một thách thức thú vị ………………………………………………..3
1.4. Mục tiêu của luận văn………………………………………………………………………………5
1.4.1. Phần tìm hiểu các thuật toán phân loại văn bản…………………………………..5
1.4.2. Phần tách từ tiếng Việt…………………………………………………………………….5
1.4.3. Phần mềm phân loại tin tức báo điện tử bán tự động …………………………..5
1.4.4. Đóng góp của luận văn ……………………………………………………………………6
Chương 2. CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG ANH…………..8
2.1. Bối cảnh các phương pháp phân loại văn bản hiện nay…………………………………8
2.2. Các phương pháp phân loại văn bản tiếng Anh hiện hành …………………………….8
2.2.1. Biểu diễn văn bản …………………………………………………………………………..8
2.2.2. Support vector Machine(SVM) ………………………………………………………10
2.2.3. K–Nearest Neighbor (kNN)……………………………………………………………12
2.2.4. Naïve Bayes (NB)…………………………………………………………………………13
2.2.5. Neural Network (NNet) …………………………………………………………………15
2.2.6. Linear Least Square Fit (LLSF)………………………………………………………17
2.2.7. Centroid- based vector…………………………………………………………………..18
2.3. Kết luận………………………………………………………………………………………………..19
Chương 3. CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY …………..22
3.1. Tại sao tách từ tiếng Việt là một thách thức? …………………………………………….22
3.1.1. So sánh giữa tiếng Việt và tiếng Anh ………………………………………………22
3.1.2. Nhận xét………………………………………………………………………………………23
3.2. Bối cảnh các phương pháp tách từ hiện nay ………………………………………………23
3.2.1. Bối cảnh chung …………………………………………………………………………….23
3.2.2. Các hướng tiếp cận dựa trên từ (Word-based approaches)………………….24
3.2.3. Các hướng tiếp cận dựa trên ký tự (Character-based approaches) ……….26
3.3. Một số phương pháp tách từ tiếng Việt hiện nay………………………………………..28
3.3.1. Phương pháp Maximum Matching: forward/backward………………………28
3.3.2. Phương pháp giải thuật học cải biến ( TBL)……………………………………..30
3.3.3. Mô hình tách từ bằng WFST và mạng Neural…………………………………..31
3.3.4. Phương pháp quy hoạch động (dynamic programming) …………………….34
3.3.5. Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
toán di truyền (Internet and Genetics Algorithm-based Text Categorization for
Documents in Vietnamese – IGATEC)………………………………………………………………34
3.4. So sánh các phương pháp tách từ Tiếng Việt hiện nay………………………………..37
3.5. Kết luận………………………………………………………………………………………………..37
Chương 4. TÁCH TỪ TIẾNG VIỆT KHÔNG DỰA TRÊN TẬP NGỮ LIỆU ĐÁNH
DẤU (ANNOTATED CORPUS) HAY TỪ ĐIỂN (LEXICON) – MỘT THÁCH THỨC 40
4.1. Giới thiệu ……………………………………………………………………………………………..40
4.2. Các nghiên cứu về thống kê dựa trên Internet ……………………………………………40
4.2.1. Giới thiệu …………………………………………………………………………………….40
4.2.2. Một số công trình nghiên cứu về thống kê dựa trên Internet……………….41
4.2.3. Nhận xét………………………………………………………………………………………43
4.3. Các phương pháp tính độ liên quan giữa các từ dựa trên thống kê ……………….43
4.3.1. Thông tin tương hỗ và t-score dùng trong tiếng Anh ……………………….44
4.3.2. Một số cải tiến trong cách tính độ liên quan ứng dụng trong tách từ tiếng
Hoa và tiếng Việt ……………………………………………………………………………………………46
4.3.3. Nhận xét về các cách tính độ liên quan khi áp dụng cho tiếng Việt…….48
4.4. Tiền xử lý (Pre-processing) …………………………………………………………………….49
4.4.1. Xử lý văn bản đầu vào …………………………………………………………………..49
4.4.2. Tách ngữ & tách stopwords ……………………………………………………………50
4.5. Hướng tiếp cận tách từ dựa trên thống kê từ Internet và thuật toán di truyền
(Internet and Genetic Algorithm – based )……………………………………………………………..51
4.5.1. Công cụ trích xuất thông tin từ Google ……………………………………………51
4.5.2. Công cụ tách từ dùng thuật toán di truyền (Genetic Algorithm – GA) …53
4.6. Kết luận………………………………………………………………………………………………..61
Chương 5. BÀI TOÁN PHÂN LOẠI TIN TỨC ĐIỆN TỬ………………………………..63
5.1. Lý do chọn phương pháp Naïve Bayes……………………………………………………..63
5.2. Thuật toán Naïve Bayes………………………………………………………………………….64
5.2.1. Công thức xác suất đầy đủ Bayes ……………………………………………………64
5.2.2. Tính độc lập có điều kiện (Conditional Independence)………………………65
5.2.3. Nguồn gốc thuật toán Naïve Bayes………………………………………………….65
5.2.4. Phương pháp Naïve Bayes trong phân loại văn bản …………………………..66
5.2.5. Hai mô hình sự kiện trong phân loại văn bản bằng phương pháp Naïve
Bayes 68
5.3. Bài toán phân loại tin tức điện tử tiếng Việt………………………………………………70
5.3.1. Quy ước ………………………………………………………………………………………70
5.3.2. Công thức phân loại văn bản trong IGATEC [H. Nguyen et al, 2005] …71
5.3.3. Công thức Naïve Bayes trong bài toán phân loại tin tức điện tử tiếng Việt
sử dụng thống kê từ Google……………………………………………………………………………..72
5.4. Kết luận………………………………………………………………………………………………..74
Chương 6. HỆ THỐNG THỬ NGHIỆM PHÂN LOẠI VĂN BẢN ………………….76
6.1. Giới thiệu hệ thống thử nghiệm Vikass …………………………………………………….76
6.1.1. Chức năng hệ thống Vikass ……………………………………………………………76
6.1.2. Tổ chức và xử lý dữ liệu ………………………………………………………………..76
6.1.3. Một số màn hình của hệ thống Vikass……………………………………………..79
6.2. Thử nghiệm các cách trích xuất thông tin………………………………………………….82
6.2.1. Các phương pháp thử nghiệm…………………………………………………………82
6.2.2. Nhận xét………………………………………………………………………………………84
6.3. Dữ liệu thử nghiệm ………………………………………………………………………………..84
6.3.1. Nguồn dữ liệu ………………………………………………………………………………84
6.3.2. Số lượng dữ liệu thử nghiệm ………………………………………………………….84
6.3.3. Nhận xét………………………………………………………………………………………86
6.4. Thử nghiệm các công thức tính độ tương hỗ MI ………………………………………..87
6.4.1. Các phương pháp thử nghiệm…………………………………………………………87
6.4.2. Kết quả………………………………………………………………………………………..87
6.4.3. Nhận xét………………………………………………………………………………………88
6.5. Thử nghiệm phân loại tin tức điện tử………………………………………………………..89
6.5.1. Thước đo kết quả phân loại văn bản………………………………………………..89
6.5.2. Các phương pháp thử nghiệm…………………………………………………………91
6.5.3. Kết quả………………………………………………………………………………………..91
6.5.4. Nhận xét………………………………………………………………………………………96
Chương 7. ỨNG DỤNG PHÂN LOẠI TIN TỨC ĐIỆN TỬ TỰ ĐỘNG …………….99
7.1. Giới thiệu tòa soạn báo điện tử………………………………………………………………..99
7.2. Tính cần thiết của phân loại tin tức tự động ………………………………………………99
7.3. Phân tích hiện trạng ……………………………………………………………………………..100
7.3.1. Mô hình DFD quan niệm cấp 2 hiện hành cho ô xử lý Nhận bài và Trả bài
100
7.3.2. Phê phán hiện trạng……………………………………………………………………..103
7.3.3. Mô hình DFD quan niệm cấp 2 mới cho ô xử lý Nhận bài và Trả bài ..104
7.4. Triển khai DLL ……………………………………………………………………………………105
7.5. Chương trình cài đặt “Tòa soạn báo điện tử” đã tích hợp module phân loại tin
tức 106
7.6. Kết quả……………………………………………………………………………………………….110
Chương 8. TỔNG KẾT………………………………………………………………………………..112
8.1. Kết quả đạt được………………………………………………………………………………….112
8.1.1. Về mặt lý thuyết………………………………………………………………………….112
8.1.2. Về mặt thực nghiệm…………………………………………………………………….113
8.2. Hạn chế và hướng phát triển………………………………………………………………….113
8.3. Kết luận………………………………………………………………………………………………114

