MỤC LỤC
LỜI CAM ĐOAN ………………………………………………………………………………………….. i
LỜI CẢM ƠN ………………………………………………………………………………………………ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ……………………………………. vi
DANH MỤC CÁC BẢNG …………………………………………………………………………… vii
DANH MỤC HÌNH VẼ – ĐỒ THỊ ……………………………………………………………….viii
MỞ ĐẦU …………………………………………………………………………………………………….. 1
1. LÝ DO CHỌN ĐỀ TÀI ………………………………………………………………………….. 1
2. MỤC TIÊU VÀ NHIỆM VỤ CỦA LUẬN VĂN ……………………………………….. 2
3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU …………………………………………… 2
4. PHƢƠNG PHÁP NGHIÊN CỨU …………………………………………………………… 2
5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI ………………………….. 2
6. BỐ CỤC CỦA LUẬN VĂN ……………………………………………………………………. 3
CHƢƠNG I. GIỚI THIỆU VỀ HỌC MÁY VÀ BÀI TOÁN NGHIÊN CỨU…….. 4
1.1. TỔNG QUAN VỀ MÁY HỌC……………………………………………………………… 4
1.2. MỘT SỐ KHÁI NIỆM TRONG HỌC MÁY ………………………………………. 13
1.2.1.Dữ liệu (Data) ……………………………………………………………………………… 13
1.2.2. Một số thuật ngữ trong Máy học ………………………………………………….. 15
1.2.3. Các kiểu học trong Máy học ………………………………………………………… 18
1.3. ÁP DỤNG CÁC THUẬT TOÁN HỌC MÁY CHO BÀI TOÁN PHÂN
LOẠI VĂN BẢN TIẾNG ANH. ……………………………………………………………….. 20
CHƢƠNG II: MÔ HÌNH WORD2VEC ……………………………………………………….. 23
2.1. WORD2VEC ……………………………………………………………………………………. 23
2.1.1. Tại sao chúng ta cần Word2vec ……………………………………………………. 23
2.1.2. Phân loại Word2Vector. ………………………………………………………………. 24
2.1.2.1 Mô hình continuous bag – of – words (CBOW) …………………………… 24
2.1.2.2 Mô hình Skip-gram …………………………………………………………………. 26
2.1.3. Đặc điểm Word2Vector. ………………………………………………………………. 27
2.1.4. Các yếu tố ảnh hƣởng đến chất lƣợng Word2Vector. …………………….. 28
2.1.5. Độ quan trọng của một từ đối với một tài liệu. ( TF-IDF ) ……………… 28
2.2. PYTHON TRONG HỌC MÁY ………………………………………………………….. 33
2.2.1 Tại sao dùng Python …………………………………………………………………….. 33
2.2.2 Thƣ viện Python dùng trong bài toán phân loại văn bản …………………. 33
2.2.2.1 Thư viện NLTK ………………………………………………………………………. 33
2.2.2.2. Gensim – thư viện xử lý ngôn ngữ tự nhiên [5] ………………………….. 34
2.2.2.3 Pandas ………………………………………………………………………………….. 34
2.2.2.4 Numpy …………………………………………………………………………………… 35
2.2.2.5 Scikit – learn …………………………………………………………………………… 35
2.2.2.6. Matplotlib ……………………………………………………………………………… 36
2.2.2.7. Seaborn ………………………………………………………………………………… 37
2.3. TẠO MÔ HÌNH WORD2VEC TỪ KHỐI VĂN BẢN BẰNG GENSIM
(PYTHON) [6] ………………………………………………………………………………………… 38
2.3.1. Lấy văn bản từ Internet ………………………………………………………………. 39
2.3.2.Xử lí văn bản ………………………………………………………………………………. 40
2.3.3. Phác thảo các giá trị cho các tham số ……………………………………………. 42
2.3.4. Khởi tạo mô hình và sử dụng nó …………………………………………………… 42
2.4. PYTHON VỚI MÁY HỌC ………………………………………………………………… 44
2.5. TỔNG KẾT CHƢƠNG 2…………………………………………………………………… 45
CHƢƠNG III. XÂY DỰNG CHƢƠNG TRÌNH PHÂN LOẠI VĂN BẢN TIẾNG
ANH ………………………………………………………………………………………………………….. 46
3.1. DỮ LIỆU …………………………………………………………………………………………. 46
3.2 CÀI ĐẶT THUẬT TOÁN ÁP DỤNG MÔ HÌNH WORD2VEC ……………… 50
3.2.1. Chƣơng trình với dữ liệu R8 của Reuters-21578 [8] ……………………….. 50
3.2.2. Chƣơng trình với dữ liệu R52 của Reuters-21578 ………………………….. 57
3.3. KẾT LUẬN CHƢƠNG 3 …………………………………………………………………… 60
KẾT LUẬN ……………………………………………………………………………………………….. 62
TÀI LIỆU THAM KHẢO …………………………………………………………………………… 64