MỤC LỤC
LỜI CAM ĐOAN …………………………………………………………………………………………………….. i
LỜI CẢM ƠN…………………………………………………………………………………………………………. ii
DANH MỤC CÁC BẢNG ………………………………………………………………………………………. v
DANH MỤC CÁC HÌNH ………………………………………………………………………………………. vi
BẢNG KÝ TỰ VIẾT TẮT …………………………………………………………………………………… vii
BẢNG THUẬT TOÁN VIẾT TẮT ……………………………………………………………………… vii
LỜI MỞ ĐẦU………………………………………………………………………………………………………. viii
1. Lý do chọn đề tài ………………………………………………………………………………………………… viii
2. Mục đích nghiên cứu ……………………………………………………………………………………………. ix
3. Đối tƣợng và phạm vi nghiên cứu …………………………………………………………………………. ix
4. Phƣơng pháp nghiên cứu ………………………………………………………………………………………. ix
CHƯƠNG 1: CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU……………………………….. 1
1.1. KHÁI QUÁT VỀ PHÂN LỚP DỮ LIỆU……………………………………………………………. 1
1.1.1. Phân lớp dữ liệu ………………………………………………………………………………………… 1
1.1.2. Các vấn đề liên quan đến phân lớp dữ liệu ………………………………………………… 5
1.1.3. Một số phƣơng pháp đánh giá độ chính xác mô hình phân lớp…………………… 7
1.2. CÂY QUYẾT ĐỊNH ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU ………………….. 8
1.2.1. Mô hình cây quyết định …………………………………………………………………………….. 8
1.2.2. Xây dựng cây quyết định …………………………………………………………………………… 9
1.2.3. Các đặc trƣng trong phân lớp dữ liệu sử dụng cây quyết định ………………….. 10
1.3. ĐÁNH GIÁ CÂY QUYẾT ĐỊNH TRONG PHÂN LỚP DỮ LIỆU ………………….. 12
1.3.1. Ƣu điểm của cây quyết định…………………………………………………………………….. 12
1.3.2. Điểm yếu của cây quyết định …………………………………………………………………… 13
1.4. MỘT SỐ GIẢI THUẬT PHỔ BIẾN TRONG MÔ HÌNH PHÂN LỚP HIỆN
NAY ……………………………………………………………………………………………………………………….. 14
1.5. KẾT LUẬN CHƯƠNG I ………………………………………………………………………………….. 15
CHƯƠNG 2: THUẬT TOÁN ID3 VÀ BAYES ……………………………………………………. 16
2.1. GIỚI THIỆU CHUNG ……………………………………………………………………………………… 16
2.2. THUẬT TOÁN ID3 …………………………………………………………………………………………. 17
2.2.1. Lựa chọn thuộc tính dùng để phân loại tốt nhất ……………………………………….. 18
2.2.2. Tìm kiếm không gian giả thuyết trong ID3………………………………………………. 20
2.3. Chuyển đổi từ cây quyết định sang luật …………………………………………………………….. 21
2.4. Đánh giá hiệu suất của cây quyết định ………………………………………………………………. 22
2.5. VÍ DỤ MINH HỌA CHO GIẢI THUẬT ID3 …………………………………………………… 23
2.6. THUẬT TOÁN BAYES …………………………………………………………………………………… 31
2.6.1. Ý tƣởng của thuật toán…………………………………………………………………………….. 31
2.6.2. Các bƣớc thực hiện giải thuật ………………………………………………………………….. 31
2.6.3. Ví dụ minh họa thuật toán Bayes …………………………………………………………….. 32
2.7. KẾT LUẬN CHƯƠNG 2 …………………………………………………………………………………. 33
CHƯƠNG 3: PHÂN LOẠI CHẤT LƯỢNG HỌC SINH SỬ DỤNG …………………. 35
THUẬT TOÁN ID3 VÀ THUẬT TOÁN BAYES………………………………………………… 35
3.1. THU THẬP VÀ TIỀN XỬ LỸ DỮ LIỆU ………………………………………………………… 35
3.1.1. Thu thập dữ liệu ………………………………………………………………………………………. 35
3.1.2. Phân tích và xử lý dữ liệu ………………………………………………………………………… 37
3.2. PHÂN LOẠI CHẤT LƯỢNG HỌC SINH SỬ DỤNG THUẬT TOÁN ID3 …….. 40
3.2.1. Triển khai giải thuật ID3 …………………………………………………………………………. 40
3.2.2. Xây dựng cây quyết định …………………………………………………………………………. 41
3.2.3. Đánh giá kết quả thuật toán ID3 ………………………………………………………………. 53
3.3. PHÂN LOẠI CHẤT LƢỢNG HỌC SINH BẰNG THUẬT TOÁN BAYES …… 53
3.3.1. Áp dụng thuật toán Bayes………………………………………………………………………… 53
3.3.2. Đánh giá kết quả thuật toán Bayes …………………………………………………………… 56
3.4. CÁC CÔNG CỤ ĐƢỢC SỬ DỤNG TRONG KHAI PHÁ DỮ LIỆU ………………. 56
3.5. THỬ NGHIỆM PHÂN LOẠI CHẤT LƢỢNG HỌC SINH ……………………………… 57
3.5.1. Thuật toán ID3 trong Weka……………………………………………………………………… 57
3.5.2. Thuật toán Bayes trong Weka ………………………………………………………………….. 61
3.6. SO SÁNH THUẬT TOÁN ID3 VÀ BAYES ……………………………………………………. 64
3.7. KẾT LUẬN CHƯƠNG 3 …………………………………………………………………………………. 64
KẾT LUẬN ……………………………………………………………………………………………………………. 65
HƯỚNG PHÁT TRIỂN ………………………………………………………………………………………… 65
TÀI LIỆU THAM KHẢO …………………………………………………………………………………….. 66
PHỤ LỤC 1: BẢNG ĐIỂM …………………………………………………………………………………… 67
PHỤ LỤC 2 : BẢNG TRÍCH RÚT DỮ LIỆU TỪ BẢNG ĐIỂM ……………………….. 69
PHỤ LỤC 3: BẢNG DỮ LIỆU CHUYỂN ĐỔI QUY ƯỚC………………………………… 71
PHỤ LỤC 4: BẢNG TRÍCH RÚT DỮ LIỆU ĐÃ MÃ HÓA ………………………………. 72