MỤC LỤC
LỜI CẢM ƠN …………………………………………………………………………………………………………. I
LỜI CAM ĐOAN ……………………………………………………………………………………………………II
MỤC LỤC …………………………………………………………………………………………………………….. III
DANH SÁNH BẢNG ……………………………………………………………………………………………. VI
DANH SÁNH HÌNH VẼ ……………………………………………………………………………………… VII
DANH SÁCH TỪ VIẾT TẮT ……………………………………………………………………………… IX
CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC ….. 3
1.1 Giới thiệu tổng quan ……………………………………………………………………………………………. 3
1.1.1 Khái niệm khai phá dữ liệu ……………………………………………………………………… 3
1.1.2 Nhiệm vụ của khai phá dữ liệu ………………………………………………………………… 4
1.1.3 Một số ứng dụng khai phá dữ liệu ……………………………………………………………. 4
1.1.4 Bước phát triển của việc tổ chức và khai thác các CSDL ……………………………. 5
1.1.5 Quá trình phát hiện tri thức ……………………………………………………………………… 6
1.1.6 Các bước của quá trình KPDL …………………………………………………………………. 8
1.2. Một số kỹ thuật khai phá dữ liệu cơ bản ……………………………………………………………. 10
1.2.1 Khai phá dữ liệu dự đoán ………………………………………………………………………. 10
1.2.1.1 Phân lớp (Classification) …………………………………………………………………. 10
1.2.1.2 Hồi quy (Regression)………………………………………………………………………. 11
1.2.2 Khai phá dữ liệu mô tả ………………………………………………………………………….. 11
1.2.2.1 Phân cụm ………………………………………………………………………………………. 11
1.2.2.2 Khai phá luật kết hợp ……………………………………………………………………… 12
1.3 Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác ……………… 12
1.3.1 So sánh với phương pháp hệ chuyên gia (Expert Systems) ……………………….. 13
1.3.2 So sánh với phương pháp thống kê (Statistics) ………………………………………… 14
1.3.3 So sánh với phương pháp học máy (Machine Learning) ……………………………. 14
1.3.4 So sánh với phương pháp học sâu (Deep Learning) ………………………………….. 15
1.4 Tổng kết chương ……………………………………………………………………………………………….. 18
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP VÀ KỸ THUẬT PHÂN LỚP DỮ
LIỆU …………………………………………………………………………………………………………….. 19
2.1 Tổng quan về phân lớp dữ liệu …………………………………………………………………………… 19
2.2 Phân lớp dữ liệu bằng cây quyết định ………………………………………………………………… 22
2.2.1 Độ lợi thông tin ……………………………………………………………………………………. 26
2.2.2 Tỉ số độ lợi ………………………………………………………………………………………….. 29
2.2.3 Chỉ số Gini ………………………………………………………………………………………….. 30
2.2.4 Tỉa cây quyết định ……………………………………………………………………………….. 32
2.3 Phân lớp dữ liệu Bayesian …………………………………………………………………………………. 33
2.3.1 Định lý Bayes ……………………………………………………………………………………… 33
2.3.2 Phân lớp Naïve Bayes …………………………………………………………………………… 34
2.4. Phân lớp dữ liệu sử dụng máy hỗ trợ vector (SVM) ………………………………………….. 36
2.4.1 Phân lớp đa lớp với SVM ……………………………………………………………………… 40
2.5. Phân lớp dữ liệu với Random Forest (rừng ngẫu nhiên) ……………………………………. 40
2.6 Một số phương pháp phân lớp dữ liệu khác ……………………………………………………….. 44
2.6.1 Thuật toán phân lớp k-NN …………………………………………………………………….. 44
2.7 Đánh giá mô hình phân lớp dữ liệu ……………………………………………………………………. 44
2.8 Tổng kết chương ……………………………………………………………………………………………….. 46
CHƯƠNG 3 ỨNG DỤNG PHÂN LỚP DỮ LIỆU MUSHROOM VỚI CÔNG
CỤ WEKA VÀ MỘT SỐ THUẬT TOÁN CƠ BẢN ……………………………………………. 47
3.1 Giới thiệu bài toán phân lớp dữ liệu Mushroom …………………………………………………. 47
3.1.1 Giới thiệu về bài toán phân lớp dữ liệu Mushroom …………………………………… 47
3.1.2. Thu thập, tiền xử lý và mã hóa dữ liệu ………………………………………………… 47
3.1.3. Mô tả sơ lược về dữ liệu ……………………………………………………………………. 51
3.2 Giới thiệu về công cụ Weka, cấu hình và ứng dụng phân lớp Mushroom ………….. 52
3.2.1 Môi trường Explorer …………………………………………………………………………….. 53
3.2.2 Khuôn dạng của tập dữ liệu …………………………………………………………………… 54
3.2.3 Tiền xử lý dữ liệu …………………………………………………………………………………. 54
3.2.4 Phân tích chức năng phân lớp (Classify) …………………………………………………. 54
3.2.5 Mô tả chức năng phân lớp (Classify) ………………………………………………………. 58
3.3 Áp dụng các phương pháp phân lớp trên tập dữ liệu Mushroom ………………………… 60
3.3.1 Thực hiện phân lớp bằng thuật toán Naive Bayes …………………………………….. 61
3.3.2 Thực hiện phân lớp bằng thuật toán k-Nearest neighbor …………………………… 63
3.3.3 Thực hiện phân lớp bằng thuật toán Support Vector Machines ………………….. 66
3.4 Đánh giá mô hình phân lớp dữ liệu Mushroom ………………………………………………….. 70
3.4.1 Đánh giá mô hình bằng phương pháp Hold-out ……………………………………….. 70
3.4.2 Đánh giá mô hình bằng phương pháp k-fold Cross validation ……………………. 71
3.5 Kết luận thực nghiệm phần lớp dữ liệu Mushroom …………………………………………….. 71
3.6 Tổng kết chương ……………………………………………………………………………………………….. 72
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN …………………………………………………………….. 73
TÀI LIỆU THAM KHẢO …………………………………………………………………………………….. 74

