MỤC LỤC
LỜI CÁM ƠN
BẢNG KÝ HIỆU VÀ VIẾT TẮT
Chương I : TỔNG QUAN ……………………………………………………………………………….. 7
I.1. ĐẶT VẤN ĐỀ………………………………………………………………………………………. 7
I.2. LỊCH SỬ GIẢI QUYẾT VẤN ðỀ……………………………………………………………. 7
I.3. PHẠM VI CỦA ðỀ TÀI ………………………………………………………………………. 10
I.4. PHƯƠNG PHÁP NGHIÊN CỨU …………………………………………………………… 10
Chương II : CƠ SỞ LÝ THUYẾT …………………………………………………………………… 11
II.1. KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU…………………………………………………. 11
II.1.1. Khái niệm: …………………………………………………………………………………… 11
II.1.2. Nhiệm vụ của khai thác dữ liệu: ………………………………………………………. 12
II.1.3. Ứng dụng của khai phá dữ liệu:……………………………………………………….. 14
II.2. CÁC KHÁI NIỆM CƠ BẢN ………………………………………………………………… 15
II.2.1. Dữ liệu và kiểu dữ liệu:………………………………………………………………….. 15
II.2.2. Chất lượng của dữ liệu: ………………………………………………………………….. 19
II.3. Thu thập và tiền xử lý dữ liệu: ………………………………………………………………. 23
II.3.1. Tổng hợp dữ liệu:………………………………………………………………………….. 23
II.3.2. Lấy mẫu:……………………………………………………………………………………… 24
II.3.3. Giảm bớt thuộc tính: ……………………………………………………………………… 25
II.3.4. Lựa chọn tập thuộc tính con: …………………………………………………………… 26
II.3.5. Tạo ra thuộc tính mới:……………………………………………………………………. 27
II.3.6. Rời rạc hóa và nhị phân hóa: …………………………………………………………… 29
II.3.7. Chuyển ñổi thuộc tính: …………………………………………………………………… 30
II.4. Một số kỹ thuật khai phá dữ liệu:…………………………………………………………… 30
II.4.1. Phân cụm dữ liệu (Cluster analysis): ………………………………………………… 30
II.4.2. Hồi quy (Regression): ……………………………………………………………………. 33
II.4.3. Cây quyết ñịnh (Decision tree):……………………………………………………….. 37
II.4.4. K – lân cận gần nhất: (K Nearest neighbour-KNN) …………………………….. 44
II.4.5. Giải thuật di truyền: ………………………………………………………………………. 46
II.4.6. Mạng neuron nhân tạo (Neural networks):…………………………………………. 50
II.4.7. Luật kết hợp (Association rule): ………………………………………………………. 57
Chương III : NỘI DUNG NGHIÊN CỨU…………………………………………………………. 67
III.1. NGHIÊN CỨU VỀ PHẦN MỀM KHAI PHÁ DỮ LIỆU …………………………. 67
III.1.1. Giới thiệu Tanagra:………………………………………………………………………. 67
III.1.2. Tìm hiểu về Tanagra:……………………………………………………………………. 68
III.1.3. Ứng dụng Tanagra: ………………………………………………………………………. 81
III.2. CHƯƠNG TRÌNH ỨNG DỤNG:…………………………………………………………. 83
III.2.1. Khai phá dữ liệu bằng luật kết hợp:…………………………………………………. 83
III.2.2. Khai phá dữ liệu bằng cây quyết ñịnh: …………………………………………….. 93
KẾT LUẬN VÀ KIẾN NGHỊ
PHỤ LỤC
Phụ lục I: ðo khoảng cách giữa 2 ñối tượng
Phụ lục II: Thuật giải Heuristic
Phụ lục III: Hướng dẫn sử dụng chương trình khai phá luật kết hợp
Phụ lục IV: Hướng dẫn sử dụng chương trình khai phá cây quyết ñịnh
TÀI LIỆU THAM KHẢO

