MỤC LỤC
LỜI CAM ĐOAN ………………………………………………………………………………………….. i
LỜI CÁM ƠN ………………………………………………………………………………………………. ii
TÓM TẮT …………………………………………………………………………………………………… iii
ABSTRACT ………………………………………………………………………………………………… iv
DANH MỤC HÌNH …………………………………………………………………………………….. vii
DANH MỤC BẢNG ………………………………………………………………………………….. viii
DANH MỤC TỪ VIẾT TẮT ………………………………………………………………………… ix
CHƯƠNG 1: MỞ ĐẦU …………………………………………………………………………………. 1
1.1. Đặt vấn đề ……………………………………………………………………………………………. 1
1.2. Mục tiêu của đề tài ………………………………………………………………………………… 1
1.3. Giới hạn của đề tài ………………………………………………………………………………… 2
1.4. Bố cục của đề tài …………………………………………………………………………………… 2
CHƯƠNG 2: TỔNG QUAN CÁC LĨNH VỰC NGHIÊN CỨU VÀ CƠ SỞ LÝ
THUYẾT …………………………………………………………………………………………………. 3
2.1. Các khái niệm, định nghĩa ………………………………………………………………………. 3
2.1.1. Tổng quan về khai thác luật kết hợp ………………………………………………………… 3
2.1.2. Phương pháp Apriori ………………………………………………………………………… 5
2.1.3. Phương pháp IT-tree ……………………………………………………………………….. 10
2.1.4. Phương pháp FP-tree ………………………………………………………………………. 14
2.2. Tổng quan về khai thác luật kết hợp trên CSDL được đánh trọng số ……………. 19
2.2.1. Định nghĩa và tính chất của tập được đánh trọng số ……………………………… 19
2.2.2. Thuật toán khai thác dựa trên WIT-tree[9] ………………………………………….. 20
2.3. Phương pháp khai thác Top-rank-k các mẫu phổ biến bằng Node-list ………….. 25
2.3.1. Cấu trúc PPC-tree ……………………………………………………………………………….. 25
2.4. Tổng kết chương ………………………………………………………………………………… 33
CHƯƠNG 3: THUẬT TOÁN KHAI THÁC TOP-RANK-K TẬP ĐÁNH TRỌNG
PHỔ BIẾN ……………………………………………………………………………………………… 34
3.1. Top-rank-k tập phổ biến được đánh trọng phổ biến …………………………………. 34
3.1.1. Định nghĩa về Top-rank-k tập được đánh trọng phổ biến ……………………… 34
3.1.2. Nghiên cứu liên quan ………………………………………………………………………. 35
3.2. Top-rank-k được đánh trọng số sử dụng Diffset ………………………………………. 35
3.2.1. Giới thiệu Diffset …………………………………………………………………………….. 35
3.2.2. Thuật toán dựa trên Diffset ………………………………………………………………. 36
3.2.2.1. Thuật toán WIT-FWI-DIFFdựa trên Diffset ……………………………………….. 36
3.2.2.2. Thuật toán Top-rank-k dựa trên Diffset ……………………………………………… 39
3.3. Tổng kết chương …………………………………………………………………………………. 44
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ……………………………………………. 45
4.1 Môi trường thực nghiệm ………………………………………………………………………. 45
4.2 Đặc điểm cơ sở dữ liệu thực nghiệm ……………………………………………………… 45
4.3 Kết quả thực nghiệm ……………………………………………………………………………. 46
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ………………………………….. 49
5.1. Kết luận ……………………………………………………………………………………………… 49
5.2. Nhận xét ưu điểm và hạn chế ………………………………………………………………… 49
5.3. Hướng phát triển …………………………………………………………………………………. 50
TÀI LIỆU THAM KHẢO ………………………………………………………………………….. 51

