MỤC LỤC
MỞ ĐẦU ………………………………………………………………………………………………10
Chương 1 : TỔNG QUAN ………………………………………………………………………13
1.1. Tổng quan về tìm kiếm thông tin và hệ thống tìm kiếm thông tin ……………………13
1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin………………………………..14
1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin……………………14
1.2.2. Các tiêu chuẩn được dùng để đánh giá …………………………………………………15
1.2.3. Các mô hình đánh giá………………………………………………………………………..15
1.2.4. Các độ đo dùng để đánh giá ……………………………………………………………….18
1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá ……………………….18
1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn………………………………………20
1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về ………………………..21
Chương 2 : CƠ SỞ LÝ THUYẾT……………………………………………………………..22
2.1. Tìm kiếm thông tin và các hệ thống tìm kiếm thông tin…………………………………22
2.1.1. Lịch sử tìm kiếm thông tin và hệ thống tìm kiếm thông tin………………………22
2.1.2. Hệ thống tìm kiếm thông tin……………………………………………………………….25
2.1.2.1. Khái niệm về hệ thống tìm kiếm thông tin ………………………………………25
2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thông tin……………………….25
2.1.2.3. Các phương tiện tìm kiếm thông tin (Search Engines) ………………………27
2.1.3. So sánh tìm kiếm thông tin cổ điển và tìm kiếm thông tin trên Web ………….29
2.1.4. So sánh tìm kiếm thông tin với tìm kiếm dữ liệu ……………………………………30
2.1.5. Công thức trừu tượng trong tìm kiếm thông tin ……………………………………..31
2.1.6. Các mô hình tìm kiếm thông tin cổ điển để sắp thứ tự liên quan ……………….32
2.1.6.1. Mô hình Đại số Bool …………………………………………………………………..32
2.1.6.2. Mô hình không gian vec-tơ…………………………………………………………..33
2.2. Đánh giá các hệ thống tìm kiếm thông tin …………………………………………………..36
2.2.1. Nền tảng đánh giá các hệ thống tìm kiếm thông tin ………………………………..36
2.2.2. Mô hình đánh giá hướng hệ thống……………………………………………………….37
2.2.2.1. Từ Cranfield đến TREC ………………………………………………………………37
2.2.2.2. Thủ tục đánh giá…………………………………………………………………………39
2.2.2.3. Đánh giá sự liên quan………………………………………………………………….40
2.2.3. Thực hiện đo khả năng tìm kiếm …………………………………………………………41
2.2.3.1. Các khái niệm về độ đo và liên quan ……………………………………………..41
2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P)………………………………….42
2.2.3.3. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ 44
2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm …………………44
2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP……………………………..45
2.2.3.3.3. Đường cong RP cho tập truy vấn …………………………………………….47
2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị………………….48
2.2.3.4. Sự liên quan giữa câu hỏi và tài liệu ………………………………………………49
2.2.3.4.1. Các độ liên quan…………………………………………………………………..49
2.2.3.4.2. Các vấn đề về độ liên quan …………………………………………………….49
2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ ……………………………………51
2.2.3.4.4. Phương pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên
quan nhiều cấp độ ………………………………………………………………………………53
2.2.4. TREC và đánh giá theo chuẩn TREC …………………………………………………..54
2.2.4.1. TREC là gì? ………………………………………………………………………………54
2.2.4.2. Cách xây dựng ngữ liệu của TREC………………………………………………..56
2.2.4.2.1. Xây dựng tập hợp các tài liệu………………………………………………….57
2.2.4.2.2. Xây dựng các chủ đề……………………………………………………………..57
2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn………………………………….58
2.3. Ngữ liệu tiếng Việt …………………………………………………………………………………59
2.3.1. Từ………………………………………………………………………………………………….60
2.3.1.1. Quan niệm về từ…………………………………………………………………………60
2.3.1.2. Quan niệm về hình vị ………………………………………………………………….61
2.3.1.3. Khái niệm về cấu tạo từ……………………………………………………………….61
2.3.2. Ranh giới từ …………………………………………………………………………………….62
Chương 3 : THIẾT KẾ VÀ CÀI ĐẶT………………………………………………………..63
3.1. Xây dựng bộ ngữ liệu dùng để đánh giá ……………………………………………………..63
3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt ………………………………………………..63
3.1.1.1. Chuẩn hóa ngữ liệu …………………………………………………………………….63
3.1.1.1.1. Chuẩn hóa dạng ngữ liệu ……………………………………………………….63
3.1.1.1.2. Định dạng ngữ liệu ……………………………………………………………….64
3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt…………………………………………………..64
3.1.3. Tách từ tiếng Việt …………………………………………………………………………….65
3.1.4. Xây dựng bảng đánh giá…………………………………………………………………….65
3.1.4.1. Hệ thống SMART ………………………………………………………………………66
3.1.4.1.1. Giới thiệu hệ thống SMART…………………………………………………..66
3.1.4.1.2. Quá trình tìm kiếm thông tin của SMART ………………………………..66
3.1.4.1.3. Mô hình vec-tơ của hệ thống SMART ……………………………………..67
3.1.4.1.4. Sử dụng mô hình vec-tơ…………………………………………………………69
3.1.4.2. Hệ thống Search4Vn …………………………………………………………………..73
3.1.4.3. Hệ thống TERRIER ……………………………………………………………………73
3.1.4.4. Hệ thống X-IOTA ………………………………………………………………………74
3.1.4.5. Hệ thống LUCENE …………………………………………………………………….74
3.2. Phân tích hệ thống đánh giá các hệ thống tìm kiếm thông tin …………………………74
3.2.1. Mô tả hệ thống trợ giúp đánh giá…………………………………………………………74
3.2.1.1. Phát biểu bài toán……………………………………………………………………….74
3.2.1.2. Mục tiêu……………………………………………………………………………………75
3.2.1.3. Phạm vi…………………………………………………………………………………….75
3.2.1.4. Chức năng…………………………………………………………………………………75
3.2.1.5. Tính khả dụng ……………………………………………………………………………76
3.2.1.6. Hiệu suất …………………………………………………………………………………..76
3.2.1.7. Tính bảo mật ……………………………………………………………………………..76
3.2.2. Phân tích hệ thống đánh giá………………………………………………………………..76
3.2.2.1. Chức năng của hệ thống ………………………………………………………………76
3.2.2.2. Chức năng yêu cầu ……………………………………………………………………..77
3.2.2.2.1. Chức năng đánh giá một hệ thống IR……………………………………….77
3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR ………………………………………77
3.2.2.2.3. Sơ đồ use case ……………………………………………………………………..77
3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase ……………………………………………..79
3.3. Thiết kế hệ thống đánh giá ……………………………………………………………………….86
3.3.1. Các chức năng của chương trình………………………………………………………….86
3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu”………………………………….86
3.3.1.2. Chức năng “Định dạng kết quả trả về”……………………………………………86
3.3.1.3. Chức năng “Định dạng file index”…………………………………………………87
3.3.1.4. Chức năng “Thực thi hệ thống IR” ………………………………………………..87
3.3.1.5. Chức năng “Xử lý kết quả trả về”………………………………………………….87
3.3.1.6. Chức năng ”Đánh giá một hệ thống IR”………………………………………….87
3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR”……………………………………….87
3.3.2. Thiết kế hệ thống ……………………………………………………………………………..88
3.3.2.1. Sơ đồ kiến trúc tổng thể……………………………………………………………….88
3.3.2.1.1. Danh sách các lớp đối tượng…………………………………………………..88
3.3.2.1.2. Lớp đối tượng thể hiện…………………………………………………………..88
3.3.2.1.3. Lớp đối tượng xử lý………………………………………………………………91
3.3.2.1.4. Lớp đối tượng lưu trữ ……………………………………………………………99
3.3.2.2. Sơ đồ kiến trúc tổng quát cho từng chức năng của chương trình …………99
3.3.2.2.1. Chức năng “Định dạng tài liệu” ………………………………………………99
3.3.2.2.2. Chức năng “Định dạng câu hỏi”…………………………………………….100
3.3.2.2.3. Chức năng “Thực thi hệ thống” …………………………………………….101
3.3.2.2.4. Chức năng “Định dạng kết quả”…………………………………………….102
3.3.2.2.5. Chức năng “Định dạng file index” …………………………………………103
3.3.2.2.6. Chức năng “Đánh giá và hiện thi kết quả đánh giá” ………………….103
3.3.2.2.7. Chức năng ”So sánh các hệ thống IR đã được thực thi” …………….104
3.3.2.3. Thiết kế dữ liệu – tổ chức lưu trữ…………………………………………………105
3.3.2.3.1. Mô hình dữ liệu ………………………………………………………………….105
3.3.2.3.2. Sơ đồ logic dữ liệu………………………………………………………………107
3.3.2.4. Tố chức lưu trữ dữ liệu………………………………………………………………110
3.3.2.4.1. System………………………………………………………………………………110
3.3.2.4.2. Topic ………………………………………………………………………………..112
3.3.2.4.3. Index_topic………………………………………………………………………..113
3.3.2.4.4. Document………………………………………………………………………….114
3.3.2.4.5. Index_Doc…………………………………………………………………………115
3.3.2.4.6. relevant_TT……………………………………………………………………….115
3.3.2.4.7. relevant_LT……………………………………………………………………….116
3.3.2.4.8. evaluation………………………………………………………………………….117
3.3.2.5. Thiết kế giao diện……………………………………………………………………..119
3.3.2.5.1. Sơ đồ liên hệ giữa các màn hình ……………………………………………119
3.3.2.6. Thiết kế màn hình……………………………………………………………………..122
3.3.2.6.1. Màn hình chính (TH_Main)………………………………………………….122
3.3.2.6.2. Màn hình định dạng tài liệu (TH_DDTaiLieu)…………………………122
3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) ………………124
3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi)…………………………125
3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi)………………127
3.3.2.6.6. Màn hình xử lý điều kiện để thực thi hệ thống IR……………………..128
3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT)…………………………129
3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua)…………………………130
3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex)…………………131
3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia)………………………133
3.3.2.6.11. Màn hình xem đồ thị của hệ thống ……………………………………….136
3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) ……………………………..136
3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT)…………………………138
3.3.2.7. Thiết kế hệ thống lớp đối tượng…………………………………………………..139
3.3.2.7.1. Các lớp đối tượng xử lý ……………………………………………………….139
3.3.2.7.2. Các lớp đối tượng lưu trữ……………………………………………………..169
Chương 4 : KẾT QUẢ ĐÁNH GIÁ …………………………………………………………171
4.1. Ngưỡng đánh giá ………………………………………………………………………………….171
4.2. Đánh giá hệ thống tìm kiếm thông tin search4VN ………………………………………171
4.3. So sánh hệ thống tìm kiếm search4VN và hệ thống Lucene………………………….177
4.4. Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thông tin ………………179
4.4.1. Ưu điểm………………………………………………………………………………………..179
4.4.2. Khuyết điểm ………………………………………………………………………………….179
Chương 5 : KẾT LUẬN …………………………………………………………………………181
Chương 6 : HƯỚNG PHÁT TRIỂN…………………………………………………………182
PHỤ LỤC ……………………………………………………………………………………………183
Tài liệu tham khảo ………………………………………………………………………………186