Miễn phí
Tác giả: Chưa cập nhật
Ngày: Trước 2025
Định dạng file: .PDF 7 lượt xem
MỤC LỤC
Chương 1. TỔNG QUAN……..
1.1. Giới thiệu về bài toán Thêm dấu tiếng Việt vào văn bản không
dấu………10
1.1.1. Phát biểu bài toán.
1.1.2.
Đặc điểm……
1.1.3.
Hướng giải quyết.
1.1. Giới thiệu các công trình đã có.
1.2.1. AMPad…
1.2.2. VietPad
1.2.3.
www.EasyVn.com..
2.2.4. . Chương 2. CƠ SỞ LÝ THUYẾT TIN HỌC.
VnMark
…………………………………………10
2.1. Lý thuyết về ngôn ngữ học……
…………………………….14
2.1.1 . Âm tiết (còn gọi là “tiếng”).
2.1.1.2.
Thanh là thành phần của âm tiết tiếng Việt
Định nghĩa và đặc điểm âm tiết tiếng Việt.
,…………………………16
2.1.1.3.
Tại sao lại phải dùng dầu thanh ?
…………………………………..17
2.1.2. Từ
……………………………………….18
2.1.2.1.
Các quan niệm về từ
……………………………………….18
Tiêu chí nhận diện “tử” tiếng Việt.
………………………………18
2.1.2.2.1. Các tiêu chuẩn về hình thức.
…………………………………………19
2.1.2.2.2. Các tiêu chuẩn về nội dung.
………………………………….19
2.2. Tách từ………………..
………………………………………20
2.2.1. Khớp tối đa (LRMM-Left Right Max Matching)
……………………………………21
2.2.2. Mô hình mạng WFST và mạng nơ-ron
………………………………………..22
2.3. Tách câu……..
………………………………….22
2.3.1. Tách câu bằng Heristics.
………………………………………23
2.3.1.1.
2.3.1.2.
Xử lý dấu chấm.
Xử lý dấu chấm trong ngoặc. Chương 3.MÔ HÌNH CÀI ĐẶT.
…………………………………..23
3.1.1.
VietPad….
3.1.2.
3.1. Các mô hình thêm dấu đã được sử dụng..
Mô hình thêm dấu tiếng Việt
3.1.1.1.1.
Tiền xử lý
3.1.1.1.2.
Tách token.
3.1.1.1.3. Lấy ra các từ không dấu, chuyển thành từ có dấu.
VnMark
………………………………..25
3.1.2.1.
Mô hình thêm dấu tiếng Việt
3.1.2.1.1. Tiền xử lý
………………………………….28
3.1.2.1.2. Tách câu…
………………………………………….30
3.1.2.2.
3.1.2.1.3. Tìm các khả năng đánh dầu của từ, câu
Mô hình huấn luyện
…………………………………………30
3.2. Mô hình đề xuất.
…………………………………..32
3.2.1. Mô hình…..
………………………………….32
3.2.1.1. Tách câu
3.2.1.2. Tách từ bằng phương pháp LRMM.
3.2.1.3. Chọn từ thích hợp
…………………………………34
3.2.2. Mô hình huấn luyện…
……………………………………………….36
3.2.2.1. Thống kê tần suất xuất hiện của từ.
………………………………………36
3.2.2.1.1. Xây dựng kho ngữ liệu.
………………………………….36
3.2.2.1.2. Thống kê tần suất xuất hiện của từ.
……………………………..37
3.2.2.1.3. Tạo từ điển chuyển đổi
………………………38
3.2.3. So sánh mô hình này với 2 mô hình trên
Chương 4.CÀI ĐẶT THỬ NGHIỆM………….
Trích xuất các cụm từ thường sử dụng
…………………..39
4.1. Thống kê tần số xuất hiện của từ………….
………………………………44
4.1.1. Xây dựng kho ngữ liệu text từ báo điện tử.
…………………………….44
4.1.2. Tách câu……
…………………………………48
4.1.3. Tách từ và thống kê……
…………………………..50
4.2. Tạo tập tin từ điển chính.
……………………………52
4.3.
Tạo tập tin từ điển cụm từ.
……………………………………..55
4.3.1. Tạo kho dữ liệu tỉnh giản mới.
……………………………..55
4.3.2. Tạo tập tin từ điển cụm từ.
4.4.1. Chương trình VietEditor….
4.4. Chương trình chỉnh……
4.4.2. Chương trình thêm dấu qua Clipboard….
4.5. Thứ nghiệm
Chương 5.KÉT QUẢ, HƯỚNG PHÁT TRIỂN
5.1. Hạn chế và hướng phát triển.
5.2. Kết luận Phụ lục : Cấu trúc kho ngữ liệu …
Liên kết tải về
Link Download chính thức:
PHƯƠNG PHÁP THÊM DẤU VÀO VĂN BẢN TIẾNG VIỆT KHÔNG DẤU
Tải xuốngXem Online: