MỤC LỤC
DANH MỤC BẢNG
DANH MỤC HÌNH VẼ
MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN
1.1. TỔNG QUAN TÌNH HÌNH TRONG VÀ NGOÀI NƯỚC
1.2. MỤC ĐÍCH ĐỀ TÀI
1.3. GIỚI HẠN ĐỀ TÀI
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
2.1. CƠ SỞ XỬ LÝ TÍN HIỆU SỐ
2.1.1. Các hệ thống và tín hiệu số:
2.1.1.1. Các tín hiệu dạng sin:
2.1.1.2. Hệ thống số:
2.1.2. Phép biến đổi tần số liên tục:
2.1.2.1. Biến đổi Fourier:
2.1.2.2. Biến đổi Z:
2.1.2.3. Quan hệ giữa biến đổi Fourier và biến đổi Z
2.1.3. Phép biến đổi tần số rời rạc:
2.1.3.1. Biến đổi Fourier rời rạc (Discrete Fourier Transform – DFT)
2.1.3.2. Biến đổi Fourier nhanh:
2.1.3.3. Biến đổi Cosine rời rạc:
2.1.4. Các bộ lọc số và các cửa sổ:
2.1.4.1. Bộ lọc lý tưởng thông thấp:
2.1.4.2. Các phương pháp cửa sổ:
2.1.4.3. Bộ lọc FIR và IIR:
2.1.5. Xác suất và quá trình ngẫu nhiên:
2.1.5.1. Cơ sở xác suất:
2.1.5.2. Biến ngẫu nhiên:
2.2. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI
2.2.1. Biến đổi Fourier thời gian ngắn:
2.2.2. Phân tích Fourier thời gian ngắn:
2.3. RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI
2.3.1. Trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient) . 24
2.3.1.1. Tiền nhấn (Pre-emphasis):
2.3.1.2. Cửa sổ hóa (Windowing):
2.3.1.3. Biến đổi Fourier nhanh (Fast Fourier Transform – FFT):
2.3.1.4. Lọc qua bộ lọc Mel-scale :
2.3.1.5. Tính log năng lượng phổ:
2.3.1.6. Biến đổi Cosine rời rạc:
2.3.2. Phương pháp mã hóa dự báo tuyến tính LPC (Linear Predictive Coding)
2.3.2.1. Phân tích tự tương quan:
2.3.2.2. Phân tích LPC:
2.3.2.3. Phân tích cepstral:
2.3.2.4. Đặt trọng số cho các hệ số cepstral:
CHƯƠNG 3: NHẬN DẠNG TIẾNG NÓI
3.1. MÔ HÌNH MARKOV ẨN:
3.1.1. Chuỗi Markov rời rạc:
3.1.2. Định nghĩa mô hình Markov ẩn:
3.1.2.1. Lập trình động và DTW:
3.1.2.2. Ước lượng HMM – Thuật toán tiến:
3.1.2.3. Giải mã HMM – Thuật toán Viterbi:
3.1.2.4. Ước lượng các tham biến HMM – Thuật toán Baum-Welch:
3.1.3. Vấn đề thực tế trong sử dụng các HMM:
3.1.3.1. Ước lượng ban đầu:
3.1.3.2. Cấu trúc liên kết mô hình:
3.1.3.3. Tiêu chí huấn luyện:
3.1.3.4. Phép nội suy loại bỏ:
3.1.3.5. Tối ưu toán tử:
3.1.3.6. Biểu diển xác suất:
3.1.4. Những hạn chế của HMM:
3.1.4.1. Mô phỏng khoảng thời gian tồn tại:
3.1.4.2. Giả định bậc đầu tiên
3.1.4.3. Giả định độc lập có điều kiện:
3.2. MÔ HÌNH ÂM HỌC:
3.2.1. Lựa chọn đơn vị thích hợp cho mô hình âm học:
3.2.1.1. So sánh các đơn vị khác nhau:
3.2.1.2. Lựa chọn đơn vị huấn luyện cho tiếng Việt:
3.2.2. Đánh giá đặc trưng âm học:
3.2.2.1. Lựa chọn các phân phối đầu ra HMM:
3.2.2.2. Huấn luyện tiếng nói rời rạc so với liên tục:
3.2.3. Phương pháp tính toán lỗi:
3.3. MÔ HÌNH NGÔN NGỮ:
3.3.1. Lý thuyết ngôn ngữ hình thức:
3.3.1.1. Hệ thống cấp bậc Chomsky:
3.3.1.2. Phân tích cú pháp đồ thị cho ngữ pháp ngữ cảnh tự do (CFG – Context Free Grammars):
3.3.2. Mô hình ngôn ngữ Stochastic:
3.3.2.1. Xác suất ngữ pháp ngữ cảnh tự do (CFG)
3.3.2.2. Mô hình ngôn ngữ n-gram:
3.3.3. Độ phức tạp của các mô hình ngôn ngữ:
CHƯƠNG 4: CÔNG CỤ HỖ TRỢ NHẬN DẠNG TIẾNG NÓI
4.1. GIỚI THIỆU VỀ SPHINX:
4.2. KIẾN TRÚC SPHINX:
4.2.1. Bộ ngoại vi – FrontEnd:
4.2.2. Bộ ngôn ngữ – Linguist
4.2.2.1. Mô hình ngôn ngữ:
4.2.2.2. Từ điển
4.2.2.3. Mô hình âm học:
4.2.2.4. Đồ thị tìm kiếm – SearchGraph:
4.2.3. Bộ giải mã – Decoder
4.3. QUẢN LÝ CẤU HÌNH SPHINX:
CHƯƠNG 5: CHƯƠNG TRÌNH DEMO
5.1. CÀI ĐẶT CHƯƠNG TRÌNH
5.1.1. Tải các gói Sphinx cần thiết
5.1.2. Cài đặt:
5.1.2.1. Cài đặt SphinxBase
5.1.2.2. Cài đặt Sphinxtrain
5.1.2.3. Cài đặt PocketSphinx
5.2. XÂY DỰNG BỘ NGÔN NGỮ:
5.2.1. Xây dựng bộ từ điển:
5.2.2. Xây dựng mô hình ngôn ngữ:
5.2.2.1. Chuẩn bị tập tin văn bản:
5.2.2.2. Phát sinh bộ từ vựng:
5.2.2.3. Phát sinh mô hình ngôn ngữ:
5.2.3. Xây dựng mô hình âm học
5.3. CẤU HÌNH HUẤN LUYỆN SPHINX:
5.3.1. Điều chỉnh tham số:
5.3.1.1. Cấu hình thư mục huấn luyện:
5.3.1.2. Điều chỉnh các tham số:
5.3.2. Thực thi huấn luyện:
5.3.2.1. Tạo vector đặc trưng:
5.3.2.2. Huấn luyện:
5.4. KẾT QUẢ THỬ NGHIỆM:
KẾT LUẬN
TÀI LIỆU THAM KHẢO
PHỤ LỤC