Bài giảng Xử lý tiếng nói

pdf 52 trang ngocly 40
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xử lý tiếng nói", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_xu_ly_tieng_noi.pdf

Nội dung text: Bài giảng Xử lý tiếng nói

  1. 1 TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CƠNG NGHỆ THƠNG TIN BỘ MƠN HỆ THỐNG THƠNG TIN BÀI GIẢNG XỬ LÝ TIẾNG NĨI TÊN HỌC PHẦN : XỬ LÝ TIẾNG NĨI MÃ HỌC PHẦN : 17412 TRÌNH ĐỘ ĐÀO TẠO : ĐẠI HỌC CHÍNH QUY DÙNG CHO SV NGÀNH : CƠNG NGHỆ THƠNG TIN HẢI PHÕNG - 2011
  2. 2 MỤC LỤC CHƢƠNG I: CÁC KIẾN THỨC CƠ BẢN 6 1.1 Tổng quan về xử lý tiếng nĩi 6 1.1.1 Nhận dạng tiếng nĩi tự động 6 1.1.2 Chuyển đổi văn bản thành tiếng nĩi 7 1.1.3 Hệ thống hiểu ngơn ngữ nĩi 7 1.2 Cấu trúc ngơn ngữ nĩi 9 1.2.1 Hệ thống tiếng nĩi con ngƣời 9 1.2.2 Ngữ âm học và âm vị học 10 1.2.3 Âm tiết và từ ngữ 11 CHƢƠNG II: XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ TIẾNG NĨI 13 2.1 Xử lý tín hiệu số 13 2.1.1 Phép biến đổi Fourier 14 2.1.2 Phép biến đổi Fourier rời rạc 14 2.1.3 Các bộ lọc số và cửa sổ 15 2.2 Biểu diễn tín hiệu tiếng nĩi 15 2.2.1 Phân tích Fourier thời gian ngắn 15 2.2.2 Mơ hình âm học của việc tạo tiếng nĩi 15 2.3 Mã hĩa tiếng nĩi 19 2.3.1 Các tính chất của bộ mã hĩa tiếng nĩi 19 2.3.2 Các bộ mã hĩa dạng sĩng tiếng nĩi vơ hƣớng 20 CHƢƠNG III: NHÂN DẠNG TIẾNG NĨI 22 3.1 Các hệ thống nhận dạng tiếng nĩi 22 3.1.1 Nhận dạng từ riêng lẻ 22 3.1.2 Nhận dạng từ liên tục 24 3.2 Các mơ hình Markov ẩn 27 3.2.1 Chuỗi Markov 27 3.2.2 Mơ hình Markov 28 CHƢƠNG IV: CÁC HỆ THỐNG CHUYỂN VĂN BẢN THÀNH GIỌNG NĨI 30 4.1 Phân tích ngữ âm và văn bản 30 4.1.1 Từ vựng 30 4.1.2 Xác định cấu trúc tài liệu 30 4.1.3 Chuẩn hĩa văn bản 31 4.1.4 Phân tích ngơn ngữ 32
  3. 3 4.1.5 Chuyển đổi ký tự sang âm thanh 32 4.2 Tổng hợp tiếng nĩi 33 4.2.1 Các tính chất của tổng hợp tiếng nĩi 33 4.2.2 Tổng hợp tiếng nĩi bằng các Formant 34 4.2.3 Tổng hợp tiếng nĩi bằng ghép nối 34 4.2.4 Đánh giá các hệ thống tổng hợp tiếng nĩi 36
  4. 4 Tên học phần: Xử lý tiếng nĩi Loại học phần: 2 Bộ mơn phụ trách giảng dạy: Hệ thống Thơng tin Khoa phụ trách: CNTT. Mã học phần: 17412 Tổng số TC: 4 Tổng số tiết Lý thuyết Thực hành/Xemina Tự học Bài tập lớn Đồ án mơn học 75 45 30 0 khơng khơng Điều kiện tiên quyết: Khơng yêu cầu. Mục tiêu của học phần: Cung cấp các kiến thức cơ bản về lĩnh vực xử lý tiếng nĩi, hiểu các hệ thống chuyển văn bản thành tiếng nĩi, các hệ thống nhận dạng tiếng nĩi. Nội dung chủ yếu: Các vấn đề liên quan đến tiếng nĩi và ngữ âm học; Các hệ thống chuyển văn bản thành tiếng nĩi; Cơ sở xử lý tín hiệu số trong xử lý tiếng nĩi; Nhận dạng tiếng nĩi. Nội dung chi tiết: PHÂN PHỐI SỐ TIẾT TÊN CHƢƠNG MỤC TS LT TH BT KT CHƢƠNG I: CÁC KIẾN THỨC CƠ BẢN 15 9 6 1.1 Tổng quan về xử lý tiếng nĩi 3 1.1.1 Nhận dạng tiếng nĩi tự động 1.1.2 Chuyển đổi văn bản thành tiếng nĩi 1.1.3 Hệ thống hiểu ngơn ngữ nĩi 1.2 Cấu trúc ngơn ngữ nĩi 6 1.2.1 Hệ thống tiếng nĩi con ngƣời 1.2.2 Ngữ âm học và âm vị học 1.2.3 Âm tiết và từ ngữ CHƢƠNG II: XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ 15 9 6 TIẾNG NĨI 2.1 Xử lý tín hiệu số 3 2.1.1 Phép biến đổi Fourier 2.1.2 Phép biến đổi Fourier rời rạc 2.1.3 Các bộ lọc số và cửa sổ 2.2 Biểu diễn tín hiệu tiếng nĩi 3 2.2.1 Mơ hình âm học của việc tạo tiếng nĩi 2.3 Mã hĩa tiếng nĩi 3 2.3.1 Các tính chất của bộ mã hĩa tiếng nĩi 2.3.2 Các bộ mã hĩa dạng sĩng tiếng nĩi vơ hƣớng CHƢƠNG III: NHÂN DẠNG TIẾNG NĨI 21 12 9 3.1 Các hệ thống nhận dạng tiếng nĩi 3 3.1.1 Nhận dạng từ riêng lẻ 3.1.2 Nhận dạng từ liên tục 3.2 Các mơ hình Markov ẩn 9 3.2.1 Chuỗi Markov 3.2.2 Mơ hình Markov CHƢƠNG IV: CÁC HỆ THỐNG CHUYỂN VĂN BẢN 24 15 9 THÀNH GIỌNG NĨI 4.1 Phân tích ngữ âm và văn bản 6 4.1.1 Từ vựng 4.1.2 Xác định cấu trúc tài liệu 4.1.3 Chuẩn hĩa văn bản 4.1.4 Phân tích ngơn ngữ
  5. 5 4.1.5 Chuyển đổi ký tự sang âm thanh 4.2 Tổng hợp tiếng nĩi 9 4.2.1 Các tính chất của tổng hợp tiếng nĩi 4.2.2 Tổng hợp tiếng nĩi bằng các Formant 4.2.3 Tổng hợp tiếng nĩi bằng ghép nối 4.2.4 Đánh giá các hệ thống tổng hợp tiếng nĩi Nhiệm vụ của sinh viên: Tham dự các buổi học lý thuyết và thực hành, làm các bài tập đƣợc giao, làm các bài thi giữa học phần và bài thi kết thúc học phần theo đúng quy định. Tài liệu học tập: 1. Xuedong Huang, Alex Acero, Hsiao Wuen Hon, Spoken Language Processing- A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001. 2. Lawrence R.Rabiner, Ronald W.Schafer, Digital Processing of Speech Signals, Prentice- Hall, Inc. Englewood Cliffs, NewJersey, 1978. Hình thức và tiêu chuẩn đánh giá sinh viên: - Hình thức thi: thi viết. - Tiêu chuẩn đánh giá sinh viên: căn cứ vào sự tham gia học tập của sinh viên trong các buổi học lý thuyết và thực hành, kết quả làm các bài tập đƣợc giao, kết quả của các bài thi giữa học phần và bài thi kết thúc học phần. Thang điểm: Thang điểm chữ A, B, C, D, F. Điểm đánh giá học phần: Z = 0,3X + 0,7Y. Bài giảng này là tài liệu chính thức và thống nhất của Bộ mơn Hệ thống Thơng tin, Khoa Cơng nghệ Thơng tin và đƣợc dùng để giảng dạy cho sinh viên. Ngày phê duyệt: / / Trƣởng Bộ mơn
  6. 6 CHƢƠNG I : CÁC KIẾN THỨC CƠ BẢN 1.1 Tổng quan về xử lý tiếng nĩi Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đĩ là một cơng cụ vơ cùng hữu ích trợ giúp con ngƣời xử lý thơng tin. Cùng với sự phát triển của xã hội, khối lƣợng thơng tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành cho những cơng việc này lại giảm đi. Vì vậy, việc tăng tốc độ xử lý thơng tin, trong đĩ cĩ tốc độ trao đổi thơng tin giữa con ngƣời và máy tính, trở thành một yêu cầu cấp thiết. Hiện tại, giao tiếp ngƣời-máy đƣợc thực hiện bằng các thiết bị nhƣ bàn phím, chuột, màn hình, với tốc độ tƣơng đối chậm nên cần cĩ các phƣơng pháp trao đổi thơng tin mới giúp con ngƣời làm việc hiệu quả hơn với máy tính. Một trong những hƣớng nghiên cứu này là sử dụng tiếng nĩi trong trao đổi thơng tin ngƣời-máy. Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nĩi, trong đĩ cĩ tổng hợp tiếng nĩi. 1.1.1 Nhận dạng tiếng nĩi tự động Nhận dạng tiếng nĩi là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thơng tin đầu vào là tín hiệu tiếng nĩi thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đĩ và lƣu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng cĩ thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và khơng thay đổi thì cơng việc nhận dạng tiếng nĩi trở nên đơn giản bằng cách so sánh dữ liệu tiếng nĩi cần nhận dạng với các mẫu đã đƣợc học và lƣu trữ trong bộ nhớ. Khĩ khăn cơ bản của nhận dạng tiếng nĩi đĩ là tiếng nĩi luơn biến thiên theo thời gian và cĩ sự khác biệt lớn giữa tiếng nĩi của những ngƣời nĩi khác nhau, tốc độ nĩi, ngữ cảnh và mơi trƣờng âm học khác nhau. Xác định những thơng tin biến thiên nào của tiếng nĩi là cĩ ích và những thơng tin nào là khơng cĩ ích đối với nhận dạng tiếng nĩi là rất quan trọng. Đây là một nhiệm vụ rất khĩ khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khĩ khăn trong việc tổng quát hố từ các mẫu tiếng nĩi những biến thiên quan trọng cần thiết trong nhận dạng tiếng nĩi. Các nghiên cứu về nhận dạng tiếng nĩi dựa trên ba nguyên tắc cơ bản: - Tín hiệu tiếng nĩi đƣợc biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta cĩ thể trích ra các đặc điểm tiếng nĩi từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nĩi. - Nội dung của tiếng nĩi đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đĩ ý nghĩa của một phát âm đƣợc bảo tồn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
  7. 7 - Nhận dạng tiếng nĩi là một quá trình nhận thức. Thơng tin về ngữ nghĩa (semantics) và suy đốn (pragmatics) cĩ giá trị trong quá trình nhận dạng tiếng nĩi, nhất là khi thơng tin về âm học là khơng rõ ràng. 1.1.2 Chuyển đổi văn bản thành tiếng nĩi Các hệ thống chuyển đổi văn bản thành giọng nĩi cĩ thể đƣợc xem nhƣ là hệ thống mã hĩa tiếng nĩi cho phép lựa chọn kiểu cách nĩi, tốc độ, cƣờng độ và các hiệu ứng. Hệ thống chuyển văn bản thành tiếng nĩi (Text-to-Speech) là một hệ thống cĩ thể sinh ra tiếng nĩi gần giống với con ngƣời từ các văn bản đƣợc đƣa vào (cịn đƣợc gọi là hệ thống tổng hợp tiếng nĩi) Sự chuyển đổi các từ dƣới dạng viết sang tiếng nĩi là một cơng việc khĩ khăn vì hệ thống TTS cần dữ liệu từ vựng rất lớn và nhiều ngữ điệu của âm thanh. Các thành phần cơ bản của một hệ thống chuyển đổi văn bản thành tiếng nĩi - Bộ phân tích văn bản: chuẩn hĩa văn bản sang dạng thích hợp cho hệ thống TTS - Bộ phân tích ngữ âm chuyển đổi văn bản đã đƣợc xử lý thành dãy các âm tƣơng ứng sau đĩ đƣợc phân tích ngữ điệu để xác định trọng âm, ngắt nhịp, thời gian, - Cuối cùng, bộ tổng hợp tiếng nĩi nhận các tham số đầu vào từ dãy âm vị đã xử lý đầy đủ - Thành phần phân tích văn bản: + Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, phân tích cấu trúc ngơn ngữ + Chuyển đổi các ký hiệu sang dạng chuẩn. + Chuyển đổi các số sang dạng chữ tƣơng ứng
  8. 8 + Phân tích khoảng trống, dấu chấm câu để xác định cấu trúc ngơn ngữ - Thành phần phân tích ngữ âm: + Chuyển đổi các từ đã chuẩn hĩa sang các âm vị tƣơng ứng (với thơng tin nhƣ trọng âm, thời gian phát âm) 1.1.3 Hệ thống hiểu ngơn ngữ nĩi Tổng hợp tiếng nĩi là lĩnh vực đang đƣợc nghiên cứu khá rộng rãi trên thế giới và đã cho những kết quả khá tốt. Cĩ ba phƣơng pháp cơ bản dùng để tổng hợp tiếng nĩi là mơ phỏng bộ máy phát âm, tổng hợp bằng formant và tổng hợp bằng cách ghép nối. Phƣơng pháp mơ phỏng bộ máy phát âm cho chất lƣợng tốt nhƣng địi hỏi nhiều tính tốn vì việc mơ phỏng chính xác bộ máy phát âm rất phức tạp. Phƣơng pháp tổng hợp formant khơng địi hỏi chi phí cao trong tính tốn nhƣng cho kết quả chƣa tốt. Phƣơng pháp tổng hợp ghép nối cho chất lƣợng tốt, chí phí tính tốn khơng cao nhƣng số lƣợng từ vựng phải rất lớn. Ở các nƣớc phát triển, những nghiên cứu xử lý tiếng nĩi, đã cho các kết quả khả quan, làm tiền đề cho việc giao tiếp ngƣời-máy bằng tiếng nĩi. Ở Việt Nam, các nghiên cứu trong lĩnh
  9. 9 vực này tuy mới đƣợc phát triển trong những năm gần đây nhƣng cũng đã cĩ một số kết quả khả quan 1.2 Cấu trúc ngơn ngữ nĩi 1.2.1 Hệ thống tiếng nĩi con ngƣời a) Bộ máy phát âm Bộ máy phát âm bao gồm các thành phần riêng rẽ nhƣ phổi, khí quản, thanh quản, và các đƣờng dẫn miệng, mũi. Trong đĩ: Thanh quản chứa hai dây thanh cĩ thể dao động tạo ra sự cộng hƣởng cần thiết để tạo ra âm thanh. Tuyến âm là ống khơng đều bắt đầu từ mơi, kết thúc bởi dây thanh hoặc thanh quản. Khoang mũi là ống khơng đều bắt đầu từ mơi, kết thúc bởi vịm miệng, cĩ độ dài cố định khoảng 12cm đối với ngƣời lớn. Vịm miệng là các nếp cơ chuyển động. 1. Hốc mũi 2. Vịm miệng trên 3. Ổ răng 4. Vịm miệng mềm 5. Đầu lƣỡi 6. Thân lƣỡi 7. Lƣỡi gà 8. Cơ miệng 9. Yết hầu 10. Nắp đĩng của thanh quản 11. Dây thanh giả 12. Dây thanh 13. Thanh quản 14. Thực quản b) Cơ chế phát âm Trong quá trình tạo âm thanh khơng phải là âm mũi, vịm miệng mở, khoang mũi đĩng lại, dịng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vịm miệng hạ thấp và dịng khí sẽ chỉ đi qua khoang mũi. Tuyến âm sẽ đƣợc kích thích bởi nguồn năng lƣợng chính tại thanh mơn. Tiếng nĩi đƣợc tạo ra
  10. 10 do tín hiệu nguồn từ thanh mơn phát ra, đẩy khơng khí cĩ trong phổi lên tạo thành dịng khí, va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hƣởng, dao động âm sẽ đƣợc lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và mơi, sẽ tạo ra tiếng nĩi. 1.2.2 Ngữ âm học và âm vị học Ngành nghiên cứu âm thanh cho một ngơn ngữ đƣợc gọi là âm vị học. Ngữ âm học là một ngành khoa học nghiên cứu các đặc điểm âm thanh của tiếng nĩi con ngƣời. Ngữ âm học nghiên cứu các phổ quát âm thanh. Ví dụ: Nhờ vào bộ máy cấu âm, con ngƣời cĩ thể phát ra các chuỗi âm thanh khác nhau. Ngữ âm học chia các loại âm thanh này thành các phạm trù ngữ âm khác nhau: nguyên âm, phụ âm, tắc, xát Cịn âm vị học thì khơng nghiên cứu rộng nhƣ vậy. Âm vị học nghiên cứu xem trong một ngơn ngữ cĩ bao nhiêu đơn vị âm thanh là cĩ chức năng khu biệt nghĩa. Hoặc, trong ngơn ngữ, những nét ngữ âm nào trở thành nhữngnét khu biệt và cĩ ý nghĩa. Chính vì vậy, ngữ âm học cĩ số đơn vị là vơ hạn, quen gọi là các âm tố (sounds). Cịn âm vị học, cĩ số đơn vị hữu hạn, đếm đƣợc. Đơn vị của âm vị học là âm vị (phonemes). Về mặt ngữ âm học, 3 nguyên âm này đều cĩ nội dung ngữ âm là nhƣ nhau ở tất cả các ngơn ngữ trên thế giới. Ví dụ nhƣ [m] phân biệt với [p] và [b] ở đặc tính [mũi/khơng mũi]. [p] phân biệt với [m] và [b] ở đặc tính [+ vơ thanh]: +vơ thanh/ +hữu thanh. Những đối lập kiểu nhƣ vậy thì ở bất cứ ngơn ngữ nào cũng giống nhau. Vì vậy, đĩ chỉ là các thuộc tính ngữ âm học thuần tuý. Tuy nhiên, dƣới con mắt âm vị học, tài nguyên ngữ âm của các âm vị phải đƣợc lựa chọn dƣới con mắt của ngƣời bản ngữ (native), đƣợc tận dụng và chọn lựa, đƣợc khai thác sao cho cĩ lợi và hợp với hệ thống (cái tạng của ngơn ngữ) của mình nhất. Nĩi tĩm lại, các nét ngữ âm đã biến thành các nét âm vị học; từ cái chung, cái phổ quát trở thành cái riêng, cái đặc thù. Cả một tiến trình lịch sử phát triển của một hệ thống ngữ âm, từ lúc xa xƣa cho đến ngày nay, suy cho cùng, là sự chọn lựa và khai thác tài nguyên nhân loại ấy cho tộc ngƣời mình, cho cộng đồng nĩi năng cụ thể. Quá trình chọn lựa đĩ cũng chật vật, và cĩ thể nĩi là “đầy máu và nƣớc mắt”. Chính vì vậy, các nhà âm vị học hiện đại khơng quay lƣng lại với lịch sử của một ngơn ngữ mà tìm ở đĩ ra những hệ thống cứ liệu chắc chắn cho việc chứng minh những chức năng của hệ âm thanh một ngơn ngữ. Phƣơng pháp luận này khác hồn tồn với âm vị học cấu trúc luận xƣa kia. Vì vậy, cĩ thể nĩi, âm vị học hiện đại là hình ảnh thu
  11. 11 nhỏ một cách logic và cĩ tính hình thức hố cao con đƣờng phát triển của một hệ thống âm thanh một ngơn ngữ. 1.2.3 Âm tiết và từ ngữ a) Âm tiết Chuỗi lời nĩi mà con ngƣời phát ra gồm nhiều khúc đoạn dài ngắn khác nhau. Đơn vị phát âm ngắn nhất là âm tiết (syllable). Về phƣơng diện phát âm, âm tiết cĩ tính chất tồn vẹn, khơng thể phân chia đƣợc là bởi nĩ đƣợc phát âm bằng một đợt căng của cơ thịt của bộ máy phát âm. Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều phải trải qua ba giai đoạn: tăng cƣờng độ căng, đỉnh điểm căng thẳng và giảm độ căng. Dựa vào cách kết thúc, các âm tiết đƣợc chia thành hai loại lớn: mở và khép. Trong mỗi loại lại cĩ hai loại nhỏ hơn. Nhƣ vậy cĩ 4 loại âm tiết nhƣ sau: - Những âm tiết dƣợc kết thúc bằng một phụ âm vang (/m, n, ŋ/ ) đƣợc gọi là nhữngâm tiết nửa khép. - Những âm tiết đƣợc kết thúc bằng một phụ âm khơng vang (/p, t, k/) đƣợc gọi là những âm tiết khép. - Những âm tiết đƣợc kết thúc bằng một bán nguyên âm (/w, j/) đƣợc gọi là nhữngâm tiết nửa mở. - Những âm tiết đƣợc kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở đỉnh âm tiết thì đƣợc gọi là âm tiết mở. b) Đặc điểm của âm tiết tiếng việt - Cĩ tính độc lập cao: + Trong dịng lời nĩi, âm tiết tiếng Việt bao giờ cũng thể hiện khá đầy đủ, rõ ràng, đƣợc tách và ngắt ra thành từng khúc đoạn riêng biệt. + Khác với âm tiết các ngơn ngữ châu Âu, âm tiết nào của tiếng Việt cũng mang một thanh điệu nhất định. + Do đƣợc thể hiện rõ ràng nhƣ vậy nên việc vạch ranh giới âm tiết tiếng Việt trở nên rất dễ dàng. - Cĩ khả năng biểu hiện ý nghĩa + Ở tiếng Việt, tuyệt đại đa số các âm tiết đều cĩ ý nghĩa. Hay, ở tiếng Việt, gần nhƣ tồn bộ các âm tiết đều hoạt động nhƣ từ
  12. 12 + Cĩ thể nĩi, trong tiến Việt, âm tiết khơng chỉ là một đơn vị ngữ âm đơn thuần mà cịn là một đơn vị từ vựng và ngữ pháp chủ yếu. Ở đây, mối quan hệ giữa âm và nghĩa trong âm tiết cũng chặt chẽ và thƣờng xuyên nhƣ trong từ của các ngơn ngữ Âu châu, và đĩ chính là một nét đặctrƣng loại hình chủ đạo của tiếng Việt. - Cĩ một cấu trúc chặt chẽ Mơ hình âm tiết tiếng Việt khơng phải là một khối khơng thể chia cắt mà là một cấu trúc. Cấu trúc âm tiết tiếng Việt là một cấu trúc hai bậc, ở dạng đầy đủ nhất gồm 5 thành tố, mỗi thành tố cĩ một chức năng riêng. CÂU HỎI ƠN TẬP 1. Trình bày khái niệm về xử lý tiếng nĩi? Ý nghĩa trong thực tiễn? Cho ví dụ minh họa? 2. Trình bày các nguyên tắc cơ bản trong quá trình nhận dạng tiếng nĩi? 3. Trình bày hệ thống chuyển đổi văn bản thành giọng nĩi? 4. Trình bày cấu trúc của ngơn ngữ nĩi?
  13. 13 CHƢƠNG II : XỬ LÝ TÍN HIỆU SỐ TRONG XỬ LÝ TIẾNG NĨI 2.1 Xử lý tín hiệu số Phân tích và thiết kế các hệ thống tuyến tính đƣợc thực hiện dễ dàng nhờ các biểu diễn miền tần số frequency-domain representation) của cả các tín hiệu và hệ thống. Do vậy, cần xét các biểu diễn của biến đổi Fourier (Fourier Transform, FT) và của biến đổi Z (Z - Transform, ZT) của các tín hiệu và hệ thống rời rạc. Biến đổi Z (ZT) : Biểu diễn ZT của dãy đƣợc xác định bởi 2 phƣơng trình: "Biến đổi Z" (ZT) hay "biến đổi trực tiếp" của x(n) đƣợc xác định bởi (2a). Tổng quan, cĩ thể thấy X(z) là chuỗi lũy thừa vơ hạn theo biến z-1, trong đĩ dãy các giá trị, x(n), đĩng vai trị các hệ số trong chuỗi luỹ thừa. Nĩi chung, các chuỗi luỹ thừa này sẽ hội tụ đến giá trị hữu hạn chỉ với các giá trị xác định của z. Điều kiện đủ của hội tụ là: Tập hợp các giá trị mà chuỗi hội tụ xác định một miền trên mặt phẳng phức Z gọi là miền hội tụ. Nĩi chung, miền này cĩ dạng: Cĩ nhiều định lý và tính chất của biểu diễn ZT tiện dụng cho việc nghiên cứu các hệ thống thời gian rời rạc. Danh sách các định lý quan trọng cho trong bảng 1. Về hình thức, các định lý này giống với các định lý tƣơng ứng của biến đổi Laplace cho các hàm thời gian liên tục. Tuy nhiên, điều này khơng cĩ nghĩa là ZT là một dạng xấp xỉ nào đĩ của biến đổi Laplace. biến đổi Laplace là biểu diễn chính xác của các hàm thời gian liên tục, cịn ZT là biểu diễn chính xác của dãy các số
  14. 14 2.1.1 Phép biến đổi Fourier Biểu diễn biến đổi Fourier (FT) của tín hiệu thời gian rời rạc cho bởi các phƣơng trình 2.1.2 Phép biến đổi Fourier rời rạc Cũng nhƣ trong trƣờng hợp các tín hiệu tƣơng tự, nếu dãy tuần hồn với chu kỳ N, thì x (n) cĩ thể biểu diễn bởi tổng rời rạc của các đƣờng hình sin hơn là bởi dạng tích phân nhƣ ở (5b). Các biểu diễn dạng chuỗi Fourier cho dãy tuần hồn là: Đĩ là biểu diễn chính xác của dãy tuần hồn. Tuy nhiên, ngƣời ta hay dùng biểu diễn khác của (8). Xét dãy độ dài hữu hạn, x(n), bằng 0 ngồi đoạn 0 <= n <= N-1. Biến đổi ZT của x(n) là Nếu ta đánh giá X(z) tại N điểm cách đều nhau trên đƣờng trịn đơn vị,zk = ej 2 k/N, k = 0 (N-1), thì cĩ Biểu diễn DFT với tất cả các nét riêng của nĩ là quan trọng do một số lý do:
  15. 15 - Biến đổi DFT, X(k), cĩ thể coi là bản mẫu của biến đổi ZT (hoặc biến đổi FT) của dãy cĩ độ dài hữu hạn. - Biến đổi DFT cĩ các tính chất rất giống (cĩ các sửa đổi do sự tuần hồn nội tại) với nhiều tính chất hữu ích của biến đổi ZT và FT. - N giá trị của X(k) cĩ thể tính tốn rất hiệu quả (với thời gian tỷ lệ với NlogN) bằng tập hợp các thuật tốn tính tốn đƣợc biết chung là biến đổi Fourier nhanh (Fast Fourier Transform, FFT). - DFT đƣợc dùng rộng rãi để tính các ước lượng phổ (Spectrum estimate), hàm tương quan (Correlation function) và để thực hiện các lọc số. 2.1.3 Các bộ lọc số và cửa sổ Lọc số là hệ thống bất biến dịch chuyển tuyến tính thời gian rời rạc (Discrete-Time Linear Shift- Invariant System). Nhớ rằng với hệ thống nhƣ vậy, cái vào và cái ra cĩ quan hệ theo biểu thức tích chập (1). Quan hệ tƣơng ứng giữa biến đổi ZT của cái vào và cái ra cho ở bảng 1 Y(z) = H(z)X(z) Biến đổi ZT của đáp ứng mẫu đơn vị, H(z), đƣợc gọi là hàm hệ thống (system function) của hệ, biến đổi FT của đáp ứng xung đơn vị, 2.2 Biểu diễn tín hiệu tiếng nĩi 2.2.1 Mơ hình âm học của việc tạo tiếng nĩi Nhằm đơn giản hố việc phân tích và nghiên cứu bộ máy phát âm, ngƣời ta chia bộ máy phát âm ra làm hai phần cơ bản: nguồn âm và hệ thống đáp ứng.  Hệ thống đáp ứng bao gồm thanh mơn, tuyến âm, mơi và mũi. Việc mơ hình hố này sử dụng hàm truyền đạt trong biến đổi Z.  Đối với các âm hữu thanh, nguồn âm là một dạng sĩng tuần hồn đặc biệt. Dạng sĩng này đƣợc mơ phỏng bởi đáp ứng của bộ lọc thơng thấp cĩ hai điểm cực thực và tần số cắt vào khoảng 100 Hz.
  16. 16 Trong đĩ , là các hằng số đặc trƣng cho nguồn âm với <1, <1. Đối với âm vơ thanh nguồn âm là một nhiễu trắng với biên độ biến đổi gần nhƣ ngẫu nhiên. Để tạo tiếng nĩi, ngƣời ta dùng các mơ hình khác nhau để mơ phỏng bộ máy phát âm. Theo quan điểm giải phẫu học, ta cĩ thể giả thiết rằng tuyến âm đƣợc biểu diễn bằng một chuỗi M đoạn ống âm học lý tƣởng, là những đoạn ống cĩ độ dài bằng nhau, và từng đoạn riêng biệt cĩ thiết diện mặt cắt là Am (gọi tắt là thiết diện) khác nhau theo chiều dài đoạn ống. Tổ hợp thiết diện {Am} của các đoạn ống đƣợc chọn sao cho chúng xấp xỉ với hàm thiết diện A(x) của tuyến âm. Các đoạn ống đƣợc coi là lý tƣởng khi:  Độ dài mỗi đoạn đủ nhỏ so với bƣớc sĩng âm truyền qua nĩ đƣợc coi là sĩng phẳng.  Các đoạn đủ cứng sao cho sự hao tổn bên trong do dao động thành ống, tính dính và đẫn nhiệt khơng đáng kể. Ngồi ra ta giả thiết thêm mơ hình tuyến âm lúc này là tuyến tính và khơng nối với thanh mơn, hiệu ứng của tuyến mũi đƣợc bỏ qua, ta sẽ cĩ mơ hình tạo tiếng nĩi lý tƣởng và việc phân tích mơ hình ống âm học trở nên phức tạp hơn. Tiếp theo chúng ta cĩ thể thấy rằng mơ hình này cĩ nhiều tính chất chung với mạch lọc số nên nĩ cĩ thể đƣợc biểu diễn bằng cấu trúc mạch lọc số với các tham số thay đổi phù hợp với sự thay đổi tham số của ống âm học. Sự chuyển động của khơng khí trong một đoạn ống âm học cĩ thể đƣợc mơ tả bằng áp suất âm thanh và thơng lƣợng, đĩ là những hàm phụ thuộc độ dài ống (x) và thời gian (t). Trong những đoạn riêng biệt đĩ, các giá trị của hai hàm này đƣợc coi là tổ hợp tuyến tính các giá trị của chúng đối với sĩng thuận và sĩng ngƣợc (đƣợc ký hiệu lần lƣợt bằng dấu cộng „+‟ và dấu trừ „-‟). Sĩng
  17. 17 thuận là sĩng truyền từ thanh mơn đến mơi, trong khi sĩng ngƣợc lại truyền lừ mơi đến thanh mơn. Mối quan hệ giữa sĩng thuận và sĩng ngƣợc trong những đoạn kế tiếp phải đảm bảo áp suất và thơng lƣợng liên tục cả về thời gian và khơng gian tại mọi điểm trong hệ thống. Trong hình 1.6.a ta thấy khi sĩng thuận trong một đoạn gặp phần thay đổi về thiết diện (mối nối giữa hai đoạn kế tiếp), một phần của nĩ truyền sang đoạn kế tiếp, một phần kia lại phản xạ dƣới dạng sĩng ngƣợc. Hồn tồn tƣơng tự, khi sĩng ngƣợc gặp mối nối, một phần đƣợc chuyển tiếp sang đoạn trƣớc đĩ, cịn phần kia lại phản xạ lại dƣới dạng sĩng thuận. Tuyến âm đƣợc coi nhƣ một chuỗi liên tiếp các ống âm học và đƣợc mơ hình hố
  18. 18 bởi một chuỗi gồm K bộ cộng hƣởng. Khi đĩ hàm truyền đạt của tuyến âm cĩ dạng: Mỗi bộ cộng hƣởng sẽ tạo ra một formant đƣợc đặc trƣng bởi tần số trung tâm, tính theo cơng thức: Với fe là tần số lấy mẫu của tín hiệu lấy mẫu Cuối cùng âm thanh đƣợc phát ra ở mơi, nơi đƣợc coi nhƣ một tải âm học. Sự tán xạ của mơi đƣợc biểu diễn bởi hàm truyền đạt: R z C 1 z 1  Hàm truyền đạt của hệ thống cĩ dạng: T z G z .V z .R z  Nếu giả thiết một trong hai điểm cực của thanh mơn gần bằng 1( = -1) ta cĩ: là hàm truyền đạt của bộ lọc đảo. T(z) là hàm truyền đạt của mơ hình tồn điểm cực. Các hệ số ai của bộ lọc đảo sẽ là các tham số quan trọng trong phƣơng pháp dự đốn tuyến tính để xác định các formant của tuyến âm. Hạn chế của mơ hình này là khơng thể tạo ra các âm xát hữu thanh và các âm mũi. Đối với các âm mũi mơ hình trên đƣợc cải tiến bằng cách thêm vào phần đặc trƣng cho mũi đặt song song với mơ hình. Lúc đĩ hàm truyền đạt của hệ thống mới là:
  19. 19 Hệ thống trên khơng cịn là hệ thống tồn điểm cực mà nĩ cịn xuất hiện các điểm khơng trong mặt phẳng Z. Việc xuất hiện các điểm khơng này sẽ gây khĩ khăn cho phƣơng pháp tiên đốn tuyến tính là phƣơng pháp áp dụng cho các hệ thống tồn điểm cực. Song ngƣời ta đã khắc phục đƣợc khĩ khăn trên bằng cách thay một điểm khơng bằng hai điểm cực theo phƣơng pháp giảm bậc gần đúng, cơng thức giảm bậc nhƣ sau: Tín hiệu âm thanh khơng phải là tín hiệu dừng, do đĩ mơ hình phải đƣợc xây dựng một cách liên tục, nghĩa là các tham số của mơ hình phải biến thiên theo thời gian. Sự biến thiên này rất chậm nên các tham số cĩ thể coi nhƣ khơng đổi trong khoảng thời gian mà tín hiệu đƣợc coi là dừng: 20 ms. 2.3 Mã hĩa tiếng nĩi 2.3.1 Các tính chất của bộ mã hĩa tiếng nĩi Dựa trên cơ sở lựa chọn các cách biểu diễn tín hiệu và phƣơng pháp xử lý, đã cĩ rất nhiều các ứng dụng quan trọng đã đƣợc triển khai. Hình vẽ dƣới đây sẽ chỉ ra một số ứng dụng trong lĩnh vực xử lý tiếng nĩi. Tổng hợp tiếng nĩi là quá trình tạo ra tín hiệu âm thanh bằng cách điều khiển một mơ hình mẫu với một tập các tham số. Nếu mơ hình mẫu này và các tham số đƣợc xây dựng một cách hồn hảo thì tiếng nĩi tổng hợp cĩ thể giống với tiếng nĩi tự nhiên. Hiện cĩ hai phƣơng pháp tổng hợp tiếng nĩi: a. Tổng hợp tiếng nĩi theo cách phát âm Đây là cách tiếp cận trực tiếp để mơ hình hố hệ thống một cách chi tiết. Trong phƣơng pháp này hệ thống tổng hợp đƣợc mơ phỏng giống nhƣ quá trình tạo ra âm thanh và lan truyền âm thanh trong hệ thống phát âm của con ngƣời. Hƣớng nghiên cứu này vẫn đang tiếp tục và
  20. 20 cho một số kết quả nhất định. Phƣơng pháp này cĩ thể tạo ra hầu hết các tiếng nĩi tự nhiên. b. Tổng hợp đầu cuối tự nhiên Theo hƣớng mơ hình hố này, ngƣời ta dựa trên các đặc tính đáp ứng tần số của dây thanh và tuyến âm để mơ phỏng lại cơ chế tạo tiếng nĩi. Mơ hình này gọi là mơ hình nguồn-lọc. Bộ tổng hợp tiếng nĩi theo hƣớng này đƣợc thực hiện bằng cách sử dụng hệ thống tƣơng tự với cơ chế tạo tiếng nĩi tại những điểm quan sát. Cơ quan phát âm đƣợc mơ hình hố thành một hệ thống bao gồm một nguồn âm biểu diễn cho thanh mơn và một bộ lọc biểu diên cho tuyến âm. Quá trình tổng hợp sẽ bao gồm hai phần cơ bản: Tổng hợp tín hiệu nguồn dựa vào tần số cơ bản và tính chất tuần hồn của nguồn. Xây dựng lại hàm truyền đạt của tuyến âm (bao gồm cả mũi và miệng) dựa vào các tham số đặc trƣng cho tuyến âm. Hiện nay ngƣời ta thƣờng sử dụng hai bộ tham số đặc trƣng cho tuyến âm:    Bộ tham số formant  Bộ tham số của bộ lọc đảo Các bộ tham số này cĩ thể đƣợc tổng kết từ các quá trình phân tích tiếng nĩi. 2.3.2 Các bộ mã hĩa dạng sĩng tiếng nĩi vơ hƣớng Nhận dạng tiếng nĩi là lĩnh vực nghiên cứu với mục đích tạo ra đƣợc một thiết bị, máy mĩc hoặc phần mềm cĩ khả năng nhận biết một cách chính xác tiếng nĩi của con ngƣời từ bất kỳ một nguồn phát âm nào. Nhận dạng tiếng nĩi cĩ hai ứng dụng chính là nhận dạng tiếng nĩi và nhận dạng ngƣời nĩi. a. Nhận dạng ngữ nghĩa Thơng thƣờng để điều khiển các thiết bị máy mĩc ngƣời ta thƣờng sử dụng cách giao tiếp thơng qua sự vào ra cơ khí. Khi áp dụng tiếng nĩi vào giao tiếp, lợi ích của nĩ cĩ thể dễ dàng nhận thấy: đĩ là tính tiện lợi, dễ sử dụng, tốc độ giao tiếp cao Để cĩ thể sử dụng tiếng nĩi nhƣ một cơng cụ giao tiếp thì hệ thống cần cĩ khả năng tiếng nĩi về ngữ nghĩa. Nhận dạng ngữ nghĩa bao gồm nhận dạng từ và nhận dạng câu. b. Nhân dạng ngƣời nĩi Trong thế giới ngày nay tồn tại nhiều hệ thống yêu cầu độ an tồn bảo mật cao. Từ đĩ nảy sinh ra yêu cầu phải nhận dạng đƣợc ngƣời nĩi bằng những đặc điểm riêng biệt mà khơng ai cĩ thể sao chép đƣợc. Bên cạnh các cách thức nhận dạng qua chữ ký, ảnh chân dung, chữ viết , ngày nay ngƣời ta cịn dùng tiếng nĩi để nhận dạng bởi vì tiếng nĩi cĩ những đặc tính riêng biệt với từng ngƣời. Tại một số cơng ty đã xuất hiện những hệ thống kiểm tra ngƣời qua cửa bằng nhận dạng tiếng nĩi hoặc nhận dạng mỗi ngƣời qua thẻ nhận dạng mà những thơng tin lƣu trữ trên thẻ
  21. 21 chính là đặc điểm về tiếng nĩi của ngƣời đĩ. Nguyên tắc của nhận dạng ngƣời nĩi là sử dụng những từ khố đã đƣợc xác định từ trƣớc mà những từ khố này đặc trƣng cho từng ngƣời một. Cĩ hai yếu tố để khẳng định sự khác nhau trong tiếng nĩi của mỗi ngƣời: - Các đặc tính cơ quan phát âm khác nhau nhƣ: độ dài của tuyến âm, tần số cộng hƣởng của dây thanh, các tần số formant, dải thơng, sự biến đổi của đƣờng bao phổ Đĩ là tập hợp những đặc tính cĩ liên quan đến tính độc lập của nội dung âm vị của từ ngữ. - Sự khác nhau trong cách phát âm của từng ngƣời: tốc độ và chiều dài từ luơn luơn khác nhau. Trong tất cả các đặc tính trên đƣờng bao phổ và tần số cơ bản là hai đặc tính quan trọng nhất. Đƣờng bao phổ đƣợc miêu tả bằng những giá trị trung bình của các bộ lọc thơng dải, của các tần số formant, của các hệ số tiên đốn tuyến tính, của hệ số cepstre và các tham số khác. CÂU HỎI ƠN TẬP 1. Trình bày ứng dụng của xử lý tín hiệu số trong xử lý tiếng nĩi ? 2. Trình bày mơ hình âm học của việc tạo tiếng nĩi ? 3. Trình bày các tính chất của bộ mã hĩa tiếng nĩi ?
  22. 22 CHƢƠNG III : NHẬN DẠNG TIẾNG NĨI 3.1 Các hệ thống nhận dạng tiếng nĩi 3.1.1 Nhận dạng từ riêng lẻ Trong tiếng Việt, ngữ nghĩa của một từ phụ thuộc vào thanh điệu. Khi thanh điệu thay đổi, nghĩa của từ cũng thay đổi theo. Cĩ 6 thanh điệu trong tiếng Việt: khơng dấu, huyền,sắc, nặng, hỏi, ngã. Tƣơng ứng với mỗi thanh điệu, tần số cơ bản thay đổi theo một quy luật riêng. a. Khơng dấu Với thanh điệu khơng dấu, tần số cơ bản khơng thay đổi. b. Dấu huyền Với dấu huyền, tần số cơ bản giảm dần. Nếu gọi F0 là tần số tƣơng ứng với âm khơng dấu, thì sự thay đổi tần số cơ bản của dấu huyền cĩ thể đƣợc mơ tả nhƣ sau: F0, F0-10, F0-20, F0-30, F0-50, F0-60 c. Dấu sắc
  23. 23 Với dấu sắc, tần số cơ bản tăng dần. Nếu gọi F0 là tần số tƣơng ứng với âm khơng dấu, thì sự thay đổi tần số cơ bản của dấu sắc cĩ thể đƣợc mơ tả nhƣ sau: F0-20, F0-20, F0-15, F0-10, F0-5, F0+5, F0+30, F0+70, F0+80 d. Dấu nặng Nếu gọi F0 là tần số tƣơng ứng với âm khơng dấu, thì sự thay đổi tần số cơ bản của dấu nặng cĩ thể đƣợc mơ tả nhƣ sau: F0, F0, F0-35, F0-50, F0-90, F0-120, F0-140 e. Dấu hỏi
  24. 24 Nếu gọi F0 là tần số tƣơng ứng với âm khơng dấu, thì sự thay đổi tần số cơ bản của dấu hỏi cĩ thể đƣợc mơ tả nhƣ sau: F0-30, F0-15, F0-20, F0-35, F0-55, F0-70, F0-75, F0-85, F0-90,F0-95, F0-90, F0-80, F0-90, F0-30 f. Dấu ngã Nếu gọi F0 là tần số tƣơng ứng với âm khơng dấu, thì sự thay đổi tần số cơ bản của dấu ngã cĩ thể đƣợc mơ tả nhƣ sau: F0, F0-40, F0+20, F0+50, F0+60 3.1.2 Nhận dạng từ liên tục Sự thay đổi các thơng số của tín hiệu tiếng nĩi khi phát âm một câu trong tiếng Việt khá phức tạp, vì việc phát âm này phụ thuộc vào nhiều yếu tố nhƣ loại câu (câu hỏi, câu trần thuật, câu cảm thán ), hồn cảnh phát âm (nĩi chuyện, đọc, ), địa phƣơng Để cĩ đƣợc những hiểu biết về việc phát âm một câu trong tiếng Việt cần cĩ những nghiên cứu đầy đủ. Với mục đích thử nghiệm việc ghép từ để tạo thành câu trong tiếng Việt, phần này sẽ đƣa ra một số nhận xét về sự biến đổi của tín hiệu tiếng nĩi khi phát âm hai loại câu điển hình của tiếng Việt: câu trần thuật và câu hỏi. Những nhận xét này đƣợc rút ra qua sự so sánh với câu khơng cĩ ngữ điệu. a. Câu trần thuật
  25. 25 Khi phát âm câu trần thuật, tuỳ theo hồn cảnh cĩ thể cĩ một số từ nào đĩ đƣợc nhấn mạnh. Việc xác định từ cần nhấn mạnh trong câu trần thuật liên quan tới phân tích bậc cao và khơng đƣợc đề cập tới ở đây. Để đơn giản, giả sử khơng cĩ từ nào đƣợc nhấn mạnh rõ ràng trong câu. So sánh hai cách phát âm cĩ thể rút ra các nhận xét sau:  Về thời gian phát âm: Do khơng cĩ từ nhấn mạnh nên các từ trong câu khơng ngữ điệu và câu trần thuật đƣợc phát âm trong khoảng thời gian gần nhƣ nhau.  Về biên độ tín hiệu: Các từ trong câu khơng ngữ điệu đƣợc phát âm với biên độ tƣơng đối đều. Biên độ các từ trong câu trần thuật giảm dần ở cuối câu.  Về tần số cơ bản: Trong câu khơng ngữ điệu, tần số cơ bản của các từ (khơng cĩ thanh điệu) đi theo đƣờng nằm ngang. Tần số cơ bản của từ trong câu trần thuật giảm dần. Nhƣ vậy, các từ trong câu trần thuật đƣợc phát âm với biên độ và tần số cơ bản giảm dần về phía cuối câu.
  26. 26 b. Câu hỏi Trong câu hỏi, ngƣời nĩi thƣờng nhấn mạnh vào từ cần hỏi. Những từ cần hỏi này thƣờng khơng cĩ vị trí cố định trong câu. Ví dụ: Cùng một câu hỏi Anh đi? Nếu muốn hỏi về chủ ngữ (anh hoặc ai đĩ) thì ngƣời hỏi sẽ nhấn mạnh vào từ anh, nếu muốn hỏi về hành động (đi hoặc chạy) thì ngƣời hỏi sẽ nhấn mạnh vào từ đi. Việc xác định từ để hỏi trong câu liên quan tới việc phân tích bậc cao trong quá trình tổng hợp và khơng đƣợc đề cập ở đây. Để đơn giản, từ để hỏi
  27. 27 trong các câu thử nghiệm đƣợc coi là từ cuối câu. Câu hỏi sẽ đƣợc so sánh với câu khơng cĩ ngữ điệu. Dƣới đây là hình ảnh dạng sĩng và tần số cơ bản của câu: Anh ăn chưa (khơng cĩ ngữ điệu) và câu Anh ăn chưa? (từ để hỏi là chưa) So sánh hai cách phát âm cĩ thể rút ra các nhận xét sau:  Về thời gian phát âm: Các từ trong câu khơng ngữ điệu đƣợc phát âm trong khoảng thời gian gần nhƣ nhau. Từ để hỏi trong câu hỏi (chưa) đƣợc phát âm dài hơn (0.45s) các từ anh (0.35s) và ăn (0.20s) trong câu này.
  28. 28  Về biên độ tín hiệu: Các từ trong câu khơng ngữ điệu đƣợc phát âm với biên độ tƣơng đối đều. Từ để hỏi chưa trong câu hỏi đƣợc phát âm với biên độ lớn hơn từ chưa trong câu khơng ngữ điệu.  Về tần số cơ bản: Trong câu khơng ngữ điệu, tần số cơ bản của các từ (khơng cĩ thanh điệu) đi theo đƣờng nằm ngang. Tần số cơ bản của từ anh và ăn trong câu hỏi khơng tăng dần. Tần số cơ bản của từ chưa trong câu hỏi tăng dần. Nhƣ vậy, các từ để hỏi trong câu hỏi đƣợc phát âm dài hơn, với biên độ lớn hơn và tần số cơ bản tăng dần so với câu khơng ngữ điệu. 3.2 Các mơ hình Markov ẩn 3.2.1 Chuỗi Markov Trong tốn học, một xích Markov hay chuỗi Markov (thời gian rời rạc), đặt theo tên nhà tốn học ngƣời Nga Andrei Andreyevich Markov, là một quá trình ngẫu nhiên thời gian rời rạc vớitính chất Markov. Trong một quá trình nhƣ vậy, quá khứ khơng liên quan đến việc tiên đốn tƣơng lai mà việc đĩ chỉ phụ thuộc theo kiến thức về hiện tại. Xích Markov là một dãy X1, X2, X3, gồm các biến ngẫu nhiên. Tập tất cả các giá trị cĩ thể cĩ của các biến này đƣợc gọi là khơng gian trạng thái S, giá trị của Xn là trạng thái của quá trình (hệ) tại thời điểm n. Nếu việc xác định (dự đốn) phân bố xác suất cĩ điều kiện của Xn+1 khi cho biết các trạng thái quá khứ là một hàm chỉ phụ thuộc Xn thì: trong đĩ x là một trạng thái nào đĩ của quá trình (x thuộc khơng gian trạng thái S) . Đĩ là thuộc tính Markov. Một cách đơn giản để hình dung một kiểu chuỗi Markop cụ thể là qua một ơtơmat hữu hạn (finite state machine). Nếu hệ ở trạng thái y tại thời điểm n thì xác suất mà hệ sẽ chuyển tới trạng thái x tại thời điểm n+1 khơng phụ thuộc vào giá trị của thời điểm n mà chỉ phụ thuộc vào trạng thái hiện tại y. Do đĩ, tại thời điểm n bất kỳ, một xích Markov hữu hạn cĩ thể đƣợc biểu diễn bằng một ma trận xác suất, trong đĩ phần tử x, y cĩ giá trị bằng và độc lập với chỉ số thời gian n (nghĩa là để xác định trạng thái kế tiếp, ta khơng cần biết đang ở thời điểm nào mà chỉ cần biết trạng thái ở thời điểm đĩ là gì). Các loại xích Markov hữu hạn rời rạc này cịn cĩ thể đƣợc biểu diễn bằng đồ thị cĩ hƣớng, trong đĩ các cung đƣợc gắn nhãn bằng xác suất chuyển từ trạng thái tại đỉnh (vertex) đầu sang trạng thái tại đỉnh cuối của cung đĩ. 28
  29. 29 Markov đã đƣa ra các kết quả đầu tiên (1906) về các quá trình này. Andrey Nikolaevich Kolmogorov (1936) đã đƣa ra một suy rộng tới các khơng gian trạng thái vơ hạn đếm đƣợc. Các xích Markov cĩ liên quan tới chuyển động Brown (Brownian motion) và Tổng hợp ergodic, hai chủ đề quan trọng của vật lý trong những năm đầu của thế kỷ 20, nhƣng Markov cĩ vẻ phải tham gia vào quá trình phát triển của tốn học, cịn gọi là sự mở rộng của luật số lớn cho các sự kiện độc lập. 3.2.2 Mơ hình Markov Mơ hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mơ hình thống kê trong đĩ hệ thống đƣợc mơ hình hĩa đƣợc cho là một quá trình Markov với các tham số khơng biết trƣớc và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát đƣợc, dựa trên sự thừa nhận này. Các tham số của mơ hình đƣợc rút ra sau đĩ cĩ thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu. Trong một mơ hình Markov điển hình, trạng thái đƣợc quan sát trực tiếp bởi ngƣời quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất. Mơ hình Markov ẩnthêm vào các đầu ra: mỗi trạng thái cĩ xác suất phân bổ trên các biểu hiện đầu ra cĩ thể. Vì vậy, nhìn vào dãy của các biểu hiện đƣợc sinh ra bởi HMM khơng trực tiếp chỉ ra dãy các trạng thái. Các chuyển tiếp trạng thái trong mơ hình Markov 29
  30. 30 Sự tiến hĩa của mơ hình Markov Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng thái của mơ hình Markov ẩn. Nĩ cũng cĩ ích để biểu diễn rõ ràng sự tiến hĩa của mơ hình theo thời gian, với các trạng thái tại các thời điểm khác nhau t1 và t2 đƣợc biểu diễn bằng các tham biến khác nhau, x(t1) và x(t2). Trong biểu đồ này, nĩ đƣợc hiểu rằng thời gian chia cắt ra (x(t), y(t)) mở rộng tới các thời gian trƣớc và sau đĩ nhƣ một sự cần thiết. Thơng thƣờng lát cắt sớm nhất là thời gian t=0 hayt=1. CÂU HỎI ƠN TẬP 1. Trình bày phƣơng pháp nhận dạng từ riêng lẻ ? 2. Trình bày phƣơng pháp nhận dạng từ liên tục ? 3. Trình bày mơ hình Markov và ứng dụng của mơ hình này trong hệ thống xử lý tiếng nĩi ? 30
  31. 31 CHƢƠNG IV : CÁC HỆ THƠNG CHUYỂN VĂN BẢN THÀNH GIỌNG NĨI 4.1 Phân tích ngữ âm và văn bản 4.1.1 Từ vựng Câu trong văn bản đƣợc ngăn cách với nhau bởi các dấu câu. Các dấu câu đƣợc cho trong bảng. Cần chú ý rằng khái niệm “câu” ở đây nhằm chỉ các loại câu khác nhau (trần thuật, hỏi ) để xác định sự biến đổi của tần số cơ bản và cĩ thể khơng chặt chẽ về ngữ pháp. Loại dấu câu Cách viết Dấu chấm . Dấu phảy , Dấu chấm phảy ; Dấu hai chấm : Dấu chấm than ! Dấu chấm hỏi ? Các dấu ngoặc ( ) [ ] { } Do chƣơng trình chỉ xét các văn bản dƣới dạng text nên tồn bộ văn bản đƣợc coi nhƣ một xâu ký tự.Các câu đƣợc xác định theo lƣu đồ thuật tốn sau: 4.1.2 Xác định cấu trúc tài liệu Sau khi đƣợc xác định, câu đƣợc phân loại để xử lý. Với mục đích thử 31
  32. 32 nghiệm tổng hợp câu, báo cáo này chỉ chia câu làm ba loại:  Loại 1 (câu trần thuật): tƣơng ứng với các dấu: “.”, “;” “)”, “]”, “}”  Loại 2 (câu hỏi): tƣơng ứng với dấu câu: “?”  Loại 3 (câu hơi lên giọng ở cuối câu): dấu “,”, “!” Sự biến đổi các thơng số của tín hiệu tiếng nĩi tổng hợp phụ thuộc vào từng loại câu. Vấn đề này đƣợc trình bày chi tiết trong mục 4.6.2. Căn cứ vào sự biến đổi các thơng số của tín hiệu tiếng nĩi, câu đƣợc phân tích thành các từ đi kèm với các thơng số của từ. Các thơng số của từ bao gồm:  Sự biến đổi tần số cơ bản  Biên độ  Trƣờng độ Hình dƣới minh hoạ sự biến đổi tần số cơ bản của các từ theo sự biến đổi tần số cơ bản của câu. Các từ đƣợc nhấn mạnh trong câu (ví dụ từ để hỏi trong câu hỏi) cĩ biên độ và trƣờng độ của từ này lớn hơn các từ khác. Việc tách từ trong câu đƣợc thực hiện theo lƣu đồ thuật tốn ở trên. 32
  33. 33 4.1.3 Chuẩn hĩa văn bản Để tiện xử lý về sau (sử dụng các bảng mã tiếng Việt khác nhau), trƣớc khi tách thành hai diphone từ đƣợc chuyển thành dạng telex. Dấu của từ đƣợc viết ở cuối từ. Ví dụ: từ trường đƣợc chuyển thành truwowngf Việc chuyển từ dạng tiếng Việt thơng thƣờng sang dạng telex tuỳ thuộc vào loại bảng mã đƣợc sử dụng. Chƣơng trình sử dụng bảng mã 8 bit TCVN3- ABC 4.1.4 Phân tích ngơn ngữ 4.1.5 Chuyển đổi ký tự sang âm thanh Từ ở dạng biểu diễn telex đƣợc tách thành hai diphone bắt đầu và kết thúc tƣơng ứng. Diphone bắt đầu đƣợc phân biệt bằng dấu “_” phía trƣớc, diphone kết thúc cĩ dấu “_” phía sau. Ví dụ: từ truwowngf đƣợc tách thành hai diphone _truw và uwowng_ Mấu chốt của việc tách một từ thành hai diphone là phát hiện đƣợc vị trí bắt đầu và kết thúc của nguyên âm đầu tiên (theo chiều từ trái sang phải). Ví dụ: nếu tìm đƣợc nguyên âm ư (uw) thì dễ dàng tách từ truwowng thành truw và uwowng. Thuật tốn xác định vị trí bắt đầu và kết thúc của nguyên âm đầu tiên đƣợc cho trong hình 4.7. Trong lƣu đồ 4.7. * ứng với quá trình kiểm tra xem hai ký tự liên tiếp cĩ phải là aa, aw, ee, oo, ow, uw hay khơng. Việc xác định diphone kết thúc phải đi kèm với việc xác định dấu của từ, 33
  34. 34 vì cĩ trƣờng hợp diphone kết thúc khơng thể tạo thành từ diphone khơng dấu. Ví dụ: từ các và cạc đều cĩ diphone kết thúc là ac_, diphone này khơng thể tạo thành từ diphone khơng dấu nên phải căn cứ vào dấu của từ để xác định diphone là acs_ hay acj_. Các trƣờng hợp này tƣơng ứng với những diphone in đậm trong bảng 4.1. Đa số các diphone đƣợc lƣu trong cơ sở dữ liệu với tên là cách biểu diễn diphone, ví dụ diphone an_ cĩ tên là an_ trong cơ sở dữ liệu, nhƣng với diphone cĩ cách biểu diễn dài, ví dụ uwowng_, thì tên lƣu trong cơ sở dữ liệu khác với cách biểu diễn wog_(tên của các diphone trong cơ sở dữ liệu với kích thƣớc 4 byte) nênc ần chuyển đổi cách biểu diễn diphone phù hợp với tên trong cơ sở dữ liệu. 4.2 Tổng hợp tiếng nĩi 4.2.1 Các tính chất của tổng hợp tiếng nĩi Tổng hợp tiếng nĩi là phát sinh tiếng nĩi từ sĩng tiếng nĩi. Trong vài thập niên gần đây, các bộ tổng hợp tiếng nĩi cĩ chất lƣợng ngày càng cao.Tuy nhiên chất lƣợng của các phƣơng pháp 34
  35. 35 hiện nay mới chỉ đạt đến mức phù hợp cho một vài ứng dụng, chẳng hạn nhƣ đa phƣơng tiện và truyền thơng. Hiện nay cĩ ba phƣơng pháp tổng hợp tiếng nĩi. Phƣơng pháp đơn giản nhất để phát sinh tiếng nĩi tổng hợp là phát các mẫu tiếng nĩi đã thu từ tiếng nĩi tự nhiên (nhƣ các từ hoặc câu). Phƣơng pháp này cho chất lƣợng tƣơng đối tốt nhƣng gặp phải hạn chế là số lƣợng từ vựng trong cơ sở dữ liệu rất lớn. Bên cạnh đĩ tiếng nĩi cũng cĩ thể tạo ra bằng cách mơ phỏng hệ thống phát âm. Phƣơng pháp này cho chất lƣợng rất tốt nhƣng thực hiện khá phức tạp. Một phƣơng pháp nữa cũng đƣợc dùng để tổng hợp tiếng nĩi là tổng hợp formant. Các phƣơng pháp tổng hợp tiếng nĩi cùng với những đặc điểm cơ bản nhất sẽ đƣợc giới thiệu trong phần tiếp theo. 4.2.2 Tổng hợp tiếng nĩi bằng các Formant Phƣơng pháp tổng hợp formant (formant synthesis) yêu cầu phải tổng hợp đƣợc tối thiểu 3 formant để hiểu đƣợc tiếng nĩi, và để cĩ đƣợc tiếng nĩi chất lƣợng cao thì cần tới 5 formant. Tiếng nĩi đƣợc tạo ra từ các bộ tổng hợp formant với thành phần chính là các bộ cộng hƣởng. Tuỳ theo cách bố trí các bộ cộng hƣởng mà ta cĩ bộ tổng hợp formant là nối tiếp hay song song. a. Bộ tổng hợp formant nối tiếp Bộ tổng hợp formant nối tiếp là một bộ tổng hợp formant cĩ các tầng nối tiếp, đầu ra của bộ cộng hƣởng này là đầu vào của bộ cộng hƣởng kia. b. Bộ tổng hợp formant song song Bộ tổng hợp formant song song bao gồm các bộ cộng hƣởng mắc song song. Đầu ra là kết hợp của tín hiệu nguồn và tất cả các formant. Cấu trúc song song cần nhiều thơng tin để điều khiển hơn. 4.2.3 Tổng hợp tiếng nĩi bằng ghép nối Tổng hợp bằng cách ghép nối các âm đƣợc tổng hợp từ các lời nĩi tự nhiên đã đƣợc thu từ trƣớc cĩ lẽ là cách dễ nhất để sản sinh lời nĩi. Phƣơng pháp tổng hợp ghép nối cho chất lƣợng cao và tƣơng đối tự nhiên. Phƣơng pháp này rất phù hợp với các hệ thống phát thanh và các hệ thống thơng tin. Tuy nhiên phƣơng pháp này thƣờng chỉ áp dụng cho một giọng và phải sử dụng nhiều bộ nhớ hơn các phƣơng pháp khác do số lƣợng từ vựng rất lớn. Để khắc phục nhƣợc điểm này ngƣời ta xây dựng các phƣơng pháp tổng hợp ghép nối từ những đơn vị nhỏ nhƣ âm vị, âm tiết, diphone (âm vị kép) Ngồi các diphone, chúng ta cịn sử dụng triphone, tetraphone hay syllable, demisyllable, nhƣng chủ yếu vẫn là các diphone, đƣợc thu từ tiếng nĩi tự nhiên. Các diphone đƣợc cắt ra từ tín hiệu rồi sau đĩ đƣợc tổng hợp lại theo yêu cầu dựa trên một thuật tốn ghép nối. Phƣơng pháp này cĩ một số khác biệt so với các phƣơng pháp khác: 35
  36. 36 Xuất hiện sự biến dạng của tiếng nĩi tổng hợp do tính khơng liên tục của việc ghép nối các diphone với nhau. Vì vậy phải sử dụng biện pháp làm trơn tín hiệu. Bộ nhớ yêu cầu cao, nhất là khi các đơn vị kết nối dài nhƣ là các âm vị hay các từ. Sƣu tầm và gắn nhãn dữ liệu tiếng nĩi cần nhiều thời gian và cơng sức. Về lý thuyết tất cả các mẫu cần phải đƣợc lƣu trữ. Số lƣợng và chất lƣợng các mẫu lƣu trữ là một vấn đề cần giải quyết khi tiến hành lƣu trữ. Hiện nay phƣơng pháp này đang đƣợc sử dụng rộng rãi trên thế giới và ngày càng cho chất lƣợng tốt hơn nhờ sự trợ giúp của máy tính. Phần tiếp theo sẽ giới thiệu về một phƣơng pháp tổng hợp ghép nối đƣợc áp dụng phổ biến cho tín hiệu tiếng nĩi, phƣơng pháp ghép nối dựa trên giải thuật PSOLA. a. Phƣơng pháp tổng hợp PSOLA PSOLA (Pitch Synchronous Overlap Add) là phƣơng pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần. Khi cộng xếp chồng (overlap-add) các tín hiệu thành phần ta cĩ thể khội phục lại tín hiệu ban đầu. PSOLA thao tác trực tiếp với tín hiệu dạng sĩng, khơng dùng bất cứ loại mơ hình nào nên khơng làm mất thơng tin của tín hiệu. PSOLA cho phép điều khiển độc lập tần số cơ bản, chu kỳ cơ bản và các formant của tín hiệu. Ƣu điểm chính của phƣơng pháp PSOLA là giữ nguyên đƣờng bao phổ khi thay đổi tần số cơ bản (pitch shifting). Phƣơng pháp này cho phép biến đổi tín hiệu ngay trên miền thời gian nên chi phí tính tốn rất thấp. PSOLA đã đƣợc dung rất phổ biến với tín hiệu tiếng nĩi. b. Các phiên bản của PSOLA Dựa trên PSOLA, ngƣời ta đã đƣa ra nhiều phiên bản khác nhau, dƣới đây là các phiên bản chính: TD-PSOLA Phƣơng pháp TD-PSOLA (Time Domain- Pitch Synchronous Overlap Add) là phiên bản miền thời gian của PSOLA (TD-PSOLA). Phƣơng pháp này thao tác với tín hiệu trên miền thời gian nên đƣợc sử dụng nhiều vì hiệu quả trong tính tốn của nĩ. Phƣơng pháp này sẽ đƣợc trình bày chi tiết trong chƣơng tiếp theo. FD-PSOLA Phƣơng pháp tổng hợp FD-PSOLA (Frequency Domain- Pitch Synchronous Overlap Add) là phƣơng pháp bao gồm các bƣớc giống nhƣ TD- PSOLA nhƣng thao tác trên miền tần số. Phƣơng pháp này cĩ chi phí tính tốn cao hơn TD-PSOLA. Đối với mỗi trƣờng hợp riêng biệt thì mỗi phƣơng pháp sẽ cho hiệu quả khác nhau, nên phải dựa vào từng hồn cảnh để chọn phƣơng pháp thích hợp.  LP-PSOLA 36
  37. 37 Ngồi các phƣơng pháp trên miền thời gian, miền tần số, cịn cĩ một phƣơng pháp gọi là phƣơng pháp dự đốn tuyến tính (Linear Prediction - Pitch Synchronous Overlap Add). Phƣơng pháp dự đốn tuyến tính đƣợc thiết kế để mã hố tiếng nĩi nhƣng phƣơng pháp này cũng cĩ thể dùng cho tổng hợp. Cơ sở của phƣơng pháp dự đốn tuyến tính dựa trên các mẫu y(n) cĩ thể lấy xấp xỉ hoặc dự đốn từ p mẫu trƣớc đĩ y(n-l) đến y(n-p) với sai số nhỏ nhất. Tín hiệu kích thích đƣợc lấy xấp xỉ bằng một dãy các tín hiệu tiếng nĩi và nhiễu ngẫu nhiên. Tín hiệu nguồn đƣợc cho qua bộ lọc số với hệ số a(k). Phƣơng pháp LP-PSOLA cho kết quả chƣa tốt. Ngƣời ta đã cải biến phƣơng pháp này để thu đƣợc chất lƣợng tốt hơn, mà đại diên là phƣơng pháp WLP (Warped Linear Prediction). 4.2.4 Đánh giá các hệ thống tổng hợp tiếng nĩi Sau khi giới thiệu những đặc điểm cơ bản nhất của các phƣơng pháp tổng hợp tiếng nĩi ta cĩ thể rút ra một số nhận xét về các phƣơng pháp này. Các nhận xét này nhằm mục đính đƣa ra đánh giá về ba phƣơng pháp dựa trên chất lƣợng tiếng nĩi tổng hợp, chi phí tính tốn và kích thƣớc dữ liệu.  Về chất lượng của tiếng nĩi tổng hợp: Trong ba phƣơng pháp nĩi trên thì phƣơng pháp mơ phỏng bộ máy phát âm về nguyên tắc sẽ cho chất lƣợng tốt nhất. Để đạt đƣợc điều này thì vấn đề quan trọng là làm sao mơ phỏng chính xác bộ máy phát âm của con ngƣời. Cơng việc này hồn tồn khơng đơn giản, mặc dù đã cĩ sự trợ giúp của mày tính nhƣng do cấu trúc phức tạp của bộ máy phát âm nên chi phí tính tốn sẽ rất lớn. Trong hai phƣơng pháp cịn lại thì thực tế cho thấy phƣơng pháp ghép nối thƣờng cho chất lƣợng tốt hơn.  Về hiệu quả tính tốn: Rõ ràng là phƣơng pháp mơ phỏng bộ máy phát âm địi hỏi chi phí tính tốn lớn nhất vì phải mơ phỏng một cách chính xác nhất bộ máy phát âm phức tạp của con ngƣời. Hai phƣơng pháp cịn lại cĩ chi phí tính tốn thấp hơn do đặc điểm các thuật tốn đƣợc sử dụng.  Về kích thước dữ liệu: Phƣơng pháp ghép nối cĩ kích thƣớc dữ liệu lớn nhất do số lƣợng từ vựng là rất lớn. Hai phƣơng pháp cịn lại do khơng phải lƣu trữ các mẫu nên cĩ kích thƣớc dữ liệu nhỏ hơn. CÂU HỎI ƠN TẬP 1. Trình bày ý nghĩa của việc chuẩn hĩa văn bản? 37
  38. 38 2. Trình bày quá trình chuyển đổi ký tự sang âm thanh? 3. Trình bày các tính chất của tổng hợp tiếng nĩi? 4. Trình bày tổng hợp tiếng nĩi bằng các Formant? 5. Trình bày tổng hợp tiếng nĩi bằng phƣơng pháp ghép nối? 38
  39. 39 MỘT SỐ ĐỀ THI MẪU 39
  40. 40 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 1 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biểu diễn tín hiệu tiếng nĩi dƣới dạng sĩng theo thời gian? - Mã hĩa tiếng nĩi dạng sĩng vơ hƣớng: xung tuyến tính? Câu 3: (4 điểm) - Mơ hình chung của hệ thống nhận dạng tiếng nĩi? - Mơ hình markov? Ứng dụng của Markov trong nhận dạng tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 40
  41. 41 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 2 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biều diễn tín hiệu tiếng nĩi trong miền khơng gian 3 chiều: Spectrogram.? - Mã hĩa tiếng nĩi dạng sĩng vơ hƣớng: xung tuyến tính? Câu 3: (4 điểm) - Trình bày hệ thống chuyển đổi văn bản thành giọng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 41
  42. 42 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 3 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biểu diễn tín hiệu tiếng nĩi trong miền tần số? - Trình bày về Formant và Antiformant? Câu 3: (4 điểm) - Mơ hình chung của hệ thống nhận dạng tiếng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 42
  43. 43 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 4 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biểu diễn tín hiệu tiếng nĩi trong miền tần số? - Mã hĩa tiếng nĩi dạng sĩng vơ hƣớng: xung tuyến tính? Câu 3: (4 điểm) - Các phƣơng pháp nhận dạng tiếng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 43
  44. 44 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 5 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biều diễn tín hiệu tiếng nĩi trong miền khơng gian 3 chiều: Spectrogram.? - Phân tích đặc tính ngữ âm, âm học của tiếng nĩi? Câu 3: (4 điểm) - Trình bày hệ thống chuyển đổi văn bản thành giọng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 44
  45. 45 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 6 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biều diễn tín hiệu tiếng nĩi trong miền khơng gian 3 chiều: Spectrogram.? - Trình bày về Formant và Antiformant? Câu 3: (4 điểm) - Trình bày hệ thống chuyển đổi văn bản thành giọng nĩi? - Trình bày cấu trúc của mơ hình Markov? Các vấn đề trong mơ hình Markov? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 45
  46. 46 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 7 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? Câu 2: (3 điểm) - Trình bày phƣơng pháp biều diễn tín hiệu tiếng nĩi trong miền khơng gian 3 chiều: Spectrogram.? - Phân tích đặc tính ngữ âm, âm học của tiếng nĩi? Câu 3: (4 điểm) - Trình bày hệ thống chuyển đổi văn bản thành giọng nĩi? - Mơ hình markov? Ứng dụng của Markov trong nhận dạng tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 46
  47. 47 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN ĐỀ THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: 2009- 2010 8 Thời gian: 60 phút Câu 1: (3 điểm) - Trình bày khái niệm chung và các ứng dụng của xử lý tiếng nĩi? - Phân biệt 2 hệ thống: nhận dạng tiếng nĩi và tổng hợp tiếng nĩi? - Các tính chất cĩ thể thay đổi đƣợc trong tín hiệu tiếng nĩi? Câu 2: (3 điểm) - Phân tích đặc tính ngữ âm, âm học của tiếng nĩi? - Mã hĩa tiếng nĩi dạng sĩng vơ hƣớng: xung tuyến tính? Câu 3: (4 điểm) - Các phƣơng pháp nhận dạng tiếng nĩi? - Trình bày cấu trúc của mơ hình Markov? Các vấn đề trong mơ hình Markov? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 47
  48. 48 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: x x x Thời gian: 60 phút Câu 1: (2 điểm) Âm tiết là gì? Trình bày đặc điểm và cấu trúc của âm tiết tiếng Việt. Câu 2: (2 điểm) Trình bày kiến trúc chung của hệ thống chuyển văn bản thành tiếng nĩi và chức năng của từng thành phần. Câu 3: (3 điểm) a) Tìm biến đổi Fourier X(ejω) của dãy x(n) = nαnu(n-2) với |α|<1 b) Tìm biến đổi Fourier rời rạc N điểm X(k) của dãy x(n) = a|n| với 0≤ n ≤ N-1; |a|<1 Câu 4: (3 điểm) a) Phổ của tín hiệu tiếng nĩi là gì? Các loại tần số đƣợc sử dụng khi vẽ đồ thị phổ? b) Ảnh phổ của tín hiệu tiếng nĩi là gì? Trình bày các bƣớc thực hiện phân tích phổ tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 48
  49. 49 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: x x x Thời gian: 60 phút Câu 1: (2 điểm) Trình bày hiểu biết của bạn về đặc điểm âm học của các loại nguyên âm, phụ âm. Lấy ví dụ. Câu 2: (2 điểm) Trình bày giải pháp tổng hợp tiếng nĩi tiếng Việt bằng cách ghép các âm vị kép (diphone). Câu 3: (3 điểm) a) Tìm biến đổi Fourier X(ejω) của dãy x(n) = nαnu(-n+2) với |α|>1 b) Tìm biến đổi Fourier rời rạc N điểm X(k) của dãy x(n), Câu 4: (3 điểm) a) Phổ của tín hiệu tiếng nĩi là gì? Các loại tần số đƣợc sử dụng khi vẽ đồ thị phổ? b) Ảnh phổ của tín hiệu tiếng nĩi là gì? Trình bày các bƣớc thực hiện phân tích phổ tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 49 1, 0 n N/2-1 (với N là chẵn) xn() 0, N/2 n N-1
  50. 50 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: x x x Thời gian: 60 phút Câu 1: (2 điểm) Trình bày quá trình chuẩn hĩa văn bản trong hệ thống chuyển văn bản thành tiếng nĩi. Câu 2: (2 điểm) Trình bày giải pháp tổng hợp tiếng nĩi tiếng Việt bằng cách ghép phụ âm đầu và phần vần. Câu 3: (3 điểm) a) Tìm biến đổi Fourier X(ejω) của dãy x(n) = nαnu(-n-2) với |α|>1 j(2π/N)k b) Tìm biến đổi Fourier rời rạc N điểm X(k) của dãy x(n) = e 0 với 0≤ n ≤ N-1 Câu 4: (3 điểm) a) Phổ của tín hiệu tiếng nĩi là gì? Các loại tần số đƣợc sử dụng khi vẽ đồ thị phổ? b) Ảnh phổ của tín hiệu tiếng nĩi là gì? Trình bày các bƣớc thực hiện phân tích phổ tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 50
  51. 51 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: x x x Thời gian: 60 phút Câu 1: (2 điểm) Trình bày vấn đề tạo ngữ điệu khi tổng hợp tiếng nĩi. Câu 2: (2 điểm) Trình bày các vấn đề gặp phải khi tổng hợp tiếng nĩi bằng cách ghép nối các đơn vị âm. Câu 3: (3 điểm) a) Tìm biến đổi Fourier X(ejω) của dãy x(n): b) Tìm biến đổi Fourier rời rạc N điểm X(k) của dãy x(n): Câu 4: (3 điểm) a) Phổ của tín hiệu tiếng nĩi là gì? Các loại tần số đƣợc sử dụng khi vẽ đồ thị phổ? b) Ảnh phổ của tín hiệu tiếng nĩi là gì? Trình bày các bƣớc thực hiện phân tích phổ tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi ||n 51 1 với ,n |n|<M chẵn xn() 0 với n cònlẻ 0lại n N-1
  52. 52 Trƣờng Đại Học Hàng Hải Việt Nam Khoa Cơng nghệ Thơng tin BỘ MƠN HỆ THỐNG THƠNG TIN THI KẾT THƯC HỌC PHẦN Tên học phần: XỬ LÝ TIẾNG NĨI Đề thi số: Ký duyệt đề: Năm học: x x x Thời gian: 60 phút Câu 1: (2 điểm) Trình bày hiểu biết của bạn về đặc điểm âm học của các loại nguyên âm, phụ âm. Lấy ví dụ. Câu 2: (2 điểm) Trình bày về nhận dạng tiếng nĩi bằng phƣơng pháp dựa vào nhận dạng mẫu. Câu 3: (3 điểm) a) Tìm biến đổi Fourier X(ejω) của dãy x(n) = (n+1)αnu(n) với |α|<1 2 b) Tìm biến đổi Fourier rời rạc N điểm X(k) của dãy x( n ) sin( k n ) với 0≤ n ≤ N-1 N 0 Câu 4: (3 điểm) a) Phổ của tín hiệu tiếng nĩi là gì? Các loại tần số đƣợc sử dụng khi vẽ đồ thị phổ? b) Ảnh phổ của tín hiệu tiếng nĩi là gì? Trình bày các bƣớc thực hiện phân tích phổ tín hiệu tiếng nĩi? HẾT Lưu ý: - Khơng sửa, xĩa đề thi, nộp lại đề sau khi thi 52