Bài giảng Question - Oriented multi document summarization - Trần Mai Vũ

17 trang ngocly 6950 Free

Download

Bạn đang xem tài liệu "Bài giảng Question - Oriented multi document summarization - Trần Mai Vũ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_question_oriented_multi_document_summarization_tra.ppt

Nội dung text: Bài giảng Question - Oriented multi document summarization - Trần Mai Vũ

Question-Oriented Multi Docu- ment Summarization Trần Mai Vũ
Giới thiệu • Đặt vấn đề: – Duc 2005-2007 – Hệ thống Q&A
Start SYSTEM (MIT)
Tài liệu • [1] A Semantic Free-text Summarization System Using Ontology Knowledge R. Verma, University of Houston P. Chen, University of Houston-Downtown W. Lu, University of Texas-Austin,DUC 07 • [2] Language Model Passage Retrieval for Question-Oriented Multi Document Summarization J.-C. Ying, S.-J. Yen, Y.-S. Lee, Y.-C. Wu, J.-C. Yang, National Central University,DUC 07
Mô hình đã áp dụng
Độ tương đồng ngữ nghĩa • Sử dụng mạng ngữ nghĩa (Tri thức miền) – Wordnet – Wikipedia • Phân tích chủ đề – Hidden topic – Phân tích chủ đề bằng Wordnet -> Sử dụng các tri thức miền(Ontology) tương ứng với từng chủ đề cụ thể để tăng cường ngữ nghĩa
Sự tương đồng • Sự tương đồng giữa các mạng ngữ nghĩa và kiến trúc của ontology. – Tổ chức theo từng domain/class chủ đề – Từng domain/class chứa nhiều các đối tượng – Giữa các đối tượng của domain/class có mối liên hệ với nhau
[1] • Wordnet • UMLS (Unified Medical Language System) – Metathesaurus – Semantic Network – Specialist lexicon
[1] • Quy trình của hệ thống – Xây dựng bộ truy vấn các từ/khái niệm trên Wordnet/UMLS – Loại bỏ các câu gần nhau – Xác định câu quan trọng bằng việc tính các độ đo tương đồng giữa các câu dựa vào độ tương đồng từ.
Mô hình Q&A đơn giản
[2] • Phân đoạn các đoạn văn bản/các câu • Phân cụm các đoạn văn bản/các câu • Trích chọn các đoạn văn bản/các câu tương ứng với câu truy vấn • Sinh tóm tắt cho cụm văn bản được trích chọn ra.
[2] • Phân cụm các đoạn văn bản / các câu – Sử dụng túi từ – Sử dụng giải thuật Kmean • Trích chọn các đoạn văn bản / các câu tương ứng với câu truy vấn – Sử dụng mô hình ngôn ngữ n-gram (Chen & Goodman 1998)
[2] • Sinh tóm tắt cho cụm văn bản: – Rút ra câu có độ tương đồng cao nhất với tâm cụm đầu tiên (top-1) đưa vào văn bản tóm tắt. – Rút các câu có độ khác biệt nhất với văn bản tóm tắt trong các cụm văn bản tiếp theo để cho vào văn bản tóm tắt.
Tài nguyên • Tài nguyên – Công cụ tính độ tương đồng ngữ nghĩa của concept trên wikipedia – Ontology y tế của nhóm Ngân – Công cụ tóm tắt đa văn bản dựa vào giải thuật MMR và chủ đề ẩn
Mô hình
Các bước triển khai • Phân đoạn các câu • Trích chọn các câu có độ tương đồng ngữ nghĩa với câu hỏi/câu truy vấn – Sử dụng phương pháp kết hợp 2 độ đo tương đồng về ngữ nghĩa trên wikipedia và ontology y tế – Dựa vào một ngưỡng xác định để đưa ra danh sách các câu phù hợp
Các bước triển khai • Phân cụm các câu trả về từ quá trình trước – Sử dụng giải thuật KMEAN (Sử dụng bộ công cụ của chị Tú&Trang) • Tóm tắt đa văn bản với các cụm dữ liệu. – Sử dụng giải pháp bài báo [2] – Sử dụng MMR