Bài giảng Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh - Trần Mai Vũ
Bạn đang xem tài liệu "Bài giảng Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh - Trần Mai Vũ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
        Tài liệu đính kèm:
 bai_giang_mot_so_tim_hieu_ve_nhan_dang_thuc_the_trong_van_ba.ppt bai_giang_mot_so_tim_hieu_ve_nhan_dang_thuc_the_trong_van_ba.ppt
Nội dung text: Bài giảng Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh - Trần Mai Vũ
- Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh Trần Mai Vũ
- Nội dung  Khái quát bài toán nhận dạng thực thể y sinh  Một số phương pháp giải quyết bài toán  Định hướng tiếp theo 2
- Công trình liên quan • Thesis [1] Tuangthong Wattarujeekrit (2005). Exploring Semantic Roles for Named Entity Recognition in The Molecular Biology Domain. Doctoral dissertation, The Graduate University for Advanced Studies [2] John Philip McCrae (2009). Automatic Extraction of Logically Consistent Ontologies from Text Corpora. Doctoral dissertation, The Graduate University for Advanced Studies (SOKENDAI) • Publication [3] Collier, N., Nobata, C., and Tsujii, J. "Extracting the Names of Genes and Gene Products with a Hidden Markov Model", In Proc. International Conference on Computational Linguistics,(COLING'2000), pp. 201-207, Saarbrucken, Germany, August, 2000. [4] Collier, N. and Takeuchi, K. (2004), "Comparison of character-level and part of speech features for name recognition in bio-medical texts", in vol. 37, no. 6, Journal of Biomedical Informatics, Elsevier, December, pp. 423-435. [5] Collier, N., Nazarenko, A., Baud, R. and Ruch, P. (2006) “Recent advances in natural language processing for biomedical applications”, International Journal of Medical Informatics, Elsevier, Vol. 75, Issue 6, pp. 413-417. [6] Doan, S., Kawazoe, A. and Collier, N. (2007), "The role of roles in classifying annotated biomedical texts", Proc. Workshop on Biomedical Natural Language Processing (BioNLP 2007), Prague, Czech Republic, June 29, pp. 17-24. [7] Kim, J. D. et al. (2004), "Introduction to the Bio-Entity Recognition Task at JNLPBA", in proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 28-29 August, Geneva, Switzerland • Slide [8] Nigel Collier, Research history and future challenges, 2011 [9] Nigel Collier, Web sensing for real time disaster detection and tracking, 2011 [10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010 3
- Nhận dạng thực thể (NER)  Nhận dạng và phân loại các danh từ riêng xuất hiện trong văn bản October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed Microsoft Corporation against the economic philosophy of open-source CEO software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled Bill Gates technological innovation. Microsoft Today, Microsoft claims to "love" the open-source Gates concept, by which software code is made public to Microsoft encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly Bill Veghte disclose its crown jewels the coveted code behind the Microsoft Windows operating system to select customers. VP "We can be open source. We love the concept of shared Richard Stallman source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ founder Free Software Foundation Richard Stallman, founder of the Free Software Foundation, countered saying 4
- Nhận dạng thực thể y sinh  Nhận dạng thực thể y sinh:  Các loại thực thể: Tên người, tổ chức, ,DNA, gene, protein, bệnh  Biocaster: 23 loại thực thể  JNLPBA 2004: 48 loại thực thể (36 loại sử dụng trong GENIA)  Ứng dụng chính trong các hệ thống trích xuất thông tin y sinh (Bio-IE) 5
- Một số task tại các hội nghị 6
- Một số hệ thống Bio-IE  Highlight system (Thomas et al., 2000)  Dựa trên phương pháp của Hobbs và các cộng sự (1996)  Chưa phân tích mối quan hệ giữa các thực thể  GENIES (Friedman et al., 2001)  GeneWay (Rzhetsky et al., 2004) mở rộng từ GENIES  Có phân tích mối quan hệ giữa các thực thể  BioCaster (Collier et al., 2006)  Xây dựng ontology về y sinh và dịch bệnh  Phân tích các sự kiện liên quan đến dịch bệnh dựa trên dữ liệu web 7
- BioCaster (Collier et al., 2006) 8
- BioCaster (Collier et al., 2006) [10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010 9
- Nhận dạng thực thể y sinh  Thách thức [1]  Thiếu quy ước đặc tên trong sinh học  Sự đa dạng trong thuật ngữ:  Dùng từ tiếng Anh: Vd: light, map, complement, tên gene  Sử dụng số: Vd: 9-cis retinoic acid  Sử dụng các ký tự và mã: M(2)201  Sự lồng nhau giữa các tên:  Vd: “[leukaemic[T [cell line]] Kit225]”  Sự phối hợp: “B and T cells”  Sự đồng âm  Tính đa nghĩa  Nhiều biến thể của một tên:  Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”. 10
- Hướng tiếp cận giải quyết bài toán  Dựa vào tra từ điển  Dựa vào luật  MEDLINE(1998) 94.70% và 98.84%  FlyBase(1998) 91.4% và 94.4%  Dựa vào học máy  HMM (Collier et al., 2000; Zhang et al., 2004; Zhao, 2004; Zhou et al, 2004)  Cây quyết định (Nobata et al.,1999.)  CRF (Settles, 2004)  MEMM (Finkel et al.,2004; Lin et al., 2004)  SVM (Zhou and Su, 2004; Song et al., 2004) 11
- Các loại đặc trưng S SVM sh Dạng tự sy Nhãn cú pháp H HMM gn Chuỗi gene tr Luật C CRF wv Biến thể của từ ab Viết tắt M MEMM ln Độ dài từ ca Các thực thể khác lx Từ vựng gz Tra từ điển do Thông tin tài liệu af Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặc or Chính tả np Nhãn cụm danh từ pr Sử dụng các nhãn đã dữ đoán 12
- Một số phương pháp giải quyết 13
- Một số phương pháp giải quyết  Trong BioCaster [10]:  Pha phân tích thực thể:  Huấn luyện 500 tài liệu, kiểm thử chéo 10 fold  Xử lý 17361 nhóm từ, 12168 chính xác  Độ chính xác 88.7%, F=71.1  Kinh nghiệm:  Sử dụng luật để tăng độ chính xác 14
- Xử lý ngữ nghĩa trong BioCaster 15
- Định hướng tiếp theo  Thử nghiệm trên dữ liệu lấy từ BioCaster đối với một số phương pháp  Tìm hiểu các vấn đề liên quan đến đối sánh(matching) và mở rộng Ontology 16
- Một số tài liệu khác  Leaman, R. et al. (2008) BANNER: An executable survey of advances in biomedical named entity recognition  Settles, B. (2004) Biomedical named entity recognition using conditional random fields  Tanabe, L. et al. (2005) GENETAG: a tagged corpus for gene/protein named entity recognition  Ki-Joong Lee, Young-Sook Hwang, Seonho Kim, Hae-Chang Rim (2004) Biomedical named entity recognition using two-phase model based on SVMs. Journal of Biomedical Informatics 37 (2004) 436-447  A. Ekbal, S. Saha, U. K. Sikdar, Md. Hasanuzzaman (2010) A Genetic Approach for Biomedical Named Entity Recognition, 22nd International Conference on Tools with Artificial Intelligence 17
- XIN CẢM ƠN 18
- Zhou and Su, 2004  Kết hợp HMM và SVM  HMM: n  Dữ liệu thưa P(si|O 1) => Sử dụng SVM sigmoid để bổ sung thêm thông tin  SVM: vấn đề chuyển đầu ra dạng xác suất Nghiên cứu của Platt (1999) 19
- Các phương pháp khác  Song et al., 2004  Kết hợp 2 kết quả dự đoán từ SVM và CRF  Finkel et al.,2004  Sử dụng MEMM và lựa chọn các đặc trưng  Zhao, 2004  Cải tiến HMM bằng thêm các độ tương đồng giữa các từ 20







