Bài giảng Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh - Trần Mai Vũ

ppt 20 trang ngocly 1670
Bạn đang xem tài liệu "Bài giảng Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh - Trần Mai Vũ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptbai_giang_mot_so_tim_hieu_ve_nhan_dang_thuc_the_trong_van_ba.ppt

Nội dung text: Bài giảng Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh - Trần Mai Vũ

  1. Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh Trần Mai Vũ
  2. Nội dung  Khái quát bài toán nhận dạng thực thể y sinh  Một số phương pháp giải quyết bài toán  Định hướng tiếp theo 2
  3. Công trình liên quan • Thesis [1] Tuangthong Wattarujeekrit (2005). Exploring Semantic Roles for Named Entity Recognition in The Molecular Biology Domain. Doctoral dissertation, The Graduate University for Advanced Studies [2] John Philip McCrae (2009). Automatic Extraction of Logically Consistent Ontologies from Text Corpora. Doctoral dissertation, The Graduate University for Advanced Studies (SOKENDAI) • Publication [3] Collier, N., Nobata, C., and Tsujii, J. "Extracting the Names of Genes and Gene Products with a Hidden Markov Model", In Proc. International Conference on Computational Linguistics,(COLING'2000), pp. 201-207, Saarbrucken, Germany, August, 2000. [4] Collier, N. and Takeuchi, K. (2004), "Comparison of character-level and part of speech features for name recognition in bio-medical texts", in vol. 37, no. 6, Journal of Biomedical Informatics, Elsevier, December, pp. 423-435. [5] Collier, N., Nazarenko, A., Baud, R. and Ruch, P. (2006) “Recent advances in natural language processing for biomedical applications”, International Journal of Medical Informatics, Elsevier, Vol. 75, Issue 6, pp. 413-417. [6] Doan, S., Kawazoe, A. and Collier, N. (2007), "The role of roles in classifying annotated biomedical texts", Proc. Workshop on Biomedical Natural Language Processing (BioNLP 2007), Prague, Czech Republic, June 29, pp. 17-24. [7] Kim, J. D. et al. (2004), "Introduction to the Bio-Entity Recognition Task at JNLPBA", in proceedings of the Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 28-29 August, Geneva, Switzerland • Slide [8] Nigel Collier, Research history and future challenges, 2011 [9] Nigel Collier, Web sensing for real time disaster detection and tracking, 2011 [10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010 3
  4. Nhận dạng thực thể (NER)  Nhận dạng và phân loại các danh từ riêng xuất hiện trong văn bản October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed Microsoft Corporation against the economic philosophy of open-source CEO software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled Bill Gates technological innovation. Microsoft Today, Microsoft claims to "love" the open-source Gates concept, by which software code is made public to Microsoft encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly Bill Veghte disclose its crown jewels the coveted code behind the Microsoft Windows operating system to select customers. VP "We can be open source. We love the concept of shared Richard Stallman source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ founder Free Software Foundation Richard Stallman, founder of the Free Software Foundation, countered saying 4
  5. Nhận dạng thực thể y sinh  Nhận dạng thực thể y sinh:  Các loại thực thể: Tên người, tổ chức, ,DNA, gene, protein, bệnh  Biocaster: 23 loại thực thể  JNLPBA 2004: 48 loại thực thể (36 loại sử dụng trong GENIA)  Ứng dụng chính trong các hệ thống trích xuất thông tin y sinh (Bio-IE) 5
  6. Một số task tại các hội nghị 6
  7. Một số hệ thống Bio-IE  Highlight system (Thomas et al., 2000)  Dựa trên phương pháp của Hobbs và các cộng sự (1996)  Chưa phân tích mối quan hệ giữa các thực thể  GENIES (Friedman et al., 2001)  GeneWay (Rzhetsky et al., 2004) mở rộng từ GENIES  Có phân tích mối quan hệ giữa các thực thể  BioCaster (Collier et al., 2006)  Xây dựng ontology về y sinh và dịch bệnh  Phân tích các sự kiện liên quan đến dịch bệnh dựa trên dữ liệu web 7
  8. BioCaster (Collier et al., 2006) 8
  9. BioCaster (Collier et al., 2006) [10] Nigel Collier, High throughput analysis and alerting of disease outbreaks from the grey literature, 2010 9
  10. Nhận dạng thực thể y sinh  Thách thức [1]  Thiếu quy ước đặc tên trong sinh học  Sự đa dạng trong thuật ngữ:  Dùng từ tiếng Anh: Vd: light, map, complement, tên gene  Sử dụng số: Vd: 9-cis retinoic acid  Sử dụng các ký tự và mã: M(2)201  Sự lồng nhau giữa các tên:  Vd: “[leukaemic[T [cell line]] Kit225]”  Sự phối hợp: “B and T cells”  Sự đồng âm  Tính đa nghĩa  Nhiều biến thể của một tên:  Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”. 10
  11. Hướng tiếp cận giải quyết bài toán  Dựa vào tra từ điển  Dựa vào luật  MEDLINE(1998) 94.70% và 98.84%  FlyBase(1998) 91.4% và 94.4%  Dựa vào học máy  HMM (Collier et al., 2000; Zhang et al., 2004; Zhao, 2004; Zhou et al, 2004)  Cây quyết định (Nobata et al.,1999.)  CRF (Settles, 2004)  MEMM (Finkel et al.,2004; Lin et al., 2004)  SVM (Zhou and Su, 2004; Song et al., 2004) 11
  12. Các loại đặc trưng S SVM sh Dạng tự sy Nhãn cú pháp H HMM gn Chuỗi gene tr Luật C CRF wv Biến thể của từ ab Viết tắt M MEMM ln Độ dài từ ca Các thực thể khác lx Từ vựng gz Tra từ điển do Thông tin tài liệu af Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặc or Chính tả np Nhãn cụm danh từ pr Sử dụng các nhãn đã dữ đoán 12
  13. Một số phương pháp giải quyết 13
  14. Một số phương pháp giải quyết  Trong BioCaster [10]:  Pha phân tích thực thể:  Huấn luyện 500 tài liệu, kiểm thử chéo 10 fold  Xử lý 17361 nhóm từ, 12168 chính xác  Độ chính xác 88.7%, F=71.1  Kinh nghiệm:  Sử dụng luật để tăng độ chính xác 14
  15. Xử lý ngữ nghĩa trong BioCaster 15
  16. Định hướng tiếp theo  Thử nghiệm trên dữ liệu lấy từ BioCaster đối với một số phương pháp  Tìm hiểu các vấn đề liên quan đến đối sánh(matching) và mở rộng Ontology 16
  17. Một số tài liệu khác  Leaman, R. et al. (2008) BANNER: An executable survey of advances in biomedical named entity recognition  Settles, B. (2004) Biomedical named entity recognition using conditional random fields  Tanabe, L. et al. (2005) GENETAG: a tagged corpus for gene/protein named entity recognition  Ki-Joong Lee, Young-Sook Hwang, Seonho Kim, Hae-Chang Rim (2004) Biomedical named entity recognition using two-phase model based on SVMs. Journal of Biomedical Informatics 37 (2004) 436-447  A. Ekbal, S. Saha, U. K. Sikdar, Md. Hasanuzzaman (2010) A Genetic Approach for Biomedical Named Entity Recognition, 22nd International Conference on Tools with Artificial Intelligence 17
  18. XIN CẢM ƠN 18
  19. Zhou and Su, 2004  Kết hợp HMM và SVM  HMM: n  Dữ liệu thưa P(si|O 1) => Sử dụng SVM sigmoid để bổ sung thêm thông tin  SVM: vấn đề chuyển đầu ra dạng xác suất Nghiên cứu của Platt (1999) 19
  20. Các phương pháp khác  Song et al., 2004  Kết hợp 2 kết quả dự đoán từ SVM và CRF  Finkel et al.,2004  Sử dụng MEMM và lựa chọn các đặc trưng  Zhao, 2004  Cải tiến HMM bằng thêm các độ tương đồng giữa các từ 20