Đề tài Nhận dạng thực thể trong lĩnh vực y tế tiếng Việt - Trần Thị Ngân

ppt 29 trang ngocly 2610
Bạn đang xem 20 trang mẫu của tài liệu "Đề tài Nhận dạng thực thể trong lĩnh vực y tế tiếng Việt - Trần Thị Ngân", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptde_tai_nhan_dang_thuc_the_trong_linh_vuc_y_te_tieng_viet_tra.ppt

Nội dung text: Đề tài Nhận dạng thực thể trong lĩnh vực y tế tiếng Việt - Trần Thị Ngân

  1. 1 NHẬN DẠNG THỰC THỂ TRONG LĨNH VỰC Y TẾ TIẾNG VIỆT SINH VIÊN: TRẦN THỊ NGÂN NER in Vietnamese Biomedical 6/14/2021
  2. Nội dung 2  Giới thiệu IE, NER  NER trong y tế tiếng Việt  Các phương pháp học máy  Kết luận NER in Vietnamese Biomedical 6/14/2021
  3. Nội dung 3  Giới thiệu IE, NER  NER trong y tế tiếng Việt  Các phương pháp học máy  Kết luận NER in Vietnamese Biomedical 6/14/2021
  4. Giới thiệu IE, NER 4  IE là quá trình chắt lọc các thông tin từ cơ sở dữ liệu một cách tự động theo những tiêu chí nhất định  Nhiều mức độ trích chọn: trích chọn thực thể (NER),trích chọn quan hệ, xác định đồng tham chiếu  Kỹ thuật: Phân đoạn , phân lớp (NER), kết hợp, phân cụm [William W. Cohen (CMU)]  Kết quả: các mẫu (template) chứa một số lượng xác định các trường (slots) đã được điền thông tin NER in Vietnamese Biomedical 6/14/2021
  5. Giới thiệu IE, NER 5 Bệnh phổi cấp tính là một trong những nguyên nhân tử vong chính của người già, nguy hiểm hơn cả bệnh phổi do cúm. Những nguyên nhân làm cho các bệnh phổi ở người già tăng nặng thêm là do giảm sức đề kháng, có nhiều bệnh khác phối hợp (tim mạch, đái tháo đường), những biến đổi do bản thân sự già hóa ở phổi. Vì vậy những tác nhân gây bệnh như virut, vi khuẩn, nấm dễ dàng tấn công và gây bệnh cho người cao tuổi. Triệu chứng thường gặp là người mệt mỏi, đôi khi có lú lẫn, sốt thất thường, ho khan nhiều và nặng nhọc, có khi khó thở. Các thuốc an thần, chống ho phải được sử dụng một cách thận trọng, nếu có biểu hiện thở rít cần phải phân biệt do hen phế quản thì phải dùng corticoid và thuốc giãn phế quản. NER in Vietnamese Biomedical 6/14/2021
  6. Giới thiệu IE, NER 6 Bệnh phổi cấp tính là một trong những nguyên nhân tử vong chính của người già, nguy hiểm hơn cả bệnh phổi do cúm. Những nguyên nhân làm cho các bệnh phổi ở người già tăng nặng thêm là do giảm sức đề kháng, có nhiều bệnh khác phối hợp (tim mạch, đái tháo đường), những biến đổi do bản thân sự già hóa ở phổi. Vì vậy những tác nhân gây bệnh như virut, vi khuẩn, nấm dễ dàng tấn công và gây bệnh cho người cao tuổi. Triệu chứng thường gặp là IE người mệt mỏi, đôi khi có lú lẫn, sốt thất thường, ho khan nhiều và nặng nhọc, có khi khó thở. Các thuốc an thần, chống ho phải được sử dụng một cách thận trọng, nếu có biểu hiện thở rít cần phải phân biệt do hen phế quản thì phải dùng corticoid và thuốc giãn phế quản. NER in Vietnamese Biomedical 6/14/2021
  7. Giới thiệu IE, NER 7 Bệnh phổi cấp tính là một trong những nguyên nhân tử vong chính của người già, nguy hiểm hơn cả bệnh phổi do cúm. Những nguyên nhân làm cho các Bệnh Người Nguyên Tác Triệu Thuốc bệnh phổi ở người già tăng nặng thêm là do giảm sức đề kháng, có nhiều bệnh nhân nhân chứng khác phối hợp (tim mạch, đái tháo phổi người giảm sức virut, người An đường), những biến đổi do bản thân sự cấp già đề vi mệt mỏi, thần, già hóa ở phổi. Vì vậy những tác nhân tính kháng, khuẩn lú lẫn,sốt chống gây bệnh như virut, vi khuẩn, nấm dễ sự già , nấm thất ho, dàng tấn công và gây bệnh cho người hóa ở thường,h corticoi cao tuổi. Triệu chứng thường gặp là IE phổi, tim o khan d, người mệt mỏi, đôi khi có lú lẫn, sốt thất thường, ho khan nhiều và nặng nhọc, có mạch, nhiều,nặn thuốc khi khó thở. Các thuốc an thần, chống đái tháo g giãn ho phải được sử dụng một cách thận đường nhọc,khó phế trọng, nếu có biểu hiện thở rít cần phải thở quản phân biệt do hen phế quản thì phải dùng corticoid và thuốc giãn phế quản. NER in Vietnamese Biomedical 6/14/2021
  8. Nội dung 8  Giới thiệu IE, NER  NER trong y tế tiếng Việt  Các phương pháp học máy  Kết luận NER in Vietnamese Biomedical 6/14/2021
  9. Nhận dạng thực thể trong y tế tiếng Việt 9  Khó khăn: Tiếng Việt: Thiếu các tài nguyên wordnet, các tập corpus, thiếu thông tin ngữ pháp (POS), cụm động từ, danh từ, khoảng cách giữa các từ không rõ ràng, dễ gây nhập nhằng Y tế : Thông tin lưu trữ không hoặc bán cấu trúc (tên thuốc, virus), các kiểu viết tắt tên thực thể, kiểu tên thực thể dài, đa dạng, các cách viết khác nhau của cùng một thực thể (cúm gà, cúm H5N1, cúm gia cầm ) NER in Vietnamese Biomedical 6/14/2021
  10. Cấu trúc hệ thống nhận dạng thực thể 10  Vẽ hình Input(HTML) Tiền xử lý Lựa chọn thuộc tính Huấn luyện(HMM,CRF ) Khôi phục + tagging Output(HTML) [Luận văn,TuN.C,2005] NER in Vietnamese Biomedical 6/14/2021
  11. Nhận dạng thực thể trong y tế tiếng Việt 11  Các bước chính Tiền xử lý: Loại bỏ HTML, tách câu, tách từ Lựa chọn thuộc tính: Lựa chọn các nhãn thẻ (tag), mẫu ngữ cảnh (feature: viết hoa, viết thường, ) Giai đoạn huấn luyện, tự học: Sử dụng HMM, CRF, MEMM, SVM Gán nhãn, khôi phục NER in Vietnamese Biomedical 6/14/2021
  12. NER: Lựa chọn nhãn (tag) 12  Gán nhãn (tag) cho các từ khóa 7 dạng nhãn đầu tiên [Ralph & Beth, 1996]: ORG (tổ chức), LOC (vị trí), PER (người), DATE,TIME,CUR(Biểu diễn tiền tệ), PCT(Phần trăm)  Tập tag có thể thay đổi, mở rộng tùy theo mỗi dự án, mục đích xây dựng  Dự án BioCaster: xây dựng 22 nhãn (tag) cho y tế [Collier et al. RIAO 2007] Ví dụ: DISEASE, PERSON, NON_HUMAN, VIRUS, PRODUCT, SYMPTOM, TIME, PROTEIN, CHEMICAL NER in Vietnamese Biomedical 6/14/2021
  13. NER: Biểu diễn nhãn 13  Mỗi một nhãn gồm 3 phần : Phần biên (boundary category): Xác định vị trí của từ hiện tại trong một thực thể Phần thực thể (Entity category): Xác định kiểu thực thể Tập tính năng (Feature set) : Xác định thông tin ngữ cảnh (mẫu ngữ cảnh)  Một cách biểu diễn phần biên: Mỗi một nhãn gồm một tiếp đầu chữ B_ (bắt đầu một thực thể), I_(Bên trong một thực thể), nhãn O (Không phải thực thể)  VÍ dụ: bệnh “viêm não Nhật Bản” có chuỗi nhãn tương ứng : “B_DIS I_DIS I_DIS I_DIS” NER in Vietnamese Biomedical 6/14/2021
  14. Ví dụ về gán nhãn thực thể 14 Câu: Ngày 4 tháng 5 năm 2005 Bộ Y tế đã xác nhận thêm 5 trường hợp người nhiễm cúm gia cầm H5. Ngày 4 tháng 5 năm 2005 Bộ Y_tế Việt_Nam đã xác_nhận thêm 5 trường_hợp người nhiễm virus cúm gia_cầm H5 . [Collier et al. RIAO 2007] NER in Vietnamese Biomedical 6/14/2021
  15. Lựa chọn mẫu ngữ cảnh 15  Là bài toán quan trọng quyết định đến độ chính xác của nhận dạng thực thể  Mẫu ngữ cảnh tại vị trí quan sát bất kỳ cho ta thông tin ngữ cảnh  Bài toán nhận dạng thực thể chung: viết hoa, viết thường, ký tự % , chữ sỗ, dấu chấm, phẩy  Bài toán tương tự trong y tế: Lựa chọn mẫu ngữ cảnh trong nhận dạng protein, gene, thuốc, tế bào NER in Vietnamese Biomedical 6/14/2021
  16. Mẫu ngữ cảnh trong nhận dạng protein, tế bào 16  Các loại mẫu ngữ cảnh Mẫu tiền định cơ bản (viết hoa, thường, chấm, phẩy): comma, dot, oneDigit, AllDigits Mẫu hình thái học: tiền tố, hậu tố (~virus, ~lipid, ~vitamin, ) Mẫu ngữ pháp: cụm động từ, cụm danh từ Mẫu trigger ngữ nghĩa: Trigger danh từ chính: danh từ chính của một tổ hợp từ ( B Cell trong “activated human B cells”, bệnh trong “bệnh viêm xoang” ) Trigger động từ đặc biệt: nhiễm, lây, bao gồm, gây ra NER in Vietnamese Biomedical 6/14/2021
  17. Ví dụ về mẫu ngữ cảnh 17  Ví dụ Mẫu ngữ pháp (cụm động danh từ) Loét dạ dày tá tràng là bệnh hay gặp, chiếm tỷ lệ 30%, bệnh gây khó khăn cho người bệnh và xã hội. Chẩn đoán dựa vào nội soi dạ dày ống mềm xác định mức độ nhiễm vi khuẩn Helicobacter Pylory dựa vào clotest và mô bệnh học. Ngữ cảnh tiền định cơ Động từ đặc biệt cản NER in Vietnamese Biomedical 6/14/2021
  18. 18  Giới thiệu IE, NER  NER trong y tế tiếng Việt  Các phương pháp học máy  Kết luận NER in Vietnamese Biomedical 6/14/2021
  19. Các mô hình học máy 19  HMM (Hidden Markov Model)  MEMM (Maximum Entropy Markov Model)  CRF (Conditional Random Fields) NER in Vietnamese Biomedical 6/14/2021
  20. Máy trạng thái hữu hạn (FSM) 20  FSM được biểu diễn như một đồ thị có hướng : Có hữu hạn các nút (trạng thái), từ mỗi nút có thể có hoặc không một số cung đến nút khác  FSM bao gồm : Một bảng chữ ∑, một tập trạng thái S, một hàm chuyển T: S×∑ → S  Hoạt động: Từ trạng thái ban đầu S0, xem xét từng ký tự trong xâu đầu vào trong ∑, dựa vào hàm chuyển T để đi đến trạng thái tiếp theo cho đến khi xâu đầu vào được xem xét hết Gặp được trạng thái kết thúc là thành công NER in Vietnamese Biomedical 6/14/2021
  21. Mô hình HMM cho bài toán NER 21 Chuỗi trạng thái lable1 lable2 lablen word1 word2 wordi wordn Chuỗi quan sát NER in Vietnamese Biomedical 6/14/2021
  22. HMM 22  Mô hình HMM trong IE: Mô hình Học HMM Dữ liệu học Trích chọn thông tin Dữ liệu NER in Vietnamese Biomedical 6/14/2021
  23. HMM ( ) 23 N  Mục đích của HMM là tìm được chuỗi trạng thái S1 =s1 s2 s3 sn có mối tương quan nhất đối với chuỗi N N quan sát được O1 =o1 o2 on để xác xuất P(S1 N |O2 ) là lớn nhất  Mô hình HMM được xác định bởi các tham số λ =(A,B,П0) , trong đó: A : Ma trận chuyển : gồm các xác suất chuyển trạng thái B: Ma trận sinh: gồm các xác suất để một trạng thái bất kỳ sinh ra quan sát nào đó П0 : Phân bố xác xuất ban đầu NER in Vietnamese Biomedical 6/14/2021
  24. HMM( ) 24  Bài toán dạy: Xác định các tham số λ =(A,B,П0) khi cho trước chuỗi quan sát G để làm cực đại P(O| λ)  Bài toán giải mã: Từ chuỗi quan sát G, và mô hình với λ =(A,B,П0) đã có, tìm chuỗi trạng thái S phù hợp nhất với chuỗi O  Trạng thái chỉ phụ thuộc trạng thái trước đó, giả thiết dữ liệu quan sát được tại một thời điểm chỉ phụ thuộc trạng thái tại thời điểm đó  Dùng thuật toán Viterbi cho bài toán giải mã NER in Vietnamese Biomedical 6/14/2021
  25. MEMM 25  Mô hình HMM mô tả bởi tập S, O và hai xác suất P(s’|s), P(o|s)  Mô hình MEMM thay thế bởi xác suất P(s’|s,o) : xác suất chuyển từ trạng thái s sang s’ qua quan sát hiện tại o  Trong MEMM quan sát hiện tại phụ thuộc trạng thái hiện tại và trạng thái trước đó NER in Vietnamese Biomedical 6/14/2021
  26. CRF 26  Là mô hình đồ thị vô hướng  CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái từ chuỗi quan sát  Công thức : P(Yv|X, Yw, w#v) = P(Yv|X, Yw, w є N(v)) , trong đó: X: Biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần gán nhãn Y: Biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng N(v): Tập đỉnh kề v X . Y1 Y2 Yn-1 Yn NER in Vietnamese Biomedical 6/14/2021
  27. Kết luận 27  Báo cáo giới thiệu về bài toán trích chọn thông tin, trích chọn thực thể, những khó khăn thách thức trong lĩnh vực y tế Tiếng Việt  Khảo sát các thuộc tính, mẫu ngữ cảnh trong bài toán nhận dạng protein, tế bào  Giới thiệu các mô hình học máy : HMM, MEMM, CRF  Hướng tiếp theo: Sử dụng mô hình HMM trong nhận dạng thực thể y tế Tiếng Việt NER in Vietnamese Biomedical 6/14/2021
  28. Tài liệu tham khảo 28  Zhang, D. Shen, G. Zhou, J. Su and C. Tan. Effective Adaptation of a Hidden Markov Model-based Named Entity Recognizer for Biomedical Domain , 2003.  Zhou Su, Named Entity Recognition using an HMM-based Chunk Tagger, 2002.  Thao P.T. X, Tri T. Q, Kawazoe, Dien.D, Collier.N, Construction Of Vietnamese Corpora For Named Entity Regconition, 2007.  Luận văn đại học, Ths N.C Tú .Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể ,2005.  Khai phá Web, TS Phan Xuân Hiếu, 200  Và nhiều tài liệu khác NER in Vietnamese Biomedical 6/14/2021
  29. 29 XIN CẢM ƠN! NER in Vietnamese Biomedical 6/14/2021