Bài giảng Khai phá dữ liệu Web - Chương 5: Biểu diễn web - Hà Quang Thụy

38 trang ngocly 1690

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Khai phá dữ liệu Web - Chương 5: Biểu diễn web - Hà Quang Thụy", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_khai_pha_du_lieu_web_chuong_5_bieu_dien_web_ha_qua.ppt

Nội dung text: Bài giảng Khai phá dữ liệu Web - Chương 5: Biểu diễn web - Hà Quang Thụy

BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 5. BIỂU DIỄN WEB PGS. TS. HÀ QUANG THỤY HÀ NỘI 02-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
Nội dung Giới thiệu Phân tích văn bản Biểu diễn Text Lựa chọn đặc trưng Thu gọn đặc trưng Biểu diễn Web 2
Giới thiệu ⚫ Biểu diễn văn bản ➢ Là bước cần thiết đầu tiên trong xử lý văn bản ➢ Phù hợp đầu vào của thuật toán khai phá dữ liệu ➢ Tác động tới chất lượng kết quả của thuật toán KHDL ➢ Thuật ngữ tiếng Anh: (document/text) (representation/indexing) ⚫ Phạm vi tác động của một phương pháp biểu diễn văn bản ➢ Không tồn tại phương pháp biểu diễn lý tưởng ➢ Tồn tại một số phương pháp biểu diễn phổ biến ➢ Chọn phương pháp biểu diễn phù hợp miền ứng dụng ⚫ Một sơ đồ sơ lược: Tomek Strzalkowski: Document Representation in Natural Language Text Retrieval, HLT 1994: 364-369 3
Nghiên cứu về biểu diễn văn bản ⚫ Nghiên cứu biểu diễn văn bản (Text + Web) ➢ Luôn là nội dung nghiên cứu thời sự ➢ Biểu diễn Web bổ sung một số yếu tố cho biểu diễn Text ⚫ Số công trình liên quan ➢ "Document representation” ➢ mọi nơi: 8000 bài; tiêu đề: 200 (60 bài từ 2006-nay) ➢ “Document indexing” ➢ mọi nơi: 5200 bài; tiêu đề: 220 (60 bài từ 2006-nay) ➢ “Text representation” ➢ mọi nơi: 9200 bài; tiêu đề: 240 (60 bài từ 2006-nay) ➢ “Text indexing” ➢ mọi nơi: 6800 bài; tiêu đề: 210 (60 bài từ 2006-nay) Ghi chú: các bài “ở mọi nơi” phần đông thuộc vào các bài toán xử lý văn bản bao gồm bước trình bày văn bản 4
Nghiên cứu về biểu diễn văn bản (2) Dunja Mladenic' (1998). Machine Learning on Non-homogeneous, Distributed Text Data. PhD. Thesis, University of Ljubljana, Slovenia. 5
Phân tích văn bản ⚫ Mục đích biểu diễn văn bản (Keen, 1977 [Lew91]) ➢ Từ được chọn liên quan tới chủ đề người dùng quan tâm ➢ Gắn kết các từ, các chủ đề liên quan để phân biệt được từ ở các lĩnh vực khác nhau ➢ Dự đoán được độ liên quan của từ với yêu cầu người dùng, với lĩnh vực và chuyên ngành cụ thể ⚫ Môi trường biểu diễn văn bản (đánh chỉ số) ➢ Thủ công / từ động hóa. Thủ công vẫn có hỗ trợ của công cụ máy tinh và phần mềm ➢ Điều khiển: chọn lọc từ làm đặc trưng (feature) biểu diễn) / không điều khiển: mọi từ đều được chọn. ➢ Từ điển dùng để đánh chỉ số. Từ đơn và tổ hợp từ. 6
Luật Zipt ⚫ Luật Zipt ⚫ Cho dãy dữ liệu được xếp hạng x1 x2 xn thì hạng tuân theo công thức C là hằng số, gần 1; kỳ vọng dạng loga ⚫ Dạng hàm mật độ: ⚫ Một số dạng khác ⚫ Phân phối Yule ⚫ Mô hình thống kê c=log(C), b= log(B) ⚫ Biến thể loga-chuẩn ⚫ Phân phối Weibull với 0<<1 7
Luật Zipt trong phân tích văn bản ⚫ Trọng số của từ trong biểu diễn văn bản (Luhn, 1958) ➢ Dấu hiệu nhấn mạnh: một biểu hiện của độ quan trọng ❑ thường viết lặp lại các từ nhất định khi phát triển ý tưởng ❑ hoặc trình bày các lập luận, ❑ phân tích các khía cạnh của chủ đề. ➢ Các từ có tần suất xuất hiện cao nhất lại ít ngữ nghĩa. Từ xuất hiện trung bình lại có độ liên quan cao. ⚫ Luật Zipt ➢ Là một quan sát hiện tượng mà không phải là luật thực sự: xem hình vẽ “Alice ở xứ sở mặt trời” ➢ rt * ft = K (hằng số): rt : độ quan trọng của từ t; ft: tần số xuất hiện từ t. Có thể logarith 8
Luật Zipt trong tiếng Anh ⚫ Một lượng nhỏ các từ xuất hiện rất thường xuyên ⚫ Các từ có tần suất xuất hiện cao nhất lại ít ngữ nghĩa, thường là các từ chức năng trong câu (chắng hạn, giới từ) ⚫ Hầu hết các từ có tần suất thấp. 9
Luật Zipt: ước lượng trang web được chỉ số ⚫ Ước lượng tối thiểu lượng trang web chỉ số hóa ⚫ ⚫ Luật Zipt: từ kho ngữ liệu DMOZ có hơn 1 triệu trang web ⚫ Dùng luật Zipt để ước tính lượng trang web chỉ số hóa. ⚫ Mỗi ngày: 50 từ (đều ở đoạn logarith luật Zipt) gửi tới 4 máy tìm kiếm Google, Bing, Yahoo Search và Ask. ⚫ Trừ bớt phần giao ước tính giữa các công cụ tìm kiếm: làm già ⚫ Thứ tự trừ bớt phần giao → tổng (được làm non) 10
Các mẫu luật Zipt khác ⚫ Dân số thành phố ➢ Dân số thành phố trong một quốc gia: có = 1. Đã xác nhận ở 20 quốc gia. ➢ Có thể mở rộng sang: dân cư khu đô thị, vùng lãnh thổ ⚫ Lượt thăm trang web và mẫu giao vận Internet khác ➢ Số lượt truy nhập trang web/tháng ➢ Các hành vi giao vận Internet khác ⚫ Quy mô công ty và một số số liêu kinh tế khác ➢ Xếp hạng công ty theo: số nhân viên, lợi nhuận, thị trường ➢ Các hành vi giao vận Internet khác ⚫ [Li02] Wentian Li (2002). Zipf's Law Everywhere, Glottometrics 5 (2002): 14-21 11
Phương pháp lựa chọn từ Luhn58 ⚫ Bài toán ➢ Input: Cho một tập văn bản: có thể coi tất cả các văn bản trong miền ứng dụng; ngưỡng trên, ngưỡng dưới dương. ➢ Output: Tập từ được dùng để biểu diễn văn bản trong tập ⚫ Giải pháp ➢ Tính tần số xuất hiện mỗi từ đơn nhất trong từng văn bản ➢ Tính tần số xuất hiện của các từ trong tập toàn bộ văn bản ➢ Sắp xếp các từ theo tần số giảm dần ➢ Loại bỏ các từ có tần số xuất hiện vượt quá ngưỡng trên hoặc nhỏ thua ngưỡng dưới. ➢ Các từ còn lại được dùng để biểu diễn văn bản ➢ “Từ” được mở rộng thành “đặc trưng”: n-gram, chủ đề ⚫ Lưu ý ➢ Chọn ngưỡng: ngưỡng cố định, ngưỡng được điều khiển ➢ Liên hệ vấn đề chọn lựa đặc trưng (mục sau). 12
Phương pháp đánh trọng số của từ ⚫ Bài toán ➢ Input: Cho một tập văn bản miền ứng dụng D và tập từ được chọn biểu diễn văn bản V (sau bước trước đây). ➢ Output: Đánh trọng số từ trong mỗi văn bản  Xây dựng ma trận {wi,j} là trọng số của từ wi V trong văn bản dj D. ⚫ Giải pháp ➢ Một số phương pháp điển hình ➢ Boolean ➢ dựa theo tần số xuất hiện từ khóa ➢ Dựa theo nghịch đảo tần số xuất hiện trong các văn bản ⚫ Phương pháp Boolean ➢ Đơn giản: trọng số là xuất hiện/ không xuất hiện ➢ wi,j = 1 nếu wi xuất hiện trong văn bản dj, ngược lại wi,j = 0. 13
Các phương pháp đánh trọng số của từ theo tần số ⚫ Dạng đơn giản: TF ➢ wi,j = fi,j: trong đó fi,j là số lần từ khóa wi xuất hiện trong văn bản dj ⚫ Một số phiên bản khác của dạng đơn giản ➢ Cân đối số lần xuất hiện các từ khóa: giảm chênh lệch số lần xuất hiện ➢ Giảm theo hàm căn wi,j = tf ij ➢ Tránh giá trị “0” và giảm theo hàm loga: wi,j = 1+log(fi,j) ⚫ Nghịch đảo tần số xuất hiện trong tập văn bản: IDF ➢ Từ xuất hiện trong nhiều văn bản thì trọng số trong 1 văn bản sẽ thấp m log( ) = log( m) − log( df ) ➢ wi = i dfi Trong đó m = |D|, dfi là |d D: wi xuất hiện trong d} 14
Phương pháp TFIDF ⚫ Tích hợp TF và IDF ➢ Dạng đơn giản: wi,j = fi,j* dfi /m ➢ Dạng căn chỉnh theo hàm loga m (1+ log( tf )) log( ) :tf 0 w ij ij i,j = dfi 0 :tfij =0 ➢ Ngoài ra, có một số dạng tích hợp trung gian khác 15
Mô hình biểu diễn văn bản ⚫ Bài toán ➢ Input: Cho tập văn bản miền ứng dụng D = {dj }, tập đặc trưng được chọn biểu diễn văn bản V = {wi }, ma trân trọng số W = (wi,j) . ➢ Output: Tìm biểu diễn của các văn bản dj D. ⚫ Một số mô hình ➢ Mô hình Boolean ➢ Mô hình không gian vector ➢ Mô hình túi các từ (Mô hình xác suất) ➢ Các mô hình khác ⚫ Mô hình Boolean ➢ Tập các từ thuộc V mà xuất hiện trong văn bản 16
Mô hình không gian vector ⚫ Nội dung chính ➢ Ánh xạ tập tài liệu vào không gian vector n =|V| chiều. ➢ Mỗi tài liệu được ánh xạ thành 1 vector di  (wi1, wi2, , win) ⚫ Độ đo tương tự nội dung văn bản ➢ Chuẩn hóa vector: đưa về độ dài 1 ➢ Độ “tương tự nội dung” giữa hai văn bản  độ tương tự giữa hai vector ➢ Một số phương án sơ khai “các thành phần giống nhau”, “nghịch đảo khoảng cách”, ➢ Phổ biến là tính độ đo cosin của góc giữa hai vector: không yêu cầu chuẩn hóa n w *w (v ,v )  1i 12 sim(d ,d ) = 1 2 = i=1 1 2 n n v1 v2 2 2 w * w2i  1i  17 i=1 i=1
Mô hình không gian vector Khaled Shaban (2006). A semantic graph model for text representation and matching in document mining, PhD Thesis, University of Waterloo, Canada 18
Mô hình xác suất ⚫ Giả thiết chính ➢ Mô hình xác suất: cặp (Y, P) với Y là tập quan sát được và P là mô hình xác suất trên Y (có thể coi Y là quan sát được các từ/đặc trưng trên văn bản). ➢ Các từ xuất hiện trong văn bản thể hiện nội dung văn bản ➢ Sự xuất hiện của các từ là độc lập lẫn nhau và độc lập ngữ cảnh ➢ Dạng đơn giản: chỉ liệt kê từ, dạng chi tiết: liệt kê từ và số lần xuất hiện ➢ Lưu ý: Các giả thiết về tính độc lập không hòan toàn đúng (độc lập lẫn nhau, độc lập ngữ cảnh) song mô hình thi hành hiệu quả trong nhiều trường hợp. ⚫ Độ đo tương tự nội dung văn bản ➢ So sánh hai túi từ 19
Mô hình túi từ (bag-of-word) Dunja Mladenic' (1998). Machine Learning on Non-homogeneous, Distributed Text Data. PhD. Thesis, University of Ljubljana, Slovenia. 20
Mô hình biểu diễn LSI và theo phân cụm ⚫ Giới thiệu ➢ Tồn tại nhiều phương pháp biểu diễn khác ➢ Tồn tại nhiều phiên bản cho một phương pháp ➢ Gần đây có một số phương pháp mới ➢ Hai phương pháp phổ biến: LSI và theo phân cụm ➢ Lưu ý: Giá phải trả khi tiền xử lý dữ liệu ⚫ Mô hình phân cụm ➢ Phân cụm các từ trong miền ứng dụng: ma trận trọng số ➢ Thay thếtừ bằng cụm chứa nó ⚫ Mô hình biểu diễn LSI ➢ LSI: Latent Semantic Indexing biểu diễn ngữ nghĩa ẩn ➢ Nâng mức ngữ nghĩa (trừu tượng) của đặc trưng ➢ Rút gọn tập đặc trưng, giảm số chiều không gian biểu diễn ➢ Không gian từ khóa  không gian khái niệm (chủ đề). ➢ Phương pháp chuyển đổi ➢ Ma trận trọng số  ma trận hạng nhỏ hơn ➢ Phép biến đổi đó Từ khóa  khái niệm. Thay thế biểu diễn. 21
Lựa chọn từ trong biểu diễn văn bản ⚫ Loại bỏ từ dừng ➢ Những từ được coi là không mạng nghĩa ➢ Có sẵn trong ngôn ngữ ⚫ Đưa về từ gốc ➢ Các ngôn ngữ có biến dạng từ: Anh, Nga ➢ Thay từ biến dạng về dạng gốc ⚫ Chon đặc trưng n-gram ➢ Các âm tiết liền nhau n-gram ➢ Uni-gram: chỉ chứa một âm tiết ➢ Bigram: chứa không quá 2 âm tiết ➢ Trigram: chứa không quá 2 âm tiết ➢ N-gram: Thường không quá 4 gram ➢ Một số đặc trưng ➢ Chính xác hơn về ngữ nghĩa ➢ Tăng số lượng đặc trưng ➢ Tăng độ phức tạp tính toán 22
Một số đô đo cho lựa chọn đặc trưng ⚫ Giới thiệu chung ➢ Lựa chọn đặc trưng: lợi thế chính xác, lợi thể tốc độ hoặc cả hai ➢ Các độ đo giúp khẳng định lợi thế ⚫ Phân nhóm độ đo ➢ Hai nhóm: theo tần số và theo lý thuyết thông tin ⚫ Một số độ đo điển hình ➢ Xem hai trang sau 23
Một số đô đo cho lựa chọn đặc trưng 24
Một số đô đo cho toàn bộ các lớp 25
Thu gọn đặc trưng ⚫ Giới thiệu chung ➢ “Tối ưu hóa” chọn tập đặc trưng ➢ Số lượng đặc trưng nhỏ hơn ➢ Hy vọng tăng tốc độ thi hành ➢ Tăng cường chất lượng khai phá văn bản. ? Giảm đặc trưng đi là tăng chất lượng: có các đặc trưng “nhiễu” ➢ Hoặc cả hai mục tiêu trên ⚫ Hai tiếp cận điển hình ➢ Tiếp cận lọc ➢ Tiếp cận bao gói ⚫ Với dữ liệu văn bản ➢ Tập đặc trưng: thường theo mô hình vector ➢ Tính giá trị của từng đặc trưng giữ lại các đặc trưng được coi là “tốt”. 26
Tiếp cận tổng quát: lọc ⚫ Tiếp cận lọc ➢ Đầu vào: Không gian tập các tập đặc trưng ➢ Đầu ra: Tập con đặc trưng tốt nhất ➢ Phương pháp ➢ Dò tìm “cải tiến” bộ đặc trưng: Thuật toán tối ưu hóa ➢ Đánh giá chất lượng mô hình: độc lập với thuật toán học máy 27
Tiếp cận bao gói tổng quát ⚫ Tiếp cận bao gói ➢ Đầu vào: Không gian tập các tập đặc trưng ➢ Đầu ra: Tập con đặc trưng tốt nhất ➢ Phương pháp ➢ Dò tìm “cải tiến” bộ đặc trưng: Thuật toán tối ưu hóa ➢ Đánh giá chất lượng mô hình: Dùng chính thuật toán học để đánh giá 28
Thu gọn đặc trưng văn bản text ⚫ Thu gọn đặc trưng ➢ Đầu vào: Vector đặc trưng ➢ Đầu ra: k đặc trưng tốt nhất ➢ Phương pháp (lùi) ➢ Sắp xếp các đặc trưng theo độ “tốt” (để loại bỏ bớt) ➢ Tính lại độ “tốt” của các đặc trưng ➢ Chọn ra k-đặc trưng tốt nhất ⚫ Các kiểu phương pháp ➢ Tiến / Tiến bậc thang (có xem xét thay thế khi tiến) 29 ➢ Lùi / Lùi bậc thang (có xem xét thay thế khi lùi)
Thu gọn đặc trưng phân lớp text nhị phân ⚫ Một thuật toán lựa chọn đặc trưng text ➢ V: Bảng từ vựng có được từ tập văn bản D ➢ c: lớp đang được quan tâm ➢ giá trị A(t,c): một trong ba thủ tục tính toán ⚫ Ba kiểu thủ tục tính toán A(t,c) ➢ Thông tin tương hỗ ➢ Lựa chọn đặc trưng theo khi-bình phương (chi-square) ➢ Lựa chọn đặc trưng theo tần suất 30
Thu gọn đặc trưng: thông tin tương hỗ ⚫ Công thức MI (Mutual Information) ➢ Biến ngẫu nhiên U: từ khóa t xuất hiện/không xuất hiện ➢ Biến ngẫu nhiên c: tài liệu thuộc/không thuộc lớp c ➢ Ước lượng cho MI ⚫ Ví dụ: Bộ dữ liệu Reuter-RCV1 ➢ Lớp poultry, từ khóa export 31
10 đặc trưng tốt nhất cho 6 lớp Bộ dữ liệu Reuter-RCV1 32
Thống kê khi-bình phương và tần số ⚫ Thống kê khi-bình phương ➢ Công thức xác suất: et, ec : như MI, các biến E là kỳ vọng, N là tần số quan sát được từ tập tài liệu D ➢ Ước lượng cho MI: các giá trị N như MI ⚫ Tần số ➢ Một ước lượng xác suất 33
Thu gọn đặc trưng phân lớp text đa lớp ⚫ Bài toán phân lớp đa lớp ➢ Tập C = {c1, c2, , cn) ➢ Cần chọ đặc trưng tốt nhất cho bộ phân lớp đa lớp ⚫ Phương pháp thống kê khi-bình phương ➢ Mỗi từ khóa ❑ Lập bảng xuất hiện/không xuất hiện các đặc trưng trong lớp văn bản ❑ Tính giá trị thống kê khi-bình phương ➢ Chọn k đặc trưng (từ khóa) ⚫ Phương pháp lựa chon từng lớp ➢ Tính bộ đặc trưng tốt cho từng phân lớp thành phần ➢ Kết hợp các bộ đặc trưng tốt ❑ Tính toán giá trị kết hợp: trung bình (có trọng số xuất hiện) khi kết hợp ❑ Chọn k-đặc trưng tốt nhất sau khi tính toán kết hợp 34
Biểu diễn Web ⚫ Đồ thị Web ➢ Web có cấu trúc đồ thị ➢ Đồ thị Web: nút  trang Web, liên kết ngoài  cung (có hướng, vô hướng). ➢ Bản thân trang Web cũng có tính cấu trúc cây (đồ thị) ➢ Một vài bài toán đồ thị Web ➢ Biểu diễn nội dung, cấu trúc ➢ Tính hạng các đối tượng trong đồ thị Web: tính hạng trang, tính hạng cung Nghiên cứu về đồ thị Web (xem trang sau) ⚫ Đồ thị ngẫu nhiên ➢ Tính ngẫu nhiên trong khai phá Web ➢ WWW có tính ngẫu nhiên: mới, chỉnh sửa, loại bỏ ➢ Hoạt động con người trên Web cũng có tính ngẫu nhiên ➢ Là nội dung nghiên cứu thời sự 35
Một sơ đồ biểu diễn tài liệu Web Dunja Mladenic' (1998). Machine Learning on Non-homogeneous, Distributed Text Data. PhD. Thesis, University of Ljubljana, Slovenia. 36
Một sơ đồ biểu diễn tài liệu Web Dunja Mladenic' (1998). Machine Learning on Non-homogeneous, Distributed Text Data. PhD. Thesis, University of Ljubljana, Slovenia. 37
Một sơ đồ biểu diễn tài liệu Web 38