Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu - Phan Mạnh Thường

pdf 18 trang ngocly 210
Bạn đang xem tài liệu "Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu - Phan Mạnh Thường", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_khai_pha_du_lieu_chuong_1_tong_quan_ve_khai_pha_du.pdf

Nội dung text: Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu - Phan Mạnh Thường

  1. Khai phá dữ liệu (Datamining) Phan Mạnh Thường LOGO 12/07/2014
  2. Thông tin về môn học Thời lượng • Số tiết lý thuyết : 45 • Số tiết thực hành : 30 Điều kiện • Nắm vững kiến thức cơ sở dữ liệu • SQL Server và ngôn ngữ T-SQL • Lập trình Visual.NET Mục tiêu Cung cấp các kiến thức về • Các phương pháp khai phá dữ liệu • Nhà kho dữ liệu 7/12/2014 www.lhu.edu.vn
  3. Thông tin về môn học Tài liệu tham khảo 1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005 2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001. 3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2002 4. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 5. John Wang, Data mining: opportunities and challenges, Idea Group, 2003 6. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005 7/12/2014 www.lhu.edu.vn
  4. Nội dung môn học Chương 1: Tổng quan về khai phá dữ liệu 2 Chương 2: Luật kết hợp 3 Chương 3: Phân lớp dữ liệu 4 Chương 4: Chuỗi phổ biến 5 Chương 5: Gom cụm dữ liệu 5 Chương 6: Nhà kho dữ liệu 7/12/2014 www.lhu.edu.vn
  5. Thông tin về môn học Đánh giá Gồm 3 cột điểm: • Điểm chuyên cần (10%): điểm danh buổi học (Lưu ý: nghỉ quá 30% số tiết bị cấm thi) • Điểm kiểm tra (30%): bài tập, seminar • Điểm thi (60%): làm bài thi trên máy 7/12/2014 www.lhu.edu.vn
  6. Chương 1 Tổng quan Nội dung 1 Các khái niệm cơ bản 2 Các giai đoạn khai phá tri thức 3 Ứng dụng của khai phá dữ liệu 4 Các kỹ thuật khai phá
  7. Chương 1 Tổng quan Các khái niệm cơ bản . Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự mà chúng ta tập hợp hàng ngày trong công việc . Thông tin (Information): là tập hợp của những mảnh dữ liệu đã được chắt lọc dùng mô tả, giải thích đặc tính của một đối tượng nào đó . Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, có thể xem tri thức là sự kết tinh từ dữ liệu. Tri thức thể hiện tư duy của con người về một vấn đề 7/12/2014 www.lhu.edu.vn
  8. Chương 1 Tổng quan Các khái niệm cơ bản . Khám phá tri thức từ cơ sở dữ liệu: (Knowledge Discovery in Databases – KDD) . “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996) . “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế . 7/12/2014 www.lhu.edu.vn
  9. Chương 1 Tổng quan Tại sao phải khai phá dữ liệu ? . Nhà bác học nổi tiếng Karan Sing đã từng nói rằng “Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức”. . Dữ liệu được thu thập hàng ngày là rất lớn . Các CSDL khổng lồ . Dữ liệu từ Internet . Theo các báo cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn lại ẩn trong các Database là những tri thức quý giá 7/12/2014 www.lhu.edu.vn
  10. Chương 1 Tổng quan Khai phá dữ liệu là gì? . Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm: . Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn . Phân tích dữ liệu bán tự động . Giải thích dữ liệu trên các tập dữ liệu lớn . 7/12/2014 www.lhu.edu.vn
  11. Chương 1 Tổng quan Lợi ích của khai phá dữ liệu Giá trị EDP MIS Số lượng DSS EDP: Electronic Data Processing MIS: Management Information Systems 7/12/2014 DSS: Decision Support Systems www.lhu.edu.vn
  12. Chương 1 Tổng quan Quy trình khai phá dữ liệu NghiNghiNghiênênên cứucứu lĩnhlĩnh vựcvực TTạoạo tậptập dữdữ liệuliệu đầuđầu vàovào TiTiềnền xửxử lý/lý/ làmlàm sạch,sạch, mãmã hóahóa RRút gọn / chiều Chọn tác vụ Khai thác dữ liệu 7/12/2014 www.lhu.edu.vn
  13. Chương 1 Tổng quan Quy trình khai phá dữ liệu Chọn các thuật giải KTDL KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm được Biểu diễn tri thức Sử dụng các tri thức vừa khám phá 7/12/2014 www.lhu.edu.vn
  14. Chương 1 Tổng quan Quy trình khai phá dữ liệu Increasing potential to support End User business decisions Making Decisions Data Presentation Business Visualization Techniques Analyst Data Mining Data Information Discovery Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 7/12/2014 www.lhu.edu.vn
  15. Chương 1 Tổng quan Từ dữ liệu đến quyết định Quyết định • Promote product A in region Z. • Mail ads to families of profile P Tri thức • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thông tin • X lives in Z • S is Y years old Dữ liệu • X and S moved • Customer data • W has money in Z • Store data • Demographical Data • Geographical data 7/12/2014 www.lhu.edu.vn
  16. Chương 1 Tổng quan Các ứng dụng Kinh doanh Sản xuất - Phân tích dữ liệu bán hàng và tiếp thị - Phân tích đầu tư - Chứng khoán - Điều khiển và lập lịch - Xác định gian lận - Quản trị mạng lưới - Phân tích kết quả thử nghiệm Khoa học - Không gian Y học - Sinh học - Địa lý - Bệnh lý - etc. - Sinh học 7/12/2014 www.lhu.edu.vn
  17. Chương 1 Tổng quan Các kỹ thuật sử dụng Tìm các đặc trưng của lớp Xác định các cụm các đối tượng và sử dụng ề ẩ để phân lớp dữ liệu mới. ti m n trong các tập đối tượng chưa được xếp lớp. Gom cụm Phân lớp Tìm các mẫu phổ biến Dữ đoán dữ liệu tương từ dữ liệu và mối quan ? lai dựa trên dữ liệu quá hệ của các đối tượng khứ. dữ liệu. Dự đoán Luật kết hợp Khám phá các mẫu tín hiệu phổ Xác định trật tự dữ biến nhất từ dữ liệu, cấu trúc lưu trữ liệu các sự kiện phù hợp với tác vụ Mẫu tuần tự khai phá Nhà kho- OLAP 7/12/2014 www.lhu.edu.vn
  18. Chương 1 Tổng quan Kết luận . KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ CSDL lớn . Các bước của KDD . Tiền xử lý . KTDL( data mining tasks) . Hậu xử lý . Các quan niệm, khía cạnh . CSDL (quan hệ, hướng đối tượng, không gian, WWW, ) . Tri thức (đặc trưng, gom cụm, kết hợp, ) . Kỹ thuật (máy học, thống kê, trực quan hóa, ) . Ứng dụng (bán lẻ, điện thoại, khai thác Web ) 7/12/2014 www.lhu.edu.vn