Bài giảng Các phương pháp xếp hạng thuộc tính

pdf 16 trang ngocly 1260
Bạn đang xem tài liệu "Bài giảng Các phương pháp xếp hạng thuộc tính", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_cac_phuong_phap_xep_hang_thuoc_tinh.pdf

Nội dung text: Bài giảng Các phương pháp xếp hạng thuộc tính

  1. CÁC PHƯƠNG PHÁP XẾP HẠNG THUỘC TÍNH 1. CHỈ SỐ GINI VÀ ĐƯỜNG CONG LORENZ 2. PHƯƠNG PHÁP 2 BIẾN SỐ
  2. ĐƯỜNG CONG LORENZ • Đường cong Lorenz là một loại đồ thị dùng để biểu diễn mức độ bất bình đẳng trong phân phối. • Là sự biểu diễn bằng hình học của hàm phân bố tích lũy, chỉ ra quan hệ giữa tỷ lệ phần trăm của một giá trị thể hiện qua trục tung với tỷ lệ phần trăm của một giá trị khác thể hiện qua trục hoành.
  3. Đường cong Lorenz Đường màu xanh lá cây hợp với trục hoành thành một góc 45° gọi là đường bình đẳng tuyệt đối. Mỗi điểm trên đường này thể hiện tỷ lệ phần trăm số hộ gia đình đúng bằng tỷ lệ phần trăm thu nhập. Đường màu xanh da trời được gọi là đường bất bình đẳng tuyệt đối. Mỗi điểm trên đường này thể hiện tỷ lệ phần trăm số hộ gia đình không có thu nhập hoặc tỷ lệ phần trăm số hộ gia đình chiếm toàn bộ tổng thu nhập.
  4. Ưu điểm của đường cong Lorenz • Thể hiện trực quan: Dễ thấy mức độ bất bình đẳng trong phân phối thu nhập • Nghiên cứu sự phân bố thu nhập, chỉ ra tỷ lệ phần trăm số hộ gia đình hay dân số trong tổng số và tỷ lệ phần trăm thu nhập của họ trong tổng thu nhập.
  5. Hạn chế của đường cong Lorenz
  6. HỆ SỐ GINI • Hệ số Gini dùng để biểu thị độ bất bình đẳng trong phân phối thu nhập. Nó có giá trị từ 0 đến 1 và bằng tỷ số giữa phần diện tích nằm giữa đường cong Lorenz và đường bình đẳng tuyệt đối với phần diện tích nằm dưới đường bình đẳng tuyệt đối.
  7. HỆ SỐ GINI
  8. HỆ SỐ GINI • Nếu G = 0: Thể hiện độ bình đẳng tuyệt đối • Nếu G = 1: Thể hiện độ bất bình đẳng tuyệt đối • Nếu G gần 0: Độ bất bình đẳng là nhỏ • Nếu G gần 1: Độ bất bình đẳng là lớn
  9. Nhận xét • Nếu sử dụng phương pháp chỉ số Gini ta có thể độ không đồng nhất của một tập dữ liệu D • Sau khi tính toán hệ số Gini cho mỗi tập dữ liệu. Tập dữ liệu nào có hệ số Gini nhỏ hay độ không đồng nhất của tập dữ liệu đó là nhỏ thì sẽ xếp cao hơn
  10. Phương pháp 2 biến số • Giả sử thuộc tính X = {x1, , xn} • Giả sử thuộc tính Y = {y1, , yn} • Gọi (Xi, Bj) là sự kiện đồng thời X = xi, Y = yj
  11. Phương pháp 2 biến số • Phương pháp này giống như thông tin tương hỗ (mutual information) • Tìm ra xác suất kết hợp giữa 2 biến số X và Y nếu X và Y xảy ra đồng thời:
  12. Phương pháp 2 biến số • p(x, y) – Hàm phân bố xác xuất kết hợp • p1(x), p2(y) – Hàm mật độ xác xuất của X và Y •Nếu I(X; Y) càng lớn hơn 0 thì X và Y có mối quan hệ với nhau càng lớn •Nếu I(X; Y) càng gần 0 thì X và Y không có mối quan hệ gì với nhau •Nếu I(X; Y) càng nhỏ so với 0 thì X và Y càng có ít mối quan hệ
  13. Ví dụ: • Nhóm 1 (20% dân số nghèo nhất) chiếm 7% thu nhập • Nhóm 2 (20% dân số tiếp theo) chiếm 12% thu nhập • Nhóm 3 (20% dân số tiếp theo) chiếm 15% thu nhập • Nhóm 4 (20% dân số tiếp theo) chiếm 22% thu nhập • Nhóm 5 (20% dân số tiếp theo) chiếm 34% thu nhập Câu hỏi: Hãy vẽ đường cong Lorenz và tính hệ số Gini G?
  14. Lời giải % dân số % thu nhập Population Lorenz curve Perfect equality Perfect inequality 0 0 0 0 20 7 20 7 20 0 20 12 40 19 40 0 20 15 60 34 60 0 20 22 80 56 80 0 20 44 100 100 100 0
  15. Lời giải Hệ số Gini: G = 1 – 2×0.2(0.07 + 0.19 + 0.34 + 0.56 + 1/2) = 0.336