Bài giảng Thống kê ứng dụng - Chương 10: Kiểm định phi tham số - Nguyễn Tiến Dũng
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê ứng dụng - Chương 10: Kiểm định phi tham số - Nguyễn Tiến Dũng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_thong_ke_ung_dung_chuong_10_kiem_dinh_phi_tham_so.pdf
Nội dung text: Bài giảng Thống kê ứng dụng - Chương 10: Kiểm định phi tham số - Nguyễn Tiến Dũng
- Chương 10 KIỂM ĐỊNH PHI THAM SỐ Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn
- Giới thiệu về KĐ phi tham số ● KĐ Phi tham số (non-parametric tests) là gì? ● Khơng dựa trên TB, tỷ lệ, PS, độ lệch chuẩn ● Tại sao KĐ phi tham số? ● Tổng thể khơng cĩ PP bình thường ● Tổng thể cĩ những giá trị bất thường (outliers) ● Cỡ mẫu nhỏ ● DL định tính © 2013 Nguyễn Tiến Dũng 2
- Các bài tốn và phương pháp KĐ phi tham số thường dùng Mục đích PP KĐ phi tham số PP KĐ tham số tương đương So sánh TB của 1 tổng thể KĐ dấu và hạng Wilcoxon One-sample T- Test với một giá trị cố định (Wilcoxon signed rank test) So sánh 2 TB của 2 tổng thể KĐ dấu và hạng Wilcoxon 2 Independent Samples T- với nhau, trường hợp 2 mẫu trên hai mẫu Test cặp So sánh 2 TB của 2 tổng thể KĐ tổng hạng Wilcoxon 2 Paired Samples T-Test với nhau, trường hợp 2 mẫu (Wilcoxon rank-sum test) độc lập hoặc KĐ Mann-Whitney U So sánh k TB của k tổng thể KĐ Kruskal - Wallis ANOVA một yếu tố (one-way với nhau (k > 2) ANOVA) KĐ mối liên hệ giữa hai biến Phân tích tương quan hạng Phân tích tương quan và hồi định tính Spearman quy KĐ Chi bình phương (Chi- square Test) KĐ về sự phù hợp của một KĐ Chi bình phương trên phân phối với một phân phối một mẫu / KĐ sự phù hợp lý thuyết (Goodness-of-fit Test) © 2013 Nguyễn Tiến Dũng 3
- CÁC NỘI DUNG CHÍNH ● 10.1 KĐ dấu và hạng Wilcoxon về trung bình của một tổng thể ● 10.2 KĐ dấu và hạng Wilcoxon trên 2 tổng thể, trường hợp lấy mẫu cặp ● 10.3 KĐ tổng hạng Wilcoxon trên 2 tổng thể, trường hợp lấy mẫu độc lập ● 10.4 KĐ Chi bình phương về mối liên hệ giữa hai biến định tính ● 10.5 KĐ Chi bình phương trên một mẫu © 2013 Nguyễn Tiến Dũng 4
- 10.1 KĐ dấu và hạng Wilcoxon về trung vị của tổng thể Gọi trung vị tổng thể là M, giá trị cần so sánh là M0. ● B1: Thu thập thơng tin mẫu HMM00: HMM10: ● B2: Tính các chênh lệch di: 푖 = 푖 − 0 ● B3: Tính giá trị tuyệt đối của các chênh lệch |di| ● B4: Loại bỏ các chênh lệch bằng 0, xếp hạng các |di| cịn lại từ nhỏ đến lớn, |di| nhỏ nhất cĩ hạng là 1. ● Nếu cĩ hạng ngang nhau thì tính hạng TB. ● Cỡ mẫu rút gọn n’ = n – số trường hợp cĩ di bằng 0 ● B5: Tách các hạng vừa xếp thành 2 cột Nếu di > 0 thì đặt vào cột R+. Nếu di < 0 thì đặt vào cột R- © 2013 Nguyễn Tiến Dũng 5
- ● Theo SGK của Hồng Trọng & Chu Nguyễn Mộng Ngọc thì: ● B6: Tính giá trị của chỉ tiêu KĐ W ● Nếu KĐ bên phải: W = ΣR+ ● Nếu KĐ bên trái: W = ΣR- ● Nếu KĐ hai bên: W = min(ΣR+; ΣR-) ● B7: Tra bảng Wilcoxon tìm Wα (giá trị của CẬN DƯỚI, tương ứng với trường hợp KĐ 1 bên hay 2 bên) và áp dụng quy tắc bác bỏ H0 ● Nếu W < Wα © 2013 Nguyễn Tiến Dũng 6
- ● Theo quan điểm khác: ● B6: Tính chỉ tiêu KĐ W = ΣR+ ● B7: Tra bảng tìm WL (cận dưới) và WU (cận trên) và áp dụng quy tắc bác bỏ H0. ● Nếu KĐ 2 bên: W WU ● Quy tắc bác bỏ H0: Như KĐ về TB của một tổng thể, trường hợp biết © 2013 Nguyễn Tiến Dũng 7
- Wilcoxon Table © 2013 Nguyễn Tiến Dũng 8
- TD KĐ về thu nhập TB của SV sau khi tốt nghiệp – Tr. 284 - Bảng 10.1 Tr. 286 © 2013 Nguyễn Tiến Dũng 9
- 10.2 KĐ tổng hạng Wilcoxon về TB của 2 mẫu độc lập ● B1: Chọn mẫu làm Mẫu 1 (n1 <n2) và lập cặp giả thuyết TK. Nếu 2 mẫu cĩ cỡ mẫu bằng nhau, thì coi mẫu nào là Mẫu 1 cũng được. Gọi M1, M2 là trung vị của tổng thể thứ nhất và thứ hai HMM012: HMM012: HMM012: HMM: HMM: 112 HMM112: 112 ● B2: Gộp chung 2 mẫu thành 1 danh sách chung và sắp xếp từ nhỏ tới lớn. Xác định hạng của các quan sát theo nguyên tắc là QS cĩ giá trị nhỏ nhất sẽ cĩ hạng là 1, giá trị càng lớn thì hạng càng lớn. Nếu cĩ 2 quan sát cĩ giá trị bằng nhau, thì lấy hạng TB. © 2013 Nguyễn Tiến Dũng 10
- ● B3: Xác định chỉ tiêu KĐ n (N1) ● 1 Nếu cỡ mẫu nhỏ (n1 WU hoặc T1 WU ● Nếu cỡ mẫu lớn: tương tự như KĐ TB của 1 tổng thể, trường hợp biết © 2013 Nguyễn Tiến Dũng 11
- ● TD: Tác động của kiểu trưng bày hàng hố tới doanh số ● Mẫu 1: 10 gian hàng trưng bày theo kiểu bình thường ● Mẫu 2: 10 gian hàng khác, trưng bày theo kiểu đặc biệt ● Ghi nhận doanh số và so sánh © 2013 Nguyễn Tiến Dũng 12
- 10.3 KĐ dấu và hạng Wilcoxon với 2 mẫu cặp ● B1: Xác định các chênh lệch di = x1i – x2i và lập cặp giả thuyết KĐ HMM012: HMM012: HMM012: HMM: HMM: 112 HMM112: 112 HM0 :0D HM0 :0D HM0 :0D HM:0 HM:0 1 D HM1 :0D 1 D © 2013 Nguyễn Tiến Dũng 13
- ● B2: Xác định các giá trị tuyệt đối |di| ● B3: Loại bỏ các |di| bằng 0, sắp hạng các |di| từ nhỏ tới lớn. Giá trị |di| nhỏ nhất cĩ hạng là 1. Nếu cĩ nhiều |di| bằng nhau, thì tính hạng trung bình. ● n’ = n – số trường hợp cĩ di = 0 ● B4: Tách riêng các hạng của |di| thành 2 loại, hạng R+ và hạng R- theo dấu của di gốc ● B5: Tính giá trị KĐ W = R+ ● B6: Áp dụng quy tắc bác bỏ H0 ● Nếu n’ ≤ 20 ● KĐ bên trái: W ≤ WL ● KĐ hai bên: W ≤ WL hoặc W ≥ WU ● KĐ bên phải: W ≥ WU © 2013 Nguyễn Tiến Dũng 14
- ● Nếu n’ > 20 thì W xấp xỉ PP bình thường. Khi đĩ sẽ biến đổi chuẩn hố W và kiểm định theo chỉ tiêu z. ● Quy tắc bác bỏ H0 tương tự như bài tốn KĐ TB của một tổng thể, trường hợp biết nn'( ' 1) W 4 n'( nn ' 1)(2 ' 1) W 24 W z W W © 2013 Nguyễn Tiến Dũng 15
- TD Trang 292: So sánh tốc độ xử lý của hai phần mềm ● Cài đặt 2 PM trên cùng các máy ● Chạy từng PM một, đo thời gian xử lý các tác vụ ● Chạy thử 2 PM này với 10 tác vụ khác nhau và đã ghi được thời gian xử lý của từng PM. ● DL ở Bảng 10.4 Trang 292. ● Mẫu 1: X1 – thời gian xử lý tác vụ của PM đang dùng ● Mẫu 2: X2 – thời gian xử lý tác vụ của PM mới ● Biến chênh lệch di = x1i – x2i ● Cặp giả thuyết KĐ HM0 : D 0 HM1 :0D ● W = 7 + 2 + 6 + 8 + 4,5 + 9 + 4,5 + 3 = 44 ● n’ = n -1 = 9; α =0,05 Tra bảng cĩ WU = 37 ● Vì W > WU Bác bỏ H0. © 2013 Nguyễn Tiến Dũng 16
- 10.4 KĐ Kruskal – Wallis trên nhiều mẫu độc lập ● Mục đích: so sánh TB của k mẫu độc lập (k >2) ● Gọi n = n1 + n2 + + nk 12 k R 2 W i 3(1)n ● H0: M1 = M2 = = Mk n(1) nn i 1 i ● Chỉ tiêu KĐ W Bác bỏ H 0nếu 2 ● Quy tắc bác bỏ H0 W>k 1; ● TD: Bảng 10.5 Trang 294 – KĐ về tác động của mức độ đi làm thêm tới KQ học tập của SV (k =3) © 2013 Nguyễn Tiến Dũng 17
- ● Nếu muốn so sánh tuổi thọ của cả 3 loại bĩng đèn cùng một lúc? ● Sử dụng Kruskal – Wallis Test © 2013 Nguyễn Tiến Dũng 18
- 10.5 KĐ Chi bình phương về mối liên hệ giữa 2 biến định tính ● Biến 1: Biến hàng ● Biến 2: Biến cột ● Lập bảng tần số liên hợp giữa 2 biến ● Xem TD Trang 297 sách TKƯD ● Muốn tìm hiểu xem liệu giữa thời gian tìm hiểu trước hơn nhân và tình trạng gđ sau hơn nhân cĩ mối liên hệ gì hay khơng. ● Biến số 1: Thời gian tìm hiểu trước hơn nhân (Bảng 10.6 Trang 298), chia làm 3 mức (ngắn, TB và dài) ● Biến số 2: Tình trạng gia đình sau hơn nhân, chia làm 3 loại (ly dị/ly thân; khơng hạnh phúc; hạnh phúc) © 2013 Nguyễn Tiến Dũng 19
- ● Bảng 10.6 mơ tả tần số thực tế - Oij – cĩ được từ điều tra, nghiên cứu thực tế ● Bảng 10.7 tính tốn ra tần số lý thuyết hay tần số kỳ vọng Eij, căn cứ vào các giá trị của tổng hàng và tổng cột. ● Nếu phân phối của tần số thực tế khác nhiều so với phân phối của tần số kỳ vọng trong bảng, thì cĩ thể sẽ cĩ một mối liên hệ nào đĩ giữa biến hàng và biến cột ● Nếu muốn khẳng định chắc chắn, phải KĐ. ● P.pháp KĐ là Chi b.phương © 2013 Nguyễn Tiến Dũng 20
- Ngắn TB Dài Tổng hàng H.phúc E11 = 45 E12 = 60 E13 = 45 R1 = 150 O11=38 O12 = 58 O13 = 54 Khơng HP E21 = 9 E22 = 12 E23 = 9 R2 = 30 O21 = 12 O22 = 14 O23 = 4 Ly dị / Ly thân E31 = 6 E32 = 8 E33 = 6 R3 = 20 O31 = 10 O23 = 8 O33 = 2 C1 = 60 C2 = 80 C3 = 60 n = 200 RC rc 2 ij 2 ()OEijij Eij n ij 11 Eij 22 Bác bỏ H0 nếu df ; dfrc ( 1).( 1) © 2013 Nguyễn Tiến Dũng 21
- 10.6 KĐ Chi bình phương về sự phù hợp ● Goodness-of-fit Test ● Mục đích: Kiểm tra sự phân 2 k ()OE phối tần số cĩ phù hợp với 2 ii E một tần số lý thuyết hay i 1 i 22 khơng Bác bỏ H0 nếu df ; ● TD: Xem Ví dụ 1 Trang df k 1 299, sách TKƯD về số tai nạn lao động theo các ngày trong tuần ● Chỉ tiêu KĐ ● Quy tắc bác bỏ H0 © 2013 Nguyễn Tiến Dũng 22
- Câu hỏi ng.cứu là gì? Thứ Số vụ tai nạn Số vụ tai nạn thực tế Oi theo giả thuyết Ei Hai 7 5,33 Ba 3 5,33 Tư 3 5,33 Năm 2 5,33 Sáu 5 5,33 Bảy 12 5,33 Tổng 32 32 © 2013 Nguyễn Tiến Dũng 23