Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu

pdf 91 trang ngocly 270
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_bai_6_phan_tich_du_lieu.pdf

Nội dung text: Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu

  1. TIN HỌC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI SPSS BÀI 6: PHÂN TÍCH DỮ LIỆU
  2. MỤC TIÊU u c ứ • Hiểu và áp dụng được các phương pháp phân tích i ê n dữ liệu phù hợp với yêu cầu nghiên cứu. n g h ệ u l i • Tổ chức và làm việc nhóm phân tích dữ liệu d ữ nghiên cứu; làm báo cáo và trình bày kết quả t í c h nghiên cứu. â n P h n g : d ụ n g c ứ h ọ T i n
  3. NỘI DUNG u c ứ • Kiểm định mối liên hệ giữa hai biến định tính i ê n n g h • Kiểm định trung bình tổng thể ệ u l i • Phân tích phương sai d ữ t í c h • Tương quan tuyến tính â n P h • Hồi quy tuyến tính n g : d ụ n g c ứ h ọ T i n
  4. MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH u c ứ • Kiểm định mối liên hệ giữa hai biến định danh hoặc i ê n định danh – thứ bậc n g h ệ u l i • Kiểm định mối liên hệ giữa hai biến thứ bậc d ữ t í c h â n P h n g : d ụ n g c ứ h ọ T i n
  5. MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH u c ứ • Lý thuyết Chi-bình phương i ê n – Bước 1: Đặt giả thuyết Ho: “Không có mối liên hệ giữa hai biến” hay “Hai n g h biến độc lập với nhau”. ệ u l i – Bước 2: Thực hiện kiểm định2 d ữ – Bước 3: So sánh giá trị p-value với giá trị t í c h • Chấp nhận Ho nếu p-value > â n P h • Bác bỏ Ho nếu p-value n g : – P-value là xác suất phạm sai lầm khi loại bỏ giả thuyết Ho, xác suất này d ụ càng cao thì hậu quả của việc phạm sai lầm khi loại bỏ giả thuyết Ho càng n g nghiêm trọng và ngược lại c ứ – Trong SPSS p-value chính là giá trị Sig. trong bảng kết quả kiểm định h ọ T i n
  6. MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH u c ứ • Kiểm định mối liên hệ giữa hai biến định danh hoặc i ê n định danh – thứ bậc n g h ệ u – Giả thuyết l i d ữ • Ho: Không tồn tại mối liên hệ giữa hai biến t í c h • H1: Hai biến có liên hệ với nhau â n P h – Phương pháp n g : • Sử dụng kiểm định Chi – bình phương (2) với mức ý nghĩa = d ụ n g 0.05 c ứ – Ví dụ h ọ T i n • Kiểm định mối liên hệ giữa trình độ học vấn và giới tính
  7. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN ĐỊNH DANH
  8. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN ĐỊNH DANH
  9. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN ĐỊNH DANH
  10. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u Các đại lượng kiểm Các lượng đại kiểm định dành dành hai định cho biến định định biến danh MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN ĐỊNH DANH Các đại lượng kiểm lượng Các đại kiểm định dành dành hai định cho biến thứ biến bậc
  11. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN ĐỊNH DANH
  12. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN ĐỊNH DANH nhận giả nhận H thuyết > Do Sig. nên chấp chấp nên 0
  13. MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH u c ứ • Kiểm định mối liên hệ giữa hai biến thứ bậc i ê n n g h – Giả thuyết ệ u l i • Ho: Không tồn tại mối liên hệ giữa hai biến d ữ • H1: Hai biến có liên hệ với nhau t í c h â n – Phương pháp P h • Sử dụng kiểm định tau-b của Kendall, kiểm định d của Some, n g : kiểm định gamma của Goodman và Kruskal với mức ý nghĩa d ụ = 0.05 n g c ứ – Ví dụ h ọ • Kiểm định mối liên hệ giữa độ tuổi và mức độ thanh toán thẻ T i n
  14. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN THỨ BẬC
  15. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN THỨ BẬC
  16. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u MỐI MỐI LIÊN HỆ GIỮAHAIBIẾN THỨ BẬC nhận giả nhận H thuyết > Do Sig. nên chấp chấp nên ≠ 0
  17. KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ u c ứ • So sánh trị trung bình của một tổng thể với một giá i ê n trị cụ thể n g h ệ u l i • So sánh trị trung bình của hai nhóm tổng thể riêng d ữ • So sánh trị trung bình của hai nhóm tổng thể riêng t í c h â n biệt có đặc điểm các phần tử của hai nhóm có sự P h tương đồng từng đôi một n g : d ụ • So sánh trị trung bình của nhiều nhóm tổng thể độc n g c ứ lập h ọ T i n
  18. KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ u c ứ • So sánh trị trung bình của một tổng thể với một giá i ê n trị cụ thể n g h ệ u – Ví dụ: Kiểm định giả thuyết “Độ tuổi trung bình của l i khách hàng trả lương qua thẻ VCB là 35”. d ữ t í c h – Quy trình thực hiện â n • Dùng lệnh Select Case lọc ra các trường hợp khách hàng trả P h lương qua thẻ VCB n g : d ụ • Gọi chức năng Analyze > Compare Means > One-Sample T- n g Test c ứ h ọ • Cung cấp biến kiểm định, giá trị trung bình kỳ vọng T i n • Chọn độ tin cậy
  19. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦAMỘT BÌNH THUYẾTTRUNG TRỊĐỊNH GIẢ KIỂM TỔNG THỂ TỔNG
  20. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦAMỘT BÌNH THUYẾTTRUNG TRỊĐỊNH GIẢ KIỂM TỔNG THỂ TỔNG
  21. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦAMỘT BÌNH THUYẾTTRUNG TRỊĐỊNH GIẢ KIỂM TỔNG THỂ TỔNG
  22. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦAMỘT BÌNH THUYẾTTRUNG TRỊĐỊNH GIẢ KIỂM TỔNG THỂ TỔNG
  23. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦAMỘT BÌNH THUYẾTTRUNG TRỊĐỊNH GIẢ KIỂM GIẢTHUYẾT H 0 Tuổi lương bình trung của chủ thẻ VCB là35 TỔNG THỂ TỔNG
  24. KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT TỔNG THỂ u c ứ GIẢ THUYẾT H Tuổi trung bình của chủ thẻ lương VCB là 35 i ê n 0 n g h ệ u l i Số lượng quan sát Giá trị trung bình d ữ t í c h â n P h n g : Mức ý nghĩa 0.00 < 0.01 d ụ Giá trị kiểm định t n g c ứ Bác bỏ giả thuyết H0 h ọ T i n KẾT LUẬN: Tuổi trung bình của chủ thẻ lương VCB trên 35
  25. PHÂN TÍCH TRẮC NGHIỆM GIẢ THIẾT u c ứ • Mục tiêu của trắc nghiệm giả thiết là nhằm quyết định tính i ê n chính xác của giả thiết dựa trên các số liệu mẫu thu thập n g h được. Chúng ta đánh giá tính chính xác của các giả thiết ệ u bằng cách áp dụng các kỹ thuật thống kê; và đánh giá tầm l i quan trọng của sự khác biệt có ý nghĩa thống kê. d ữ t í c h • Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể hiện cách â n nhìn mục tiêu theo xác suất dựa trên phân tích dữ liệu mẫu. P h Một giả thiết được xây dựng, nó sẽ bị bác bỏ hoặc chấp n g : nhận dựa trên mẫu dữ liệu thu thập d ụ n g c ứ h ọ T i n
  26. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHÂN TÍCHTRẮC NGHIỆM GIẢTHIẾT
  27. KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ u c ứ • Kiểm định trị trung bình của hai tổng thể - trường i ê n hợp mẫu độc lập n g h ệ u l i d ữ • Kiểm định trị trung bình của hai mẫu phụ thuộc t í c h â n hoặc phối hợp từng cặp P h n g : d ụ n g c ứ h ọ T i n
  28. KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ - TRƯỜNG HỢP MẪU ĐỘC LẬP u c ứ • Ví dụ i ê n n g h – Giả thuyết H0: Tuổi trung bình của khách hàng nam và ệ u nữ là ngang nhau l i d ữ • Quy trình thực hiện t í c h â n – Gọi chức năng Analye > Compare Means > P h Independent-samples T Test n g : d ụ – Cung cấp các biến định lượng (tính trung bình), biến n g định tính (phân thành hai nhóm độc lập) c ứ h ọ – Chỉ định hai nhóm cần so sánh T i n
  29. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG BÌNH CỦAHAITRUNGĐỊNH TRỊ KIỂM TRƯỜNG HỢP MẪU ĐỘC LẬPĐỘC MẪUHỢP TRƯỜNG THỂ -
  30. KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ - TRƯỜNG HỢP MẪU ĐỘC LẬP u c ứ GIẢ THUYẾT H0: Tuổi trung bình giữa nam và nữ là bằng nhau i ê n n g h Kiểm định sự bằng nhau về Sig phương sai hai mẫu ệ u phương sai của hai mẫu khác nhau => sử dụng “Equal l i (Levenve’s Test) variances not assumed” d ữ t í c h â n P h n g : d ụ n g Sig > 5% => phương sai hai mẫu c ứ bằng nhau => sử dụng “Equal variances assumed” h ọ T i n
  31. KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ - TRƯỜNG HỢP MẪU ĐỘC LẬP u c ứ GIẢ THUYẾT H0: Tuổi trung bình giữa nam và nữ là bằng nhau i ê n n g h Sig > 5% => phương sai hai mẫu ệ u Kết quả kiểm định sự bằng nhau bằng nhau => sử dụng “Equal l i về trị trung bình của hai mẫu variances assumed” d ữ t í c h â n Sig Bác bỏ giả thuyết H0 P h n g : d ụ n g c ứ h ọ T i n KẾT LUẬN: Tuổi trung bình giữa nam và nữ là khác nhau
  32. LƯU Ý u c ứ • Nếu giá trị Sig. trong kiểm định Levene (kiểm định F) < 0.05 i ê n thì phương sai của 2 tổng thể khác nhau, ta sử dụng kết n g h quả kiểm định t ở dòng Equal variances not assumed. ệ u l i • Nếu Sig. ≥ 0.05 thì phương sai của 2 tổng thể không khác d ữ nhau, ta sử dụng kết quả kiểm định t ở dòng Equal t í c h variances assumed. â n P h n g : d ụ n g c ứ h ọ T i n
  33. LƯU Ý u c ứ • Trong VD trên Sig. của kiểm định F = 0.308 > 0.05 chấp i ê n nhận giả thuyết H0 không có sự khác nhau về phương sai n g h của 2 tổng thể sử dụng kết quả ở dòng Equal variances ệ u assumed. l i d ữ • Nếu Sig. của kiểm định t ≤ α (mức ý nghĩa) có sự phác t í c h biệt có ý nghĩa về trung bình của 2 tổng thể. â n P h • Nếu Sig. > α (mức ý nghĩa) không có sự khác biệt có ý n g : nghĩa về trung bình của 2 tổng thể. d ụ n g c ứ h ọ T i n
  34. KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ - TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶP u c ứ • Nguyên lý i ê n n g h – Dữ liệu ở dạng thang đo khoảng cách hoặc tỷ lệ ệ u l i – Tính toán chênh lệch trên từng cặp quan sát d ữ – Kiểm định giả thuyết H0 “chênh lệch trung bình của tổng t í c h thể bằng 0” â n P h • Ví dụ n g : d ụ n g – Cảm nhận của khách hàng trước và sau khi Ngân hàng c ứ triển khai Cam kết chất lượng dịch vụ (SLAs) h ọ T i n
  35. KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ - TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶP u c ứ • Quy trình thực hiện i ê n n g h – Gọi chức năng Analye > Compare Means > Paired- ệ u Samples T Test l i d ữ – Cung cấp cặp biến phối hợp t í c h – Điều chỉnh độ tin cậy (nếu cần) â n P h n g : d ụ n g c ứ h ọ T i n
  36. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ TỔNG BÌNH CỦAHAITRUNGĐỊNH TRỊ KIỂM TRƯỜNG HỢP MẪUHỢP TRƯỜNG PHỐI HỢP TỪNG CẶPHỢP TỪNG PHỐI -
  37. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ TỔNG BÌNH CỦAHAITRUNGĐỊNH TRỊ KIỂM TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶPHỢP TỪNG PHỐI MẪUHỢP TRƯỜNG GIẢTHUYẾT H KẾT LUẬN: Cảm nhận của khách Cảm nhận củakhách KẾT LUẬN:hàng có thayđổi 0 : Cảm nhận của khách Cảm nhậncủakhách :đổi không hàng là Sig Sig => Bác < 5% H thuyết bỏ giả 0 -
  38. PHÂN TÍCH PHƯƠNG SAI u c ứ • Nguyên lý i ê n – Mở rộng kiểm định t – kiểm định nhiều nhóm mẫu cùng một lúc n g h – Các nhóm mẫu phải có cùng phương sai ệ u l i • Phân loại d ữ t í c h – ANOVA một yếu tố (một biến phân loại) â n – ANOVA nhiều yếu tố (nhiều biến phân loại) P h • Ví dụ n g : d ụ – Giả thuyết H0: Không có sự khác biệt về mức độ thanh toán bằng n g thẻ giữa các nhóm tuổi khác nhau c ứ – Giả thuyết H : Không có ảnh hưởng của nhóm tuổi và trình độ học h ọ 0 vấn đối với mức độ thanh toán bằng thẻ T i n
  39. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ u c ứ • Quy trình thực hiện i ê n n g h – Gọi thực hiện Analyze > Compare Means > One-Way ệ u ANOVA l i d ữ – Cung cấp biến phụ thuộc, biến phân loại t í c h – Thiết lập các tính toán thống kê mô tả, kiểm định sự â n P h bằng nhau của các nhóm n g : d ụ n g c ứ h ọ T i n
  40. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHÂN TÍCHPHƯƠNG SAIMỘT YẾU TỐ
  41. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ u c ứ GIẢ THUYẾT H0: Không có sự khác nhau về thanh toán bằng thẻ i ê n n g h Kiểm tra điều kiện áp dụng ệ u ANOVA: phương sai bằng nhau l i giữa các nhóm mẫu Sig > 0.05 => phủ định H0 => d ữ phương sai bằng nhau t í c h â n P h n g : Sig > 5% => Chấp nhận giả thuyết H d ụ 0 n g c ứ h ọ T i n KẾT LUẬN: Không có sự khác nhau về thanh toán bằng thẻ
  42. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ u c ứ • Phân tích sâu ANOVA i ê n n g h – Kiểm định trước (Contrasts) ệ u l i • Kiểm định các giả định về trung bình nhóm trước khi phân tích ANOVA d ữ t í c h – Kiểm định sau (Post Hoc) â n • Kiểm định các giả định về trung bình nhóm sau khi phân tích P h ANOVA n g : d ụ n g c ứ h ọ T i n
  43. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ u Thực hiện kiểm định t cho từng Giống LSD, tiến hành so sánh bội c ứ cặp trung bình nhóm trên số lần tiến hành so sánh i ê n Sử dụng bảng phân phối n g h Studentizze range distribution ệ u l i d ữ t í c h â n P h n g : Kiểm định lại toàn bộ các trị trung bình nhóm. Nếu không bằng nhau thì kiểm d ụ n g tra các nhóm nào có sự khác biệt So sánh trị trung bình của các nhóm c ứ với trị trung bình của một nhóm cụ thể được chọn h ọ T i n
  44. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHÂN TÍCHPHƯƠNG SAI Trị trung 4 của bình nhóm đầu bằng vớibằng cuối nhóm cùng MỘT MỘT YẾU TỐ
  45. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHÂN TÍCHPHƯƠNG SAI HAIYẾU TỐ
  46. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u GIẢTHUYẾT H PHÂN TÍCHPHƯƠNG SAIHAIYẾU TỐ KẾT LUẬN: Không sự Không KẾT LUẬN: có nhau vềkhác toán bằng thẻ thanh 0 : Không Không :có sựkhác nhau vềtoán bằng thẻ thanh bằng nhau nhau bằng => không bị viphạm Giả định Giả định phương nhóm các sai kiểm kiểm định ANOVA ý có nghĩa Chấp nhận giả Chấp nhận thuyết H 0
  47. TƯƠNG QUAN TUYẾN TÍNH u c ứ • Nguyên lý i ê n n g h – Kiểm định mối liên hệ giữa nhiều biến định lượng ệ u l i • Phân loại d ữ t í c h – Hệ số tương quan đơn â n – Hệ số tương quan hạng P h n g : d ụ n g c ứ h ọ T i n
  48. TƯƠNG QUAN TUYẾN TÍNH u c ứ • Hệ số tương quan đơn (r) i ê n – Tên đầy đủ Pearson Correlation Coefficient n g h – Áp dụng trong trường hợp tổng thể có phân phối chuẩn ệ u l i – Lượng hóa mức độ chặt chẽ của mối liên hệ tuyến tính giữa d ữ hai biến định lượng t í c h – Mối liên hệ giữa hai biến có thể â n • Không có liên hệ (r = 0) P h n g : • Liên hệ tuyến tính thuận (r > 0) d ụ • Liên hệ tuyến tính nghịch (r < 0) n g • Liên hệ phi tuyến (r = 0) c ứ h ọ – Mối liên hệ này có tính chất đối xứng T i n
  49. TƯƠNG QUAN TUYẾN TÍNH u c ứ • Quy trình thực hiện i ê n n g h – Gọi chức năng Analyze > Correlate > Bivariate ệ u l i – Lựa chọn hai hay nhiều biến định lượng để phân tích d ữ – Lựa chọn một (số) hệ số tính toán t í c h â n – Lựa chọn loại kiểm định mức ý nghĩa P h n g : • Ví dụ d ụ n g – Đo lường mối liên hệ giữa kết quả tuyển sinh đầu vào c ứ và điểm trung bình học tập toàn khóa của sinh viên h ọ T i n
  50. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u TƯƠNG QUANTUYẾN TÍNH
  51. LƯU Ý u c ứ • Trong phần lựa chọn kiểm định mức ý nghĩa – Test i ê n of Significance gồm 2 loại: n g h ệ u – Two-tailed (kiểm định 2 phía) được sử dụng trong l i trường hợp chiều hướng của mối liên hệ tuyến tính d ữ không thể xác định trước. Ngược lại là loại One-tailed t í c h kiểm định 1 phía). â n P h n g : d ụ n g c ứ h ọ T i n
  52. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u TƯƠNG QUANTUYẾN TÍNH Hệ số tương quan tương quan Hệ số biến giữa hai là 0.67 ở mức ý nghĩa ở 0.67 nghĩa hơn 1% nhỏ mức ý
  53. TƯƠNG QUAN TUYẾN TÍNH u c ứ • Hệ số tương quan hạng Spearman i ê n n g h – Tên đầy đủ Rank Correlation Coefficient ệ u l i – Áp dụng trong trường hợp tổng thể không có phân phối d ữ chuẩn t í c h â n P h n g : d ụ n g c ứ h ọ T i n
  54. HỒI QUY TUYẾN TÍNH u c ứ • Khái niệm và ý nghĩa của Hồi qui i ê n n g h • Xây dựng mô hình hồi qui ệ u l i • Kiểm định mô hình (giả thiết về sự phụ thuộc) d ữ t í c h â n P h n g : d ụ n g c ứ h ọ T i n
  55. KHÁI QUÁT u c ứ • Các hiện tượng kinh tế - xã hội có mối quan hệ phụ i ê n thuộc lẫn nhau ? n g h ệ u l i • Ý nghĩa: Phân tích hồi qui và tương quan là một d ữ phương pháp trong thống kê để nghiên cứu mối t í c h liên hệ giữa các hiện tượng â n P h – Thu nhập và tiêu dùng n g : – Các yếu tố đầu vào và kết quả của quá trình sản xuất d ụ n g c ứ – Độ tuổi và thói quen sử dụng thẻ h ọ T i n
  56. HỒI QUY TUYẾN TÍNH u c ứ • Nguyên lý i ê n – Mô hình hóa mối quan hệ tuyến tính (bậc nhất) giữa một biến n g h phụ thuộc với một hay nhiều biến độc lập (biến giải thích) ệ u l i – Không có tính chất đối xứng như tương quan tuyến tính d ữ • Phân loại t í c h â n – Hồi quy tuyến tính đơn P h n g : – Hồi quy tuyến tính bội d ụ n g • Ví dụ c ứ – Tác động của kết quả tuyển sinh đầu vào đối với điểm trung h ọ bình học tập toàn khóa của sinh viên T i n
  57. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u BIỀU ĐỒ PHÂN TÁN
  58. HỒI QUY TUYẾN TÍNH ĐƠN u c ứ • Mô hình tổng quát i ê n n g h = + ∗ ệ u l i Trong đó d ữ t í c h – Xilà giá trị quan sát thứ i của biến độc lập â n – là giá trị dự đoán thứ icủa biến phụ thuộc P h n g : – Bo và B1 là hệ số hồi quy; phương pháp bình phương d ụ n g nhỏ nhất (OLS) xác định hai hệ số này c ứ h ọ T i n
  59. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u Y = f(x)+ax e=+ b e e là HỒI QUY TUYẾN TÍNH ĐƠN sai lầm ngẫu nhiên
  60. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHƯƠNG PHÁP OLS
  61. PHƯƠNG PHÁP OLS u c ứ • Phương pháp bình phương nhỏ nhất (OLS - i ê n Ordinary Least Square) n g h ệ u l i • Để tìm hàm Yi^ = B0 + B1 X ta dùng phương d ữ pháp OLS do nhà toán học Đức là Carl Friedrich t í c h Gauss đưa ra, như sau: â n P h – Giả sử chúng ta có một mẫu gồm n cặp quan sát n g : (Yi,Xi), i = 1÷ n. Theo phương pháp bình phương nhỏ d ụ nhất, ta phải tìm Y^ sao cho nó càng gần với giá trị n g thực (Yi) càng tốt c ứ h ọ T i n
  62. PHƯƠNG PHÁP OLS u c ứ – Giả sử chúng ta có một mẫu gồm n cặp quan sát (Yi,Xi), i ê n i = 1÷ n. Theo phương pháp bình phương nhỏ nhất, ta n g h phải tìm Y^ sao cho nó càng gần với giá trị thực (Yi) ệ u càng tốt, tức phần dư: l i d ữ – ei = Yi – Yi^ = Yi – B0 - B1 *Xi càng nhỏ càng tốt. t í c h â n – Do ei ( i=1,n ) có thể dương, có thể âm, nên ta cần P h tìm SRF sao cho tổng bình phương của các phần dư n g : đạt cực tiểu d ụ n g c ứ h ọ T i n
  63. HỒI QUY TUYẾN TÍNH ĐƠN u c ứ • Một số giả định i ê n – Phân phối chuẩn của biến phụ thuộc Y với phương sai không n g h đổi ệ u l i – Các giá trị của Y độc lập với nhau d ữ – Các giá trị trung bình nằm trên một đường thẳng t í c h â n – Phần dư = − = − ( + ∗ ) P h n g : • Quy trình thực hiện d ụ – Gọi thực hiện Analyze > Regression > Linear n g c ứ – Cung cấp biến phụ thuộc, biến độc lập h ọ – Kiểm định các giả định của mô hình T i n
  64. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u HỒI QUY TUYẾN TÍNH ĐƠN
  65. HỒI QUY TUYẾN TÍNH ĐƠN u c ứ Đo lường mức độ phù hợp của mô i ê n hình đối với mẫu n g h ệ u Kiểm định mức độ phù hợp của l i mô hình đối với tổng thể (F lớn, d ữ Sig < 0.05) t í c h â n P h Hệ số hồi quy n g : Kiểm định ý nghĩa của các hệ số d ụ hồi quy (Sig < 0.05) n g c ứ h ọ T i n KẾT LUẬN: = . + . ∗
  66. LƯU Ý u c ứ • Tham số R bình phương hiệu chỉnh (Adjusted R i ê n Square) n g h ệ u – Cho biết mức độ (%) sự biến thiên của biến phụ thuộc l i được giải thích bởi biến độc lập d ữ t í c h • Bảng ANOVA â n P h – Giá trị của Sig( P-value) của bảng ANOVA dùng để n g : đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị Sig d ụ nhỏ (thường <5%) thì mô hình tồn tại. n g c ứ h ọ T i n
  67. ĐO LƯỜNG MỨC ĐỘ PHÙ HỢP CỦA MÔ HÌNH u c ứ • Để có thể biết mô hình giải thích được như thế nào i ê n hay % biến động của biến phụ thuộc, người ta sử n g h dụng R2 (0 ≤ R2 ≤ 1) ệ u l i d ữ • Trong đó t í c h – R2 cao nghĩa là mô hình ước lượng được giải thích â n P h được một mức độ cao biến động của biến phụ thuộc n g : – Nếu R2 bằng 0. Nghĩa là mô hình không đưa ra thông d ụ n g tin nào về biến phụ thuộc và dự đoán tốt nhất về giá trị c ứ của biến phụ thuộc là giá trị trung bình của nó h ọ T i n
  68. HỒI QUY TUYẾN TÍNH ĐƠN u c ứ • Kiểm tra các giả định i ê n n g h – Giả định liên hệ tuyến tính ệ u l i – Giả định Các sai số ngẫu nhiên trong hàm hồi qui tổng d ữ thể có phương sai của sai số không đổi t í c h – Giả định về phân phối chuẩn của phần dư â n P h – Giả định về tính độc lập của sai số n g : d ụ n g c ứ h ọ T i n
  69. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u GIẢĐỊNH LIÊN HỆ TUYẾN TÍNH Các điểm ảnh Các nhiên bố điểm => giảđịnh ngẫu phân liên hệ tuyến tính không hệ tuyến liên không tính bị vi phạm
  70. PHƯƠNG SAI CỦA SAI SỐ KHÔNG ĐỔI u c ứ GIẢ THUYẾT H0: Phương sai của sai số không đổi i ê n n g h ệ u Sig Bác bỏ giả thuyết H l i GIẢ THUYẾT H0: Hệ số tương quan hạng Spearman cho hai biến 0 => Phương sai của sai số thay đổi d ữ Input_Score và ABSres bằng 0 t í c h â n P h n g : d ụ n g c ứ h ọ T i n KẾT LUẬN: Mô hình hồi quy tuyến tính không có giá trị
  71. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHÂN PHỐI CHUẨN CỦA PHẦN DƯ (HISTOGRAM)PHẦNCHUẨNDƯ PHÂNCỦA PHỐI
  72. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u Dò tìm những Dò tìm dư phần bất thường Giả thuyết: Hệ tương Giả thuyết: thể số của sai số bằng0 quan tổng (quá nhỏ hoặc hoặc nhỏ (quá lớn) quá TÍNH ĐỘC LẬPCỦASAISỐ
  73. TÍNH ĐỘC LẬP CỦA SAI SỐ u c ứ • Quy tắc Durbin-Watson i ê n Có tự n g h tương Chấp nhận giả thuyết Có tự tương ệ u Không có Không có l i quan không có tự tương quan nghịch kết luận kết luận d ữ thuận quan chuỗi bậc nhất (âm) (dương) t í c h 0 d d 2 4-d 4-d 4 â n L U U L P h n g : • Tra bảng Durbin-Watson với 01 biến và 300 quan sát d ụ (dL=1.75; dU=1.779) n g c ứ • Đại lượng thống kê d=2.31 (dU,4-dU) => chấp nhận giả h ọ thuyết không có tự tương quan chuỗi bậc nhất T i n
  74. HỒI QUY TUYẾN TÍNH BỘI u c ứ • Mô hình tổng quát i ê n n g h = + ∗ + ∗ + ⋯ + ∗ + ệ u l i Trong đó d ữ t í c h – Xkilà giá trị quan sát thứ i của biến độc lập thứ k â n – là giá trị dự đoán thứ i của biến phụ thuộc P h n g : – i là các hệ số hồi quy riêng phần d ụ n g 2 – Phần dư ei là biến độc lập ngẫu nhiên N(0, ) c ứ h ọ T i n
  75. HỒI QUY TUYẾN TÍNH BỘI u c ứ • Một số giả định i ê n n g h – Biến phụ thuộc có phân phối chuẩn đối với các biến độc ệ u lập (biến giải thích) l i d ữ – Không có biến giải thích nào là tổ hợp tuyến tính của t í c h các biến giải thích còn lại â n P h • Ví dụ n g : d ụ – Sự tác động của độ tuổi, trình độ học vấn, số thẻ ngân n g hàng đối với mức độ thanh toán bằng thẻ c ứ h ọ T i n
  76. HỒI QUY TUYẾN TÍNH BỘI u c ứ • Quy trình thực hiện i ê n – Xem xét ma trận hệ số tương quan n g h ệ u – Xây dựng mô hình l i d ữ – Đánh giá độ phù hợp của mô hình t í c h â n – Kiểm định độ phù hợp của mô hình P h – Giải thích các hệ số hồi quy riêng trong mô hình n g : d ụ – Xác định tầm quan trọng của các biến trong mô hình n g c ứ – Lựa chọn biến cho mô hình h ọ – Dò tìm các vi phạm giả định cần thiết T i n
  77. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u biến độc biến tương đốicao lập Hệ số tương quan tương quan Hệ số giữa biến phụ vớibiến thuộc các XEM XEM XÉT MATRẬNHỆ SỐ TƯƠNG QUAN KẾT LUẬN: Có thể Có thể KẾT LUẬN:mô biến sử dụng các độc lập hình trong Hệ số tương quan tương quan Hệ số giữa hai biến biến hai thấp lập độc
  78. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u XÂY DỰNG MÔ HÌNH HỒI QUY Giúp xác định định trọng Giúp xácquan tầm của mỗi mỗi mô hình của trong biến
  79. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KIỂM KIỂM ĐỊNH CÁC GIẢTHUYẾT có có thể sử được dụng không đồng 0, quy nhất mô hình Sig được giải Môhình thích các 71% ý nghĩa trong trong ý nghĩa mô hình độc Các biến có đều lập
  80. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u TẦMQUANTRỌNG CÁC CỦA BIẾN đối với mô hình với đối hình hơn các mô lớn Hai biến này có ảnh ảnh có này Hai biến hưởng biến còn còn biến lại
  81. LỰA CHỌN CÁC BIẾN ĐỘC LẬP u c ứ • Mục đích i ê n n g h – Lựa chọn hiệu quả các biến đưa vào mô hình ệ u l i • Thực hiện d ữ t í c h – Tăng dần số lượng các biến và kiểm giá mức độ phù â n hợp của mô hình P h n g : d ụ n g c ứ h ọ T i n
  82. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u LỰACHỌN CÁC BIẾN ĐỘC LẬP
  83. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KẾT LUẬN: Mô hình hai biến tốt biến Mô KẾT LUẬN:hình hơn hẳn so vớihai mô biến hình một LỰACHỌN CÁC BIẾN ĐỘC LẬP
  84. DÒ TÌM CÁC VI PHẠM GIẢ ĐỊNH u c ứ • Mục đích i ê n n g h – Kiểm tra tính hợp lệ của mô hình ệ u l i • Nội dung d ữ t í c h – Giả định liên hệ tuyến tính â n – Giả định phương sai của sai số không đổi P h n g : – Giả định về phân phối chuẩn của phần dư d ụ n g – Giả định về tính độc lập của sai số c ứ h ọ – Giả định về hiện tượng đa cộng tuyến T i n
  85. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u GIẢĐỊNH LIÊN HỆ TUYẾN TÍNH Các điểm ảnh Các nhiên bố điểm => giảđịnh ngẫu phân liên hệ tuyến tính không hệ tuyến liên không tính bị vi phạm
  86. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHƯƠNG SAISAICỦASỐ KHÔNG ĐỔI GIẢTHUYẾT H KẾT LUẬN: Phương sai của Phương sai KẾT LUẬN:của sai số không đổi 0 : Phương sai của sai số không Phương : không sai của sai số đổi Chấp nhận giả Chấp nhận H thuyết 0
  87. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u PHÂN PHỐI CHUẨN CỦA PHẦN DƯ (HISTOGRAM)PHẦNCHUẨNDƯ PHÂNCỦA PHỐI
  88. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u TÍNH ĐỘC LẬPCỦASAISỐ
  89. TÍNH ĐỘC LẬP CỦA SAI SỐ u c ứ • Quy tắc Durbin-Watson i ê n Có tự n g h tương Chấp nhận giả thuyết Có tự tương ệ u Không có Không có l i quan không có tự tương quan nghịch kết luận kết luận d ữ thuận quan chuỗi bậc nhất (âm) (dương) t í c h 0 d d 2 4-d 4-d 4 â n L U U L P h n g : • Tra bảng Durbin-Watson với 01 biến và 300 quan sát d ụ (dL=1.75; dU=1.779) n g c ứ • Đại lượng thống kê d=2.21 (dU,4-dU) => chấp nhận giả h ọ thuyết không có tự tương quan chuỗi bậc nhất T i n
  90. T i n h ọ c ứ n g d ụ n g : P h â n t í c h d ữ l i ệ u n g h i ê n c ứ u KẾT LUẬN: Không tượng Không KẾT LUẬN:ra hiện xảy đa cộng tuyến HIỆN TƯỢNG ĐACỘNG TUYẾN
  91. ÔN TẬP u c ứ • Kiểm định mối liên hệ giữa hai biến định tính i ê n n g h • Kiểm định trung bình tổng thể ệ u l i • Phân tích phương sai d ữ t í c h • Tương quan tuyến tính â n P h • Hồi quy tuyến tính n g : d ụ n g c ứ h ọ T i n