Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 3: Khám phá mối quan hệ giữa các biến - Nguyễn Duy Long

pdf 30 trang ngocly 4700
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 3: Khám phá mối quan hệ giữa các biến - Nguyễn Duy Long", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_chuon.pdf

Nội dung text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 3: Khám phá mối quan hệ giữa các biến - Nguyễn Duy Long

  1. 9/7/2010 Phần03 Nguyễn Duy Long, TiếnSỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Biểu đồ phân tán, sự liên hợpvàsự tương quan  Phân tích hồiqui tuyếntính ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
  2. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Đồ thị phân tán (scatter-plots) là biểuthị phổ biến và hiểuquả cho dữ liệu.  Đồ thị phân tán là cách tốtnhất để bắt đầuquan sát mối liên hệ và cách lý tưởng để xem sự liên hợp củahaibiến định lượng. ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
  3. 9/7/2010  Với đồ thị phân tán, xem hướng (direction), dạng (form), độ chặt(strength), và các đặc điểmbất thường (unusual features).  (1) Hướng: ◦ Hướng âm: giá trị dữ liệu đi theo chiềutừ trái qua phảivà từ trên xuống dưới. ◦ Hướng dương: theo chiềungượclại. ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Mốiliệnhợpdương (posiiitive assoc iat ion) giữanăm(từ 1900) và % số ngườisẵnsàng i“Có” ờ l bầuphụ nữ làm tổng ả thổng ở Mỹ. % tr  Nhậnxét Năm(từ 1900) ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
  4. 9/7/2010  Mốiliệnhợpâm (negative association ) i ờ ữ ố ộ ư gi at c đ lúc cao m) điểm ở xa lộ và chi phí ă ung ầ đ ầ ờ i/n trên đ ungư ido ờ ư chậmtrễ giao thông. ($/ng i phí trên h  ậ C Nh n xét Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 7  (2) Dạng: ◦ Nếu liên hệ đường thẳng (tuyến tính): i ờ nhưđám mây hay ư m) ă ộ ấ ung m t đám ch mphân ầ đ i/n tán có dạng thẳng. ờ ư ($/ng i phí trên h C Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
  5. 9/7/2010  Dạng: ◦ Nếumối liên hệ không thẳng, nhưng cong cong, trong khi vẫntăng hay giảmdần chúng ta có cách để làm nó thẳng hơn. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Dạng: ◦ Nếu mối liên hệ là rất cong, chúng ta nói nó là liên hợp không tuyếntính ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
  6. 9/7/2010  (3) Độ chặt: ◦ Các điểmcóvẻ như theo mộtdòng thẳng (dù thẳng, cong, hay uốn). ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Độ chặt: ◦ Các điểmtrông như một đám mây mờ mà không có mộthướng xác định nào: ◦ Ghi chú: chúng ta sẽ định lượng sự phân tán “scatter” sau. ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
  7. 9/7/2010  (4) Các đặc điểmbấtthường: ◦ Tìm các điều không kỳ vọng. ◦ Điềuthúvị nhấtlàkhiquansátđồ thị phân tán là thấynhững điều không mong đợisẽ tìm thấy. ◦ Ví dụ: các giá trị ngoạilệ đứng tách ra. ◦ Nên nghi vấnvới các cụm(clusters) hay các nhóm phụ (subgroups). ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Xác định biếnnàolàtrụcx, biếnnàotrụcy.  Việcxácđịnh dựa trên các vai trò củacác biến.  Khivaitròlàrõràng ◦ Biến khám phá hay dự đoán (explanatory hay predictor variable) là trụcx, ◦ Biếnhưởng ứng (response variable) là trụcy. ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
  8. 9/7/2010  Chọnvaitròchocácbiếnphần nhiềuvề việc chúng ta suy nghĩ như thế nào về các biếnhơnlàvề chính các biến đó.  Chỉ đặtmộtbiến ở trục hoành không nhất thiếtcónghĩalànógiả thích hay dự báo cái gì đó .  Biến ở trục tung có thể không hưởng ứng nó trong bất cứ cách nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Dữ liệuthuthậptừ sinh viên các lớpthống kê học gồmchiều cao ()(in.) và cân nặng ()(lb):  Mối liên hợpdương (positive association) và khá thẳng, mặcdù ộ ị ạ ệ ng (lb) có m ttr ngo il . ặ Cân n Chiềucao(in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
  9. 9/7/2010  Sự liên hợpgiữachiều cao và cân nặng củasinh viên các lớpthống kê họcchặt(strong) ra sao?  Nếu đinh lượng độ chặt, chúng ta muốn nó không phụ thuộcvàoloại đơnvị.  Biểu đồ phân tán giữa chiều cao (cm) và cân nặng (kg) không thay đổidạng phân tán. ng (kg) ặ ặ Cân n Chiềucao(in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 17  Vì đơnvị không quan trọng, tạisaokhông bỏ nó?  Có thể chuẩnhóa các biếnvàviếttọa độ củamột điểmlà (zx, zy).  Biểu đồ phân tán của chiều cao và cân Zchiềucao nặng đượcchuẩn hóa. Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
  10. 9/7/2010  Dạng tuyếntínhcủabiều đồ chuẩnhóacóvẻ dốc hơnbiểu đồ phân tán ban đầu.  Vì cả hai trụccótỷ lệ giống nhau.  Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân tán và độ chặtcủasự liệnhợp.  Giá trị chuẩnhóađượcxácđịnh như sau: (z , z ) ( x x , y y ) x y sx s y ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Các điểmmàuxanh lá cây làm mạnh sự liên hợp dương giữachiều cao và cân nặng.  Các điểmmàunâu có khuynh hướng làm yếusự liên hợpdương.  Các điểm màu xanh dương có điểmz bằng Zchiềucao không không theo cách liên hợpnào. Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
  11. 9/7/2010  Hệ số tương quan (r, correlation coefficient) đo lường độ chặtgiữabiến khám phá và biếnhưởng ứng. zz r  x y n 1 ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Sự tương quan đo độ chặtcủasự liên hợptuyến tính giữa các biến định lượng.  Kiểm tra các điềukiệnsautrước khi dùng sự tương quan: 1. Điềukiệncácbiến định lượng 2. Điềukiệnkháthẳng (“Straight Enough”) 3. Điềukiệntrị ngoạilệ ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
  12. 9/7/2010 1. Điềukiệnbiến định lượng: ◦ Sự tương quan chỉ áp dụng cho các biến định lượng. ◦ Không dùng sự tương quan cho biến định tính. ◦ Kiểmtrađơnvị của các biến và chúng đolường cái gì. ©2010, Nguyễn Duy Long, Tiến Sỹ 23 2. Điềukiệnkháthẳng: ◦ Có thể tính (calculate) hệ số tương quan cho bấtcứ cặpbiếnnào. ◦ Nhưng sự tương quan chỉ đolường độ chặtcủa sự liên hợptuyếntínhvàsẽ gây sai lệch (misleading) nếumốiquanhệ không tuyến tính. ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
  13. 9/7/2010 3. Điềukiệntrị ngoạilệ: ◦ Các trị ngoạilệ có thể ggyây lệch (distort) sự tương quan rấtlớn. ◦ Mộttrị ngoạilệ có thể gây sự tương quan nhỏ thành lớnhay dấusự tương quan lớn. ◦ Khi gặptrị ngoạilệ, nên trình bày sự tương quan khi có và không có trị ngoạilệ đó. ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Dấucủahệ số tương quan chỉ hướng củasự liên hợp.  Hệ số tương quan luôn trong khoảng [-1, +1].  Sự tương quan đốixử x và y giống nhau  Không có đơnvị. ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
  14. 9/7/2010  Sự tương quan không bịảnh hưởng bởi các thay đổi trung tâm hay tỷ lệ củabiến.  Sự tương quan đo độ chặtcủasự liên hợp tuyến tính giữahaibiến. ◦ Các biếncóthể có sự liên hợpmạnh nhưng vẫncósự tương quan nhỏ nếusự liên hợplàkhôngtuyếntính.  Sự tương quan là rấtnhạyvớitrị ngoạilệ. ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Không đotương quan các biến định tính.  Không nói sự tương quan khi có ý là sự liên hợp m ể i Đ Nhiệt độ nướng (oF) ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
  15. 9/7/2010  Chú ý các trị ngoạilệ. IQ ố s ệ H Cở giày ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Đừng nhầmsự tương quan (correlation) với quan hệ nhân quả (causation). ◦ Không phảimọisự lêliên hệ là quan hệ nhânquả. Chứng minh: Cò alàng mang trẻ thơđến ủ c ố cho làng s Dân Số cò ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
  16. 9/7/2010  Chú ý các biến ẩn(lurking variables). ◦ Biến ẩncóthể đứng sau sự liên hệ và xác định nó bằng cách tác động đồng thời hai biến.  Ví dụ-Bàitập 26 (tr.163): Điềutranăm 2004 về các quốc gia trên thế giớithấyrằng có độ tương quan dương giữaphầntrămdânsố dùng điện thoạidiđộng và tuổithọ trung bình củaquốcgia. ◦ Điềunàycónghĩa là dùng điệnthoạidiđộng tốtchosức khỏe? ◦ Hay ngượclại, bạncàngsống lâu thì khả năng gọidiđộng nhiềuhơn? ◦ Cái gì có thể giảithíchđộ tương quan dương này? ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Linear Regression ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
  17. 9/7/2010  Từ biểu đồ phân tán bên dưới: ◦ Có sự liên hợpchặt(mạnh)? ◦ Sự liên hợp có vẽ tuyến tính? Lượng chấtbéovàđạmchothức ăncủa Burger King Dữ liệutừ 30 món trên menu của Burger King éo (g) b b t ấ Ch Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Sự tương quan lớn(âmhay dương) cho biết“cóvẻ có sự liên hợptuyếntínhgiữahaibiến,” nhưng không cho biết chính xác sự liên hợp đó là gì.  Chúng ta có thể biết nhiềuhơnvề sự liên hợptuyến tính giữahaibiến định lượng vớimột mô hình.  Mô hình tuyếntính(linear model) chỉ là mộtphương trình đường thẳng qua dữ liệu. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
  18. 9/7/2010 •Bằng mắtthường, có thể vẽ đường thẳng qua dữ liệu? •Phương pháp để xác định mô hình phù hợpnhất (“best fit”) tbéo(g) ấ h C C Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 35  Mô hình sẽ không bao giờ hoàn hảobấtkể vẽ đường nào.  ộ ố ể ằ M ts đi mn mtrên (số dư) ộ ố ằ ớ tbéo(g) và m ts n mdư i ấ đường thẳng. Ch  Sự ướclượng từ mô hình gọi là giá trị dự báo (predicted value) Đạm(g) (ký hiệulàŷ) ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
  19. 9/7/2010  Sự khác nhau giữagiátrị quan sát (observed value) và giá trị dự báo tương ứng (predicted value) gọilà số (phần) dư (residual).  Tìm số dư: Số dư = quan sát – dự báo = y – ŷ ©2010, Nguyễn Duy Long, Tiến Sỹ 37  Mộtsố số dư dương, mộtsố âm nên chung qui thì có thể triệttiêulẫn nhau.  Vì thế không thể đáhánh giá đường thẳng vừa hợp thế nào bằng cách cộng các số dư lại.  Tương tự nhưđộ lệch chuẩn, chúng ta bình phương số dư rồicộng lại.  Tổng càng nhỏ thì các vừahợp.  Đường phù hợpnhấtlàđường có tổng các bình phương số dư nhỏ nhất. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
  20. 9/7/2010  Thông số thứ nhấtcủa mô hình, b1, là độ nghiêng (slope): s y br1 s x  Thông số thứ hai của mô hình, b0, là điểmchặn (intercept): bybx01  Với ví dụ về Burger King ở trên ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Đường hồiqui chodữ liệucủa Burger King: yˆ(chatbeo) 6.8 0.97x(dam) tbéo(g) ấ h C Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
  21. 9/7/2010  Dịch một độ lệch chuẩntừ trị trung bình củax sẽ dịch r lần độ lệch chuẩntừ trị trung bình của y. ◦ Biểu đồ phân tán theo điểm z cho chấtbéovàđạm: ©2010, Nguyễn Duy Long, Tiến Sỹ 41  r không thể lớnhơn1, vì thế mỗigiátrị dự báo y có khuynh hướng tiếngầntrị trung bình hơnlàgiátrị tương đốicủax.  Đặc điểmnàycủamôhìnhtuyếntínhgọilàhồiqui đếntrị trung bình (regression to the mean); đường thẳng gọilàđường hồiqui (regression line). ©2010, Nguyễn Duy Long, Tiến Sỹ 42 21
  22. 9/7/2010  Mô hình tuyếntínhgiả định sự liên hệ giữahaibiến là đường thẳng hoàn hảo. Các số dư là mộtphần củadữ liệu mà không được mô hình. Dữ liệu = Mô hình + Số dư hay Số dư = Dữ liệu – Mô hình hay eyy ˆ ©2010, Nguyễn Duy Long, Tiến Sỹ 43  Số dư giúp chúng ta xem mô hình có hợplý không.  Khi mô hình hồiqui hợplý, khôngcóđiềulýthú nào còn lại.  Sau khi có mô hình hồiqui, thường biểudiển các số dư vớihyvọng không tìm thấygì. ◦ Không có đường cong hay các đường thẳng ◦ Không có sự biếnthiêntăng hay giảm khi di chuyểndọc trụcx ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22
  23. 9/7/2010  Các số dư cho hồi qui menu của Burger King trong “chán”– không có dạng gì tbéo) ấ (g ch ư d ố S Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 45  Sự biến đổicủa các số dư là chìa khóa để đánh giá mô hình phù hợprasao.  Trong menu của Burger King, chấtbéocóđộ lệch chuẩn là 16.4 gam. Độ lệch chuẩn của các số dư từ sự dự báo chấtbéocủamôhìnhlà 9.2 gam.  Cái nào chỉ biến đổi nhiềuhơn? Chấtbéo Số dư ©2010, Nguyễn Duy Long, Tiến Sỹ 46 23
  24. 9/7/2010  Nếu độ tương quan là1.0 và mô hình dự báo giá trị chấtbéohoànhảo, tấtcả các số dư sẽ băng không và không có sự biến đổi  Với menu của Burger King, độ tương quan là 0.83 – không hoàn hảo.  Tuy nhiên, chúng ta đãthấy các số dư củamôhình ít biến đổihơnso vớichấtbéo.  Chúng ta có thể xác định sự biến đổi bao nhiêu trong mô hình và bao nhiêu còn lại trong các số dư. ©2010, Nguyễn Duy Long, Tiến Sỹ 47  Bình phương độ tương quan, R2, (“R-squared”) cho biếtphầnbiến đổi được xét trong mô hình.  1– R2 là phần biến đổi còn lại trong các số dư.  Khi diễntả mô hình hồiqui, cầnchobiếtý nghĩa của R2. ◦ Vớimôhìnhvề Burger King, R2 = 0.832 = 0.69, ◦ 69% củasự biến đổicủachấtbéođượcxácđịnh trong mô hình. ◦ 31% (100% - 69%) sự biến đổicủachấtbéocònlạitrong các số dư. ©2010, Nguyễn Duy Long, Tiến Sỹ 48 24
  25. 9/7/2010  R2 luôn giữa 0% và 100%.  Giá trị R2 tốtphụ thuộcvàoloạidữ liệu đang phân tích và muốnlàmgì vớikếtquả. ©2010, Nguyễn Duy Long, Tiến Sỹ 49  Điềukiện các biến định lượng: ◦ Các thống kê học cao hơnsẽ cho ta biếtkếthợp các dữ liệu định tính.  Điềukiệnkháthẳng: ◦ Mô hình tuyếntínhgiả định sự liên hệ giữahai biếnlàtuyến tính. ◦ Biểu đồ phân tán sẽ giúp kiểmtragiả định này hợp lý không. ©2010, Nguyễn Duy Long, Tiến Sỹ 50 25
  26. 9/7/2010  Điềukiệngiátrị ngoạilệ: ◦ Để ý đến các giá trị ngoạilệ. ◦ Các điểmngoại lệ có thể thay đổi mô hình . ◦ Các trị ngoạilệ thậmchícóthể thay đổidấucủa góc nghiêng, làm sai lệch về sự liên hệ giữahai biến. ©2010, Nguyễn Duy Long, Tiến Sỹ 51  Không dùng đường thẳng cho liên hệ không tuyến tính.  Chú ý các điểmngoại lệ.  Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyến có thể không còn giá trị ngoài khoảng giá trị có trong dữ liệu.  Đừngsuyx gâyray mặcdùcómôhìnhtuyếntính tốtchomốiquanhệ của chúng – sư liên hợp không phảilàquan hệ nhân quả.  Đừng chọnmôhìnhchỉ dựatrênR2. ©2010, Nguyễn Duy Long, Tiến Sỹ 52 26
  27. 9/7/2010  Hồiqui về tuổi trung bình kếthônđầutiêncủa đàn ông và nămphùhợp cho các thậpniênđầucủathế kỷ 20 nhưng không đúng cho giai đoạnsau: u ầ đ n ầ thônl ế k àn ông lúc đ i ổ Tu Năm ©2010, Nguyễn Duy Long, Tiến Sỹ 53  Mô hình tuyếntínhkhônglàmtốtvới các điểmvới số dư lớn.  Bởivìcóvẻ chúng khác vớitrường hợp khác, đặc biệt chú ý đến các điểm có số dư lớn.  Một điểmdữ liệucóthể bấtthường nếugiátrị x củanóxaso vớitrị trung bình. Các điểm đólàcó đòn bẩylớn(high leverage). ©2010, Nguyễn Duy Long, Tiến Sỹ 54 27
  28. 9/7/2010 ‣ Mộ điểmcóđòn bẩylớncókhả năng thay đổi đường hồiqui. ‣ Điểm đógọilàảnh hưởng nếuloạibỏ nó khỏidữ liệu sẽ cho mô hình hồiqui kháchẳn. ‣ Ảnh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ và cỡ giày” IQ IQ ố s ố ỉ ỉ s s ỉ Ch Ch Cở giày Cở giày ©2010, Nguyễn Duy Long, Tiến Sỹ 55  Sự liên hợpchặt đến đâu, R2 lớn đến đâu, quan hệ thẳng đến đâu đinữa, không thể kếtluậnchỉ từ phân tích hồiqui làbiếnnàygâyrabiếnkia.  Vớidữ liệuquansát(observational), khác vớidữ liệu từ thí nghiệm đượcthiếtkế (designed experiment), không có cách gì để chắcchắnrằng biến ẩn(lurking variable) không phải là nguyên nhân củamộtsự liên hợp. ©2010, Nguyễn Duy Long, Tiến Sỹ 56 28
  29. 9/7/2010  Biểu đồ phân tán chỉ tuổithọ trung bình củamột quốc gia có liên hệ vớisố bác sỹ trên đầungười ở quốcgia đó. m) ă ng bình (n u u tr ọ ith ổ Tu Bacsy / daunguoi ©2010, Nguyễn Duy Long, Tiến Sỹ 57  Biểu đồ phân tán mớicònchobiết liên hệ giữatuổi thọ và số ti vi trên đầungườicủaquốcgia. ◦ Sự liên hệ thậmchíchặthơn: R2 of 72% thay vì 62%  Vì ti vi rẻ hơnbácsỹ, tạisaokhônggởitivi tới các nướccótuổithọ thấp để có tuổithọ cao hơn? m) ă gbình(n n tru ọ ith ổ Tu Tivi / daunguoi ©2010, Nguyễn Duy Long, Tiến Sỹ 58 29
  30. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 59 30