Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 3: Khám phá mối quan hệ giữa các biến - Nguyễn Duy Long
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 3: Khám phá mối quan hệ giữa các biến - Nguyễn Duy Long", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_chuon.pdf
Nội dung text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 3: Khám phá mối quan hệ giữa các biến - Nguyễn Duy Long
- 9/7/2010 Phần03 Nguyễn Duy Long, TiếnSỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1 Biểu đồ phân tán, sự liên hợpvàsự tương quan Phân tích hồiqui tuyếntính ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
- 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 3 Đồ thị phân tán (scatter-plots) là biểuthị phổ biến và hiểuquả cho dữ liệu. Đồ thị phân tán là cách tốtnhất để bắt đầuquan sát mối liên hệ và cách lý tưởng để xem sự liên hợp củahaibiến định lượng. ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
- 9/7/2010 Với đồ thị phân tán, xem hướng (direction), dạng (form), độ chặt(strength), và các đặc điểmbất thường (unusual features). (1) Hướng: ◦ Hướng âm: giá trị dữ liệu đi theo chiềutừ trái qua phảivà từ trên xuống dưới. ◦ Hướng dương: theo chiềungượclại. ©2010, Nguyễn Duy Long, Tiến Sỹ 5 Mốiliệnhợpdương (posiiitive assoc iat ion) giữanăm(từ 1900) và % số ngườisẵnsàng i“Có” ờ l bầuphụ nữ làm tổng ả thổng ở Mỹ. % tr Nhậnxét Năm(từ 1900) ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
- 9/7/2010 Mốiliệnhợpâm (negative association ) i ờ ữ ố ộ ư gi at c đ lúc cao m) điểm ở xa lộ và chi phí ă ung ầ đ ầ ờ i/n trên đ ungư ido ờ ư chậmtrễ giao thông. ($/ng i phí trên h ậ C Nh n xét Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 7 (2) Dạng: ◦ Nếu liên hệ đường thẳng (tuyến tính): i ờ nhưđám mây hay ư m) ă ộ ấ ung m t đám ch mphân ầ đ i/n tán có dạng thẳng. ờ ư ($/ng i phí trên h C Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
- 9/7/2010 Dạng: ◦ Nếumối liên hệ không thẳng, nhưng cong cong, trong khi vẫntăng hay giảmdần chúng ta có cách để làm nó thẳng hơn. ©2010, Nguyễn Duy Long, Tiến Sỹ 9 Dạng: ◦ Nếu mối liên hệ là rất cong, chúng ta nói nó là liên hợp không tuyếntính ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
- 9/7/2010 (3) Độ chặt: ◦ Các điểmcóvẻ như theo mộtdòng thẳng (dù thẳng, cong, hay uốn). ©2010, Nguyễn Duy Long, Tiến Sỹ 11 Độ chặt: ◦ Các điểmtrông như một đám mây mờ mà không có mộthướng xác định nào: ◦ Ghi chú: chúng ta sẽ định lượng sự phân tán “scatter” sau. ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
- 9/7/2010 (4) Các đặc điểmbấtthường: ◦ Tìm các điều không kỳ vọng. ◦ Điềuthúvị nhấtlàkhiquansátđồ thị phân tán là thấynhững điều không mong đợisẽ tìm thấy. ◦ Ví dụ: các giá trị ngoạilệ đứng tách ra. ◦ Nên nghi vấnvới các cụm(clusters) hay các nhóm phụ (subgroups). ©2010, Nguyễn Duy Long, Tiến Sỹ 13 Xác định biếnnàolàtrụcx, biếnnàotrụcy. Việcxácđịnh dựa trên các vai trò củacác biến. Khivaitròlàrõràng ◦ Biến khám phá hay dự đoán (explanatory hay predictor variable) là trụcx, ◦ Biếnhưởng ứng (response variable) là trụcy. ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
- 9/7/2010 Chọnvaitròchocácbiếnphần nhiềuvề việc chúng ta suy nghĩ như thế nào về các biếnhơnlàvề chính các biến đó. Chỉ đặtmộtbiến ở trục hoành không nhất thiếtcónghĩalànógiả thích hay dự báo cái gì đó . Biến ở trục tung có thể không hưởng ứng nó trong bất cứ cách nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 15 Dữ liệuthuthậptừ sinh viên các lớpthống kê học gồmchiều cao ()(in.) và cân nặng ()(lb): Mối liên hợpdương (positive association) và khá thẳng, mặcdù ộ ị ạ ệ ng (lb) có m ttr ngo il . ặ Cân n Chiềucao(in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
- 9/7/2010 Sự liên hợpgiữachiều cao và cân nặng củasinh viên các lớpthống kê họcchặt(strong) ra sao? Nếu đinh lượng độ chặt, chúng ta muốn nó không phụ thuộcvàoloại đơnvị. Biểu đồ phân tán giữa chiều cao (cm) và cân nặng (kg) không thay đổidạng phân tán. ng (kg) ặ ặ Cân n Chiềucao(in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 17 Vì đơnvị không quan trọng, tạisaokhông bỏ nó? Có thể chuẩnhóa các biếnvàviếttọa độ củamột điểmlà (zx, zy). Biểu đồ phân tán của chiều cao và cân Zchiềucao nặng đượcchuẩn hóa. Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
- 9/7/2010 Dạng tuyếntínhcủabiều đồ chuẩnhóacóvẻ dốc hơnbiểu đồ phân tán ban đầu. Vì cả hai trụccótỷ lệ giống nhau. Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân tán và độ chặtcủasự liệnhợp. Giá trị chuẩnhóađượcxácđịnh như sau: (z , z ) ( x x , y y ) x y sx s y ©2010, Nguyễn Duy Long, Tiến Sỹ 19 Các điểmmàuxanh lá cây làm mạnh sự liên hợp dương giữachiều cao và cân nặng. Các điểmmàunâu có khuynh hướng làm yếusự liên hợpdương. Các điểm màu xanh dương có điểmz bằng Zchiềucao không không theo cách liên hợpnào. Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
- 9/7/2010 Hệ số tương quan (r, correlation coefficient) đo lường độ chặtgiữabiến khám phá và biếnhưởng ứng. zz r x y n 1 ©2010, Nguyễn Duy Long, Tiến Sỹ 21 Sự tương quan đo độ chặtcủasự liên hợptuyến tính giữa các biến định lượng. Kiểm tra các điềukiệnsautrước khi dùng sự tương quan: 1. Điềukiệncácbiến định lượng 2. Điềukiệnkháthẳng (“Straight Enough”) 3. Điềukiệntrị ngoạilệ ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
- 9/7/2010 1. Điềukiệnbiến định lượng: ◦ Sự tương quan chỉ áp dụng cho các biến định lượng. ◦ Không dùng sự tương quan cho biến định tính. ◦ Kiểmtrađơnvị của các biến và chúng đolường cái gì. ©2010, Nguyễn Duy Long, Tiến Sỹ 23 2. Điềukiệnkháthẳng: ◦ Có thể tính (calculate) hệ số tương quan cho bấtcứ cặpbiếnnào. ◦ Nhưng sự tương quan chỉ đolường độ chặtcủa sự liên hợptuyếntínhvàsẽ gây sai lệch (misleading) nếumốiquanhệ không tuyến tính. ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
- 9/7/2010 3. Điềukiệntrị ngoạilệ: ◦ Các trị ngoạilệ có thể ggyây lệch (distort) sự tương quan rấtlớn. ◦ Mộttrị ngoạilệ có thể gây sự tương quan nhỏ thành lớnhay dấusự tương quan lớn. ◦ Khi gặptrị ngoạilệ, nên trình bày sự tương quan khi có và không có trị ngoạilệ đó. ©2010, Nguyễn Duy Long, Tiến Sỹ 25 Dấucủahệ số tương quan chỉ hướng củasự liên hợp. Hệ số tương quan luôn trong khoảng [-1, +1]. Sự tương quan đốixử x và y giống nhau Không có đơnvị. ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
- 9/7/2010 Sự tương quan không bịảnh hưởng bởi các thay đổi trung tâm hay tỷ lệ củabiến. Sự tương quan đo độ chặtcủasự liên hợp tuyến tính giữahaibiến. ◦ Các biếncóthể có sự liên hợpmạnh nhưng vẫncósự tương quan nhỏ nếusự liên hợplàkhôngtuyếntính. Sự tương quan là rấtnhạyvớitrị ngoạilệ. ©2010, Nguyễn Duy Long, Tiến Sỹ 27 Không đotương quan các biến định tính. Không nói sự tương quan khi có ý là sự liên hợp m ể i Đ Nhiệt độ nướng (oF) ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
- 9/7/2010 Chú ý các trị ngoạilệ. IQ ố s ệ H Cở giày ©2010, Nguyễn Duy Long, Tiến Sỹ 29 Đừng nhầmsự tương quan (correlation) với quan hệ nhân quả (causation). ◦ Không phảimọisự lêliên hệ là quan hệ nhânquả. Chứng minh: Cò alàng mang trẻ thơđến ủ c ố cho làng s Dân Số cò ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
- 9/7/2010 Chú ý các biến ẩn(lurking variables). ◦ Biến ẩncóthể đứng sau sự liên hệ và xác định nó bằng cách tác động đồng thời hai biến. Ví dụ-Bàitập 26 (tr.163): Điềutranăm 2004 về các quốc gia trên thế giớithấyrằng có độ tương quan dương giữaphầntrămdânsố dùng điện thoạidiđộng và tuổithọ trung bình củaquốcgia. ◦ Điềunàycónghĩa là dùng điệnthoạidiđộng tốtchosức khỏe? ◦ Hay ngượclại, bạncàngsống lâu thì khả năng gọidiđộng nhiềuhơn? ◦ Cái gì có thể giảithíchđộ tương quan dương này? ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Linear Regression ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
- 9/7/2010 Từ biểu đồ phân tán bên dưới: ◦ Có sự liên hợpchặt(mạnh)? ◦ Sự liên hợp có vẽ tuyến tính? Lượng chấtbéovàđạmchothức ăncủa Burger King Dữ liệutừ 30 món trên menu của Burger King éo (g) b b t ấ Ch Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 33 Sự tương quan lớn(âmhay dương) cho biết“cóvẻ có sự liên hợptuyếntínhgiữahaibiến,” nhưng không cho biết chính xác sự liên hợp đó là gì. Chúng ta có thể biết nhiềuhơnvề sự liên hợptuyến tính giữahaibiến định lượng vớimột mô hình. Mô hình tuyếntính(linear model) chỉ là mộtphương trình đường thẳng qua dữ liệu. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
- 9/7/2010 •Bằng mắtthường, có thể vẽ đường thẳng qua dữ liệu? •Phương pháp để xác định mô hình phù hợpnhất (“best fit”) tbéo(g) ấ h C C Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 35 Mô hình sẽ không bao giờ hoàn hảobấtkể vẽ đường nào. ộ ố ể ằ M ts đi mn mtrên (số dư) ộ ố ằ ớ tbéo(g) và m ts n mdư i ấ đường thẳng. Ch Sự ướclượng từ mô hình gọi là giá trị dự báo (predicted value) Đạm(g) (ký hiệulàŷ) ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
- 9/7/2010 Sự khác nhau giữagiátrị quan sát (observed value) và giá trị dự báo tương ứng (predicted value) gọilà số (phần) dư (residual). Tìm số dư: Số dư = quan sát – dự báo = y – ŷ ©2010, Nguyễn Duy Long, Tiến Sỹ 37 Mộtsố số dư dương, mộtsố âm nên chung qui thì có thể triệttiêulẫn nhau. Vì thế không thể đáhánh giá đường thẳng vừa hợp thế nào bằng cách cộng các số dư lại. Tương tự nhưđộ lệch chuẩn, chúng ta bình phương số dư rồicộng lại. Tổng càng nhỏ thì các vừahợp. Đường phù hợpnhấtlàđường có tổng các bình phương số dư nhỏ nhất. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
- 9/7/2010 Thông số thứ nhấtcủa mô hình, b1, là độ nghiêng (slope): s y br1 s x Thông số thứ hai của mô hình, b0, là điểmchặn (intercept): bybx01 Với ví dụ về Burger King ở trên ©2010, Nguyễn Duy Long, Tiến Sỹ 39 Đường hồiqui chodữ liệucủa Burger King: yˆ(chatbeo) 6.8 0.97x(dam) tbéo(g) ấ h C Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
- 9/7/2010 Dịch một độ lệch chuẩntừ trị trung bình củax sẽ dịch r lần độ lệch chuẩntừ trị trung bình của y. ◦ Biểu đồ phân tán theo điểm z cho chấtbéovàđạm: ©2010, Nguyễn Duy Long, Tiến Sỹ 41 r không thể lớnhơn1, vì thế mỗigiátrị dự báo y có khuynh hướng tiếngầntrị trung bình hơnlàgiátrị tương đốicủax. Đặc điểmnàycủamôhìnhtuyếntínhgọilàhồiqui đếntrị trung bình (regression to the mean); đường thẳng gọilàđường hồiqui (regression line). ©2010, Nguyễn Duy Long, Tiến Sỹ 42 21
- 9/7/2010 Mô hình tuyếntínhgiả định sự liên hệ giữahaibiến là đường thẳng hoàn hảo. Các số dư là mộtphần củadữ liệu mà không được mô hình. Dữ liệu = Mô hình + Số dư hay Số dư = Dữ liệu – Mô hình hay eyy ˆ ©2010, Nguyễn Duy Long, Tiến Sỹ 43 Số dư giúp chúng ta xem mô hình có hợplý không. Khi mô hình hồiqui hợplý, khôngcóđiềulýthú nào còn lại. Sau khi có mô hình hồiqui, thường biểudiển các số dư vớihyvọng không tìm thấygì. ◦ Không có đường cong hay các đường thẳng ◦ Không có sự biếnthiêntăng hay giảm khi di chuyểndọc trụcx ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22
- 9/7/2010 Các số dư cho hồi qui menu của Burger King trong “chán”– không có dạng gì tbéo) ấ (g ch ư d ố S Đạm(g) ©2010, Nguyễn Duy Long, Tiến Sỹ 45 Sự biến đổicủa các số dư là chìa khóa để đánh giá mô hình phù hợprasao. Trong menu của Burger King, chấtbéocóđộ lệch chuẩn là 16.4 gam. Độ lệch chuẩn của các số dư từ sự dự báo chấtbéocủamôhìnhlà 9.2 gam. Cái nào chỉ biến đổi nhiềuhơn? Chấtbéo Số dư ©2010, Nguyễn Duy Long, Tiến Sỹ 46 23
- 9/7/2010 Nếu độ tương quan là1.0 và mô hình dự báo giá trị chấtbéohoànhảo, tấtcả các số dư sẽ băng không và không có sự biến đổi Với menu của Burger King, độ tương quan là 0.83 – không hoàn hảo. Tuy nhiên, chúng ta đãthấy các số dư củamôhình ít biến đổihơnso vớichấtbéo. Chúng ta có thể xác định sự biến đổi bao nhiêu trong mô hình và bao nhiêu còn lại trong các số dư. ©2010, Nguyễn Duy Long, Tiến Sỹ 47 Bình phương độ tương quan, R2, (“R-squared”) cho biếtphầnbiến đổi được xét trong mô hình. 1– R2 là phần biến đổi còn lại trong các số dư. Khi diễntả mô hình hồiqui, cầnchobiếtý nghĩa của R2. ◦ Vớimôhìnhvề Burger King, R2 = 0.832 = 0.69, ◦ 69% củasự biến đổicủachấtbéođượcxácđịnh trong mô hình. ◦ 31% (100% - 69%) sự biến đổicủachấtbéocònlạitrong các số dư. ©2010, Nguyễn Duy Long, Tiến Sỹ 48 24
- 9/7/2010 R2 luôn giữa 0% và 100%. Giá trị R2 tốtphụ thuộcvàoloạidữ liệu đang phân tích và muốnlàmgì vớikếtquả. ©2010, Nguyễn Duy Long, Tiến Sỹ 49 Điềukiện các biến định lượng: ◦ Các thống kê học cao hơnsẽ cho ta biếtkếthợp các dữ liệu định tính. Điềukiệnkháthẳng: ◦ Mô hình tuyếntínhgiả định sự liên hệ giữahai biếnlàtuyến tính. ◦ Biểu đồ phân tán sẽ giúp kiểmtragiả định này hợp lý không. ©2010, Nguyễn Duy Long, Tiến Sỹ 50 25
- 9/7/2010 Điềukiệngiátrị ngoạilệ: ◦ Để ý đến các giá trị ngoạilệ. ◦ Các điểmngoại lệ có thể thay đổi mô hình . ◦ Các trị ngoạilệ thậmchícóthể thay đổidấucủa góc nghiêng, làm sai lệch về sự liên hệ giữahai biến. ©2010, Nguyễn Duy Long, Tiến Sỹ 51 Không dùng đường thẳng cho liên hệ không tuyến tính. Chú ý các điểmngoại lệ. Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyến có thể không còn giá trị ngoài khoảng giá trị có trong dữ liệu. Đừngsuyx gâyray mặcdùcómôhìnhtuyếntính tốtchomốiquanhệ của chúng – sư liên hợp không phảilàquan hệ nhân quả. Đừng chọnmôhìnhchỉ dựatrênR2. ©2010, Nguyễn Duy Long, Tiến Sỹ 52 26
- 9/7/2010 Hồiqui về tuổi trung bình kếthônđầutiêncủa đàn ông và nămphùhợp cho các thậpniênđầucủathế kỷ 20 nhưng không đúng cho giai đoạnsau: u ầ đ n ầ thônl ế k àn ông lúc đ i ổ Tu Năm ©2010, Nguyễn Duy Long, Tiến Sỹ 53 Mô hình tuyếntínhkhônglàmtốtvới các điểmvới số dư lớn. Bởivìcóvẻ chúng khác vớitrường hợp khác, đặc biệt chú ý đến các điểm có số dư lớn. Một điểmdữ liệucóthể bấtthường nếugiátrị x củanóxaso vớitrị trung bình. Các điểm đólàcó đòn bẩylớn(high leverage). ©2010, Nguyễn Duy Long, Tiến Sỹ 54 27
- 9/7/2010 ‣ Mộ điểmcóđòn bẩylớncókhả năng thay đổi đường hồiqui. ‣ Điểm đógọilàảnh hưởng nếuloạibỏ nó khỏidữ liệu sẽ cho mô hình hồiqui kháchẳn. ‣ Ảnh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ và cỡ giày” IQ IQ ố s ố ỉ ỉ s s ỉ Ch Ch Cở giày Cở giày ©2010, Nguyễn Duy Long, Tiến Sỹ 55 Sự liên hợpchặt đến đâu, R2 lớn đến đâu, quan hệ thẳng đến đâu đinữa, không thể kếtluậnchỉ từ phân tích hồiqui làbiếnnàygâyrabiếnkia. Vớidữ liệuquansát(observational), khác vớidữ liệu từ thí nghiệm đượcthiếtkế (designed experiment), không có cách gì để chắcchắnrằng biến ẩn(lurking variable) không phải là nguyên nhân củamộtsự liên hợp. ©2010, Nguyễn Duy Long, Tiến Sỹ 56 28
- 9/7/2010 Biểu đồ phân tán chỉ tuổithọ trung bình củamột quốc gia có liên hệ vớisố bác sỹ trên đầungười ở quốcgia đó. m) ă ng bình (n u u tr ọ ith ổ Tu Bacsy / daunguoi ©2010, Nguyễn Duy Long, Tiến Sỹ 57 Biểu đồ phân tán mớicònchobiết liên hệ giữatuổi thọ và số ti vi trên đầungườicủaquốcgia. ◦ Sự liên hệ thậmchíchặthơn: R2 of 72% thay vì 62% Vì ti vi rẻ hơnbácsỹ, tạisaokhônggởitivi tới các nướccótuổithọ thấp để có tuổithọ cao hơn? m) ă gbình(n n tru ọ ith ổ Tu Tivi / daunguoi ©2010, Nguyễn Duy Long, Tiến Sỹ 58 29
- 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 59 30