Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 2: Khám phá và tìm hiểu dữ liệu định lượng - Nguyễn Duy Long

pdf 36 trang ngocly 2610
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 2: Khám phá và tìm hiểu dữ liệu định lượng - Nguyễn Duy Long", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_chuon.pdf

Nội dung text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Chương 2: Khám phá và tìm hiểu dữ liệu định lượng - Nguyễn Duy Long

  1. 9/7/2010 Phần02 Nguyễn Duy Long, TiếnSỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Trình bày dữ liệu định lượng  Mô tả phân phối bằng số  Độ lệch chuẩnnhư thước đovàmôhình chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
  2. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Tóm tắtdữ liệugiúpxemxéttậphợpcácdữ liệu định lượng lớn.  Nếu không tómtắt, sẽ rất khó để biếtcác dữ liệu cho chúng ta biết điềugì.  Không dùng biểu đồ bánh cho các biến định lượng. ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
  3. 9/7/2010 1997 1998 1999 2000 2001 Tháng 1 -$1.44 0.78 3.28 5.72 14.38 Tháng 2 -0.75 0.62 3.34 21.06 -1.08 Tháng 3 -0.69 2.44 -1.22 4.50 -10.11 Tháng 4 -0.88 -0.28 0.47 4.56 -12.11 Tháng 5 0.12 2.22 5.62 -1.25 5.84 Tháng 6 0.75 -0.50 -1.59 -1.19 -9.37 Tháng 7 0.81 2.06 4.31 -3.12 -4.74 Tháng 8 -1.75 -0.88 1.47 8.00 -2.69 Tháng 9 0.69 -4.50 -0.72 9.31 -10.61 Tháng 10 -0.22 4.12 -0.38 1.12 -5.85 Tháng 11 -0.16 1.16 -3.25 -3.19 -17.16 Tháng 12 0.34 -0.50 0.03 -17.75 -11.59 (Nguồn: De Veaux et al., 2006) ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Chia khoảngiátrị củabiến định lượng thành các cột có cùng chiềurộng, gọilàhộc(bins).  Các hộcvàsố đếmtrongmỗihộcchoraphân phốicủabiến định lượng. Giá thay đổihàng ủ ổ tháng c ac tháng ố phiếu Cty Enron: S Thay đổigiá($) ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
  4. 9/7/2010  Biểu đồ tầnsuấttương đốimôtả phầntrămcủacác trường hợpchomỗihộcthayvìsố đếm. Biểu đồ tầnsuấttương đối: Thay đổi giá hàng tháng củacổ phiếuEnron háng t ố % s Thay đổigiá($) ©2010, Nguyễn Duy Long, Tiến Sỹ 7  Biểu đồ cành-và-lá (stem-and-leaf displays) biểudiễn phân phốicủabiến định lượng như biểu đồ tầnsuất, nhưng vẫngiữ các giá trị riêng rẽ.  Biểu đồ cành-và-lá: ◦ chứatấtcả thông tin có trong biểu đồ tầnsuất ◦ thỏa mãn nguyên lý diệntích, và ◦ biểuthị sự phân phối. ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
  5. 9/7/2010  Cắtgiátrị dữ liệu thành các con số chủ đạo (cành) và các con số kéo theo (lá).  Dùng các cành để gán hộc.  Chỉ dùng mộtcon số cho mỗilá–hoặclàmtròn hoặccắt các giá trị dữ liệu để có mộtvị trí thập phân phía sau cành. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Xây dựng biểu đồ cành và lá cho dữ liệusau: ◦ Vớihộc 10 triệuVNĐ Công trình Chi phí móng (triệuVNĐ) ◦ Với hộc 5 triệu VNĐ 01 33 02 35 03 50 04 41 05 48 06 33 07 45 08 47 09 52 10 63 11 45 12 71 ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
  6. 9/7/2010  So sánh biểu đồ tầnsuấtvàbiểu đồ cành-và-lá hiển thị nhịptimcủa 24 phụ nữởmộttrạmy tế. Sự hiển thị nào có nhiều thông tin hơn? Biểu đồ cành-và-lá: Biểu đồ tầnxuất Nhịptimcủa 24 phụ nữ t ấ nsu ầ T T Nhịptim(nhịp/phút) ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Đồ thị điểm(dotplot) là mộtsự hiểnthị đơngiản- chỉ đặt một dấu chấm (dot) dọcmộttrụcchomỗi trường hợptrongdữ liệu.  ồ ị ể ể ể ng (giây) Đ th đi mcóth bi u ắ diễntheophương ngang nth hoặcphương đứng. ế nchi a  ờ ế ắ ủ Th igianchi nth ng c a igi đua ngựa Kentucky Derby, ờ Th 1875-2004 (hình bên) Nguồn: Số cuộc đua ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
  7. 9/7/2010  Khi mô tả mộtphânphối, luôn nói về ba điều: hình dạng ((p),shape), trung tâm ((),center), và sải (spread).  Hình dạng củaphânphốilàgì? ◦ Phân phốicómột gò (hump) ở trung tâm hay có vài mỏm (bump) phân tán? ◦ Biểu đồ tầnsuấtcó đốixứng? ◦ Có các đặc điểmbấtthường lộ ra không? ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Câu hỏi1: Phânphốicómột gò (hump) ở trung tâm hay có vài mỏm (bump) phân tán? ◦ Gò trên biểu đồ tầnsuấtgọilàmốt(mode). ◦ Biểu đồ tầnsuấtcómột đỉnh gọilàmộtmốt (unimodal), hai đỉnh gọilàhaimốt (bimodal), và ba đỉnh trở lên gọi là nhiều(đa) mốt (multimodal). ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
  8. 9/7/2010  Biểu đồ tầnsuấthaimốtcóhaiđỉnh: m ế đ ố ng s ợ ư L ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Tầnsuất đều (uniform): Biểu đồ tầnsuấtdường như không có mốtvàtấtcả các thanh có chiều cao gầnnhư nhau: m ế đ ố ng s ợ ư L ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
  9. 9/7/2010  Câu hỏi2: Biểu đồ tầnsuấtcóđốixứng? Gấpdọc đường đứt Biểu đồ tầnsuất đốixứng có thể gấp ở giữasaocho hai bên gầnnhư trùng nhau ©2010, Nguyễn Duy Long, Tiến Sỹ 17 ◦ Các đầumỏng hơncủaphânphốigọilàđuôi (tails). Nếumột đuôi trảixahơn đuôi còn lại, biểu đồ tần suất là lệch (skewed) về phía có đuôi dài hơn. ◦ Biểu đồ tầnsuấtmàuxanhbêndướigọilàlệch trái (skewed left), biểu đồ màu hồng là lệch phải (skewed right). tim tim nh nh ệ ệ b b ữ ữ n n ố ố S S Tuổi Lệ phí ($) ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
  10. 9/7/2010  Câu hỏi 3: Có các đặc điểmbấtthường lộ ra không? ◦ Thỉnh thoảng những đặc điểmbấtthường cho ta biếtcógìđólýthúvề dữ liệu ◦ Luôn đề cập đếncácgiátrị ngoạilệ (outliers) mà nó đứng tách ra trong phầnthâncủaphânphối ◦ Có các chỗ gián đoạn(gap) trongphânphối? Nếu vậy, dữ liệucóthể có từ hơnmột nhóm. ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Biểu đồ tầnsuấtsauđây có giá các trị ngoài lệ. Có ba thành phốởthanh xa nhấtbêntrái.  Theo bạn, điều gì đang xảy ra? Số nhân khẩutrongmộthộởcác thành phố đượcchọnlựa ố nh ph à th ố S Nhân khẩu/hộ ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
  11. 9/7/2010  Nếubạnphảilấymộtsố để mô tả tấtcả dữ liệu, bạnsẽ lấysố gì?  Dễ dàng để tìm trung tâm khi biểu đồ tầnsuất là mộtmốtvàđốixứng – nó ngay ở giữa.  Ngượclại, sẽ rấtkhóđể tìm trung tâm nếubiểu đồ tầnsuấtlàbị lệch hoặc có hai hay nhiềumốt.  Đến đây ta chỉ cầnchỉ ra trung tâm củaphânphối băng mắtthường. ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Vấn đềởsự biến đổi(thống kê họclàvề sự biến đổi).  Các giá trị củaphânphốilàgomlại xung quanh trung tâm hay sảira?  Các phầntiếptheotanóivề sải ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
  12. 9/7/2010  Thường ta muốn so sánh hai hay nhiềuphânphối với nhau thay vì chỉ xem mộtphânphối.  Khi xem xét hai phân phối, điềuquantrọng là các biểu đồ tầnsuất có cùng tỷ lệ.  Khi so sánh các phân phối, chúng ta nói về hình dạng, trung tâm, và sảicủa các phân phối. ©2010, Nguyễn Duy Long, Tiến Sỹ 23  So sánh hai biểu đồ ữ ân n bên: h h ◦ Chúng có gì chung? nh n ệ ◦ Chúng khác nhau ra b ố sao? S Tuổi Các phân phốicủabệnh nhân nữ và nam bị nhồi nnam â â máucơ tim: nh nh ệ b ố S Tuổi ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
  13. 9/7/2010  Vớimộtsố tậpdữ liệu, chúng ta quan tâm đếndữ liệucư xử thế nào theo thờigian–vẽ biểu đồ thời gian (time-plots) cho dữ liệu. ◦ Cổ phiểucủa Enron như thế nào theo thờigian? Thay đổivề giá củacổ phiếu Enron, 1997-2002 giá ($) ề v i ổ đ Thay Năm ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Biểu đồ số ngườimắcbệnh và tử vong do cúm A/H1N1: Nguồn: Báo TuổiTrẻ, 28/09/2009 ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
  14. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Để đo trung tâm, khoảng giữa(midrange, trị trung bình của các giá trị nhỏ và lớnnhất) là rấtnhạyvới các phân phốilệch hoặcgiátrị ngoạilệ.  Trung vị (median) là lựachọnhợp lý cho trung tâm hơnlàkhoảng giữa ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
  15. 9/7/2010  Trung vị là giá trị mà mộtnửa các giá trị củadữ liệu nhỏ hơnnóvàmộtnửalớnhơnnó. ◦ Đólàgiá trị giữacủadữ ổ ọ ủ ớ liệukhisắpxếptheothứ Tu ith c a các nư c thành viên củaLiênHiệpQuốc (2001) tự và chia biểu đồ tần suấtrahaiphầncódiện tích bằng nhau. ◦ ớ ố ể ữ ệ c V is đi md li ulà ớ ư chẵn, lấy trung bình hai n ố số ở giữa: S  median(2,4,6,7,8,9) =6.5 Tuổithọ ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Luôn cho biết độ sải (spread) cùng vớitrị trung tâm khi mô tả phân phốibằng số.  Khoảng (vùng) (range) củadữ liệulàsự khác nhau giữa các giá trị lớnvànhỏ nhất: Vùng (range) = max – min  Bấtlợicủakhoảng là nếucómộtgiátrị cựchạncó thể làm nó rấtlớnvàvìthế không đạidiệnchodữ liệu nói chung. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
  16. 9/7/2010  Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các giá trị cựchạnvàtập trung vào vùng giữacủadữ liệu.  Để tìm IQR, trước tiên tìm các điểm tứ phân vị (quartiles), mà chia dữ liệu thành bốn đoạnbằng nhau. ◦ Điểmtứ phân vị dưới(lower quartile, Q1) là trung vị củanửadữ liệunằmdưới trung vị. ◦ Điểmtứ phân vị trên (upper quartile, Q3) là trung vị củanửadữ liệunằm trên trung vị ◦ Nếusố điểmtrongdữ liệulàchẵn, việc phân chia là rõ ràng. Nếu số lẻ, tính trung vị trong cả hai nửa của dữ liệu.  Sự khác nhau giữahaiđiểmtứ phân vị là IQR IQR = điểmtứ phân vị trên – điểmtứ phân vị dưới ©2010, Nguyễn Duy Long, Tiến Sỹ 31  Điểmtứ phân vị dưới và trên là các phân vị (percentiles) thứ 25 và 75 củadữ liệu.  IQR chứa 50% giá trị ở giữacủaphânphối Tuổithọ của các nước thành ủ ệ ố “Tóm tắtnămsố” về tuổithọ: viên c aLiênHi pQu c (2001) max = 73.6 Q3 = 62.65 c ớ Median = 57.7 ư n Q1 = 48.9 ố S min = 26.5 năm Tuổithọ ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
  17. 9/7/2010  ắ ố ChếttạicácbuổidiễnnhạcRock, Tóm t tnăms (five- 1999-2000 ủ t number summary) c a ế phân phốichobiếtvề ị ể ứ ng ch trung v , hai đi mt ợ ư ị ị l phân v , và các giá tr ố cựchạn (maximum and S minimum). Max 47 năm ◦ Ví dụ: Tóm tắtnămsố về tuổi lúc mất của 66 người Q3 22 xem các buổidiễnnhạc Median 19 rock do chen lấnnhư bên phải Q1 17 Min 13 ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Biểu đồ hộp(boxplot) là biểuthị đồ họavề tóm tắt nămsố*.  Biểu đồ hộp đặcbiệthữu ích khi so sánh các nhóm (groups). * Và mộtsố thông tin khác, ví dụ là các giá trị ngoạilệ (outliers) ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
  18. 9/7/2010 1. Vẽ mộttrụcbaohàm khoảng giá trị củadữ liệu • Vẽ ba đường ngang ngắn tại Q1, Q3, và trung vị. • Nối chúng lạibằng các đường đứng để hình thành mộthộp(box). ©2010, Nguyễn Duy Long, Tiến Sỹ 35 2. Dựng “hàng rào” xung quyanh phần chính của dữ liệu. ◦ Hàng rào trên là 1.5xIQR trên Q3. ◦ Hàng rào dướilà1.5xIQR dướiQ1. ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
  19. 9/7/2010 3. Dùng hàng rào để phát triển “đuôi” ◦ Vẽ các đường từ các đầucủahộp lên và xuống đếncácgiátrị dữ liệucựchạn trong hàng rào. ◦ Nếumộtgiátrị dữ liệunằmngoài các hàng rào, đừng nốinóđể trở thành đuôi. ©2010, Nguyễn Duy Long, Tiến Sỹ 37 4. Thêm các giá trị ngoạilệ nằm ngoài hàng rào bằng các ký hiệu khác. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
  20. 9/7/2010  So sánh biểu đồ tầnsuấtvàbiểu đồ hộp Chếttạicácbuổidiễnnhạc Rock, 1999-2000 t ế ng ch ợ ư l ố S Tuổi  Biểu đồ trên biểuthị dữ liệunhư thế nào? ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Biểu đồ hộp so sánh hiệuquả của các bình chứacà phê: Thay đổi nhiệt độ theo các nhãn hiệucủabìnhchứacàphê F) o ( ộ đ t ệ nhi ề iv ổ đ Tahy Bình chứa ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
  21. 9/7/2010  Trung vị là rấttốt để xác định trung tâm của các phân phốilệch.  Khi dữ liệu đốixứng, trị trung bình (mean) xác định trung tâm tốt.  Tìm trị trung bình: n  yi i 1 y n ©2010, Nguyễn Duy Long, Tiến Sỹ 41  Phân phốivề nhịptimcủa 52 ngườilớnnàyđối xứng, vớitrị trung bình 72.7 (nhịp/phút) và trung vị là 73 (nhịp/phút): Nhịptimcủa 52 ngườilớn nhịp/phút n ớ il ờ ư g n ố S Nhịptim(nhịp/phút) ©2010, Nguyễn Duy Long, Tiến Sỹ Slide 5- 42 21
  22. 9/7/2010 Tuổithọ của các nước thành  Bấtkể hình dạng viên củaLiênHiệpQuốc (2001) của phân phối, trị trung bình là ể ể ồ đi mmàbi u đ c ớ ầ ấ ư t nsu t cân n ố bằng: S Tuổithọ Điểmcânbằng ©2010, Nguyễn Duy Long, Tiến Sỹ 43  Phân phối đốixứng có giá trị trung bình và trung vị gần nhau, nên có thể dùng trị bấtcứ trị nào để chỉ trung tâm.  Vớiphânphốilệch nhiều thì dùng trung vị để xác định trung tâm. ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22
  23. 9/7/2010  Độ lệch chuẩn(standard deviation) đolường sải (spread) tốthơnIQR, bằng cách xem xét mỗigiátrị dự liệu cách trị trung bình bao xa.  Độ lệch (deviation) là khoảng cách từ mộtgiátrị dữ liệu đếntrị trung bình. ©2010, Nguyễn Duy Long, Tiến Sỹ 45  Phương sai (variance), vớikýhiệu s2: yy 2 s2 i i n 1  Vấn đề củaphương sai khi đolường sảilàđược đo lường theo bình phương đơnvị đocủadữ liệuban đầu. ©2010, Nguyễn Duy Long, Tiến Sỹ 46 23
  24. 9/7/2010  Độ lệch chuẩn(standard deviation), s,(hay SD): yy 2 s i i n 1 ©2010, Nguyễn Duy Long, Tiến Sỹ 47  Vì thống kê họclàvề sự biến đổi(variation), sảilà mộtkháiniệmquantrọng củathống kê học.  Đo độ sải giúpchúng ta bànvề những cái chúng ta không biết.  Khi các giá trị dữ liệucụmlại xung quyanh trung tâm củaphânphối, IQR và SD là nhỏ.  Khi các giá trị dữ liệu phân tán xa trung tâm của phân phối, IQR và SD sẽ lớn. ©2010, Nguyễn Duy Long, Tiến Sỹ 48 24
  25. 9/7/2010  Khi mô tả biến định lượng, luôn cho biếtvề hình dạng phân phốicủa nó, cùng với trung tâm và sải. ◦ Nếuhìnhdạng bị lệch, cho biếttrungvị và khoảng tứ phân vị. ◦ Nếuhìnhdạng đốixứng, cho biếttrị trung bình và độ lệch chuẩnvàcóthể cả trung vị và khoảng tứ trung vị. ©2010, Nguyễn Duy Long, Tiến Sỹ 49  Nếu có các trị ngoạilề rõ ràng mà cho biếtvề trị trung bình và độ lệch chuẩnthìchobiết chúng khi có trị ngoạilệ và không có trị ngoạilệ. Sự khác nhau có thể bộclộ.  Chú ý: Trung vị và khoảng tứ trung vị ít khả năng bị ảnh hưởng bởi các trị ngoạilệ như trị trung bình và độ lệch chuẩn. ©2010, Nguyễn Duy Long, Tiến Sỹ 50 25
  26. 9/7/2010 Mô tả dữ liệubằng số Hình dạng Trung tâm Sải Đốixứng Khoảng tứ Trung bình hay lệch trung vị Trị ngoạilệ Trung vị Khoảng Khoảng Độ lệch giữa chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 51  Mô tả dữ liệuphânphốirasao  Đối xứng hay lệch Lệch trái Đốixứng Lệch phải Mean<Median<Mode Mean=Median= Mode Mode<Median<Mean ©2010, Nguyễn Duy Long, Tiến Sỹ 52 26
  27. 9/7/2010  Đolường sự biến đổimôtả về sảihay biến thiên của các giá trị dữ liệu. Cùng trung tâm, Sự biến đổikhácnhau ©2010, Nguyễn Duy Long, Tiến Sỹ 53 ©2010, Nguyễn Duy Long, Tiến Sỹ 54 27
  28. 9/7/2010  Độ lệch chuẩnnhư là thước đo để so sánh các giá trị trông khác nhau.  Độ lệch chuẩnchotabiếtsự tậphợp (collection) của các giá trị thay đổirasao–làthước đo để so sánh giá trị riêng rẻ vớimột nhóm.  Độ lệch chuẩnlàtrị đothường dùng củasự biến đổi, và đóng vai trò quan trọng việc chúng ta nhìn vào dữ liệunhư thế nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 55  Điểm z (z-score): Khi so sánh mộtgiátrị đơnlẻ với trung vị, sự tương đốivới độ lệch chuẩn: yy z s  Gọikếtquả là trị đượcchuẩnhóa(standardized values), ký hiệuz hay điểmz (z-scores). ©2010, Nguyễn Duy Long, Tiến Sỹ 56 28
  29. 9/7/2010  Cộng (hay trừ) mộtlượng không đổivàomỗigiátrị chỉ cộng (hay trừ) lượng đóvàotrị trung bình.  Điều đó cũng đúng cho trung vị và các trị đovề vị trí khác.  Thêm mộthằng số vào mỗigiátrị dữ liệusẽ thêm hằng số đó vào các trị đovề trung tâm và các phân vị nhưng các trị đovề sải không đổi. ©2010, Nguyễn Duy Long, Tiến Sỹ 57  Biểu đồ tầnsuất(vàhộp) chỉ sự dịch chuyểntừ cân nặng của đàn ông sang số cân trên cân nặng được khuyếnnghị: àn ông àn ông đ đ ố ố S S Cân nặng (kg) Số cân (kg) trên cân nặng khuyếnnghị) ©2010, Nguyễn Duy Long, Tiến Sỹ 58 29
  30. 9/7/2010  Khi nhân (hay chia) tấtcả các giá trị dữ liệubởimột giá trị không đổi, các trị sau đây được nhân (hay chia) bởi giá trị không đổi đó ◦ các giá trị riêng lẻ (max, min), ◦ trị đovề trung tâm (trung bình và trung vị) và ◦ trị đovề sải( khoảng, khoảng tứ trung vị, độ lệch chuẩn) ©2010, Nguyễn Duy Long, Tiến Sỹ 59  Dữ liệuvề cân nặng của đàn ông đolường bằng kg. Nếu đổi qua cân Anh (lb), chúng ta sẽ thay đổi tỷ lệ (rescale)dữ liệu: àn ông đ àn ông đ ố S ố S Cân nặng (kg) Cân nặng (lb) ©2010, Nguyễn Duy Long, Tiến Sỹ 60 30
  31. 9/7/2010  Chuẩnhóadữ liệu thành điểmz dịch chuyển(shift) dữ liệubằng cách trừ trị trung bình và thay đổitỷ lệ (rescale) các giá trị bằng cách chia cho độ lệch chuẩn. ◦ Chuẩnhóathànhđiểmz khôngthayđổihìnhdạng (shape) củaphânphối. ◦ Chuẩnhóathànhđiểmz thayđổi trung tâm (center) vớitrị trung bình bằng 0. ◦ Chuẩnhóathànhđiểmz thay đổisải (spread) với độ lệch chuẩnbằng 1. ©2010, Nguyễn Duy Long, Tiến Sỹ 61  Điểmz chỉ ra mộtgiátrị bấtthường thế nào bởivì nó cho biếtgiátrị đó cách trung bình bao xa.  Dùng điểmz vớimột mô hình (model) thường gặp trong thống kê học: mô hình chuẩn(Normal model) ©2010, Nguyễn Duy Long, Tiến Sỹ 62 31
  32. 9/7/2010  Mô hình chuẩnthường thích hợp cho các phân phốicóhìnhdạng mộtmốtvàkháđốixứng - hình chuông (bell shaped).  N(μ,σ) thể hiệnmôhìnhchuẩnvớitrị trung bình bằng μ độ lệch là σ.  Dùng chữ cái Hy Lạpvìtrị trung bình và độ lệch này không phảitừ dữ liệu và chúng từ các thông số (parameters) của mô hình.  Các tóm tắtcủadữ liệu, như trị trung bình và độ lệch chuẩncủamẫu dùng chữ cái La Tinh. Các tóm tắt đógọilàtrị số thống kê (statistics). ©2010, Nguyễn Duy Long, Tiến Sỹ 63  Khi chuẩn hóa các dữ liệuchuẩn(Normal), giátrị đượcchuẩnhóalàđiểmz (z-score): y  z   Mộtkhichuẩnhóa, chỉ cầnmột mô hình: ◦ Mô hình N(0,1) gọilàmôhìnhchuẩn(chính) tắc(standard Normal model hay standard Normal distribution).  Không dùng mô hình chuẩnchobấtcứ tậpdữ liệu nào, vì việcchuẩn hóa không thay đổihìnhdạng củaphânphối ©2010, Nguyễn Duy Long, Tiến Sỹ 64 32
  33. 9/7/2010  Khi dùng mô hình chuẩn, ta đang giả định phân phốilàchuẩn.  Vì không thể kiểmtragiả định này trong thựctế, kiểmtrađiềukiệnsau: ◦ Điềukiệngầnchuẩn(Nearly Normal Condition): Hình dạng củaphânphốidữ liệulàmộtmốtvàđốixứng. ©2010, Nguyễn Duy Long, Tiến Sỹ 65  Các mô hình chuẩnchotabiếtmứccựchạncủa mộtgiátrị bằng cách cho biếtkhả năng để tìm một giá trị cách xa trị trung bình.  Có thể tìm số này một cách chính xác ở các chương sau, bay giờ có thể dùng mộtqui tắc đơngiảnmà cho ta biếtrất nhiềuvề mô hình chuẩn  Vớimôhìnhchuẩn: ◦ Khoảng 68% các giá trị nằmtrongmộtkhoảng độ lệch chuẩncủatrị trung bình; ◦ Khoảng 9%95% cácgiá trị nằmtronghai khoảng độ lệch chuẩn củatrị trung bình; và, ◦ Khoảng 99.7% các giá trị nằmtrongbakhoảng độ lệch chuẩncủatrị trung bình. ©2010, Nguyễn Duy Long, Tiến Sỹ 66 33
  34. 9/7/2010  Hình sao biểuthị qui tắc 68-95-99.7. ©2010, Nguyễn Duy Long, Tiến Sỹ 67  Bảng Z trong phụ lục E (tr. A56-57) là bảngchomôhình chuẩntắc.  Ví dụ với z = 1. 80: ◦ Bao nhiêu phầntrămdữ liệu đã đượcchuẩnhóadưới điểm z = 1.80 này? ©2010, Nguyễn Duy Long, Tiến Sỹ 68 34
  35. 9/7/2010  MS Excel có hàm kiểmnghiệmz mộtphía (one-sided z-test):  Có thể tìm phân phốichomột điểm z với hàm Normsdist(z) ◦ Ví dụ: Normsdist(1.8) = 0.9641: giá trị chuẩn hóa của dữ liệu dưới điểm z bằng 1.8 khoảng 96.41%.  Có thể tìm điểm z cho mộttá xác suấttà nào đó với hàm Normsinv(p) ◦ Ví dụ: Normsinv(.9641) = 1.8 ©2010, Nguyễn Duy Long, Tiến Sỹ 69  Tìm z hay giá trị dữ liệuban đầuvớimộtdiệntích đãcho.  Ví dụ: tìm điểmz chođiểmtứ phân vị thứ nhất trong mô hình chuẩn? Độ lệch chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 70 35
  36. 9/7/2010  Dùng bảng Z theo cách khác: ©2010, Nguyễn Duy Long, Tiến Sỹ 71 ©2010, Nguyễn Duy Long, Tiến Sỹ 72 36