Giáo trình Thống kê cơ bản - Chương 7: Sự biến thiên mẫu của tỉ lệ

doc 9 trang ngocly 40
Bạn đang xem tài liệu "Giáo trình Thống kê cơ bản - Chương 7: Sự biến thiên mẫu của tỉ lệ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • docgiao_trinh_thong_ke_co_ban_chuong_7_su_bien_thien_mau_cua_ti.doc

Nội dung text: Giáo trình Thống kê cơ bản - Chương 7: Sự biến thiên mẫu của tỉ lệ

  1. SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ 1. Mục tiêu Sau khi nghiên cứu chủ đề học viên cĩ khả năng: - Nêu được hai phương pháp chính sử dụng trong phân tích thống kê: kiểm định và ước lượng - Trình bày được định nghĩa của sai số chuẩn và phân biệt sai số chuẩn và độ lệch chuẩn - Nhận thức được ý nghĩa của biến thiên mẫu - Trình bày được cơng thức tính sai số chuẩn của tỉ lệ và khoảng tin cậy của tỉ lệ. 2. Biến số định tính, biến số nhị giá Biến số định tính (qualitative variable - categorical variable) là những đặc tính thay đổi từ người này sang người khác. Trong số liệu định tính khơng cĩ sự đo lường (định lượng) mà chỉ cĩ sự phân loại một đối tượng thuộc vào một trong hai loại: Trong nghiên cứu quan sát người ta cĩ thể phân loại các đặc tính về lối sống hay bệnh tật như: a. Thĩi quen hút thuốc lá: khơng hút, bỏ hút, đang hút thuốc lá b. Thĩi quen ăn uống: ăn chay, khơng ăn chay c. Xét nghiệm máu phát hiện nhiễm HIV: dương tính, âm tính d. Đo ECG phát hiện tiền sử nhồi máu cơ tim: Khơng, nghi ngờ, xác định e. Ung thư trong 10 năm theo dõi hay khơng: Cĩ, khơng Trong nghiên cứu thử nghiệm lâm sàng, cĩ thể phân loại đối tượng theo f. Sống cịn hơn 1 năm sau khi bị nhồi máu: sống, chết g. Kết quả lâm sàng sau điều trị kháng sinh viêm họng, amydale: chữa khỏi, thuyên giảm, khơng bớt Ðơi khi các đo lường định lượng cũng được chia nhĩm để tạo ra biến số định tính: a. Uống rươu: khơng, uống thỉnh thoảng, uống đều, nghiện nặng b. Tiểu đường: cĩ (đường huyết lúc đĩi 140 mg/100mL) hay khơng Như đã được trình bày phân phối của biến số định tính được mơ tả bằng (số giá trị của biến số - 1) tần suất. Thí dụ, giả sử chúng ta thu thập thơng tin về thĩi quen hút thuốc lá (cĩ 3 giá trị khơng hút, bỏ hút và hút thuốc) trên thanh niên, chúng ta chỉ cần tỉ lệ thanh niên hút thuốc lá và tỉ lệ thanh niên bỏ hút thì chúng ta biết được phân phối của số liệu này (tỉ lệ thanh niên khơng hút thuốc là cĩ thể tính được khi biết hai tỉ lệ kia). Trong bài này chúng ta sẽ chỉ tập trung chú ý đến biến số định tính cĩ 2 giá trị. Biến số này được gọi là biến số nhị giá (binary variable). Như vậy, vì biến số nhị giá chỉ cĩ 2 giá trị nên chỉ cần mơ tả bằng một con số tỉ lệ (hoặc một con số phần trăm). Thí dụ: Vào quý 3, 1994, một cuộc điều tra dinh dưỡng được tiến hành trên 1503 trẻ em dưới 5 tuổi tại thành phố Hồ Chí Minh. Trong số trẻ được điều tra cĩ 494 trẻ bị suy dinh dưỡng nhẹ cân. Tỉ lệ trẻ bị suy dinh dưỡng nhẹ cân = Trình bày theo cách khác, phần trăm trẻ em bị suy dinh dưỡng là 32,9 %
  2. 4. Ðại cương về mẫu và phương pháp lấy mẫu Trong nghiên cứu, chúng ta thường chỉ cĩ thể thu thập số liệu trên một tập hợp nhất định các đối tượng nhưng chúng ta lại muốn khái quát hĩa kết quả của các số liệu và áp dụng chúng cho một dân số rộng lớn hơn. Trong thống kê, tập hợp các đối tượng được thu thập số liệu được gọi là mẫu (sample) hay dân số nghiên cứu (study population). Dân số mà chúng ta muốn áp dụng kết quả của nghiên cứu được gọi là dân số mục tiêu (target population) Dân số mục tiêu: tập hợp các đối tượng mà chúng ta muốn các thành quả nghiên cứu được áp dụng vào Dân số nghiên cứu (cịn được gọi là mẫu): tập hợp các đối tượng cĩ các đặc tính hay đại lượng được thu thập trong quá trình nghiên cứu. Cĩ thể nĩi điểm mấu chốt của nghiên cưú khoa học là làm sao việc áp dụng cĩ giá trị các kết quả nghiên cứu (với các số liệu của mẫu) lên dân số mục tiêu. Muốn cho việc áp dụng cĩ giá trị một trong những điều kiện tiên quyết là cỡ mẫu (sample size) phải đủ lớn và phương pháp mẫu phải cĩ tính đại diện. Bằng trực giác chúng ta cảm nhận được rằng nếu số đối tượng trong mẫu càng nhiều (cỡ mẫu càng lớn) thì ước lượng chúng ta càng cĩ tính tin cậy cao hơn. Thí dụ nếu chúng ta muốn biến tỉ lệ suy dinh dưỡng ở trẻ dưới 5 tuổi ở TP Hồ Chí Minh. Nếu chúng ta chỉ điều tra trên 10 trẻ thì chúng ta khơng tin tưởng vào tỉ lệ tính được lắm. Nhưng nếu chúng ta điều tra 1000 trẻ (nếu 1000 trẻ này đại diện cho các trẻ dưới 5 của TP Hồ Chí Minh) thì chúng ta khá tin vào kết quả khảo sát được. Ðĩ là cảm nhận trực giác của chúng ta về biến thiên của mẫu. 5. Kí hiệu Giả sử chúng ta tiến hành một cuộc điều tra tỉ lệ suy dinh dưỡng trên dân số trẻ em. Chúng ta kí hiệu tỉ lệ suy dinh dưỡng trong dân số này là . Nếu chúng ta chọn một cách ngẫu nhiên n trẻ trong dân số đĩ nhằm tìm hiểu về tình hình suy dinh dưỡng này thì tập hợp n trẻ em này được gọi là dân số nghiên cứu (hay mẫu). Trong trường hợp này cỡ mẫu là n. Chúng ta tính tỉ lệ suy dinh dưỡng trên n trẻ được nghiên cứu bằng cách chia số trẻ được phát hiện là suy dinh dưỡng cho n. Tỉ lệ này được kí hiệu bằng p. Nĩi chung tỉ lệ trong mẫu p sẽ khơng đồng nhất với tỉ lệ trong dân số và nếu chúng ta cĩ nhiều mẫu nghiên cứu chúng ta sẽ cĩ nhiều tỉ lệ mẫu (p 1, p2, p3, ) tương ứng với các mẫu khác nhau. Tĩm lại là tỉ lệ trong dân số đích, là một tham số hằng định và chúng ta muốn biết trong khi đĩ, p là tỉ lệ trong mẫu luơn luơn dao động và là số liệu để chúng ta cĩ thể rút ra các kết luận về tỉ lệ trong dân số đích . 6. Biến thiên mẫu nhị thức Giả sử trong dân số đích cĩ tỉ lệ suy dinh dưỡng = 30. Nếu chúng ta lấy một mẫu gồm n trẻ em và sử dụng phân phối nhị thức chúng ta tính được xác suất trong n trẻ em đĩ cĩ x trẻ bị suy dinh dưỡng. Chúng ta khơng lập lại tính tốn ở đây nhưng kết quả tính xác suất khảo sát được x trẻ suy dinh dưỡn khi cỡ mẫu tương ứng là 5, 20, và 50.
  3. Từ kết quả trên chúng ta cĩ nhận xét như sau: - Phân phối xác suất số trẻ bị suy dinh dưỡng (đây là biến cố được quan tâm) cĩ khuynh hướng tập trung chung quanh tỉ lệ suy dinh dưỡng ở dân số đích = 0,3 - Khi cỡ mẫu nhỏ, phân phối xác suất số trẻ bị suy dinh dưỡng cĩ thể khơng cân đối nhưng khi cỡ mẫu đủ lớn (khi n 5) thì phân phối xác suất cĩ tính đối xứng và cĩ hình chuơng úp. Ðiều này cho thấy rằng biến số X (số trẻ bị suy dinh dưỡng - tần suất xảy ra biến cố quan tâm) sẽ tiệm cận phân phối bình thường. - Nếu chúng rất may mắn, tỉ lệ suy dinh dưỡng mẫu, kí hiệu là p, sẽ bằng với tỉ lệ suy dinh dưỡng của dân số đích . Tuy nhiên thơng thường chúng ta khơng may mắn như vậy và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich. Chúng ta dùng (p - ) 2 để đo lường mức độ dao động của p chung quan . Và chúng ta cĩ thể chứng minh bằng tốn học rằng nếu chúng ta lấy nhiều mẫu ngẫu nhiên gồm n đối tượng thì trung bình của (p - )2 sẽ bằng với (1- )/n Con số (1- )/n được gọi là phương sai của tỉ lệ và căn bậc hai của nĩ được gọi là sai số chuẩn của tỉ lệ (standard error of a proportion) và nĩ đo lường mức độ sai số trung bình của p, nĩi cách khác, nĩ cho chúng ta biết chúng ta hi vọng tỉ lệ p của chúng ta khác với (bao nhiêu, tính về mặt trung bình. (1- ) Sai số chuẩn của tỉ lệ (S.E.) n Viết theo ngơn ngữ tốn học hình thức p ~ N( , ) Thí dụ với cỡ mẫu n = 1000 và tỉ lệ suy dinh dưỡng trong dân số đích = 0,3 thì sai số chuẩn của tỉ lệ quan sát là: (1 - ) 0,3(1 - 0,3) Sai số chuẩn của tỉ lệ (S.E.) 0,0145 n 1000 Nếu chúng ta trình bày theo phần trăm thì với tỉ lệ suy dinh dưỡng trong dân số là 30% thì sai số chuẩn của tỉ lệ suy dinh dưỡng là 1,45%. Chúng ta cĩ thể cĩ nhận xét: trừ khi tỉ lệ trong quần thể đích quá gần 0% hay 100%, sai số chuẩn tương đối ít thay đổi. Một quy tắc tính rợ (rule of thumb)để ánh chừng sai số
  4. chuẩn: cỡ mẫu 100 thì sai số chuẩn là 5%, cỡ mẫu 400 sai số chuẩn vào khoảng 2 % và cỡ mẫu 10000 thì sai số chuẩn vào khoảng 0,5%. Trong trường hợp khơng biết tỉ lệ của dân số , sử dụng tỉ lệ của mẫu p để ước lượng sai số chuẩn.Thí dụ giả sử khảo sát 1241 trẻ em, phát hiện được 150 trẻ bị suy dinh dưỡng nhẹ cân. Tỉ lệ suy dinh dưỡng là 0,121 và sai số chuẩn của tỉ lệ suy dinh dưỡng là: (1 - ) p(1 - p) 0,121(1 - 0,121) S.E. 0.009 n n 1241 Như vậy tỉ lệ suy dinh dưỡng là 12,1% với sai số chuẩn là 0,9% 7. Khoảng tin cậy 95% của tỉ lệ Khi chúng ta quan sát một tỉ lệ trong một mẫu ngẫu nhiên, chúng ta mong muốn cĩ được một khoảng các giá trị mà giá trị tỉ lệ (thực) của dân số nằm trong đĩ. Chúng ta cĩ thể tính được khoảng này sử dụng tính xấp xỉ bình thường của phân phối nhị thức. p ~ N( , ) Theo tính chất thứ 4 của phân phối bình thường, xác suất giá trị p nằm trong phạm vi (1- ) 1,96 n là 95%. Nếu khơng yêu cầu chính xác, ta cĩ thể cho rằng 95% các trường hợp nghiên cứu giá trị nằm trong khoảng: p(1 - p) p(1 - p) p 1,96 p 1,96 n đến n hay cịn được viết là p 1,96 S.E. Khoảng giá trị này được gọi là khoảng tin cậy 95% (95% confident interval). Hai biên của khoảng tin cậy (p + 1,96 S.E và p - 1,96 S.E ) được gọi là giới hạn tin cậy trên và giới hạn tin cậy dưới (upper confident limit and lower confident limit) Lưu ý nếu chúng ta tính tỉ lệ bằng phần trăm thì cơng thức khhoảng tin cậy sẽ là p(100 - p) p(100 - p) p 1,96 p 1,96 n đến n Ðiều kiện áp dụng khoảng tin cậy của tỉ lệ theo cơng thức trên là n p 5. Giả sử cĩ 150 trẻ suy dinh dưỡng được phát hiện khi điều tra 1241 trẻ dưới 3 tuổi. Giả sử nếu 1241 trẻ này đại diện cho dân số đích thì tỉ lệ suy dinh dưỡng là p= 150/1241 = 12,1%. Vì số trẻ suy dinh dưỡng là 150 = n p 5 nên chúng ta cĩ thể áp dụng khoảng tin cậy 95% của tỉ lệ suy dinh dưỡng như sau: p(100 - p) 12,1(100 -12,1) p 1,96 12,1% 1,96 12,1% 1,8% n 1241 Khoảng tin cậy của tỉ lệ suy dinh dưỡng là từ 10,3% đến 13,9%. Khoảng tin cậy 95% (hoặc khoảng tin cậy 90% theo một số nhà thống kê) là kĩ thuật thống kê phổ biến nhất để thể hiện mức độ khơng chắc chắn của ước lượng và nên sử dụng khoảng tin cậy khi ước lượng bất kì một tỉ lệ nào.
  5. Nên nhớ rằng cĩ xác suất 5% tỉ lệ của dân số đích nằm ngồi khoảng tin cậy 95%. Do đĩ trung bình cứ mỗi 20 khoảng tin cậy được tính tốn sẽ cĩ 1 khoảng tin cậy khơng chứa giá trị tỉ lệ thực. 8. Trình bày khoảng tin cậy Nếu chúng ta cĩ tỉ lệ của hai hay nhiều nhĩm chúng ta cĩ thể thể hiện tỉ lệ và khoảng tin cậy bằng đồ thị. Một thí dụ được trình bày ở sau: 50% 50% 40% 40% 30% 30% 30% 20% 20% 13% 10% 10% 9% 10% 0% 0% Mù chữ (n=23) Cấp 1,2 (n=748) Cấp 3 (n=340) ĐH, CĐ (n=130) Hình 2. Tỉ lệ suy dinh dưỡng nhẹ cân (thanh đặc) và khoảng tin cậy 95% (đoạn thẳng dọc) theo trình độ học vấn của mẹ (mù chữ, học đến cấp 1 hay 2, học đến cấp 3, học Cao Ðẳng hoặc đại học). Trong một cuộc điều tra tình trạng dinh dưỡng trên 1241 trẻ dưới 3 tuổi, phân loại trẻ theo trình độ văn hĩa của người mẹ. Trong nhĩm trẻ cĩ mẹ mù chữ (n=28) cĩ 7 trẻ bị suy dinh dưỡng (r=7), Trong nhĩm cĩ mẹ học cấp 1,2 (n=748) cĩ 98 trẻ bị suy dinh dưỡng, trong nhĩm cĩ mẹ học cấp 3 (n=340) cĩ 33 trẻ bị suy dinh dưỡng và trong nhĩm cĩ mẹ học đại học trở lên (n=130) cĩ 12 trẻ bị suy dinh dưỡng. Tỉ lệ suy dinh dưỡng cùng với khoảng tin cậy 95% của từng nhĩm trẻ được trình bày bằng biểu đồ thanh đơn như trong hình 19, trong đĩ thanh đặc thể hiện tỉ lệ suy dinh dưỡng quan sát được và đường thẳng đứng thể hiện khoảng tin cậy 95%. Chúng ta cĩ thể nhận xét rằng khoảng tin cậy sẽ hẹp nhất khi cỡ mẫu là lớn nhất (nhĩm trẻ cĩ mẹ học cấp 1 và cấp 2 với cỡ mẫu bằng 748) và khoảng tin cậy sẽ rộng nhất khi cỡ mẫu nhỏ (nhĩm trẻ cĩ mẹ mù chữ với cỡ mẫu bằng 23). Bài tập Từ tháng 8 đến tháng 10 năm 1994, cuộc điều tra quốc gia về thiếu Vitamin A và suy dinh dưỡng. Ðiều tra được tiến hành trên 37.766 trẻ dưới 6 tuổi ở 20 tỉnh thành đại diện cho 7 vùng sinh thái - kinh tế của Việt nam với cỡ mẫu trung bình cho một tỉnh vào khoảng 1500 trẻ. Trong nghiên cứu này, trẻ cĩ cân nặng theo tuổi dưới -2 độ lệch chuẩn so với cân nặng chuẩn của tuổi được xếp loại là suy dinh dưỡng. Số liệu về dinh dưỡng ở một số tỉnh được trình bày trong bảng sau:
  6. 1 3 6 2 8 5 4 7 9 10 12 13 14 1715 16 19 212018 Hà 11 23 22 nội 25 24 26 27 28 29 Hồ ng Sa 30 Huế 31 32 Quả ng Nam 34 41 Bình 40 định 36 Dakl ak 37 43 46 Ninh 47 thuậ Đồn 45Đồn 39 n g An 50 44g nai49 TP GianThá 53 Hồ gp 55 Bến Chí 59 CT 56tre Sĩc Min 60 trăn h 61 g Trư ờng Sa
  7. Tỉnh Số trẻ được sàng lọc Số trẻ SDD Quảng nam Ðà nẵng 1503 711 Binh Ðịnh 1510 708 Ninh Thuận 1520 707 Ðắc Lắc 1488 705 TP Hồ Chí Minh 1503 494 Sơng Bé 1488 579 Ðồng Nai 1500 542 Ðồng Tháp 1498 758 An Giang 1512 556 Bến Tre 1503 522 Cần Thơ 1563 622 Sĩc Trăng 1490 590 Minh Hải 1492 573 Các nhĩm thực hiện các cơng việc sau: 1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh. 2. Tính khoảng tin cậy 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh. 3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin cậy theo cách thích hợp. 4. Lí giải thống kê các kết luận. 5. Giả sử chúng ta chỉ điều tra 50 trẻ ở mỗi tỉnh, theo bạn kết quả sẽ như thế nào? 6. So sánh kết quả tỉ lệ suy dinh dưỡng của 4 tỉnh miền Trung và 6 tỉnh miền Tây. Cách so sánh đĩ cĩ gì khơng ổn hay khơng? 7. Nếu bạn đánh giá về tình trạng dinh dưỡng ở trẻ em, bạn cĩ thể cĩ những cách phân tích số liệu nào khác hay khơng? Cho biết lợi ích của từng cách 8.Giải thích tại sao cĩ sự khác biệt địa lí về tỉ lệ suy dinh dưỡng.
  8. Bài giải 1. Tỉ lệ suy dinh dưỡng, khoảng tin cậy của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam Giới hạn Giới hạn Tỉ lệ tin cậy tin cậy Tỉnh Số trẻ Số SDD SDD SE dưới trên Quảng nam Ðà nẵng 1503 711 47.3 1.29 44.8 49.8 Binh Ðịnh 1510 708 46.9 1.28 44.4 49.4 Ninh Thuận 1520 707 46.5 1.28 44.0 49.0 Ðắc Lắc 1488 705 47.4 1.29 44.9 49.9 TP Hồ Chí Minh 1503 494 32.9 1.21 30.5 35.3 Sơng Bé 1488 579 38.9 1.26 36.4 41.4 Ðồng Nai 1500 542 36.1 1.24 33.7 38.5 Ðồng Tháp 1498 758 50.6 1.29 48.1 53.1 An Giang 1512 556 36.8 1.24 34.4 39.2 Bến Tre 1503 522 34.7 1.23 32.3 37.1 Cần Thơ 1563 622 39.8 1.24 37.4 42.2 Sĩc Trăng 1490 590 39.6 1.27 37.1 42.1 Minh Hải 1492 573 38.4 1.26 35.9 40.9 60 60.0 50 50.0 40 40.0 30 30.0 20 20.0 10 10.0 0 0.0 Quảng Binh Ninh Đắc Lắc TP Hồ Sông Đồng Đồng An Bến Tre Cần Sóc Minh nam Đà Định Thuận Chí Bé Nai Tháp Giang Thơ Trăng Hải nẵng Minh Hình 4. Tỉ lệ suy dinh dưỡng ở 13 tỉnh thành phía Nam năm 1994 và khoảng tin cậy