Giáo trình Xác suất thống kê (Phần 2)

pdf 53 trang ngocly 1360
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xác suất thống kê (Phần 2)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfgiao_trinh_xac_suat_thong_ke_phan_2.pdf

Nội dung text: Giáo trình Xác suất thống kê (Phần 2)

  1. PHẦN II. THỐNG KÊ Thống kê là khoa học về thu thập và xử lý số liệu để từ đó đưa ra các kết luận khoa học và thực tiễn. Sơ đồ tiến hành như sau: Thu thập số liệu ⇒ Tổng hợp số liệu ⇒ Chuyển hóa về mô hình toán ⇒ Xử lý ⇒ Đưa ra kết luận. 60
  2. CHƯƠNG 3 LÝ THUYẾT MẪU 3.1 Khái niệm mẫu và phương pháp lấy mẫu Trong thực tế, nhiều khi ta cần quan tâm đến một số đặc điểm (định tính hoặc định lượng) của các phần tử thuộc về một tập hợp nào đó, chẳng hạn tuổi thọ của một loại đĩa cứng, giá thành bán lẻ của một loại mặt hàng nào đó, tỉ lệ nẩy mầm của một giống lúa Tập hợp các phần tử cần nghiên cứu này được gọi là đám đông, ký hiệu là C. Việc tiến hành thu thập thông tin trên các phần tử của đám đông được gọi là quan sát. Đặc điểm cần quan tâm đó thay đổi từ phần tử này sang phần tử khác khi ta thực hiện các quan sát ngẫu nhiên trên một số phần tử của đám đông. Đặc điểm thay đổi đó của đám đông được coi như một đại lượng ngẫu nhiên, ký hiệu là X và được gọi là đại lượng ngẫu nhiên gốc đám đông C. Quá trình đi nghiên cứu đám đông của C thực chất là quá trình đi tìm quy luật phân phối của đại lượng ngẫu nhiên X, nhiều khi đó là quá trình đi tìm các số đặc trưng của X. Nếu không gây nhầm lẫn ta có thể gọi ngắn gọn là đám đông X. Đặc điểm của đám đông thường được nghiên cứu dưới hai phương diện:  Phương diện định lượng: Khi ta cần quan tâm đến các giá trị về lượng của đại lượng ngẫu nhiên X như: trọng lượng, năng suất, tuổi thọ và ta thường quan tâm đến hai đặc trưng - Kỳ vọng EX = µ: đặc trưng giá trị trung bình của đặc điểm định lượng cần quan tâm trên đám đông C. - Phương sai DX = σ2: đặc trưng cho mức độ biến động giá trị của đặc điểm định lượng cần quan tâm trên đám đông C.  Phương diện định tính: Khi ta cần quan tâm đến một tính chất A nào đó trên đám đông, các phần tử của đám đông hoặc có tính chất A hoặc không có tính chất A như: chất lượng sản phẩm, sự nẩy mầm của một giống lúa, chất độc hại trong nguồn nước Giá trị mà đại lượng ngẫu nhiên X có thể nhận được ( 1 khi phần tử đó có tính chất A ; X = 0 khi phần tử đó không có tính chất A, và ta thường quan tâm đến xác suất EX = p. 61
  3. 3.1.1 Khái niệm mẫu Chúng ta khó có thể quan sát hết tất cả các phần tử của đám đông vì những lý do như thời gian, chi phí tốn kém Chính vì vậy, người ta chỉ lấy ra một số phần tử đại diện cho đám đông và nghiên cứu trên tập phần tử này, tập hợp các phần tử đại diện cho đám đông đó được gọi là mẫu. Phương pháp nghiên cứu trên mẫu đại diện cho đám đông được gọi là phương pháp mẫu và cách thức thực hiện quá trình lấy mẫu được gọi là phương pháp lấy mẫu. Khi cần quan tâm đến đặc điểm là đại lượng ngẫu nhiên X của đám đông C, ta chọn ra mẫu có n phần tử, trong đó việc chọn phần tử thứ i là quá trình thực hiện một phép thử rút ngẫu nhiên một phần tử của đám đông C, giá trị ngẫu nhiên này được gán cho đại lượng ngẫu nhiên Xi. Với cách chọn này, các đại lượng ngẫu nhiên Xi độc lập với nhau và có cùng luật phân phối với đại lượng ngẫu nhiên X. Mẫu này được gọi là mẫu ngẫu nhiên có kích thước n của đám đông C, ký hiệu (X1,X2, , Xn). Tại lần lấy mẫu thứ i, giá trị mà Xi nhận được là xi, bộ số (x1, x2, , xn) được gọi là một mẫu cụ thể. Ví dụ 1. Thống kê về số chấm của một con xúc xắc khi gieo 5 lần Mẫu ngẫu nhiên: (X1,X2, , X5) ; mẫu cụ thể: (2, 3, 1, 6, 2) . 3.1.2 Các phương pháp lấy mẫu Việc lấy mẫu được coi là tốt nếu như thông tin thu được từ mẫu phán ánh càng gần với đặc điểm của đám đông (tính chất đại diện cao). Chính vì vậy, trong thống kê việc lấy mẫu là một công việc hết sức quan trọng. Người ta thường sử dụng một số phương pháp lấy mẫu như sau: Lấy mẫu ngẫu nhiên đơn giản Là phương pháp lấy mẫu thỏa mãn các điều kiện: mỗi lần chỉ được chọn một phần tử từ đám đông, khả năng được chọn của tất cả các phần tử trong đám đông đều như nhau. Có hai cách thức tiến hành chọn đó là chọn hoàn lại và chọn không hoàn lại, tuy nhiên khi kích thước của đám đông lớn hơn nhiều so với kích thước mẫu thì có thể coi hai phương pháp chọn này là giống nhau. Phương pháp lấy mẫu ngẫu nhiên đơn giản ở trên có tính chất đại diện cho đám đông cao, tuy nhiên khó thực hiện và cần nhiều thời gian cũng như kinh phí. Ta có thể xem phương pháp lấy mẫu này là hoàn toàn ngẫu nhiên hay ngẫu nhiên không có định hướng. Lấy mẫu ngẫu nhiên có định hướng  Lấy mẫu theo nhóm: là phương pháp chia đám đông thành các nhóm thuần nhất, từ mỗi nhóm này ta lấy ra một mẫu ngẫu nhiên đơn giản với một kích thước tương ứng. Tập hợp tất cả các phần tử thu được từ các mẫu ngẫu nhiên đơn giản đó lập nên mẫu ngẫu nhiên theo nhóm.  Lấy mẫu theo chùm: là phương pháp chia đám đông thành nhiều chùm (đám đông con) sao cho giữa các chùm có sự đồng đều về quy mô, từ các chùm đó ta lấy một mẫu ngẫu nhiên đơn giản. Tập hợp tất cả phần tử thu được từ các mẫu ngẫu nhiên đơn giản của các chùm lập nên mẫu ngẫu nhiên theo chùm. Phương pháp này dễ quy hoạch, có thể tiết kiệm được thời gian và kinh phí nhưng sai số chọn mẫu cao hơn các phương pháp nói trên. 62
  4. Ví dụ 2. Chúng ta muốn đi tìm hiểu về tổng thu nhập trong một năm của toàn bộ cán bộ công chức của một tỉnh. - Chia đám đông này thành các nhóm theo từng cơ cấu ngành nghề: quốc phòng, an ninh, giáo dục, y tế, kinh doanh Trong mỗi cơ cấu ngành nghề có sự thuần nhất về mức lương (nếu có sự sai khác về thu nhận chủ yếu là do thâm niên và chức vụ công tác). Như vậy, phương pháp lấy mẫu bằng việc gom lại các mẫu ngẫu nhiên đơn giản của từng nhóm ngành nghề chính là phương pháp lấy mẫu theo nhóm. - Chia đám đông này theo các huyện trong tỉnh A. Giữa các huyện, có sự đồng đều về quy mô (đầy đủ các thành phần) và phương pháp lấy mẫu bằng việc gom lại các mẫu ngẫu nhiên đơn giản của từng huyện chính là phương pháp lấy mẫu theo chùm. 3.2 Cách biểu diễn mẫu 3.2.1 Bảng tần số và bảng tần suất Ta thực hiện n lần quan sát trên đám đông C, khi đó ta sẽ thu được mẫu cụ thể gồm k giá trị khác nhau (x1, x2, , xk), k n. Giá trị xi có ni lần xuất hiện, ni là 6n được gọi là tần số xuất hiện của x và tỉ số i được gọi là tần suất xuất hiện của x , i n i ký hiệu là fi. Ta có biểu diễn kết quả của mẫu bằng bảng tần số và tần suất như sau xi x1 x2 xk xi x1 x2 xk ni ni n2 nk fi fi f2 fk trong đó k k X X n = ni; fi = 1. i=1 i=1 Ví dụ 1. Thống kê điểm số kết thúc học phần của một lớp gồm 40 sinh viên xi 4 5 6 7 8 xi 4 5 6 7 8 ni 5 10 12 8 5 ni 5/40 10/40 12/40 8/40 5/40 Trong trường hợp mẫu cụ thể (x1, x2, , xn) có nhiều giá trị khác nhau, khi đó ta thực hiện việc ghép lớp. Nguyên tắc ghép lớp được tiến hành như sau • Số lớp chia k được xác định trên cơ sở k = min{l : 2l > n} . giá trị lớn nhất - giá trị nhỏ nhất • Độ dài mỗi lớp: l = . k • Trong 2 lớp liền nhau xi−1 → xi, xi → xi+1 thì xi thuộc lớp xi−1 → xi . Ngoài phương pháp ghép lớp đã trình bày ở trên, còn có một số phương pháp ghép lớp khác, với những mẫu cụ thể rời rạc người ta có thể chia thành các có độ dài khác nhau, các lớp được chia rời nhau. Chúng ta không đề cập đến các kiểu ghép lớp này. Ví dụ 2. Thống kê về chiều cao của 30 sinh viên với chiều cao nằm trong khoảng từ 1m50 đến 1m 75. Nhận thấy 25 > 30 nên chọn k = 5. Bảng tần số, tần suất như sau: 63
  5. Lớp Giá trị Tần số Tần suất 150-155 152,5 4 4/30 155-160 157,5 7 7/30 160-165 162,5 6 6/30 165-170 167,5 10 10/30 170-175 172,5 3 3/30 3.2.2 Đa giác tần số và tổ chức đồ Đối với số liệu chưa ghép lớp - Chấm trên mặt phẳng các điểm (xi, ni), i = 1, 2, . . . , n. - Nối các điểm (xi, 0) với các điểm (xi, ni), ta được biểu đồ tần số hình gậy. - Nối liên tiếp điểm (xi, ni) với các điểm (xi+1, ni+1) ta được biểu đồ đa giác tần số. Hoàn toàn tương tự đối với tần suất - Chấm trên mặt phẳng các điểm (xi, fi), i = 1, 2, . . . , n. - Nối các điểm (xi, 0) với các điểm (xi, fi), ta được biểu đồ tần suất hình gậy. - Nối liên tiếp điểm (xi, fi) với các điểm (xi+1, fi+1) ta được biểu đồ đa giác tần suất. Ví dụ 3. Minh họa số liệu của ví dụ thống kê điểm 12 s 10 s 8 s 6 4 s s 2 0 4 5 6 7 8 Biểu đồ tần số hình gậy 64
  6. 12 10 8 6 4 2 0 4 5 6 7 8 Biểu đồ đa giác tần số Đối với số liệu đã ghép lớp. - Trên mỗi lớp ta dựng hình chữ nhật có chiều cao bằng tần số (hay tần suất) tương ứng với lớp đó. - Tô đậm hoặc kẻ chéo bằng các đường song song các hình chữ nhật này ta thu được tổ chức đồ tần số (hay tổ chức đồ tần suất). Ví dụ 4. Minh họa số liệu của ví dụ 2. 12 10 8 6 4 2 0 150 155 160 165 170 175 Biểu đồ đa giác tần số 3.3 Các đặc trưng của mẫu Trong nội dung chương 2 trước chúng ta đã được làm quen với việc tính các đặc trưng của đại lượng ngẫu nhiên thông qua phân phối xác suất đã biết trước. Tuy nhiên, trong thực tế thật khó khăn để xác định được tường minh phân phối xác suất của một đại lượng ngẫu nhiên gốc đám đông. Chính vì vậy, trên cơ sở của các 65
  7. thông tin thu thập được từ các mẫu, người ta đem ra một số công thức giúp chúng ta tính được các đặc trưng của mẫu. Các giá trị này rất quan trọng và có sự tương ứng với những số đặc trưng của đại lượng ngẫu nhiên đã trình bày ở phần trước. 3.3.1 Hàm phân phối mẫu X là đại lượng ngẫu nhiên gốc đám đông có hàm phân phối xác suất F (x) chưa mx biết. Khi ta thực hiện n quan sát, gọi hàm F (x) = với m : là số quan sát có giá n n x trị xi bé hơn x (i = 1, n) là hàm phân phối mẫu. Tính chất của hàm phân phối mẫu Fn(x): + 0 6 Fn(x) 6 1 + Fn(x) là hàm đơn điệu tăng + Fn(x) là hàm liên tục bên trái Khi kích thước mẫu lớn thì phân phối mẫu Fn(x) càng gần với phân phối xác suất của đại lượng ngẫu nhiên X. Khi n đủ lớn, ta có thể dùng Fn(x) thay thế cho F (x) chưa biết hoặc dựa vào Fn(x) ta có thể sơ lược về dáng điệu của F (x) và đưa ra những dự đoán về dạng của F (x) cũng như tính toán các số đặc trưng có liên quan. Ví dụ 1. Bảng tần số từ ví dụ thống kê điểm xi 4 5 6 7 8 ni 5 10 12 8 5 Hàm phân phối mẫu  0 với x 4  6  5   với 4 8 3.3.2 Trung bình mẫu Định nghĩa. Giả sử (X1,X2, , Xn) là mẫu ngẫu nhiên có kích thước n của đám n 1 X đông X, khi đó X được gọi là trung bình mẫu và ký hiệu là X. n i i=1 Trong thực hành tính toán Đối với một mẫu cụ thể (x1, x2, , xn) trung bình mẫu thực nghiệm xác định x = n 1 X x . n i i=1 Trường hợp mẫu cụ thể đã được ghép bộ có bảng tần số 66
  8. xi x1 x2 xk ni ni n2 nk k 1 X trung bình mẫu thực nghiệm là x = n x . n i i i=1 Ví dụ 2. Bảng tần số từ ví dụ thống kê điểm xi 4 5 6 7 8 ni 5 10 12 8 5 5 1 X 238 Khi đó x = n x = = 5,95. 40 i i 40 i=1 Nhận xét. Công thức tính trung bình mẫu ở trên là dạng tổng quát, tuy nhiên do đặc trưng số nên ta thường dùng khi nghiên cứu về một đặc điểm định lượng nào đó của đám đông. Đối với đặc điểm định tính A ta có khái niệm tỉ lệ mẫu n 1 X F = X n i i=1 trong đó Xi chỉ nhận 2 giá trị là 0 và 1 (bằng 1 nếu quan sát đó có tính chất A, bằng Pn 0 nếu quan sát đó không có tính chất A). Với m = i=1 Xi chính là số quan sát có m tính chất A, công thức tính tỉ lệ mẫu là F = . n 3.3.3 Phương sai mẫu và phương sai hiệu chỉnh mẫu Định nghĩa. Giả sử (X1,X2, , Xn) là mẫu ngẫu nhiên có kích thước n của đám n 1 X 2 đông X, khi đó X − X được gọi là phương sai mẫu và ký hiệu là Sˆ2. n i i=1 Ngoài ra, chúng ta thường dùng một đặc trưng mẫu khá quan trọng là phương sai n hiệu chỉnh mẫu, ký hiệu là S2, được xác định S2 = Sˆ2. n − 1 Mệnh đề. Giả sử (X1,X2, , Xn) là mẫu ngẫu nhiên có kích thước n của đám đông X. Ta có n 1 X Sˆ2 = X2 − (X)2 trong đó X2 = X2. n i i=1 Chứng minh. n n 1 X 2 1 X Sˆ2 = X − X = (X2 − 2X X + (X)2 n i n i i i=1 i=1 n 2 X =X2 − X X + (X)2 = X2 − (X)2. n i i=1 67
  9. Trong thực hành tính toán Đối với một mẫu cụ thể đã được ghép bộ có bảng tần số xi x1 x2 xk ni n1 n2 nk phương sai mẫu thực nghiệm và phương sai hiệu chỉnh mẫu thực nghiệm được xác định như sau k 1 X 2 2 sˆ2 = n x − x = x2 − x ; n i i i=1 n n s2 = sˆ2 = x2 − x2. n − 1 n − 1 s được gọi là độ lệch chuẩn mẫu. Việc đưa ra các khái niệm trung bình mẫu thực nghiệm (phương sai mẫu thực nghiệm, phương sai hiệu chỉnh mẫu thực nghiệm) chỉ nhằm nhấn mạnh đó là giá trị bằng số cụ thể, được xác định từ thực nghiệm. Ví dụ 3. Bảng tần số từ ví dụ thống kê điểm xi 4 5 6 7 8 ni 5 10 12 8 5 2 xi ni ni xi ni xi 4 5 20 80 5 10 50 250 6 12 72 432 7 8 56 392 8 5 40 320 Tổng 40 238 1474 238 1474 Ta có x = = 5,95; x2 = = 36,85. 40 40 sˆ2 = 36,85 − 5,952 = 1,4475; s2 ≈ 1,485. Chú ý. Đối với mẫu được ghép lớp, việc tính các số đặc trưng của mẫu cũng theo xi + xi+1 trình tự tiến hành như trên, trong mỗi lớp ta sử dụng giá trị trung điểm x0 = i 2 của lớp. Các phân phối xác suất của các đặc trưng mẫu  Trường hợp đám đông X có phân phối chuẩn N (µ, σ2) và σ đã biết σ2 X − µ√ X ∼ N (µ, ); n ∼ N (0, 1). n σ  Trường hợp đám đông X có phân phối chuẩn N (µ, σ2), σ chưa biết và n < 30 X − µ√ n ∼ t(n − 1). S 68
  10.  Trường hợp đám đông X không có phân phối chuẩn và n > 30 X − µ√ - Khi σ2 đã biết: n 'N (0, 1). σ X − µ√ - Khi σ2 chưa biết: n 'N (0, 1). S F − p √ - Khi p đã biết và np > 5; n(1 − p) > 5 đủ lớn: n 'N (0, 1). pp (1 − p) F − p √ - Khi p chưa biết và n đủ lớn: n 'N (0, 1). pF (1 − F ) 69
  11. HƯỚNG DẪN HỌC VIÊN TỰ HỌC CHƯƠNG 3 Chương này trình bày những kiến thức cơ bản về lý thuyết mẫu. Để học tốt chương này yêu cầu người học phải nắm vững các kiến thức và kĩ năng sau. 1. Lý thuyết - Định nghĩa mẫu và các phương pháp lấy mẫu. - Khái niệm bảng tần số, bảng tần suất. - Khái niệm đa giác tần số và tổ chức đồ. - Định nghĩa hàm phân phối mẫu. - Định nghĩa, các tính chất và các công thức tính trung bình mẫu, phương sai mẫu, phương sai hiệu chỉnh mẫu. 2. Bài tập - Biết lấy ví dụ để phân biệt được các khái niệm: mẫu ngẫu nhiên và mẫu cụ thể, đặc điểm định tính và đặc điểm định lượng. - Lập bảng tần số và bảng tần suất, vẽ biểu đồ đa giác tần số và tần suất. - Xác định hàm phân phối mẫu và tính được các số: trung bình mẫu, phương sai mẫu, phương sai hiệu chỉnh mẫu. 70
  12. BÀI TẬP CHƯƠNG 3 1. Cho ví dụ về đám đông, một số đặc điểm có thể nghiên cứu và các phương pháp thực hiện việc lấy mẫu trên đám đông đó. 2. Phân biệt sự khác nhau giữa mẫu ngẫu nhiên và mẫu cụ thể, cho ví dụ minh họa. 3. Phân biệt sự khác nhau giữa đặc điểm định lượng và đặc điểm định tính. Cho ví dụ về hai đặc điểm cùng nghiên cứu trên một đám đông. 4. Khi đo độ dài của 36 chi tiết được lấy ngẫu nhiên từ một loại sản phẩm, người ta thu được bảng số liệu sau đây: 15 14 16 14 15 12 13 16 13 12 15 13 16 13 15 13 16 13 16 13 15 12 15 15 14 14 15 15 16 15 a. Lập bảng tần số và bảng tần suất. b. Vẽ biểu đồ đa giác tần số và tần suất c. Tìm hàm phân phối mẫu. 5. Dưới đây là số liệu được lấy ngẫu nhiên về thời gian đợi của các khách hàng (tính bằng giây) tại quầy thanh toán tiền ở một siêu thị đối với 48 khách hàng 3 24 34 5 14 22 3 19 13 32 19 4 24 30 48 24 14 16 3 4 5 14 19 41 43 16 48 4 58 13 10 60 12 14 14 22 3 16 14 4 34 32 4 19 12 24 13 26 a. Lập bảng tần số ghép lớp và bảng tần suất ghép lớp. b. Vẽ bảng tổ chức đồ tần số và tần suất. c. Tính trung bình mẫu và phương sai mẫu và phương sai hiệu chỉnh mẫu. 6. Mẫu điều tra kích thước 35 đối với hai đặc điểm X và Y của một loại sản phẩm được kết quả bảng số liệu dưới đây: X\Y 64 65 66 6-10 3 8 3 10-14 0 5 2 14-16 6 1 0 16-20 0 3 4 a. Lập bảng tần số, tần suất của Y . b. Những sản phẩm được gọi là đạt chất lượng nếu X 6 16 và Y > 64. Tính tỉ lệ sản phẩm đạt chất lượng. c. Lập bảng tần số và tính trung bình mẫu của chỉ tiêu Y đối với các sản phẩm có X > 10. 71
  13. 7. Cơ quan quản lý thị trường lấy số liệu về giá thành bán lẻ của một loại sản phẩm tại 40 đại lý (đơn vị: ngàn), người ta thu được bảng tần số như sau xi 19 20 21 22 ni 8 16 6 10 a. Tìm hàm phân phối mẫu. b. Tính trung bình mẫu và độ lệch chuẩn mẫu. 8. Tìm hàm phân phối mẫu, trung bình mẫu, phương sai hiệu chỉnh mẫu đối với hai mẫu cụ thể sau: x 19,2 19,8 20,1 20,3 20,7 x 460 480 490 505 a. i b. i ni 6 2 4 2 6 ni 5 6 10 4 9. Điều tra ngẫu nhiên ý kiến của 2500 số khách hàng thường xuyên đi xe taxi về chất lượng phục vụ của 3 hãng taxi thu được kết quả sau đây: Chất lượng Hãng taxi phục vụ A B C Rất tốt 140 110 205 Khá 230 150 350 Bình thường 350 225 520 Kém 80 15 125 Hãy tính đặc trưng mẫu cho từng hãng taxi và nêu đánh giá sơ bộ từ số liệu điều tra trên. 72
  14. CHƯƠNG 4 ƯỚC LƯỢNG THAM SỐ Giả sử đại lượng ngẫu nhiên X có luật phân phối phụ thuộc vào một tham số hoặc một véctơ tham số θ chưa biết. Khi đó để xác định hoàn toàn phân phối xác suất của X ta phải xác định được giá trị tham số θ. Đây chính là bài toán ước lượng tham số. Chẳng hạn biết X là đại lượng ngẫu nhiên có phân phối Poisson nhưng chưa biết tham số λ là bao nhiêu hoặc Y là đại lượng ngẫu nhiên có phân phối chuẩn nhưng chưa xác định được (µ, σ) Chính vì vậy bài toán ước lượng tham số của đại lượng ngẫu nhiên là rất cần thiết. 4.1 Ước lượng điểm 4.1.1 Định nghĩa Giả sử X là đại lượng ngẫu nhiên gốc đám đông C, có tham số θ cần ước lượng. Thực hiện n lần quan sát độc lập ta thu được mẫu ngẫu nhiên (X1,X2, , Xn), để ước ˆ lượng tham số θ ta phải tìm ra một hàm mẫu thống kê θ(X1,X2, , Xn) "đủ tốt", chỉ phụ thuộc vào các quan sát mà không phụ thuộc vào θ được gọi là bài toán ước lượng điểm của θ và θˆ được gọi là ước lượng điểm của θ. Do giá trị đúng của θ là chưa biết, nên ta không thể so sánh trực tiếp giá trị của θˆ và θ mà chỉ đưa ra một số tiêu chuẩn để đánh giá ước lượng. Trong các loại ước lượng điểm, ta thường quan tâm đến bốn loại ước lượng sau đây: ˆ  Ước lượng θ(X1,X2, , Xn) được gọi là ước lượng không chệch của θ, nếu thỏa mãn Eθˆ = θ. ˆ  Ước lượng θ(X1,X2, , Xn) được gọi là ước lượng vững của θ, nếu với n lớn vô hạn thì θˆ hội tụ theo xác suất về θ, nghĩa là với mọi ε > 0 tùy ý thì lim [|θˆ − θ| < ε] = 1. n→∞ P ˆ  Ước lượng θ(X1,X2, , Xn) được gọi là ước lượng hợp lý tối đa của θ, nếu n Y L(x, θ) = p(Xi, θ) i=1 đạt cực đại tại θˆ. L(x, θ) được gọi là hàm hợp lý của X, trong đó p(x, θ) là hàm mật độ xác suất hoặc là hàm tính xác suất của đại lượng ngẫu nhiên X. 73
  15. ˆ  Ước lượng θ(X1,X2, , Xn) được gọi là ước lượng hiệu quả của θ, nếu như nó là ước lượng không chệch và có phương sai bé nhất trong tất cả các ước lượng không chệch của θ. Nếu hàm mật độ xác suất của đại lượng ngẫu nhiên X thỏa mãn thêm một số điều kiện nhất định thì ta có bất đẳng thức Cramer-Rao ∗ 1 ∗ ∗ D(θ ) > ; ∀θ : E(θ ) = θ. ∂ ln p(X, θ)2 n E ∂θ do đó, ước lượng không chệch θˆ là ước lượng hiệu quả của θ khi 1 V (θˆ) = . ∂ ln p(X, θ)2 n E ∂θ Từ bất đẳng thức Cramer-Rao, ta thấy một điều lý thú đó là: đã là ước lượng thì phải chấp nhận sai số, bất đẳng thức cho ta cận dưới của sai số. 4.1.2 Ước lượng điểm cho kỳ vọng, xác suất và phương sai Ước lượng điểm cho kỳ vọng Mệnh đề. Giả sử X là đại lượng ngẫu nhiên gốc đám đông C, có kỳ vọng µ cần ước lượng, khi đó trung bình mẫu X chính là ước lượng không chệch của µ. Chứng minh. Thật vậy, vì Xi, i = 1, n có cùng phân phối với đại lượng ngẫu nhiên X nên X + X + + X X = E 1 E 2 E n = X = µ. E n E Ngoài ra, người ta còn chứng minh được trung bình mẫu X đồng thời còn là ước lượng vững và ước lượng hiệu quả của µ. Ví dụ 1. Nếu X là đại lượng ngẫu nhiên có phân phối chuẩn N (µ, σ2) thì X là ước lượng hiệu quả của µ. Giải. Vì X là ước lượng không chệch của µ nên ta chỉ cần chứng minh nó có phương sai bé nhất trong các ước lượng không chệch khác của µ. Ở đây θ = µ cần ước lượng, hàm mật độ của phân phối chuẩn tắc có dạng 2 1 − (x−µ) p(x, µ) = √ e 2σ2 . σ 2π Khi đó ∂ ln p(x, µ) ∂  √ (x − µ)2  x − µ = − ln(σ 2π) − = . ∂µ ∂µ 2σ2 σ2 Vì vậy 1 1 σ4 σ2 = = = = DX. ∂ ln p(X, µ)2 n X−µ 2 nDX n n E σ2 E ∂µ 74
  16. Sử dụng bất đẳng thức Cramer-Rao, ta suy ra được X là ước lượng hiệu quả của µ. Ước lượng điểm cho phương sai Mệnh đề. Giả sử X là đại lượng ngẫu nhiên gốc đám đông C, có phương sai DX = σ2 cần ước lượng, khi đó phương sai hiệu chỉnh mẫu S2 chính là ước lượng không chệch của σ2. Chứng minh. Thật vậy, vì Xi, i = 1, n có cùng phân phối với đại lượng ngẫu nhiên X nên n  n  1 X S2 = X2 − (X)2 = X2 − n (X)2. E E n − 1 n − 1 E i E i=1 Mặt khác 2 2 2 2 EXi = DXi + (EXi) = σ + µ ; n 1 X X σ2 + µ2 n − 1 (X)2 = X2 + X X  = + µ2, E n2 E i E iE j n n i=1 i6=j 1 suy ra S2 = n(σ2 + µ2) − (σ2 + µ2 + (n − 1)µ2) = σ2. E n − 1 n − 1 Như vậy S2 là ước lượng không chệch của σ2. Mặt khác Sˆ2 = S2 nên Sˆ2 không n phải là ước lượng không chệch của σ2. Tuy nhiên người ta chứng minh được rằng cả S2 và Sˆ2 đều là ước lượng vững của σ2. Ước lượng hợp lý tối đa được xác định cho từng trường hợp cụ thể. Ví dụ sau là dạng ước lượng kỳ vọng và phương sai cho đại lượng ngẫu nhiên có phân phối chuẩn. Ví dụ 2. Nếu X là đại lượng ngẫu nhiên có phân phối chuẩn N (µ, σ2) thì X và Sˆ2 lần lượt là ước lượng hợp lý tối đa của µ và σ2. Giải. Hàm hợp lý 1 − 1 Pn (X −µ)2 L(x, θ) = √ e 2σ2 i=1 i , (σ 2π)n suy ra n 1 X n n ln L(x, θ) = − (X − µ)2 − ln(2π) − ln σ2. 2σ2 i 2 2 i=1 Việc tìm cực đại hàm ln L(x, θ) dẫn đến hệ phương trình  n ∂ ln L(x, θ) X Xi − µ  = = 0;  ∂µ σ2  i=1 n 2 ∂ ln L(x, θ) X (Xi − µ) n  = − = 0.  ∂σ2 2σ4 2σ2 i=1 Do đó X và Sˆ2 lần lượt là ước lượng hợp lý tối đa của µ và σ2. 75
  17. Ước lượng điểm cho xác suất Mệnh đề. Giả sử X là đại lượng ngẫu nhiên gốc đám đông C, ta cần quan tâm đến một tính chất A có xác suất p = P(A) = EX cần ước lượng, khi đó tỉ lệ mẫu F chính là ước lượng không chệch của xác suất p. Khẳng định trên là hiển nhiên vì thực chất tỉ lệ mẫu cũng là trung bình mẫu khi đặc điểm định tính được số hóa dưới dạng ( 1 khi phần tử đó có tính chất A ; Xi = 0 khi phần tử đó không có tính chất A, và EF = EX = EX = p. Ngoài ra người ta còn chứng minh được F cũng chính là ước lượng vững của xác suất p. 4.2 Ước lượng khoảng Trong nội dung của phần trước, chúng ta đã đề cập đến ước lượng điểm của tham số. Do θ là tham số chưa biết nên ước lượng điểm chỉ cho ta một cách nhìn hết sức tương đối và có phần chưa thỏa đáng. Sau đây chúng ta sẽ suy nghĩ đến một cách tiếp cận khác để tìm ra miền giá trị của θ. 4.2.1 Khái niệm về khoảng tin cậy Cho X là đại lượng ngẫu nhiên gốc đám đông C, có tham số θ cần ước lượng. Căn cứ vào mẫu ngẫu nhiên từ n quan sát độc lập (X1,X2, , Xn), ta cần đưa ra khoảng (θ1, θ2) chứa được hầu hết các giá trị θ với xác suất lớn, nghĩa là P(θ1 < θ < θ2) = 1 − α . Một số khái niệm  (θ1, θ2): được gọi là khoảng tin cậy của ước lượng.  θ1 − θ2 = 2ε: được gọi là độ dài khoảng tin cậy của ước lượng.  ε: được gọi là độ chính xác của ước lượng.  1 − α: được gọi là độ tin cậy của của ước lượng.  Bài toán đi tìm khoảng tin cậy cho tham số θ với độ tin cậy 1 − α được gọi là bài toán ước lượng khoảng tin cậy. 4.2.2 Khoảng tin cậy cho giá trị trung bình Cho X là đại lượng ngẫu nhiên gốc đám đông C, có trung bình EX = µ cần ước lượng và phương sai DX = σ2 (đã biết trước hoặc chưa biết), từ mẫu ngẫu nhiên (X1,X2, , Xn) ta xác định được X. a. Ước lượng hai phía Vấn đề đặt ra ở đây là với độ tin cậy 1 − α cho trước, tìm khoảng ước lượng (X − ε, X + ε) của µ để P[X − ε < µ < X + ε] = 1 − α. 76
  18. Ta chia bài toán thành 3 trường hợp để giải quyết Trường hợp 1. Phương sai σ2 đã biết X − µ√ Khi đó n 'N (0, 1), đặt t = ϕ−1(1 − α ), trong đó ϕ là hàm phân phối σ α/2 2 chuẩn N (0, 1) và tα/2 là mức phân vị α/2 cho phân phối chuẩn. Ta có X − µ√  − t 30 X − µ√ Khi đó n 'N (0, 1), việc thiết lập tương tự như ở trường hợp 1, ta được S h S S i X − t √ < µ < X + t √ = 1 − α . P α/2 n α/2 n Như vậy, với một mẫu cụ thể, ta sẽ xác định được độ chính xác của ước lượng s ε = t √ và khoảng ước lượng α/2 n s s (x − t √ < µ < x + t √ ). α/2 n α/2 n 77
  19. Ví dụ 2. Để ước lượng khối lượng trung bình mỗi bao xi măng của nhà máy. Kiểm tra ngẫu nhiên 49 bao thu được khối lượng trung bình là 49,7kg và độ lệch chuẩn mẫu 0,5kg. Với độ tin cậy là 94%, hãy ước lượng khoảng khối lượng trung bình của một bao xi măng. Giải. α =0,06, tα/2 =1,88. Độ chính xác của ước lượng s 0,5 ε = tα/2 √ = 1,88√ = 0,13. n 49 Khoảng ước lượng cho giá trị trung bình: (49,57 (n−1,α/2) P S t(n−1,α/2)) = α/2. Khi đó X − µ√  − t < n < t  P (n−1,α/2) S (n−1,α/2) X − µ√ = t < n < t  P (n−1,1−α/2) S (n−1,α/2) = 1 − α/2 − α/2 = 1 − α. Quy tắc thực hành  Xác định mức phân vị t(n−1,α/2) Tra bảng phân phối Student (xem bảng 5 phần phụ lục), t(n−1,α/2) là giá trị trong bảng ứng với giá trị hàng là n − 1 và cột là α/2.  Xác định khoảng ước lượng (x − ε, x + ε) với độ chính xác của ước lượng s ε = t √ (n−1,α/2) n Ví dụ 3. Độ chịu lực của mỗi tấm bê tông tuân theo luật phân phối chuẩn. Đo độ chịu lực của 20 tấm bê tông cùng loại người ta thu được trung bình mẫu độ chịu lực 220kg/cm2 và độ lệch chuẩn mẫu 32,4kg/cm2. Với độ tin cậy 90%, tìm khoảng ước lượng trung bình độ chịu lực của mỗi tấm bê tông. Giải. Tra bảng hàm phân phối Student ứng ta được t(19;0,05) =1,729. Độ chính xác của ước lượng s ε = t √ ≈ 12,5. (n−1,α/2) n Khoảng ước lượng cho giá trị trung bình: (187,5 < µ < 212,5). Các dạng toán phát sinh Xuất phát từ các công thức tương ứng với từng trường hợp σ s s ε = t √ ; ε = t √ ; ε = t √ . α/2 n α/2 n (n−1, α/2) n 78
  20.  Cho 1 − α và n tìm độ chính xác của ước lượng ε  Cho 1 − α và ε tìm kích thước mẫu n.  Cho ε và n tìm độ tin cậy của ước lượng 1 − α. Một số trong số các vấn đề này sẽ được đề cập ở phần sau. b. Ước lượng một phía Vấn đề đặt ra ở đây là với độ tin cậy 1 − α cho trước, tìm khoảng ước lượng một phía  Khoảng ước lượng bên trái (−∞, X + ε): P[−∞ 30 Lý luận hoàn toàn tương tự, khoảng ước lượng bên trái và bên phải lần lượt là s (−∞, x + ε), (x − ε, +∞) trong đó ε = t √ . α n Trường hợp 3. Phương sai σ2 chưa biết và n < 30 Khoảng ước lượng bên trái và bên phải lần lượt là (−∞, x + ε), (x − ε, +∞) trong s đó ε = t √ . (n−1,α) n Ước lượng khoảng cho giá trị trung bình ứng với 3 trường hợp được mô tả qua bảng tổng hợp sau Loại ước Độ chính xác của ước lượng: ε ε lượng TH1 TH2 TH3 σ s s Hai phía (x − ε, x + ε) t √ t √ t √ α/2 n α/2 n (n−1,α/2) n σ s s Bên trái (−∞, x + ε) t √ t √ t √ α n α n (n−1,α) n Bên phải (x − ε, +∞) 79
  21. Ví dụ 4. Để đánh giá về mức doanh thu hàng tháng tại các đại lý nhỏ trên một địa bàn, người ta lấy mẫu gồm 36 đại lý. Kết quả thu được như sau: doanh thu trung bình là 155,3 triệu đồng và độ lệch chuẩn mẫu là 16 triệu đồng. Với độ tin cậy 99%, ước lượng doanh thu trung bình tối đa và tối thiểu của mỗi đại lý. Giải. 1 − α = 0,99; tα =2,33. Độ chính xác của ước lượng s 16 ε = tα √ = 2,33√ ≈ 6,21. n 36 Doanh thu tối thiểu: x − ε =149,09; Doanh thu tối đa: x + ε =161,51. 4.2.3 Khoảng tin cậy cho tỉ lệ a. Ước lượng hai phía Đám đông X có tỉ lệ p cần ước lượng, từ mẫu ngẫu nhiên chúng ta xác định được tỉ lệ F , vấn đề đặt ra ở đây là với độ tin cậy 1 − α cho trước, tìm khoảng ước lượng (F − ε, F + ε) của p để P[F − ε 10 và n(1 − f) > 10  Xác định mức phân vị tα/2  Xác định khoảng ước lượng (f − ε, f + ε) với độ chính xác của ước lượng r f(1 − f) ε = t α/2 n Ví dụ 5. Để ước lượng tỉ lệ phế phẩm của một kho hàng. Người ta kiểm tra 100 sản phẩm, phát hiện có 20 sản phẩm là phế phẩm. Với độ tin cậy 95%, hãy ước lượng khoảng tỉ lệ phế phẩm của kho hàng. Giải. tα/2 =1,96; f =0,2; n =100. Độ chính xác của ước lượng r f(1 − f) ε = t = 0,0784. α/2 n Khoảng ước lượng cho tỉ lệ phế phẩm: (0,1216 < p < 0,2784). 80
  22. b. Ước lượng một phía Với các bước thiếp lập tương tự ta thu được khoảng ước lượng của p bên trái là q f(1−f) p f − ε, trong đó ε = tα n Ví dụ 6. Cho giả thiết như ví dụ 5. Ước lượng tỉ lệ phế phẩm tối đa và tối thiểu. Giải. tα =1,64; f =0,2; n =100. Độ chính xác xủa ước lượng r f(1 − f) ε = t = 0,0656. α n Tỉ lệ sản phẩm tối thiểu: f − ε =0,1344; Tỉ lệ sản phẩm tối đa: f + ε =0,2656. Ví dụ 7. Một lô hàng nhập cảng gồm 5.000 thiết bị điện tử đã qua sử dụng. Cơ quan quản lý kiểm tra ngẫu nhiên 100 thiết bị từ lô hàng thì có 82 thiết bị có thể tiếp tục sử dụng được. Với độ tin cậy 90%, lô hàng có tối thiểu bao nhiêu thiết bị có thể tiếp tục sử dụng được? Giải. tα =1,28; f =0,82; n =100; N =5.000. Độ chính xác xủa ước lượng r f(1 − f) ε = t = 0,0492. α n Tỉ lệ sản phẩm tối thiểu: f − ε =0,7708. Vậy, số thiết bị tối thiểu có thể tiếp tục sử dụng được: N(f − ε) = 4864. Các dạng toán phát sinh Xuất phát từ các công thức s f(1 − f) ε = t . α/2 n  Cho 1 − α và n tìm độ chính xác của ước lượng ε  Cho 1 − α và ε tìm kích thước mẫu n.  Cho ε và n tìm độ tin cậy của ước lượng 1 − α. 4.2.4 Độ chính xác của ước lượng Trong các nội dung trước chúng ta đã giải quyết bài toán xây dựng ước lượng khoảng cho trung bình và ước lượng khoảng cho tỉ lệ, nghĩa là từ mẫu cụ thể, độ tin cậy 1 − α ta sẽ xác định được khoảng ước lượng cho tham số θ là (θ1, θ2) trong đó độ θ2−θ1 chính xác của ước lượng ε = 2 . Trong các trường hợp đã trình bày thì ε phụ thuộc vào kích thước mẫu n. Bây giờ ta đặt ra bài toán ngược: với độ tin cậy 1 − α đã biết, cho độ chính xác của ước lượng ε, tìm kích thước mẫu n cần thiết để nhận được ước lượng với độ chính xác đã cho. Chúng ta sẽ giải quyết bài toán này đối với trường hợp 1 của bài toán ước lượng khoảng trung bình. Các trường hợp còn lại là hoàn toàn tương tự (giành cho bạn đọc). 81
  23. Trong trường hợp này, khoảng ước lượng là (x − ε, x + ε) và công thức xác định độ σ chính xác của ước lượng ε = t √ . Kích thước mẫu điều tra cần thiết nếu độ chính α/2 n xác của ước lượng ε0 là 2 2 htα/2 σ i n = 2 + 1, ε0 trong đó ký hiệu [x] là phần nguyên của [x], chẳng hạn [20, 36] = 20. Ví dụ 8. Với giả thiết như ở ví dụ 1: σ2 = 16; 1 − α =0,95. Muốn có ước có độ chính xác là 1 thì phải điều tra mẫu có kích thước bao nhiêu? Giải. Như vậy ε0 = 1, khi đó 2 2 htα/2 σ i n = 2 + 1 = 62. ε0 Ngoài ra, chúng ta còn giải quyết được bài toán ngược dạng tìm độ tin cậy của ước lượng khi biết độ chính xác của ước lượng và kích thước mẫu. Vấn đề này được đề cập trong ví dụ sau đây Ví dụ 9. Một mẫu thống kê có kích thước n = 36 có trung bình mẫu là 100 và độ lệch chuẩn mẫu là 5. Tìm độ tin cậy của ước lượng nếu khoảng ước lượng là (99; 101). √ ε n Giải. Tính mức phân vị: t α = = 2. Độ tin cậy của ước lượng 2 s 1 − α = 2ϕ(tα/2) = 0,955. 82
  24. HƯỚNG DẪN HỌC VIÊN TỰ HỌC CHƯƠNG 4 Chương này trình bày những kiến thức cơ bản về bài toán ước lượng tham số. Để học tốt chương này yêu cầu người học phải nắm vững các kiến thức và kĩ năng sau. 1. Lý thuyết - Các định nghĩa liên quan đến ước lượng điểm, như: ước lượng điểm, ước lượng không chệch, ước lượng vững, ước lượng hợp lý tối đa, ước lượng hiệu quả. - Định nghĩa ước lượng điểm cho kì vọng, cho phương sai và cho xác suất. - Các khái niệm liên quan đến ước lượng khoảng, như: khoảng tin cậy, bài toán ước lượng khoảng tin cậy, độ dài khoảng tin cậy, độ chính xác, độ tin cậy. - Khoảng tin cậy cho giá trị trung bình đối với nhiều trường hợp khác nhau: ước lượng một phía hay ước lượng hai phía, đã biết hay chưa biết phương sai σ2. - Khoảng tin cậy cho tỷ lệ đối với 2 trường hợp: ước lượng một phía hay ước lượng hai phía. - Độ chính xác của ước lượng. 2. Bài tập - Tính được các loại ước lượng điểm cho một số bài toán cụ thể. - Tính được khoảng ước lượng cho giá trị trung bình trong một số bài toán cụ thể. - Tính được khoảng ước lượng cho tỷ lệ trong một số bài toán cụ thể. - Tìm kích thước mẫu phù hợp trong các bài toán ước lượng khoảng. - Vận dụng bài toán ước lượng khoảng cho tỷ lệ để ước lượng số lượng đối tượng cần nghiên cứu. 83
  25. BÀI TẬP CHƯƠNG 4 1. Giả sử (X1,X2, , Xn) là mẫu ngẫu nhiên kích thước n của đám đông X có EX = µ. Chứng minh rằng n n 1 X 1 X (X − µ)2 và (X − X)2 n i n − 1 i i=1 i=1 đều là các ước lượng không chệch của phương sai DX. 2. Giả sử (X1,X2, , Xn) là mẫu ngẫu nhiên kích thước n từ phân phối với hàm mật độ là:  1 − x  e θ với x > 0, θ > 0 p(x, θ) = θ 0 với x 6 0 Tìm ước lượng hiệu quả của θ. 3. Giả sử (X1,X2, , Xn) là mẫu ngẫu nhiên kích thước n từ phân phối Poisson với tham số EX = DX = λ > 0. Tìm ước lượng hợp lý tối đa của λ. 4. Để xác định độ chính xác của một chiếc cân, người ta tiến hành cân một quả tạ. Kết quả thu được sau 7 lần cân như sau: 159,8 159,7 160,2 159,6 160,4 159,5 160,6 (kg) a. Tìm ước lượng không chệch khối lượng quả cân. b. Tìm ước lượng không chệch phương sai số đo trong hai trường hợp - Biết khối lượng quả cân là 160 kg. - Chưa biết khối lượng của quả cân. 5. Cơ quan quản lý thị trường lấy số liệu về giá thành bán lẻ của một loại sản phẩm tại 40 đại lý, người ta thu được bảng tần số như sau: (đơn vị: ngàn đồng) xi 39 40 41 42 ni 8 16 4 12 a. Tính trung bình mẫu x và phương sai mẫu hiệu chỉnh sˆ2. b. Với độ tin cậy 95%, ước lượng khoảng giá thành bán lẻ trung bình mỗi sản phẩm. 6. Một dây chuyền sản xuất những thanh kim loại có chiều dài tuân theo luật phân phối chuẩn. Người ta chọn ngẫu nhiên ra một số thanh và đo chiều dài (đơn vị: cm) của chúng, thu được dãy số liệu sau: 149; 151; 148; 152; 151; 152; 149; 148; 149; 151; 152; 149; 151; 149; 152 a Tính trung bình mẫu x và phương sai mẫu hiệu chỉnh sˆ2. b Với độ tin cậy 90%, ước lượng khoảng độ dài trung bình của mỗi thanh kim loại. 84
  26. 7. Một dây chuyền tự động đóng gói một loại bao gạo có khối lượng tuân theo luật phân phối chuẩn với độ lệch chuẩn là 0,5. Người ta cân kiểm tra 20 bao gạo, thu được bảng tần số như sau: (đơn vị: kg) xi 49,3 49,5 49,9 50,2 ni 6 2 4 8 a. Tính trung bình mẫu x và phương sai mẫu hiệu chỉnh sˆ2. b. Với độ tin cậy 98%, ước lượng khoảng khối lượng trung bình của mỗi bao gạo. 8. Nhà sản xuất muốn ước lượng khối lượng sắt trong mỗi cuộn được sản xuất từ một dây chuyền công nghệ quốc gia. Theo tiêu chuẩn của công nghệ, độ lệch chuẩn là 8 kg. Điều tra một mẫu 50 cuộn được khối lượng sắt trung bình là 97kg. a. Với độ tin cậy là 99%, ước lượng khối lượng sắt trung bình của một cuộn. b. Với độ tin cậy là 99%, ước lượng khối lượng sắt trung bình tối thiểu của một cuộn. c. Nếu nhà sản xuất muốn ước lượng khối lượng sắt trung bình của mỗi cuộn đảm bảo độ chính xác là 2 kg thì cần điều tra thêm bao nhiêu cuộn nữa. 9. Một công ty có 500 đại lý, để đánh giá về mức doanh thu, người ta lấy mẫu gồm 36 đại lý. Kết quả thu được như sau: doanh thu trung bình là 84,5 triệu đồng và độ lệch chuẩn mẫu là 3 triệu đồng. Với độ tin cậy 99%, hãy ước lượng doanh thu tối thiểu và tối đa của công ty. 10. Người ta đo chiều sâu của biển bằng một loại thiết bị điện tử, kết quả đo tuân theo luật phân phối chuẩn có phương sai 400m2. Với độ tin cậy là 95% Phải đo ít nhất bao nhiêu lần để kết quả có sai số không vượt quá 15m. 11. Một mẫu thống kê có kích thước n = 64, tuân theo luật phân phối chuẩn với trung bình mẫu là 200, độ lệch chuẩn mẫu là 3. Tìm độ tin cậy của ước lượng nếu khoảng ước lượng là (199, 201). 12. Để đánh giá hiệu quả của một loại thuốc, người ta đem sử dụng cho 1000 bệnh nhân thì có 820 người khỏi bệnh. Với độ tin cậy 96 % a. Hãy ước lượng khoảng cho tỉ lệ chữa khỏi bệnh của loại thuốc trên. b. Hãy ước lượng tỉ lệ chữa bệnh tối đa và tối thiểu của loại thuốc trên. 13. Tỉ lệ chính phẩm của một nhà máy là 90%. Với độ tin cậy 95%, muốn ước lượng tỉ lệ chính phẩm của nhà máy với độ dài khoảng tin cậy không quá 0,02 thì phải kiểm tra ít nhất bao nhiêu sản phẩm? 14. Một kho hàng tồn gồm 10.000 chiếc bút bi. Lấy mẫu gồm 100 chiếc bút từ kho hàng ra kiểm tra thì có 75 chiếc đạt chất lượng. Với độ tin cậy 95%, hãy ước lượng khoảng tỉ lệ số bút không đạt chất lượng và suy ra khoảng tin cậy số bút không đạt chất lượng của kho. 85
  27. 15. Tại một bang có 4 triệu người tham gia bầu cử, người ta phóng vấn ngẫu nhiên 1000 cử tri thì có 720 cử tri ủng hộ một ứng cử viên A. Với độ tin cậy là 95%, có ít nhất bao nhiêu cử tri của bang đó đã ủng hộ ứng cử viên A? 16. Để đánh giá trữ lượng cá trong một hồ nuôi, người ta bắt 1000 con cá và đánh dấu chúng, sau đó thả lại hồ. Lần thứ hai người ta bắt 200 con thì thấy có 30 con được đánh dấu. Với độ tin cậy là 95% a. Hãy ước lượng trữ lượng cá trong hồ. b. Nếu muốn sai số của ước lượng giảm đi một nửa thì cần phải bắt bao nhiêu con cá. 86
  28. CHƯƠNG 5 KIỂM ĐỊNH GIẢ THIẾT Kiểm định giả thiết là một dạng bài toán xử lý số liệu thống kê có nhiều ý nghĩa trong thực tế. Phạm vi nghiên cứu khá rộng và phức tạp về mặt lý thuyết nếu muốn giải quyết thật tỉ mỉ, chính xác các vấn đề. Nội dung chính của chương này là đề cập đến các dạng bài toán kiểm định giả thiết về trung bình và tỉ lệ, phần cuối là bài toán kiểm định tính độc lập. 5.1 Các khái niệm cơ bản 5.1.1 Giả thiết thống kê Giả thiết thống kê là các giả thiết có thể nói về  Dạng quy luật phân phối của đại lượng ngẫu nhiên gốc đám đông  Tính độc lập giữa 2 đặc điểm của cùng một đám đông  Các số đặc trưng của đại lượng ngẫu nhiên gốc đám đông như trung bình µ, tỉ lệ p, phương sai σ2. Giả thiết thống kê được ký hiệu là H, mệnh đề đối lập với nó được gọi là đối thiết, ký hiệu là K. Giả thiết và đối thiết được nghiên cứu đồng thời, nếu chấp nhận H thì phải bác bỏ K và ngược lại, H và K tạo thành một cặp giả thiết thống kê. Phương pháp dùng các công cụ thống kê để xử lý thông tin thu thập được trên mẫu điều tra, sau đó kết luận chấp nhận hay bác bỏ một giả thiết thống kê được gọi là kiểm định giả thiết thống kê. Ví dụ 1. Hai bài toán kiểm định giả thiết thống kê - Kiểm định xem giữa trình độ học vấn và giới tính của một tỉnh A có độc lập với nhau hay không H: Trình độ học vấn và giới tính của tỉnh A độc lập với nhau. K: Trình độ học vấn và giới tính của tỉnh A không độc lập với nhau (phụ thuộc). - Kiểm định tính hiệu quả từ việc cải tiến kỷ thuật của một nhà máy H: Năng suất trước và sau khi cải tiến kỷ thuật là như nhau (chưa mang lại hiệu quả). K: Năng suất sau khi cải tiến kỷ thuật cao hơn năng suất trước khi cải tiến kỷ thuật (mang lại hiệu quả). 87
  29. 5.1.2 Tiêu chuẩn kiểm định giả thiết thống kê Xét bài toán kiểm định số đặc trưng, giả sử ta cần nghiên cứu tham số θ của đại lượng ngẫu nhiên X với cặp giả thiết thống kê là Giả thiết: H : θ = θ0 ; Đối thiết: K : θ 6= θ0. Để kiểm định giả thiết thống kê, người ta đưa ra một đại lượng ngẫu nhiên T = T (X1,X2, , Xn) lập từ mẫu ngẫu nhiên có kích thước n và có thể phụ thuộc vào θ0. Với giá trị α bé tùy ý cho trước gọi là mức ý nghĩa, theo một tiêu chuẩn nào đó, ta chia miền giá trị có thể nhận được của T thành hai phần: Wα và W α trong đó Wα được gọi là miền bác bỏ H và W α được gọi là miền chấp nhận H. Kết luận đưa ra của bài toán kiểm định phụ thuộc vào giá trị của ttn = T (x1, x2, , xn) thu được từ một mẫu cụ thể - Nếu ttn ∈ Wα : bác bỏ H, chấp nhận K; - Nếu ttn ∈ W α: chấp nhận H. Trong quá trình giải bài toán kiểm định giả thiết thống kê, ta có thể mắc phải hai loại sai lầm sau đây:  Sai lầm loại 1: bác bỏ H trong khi H đúng;  Sai lầm loại 2: chấp nhận H trong khi H sai. Xác suất mắc sai lầm loại 1 là P[T ∈ Wα|H đúng] = α và xác suất mắc sai lầm loại 2 là P[T ∈ W α|H sai] = β. Điều mà chúng ta mong muốn là có một tiêu chuẩn nào đó để cả hai giá trị xác suất phạm sai lầm α và β đều nhỏ, tuy nhiên ta không thể đồng thời làm giảm cả hai giá trị xác suất đó. Chính vì vậy, thông thường người ta ấn định mức ý nghĩa α một giá trị tương đối nhỏ (1%, 2%, 5%, ) tùy theo yêu cầu, sau đó sử dụng nguyên lý Neyman-Pearson hoặc một số quy tắc (quy tắc Student, quy tắc χ2, quy tắc F ) để tìm miền bác bỏ Wα sao cho khả năng phạm sai lầm loại 2 là nhỏ nhất (xem [51]). Chú ý - Như vậy cơ sở của việc xây dựng tiêu chuẩn kiểm định trên đây không liên quan đến các nội dung trong phần ước lượng khoảng đã đề cập trong chương 4. Tuy nhiên trong một số trường hợp, khi thực hành tính toán chúng ta vẫn có thể chấp nhận hay bác bỏ giả thiết H nhờ vào đánh giá tương đương  Nếu θ0 ∈ [θ1, θ2] : chấp nhận giả thiết H;  Nếu θ0 ∈/ [θ1, θ2] : bác bỏ giả thiết H, chấp nhận đối thiết K, trong đó (θ1, θ2) là khoảng ước lượng cho tham số θ với độ tin cậy 1 − α. - Phần trình bày trên chỉ dành cho bài toán kiểm định số đặc trưng theo hai phía, ngoài ra còn có bài toán kiểm định một phía và một số dạng toán toán kiểm định khác nữa như kiểm định phân phối, kiểm định tính độc lập 88
  30. 5.2 Kiểm định giả thiết về giá trị trung bình và về tỉ lệ 5.2.1 Kiểm định giả thiết về giá trị trung bình Đây là một dạng bài toán kiểm định số đặc trưng EX = µ của biến ngẫu nhiên gốc đám đông X (so sánh giá trị kỳ vọng của đại lượng ngẫu nhiên X với giá trị µ0 cho trước). Có 2 dạng bài toán kiểm định giả thiết về giá trị trung bình a. Kiểm định hai phía Vấn đề đặt ra ở đây là với mức ý nghĩa α và một giá trị µ0 cho trước, đánh giá về cặp giả thiết thống kê H : µ = µ0 ; K : µ 6= µ0. Trường hợp 1. Phương sai σ2 đã biết Khoảng ước lượng của µ với độ tin cậy 1 − α σ σ (x − t √ tα/2: bác bỏ H, chấp nhận K. Chú ý - Nếu như kích thước mẫu n t P α P σ α/2  = 1 − ϕ(tα/2) − ϕ(−tα/2) = α. Nghĩa là xác suất phạm sai lầm loại 1 được ấn định bởi một giá trị tương đối nhỏ α nào đó, việc chứng minh xác suất phạm sai lầm loại 2 cực tiểu bạn đọc tham khảo tài liệu [55]. 89
  31. Ví dụ 1. Một máy tiện tự động cho ra những trục máy có đường kính là 120mm và độ lệch chuẩn cho phép là 3mm. Kiểm tra ngẫu nhiên 50 trục máy, kết quả thu được đường kính trung bình là 119,2mm. Với mức ý nghĩa là 10%, máy tiện trên có hoạt động bình thường không? Giải. Máy tiện được gọi là hoạt động bình thường khi nó sản xuất những trục máy với sai số không vượt quá mức cho phép. Cặp giả thiết thống kê H : µ = µ0 = 120 ; K : µ 6= µ0. µ0 = 120; σ = 3; α = 0,1; tα/2 = 1,64; n = 50; x = 119,2. Giá trị kiểm định thực nghiệm 119,2 − 120 √ t = 50 ≈ −1,89, tn 3 Vì |ttn| > tα/2, bác bỏ H, chấp nhận K do đó máy tiện trên hoạt động không bình thường. 2 Trường hợp 2. Phương sai σ chưa biết và n > 30 x − µ √ Tương tự như ở trường hợp 1, đặt t = 0 n , khi đó tn s |ttn| 6 tα/2: chấp nhận H. |ttn| > tα/2: bác bỏ H, chấp nhận K. Trường hợp 3. Phương sai σ2 chưa biết và n t(n−1,α/2): bác bỏ H, chấp nhận K. Ví dụ 2. Thể tích sơn chứa trong mỗi thùng sơn nước hiệu Spring là đại lượng ngẫu nhiên tuân theo luật phân phối chuẩn trung bình 18 lít. Kiểm tra ngẫu nhiên 25 thùng thu được kết quả: thể tích trung bình là 17,92 lít và độ lệch chuẩn mẫu là 0,24 lít. Với mức ý nghĩa 5%, thể tích sơn trong các thùng sơn có đúng tiêu chuẩn không? Giải. Cặp giả thiết thống kê H : µ = µ0 = 18 ; K : µ 6= µ0. µ0 = 18; s = 0,24; α = 0, 05; t(n−1,α/2) = 2,11; n = 25; x = 17,92. Giá trị kiểm định thực nghiệm 17,92 − 18 √ t = 25 ≈ −1,67, tn 0,24 Vì |ttn| 6 tα/2, chấp nhận H do đó thể tích sơn trong các thùng sơn đúng tiêu chuẩn. b. Kiểm định một phía Trong thực tế xuất hiện một số dạng toán về kiểm định như: - Sau chiến dịch quảng cáo, doanh số bán ra một loại hàng có tăng lên hay không? (kiểm định lớn hơn) - Kiểm tra xem khối lượng đóng gói các bao gạo của một kho có nhỏ hơn giá trị in trên bao bì hay không? (kiểm định nhỏ hơn) 90
  32. Các dạng bài toán toán này được gọi là bài toán kiểm định một phía.  Kiểm định lớn hơn: H : µ = µ0 ; K : µ > µ0.  Kiểm định nhỏ hơn: H : µ = µ0 ; K : µ µ0 K : µ α x − µ0 √ TH2 n |t | t t t t −t s tn 6 α/2 tn 6 α tn > α x − µ0 √ TH3 n |t | t t t t −t s tn 6 (n−1,α/2) tn 6 (n−1,α) tn > (n−1,α) Ví dụ 3. Nhà máy cung cấp nước sạch cho rằng khối lượng trung bình của một loại chất độc hại trong một lít nước của nhà máy là 14mg. Người ta nghi ngờ số liệu này thấp hơn thực tế. Kiểm tra ngẫu nhiên với 64 mẫu nước thu được kết quả: x¯ = 14,2 và s = 0,24. Hãy cho kết luận về nghi ngờ nói trên với mức ý nghĩa 8%. Giải. Cặp giả thiết thống kê: H : µ = µ0 = 120 ; K : µ > µ0. µ0 = 14; s = 0,24; α = 0,08; tα = 1,4; n = 64; x = 14,2. Giá trị kiểm định thực nghiệm 14,2 − 14 √ t = 64 ≈ 6,67, tn 0,24 Vì ttn > tα, bác bỏ H, chấp nhận K do đó nghi ngờ trên là đúng. 5.2.2 Kiểm định giả thiết về tỉ lệ Đây là dạng bài so sánh giá tỉ lệ p của đám đông X với giá trị p0 cho trước. Có hai dạng bài toán kiểm định giả thiết về tỉ lệ. a. Kiểm định hai phía Vấn đề đặt ra ở đây là với mức ý nghĩa α và một giá trị p0 cho trước, đánh giá về cặp giả thiết thống kê H : p = p0 ; K : p 6= p0. F − p0 √ Với n đủ lớn và H : p = p0 đúng thì T = p n 'N (0, 1), khi đó p0(1 − p0) h F − p0 √ i P[T ∈ Wα|H đúng] = P p n > tα/2 = α, p0(1 − p0) trong đó miền bác bỏ Wα = (−∞, −tα/2) ∪ (tα/2, +∞). Quy tắc thực hành: khi np0 > 5; n(1 − p0) > 5 91
  33.  Xác định giá trị kiểm định thực nghiệm f − p0 √ ttn = p n. p0(1 − p0)  So sánh giá trị của ttn với mức phân vị tα/2, nếu |ttn| 6 tα/2: chấp nhận H. |ttn| > tα/2: bác bỏ H, chấp nhận K. Ví dụ 4. Một hãng sản xuất đĩa cứng công bố rằng: có 10% đĩa cứng của hãng phải bảo hành trong thời gian 2 năm đầu sử dụng. Người ta điều tra ngẫu nhiên 200 khách hàng đã sử dụng đĩa cứng của hãng thì có 29 đĩa cứng phải bảo hành trong thời gian 2 năm đầu sử dụng. Với mức ý nghĩa 5%, tỉ lệ trong công bố trên có đúng với thực tế không? Giải. Cặp giả thiết thống kê: H : p = p0 = 0,1 ; K : p 6= p0. n = 200; f = 0,145; p0 = 0,1; α = 0, 05; tα/2 = 1,96. Giá trị kiểm định thực nghiệm 0, 145 − 0, 1 √ t = √ 200 ≈ 2,12. tn 0, 1 × 0, 9 Vì |ttn| > tα/2, bác bỏ H, chấp nhận K do đó tỉ lệ trong công bố trên không đúng với thực tế. b. Kiểm định một phía Tương tự như bài toán kiểm định về giá trị trung bình, bài toán kiểm định tỉ lệ cũng có hai dạng kiểm định một phía như sau:  Kiểm định lớn hơn: H : p = p0 ; K : p > p0.  Kiểm định nhỏ hơn: H : p = p0 ; K : p p0 K : p −tα p0(1 − p0) Ví dụ 5. Một trung tâm đào tạo nghề báo cáo rằng tỷ lệ người học tại trung tâm kiếm được việc làm ngay sau khi tốt nghiệp 70%. Một mẫu ngẫu nhiên gồm 200 người đã tốt nghiệp ở trung tâm cho thấy có 130 người kiếm được việc làm ngay sau khi tốt nghiệp. Với mức ý nghĩa 5%, kiểm định xem phải chăng tỉ lệ trong báo cáo của trung tâm là cao hơn thực tế. Giải. Cặp giả thiết thống kê: H : p = p0 = 0,7 ; K : p −tα, chấp nhận H do đó tỉ lệ trong báo cáo của trung tâm là đúng thực tế. 92
  34. 5.3 So sánh các giá trị trung bình và các giá trị tỉ lệ Giả sử chúng ta có hai đám đông C1 và C2 có chung một đặc điểm cần nghiên cứu nào đó; hai đại lượng ngẫu nhiên gốc đám đông tương ứng lần lượt là X1 và X2. Trong mục này chúng ta đề cập đến dạng bài toán so sánh hai giá trị đặc trưng của hai đại lượng ngẫu nhiên này. 5.3.1 So sánh hai giá trị trung bình Hai đám đông C1 và C2 có hai giá trị trung bình là EX1 = µ1 và EX2 = µ2 cần so sánh. Vấn đề đặt ra ở đây là với mức ý nghĩa α cho trước, đánh giá về cặp giả thiết thống kê H : µ1 = µ2 ; K : µ1 6= µ2. 2 2 Giả sử DX1 = σ1, DX2 = σ2. Từ hai mẫu cụ thể (x1, x2, , xn1 ) của đám đông C1 và (y1, y2, , yn2 ) của đám đông C2 chúng ta xác định được trung bình mẫu và phương 2 2 sai hiệu chỉnh mẫu lần lượt là x1, x2, s1, s2. Quy tắc thực hành 2 2 Trường hợp 1. σ1, σ2 đã biết  Xác định giá trị kiểm định từ thực nghiệm x1 − x2 ttn = s . σ2 σ2 1 + 2 n1 n2  So sánh giá trị của ttn với mức phân vị tα/2, nếu |ttn| 6 tα/2: chấp nhận H. |ttn| > tα/2: bác bỏ H, chấp nhận K. Chú ý. Nếu như kích thước mẫu n1 < 30 hoặc n2 < 30 cần bổ sung thêm điều kiện X1,X2 tuân theo luật phân phối chuẩn. Ví dụ 1. Người ta muốn so sánh tuổi thọ của hai loại thiết bị điện tử (trong điều kiện hoạt động liên tục) được sản xuất bởi hai công nghệ khác nhau. Biết rằng độ lệch chuẩn tuổi thọ của thiết bị được sản xuất từ công nghệ thứ nhất và công nghệ thứ hai tương ứng là 120 giờ và 125 giờ. Thử nghiệm 50 thiết bị cho mỗi công nghệ trên thu được tuổi thọ trung bình của chúng tương ứng là 264 giờ và 245 giờ. Với mức ý nghĩa 5%, tuổi thọ của hai loại thiết bị điện tử được sản xuất từ hai công nghệ trên có khác nhau không? Giải. Cặp giả thiết thống kê: H : µ1 = µ2 ; K : µ1 6= µ2. σ1 = 120; σ2 = 125; n1 = n2 = 50; x1 = 264; x2 = 245 α = 0,05; tα/2 =1,96 Giá trị kiểm định thực nghiệm 264 − 245 ttn = r ≈ 0,78. 1202 1252 + 50 50 93
  35. Vì |ttn| 6 tα/2, chấp nhận H do đó tuổi thọ của hai loại thiết bị điện tử được sản xuất từ hai công nghệ trên giống nhau. 2 2 Trường hợp 2. σ1, σ2 chưa biết và n1 > 30, n2 > 30  Xác định giá trị kiểm định từ thực nghiệm x1 − x2 ttn = s . s2 s2 1 + 2 n1 n2  So sánh giá trị của ttn với mức phân vị tα/2, nếu |ttn| 6 tα/2: chấp nhận H. |ttn| > tα/2: bác bỏ H, chấp nhận K. 2 2 Trường hợp 3. X1,X2 có phân phối chuẩn, σ1 = σ2 chưa biết và n1 t(n1+n2−2,α/2): bác bỏ H, chấp nhận K. Ví dụ 2. Hai máy tự động dùng cắt những thanh kim loại với cùng một yêu cầu. Từ máy thứ nhất lấy ra 12 sản phẩm thu được chiều dài trung bình là 55cm và độ lệch mẫu chuẩn mẫu là 0,3cm, từ máy thứ 2 lấy ra 18 sản phẩm có các kết quả tương ứng là : 55,2cm và 0,2cm. Với mức ý nghĩa là 0,1, đánh giá về nhận định: hai máy đó sản xuất ra các thiết bị cùng kích cỡ. Giả sử rằng kích cỡ sản phẩm từ 2 máy có phân phối chuẩn cùng phương sai. Giải. Cặp giả thiết thống kê: H : µ1 = µ2 ; K : µ1 6= µ2. s1 = 0,3cm; s2 = 0,2; n1 = 12; n2 = 18; x1 = 55cm; x2 = 55,2 α = 0,1; t(28;0,05) =1,701 Giá trị kiểm định thực nghiệm 11 × 0, 32 + 17 × 0, 22 s2 = ≈ 0, 06; 28 55 − 55, 2 ttn = r ≈ −2, 2.  1 1  0, 06 12 + 18 Vì |ttn| > t(28;0,05), bác bỏ H, chấp nhận K do đó hai máy đó sản xuất ra các thiết bị không cùng kích cỡ. Đối với bài toán so sánh các giá trị trung bình, có hai dạng bài toán kiểm định một phía như sau:  Kiểm định lớn hơn: H : µ1 = µ2 ; K : µ1 > µ2.  Kiểm định nhỏ hơn: H : µ1 = µ2 ; K : µ1 < µ2. 94
  36. Giải quyết bài toán kiểm định một phía được phân chia các trường hợp giống như trong bài toán kiểm định hai phía. Tiêu chuẩn kiểm định ứng với 3 trường hợp được mô tả qua bảng tổng hợp sau: Điều kiện chấp nhận H : µ1 = µ2 Trường hợp ttn K : µ1 > µ2 K : µ1 −tα + n1 n2 x1 − x2 s 2 2 TH2 s1 s2 ttn 6 tα ttn > −tα + n1 n2 x1 − x2 s TH3  1 1  ttn 6 t(n1+n2−2,α) ttn > −t(n1+n2−2,α) s2 + n1 n2 Ví dụ 3. Với giả thiết như ở ví dụ 2: s1 = 0,3cm; s2 = 0,2; n1 = 12; n2 = 18; x1 = 55cm; x2 = 55,2. Đánh giá nhận định: máy thứ hai sản xuất ra thiết bị có kích cỡ lớn hơn máy thứ nhất. Giải. Cặp giả thiết thống kê: H : µ1 = µ2 ; K : µ1 < µ2. α = 0,1; t(28;0,1) =1,313. Giá trị kiểm định thực nghiệm 2 s ≈ 0, 06; ttn ≈ −2, 2. Vì ttn < −t(28;0,1), bác bỏ H, chấp nhận K do đó máy thứ hai sản xuất ra thiết bị có kích cỡ lớn hơn máy thứ nhất. 5.3.2 So sánh hai tỉ lệ Hai đám đông C1 và C2 có hai tỉ lệ p1 và p2 cần so sánh. Vấn đề đặt ra ở đây là với mức ý nghĩa α cho trước, đánh giá về cặp giả thiết thống kê H : p1 = p2 ; K : p1 6= p2. Từ mẫu cụ thể kích thước n1 của đám đông C1 ta xác định được k1 phần tử có đặc điểm cần nghiên cứu, do đó tỉ lệ mẫu là f1 = k1/n1; tương tự đối với mẫu kích thước n2 của đám đông C2 ta xác định được k2 và f2 = k2/n2. Quy tắc thực hành: khi n1, n2 đủ lớn  Xác định giá trị kiểm định từ thực nghiệm f1 − f2 k1 + k2 ttn = r trong đó f = .  1 1  n1 + n2 f(1 − f) + n1 n2 95
  37.  So sánh giá trị của ttn với mức phân vị tα/2, nếu |ttn| 6 tα/2: chấp nhận H. |ttn| > tα/2: bác bỏ H, chấp nhận K. Chú ý. Khi kích thước mẫu điều tra càng lớn thì kết quả kiểm định càng chính xác, ở mức độ tương đối khái niệm n1, n2 đủ lớn ở đây được hiểu là thỏa mãn hai điều kiện: (n1 + n2)f > 10, (n1 + n2)(1 − f) > 10. Ví dụ 4. Người ta kiểm tra ngẫu nhiên 400 sản phẩm từ dây chuyền thứ nhất có 24 phế phẩm, kiểm tra 800 sản phẩm từ dây chuyền thứ hai có 42 phế phẩm. Với mức ý nghĩa α = 0,05 , tỉ lệ phế phẩm của 2 dây chuyền trên có như nhau hay không ? Giải. Cặp giả thiết thống kê: H : p1 = p2; K : p1 6= p2 . tα/2 = 1, 96; f1 = 0,06; f2 = 0,0525; f = 0,055. Giá trị kiểm định thực nghiệm 0, 06 − 0, 0525 ttn = q ≈ 0, 537. 0, 055 × 0, 9451/400 + 1/800 Vì |ttn| p2.  Kiểm định nhỏ hơn: H : p1 = p2 ; K : p1 p2 K : p1 α n1 n2 Ví dụ 5. Dùng thuốc A cho 200 bệnh nhân thì 160 người khỏi bệnh. Dùng thuốc B cho 300 bệnh nhân thì 210 người khỏi bệnh. Với mức ý nghĩa α = 0,04 , hiệu quả của thuốc A có cao hơn thuốc B hay không? Giải. Cặp giả thiết thống kê: H : p1 = p2; K : p1 > p2 . tα = 1,75; f1 = 0,8; f2 = 0,7; f = 0,74. Giá trị kiểm định thực nghiệm (0, 8 − 0, 7) ttn = q ≈ 2, 497. 0, 74 × 0, 261/200 + 1/300 Vì ttn > tα: bác bỏ H, chấp nhận K do đó hiệu quả của thuốc A cao hơn thuốc B. 96
  38. HƯỚNG DẪN HỌC VIÊN TỰ HỌC CHƯƠNG 5 Chương này trình bày những kiến thức cơ bản về bài toán kiểm định giả thiết thống kê. Để học tốt chương này yêu cầu người học phải nắm vững các kiến thức và kĩ năng sau. 1. Lý thuyết - Khái niệm giả thiết thống kê và bài toán kiểm định giả thiết thống kê. - Các tiêu chuẩn kiểm định giả thiết thống kê. - Kiểm định giả thiết về giá trị trung bình đối với các trường hợp khác nhau: kiểm định một phía hay kiểm định 2 phía, đã biết hay chưa biết phương sai σ2, kích thước mẫu lớn cỡ nào, - Kiểm định giả thiết về tỷ lệ với các trường hợp khác nhau: kiểm định một phía hay kiểm định 2 phía. - So sánh 2 giá trị trung bình. - So sánh 2 tỉ lệ. 2. Bài tập - Giải bài toán kiểm định về giá trị trung bình đối với các trường hợp khác nhau: kiểm định một phía hay kiểm định 2 phía, đã biết hay chưa biết phương sai σ2, kích thước mẫu lớn cỡ nào, trong những ví dụ cụ thể. - Giải bài toán kiểm định về tỷ lệ đối với các trường hợp kiểm định một phía hay kiểm định 2 phía trong những ví dụ cụ thể. - Giải bài toán kiểm định 2 giá trị trung bình, kiểm định 2 tỷ lệ đối với các giả thiết khác nhau trong các ví dụ cụ thể. 97
  39. BÀI TẬP CHƯƠNG 5 1. Quy định của một thiết bị phải có chiều dài là 300cm và độ lệch chuẩn là 3cm. Từ một lô hàng người ta lấy ra 40 chiếc, kết quả thu được độ dài trung bình là 301,2cm. Với mức ý nghĩa là 5% , lô hàng trên có đạt tiêu chuẩn hay không? 2. Trong điều kiện chăn nuôi bình thường, lượng sữa thu được trung bình hằng ngày của một loại giống bò sữa là 19,4 (đơn vị: kg/ngày). Lấy mẫu 49 con bò sữa ở một trang trại thu được lượng sữa trung bình của một con trong một ngày là 18,9 và độ lệch chuẩn mẫu là 3,24. Với mức ý nghĩa α = 0,08, lượng sữa thu được hằng ngày từ bò sữa của trang trại có đúng chuẩn không? 3. Khối lượng chuẩn của một bao gạo được đóng gói bằng dây chuyền tự động là đại lượng ngẫu nhiên có phân phối chuẩn với khối lượng mỗi bao là 50 kg. Sau một thời gian hoạt động người ta nghi ngờ khối lượng đó có xu hướng giảm sút. Cân 28 bao gạo thu được khối lượng trung bình mỗi là 49,8 kg và và độ lệch chuẩn mẫu là 0,6 kg. Với mức ý nghĩa 1%, hãy kết luận về nghi ngờ nói trên. 4. Thời gian trước đây, số tiền gửi tiết kiệm trung bình của mỗi khách hàng vào ngân hàng A là 1000 USD. Sau đợt tăng lãi suất tiết kiệm, kiểm tra ngẫu nhiên 36 khách hàng thu được kết quả: số tiền gửi trung bình là 1060 USD và độ lệch chuẩn mẫu là 100 USD. Với mức ý nghĩa 4%, việc tăng lãi suất có làm tăng lượng tiền gửi tiết kiệm của mỗi khách hàng không? 5. Một kênh truyền thông rằng 30% khán giả truyền hình yêu thích các chương trình phát sóng của họ. Thăm dò ý kiến ngẫu nhiên qua mạng đối với 800 người xem truyền hình thì có 192 người yêu thích các chương trình của kênh truyền thông đó. Với mức ý nghĩa 0,08, tỉ lệ trong tuyên bố trên có đúng với thực tế không? 6. Tỉ lệ phế phẩm của một nhà máy trước đây là 10%. Sau khi cải tiến kỹ thuật, kiểm tra 400 sản phẩm thì thấy có 38 phế phẩm. Với mức ý nghĩa là 1%, kiểm tra xem việc cải tiến kỷ thuật có mang lại hiệu quả chưa? 7. Tỉ lệ người chữa khỏi một loại bệnh bằng loại thuốc cũ là 80%. Người ta thay thế bằng loại thuốc mới để chữa bệnh cho 1000 người thì có 820 người khỏi bệnh. Với mức ý nghĩa 1%, có thể kết luận thuốc mới tốt hơn thuốc cũ không? 8. Hai giống vịt được nuôi sau 4 tháng. Lấy mẫu n1 = 50 ở giống vịt thứ nhất, được 2 x1 = 1.9kg và s1 = 1, lấy mẫu n2 = 80 ở giống vịt thứ hai, được x2 = 2kg và 2 s2 = 0.8. Với mức ý nghĩa α = 10%, hai giống vịt này có trọng lượng trung bình bằng nhau không? 9. Chọn ngẫu nhiên 20 đại lý có áp dụng khuyến mãi thu được số lượng bán trung bình một ngày là 140 sản phẩm và độ lệch chuẩn mẫu là 12, tại 20 đại lý không có khuyến mãi được 2 số liệu tương ứng là 120 và 10. Giả sử lượng hàng bán được có phân phối chuẩn cùng phương sai, với mức ý nghĩa 5%, hình thức khuyến mãi có làm tăng số lượng hàng bán ra không? 98
  40. 10. Một công ty bán hàng muốn kiểm tra hiệu quả từ việc thay đổi kiểu đóng gói. Chọn 2 mẫu: mẫu 1 là 35 đại lý bán hàng theo loại gói cũ và mẫu 2 là 35 đại lý bán hàng theo loại gói mới để thống kê về số gói hàng bán ra sau một tháng, thu được 2 giá trị đặc trưng cho 2 mẫu tương ứng như sau: loại gói cũ: x1 = 560 gói, với s1 = 20; loại gói mới: x2 = 580 gói, với s2 = 30. Với mức ý nghĩa 1%, hãy đánh giá việc thay đổi kiểu đóng gói có hiệu quả hay không? 11. Để so sánh tỉ lệ nẩy mầm của hai giống cây trong điều kiện độ ẩm thấp. Người ta đem gieo 200 hạt giống loại I có 150 hạt nẩy mầm, gieo 300 hạt giống loại II có 210 hạt nẩy mầm. Với mức ý nghĩa α = 0,05 , tỉ lệ nẩy mầm trong điều kiện độ ẩm thấp của 2 giống cây trên có như nhau không ? 12. Lấy số liệu thực tế từ các hộ gia đình vay vốn của ngân hàng nông nghiệp đối với 2 huyện. Huyện A: có 2000 hộ vay thì có 1692 hộ sử dụng tiền vay có hiệu quả, huyện B: có 1000 hộ vay thì có 810 hộ sử dụng tiền vay có hiệu quả. Với mức ý nghĩa 5%, tỉ lệ hộ sử dụng tiền vay có hiệu quả của huyện A có cao hơn ở huyện B không? 13. Có hai phương pháp gieo một loại hạt giống: theo phương pháp A gieo 125 hạt thấy có 90 hạt nẩy mầm; theo phương pháp B, gieo 100 hạt thấy có 85 hạt nẩy mầm. Từ số liệu thu được có thể đánh giá sơ bộ phương pháp gieo nào tốt hơn. Với mức ý nghĩa α = 0,05, kiểm định đánh giá sơ bộ đó. 14. Tại một nhà máy làm việc theo chế độ 3 ca: buổi sáng, buổi chiều và buổi tối, chọn ngẫu nhiên một số sản phẩm để kiểm tra chất lượng, thu được bảng số liệu sau Chất lượng Ca Sáng Chiều Tối Chính phẩm 84 64 70 Phế phẩm 2 8 2 Với mức ý nghĩa α = 0,05, có thể kết luận chất lượng sản phẩm phụ thuộc vào ca làm việc không? 15. Tại một nhà máy có 4 phân xưởng: I, II, III, IV; cùng sản xuất ra cùng một loại sản phẩm với 3 tiêu chí đánh giá chất lượng: Loại A (tốt), loại B (đạt), loại C (chưa đạt). Kiểm tra 1000 sản phẩm khi nhập tổng kho, thu được bảng số liệu sau Chất lượng Loại Loại Loại Xưởng A B C I 105 90 25 II 135 102 13 III 124 100 6 IV 146 138 16 Với mức ý nghĩa α = 0,01, có thể kết luận chất lượng sản phẩm phụ thuộc vào phân xưởng sản xuất không? 99
  41. CHƯƠNG 6 HỒI QUY VÀ TƯƠNG QUAN 6.1 Hệ số tương quan mẫu 6.1.1 Mở đầu Trên cùng một đám đông C có hai đặc điểm định lượng cần nghiên cứu, hai đại lượng ngẫu nhiên gốc đám đông tương ứng lần lượt là X và Y . Bài toán đặt ra ở đây tìm hiểu mức độ phụ thuộc giữa hai đại lượng ngẫu nhiên và tìm biểu thức biểu diễn sự liên hệ giữa chúng. Đây là một vấn đề hoàn toàn thực tế, sự phụ thuộc của hai đại lượng ngẫu nhiên X và Y có thể phân thành ba loại:  Sự phụ thuộc hàm số: tồn tại hàm ϕ để Y = ϕ(X).  Sự phụ thuộc thống kê: khi X thay đổi thì phân phối xác suất của Y cũng thay đổi.  Sự phụ thuộc tương quan: X thay đổi thì kỳ vọng có điều kiện E(Y |X) cũng thay đổi, nghĩa là E(Y |X) = ϕ(X) 6= hằng số. Nếu ϕ(X) = AX + B thì ta nói X và Y có tương quan tuyến tính, trong trường hợp ngược lại thì ta nói X và Y có tương quan phi tuyến. Phụ thuộc tương quan là trường hợp riêng của phụ thuộc thống kê, nghĩa là nếu phụ thuộc tương quan thì có sự phụ thuộc về phân phối xác suất. Khi phân tích độ phụ thuộc tương quan giữa hai đại lượng ngẫu nhiên X và Y thì ta không cần xét đến trường hợp nó độc lập với nhau. 6.1.2 Hệ số tương quan mẫu Chúng ta đã được làm quen với khái niệm hệ số tương quan giữa hai đại lượng ngẫu nhiên X và Y cov(X, Y ) (XY ) − X Y ρ(X, Y ) = √ = E √ E E . DX DY DX DY Đó là số đo mức độ phụ thuộc tuyến tính giữa hai đại lượng ngẫu nhiên X và Y , nhưng nếu chưa biết được phân phối xác suất thì hệ số tương quan lý thuyết ρ(X, Y ) chưa xác định được. Do đó ta tìm cách ước lượng ρ(X, Y ) bởi một giá trị thu được từ mẫu quan sát, giá trị đó được gọi là hệ số tương quan mẫu. Giả sử ta có n cặp quan sát (x1, y1), (x2, y2), , (xn, yn) của (X, Y ), hệ số tương 100
  42. quan mẫu được tính theo công thức n X (xi − x)(yi − y) i=1 r = v . u n n uX 2 X 2 t (xi − x) (yi − y) i=1 i=1 Do vậy n n n X X X n xiyi − xi yi xy − x y r = i=1 i=1 i=1 = , v n n v n n sˆ sˆ u 2 u 2 x y u X 2  X  u X 2  X  tn xi − xi tn yi − yi i=1 i=1 i=1 i=1 n 1 X trong đó xy = x y . n i i i=1 Tương tự như hệ số tương quan, hệ số tương quan mẫu cũng có tính chất |r| 6 1. Biểu diễn các cặp (xi, yi) của mẫu lên một mặt phẳng tọa độ tạo thành đám mây điểm. Hình ảnh của đám mây điểm thể hiện mối quan hệ giữa X và Y . Nếu đám mây điểm có xu hướng tập trung quanh một đường thẳng nào đó (có hệ số góc khác 0) thì |r| càng gần 1 và ta có thể kết luận X, Y có quan hệ gần với quan hệ tuyến tính (tương quan tuyến tính), còn nếu nó phân tán thành hình tròn hay hình vuông thì |r| gần bằng 0. Ví dụ 1. Bảng số liệu sau đây là kết quả thu thập từ một công ty về doanh thu (X) và số tiền dành cho quảng cáo (Y ) của một số tháng như sau: X (tỉ đồng) 5 7 8 11 9 Y (triệu đồng) 45 60 75 90 80 Hãy xác định hệ số tương quan mẫu. Giải. Bảng tính 2 2 xi yi xiyi xi yi 5 45 225 25 2025 7 60 420 49 3600 8 75 600 64 5625 11 90 990 121 8100 9 80 720 81 6400 40 350 2955 340 25750 Hệ số tương quan mẫu 5 · 2955 − 40 · 350 r = √ √ ≈ 0,98. 5 · 340 − 402 5 · 25750 − 3502 101
  43. Chú ý. Trường hợp số liệu thu thập có kích thước lớn, dạng bảng có tần số chúng xy − x y ta cũng lập bảng tính trung gian như trên sau đó sử dụng công thức: r = sˆx sˆy (xem bài tập4 và5). 6.2 Phương trình hồi quy bình phương trung bình tuyến tính thực nghiệm 6.2.1 Phương trình hồi quy Mệnh đề. Trong tất cả các hàm h(X) dùng để ước lượng Y thì ϕ(X) = E(Y |X) là hàm có sai số bình phương trung bình nhỏ nhất. Nghĩa là 2 2 E Y − E(Y |X) 6 E Y − h(X) . Chứng minh.  2 E Y − h(X) = E Y − E(Y |X) + E(Y |X) − h(X) 2 2 = E Y − E(Y |X)) + E E(Y |X) − h(X) + h  i 2E Y − E(Y |X) E(Y |X) − h(X) . Với mọi hàm k(X) ta luôn có Z Z  h i E k(X) E(Y |X) = k(x) y p(y|x) dy pX (x) dx ZZ = k(x) y p(y|x)pX (x) dx dy ZZ  = k(x) y p(x, y) dx dy = E k(X) Y . Đặt k(X) = E(Y |X) − h(X), suy ra h  i h  i E Y − E(Y |X) E(Y |X) − h(X) = E Y − E(Y |X) k(X)     = E k(X) Y − E k(X) E(Y |X) = 0. Do đó  2 2 E Y − h(X) = E Y − E(Y |X)) + E E(Y |X) − h(X) 2 > E Y − E(Y |X)) . Như vậy E(Y |X) là hàm ước lượng Y có sai số bình phương trung bình nhỏ nhất. Phương trình ϕ(X) = E(Y |X) được gọi là phương trình hồi quy của Y theo X. 102
  44. 6.2.2 Ước lượng hệ số hồi quy tuyến tính thực nghiệm Giả sử X là đại lượng ngẫu nhiên độc lập còn Y là đại lượng ngẫu nhiên phụ thuộc và giữa chúng có tương quan tuyến tính E(Y |X) = AX + B, A 6= 0, trong đó A, B chưa biết và được gọi là hệ số hồi quy lý thuyết. Bài toán. Căn cứ vào n cặp quan sát (x1, y1), (x2, y2), , (xn, yn) của (X, Y ), ta cần đi tìm một phương trình y = ax + b ước lượng cho phương trình hồi quy tuyến tính lý thuyết E(Y |X) = AX + B. Phương trình y = ax + b được gọi là phương trình hồi quy tuyến tính thực nghiệm; a và b được gọi là hệ số hồi quy tuyến tính thực nghiệm của Y theo X. Chúng ta sử dụng phương pháp bình phương bé nhất để xác định giá trị của a và b. Như vậy, giữa giá trị thực nghiệm và giá trị xác định từ phương trình hồi quy tuyến tính thực nghiệm tại xi có sai số |yi − (axi + b)|. Tiêu chuẩn để xác định phương trình hồi quy tuyến tính thực nghiệm y = ax + b là đảm bảo được yêu cầu n X 2 F (a, b) = yi − (axi + b) ⇒ min . i=1 Tìm cực tiểu của F (a, b) dẫn đến hệ phương trình n ∂F (a, b) X  = −2 (yi − axi − b) xi = 0;  ∂a  i=1 n ∂F (a, b) X  = −2 (y − ax − b) = 0,  ∂b i i i=1 tương đương với hệ  n   n  n  X 2 X X  xi a + xi b = xi yi;  i=1 i=1 i=1 n n  X  X  x a + nb = y .  i i i=1 i=1 Giải hệ phương trình bậc nhất đối với a và b, ta được  n n n  X X X  n xi yi − xi yi   i=1 i=1 i=1 a = n n ;  2  X 2  X  n xi − xi  i=1 i=1  n n  X X  yi − a xi  b = i=1 i=1 .  n 103
  45. Ngoài ra, hệ số hồi quy tuyến tính thực nghiệm còn có thể xác định nhờ công thức tương đương  xy − x y  a = 2 ; sˆx b = y − a x . Ví dụ 2. Với giả thiết như ở ví dụ 1: X X X 2 X n = 5; xi = 40; yi = 350; xi = 340; xiyi = 2955. a. Tìm phương trình hồi quy tuyến tính thực nghiệm của y theo x. b. Nếu doanh thu của một tháng nào đó là 10 tỉ đồng, hãy dự đoán chi phí quảng cáo của công ty tháng đó là bao nhiêu. Giải. a. Hệ số hồi quy tuyến tính thực nghiệm 5 × 2955 − 40 × 350 350 − 7, 75 × 40 a = = 7, 75; b = = 8. 5 × 340 − (40)2 5 Phương trình hồi quy tuyến tính thực nghiệm: y = 7, 75 x + 8. b. x = 10 suy ra y = 85,5 . Vậy chi phí quảng cáo của tháng đó khoảng 85,5 triệu đồng. 104
  46. HƯỚNG DẪN HỌC VIÊN TỰ HỌC CHƯƠNG 6 Chương này trình bày những kiến thức cơ bản về Hồi quy và tương quan. Để học tốt chương này yêu cầu người học phải nắm vững các kiến thức và kĩ năng sau. 1. Lý thuyết - Khái niệm và công thức tính hệ số tương quan mẫu. - Định nghĩa phương trình hồi quy. - Các định nghĩa và khái niệm: hệ số hồi quy lý thuyết, phương trình hồi quy tuyến tính thực nghiệm, hệ số hồi quy tuyến tính thực nghiệm. 2. Bài tập - Dựa vào các số liệu cụ thể, tính hệ số tương quan mẫu. - Dựa vào các số liệu cụ thể, lập phương trình hồi quy tuyến tính thực nghiệm. 105
  47. BÀI TẬP CHƯƠNG 6 1. Bảng số liệu sau đây là kết quả thống kê về tổng giá trị hàng nông sản (X) và tổng đầu tư xây dựng đường giao thông (Y ) của một huyện trong 6 năm như sau: (đơn vị: tỉ đồng) X 60 45 75 90 80 70 Y 7 5 8 11 9 10 a. Hãy xác định hệ số tương quan mẫu. b. Tìm phương trình hồi quy tuyến tính thực nghiệm của y theo x. c. Nếu tiền đầu tư xây dựng đường giao thông của một năm nào đó là 8,6 tỉ đồng, hãy dự đoán tổng giá trị hàng nông sản năm đó là bao nhiêu ? 2. Bảng số liệu sau đây là kết quả thu được của một công ty về số tiền dành cho các hoạt động chăm sóc khách hàng (X) và doanh thu (Y ) trong 6 tháng như sau: X 8 9 7 10 9 11 (đơn vị: triệu đồng). Y 600 700 500 900 800 1100 a. Hãy xác định hệ số tương quan mẫu. b. Nếu chi phí dành cho các hoạt động chăm sóc khách hàng của một tháng nào đó là 10,5 triệu đồng, hãy dự đoán doanh thu của công ty tháng đó là bao nhiêu ? 3. Thống kê ghi lại dân số của một tỉnh qua 8 năm từ năm 1985 đến 1992 được bảng số sau Năm 1985 1986 1987 1988 1989 1990 1991 1992 Dân số (10000) 50 51 51 53 54 56 59 60 Để thuận tiện trong tính toán ta đặt x = “năm” − 1985 và y = “dân số” − 50 (đơn vị 10000 người). Hãy tìm phương trình hồi quy tuyến tính thực nghiệm của y theo x. 4. Tính hệ số tương quan mẫu và phương trình hồi quy tuyến tính thực nghiệm của y theo x dựa vào bảng tần số sau: xi 17 14 12 15 12 20 yi 31 33 25 29 27 40 ni 2 4 10 3 5 6 5. Bảng số liệu sau đây chỉ năng suất thu hoạch Y theo lượng phân bón X của một loại hoa màu trên 100 thửa ruộng. 106
  48. X Y 20 25 30 35 400 12 5 1 1 420 6 18 3 2 450 2 10 9 490 1 10 20 Tính hệ số tương quan mẫu và phương trình hồi quy tuyến tính thực nghiệm của năng suất thu hoạch theo lượng phân bón. 107
  49. TÀI LIỆU THAM KHẢO [1] Nguyễn Quang Báu, Lý thuyết xác suất và thống kê toán học, Đại học quốc gia Hà Nội, 2004. [2] Lê Sĩ Đồng, Xác suất thống kê và ứng dụng, NXB Giáo dục, 2004. [3] Đặng Hấn, Xác suất thống kê, NXB Thống kê, 1996. [4] Đào Hữu Hồ, Xác suất thống kê, NXB Đại học quốc gia Hà Nội, 2006. [5] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như, Thống kê toán học, NXB Đại học quốc gia Hà Nội, 2004. [6] Nguyễn Văn Quảng, Giáo trình xác suất, NXB Đại học quốc gia Hà Nội, 2007. [7] Đặng Hùng Thắng, Mở đầu lý thuyết xác suất, NXB Giáo dục, 2000. [8] Nguyễn Duy Tiến - Vũ Việt Yên, Lý thuyết xác suất, NXB Giáo dục, 2000. [9] Y.S. Chow and H. Teicher; Probabylity Theory: Independence, Interchangeability, martingales, Springer-Verlag, Berlin and New York, 1988. 108
  50. CÁC BẢNG SỐ THÔNG DỤNG λk Bảng 1: Giá trị của hàm: P (k) = e−λ λ k! λ k 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 0,3679 1 0,0905 0,1637 0,2222 0,2681 0,3033 0,3293 0,3476 0,3595 0,3659 0,3679 2 0,0045 0,0164 0,0333 0,0536 0,0758 0,0988 0,1217 0,1438 0,1647 0,1839 3 0,0002 0,0011 0,0033 0,0072 0,0126 0,0198 0,0284 0,0383 0,0494 0,0613 4 0,0000 0,0001 0,0003 0,0007 0,0016 0,0030 0,0050 0,0077 0,0111 0,0153 5 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0007 0,0012 0,0020 0,0031 6 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 7 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 k 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 0 0,3329 0,3012 0,2725 0,2466 0,2231 0,2019 0,1827 0,1653 0,1496 0,1353 1 0,3662 0,3614 0,3543 0,3452 0,3347 0,3230 0,3106 0,2975 0,2842 0,2707 2 0,2014 0,2169 0,2303 0,2417 0,2510 0,2584 0,2640 0,2678 0,2700 0,2707 3 0,0738 0,0867 0,0998 0,1128 0,1255 0,1378 0,1496 0,1607 0,1710 0,1804 4 0,0203 0,0260 0,0324 0,0395 0,0471 0,0551 0,0636 0,0723 0,0812 0,0902 5 0,0045 0,0062 0,0084 0,0111 0,0141 0,0176 0,0216 0,0260 0,0309 0,0361 6 0,0008 0,0012 0,0018 0,0026 0,0035 0,0047 0,0061 0,0078 0,0098 0,0120 7 0,0001 0,0002 0,0003 0,0005 0,0008 0,0011 0,0015 0,0020 0,0027 0,0034 8 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0005 0,0006 0,0009 9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 k 3 4 5 6 7 8 9 10 11 12 0 0,0498 0,0183 0,0067 0,0025 0,0009 0,0003 0,0001 0,0000 0,0000 0,0000 1 0,1494 0,0733 0,0337 0,0149 0,0064 0,0027 0,0011 0,0005 0,0002 0,0001 2 0,2240 0,1465 0,0842 0,0446 0,0223 0,0107 0,0050 0,0023 0,0010 0,0004 3 0,2240 0,1954 0,1404 0,0892 0,0521 0,0286 0,0150 0,0076 0,0037 0,0018 4 0,1680 0,1954 0,1755 0,1339 0,0912 0,0573 0,0337 0,0189 0,0102 0,0053 5 0,1008 0,1563 0,1755 0,1606 0,1277 0,0916 0,0607 0,0378 0,0224 0,0127 6 0,0504 0,1042 0,1462 0,1606 0,1490 0,1221 0,0911 0,0631 0,0411 0,0255 7 0,0216 0,0595 0,1044 0,1377 0,1490 0,1396 0,1171 0,0901 0,0646 0,0437 8 0,0081 0,0298 0,0653 0,1033 0,1304 0,1396 0,1318 0,1126 0,0888 0,0655 9 0,0027 0,0132 0,0363 0,0688 0,1014 0,1241 0,1318 0,1251 0,1085 0,0874 10 0,0008 0,0053 0,0181 0,0413 0,0710 0,0993 0,1186 0,1251 0,1194 0,1048 11 0,0002 0,0019 0,0082 0,0225 0,0452 0,0722 0,0970 0,1137 0,1194 0,1144 12 0,0001 0,0006 0,0034 0,0113 0,0263 0,0481 0,0728 0,0948 0,1094 0,1144 13 0,0000 0,0002 0,0013 0,0052 0,0142 0,0296 0,0504 0,0729 0,0926 0,1056 14 0,0000 0,0001 0,0005 0,0022 0,0071 0,0169 0,0324 0,0521 0,0728 0,0905 15 0,0000 0,0000 0,0002 0,0009 0,0033 0,0090 0,0194 0,0347 0,0534 0,0724 109
  51. x X e−λλk Bảng 2: Hàm phân phối Poisson: F (x) = λ k! k=0 λ x 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 0,3679 1 0,9953 0,9825 0,9631 0,9384 0,9098 0,8781 0,8442 0,8088 0,7725 0,7358 2 0,9998 0,9989 0,9964 0,9921 0,9856 0,9769 0,9659 0,9526 0,9371 0,9197 3 1,0000 0,9999 0,9997 0,9992 0,9982 0,9966 0,9942 0,9909 0,9865 0,9810 4 1,0000 1,0000 1,0000 0,9999 0,9998 0,9996 0,9992 0,9986 0,9977 0,9963 5 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998 0,9997 0,9994 6 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 x 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 0 0,3329 0,3012 0,2725 0,2466 0,2231 0,2019 0,1827 0,1653 0,1496 0,1353 1 0,6990 0,6626 0,6268 0,5918 0,5578 0,5249 0,4932 0,4628 0,4337 0,4060 2 0,9004 0,8795 0,8571 0,8335 0,8088 0,7834 0,7572 0,7306 0,7037 0,6767 3 0,9743 0,9662 0,9569 0,9463 0,9344 0,9212 0,9068 0,8913 0,8747 0,8571 4 0,9946 0,9923 0,9893 0,9857 0,9814 0,9763 0,9704 0,9636 0,9559 0,9473 5 0,9990 0,9985 0,9978 0,9968 0,9955 0,9940 0,9920 0,9896 0,9868 0,9834 6 0,9999 0,9997 0,9996 0,9994 0,9991 0,9987 0,9981 0,9974 0,9966 0,9955 7 1,0000 1,0000 0,9999 0,9999 0,9998 0,9997 0,9996 0,9994 0,9992 0,9989 8 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9999 0,9998 0,9998 x 3 4 5 6 7 8 9 10 11 12 0 0,0498 0,0183 0,0067 0,0025 0,0009 0,0003 0,0001 0,0000 0,0000 0,0000 1 0,1991 0,0916 0,0404 0,0174 0,0073 0,0030 0,0012 0,0005 0,0002 0,0001 2 0,4232 0,2381 0,1247 0,0620 0,0296 0,0138 0,0062 0,0028 0,0012 0,0005 3 0,6472 0,4335 0,2650 0,1512 0,0818 0,0424 0,0212 0,0103 0,0049 0,0023 4 0,8153 0,6288 0,4405 0,2851 0,1730 0,0996 0,0550 0,0293 0,0151 0,0076 5 0,9161 0,7851 0,6160 0,4457 0,3007 0,1912 0,1157 0,0671 0,0375 0,0203 6 0,9665 0,8893 0,7622 0,6063 0,4497 0,3134 0,2068 0,1301 0,0786 0,0458 7 0,9881 0,9489 0,8666 0,7440 0,5987 0,4530 0,3239 0,2202 0,1432 0,0895 8 0,9962 0,9786 0,9319 0,8472 0,7291 0,5925 0,4557 0,3328 0,2320 0,1550 9 0,9989 0,9919 0,9682 0,9161 0,8305 0,7166 0,5874 0,4579 0,3405 0,2424 10 0,9997 0,9972 0,9863 0,9574 0,9015 0,8159 0,7060 0,5830 0,4599 0,3472 11 0,9999 0,9991 0,9945 0,9799 0,9467 0,8881 0,8030 0,6968 0,5793 0,4616 12 1,0000 0,9997 0,9980 0,9912 0,9730 0,9362 0,8758 0,7916 0,6887 0,5760 13 1,0000 0,9999 0,9993 0,9964 0,9872 0,9658 0,9261 0,8645 0,7813 0,6815 14 1,0000 1,0000 0,9998 0,9986 0,9943 0,9827 0,9585 0,9165 0,8540 0,7720 15 1,0000 1,0000 0,9999 0,9995 0,9976 0,9918 0,9780 0,9513 0,9074 0,8444 16 1,0000 1,0000 1,0000 0,9998 0,9990 0,9963 0,9889 0,9730 0,9441 0,8987 17 1,0000 1,0000 1,0000 0,9999 0,9996 0,9984 0,9947 0,9857 0,9678 0,9370 18 1,0000 1,0000 1,0000 1,0000 0,9999 0,9993 0,9976 0,9928 0,9823 0,9626 19 1,0000 1,0000 1,0000 1,0000 1,0000 0,9997 0,9989 0,9965 0,9907 0,9787 20 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9996 0,9984 0,9953 0,9884 110
  52. 1 x2 Bảng 3: Giá trị hàm Gauss: ϕ(x) = √ e− 2 2π x 0 1 2 3 4 5 6 7 8 9 0,0 0,3989 0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3977 0,3973 0,1 0,3970 0,3965 0,3961 0,3956 0,3951 0,3945 0,3939 0,3932 0,3925 0,3918 0,2 0,3910 0,3902 0,3894 0,3885 0,3876 0,3867 0,3857 0,3847 0,3836 0,3825 0,3 0,3814 0,3802 0,3790 0,3778 0,3765 0,3752 0,3739 0,3725 0,3712 0,3697 0,4 0,3683 0,3668 0,3653 0,3637 0,3621 0,3605 0,3589 0,3572 0,3555 0,3538 0,5 0,3521 0,3503 0,3485 0,3467 0,3448 0,3429 0,3410 0,3391 0,3372 0,3352 0,6 0,3332 0,3312 0,3292 0,3271 0,3251 0,3230 0,3209 0,3187 0,3166 0,3144 0,7 0,3123 0,3101 0,3079 0,3056 0,3034 0,3011 0,2989 0,2966 0,2943 0,2920 0,8 0,2897 0,2874 0,2850 0,2827 0,2803 0,2780 0,2756 0,2732 0,2709 0,2685 0,9 0,2661 0,2637 0,2613 0,2589 0,2565 0,2541 0,2516 0,2492 0,2468 0,2444 1,0 0,2420 0,2396 0,2371 0,2347 0,2323 0,2299 0,2275 0,2251 0,2227 0,2203 1,1 0,2179 0,2155 0,2131 0,2107 0,2083 0,2059 0,2036 0,2012 0,1989 0,1965 1,2 0,1942 0,1919 0,1895 0,1872 0,1849 0,1826 0,1804 0,1781 0,1758 0,1736 1,3 0,1714 0,1691 0,1669 0,1647 0,1626 0,1604 0,1582 0,1561 0,1539 0,1518 1,4 0,1497 0,1476 0,1456 0,1435 0,1415 0,1394 0,1374 0,1354 0,1334 0,1315 1,5 0,1295 0,1276 0,1257 0,1238 0,1219 0,1200 0,1182 0,1163 0,1145 0,1127 1,6 0,1109 0,1092 0,1074 0,1057 0,1040 0,1023 0,1006 0,0989 0,0973 0,0957 1,7 0,0940 0,0925 0,0909 0,0893 0,0878 0,0863 0,0848 0,0833 0,0818 0,0804 1,8 0,0790 0,0775 0,0761 0,0748 0,0734 0,0721 0,0707 0,0694 0,0681 0,0669 1,9 0,0656 0,0644 0,0632 0,0620 0,0608 0,0596 0,0584 0,0573 0,0562 0,0551 2,0 0,0540 0,0529 0,0519 0,0508 0,0498 0,0488 0,0478 0,0468 0,0459 0,0449 2,1 0,0440 0,0431 0,0422 0,0413 0,0404 0,0396 0,0387 0,0379 0,0371 0,0363 2,2 0,0355 0,0347 0,0339 0,0332 0,0325 0,0317 0,0310 0,0303 0,0297 0,0290 2,3 0,0283 0,0277 0,0270 0,0264 0,0258 0,0252 0,0246 0,0241 0,0235 0,0229 2,4 0,0224 0,0219 0,0213 0,0208 0,0203 0,0198 0,0194 0,0189 0,0184 0,0180 2,5 0,0175 0,0171 0,0167 0,0163 0,0158 0,0154 0,0151 0,0147 0,0143 0,0139 2,6 0,0136 0,0132 0,0129 0,0126 0,0122 0,0119 0,0116 0,0113 0,0110 0,0107 2,7 0,0104 0,0101 0,0099 0,0096 0,0093 0,0091 0,0088 0,0086 0,0084 0,0081 2,8 0,0079 0,0077 0,0075 0,0073 0,0071 0,0069 0,0067 0,0065 0,0063 0,0061 2,9 0,0060 0,0058 0,0056 0,0055 0,0053 0,0051 0,0050 0,0048 0,0047 0,0046 3,0 0,0044 0,0043 0,0042 0,0040 0,0039 0,0038 0,0037 0,0036 0,0035 0,0034 3,1 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 0,0025 0,0025 3,2 0,0024 0,0023 0,0022 0,0022 0,0021 0,0020 0,0020 0,0019 0,0018 0,0018 3,3 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 0,0013 0,0013 3,4 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010 0,0010 0,0009 0,0009 3,5 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007 0,0007 0,0007 0,0006 3,6 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005 0,0005 0,0005 0,0005 0,0004 3,7 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003 0,0003 0,0003 0,0003 3,8 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002 0,0002 0,0002 0,0002 0,0002 3,9 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0001 0,0001 4,0 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 111
  53. Bảng 4: Giá trị hàm phân phối chuẩn N(0, 1): x 1 Z t2 Φ(x) = √ e− 2 dt 2π −∞ x 0 1 2 3 4 5 6 7 8 9 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993 3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 112