Giáo trình Thống kê hóa học và tin học trong hóa học

198 trang ngocly 5300 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Thống kê hóa học và tin học trong hóa học", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

giao_trinh_thong_ke_hoa_hoc_va_tin_hoc_trong_hoa_hoc.pdf

Nội dung text: Giáo trình Thống kê hóa học và tin học trong hóa học

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA SƯ PHẠM THỐNG KÊ HÓA HỌC VÀ TIN HỌC TRONG HÓA HỌC ThS. Huỳnh Kim Liên 2006 1
THÔNG TIN VỀ TÁC GIẢ PHẠM VI VÀ ĐỐI TƯỢNG SỬ DỤNG CỦA GIÁO TRÌNH 1. THÔNG TIN VỀ TÁC GIẢ Họ và tên: Huỳnh Kim Liên Sinh năm: 1955 Cơ quan công tác: Bộ Môn: Hóa Học Khoa: Sư Phạm Trường: Đại học Cần Thơ Địa chỉ Email để liên hệ: [email protected] 2. PHẠM VI VÀ ĐỐI TƯỢNG SỬ DỤNG Giáo trình có thể dùng tham khảo cho các ngành : Cử nhân Hóa học, Sư Phạm Hóa học, Công nghệ Hóa Học Có thể dùng cho các trường: Đại học Sư Phạm, Đại học Khoa Học Tự Nhiên, Cao Đẳng Sư Phạm Các từ khóa: Phương sai, Độ lệch chuẩn, Sai số ngẫu nhiên, Sai số hệ thống, Chuẩn thống kê, MS Excel, Chem win, Chem office, MS flash. Yêu cầu kiến thức trước khi học môn học này: Xác suất thống kê và tin học căn bản (trình độ A) 2
MỤC LỤC BÌA 1 THÔNG TIN VỀ TÁC GIẢ 2 MỤC LỤC 3 PHẦN I: THỐNG KÊ HÓA HỌC 8 Chương 1: ĐẠI CƯƠNG VỀ THỐNG KÊ 8 I. SAI SỐ NGẪU NHIÊN VÀ SAI SỐ HỆ THỐNG. 8 1. Các khái niệm thường dùng: 8 2. Sai số ngẫu nhiên: 9 3. Sai số hệ thống: 10 4. Lan truyền sai số hệ thống và sai số ngẫu nhiên: 12 II. HÀM PHÂN BỐ (DISTRIBUTION FUNCTION) 12 1. Các khái niệm cơ bản: 12 2. Hàm phân bố chuẩn (Normal distribution function): 13 3. Hàm phân bố mẫu: 18 III. CÁC CHUẨN (TEST) THỐNG KÊ 24 1. Khái quát về phương pháp kiểm định thống kê: 24 2. Chuẩn Dixon (Zlt = Q P,n ) 26 3. Chuẩnτ (tô) (Zlt =τ p,n ) 28 4. Các chuẩn : 30 5. Chuẩn Fisher. (Zlt = F ) 33 P,fI ,fII 6. Chuẩn Cochran . (Zlt= GP,f,n) 34 7. Chuẩn Student (t-Test): 35 8. Chuẩn Gauss (Zlt = Up) 38 q 9. Chuẩn Duncan. (Zlt = P,R ,f th ) 39 CÂU HỎI ÔN TẬP 45 TÀI LIỆU THAM KHẢO 45 Chương 2: PHÂN TÍCH PHƯƠNG SAI 46 I. KHÁI QUÁT VỀ PHÂN TÍCH PHƯƠNG SAI (ANALYSIS OF VARIANCE) 46 1. Mục đích và ý nghĩa: 46 2. Nguyên tắc và thuật toán: 46 II. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ (SINGLE FACTOR) 47 III. BÀI TẬP ỨNG DỤNG 50 1. Bài tập 1: 50 2. Bài tập 2: 52 3
BÀI TẬP 56 TÀI LIỆU THAM KHẢO 56 Chương 3: PHÂN TÍCH HỒI QUY 57 I. KHÁI QUÁT VỀ PHÂN TÍCH HỒI QUY 57 1. Mục đích và ý nghĩa : 57 2. Điều kiện thực hiện: 57 II. PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH ĐƠN GIẢN (Y=ax + b). 57 1. Nguyên tắc tìm các hệ số của phương trình hồi quy: 57 2. Tính các hệ số a , b và các thông số cần thiết: 58 3. Xét ý nghĩa của hệ số hồi quy (chuẩn Student): 59 4. Kiểm định sự tuyến tính giữa x và y của phương trình hồi quy ( chuẩn Fisher): .60 5. Trình bày phương trình hồi quy kèm với các đặc trưng cần thiết: 60 6. Ứng dụng phương trình hồi quy: 61 III. PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH NHIỀU BIẾN 62 IV. BÀI TẬP ỨNG DỤNG 62 1. Bài tập 1: 62 2. Bài tập 2: 65 BÀI TẬP 66 TÀI LIỆU THAM KHẢO 67 PHẦN II: TIN HỌC ỨNG DỤNG TRONG HÓA HỌC 68 Chương 1: PHÂN TÍCH DỮ LIỆU BẰNG MICROSOFT EXCEL 68 I. CÔNG CỤ PHÂN TÍCH DỮ LIỆU TRONG EXCEL. 68 II. ỨNG DỤNG PHÂN TÍCH DỮ LIỆU. 70 1. Loại giá trị bất thường (aberrant observation): 70 2. Thống kê mô tả: 71 3. So sánh phương sai: 74 4. So sánh giá trị trung bình với hai phương sai đồng nhất: 76 5. Phân tích phương sai một yếu tố: 79 6. Hồi quy tuyến tính đơn giản: 82 7. Hồi quy tuyến tính đa tham số: 85 BÀI TẬP 88 TÀI LIỆU THAM KHẢO 88 Chương 2: CHƯƠNG TRÌNH MS EQUATION 89 I. CỬA SỔ ỨNG DỤNG. 89 1. Cách mở cửa sổ: 89 2. Đặc điểm của cửa sổ: 90 3. Cách đóng cửa sổ: 90 4
II. THANH MENU. 90 1. Menu File: 90 2. Menu Edit: 90 3. Menu View: 91 4. Menu Format: 91 5. Menu Style: 91 6. Menu Size: 92 7. Menu Help: 92 III. TÍNH NĂNG KỸ THUẬT. 93 1. Thanh ký hiệu: 93 2. Thanh khung mẫu: 94 IV. BÀI TẬP ỨNG DỤNG 95 1. Bài tập 1: 95 2. Bài tập 2: 96 3. Bàii tập 3: 96 4. Bài tập 4: 96 5. Bài tập 5: 96 TÀI LIỆU THAM KHẢO 97 Chương 3: CHƯƠNG TRÌNH CHEMWIN 98 A. CHƯƠNG TRÌNH CHEMWIN 3 98 I. CỬA SỔ ỨNG DỤNG 98 II. THANH MENU 99 III. TÍNH NĂNG KỸ THUẬT 104 B. CHƯƠNG TRÌNH CHEMWIN 6 107 I. CỬA SỔ ỨNG DỤNG 107 II. THANH MENU 108 III. CÁC THANH CÔNG CỤ 109 IV. CÁCH MỞ THƯ VIỆN VÀ NẠP TRANG MẪU. 111 V. BÀI TẬP ỨNG DỤNG. 112 BÀI TÂP 115 TÀI LIỆU THAM KHẢO 116 Chương 4: CHƯƠNG TRÌNH CHEMOFFICE 117 A. CHƯƠNG TRÌNH CHEMDRAW 117 I. CỬA SỔ ỨNG DỤNG 117 II. THANH MENU 118 III. BÀI TÂP ỨNG DỤNG. 121 B. CHƯƠNG TRÌNH CHEM3D 130 5
I. CỬA SỔ ỨNG DỤNG: 130 II. THANH MENU: 131 III. THANH CÔNG CỤ 134 III. TÍNH NĂNG KỸ THUẬT: 136 IV. BÀI TẬP ÁP DỤNG 137 BÀI TẬP 141 TÀI LIỆU THAM KHẢO 141 Chương 5: CHƯƠNG TRÌNH MICROSOFT POWERPOINT 2003 142 I. CỬA SỔ ỨNG DỤNG. 143 II. THANH MENU. 143 1. Menu File: 143 2. Menu Edit: 144 3. Menu View: 144 4. Menu Insert: 145 5. Menu Format: 145 6. Menu Tools: 145 7. Menu Slide Show: 146 III. XÂY DỰNG CÁC SLIDE 148 1. Quản lý các slide: 148 2. Đưa thông tin lên slide: 149 3. Định dạng tổng thể các slide: 151 IV. SỬ DỤNG CÁC HIỆU ỨNG ĐỘNG. 155 1. Áp dụng cho các thành phần của một trang slide (dùng Custom Animation): 155 V. KỸ THUẬT TRÌNH DIỄN 159 1. Cách bắt đầu và kết thúc trình diễn: 159 2. Bắt đầu các hiệu ứng và chuyển slide, quay lại hiệu ứng trước: 159 3. Các hoạt động khác khi trình diễn: 160 VI. BÀI TÂP ỨNG DỤNG 160 1. Bài tập 1: 160 2. Bài tập 2: 163 BÀI TẬP 164 TÀI LIỆU THAM KHẢO 164 Chương 6: CHƯƠNG TRÌNH MACROMEDIA FLASH (FLASH) 165 I. CỬA SỔ ỨNG DỤNG VÀ MỘT SỐ KHÁI NIỆM CƠ BẢN 165 1. Cửa sổ chương trình: 165 2. Các khái niệm cơ bản: 166 II. THANH MENU. 166 6
1. Menu File : 166 2. Menu Edit : 167 3. Menu View : 167 4. Menu Insert: 167 5. Menu Modify: 168 6. Menu Text: 171 7. Menu Control: 171 8. Menu Window: 171 III. THANH CÔNG CỤ (TOOLS). 173 IV. BÀI TẬP ỨNG DỤNG 175 1. Bài tập 1: 175 2. Bài tập 2: 180 3. Bài tâp 3: 183 4. Bài tập 4: 187 5. Bài tập 5: 196 6. Bài tập 6: 197 7. Bài tập 7: 198 8. Bài tập 8: 199 9. Bài tập 9: 200 BÀI TẬP 201 TÀI LIỆU THAM KHẢO 202 7
PHẦN I: THỐNG KÊ HÓA HỌC Chương 1: ĐẠI CƯƠNG VỀ THỐNG KÊ I. SAI SỐ NGẪU NHIÊN VÀ SAI SỐ HỆ THỐNG. 1. Các khái niệm thường dùng: Trong thực nghiệm hóa học khi đo đại lượng X nhiều lần lặp lại cùng các điều kiện giống nhau, thu được một dãy các giá trị xi với i = 1, 2, , n. Mỗi giá trị xi gọi là một yếu tố của tập hợp, n là dung lượng của tập hợp (observations). Ký hiệu tập hợp {xi} a) Tập hợp mẫu (samples) - Nếu n hữu hạn, dãy xi tạo thành một tập hợp mẫu b) Tập hợp tổng quát (populations) - Nếu n → ∞ , tập hợp mẫu trở thành tập hợp tổng quát . Vậy một tập hợp tổng quát chứa đựng vô số yếu tố và vô số tập hợp mẫu. Mặt khác, khi có 2 tập hợp mẫu nào đó, chúng có thể thuộc về cùng một tập hợp tổng quát hoặc thuộc về hai tập hợp tổng quát khác nhau. c) Giá trị trung bình (mean, average) Với tập hợp mẫu: x x = ∑ i (trung tâm phân bố) n Với tập họp tổng quát: x = µ (trị số đúng, kỳ vọng) d) Phương sai (dispersion, variance) - Phương sai mẫu: (x − x) 2 d 2 S2 = ∑ i = ∑ i n −1 f di: độ lệch ngẫu nhiên f: bậc tự do của phương sai - Phương sai tổng quát (x − µ) 2 σ2 = ∑ i n e) Độ lệch chuẩn (standard deviation) - Độ lệch chuẩn mẫu : S 8
- Độ lệch chuẩn tổng quát : σ - Độ lêch chuẩn tương đối (standard erro of the mean) S Sx = n f) Khoảng biến động R (range) R = xmax-xmin S - Hệ số biến động CV (Coefficient of variation): CV = 100 x 2. Sai số ngẫu nhiên: Sai số ngẫu nhiên phát sinh do hàng loạt nguyên nhân không kiểm soát được và luôn luôn có mặt trong bất cứ phép đo nào a) Độ lệch ngẫu nhiên Độ lệch ngẫu nhiên di có các tính chất sau : - Dấu (-) hay (+) thay đổi hoàn toàn ngẫu nhiên. Khi n tăng thì số dấu (+) càng xấp xỉ số dấu (-). - Giá trị tuyệt đối |di| cũng thay đổi hoàn toàn ngẫu nhiên nhưng giá trị càng nhỏ sẽ có tần số xuất hiện càng lớn, ngược lại giá trị càng lớn sẽ có tần số xuất hiện càng nhỏ. - Tổng đại số ∑d i = 0 Những tính chất trên cho thấy độ lệch ngẫu nhiên di là dấu hiệu tồn tại của sai số ngẫu nhiên. Tuy nhiên, một giá trị di riêng lẻ không thể coi là đại diện cho sai số ngẫu nhiên. Đại diện cho sai số ngẫu nhiên phải là toàn bộ tập hợp {di}. b) Độ phân tán - Phương sai : là đại diện cho sai số ngẫu nhiên (không cùng thứ nguyên với xi) - Độ lệch chuẩn (mẫu hoặc tổng quát) là thước đo của sai số ngẫu nhiên. Nó biểu thị độ phân tán của kết quả đo cũng có nghĩa là độ lặp lại của phép đo. Nó thay đổi ngẫu nhiên tùy thuộc phương pháp đo lường, điều kiện đo lường, độ lớn của đại lượng đo và vào cá nhân người đo lường. Chính vì thế mà độ lệch chuẩn là một thông số thống kê quan trọng được sử dụng rộng rãi trong nhiều ngành khoa học. c) Trung tâm phân bố: Trung tâm phân bố của một tập hợp là một yếu tố nào đó của tập hợp ấy mà tất cả các yếu tố khác quy tụ xung quanh. Mỗi tập hợp đều tồn tại một trung tâm phân bố Tập hợp {xi} có trung tâm phân bố là x Tóm lại, một đại lượng ngẫu nhiên X được biểu diễn bằng hai thông số : - x : biểu thị trung tâm phân bố - S: biểu thị độ phân tán Chú ý : 9
- S được dùng để biểu diễn sai số ngẫu nhiên của phép đo - Không thể loại bỏ được sai số ngẫu nhiên nhưng có thể giảm thiểu tới mức tùy ý muốn bằng cách tăng lên số lần đo n một cách tương ứng. 3. Sai số hệ thống: a) Phân biệt sai số hệ thống và sai số ngẫu nhiên. Giả sử xđ là giá trị đúng của đại lượng X, giá trị này căn cứ theo mẫu chuẩn hoặc chất chuẩn. Thí dụ : Các quả cân chuẩn, dung dịch đệm pH chuẩn dùng cho máy đo pH. Sai số hệ thống của phép đo là hiệu số giữa giá trị đo được so với giá trị đúng của đại lượng đo. ∆ = x − xđ Sai số hệ thống ∆ có các tính chất sau : - Có dấu hằng định : - Khi ∆ 0 : gọi là sai số thiếu. - Có độ lớn |∆| cũng hằng định cho mỗi đại lượng đo. Sai số hệ thống được xem xét khi |∆ | > S Phép đo coi như không mắc sai số hệ thống khi |∆ | S. + Phép đo có độ chính xác kém, nhưng độ đúng cao : S lớn và |∆| < S. 10
+ Phép đo có độ chính xác và độ đúng đều kém : S lớn và |∆| > S. + Phép đo có độ chính xác và độ đúng cao : S nhỏ và |∆| < S. c) Phân loại sai số hệ thống : - Sai số dụng cụ : Là sai số gây ra do sự không hoàn hảo của nhà chế tạo dụng cụ đo lường hoặc dụng cụ đo xuống cấp trong quá trình sử dụng. Thí dụ : Các vạch chia của buret không đều nhau, quả cân bị mài mòn - Sai số hóa chất : Là sai số gây ra do có mặt các tạp chất trong hóa chất đem sử dụng để phân tích hóa học. 3+ Thí dụ : Lượng nhỏ SiO2 trong NaOH, lượng nhỏ Fe trong HCl - Sai số cá thể : Là sai số thuộc về nguyên lý của phương pháp phân tích. Thí dụ : Phương pháp phân tích thể tích có hai sai số phương pháp quan trọng : - Sai số chỉ thị. - Sai số tỉ lệ : gây ra do xác định không đúng nồng độ dung dịch chuẩn. Vì vậy nếu chất phân tích có nồng độ càng cao thì phải tiêu tốn nhiều thể tích dung dịch chuẩn, do đó sẽ mắc sai số hệ thống càng lớn. Sai số này tỉ lệ với hàm lượng của chất phân tích nên gọi là sai số tỉ lệ. Trong phương pháp phân tích trọng lượng, có hai loại sai số trái chiều nhau : - Sai số thiếu : gây ra do kết tủa tan một phần trong dung dịch làm thấp kết quả phân tích. - Sai số thừa : gây ra do sự cộng kết của kết quả làm cho tăng kết quả phân tích. d) Các biện pháp loại bỏ sai số hệ thống : - Nguyên lý lấy số đo theo hiệu số. Theo nguyên lý này, để có được một số đo đúng thì phép đo phải gồm hai giai đoạn : - Giai đoạn 1 : Tiến hành đo trên mẫu nghiên cứu. - Giai đoạn 2 : Tiến hành đo trên mẫu so sánh. 11
Kết quả đo lấy theo hiệu số của các số đo thu được ở mỗi giai đoạn. Mẫu so sánh được lựa chọn thích hợp căn cứ theo nguồn gốc phát sinh sai số hệ thống. * Thí nghiệm “trắng” : Để loại trừ sai số hóa chất trong phép phân tích, tiến hành phân tích với mẫu nghiên cứu, thu được kết quả x1. Sau đó tiến hành với mẫu “trắng” là mẫu không có mặt chất nghiên cứu nhưng được thực hện trong cùng điều kiện với mẫu nghiên cứu, thu được kết quả x2. Hàm lượng chất đem phân tích được tính : xđ = x1 - x2 * Phương pháp thêm chuẩn : Còn gọi là phương pháp thêm. Khác với thí nghiệm “trắng”, ở đây mẫu so sánh được chế tạo bằng cách lấy mẫu nghiên cứu và cho thêm một lượng chính xác chất chuẩn. Vậy : - Ứng với hàm lượng x1 của mẫu, đo được tín hiệu phân tích là y1. - Ứng với hàm lượng x2 = x1 + a (thêm vào), đo được tín hiệu phân tích là y2. Nếu giữa tín hiệu phân tích y và hàm lượng x có quan hệ tuyến tính thì : y x = 1 1 y - y 21 Phương pháp thêm được sử dụng rộng rãi khi phân tích các hàm lượng vết nhằm loại bỏ sai số hệ thống gây ra bởi “thành phần thứ 3” mà nhiều khi không biết rõ. Điều kiện để áp dụng thành công phương pháp thêm là quan hệ giữa x và y phải tuyến tính và ngoài ra cần phải làm thí nghiệm “trắng” để loại bỏ sai số hóa chất lên y1. 4. Lan truyền sai số hệ thống và sai số ngẫu nhiên: Sai số của số đo trực tiếp được lan truyền sang sai số của các số đo gián tiếp. Bản chất khác nhau của sai số hệ thống và sai số ngẫu nhiên dẫn đến các thuật toán lan truyền sai số cũng khác nhau. II. HÀM PHÂN BỐ (DISTRIBUTION FUNCTION) 1. Các khái niệm cơ bản: a) Đại lượng ngẫu nhiên liên tục : Một ĐLNN (đại lượng ngẫu nhiên )X được gọi là ĐLNN liên tục nếu: - Tập hợp các giá trị có thể của X lấp đầy một hay một khoảng của trục số, hoặc lấp đầy tòan bộ trục số. - Xác suất để X nhận một giá trị cụ thể nào đó luôn luôn bằng không, nghĩa là với mọi số a : P{X = a} = 0. 12
Như vậy đối với ĐLNN liên tục, xác suất để nó nhận giá trị trong một khoảng nào đó rất được quan tâm. Xác suất này được quyết định bởi một hàm gọi là hàm mật độ xác suất của X b) Hàm mật độ xác suất : Hàm ϕ(x) xác định trên toàn bộ trục số được gọi là hàm mật độ của ĐLNN liên tục X nếu : • ϕ(x) ≥ 0 với mọi x +∞ • ϕ(x)dx = 1 ∫−∞ • Với mọi a < b b P{a < X < b } = ∫ ϕ(x)dx a P{a < X < b } là diện tích hình thang cong giới hạn bởi đồ thị hàm số y = ϕ(x) và 2 đường thẳng x = a và x = b y x a b 2. Hàm phân bố chuẩn (Normal distribution function): a) Hàm Gauss Hàm Gauss ϕ(x) (từ tập hợp tổng quát) với biến số x và các thông số µ, σ: 2 1⎛ x - µ ⎞ 1 − ⎜ ⎟ ϕ(x) = .e 2⎝ σ ⎠ σ. 2π Hàm ϕ(x) mang đầy đủ mọi tính chất của một hàm mật độ xác suất. Đồ thị : Đồ thị ϕ(x) theo x có dạng đối xứng hình chuông. dϕ(x) * Cực đại : = 0 khi x = µ . dx 13
Đường ϕ(x) có cực đại : 1 ϕ(x) = = 0,399/σ σ. 2π d 2ϕ(x) * Điểm uốn : = 0 khi x = µ ± σ . dx Đường ϕ(x) có hai điểm uốn đối xứng qua trục thẳng đứng x = µ và cách trục ± σ. Tại các điểm uốn : ϕ(µ + σ) = ϕ(µ - σ) = 0,242/σ Bảng 1. Các giá trị đáng lưu ý của hàm phân bố chuẩn x ϕ(x) µ 0,399/σ µ ± σ 0,242/σ µ ± 2σ 0,054/σ µ ± 3σ 0,0044/σ ϕ(x) ϕ(x) x x -3σ -2σ -σ µ σ 2σ 3σ -3 σ -2 σ -σ µ σ 2σ 3σ b Từ phép giải tích Toán học, tích phân xác định ∫ f (x)dx có giá trị bằng diện tích S a bao hàm giữa đường f(x), trục x và hai đường thẳng đứng x = a và x = b. Khi f(x) là một b hàm mật độ xác suất, nghĩa là khi f(x) = ϕ(x) thì tích phân ∫ f (x)dx = P biểu thị xác suất a tin cậy để cho các giá trị riêng lẻ x của tập hợp {x} rơi vào khoảng (a , b). Vậy diện tích S 14
có giá trị đúng bằng xác suất. Mối quan hệ này giữa diện tích S và P đúng cho mọi hàm mật độ xác suất , trong đó có hàm phân bố chuẩn. Mặt khác, xác suất tin cậy P phải luôn luôn gắn liền với khoảng (a , b). Vậy (a , b) là khoảng tin cậy ứng với xác suất tin cậy P. Khi (a , b) nới rộng thành (- ∞ , +∞ ) thì xác suất P = 1 : sự kiện để giá trị riêng lẻ x nằm trong khoảng (- ∞ , +∞ ) là một sự kiện chắc chắn xảy ra, xác suất của sự kiện này phải = 1. Phân biệt hai loại khoảng tin cậy : khoảng đối xứng và khoảng bất đối xứng. - Khi a đối xứng với b qua điểm x = µ thì (a , b) là khoảng đối xứng. - Khi không thỏa điều kiện trên (thí du a, b đứng cùng một phía so với µ hoặc a, b không cách đều ( từ hai phía thì (a , b) là khoảng bất đối xứng. Bảng 2. Một số khoảng tin cậy và xác suất tin cậy đáng lưu ý trên đường phân bố chuẩn Khoảng tin cậy b Loại khoảng tin cậy P = ∫ ϕ(x)dx x = a x = b a µ - σ µ + σ 0,682 đối xứng µ - 2σ µ + 2σ 0,954 đối xứng µ - 3σ µ + 3σ 0,997 đối xứng 0,682 0,954 bất đối xứng µ - σ µ + 2σ + = 0,814 2 2 - ∞ µ + 2σ bất đối xứng 0,954 0,5 + = 0,977 2 Thí dụ : P = 0,682 có nghĩa là có 1000 giá trị riêng lẻ x trong tập hợp {x} thì có 682 giá trị x nằm trong khoảng (µ-σ ; µ+σ ) Nhận xét : * Bất luận σ là bao nhiêu, diện tích S bao hàm giữa đường ϕ(x) và toàn bộ trục x có giá trị = 1; nghĩa là P = 1. * Đường phân bố chuẩn có đỉnh càng cao khi σ càng nhỏ (.σ là thước đo của độ phân tán). Khi σ càng nhỏ thì độ chính xác càng cao, các giá trị x riêng lẻ càng tập trung lại xung quanh trung tâm phân bố µ. * Đường phân bố chuẩn của hai đại lượng sai số ngẫu nhiên được coi là trùng nhau khi chúng có cùng thông số µ và σ . Đường phân bố chuẩn sẽ khác nhau khi hai thông số này khác nhau. Quy tắc 3 σ (ba xích ma) : 15
Từ bảng 2, khoảng (a , b) với a = µ - 3σ và b = µ + 3σ ứng với xác suất P rất lớn, = 0,997.Vậy xác suất để cho giá trị riêng lẻ x đi ra ngoài khoảng này rất nhỏ, bằng 1 - 0,997 = 0,003 (tức là 3 phần nghìn). Những giá trị riêng nằm ngoài khoảng (a , b) này rất hiếm gặp. Vậy với một phép đo đã biết trước σ, nếu chỉ mới đo lặp lại có vài lần mà đã gặp một giá trị riêng lẻ x* > µ + 3σ hoặc x* 3σ ⇒ loại bỏ x* . - Nếu tìm thấy |x* - x n−1 | 2.0,04 = 0,08 (quy tắc 2σ) Theo quy tắc 3σ ⇒ không nên loại giá trị 3,57; nếu theo quy tắc 2σ thì có thể loại bỏ. b) Hàm Gauss chuẩn hóa Rất nhiều đại lượng ngẫu nhiên gặp trong tự nhiên tuân theo hàm phân bố Gauss. Sự khác nhau giữa chúng thể hiện ở sự khác nhau của các thông số µ và σ. Tuy nhiên, khi áp dụng hàm Gauss trong thực tế, xác suất P cùng với khoảng (a , b) nào đó rất được chú ý. Để tiện cho việc tính toán P, tập hợp {x} được biến đổi thành tập hợp {u} : 16
x - µ u = ⇔ dx = σ.du σ 2 1⎛ x - µ ⎞ 1 1 − ⎜ ⎟ 1 − .u 2 ϕ(x)dx = .e 2⎝ σ ⎠ .dx = .e 2 .σ.du σ 2π σ 2π 1 1 − .u 2 = .e 2 .du 2π 1 1 u 2 Đặt : ϕ(u) = .e 2 2π ⇒ ϕ(x)dx = ϕ(u)du. ⎧ a - µ u(a) = b u(b) ⎪ σ P = ϕ(x)dx = ϕ(u)du với ⎨ ∫∫ b - µ a u(a) ⎪u(b) = ⎩⎪ σ Biến ngẫu nhiên x tỉ lệ tuyến tính với biến ngẫu nhiên u; nhưng khác u ở chỗ là x là đại lượng có thứ nguyên của đại lượng đo và còn phụ thuộc các thông số µ và σ, trong khi đó u không có hai tính chất trên. d Nếu độ lệch d = x - µ có thứ nguyên thì u = không thứ nguyên (độ lệch rút gọn) σ Hàm ϕ(u) gọi là hàm Gauss chuẩn hóa, đây là một hàm Gauss đặc biệt khi các thông số µ = 0 và σ = 1.Đồ thị biểu diễn tương tự như hàm Gauss vẽ ở trên và thay µ = 0 và σ = 1. Xác suất P theo khoảng (a , b) được tính dễ dàng bằng cách tra bảng tích phân Laplace . - Ứng dụng của hàm phân bố chuẩn: Các khái niệm: ♣ Điểm phân vị α của đại lượng ngẫu nhiên Z , ký hiệu Zα (Hàm phân bố ϕ(x) = P{Z Zα } = α ⇔ ϕ(Zα) = P{Z < Zα } = 1- α P = 1- α : Xác suất tin cậy α = 1- P : Mức ý nghĩa hay xác suất ngờ vực ♣ Xác suất tin cậy một phía (one tail) ♣ Xác suất tin cậy hai phía (two tail) đối xứng (Pđx) hoặc bất đối xứng ( P ) 17
P = 1- α P = 1- α Z Z Zα 1-α α /2 /2 Ứng dụng 1: Tính giới hạn tin cậy (GHTC, confidence limits) và khoảng tin cậy (KTC, confidence level) với xác suất P cho trước : Khi biết xác suất Pđx, tra bảng để tìm giá trị uP (Bảng tích phân Laplace). * Đối với giá trị riêng lẻ x : x − µ Từ u = ⇒ giới hạn tin cậy của µ ứng với xác suất P : σ GHTC(µ) = x ± uP.σ Khoảng tin cậy của µ xung quanh x ứng với xác suất P là : KTC(x) = ± uP.σ Giá trị u tùy thuộc vào xác suất P. * Với giá trị x : σ x − µ Vì σ x = ⇒ u = . n n σ GHTC của µ ứng với xác suất P là : u .σ GHTC(µ) = x ± P n u .σ KTC( x ) = ± P n u P .σ u P σ Khoảng (x - uP.σ ; x + uP.σ) rộng hơn khoảng ( x - ; x + ) nên ước lượng µ n n theo x có hiệu quả hơn µ theo x. 3. Hàm phân bố mẫu: a) Hàm phân bố Student: Hàm phân bố chuẩn thích hợp cho tập hợp tổng quát {x} với dung lượng n rất lớn ( n > 30). Tập hợp mẫu {x} với dung lượng nhỏ (n ≥ 2) tuân theo hàm phân bố Student. Hàm Student có vai trò thay thế hàm phân bố chuẩn khi n nhỏ và trước hết được sử dụng để ước lượng µ . Tương tự hàm ϕ(u), hàm Student được cho ở dạng hàm mật độ xác suất ϕ(t) với biến ngẫu nhiên t thay cho u. 18
⎛f +1⎞ ⎛ f+1⎞ Γ⎜ ⎟ 2 −⎜ ⎟ 1 2 ⎛ ⎞ ⎝ 2 ⎠ ϕ(t) = . ⎝ ⎠.⎜1+ t ⎟ π.f ⎛f ⎞ ⎜ f ⎟ Γ⎜ ⎟ ⎝ ⎠ ⎝2⎠ với : - ∞ < t < + ∞ f : số bậc tự do = n -1 x − µ x − µ t = hoặc t = . n S S Biến ngẫu nhiên t được gọi là độ lệch rút gọn mẫu ∞ Γ(x) = ∫ t x-1.e −t dt (hàm Gamma) 0 Ứng với mỗi f ⇒ một hàm ϕ(t) tương ứng. ϕ(t) là một hàm mật độ xác suất với mọi giá trị của f P = 1- α -t 0 t α/2 α /2 Hàm phân bố Student đối xứng , với t trong khoảng (-t, +t ) sao cho xác suất Pđx bằng những giá trị thông dụng : 0,90 ; 0,95 ; 0,99 tp,f : hệ số Student (tra bảng hệ số Student ở phần phụ lục) Ứng dụng của hàm phân bố Student Ứng dụng 1 :Tính giới hạn tin cậy • Đối với giá trị riêng lẻ x : GHTC(µ) = x ± tp,f.S • Đối với giá trị trung bình x : S GHTC(µ) = x ± t p,f . n Thí dụ : Phép xác định Ni trong thép cho kết quả : 19
x = 1,76% với S = ± 0,08% Tính GHTC(µ) xung quanh giá trị trung bình ứng với Pđx = 0,95. Giải : Khi Pđx = 0,95; f = 5 - 1 = 4 ⇒ t0,95;4 = 2,78 Ta có : 0,08 GHTC(µ) = 1,76 ± 2,78. = (1,76 ± 0,11) % 4 Biểu diễn kết quả đầy đủ : % Ni = (1,76 ± 0,11) % ứng với n = 5; P = 0,95. Ứng dụng 2: Tính P ứng với KTC cho trước và f cho trước : Thí dụ : Phép đo pH sau 6 lần đo cho kết quả : x = 2,87 với S = ± 0,019 Tính P cho KTC( x ) = ± 0,03 (dùng bảng hệ số Student đầy đủ). Giải : S KTC( x ) = ± t p,f . = ± 0,03 n n 6 |tp,f| = . 0,03 = . 0,03 = 3,78 S 0,019 Tra “ngược” bảng hệ số Student để tính P ứng với f = 6 - 1 = 5. Từ bảng hệ số Student, ta có : tp,5 2,57 3,37 4,03 4,77 Pđx 0,95 0,98 0,99 0,995 Đặt 3,37 < 3,87 < 4,03 0,98 < ? < 0,99 (0,99 - 0,98)(3,87 - 3,37) P = 0,98 + # 0,988 (4,03 - 3,37) Biểu diễn kết quả : pH = 2,87 ± 0,03 ứng với P = 0,988 và n = 6. Ứng dụng 3: Tính số lần thí nghiệm song song để đạt một giá trị CV cho trước hoặc khoảng tin cậy x cho trước : 20
(Dùng bảng hệ số Student đầy đủ) Thí dụ : Phép xác định C (3 lần) trong một chất hữu cơ mới tổng hợp cho kết quả x = 44,3% với S = ± 0,4%. Tuy nhiên độ chính xác của phép đo chưa đủ để thiết lập công thức hóa học và cần tăng số lần thí nghiệm song song n sao cho KTC ( x ) ≤ 0,25% ứng với P = 0,95. Hãy tìm n. Giải : Từ công thức : S KTC( x ) = ± t p,f . n n S ⇒ = t x Điều kiện : KTC( x ) ≤ 0,25% n S ≥ t 0,25 Vì chỉ biết S (n =3) nên phép tính n ở đây chỉ là gần đúng. Người ta chấp nhận Sn # S3 = ± 0,4%, do đó : n S 0,4 ≥ n ≈ = 1,6 t p,f 0,25 0,25 Tìm cặp giá trị n, tp,f ở bảng hệ số Student : n 11 12 13 t0,95;f 2,20 2,18 2,16 n 1,51 1,59 1,67 t 0,95;f n Với n = 13 thì = 1,67. t p,f Vậy n ≥ 13. Vậy muốn nâng cao độ chính xác đều phải “trả giá” : tăng từ 3 lên 13 lần. Vì thế các dụng cụ có cấp chính xác cao thường rất đắt tiền. Ứng dụng 4: Loại bỏ số đo có giá trị bất thường : Giả sử nghi ngờ x* trong dãy đo lặp lại n lần (x* có thể là xmin hoặc xmax). Ta tính x n-1 và Sn-1 (vì loại bỏ x* khi tính toán). Nếu tìm thấy : |x* - x n-1| > 4.Sn-1 21
thì có thể loại bỏ x*. Đó là quy tắc “Graf - Henning” được áp dụng cho 4 < n < 1000. b) Hàm phân bố χ2 Hàm phân bố Gauss và Student cho phép ước lượng µ. Hàm phân bố χ2 cho phép ước lượng σ từ S khi n nhỏ S2 S2 χ 2 = (n −1) = f σ 2 σ 2 Khoảng biến thiên : 0 ≤ χ2 ≤ +∞ f −2 χ 21 2− ϕχ() = .(χ ) 2 .e 2 f/2 ⎛ f ⎞ 2 .Γ⎜ ⎟ 2⎝ ⎠ 2 Vậy hàm mẫu ϕ(χ ) 2khác với hàm mẫu ϕ(t) ở chỗ biến số ngẫu nhiên χ tồn tại trong khoảng (0 , + ∞). ϕ(χ2) có đầy đủ tính chất của một hàm mật độ xác suất : ϕ ()χ 2 ϕ ()χ 2 P = 1- α P = 1- α χ 2 χ 2 χ 2 χ 2 χ 2 α α α/2 1- /2 Hàm phân bố ϕ(χ2) , nói chung là bất đối xứng, nhưng độ bất đối xứng sẽ càng giảm khi f tăng lên Ứng dụng: - Tính GHTC của σ từ S ứng với xác suất P đối xứng hoặc bất đối xứng - Kiểm định một giá trị σ cho trước nào đó có còn là độ lệch chuẩn tổng quát cho S hay không (sẽ đề câp trong chuẩn χ2 ) c) Hàm phân bố Fisher (F) Giả sử có hai tập hợp mẫu {x1} có dung lượng nI và {x2} có dung lượng nII, có các 2 2 phương sai mẫu SI và SII . Nếu hai tập mẫu này thuộc về cùng một tập hợp tổng quát thì sự sai khác giữa 2 phương sai này phải mang tính chất ngẫu nhiên. Fisher đề nghị biểu thị sự sai khác ngẫu nhiên này theo tỉ số F và biến ngẫu nhiên mới: 22
2 SI F = 2 với khoảng biến thiên : 0≤ F ≤ +∞ SII Fisher tìm ra hàm phân bố ((F), một hàm phân bố mẫu có dạng sau đây : f II /2 ⎛ f ⎞ Γ(f + f ).⎜ I ⎟ F (/fI 2)-1 III⎝ f ⎠ ϕ()F = II ()ffII+ I/2 ⎛ f II⎞ ⎛ f I⎞ ⎡⎛ f I ⎞ ⎤ ΓΓ⎜ ⎟ ⎜ ⎟ ⎢⎜ ⎟.F + 1⎥ ⎝ ⎠ ⎝ ⎠ 2 2 ⎣⎝ f II ⎠ ⎦ Trong đó : fI = nI - 1, fII = nII - 1. ϕ(F) có đầy đủ tính chất của một hàm mật độ xác suất : +∞ • ∫ ϕ(F)dF = 1 0 - Xác suất hai phía : Fb () P = ϕ()F dF ∫ Fa() Ứng với khoảng (F(a) , F(b)) - Xác suất một phía : Fb ( ) PF = ∫ ϕ()dF 0 Ứng với khoảng (0 , F(b)) ⇒ Hàm phân bố Fisher là một công cụ hữu hiệu để so sánh các loại phương sai rất hay gặp trong thực nghiệm hóa học. Dạng đường biểu diễn của hàm F (Nếu fI , fII càng lớn dạng đường cong càng đối xứng) 0,8 ϕ (F) ( fI =10 ; fII = 50 ) 0,6 0,4 ) ϕ (F) ( fI =10 ; fII = 4 0,2 1 2 3 4 23
Ứng dụng: Chuẩn thống kê F : So sánh hai phương sai mẫu để xem có sự khác biệt hệ thống hay ngẫu nhiên : Cách tiến hành: 2 - Phương sai lớn ký hiệu SI , fI. 2 - Phương sai nhỏ ký hiệu SII , fII. 2 SI Tính F = và so sánh với Flt = F tn 2 P,fI ,fII SII - Nếu Ftn Flt : Sự sai khác giữa hai phương sai mang tính hệ thống (đáng kể). Cách kiểm định thống kê này gọi là kiểm định theo chuẩn F. Thí dụ : Để so sánh tay nghề giữa hai kỹ thuật viên A và B, người ta lấy một mẫu phân tích đồng nhất rồi phân chia thành nhiều mẫu mang số hiệu khác nhau “để lẫn” vào hàng loạt mẫu phân tích khác (mục đích là không biết được đó là mẫu thí nghiệm song song). Kết quả phân tích được xử lý thống kê để tính ra S : KTV A : S = S = ± 0,4% A 5 KTV B : S = S = ± 0,9% B 6 So sánh tay nghề của A và B, chọn P = 0,95. Giải : 0,9 2 Ftn = 2 = 5,06 0,4 Tra bảng tìm Flt = F0,95;5;4 = 6,26 Vì Ftn < Flt nên có thể kết luận là tay nghề của các kỹ thuật viên là tương đương nhau. Kết luận này có độ ngờ vực (mức ý nghĩa ) α = 0,5%. III. CÁC CHUẨN (TEST) THỐNG KÊ. 1. Khái quát về phương pháp kiểm định thống kê: a) Giả thiết thống kê: Các phương pháp kiểm định thống kê cho phép giải thích một cách khách quan các kết quả thí nghiệm. Thí dụ, có hai kết quả trung bình x I và x II của hai kỹ thuật viên khi 24
phân tích cùng một mẫu đồng nhất. Muốn biết sự sai khác giữa x I và x II mang bản chất ngẫu nhiên hay hệ thống, cần phải dùng phương pháp kiểm định thống kê. Nếu cho rằng x I và x II thuộc về cùng một tập hợp tổng quát thì sự sai khác của chúng phải mang bản chất ngẫu nhiên. Một giả thiết thống kê như vậy được gọi là giả thiết H0 (Null Hypothesis). Ngược lại, nếu cho rằng x I và x II không thuộc cùng một tập hợp tổng quát thí sự sai khác giữa chúng phải mang bản chất hệ thống. Giả thiết này được gọi là H1.(Alternative Hypthesis) Nếu chấp nhận H0 có nghĩa là bác bỏ H1 và ngược lại. b) Mức ý nghĩa α: Sự chấp nhận hay bác bỏ một giả thiết thống kê bao giờ cũng phải gắn vói một xác suất tin cậy xác định và gắn liền với một xác suất ngờ vực nhất định ( trong kiểm định thống kê còn gọi là mức ý nghĩa), ký hiệu là α tùy thuộc vào sử dụng xác suất hai phía (two tail) hay một phía (one tail). c) Chuẩn thống kê Z(Z test) : Để kiểm định thống kê. cần phải dùng các chuẩn thống kê Đầu tiên chọn mức ý nghĩa thích hợp, sau đó phải chọn một biến ngẫu nhiên Z thích hợp cho bài toán thống kê. Biến ngẫu nhiên Z có hàm mật độ ϕ(Z) và có sẵn các điểm phân vị Z P hay ZP ghi ở bảng thống kê. Thí dụ : Z có thể là biến ngẫu nhiên hội tụ như u, t, χ2, F Chọn biến nào thì chuẩn thống kê mang tên biến ấy : chuẩn u, chuẩn t, chuẩn F Ngoài ra, nếu chuẩn thống kê căn cứ theo xác suất một phía hay hai phía thì gọi tương ứng là chuẩn thống kê một phía hay hai phía. Thí dụ : Chuẩn t hai phía, chuẩn F một phía Giá trị Z tra bảng thống kê gọi là giá trị lý thuyết, ký hiệu Zlt. - Khi dùng chuẩn thống kê một phía, chỉ cần tra một trong hai giá trị Zlt, lấy Zlt(a) hoặc lấy Zlt(b). - Khi dùng chuẩn thống kê hai phía, cần tra hai giá trị Zlt : Zlt(a) và Zlt(b) nếu Zlt là Z . Khi đó : Z (a) = Z và Z (b) = Z . P lt β lt 1−β Tuy nhiên, nếu Zlt là Zđx thì chỉ cần tra một giá trị Zlt là đủ. Giá trị Z tính được từ số liệu thực nghiệm (rút ra từ tập hợp mẫu {x}) gọi là giá trị thực nghiệm và ký hiệu Ztn. Sau đó, so sánh Zlt với Ztn, và kết luận : • Giả thiết H0 theo chuẩn hai phía được chấp nhận khi Ztn Zlt(a) hoặc Ztn < Zlt(b). • Nếu các điều kiện H0 không thỏa mãn, có nghĩa là chấp nhận H1. 25
Z - Zα -Zα Z α /2 α/2 Chấp nhận H0 Bác bỏ H0 Bác bỏ H0 Chấp nhận H0 Bác bỏ H0 Chấp nhận H0 Bác bỏ H0 Các loại sai lầm trong trong kiểm định giả thiết thống kê: - Sai lầm loại 1 (Type I Erro): Bác bỏ giả thiết H0 khi giả thiết này đúng ở mức ý nghĩa α nào đó của kiểm định , nghĩa là độ tin cậy của kiểm định là (1-α). Thí dụ : α = 5% có nghĩa là giả định sai lầm của kiểm định này 5%, vì vây độ tin cậy là 95%. - Sai lầm loại II (Type II Erro): Ngược lại với sai lầm loại I, Sai lầm loại II là loại sai lầm của việc chấp nhận giả thiết H0 khi giả thiết này sai ở mức ý nghĩa α nào đó . Cần phải tuân thủ nguyên tắc : * Khi bác bỏ H0 thì chọn α = 0,01, tức là P = 0,99. * Khi chấp nhận H0 thì chọn α = 0,05, tức là P = 0,95. * Khi nằm giữa Zlt;0,99 và Zlt;0,95 thì cẩn thận, tốt hơn hết là làm thêm thí nghiệm bổ sung rồi hãy kết luận. 2. Chuẩn Dixon (Zlt = Q P,n ) a) Mục đích : Chuẩn Dixon dùng để loại bỏ số đo có giá trị bất thường trong một tập hợp mẫu dung lượng 3 ≤ n ≤ 8. b) Cách thực hiện : - Sắp xếp các số đo theo trình tự từ nhỏ đến lớn : x1 < x2 < < xn - Tính R : R = |x1 - xn| - Nếu nghi ngờ x1 : x * - x Q = 1 2 tn R - Nếu nghi ngờ xn : 26
x * - x Q = n n-1 tn R - Giá trị Qlt tra bảng Q P,n . Giả thiết thống kê : H0 : không nên loại bỏ x1 hay xn. H1: loại bỏ x1 hay xn. + Nếu Qtn Qlt : Chấp nhận H1 Bảng các điểm phân vị Q P,n n P = 0,90 P = 0,95 P = 0,99 3 0,89 0,94 0,99 4 0,68 0,77 0,89 5 0,56 0,64 0,76 6 0,48 0,56 0,70 7 0,43 0,51 0,64 8 0,40 0,48 0,58 Thí dụ : Có 4 số đo : 8,26 8,28 8,29 và 8,42. Có nên loại bỏ số đo 8,42 hay không ? Giải : Đặt giả thiết thống kê H0 : không loại bỏ số đo 8,42 H1: Loại bỏ số đo 8,42 Tính: R = |8,26 - 8,42| = 0,16 8,42 - 8,29 Q tn = = 0,81 0,16 Nếu chọn P = 0,95 ; Q0,95;4 = 0,77 Qtn > Qlt : bác bỏ giả thiết H0, có thể loại bỏ số đo 8,42. Nhưng theo qui tắc trên, khi bác bỏ H0 nên chọn P = 0,99. Khi đó, Q0,99;4 = 0,89 ⇒ Qtn < Qlt . ⇒ không nên loại bỏ giá trị 8,42 vì Q0,95 < Q < Q0,99. Theo quy tắc trên thì nên làm thêm thí nghiệm bổ sung. Giả sử làm thêm thí nghiệm thu được số đo là 8,32 : 27
R = |8,26 - 8,42| = 0,16 8,42 - 8,32 Q = = 0,625 τ p,n : chấp nhận H1 là có thể loại bỏ xmin (hoặc xmax). 28
Muốn loại bỏ số đo tiếp theo thì cần tính lại τ tn với Sn-1 và x n−1 , sau đó so sánh vớiτ p. n-1. Bảng các điểm phân vị τ p,n n P = 0,90 P = 0,95 P = 0,99 3 1,41 1,41 1,41 4 1,65 1,69 1,72 5 1,79 1,87 1,96 6 1,89 2,00 2,13 7 1,97 2,09 2,27 8 2,04 2,17 2,37 9 2,10 2,24 2,46 10 2,15 2,29 2,54 11 2,19 2,34 2,61 Nhận xét : So sánh τ và Q : – Biến Q không tận dụng hết các số liệu của tập hợp mẫu, mỗi lần kiểm định chỉ dùng 3 giá trị x1, x2, x3 hoặc x1, xn-1, xn, vì vậy khi n càng lớn thì chuẩn Q càng trở nên không thích hợp. – Biến τ tận dụng hết tất cả số liệu của tập hợp mẫu nên chuẩn τ có thể thích hợp cho dung lượng n nhỏ và lớn. Thí dụ 1 : Lấy thí dụ trong chuẩn Q : n = 4 S = 0,0774 x = 8,3125 8,42 - 8,3125 τ tn = = 1,706 4 −1 0,07274. 4 τ tn > τ 0,95;4 = 1,69 và <τ 0,99;4 = 1,72 Vậy không nên loại bỏ giá trị x = 8,42. Thí dụ 2 : Một hồ chứa tự nhiên có hàm lượng chất Z ổn định là 11,0 ppm. Hồ có nguy cơ bị ô nhiễm bởi chất Z từ nhà máy kế bên thải ra nên phải kiểm tra định kỳ bằng phương pháp phân tích có S = S5 = ± 0,9ppm. Vậy khi xác định thấy hàm lượng chất Z là bao nhiêu trở lên thì có thể nói hồ bắt đầu bị ô nhiễm bởi Z ? Cho P = 0,95. Giải : 29
Gọi giá trị hàm lượng phải tìm là xmax. Gọi x = 11,0 ppm. x max − x n - 1 τ tn = ⇒ xmax = x + τ tn .S. n −1 n S. n Cho τ tn = τ 0,95;5 = 1,87 (tra bảng) 5 - 1 xmax = 11,0 +1,87.0,9 = 12,5 ppm 5 Vậy khi xi > 12,5 ppm/l thì có thể kết luận là hồ chứa bắt đầu bị ô nhiễm. Thí dụ 3 : Hiệu suất thu hồi alcaloid từ một nguyên liệu thực vật sau 5 lần xác định là x = 85% với S = S5 = ± 2 %. Trong một lần thu hồi khác đã được hiệu suất x = 92%. Phải chăng đã có một biến động đáng kể về nguyên liệu trong lần này ? Cho P = 0,95. 92 - 85 τ tn = = 3,9 4 2. 5 τ tn = τ 0,95;5 = 4,96 τ tn > τ lt ⇒ Đã có sự biến động đáng kể về nguyên liệu. 4. Các chuẩn χ2 : 2 2 Chuẩn χ , chuẩn Bartlet ( Zlt = χ p,f ) a. Mục đích : • Kiểm định độ chính xác thực tế (của dụng cụ đo lường, của phương pháp phân tích, của tay nghề người phân tích) so với độ chính xác quy định (chuẩn χ2). • Kiểm định tính đồng nhất của một dãy phương sai mẫu rút ra tự một tập hợp mẫu đã tuân theo định luật phân bố chuẩn (chuẩn Bartlet). b.Kiểm định độ chính xác thực tế (chuẩn χ2 thông thường) : Độ chính xác quy định là σ đã cho sẵn bởi nhà chế tạo dụng cụ đo lường hoặc phương pháp phân tích đem sử dụng Độ chính xác thực tế là S : S2 χ 2 = f tn σ 2 2 2 2 Dùng chuẩn hai phía với xác suất P và tra bảng χ tìm giá trị χ1−P và χ1+P 2 2 2 2 2 + Nếu χ1−P < χ tn < χ1+P Kết luận : Độ chính xác thực tế đạt độ chính xác quy định. 2 2 30
2 2 + Nếu χ tn > χ1+P Kết luận : Độ chính xác thực tế không đạt yêu cầu. 2 2 2 + Nếu χ tn χ 0,99;4 = 13,3 Kết luận : Chiếc cân này đã bị xuống cấp “chính xác”, cần sửa chữa lại. Giả sử : Sau khi sửa chữa, S5 = ± 0,0003g. 4.(0,003)2 χ 2 = = 9 2. Theo Bartlet : B χ 2 = tn C 31
χ2 : tra bảng χ 2 với f = k - 1. lt P,f 2 2 2 + Nếu χ tn χlt : dãy phương sai không đồng nhất. Nghĩa là các dãy phương sai S j thuộc về hai hoặc nhiều phương sai tổng quát khác nhau. * Bartlet không cho biết trong đó bao gồm mấy nhóm phương sai đồng nhất. ⇒ Chuẩn Bartlet là một công cụ quan trọng của phép phân tích phương sai. Chú ý : Vì C luôn luôn > 1, để kiểm định nhanh : Đầu tiên tính B và so sánh với χ 2 : P,f - Nếu B χ 2 : tính thêm C, làm như trên. P,f Thí dụ : Khi xác định % C trong 4 mẫu thép khác nhau bằng cách đo thể tích khí CO2, ta thu được các độ lệch chuẩn mẫu khác nhau. Hãy kiểm định tính đồng nhất của các phương sai mẫu, biện luận về ảnh hưởng của các thành phần trong thép đến độ chính xác của phép xác định % C. j x j (%) Sj (%) fj Loại thép 1 1,03 0,005 24 Có pha 14% Cr 2 1,23 0,007 32 Có pha thêm 1,2% Si và 1,2% Cr 3 1,30 0,010 28 Loại thép Ferro mangan 4 1,38 0,008 32 Loại thép không pha thêm Giải : Đặt Si = 1000Sj.(kết quả không thay đổi) i S 2 f 2 2 2 i Si j fj. Si logSi fj.logSi 1 5 25 24 600 1,3979 33,5496 2 7 49 32 1.568 1,6802 54,0864 3 8 100 28 2.800 2,0000 56,0000 4 10 64 32 2.048 1,0062 57,7984 ∑ 116 7016 201,4344 32
7016 S2 = = 60,48 th 116 2 logSth = 1,7816 2 fth. logSth = 116 x 1,7816 = 206,6656 2 2 B = 2,303(fth. logSth - ∑fj. logSi ) = 2,303(206,6656 - 201,4344) = 12,0475 2 2 χ lt = χ 0,99;3 = 11,3 2 So sánh : B > χ lt Tính thêm : 1 ⎛ 1 1 ⎞ C = 1+ ⎜ − ⎟ ⎜∑ ⎟ 3(k −1) ⎝ f j f th ⎠ 1 ⎛ 1 1 1 1 1 ⎞ = 1 + ⎜ + + + − ⎟ = 1,0146 3(4 −1) ⎝ 24 32 28 32 116 ⎠ B 12,0475 χ 2 = = = 11,8740 ≈ 11,87 tn C 1,0146 2 2 2 Kết luận : Vì χ tn = 11,87 > χ0,99 = 11,3 nên các phương sai mẫu Si là không đồng nhất. Phỏng đoán : Có lẽ tính không đồng nhất do S3 = 0,010 lớn nhất trong dãy này. Ta 2 2 2 2 loại bỏ và tính lại χ tn . Kết quả thu được χ tn = 5,63 và χ lt = χ0,95;2 = 5,99. Vậy các phương sai còn lại là đồng nhất. ⇒ Phương pháp xác định % C trong mẫu thép Ferro mangan có độ chính xác kém hơn so với các mẫu thép còn lại. 5. Chuẩn Fisher. (Zlt = F ) P,fI ,fII a) Mục đích : 2 2 Chuẩn Fisher dùng để kiểm định tính đồng nhất của hai phương sai mẫu SI vàSII rút ra từ hai tập hợp mẫu {xI} và {xII}. Điều kiện : Các tập hợp này tuân theo định luật phân bố chuẩn. b) Cách thực hiện : 2 2 Trong hai phương sai đem kiểm định SI >SII . 2 SI Ftn= 2 (luôn luôn lớn hơn 1) SII So sánh Ftn với Flt = F : P,fI ,fII 33
– Nếu Ftn F thì hai phương sai không đồng nhất. P,fI ,fII Chuẩn F là công cụ quan trọng của phép giải tích phương sai. 6. Chuẩn Cochran . (Zlt= GP,f,n) a) Mục đích : 2 Chuẩn Cochran dùng để kiểm định trong dãy phương sai mẫu S j có cùng dung lượng 2 nj = n, phương sai lớn nhất Smax có đồng nhất với các phương sai còn lại không. b) Cách thực hiện : 2 Giả sử có k phương sai mẫu S j dung lượng n bằng nhau và đánh số j = 1, 2, , k, 2 Smax là phương sai lớn nhất • Tính Gtn theo công thức : 2 Smax G tn = 2 ∑S j • Tra bảng giá trị Glt trong bảng Điểm phân vị Gp,f,n với f = k - 1. • So sánh giá trị Gtn với giá trị Glt : 2 - Nếu Gtn Glt : Smax có sai số hệ thống với các phương sai còn lại. 2 2 ⇒ LoạiSmax vừa xem xét và có thể thử tiếp với Smax thứ hai trong dãy phương sai cho đến khi thu được dãy phương sai đồng nhất. 2 Lưu ý : Khi thử với Smax thứ hai , so sánh Gtn 2 với Gp,f,n , trong đó f = k -2. Thí dụ : Phép xác định % Cl- trong 4 mẫu khác nhau cho kết quả sau : 1) 11,28 11,30 11,31 2) 11,26 14,32 14,27 3) 18,60 18,72 18,62 4) 16,45 16,42 16,50 Hãy tính độ lệch chuẩn có trọng số Sn,k của phép xác định này. Cho P = 0,95. (Lưu ý : Cần phải kiểm định tính đồng nhất của các phương sai trước khi tính Sn,k). Giải : Kiểm định tính đồng nhất của các phương sai mẫu theo chuẩn Cochran : 34
2 2 S1 = 0,0002333 S2 = 3,071033 2 2 S3 = 0,004133 S4 = 0,001633 2 2 Smax = S2 2 Smax 3,071033 Gtn = 2 = = 0,5877 ∑S j 3,077032 Glt = G0,95;3;3 = 0,7977 > Gtn = 0,5877. ⇒ Các phương sai mẫu là không đồng nhất. 2 ⇒ Loại bỏ S2 ra khỏi dãy phương sai trên .Xem xét 3 phương sai còn lại. ⇒ 3 phương sai còn lại đồng nhất với nhau f .S2 2 ∑ j j 2.00599 Sn,k = = = 0,001966 với fn,k= ∑nj-k f n,k 9 − 3 ⇒ Sn,k = 0,0443 Sn,k ≈ 0,04% 7. Chuẩn Student (t-Test): a) Mục đích : 2 - Kiểm định sự sai khác giữa hai giá trị trung bình x I và x II trong điều kiện SI 2 vàSII (sau khi đã kiểm định bằng chuẩn F) ⇒ Sai số mang tính ngẫu nhiên hoặc hệ thống. - Tính toán giới hạn tin cậy - đánh giá kết quả phân tích. b) Cách thực hiện : * Kiểm định hai giá trị trung bình : – Tính ttn theo công thức : x I − x II n I n II (n I + n II − 2) t tn = . 2 2 (n −1)S + (n −1)S n I + n II I I II II * Nếu nI = nII = n thì : x I − x II t tn = n 2 2 SI + SII - Tra tlt = tp,f trong bảng điểm phân vị (với f = nII + nII - 2) 35
- So sánh ttn và tlt : • Nếu ttn tlt : Sự sai khác giữa hai giá trị trung bình mang tính hệ thống. Chú ý : Nếu có giá trị xđ nên so sánh với xđ để biết giá trị nào đúng hơn. Thí dụ : Hàm lượng % N tìm thấy trong các mẫu phân tích bởi hai nhóm sản xuất cho kết quả sau : x I = 9,36 với SI = ± 0,09 và x II = 9,57 với SII = ± 0,034 , nI = nII = 4. Hãy so sánh hai kết quả trung bình ? (P = 0,95) Giải : Kiểm định tính đồng nhất giữa hai phương sai : 0,09 2 F = = 7,0 tn 0,034 2 Flt = F0,95;3;3 = 9,28 ⇒ Ftn < Flt : Hai phương sai đồng nhất. Áp dụng chuẩn t so sánh hai giá trị trung bình : 9,36 - 9,57 t tn = . 4 = 4,36 0,09 2 + 0,034 2 tlt = t0,95;6 = 2,45 t0,99;6 = 3,71 ⇒ Hai giá trị trung bình sai khác rất đáng kể. * Tính giới hạn tin cậy : x − µ tP,f = . n (với f = n -1) S t S t S µ = x ± P,f hay GHTC (µ) = x ± P,f n n Thí dụ 1 : Kết quả phân tích nguyên tố X là 53,2; 53,6; 4,9; 52,3; 53.6; 53.1 mg. Vậy phương pháp phân tích có mắc sai số hệ thống không nếu giá trị thực của X là 56,3 mg ? (P = 0,95) Giải : - Kiểm tra số đo có giá trị bất thường trong dãy số liệu thu đựợc theo chuẩn Q : không loại giá trị nào. - Tính : x = 53,45. - Tính : S = 0,85. - Tính : ttn = 8,2. Tra bảng : tlt = t0,95;5 = 2,57 36
⇒ ttn > tlt : Phương pháp mắc sai số hệ thống. Thí dụ 2 : Sau 5 lần phân tích Al2O3, thu được các kết quả (%) : 2,25; 2,19; 2,11; 2,38; 2,32. Vậy hàm lượng của Al2O3 bằng bao nhiêu, với P = 0,95 ? Giải : - Kiểm tra chuẩn Q : không bỏ giá trị nào. - Tính : x = 2,25. - Tính : S = 0,11. - Tra bảng : tlt = t0,95;4 = 2,78. t .S ± 0,95;4 = ± 0,14 5 Hàm lượng thực của Al2O3 : µ = (2,25 ± 0,14) % Nghĩa là µ ở trong khoảng 2,11 - 2,39 %. * So sánh giá trị x với giá trị thật µ (biết trước) x − µ Tính ttn = . n S Nếu ttn tlt : x ≠ µ ( có thể do sai số hệ thống nào đó) Thí dụ : Một mẫu chứa 49,06 ± 0,02% chất X .Hai phương pháp phân tích cho các giá trị đo: PPA : 49,01 ; 49,21 ; 49,08 PPB : 49,40 ; 49,44 ; 49,42 Tính x , GHTC và đánh giá 2 kết quả đó (P = 0,95) Giải : - Kiểm tra các giá trị bằng chuẩn Q: không bỏ giá trị nào - x A = 49,10% SA = 0,10 - x B = 49,42% SB = 0,02 * So sánh x và µ 49,06 − 49,10 ttnA= 3 = 0,69 t0,95;2 = 4,3 0,02 37
x B ≠ µ : sự khác biệt do sai số hệ thống * So sánh về độ đúng: 49,10 − 49,42 ttn = . 3 = 5,43 > t0,95; 4 = 2,78 0,12 + 0,022 ⇒ Hai giá trị trung bình có sự sai khác đáng kể (sai số hệ thống) * So sánh độ lặp lại: 2 2 SA 0,10 Ftn = 2 = 2 = 25 > F0,95;2;2 = 19 SB 0,02 ⇒ Độ lặp lại của hai thí nghiệm cũng sai khác nhau một cách hệ thống. * Tính giới hạn tin cậy: t .S 0,95;2 A = 0,25 n t .S 0,95;2 B = 0,05 n µA=(49,10 ± 0,25)% ⇒ µ nằm ở trong khoảng tin cậy µB=(49,42 ± 0,05)% ⇒ µ nằm ở ngoài khoảng tin cậy 8. Chuẩn Gauss (Zlt = Up) a) Mục đích : Chuẩn Gauss được dùng để kiểm định sự sai khác giữa hai giá trị trung bình x I và 2 x II có cùng phương sai tổng quát σ b) Cách thực hiện đối với biến ngẫu nhiên x tuân theo hàm phân bố chuẩn : - Tính Utn theo công thức : x I − x II n I .n II Utn = σ n I + n II * Nếu nI = nII = n : x I − x II n Utn = σ 2 - Tra bảng Ult = Up. Vài giá trị đáng nhớ : U0,90 = 1,64 (P = 0,90) U0,95 = 1,96 (P = 0,9) U0,99 = 2,52 (P = 0,99) 38
- So sánh Utn và Ult. Thí dụ : Đem phân tích hai mẫu kiếng, thu được kết quả : Mẫu A Mẫu B σ của phương pháp phân tích As 1290 ppm 1090 ppm 95 ppm Ce 0,45 0,6 0,17 La 3,93 3,61 0,09 Sb 2,7 1,5 1,5 Th 0,61 0,81 0,08 Có thể coi hai mẫu kiếng này thuộc cùng một loại không ? Cho P = 0,95. Giải : – Tính Utn của các nguyên tố theo công thức : x A - x B 1 u tn = . σ 2 As Ce La* Sb Th Utn 1,49 0,62 2,51 0,57 1,77 - Tra bảng Ult = U0,95 = 1,96. ⇒ Vì Utn của La lớn hơn rõ rệt Ult nên hai mẫu kiếng này không cùng một loại. q 9. Chuẩn Duncan. (Zlt = P,R ,f th ) a) Mục đích : Chuẩn Duncan được dùng để kiểm định sự sai khác giữa một giá trị trung bình với lần lượt các giá trị trung bình còn lại, trên cơ sở đó thiết lập sự sai khác hệ thống và ngẫu nhiên giữa các giá trị trung bình và đánh giá tác dụng ảnh hưởng của các yếu tố gây ra sự khác biệt của giá trị trung bình. Điều kiện để thực hiện kiểm định Duncan : - Phải đoan chắc rằng các phương sai mẫu là đồng nhất (kiểm định chuẩn Bartlet). - Phương sai tái hiện và phương sai đối sánh là không đồng nhất (kiểm định bằng chuẩn Fisher). Chú ý : Kiểm định chuẩn Bartlet và Fisher được thực hiện trước khi kiểm định chuẩn Duncan. b) Cách thực hiện : Giả sử có k mẫu đánh số i = 1, 2, 3, , k, mỗi mẫu i được tiến hành ni thí nghiệm 2 song song, từ đó tính được giá trị trung bình x i và Si . 2 * Kiểm định tính đồng nhất của Si theo Bartlet : 39
B χ 2 = tn C 2 2 2 Kiểm nghiệm : χ tn Flt : Giữa các giá trị trung bình có sự sai số hệ thống, tiến hành kiểm định bằng chuẩn Duncan để phát hiện so sánh hệ thống này. - Nếu Ftn x′i′ . Tìm số bậc r’ và r’’ tương ứng r’ < r’’. R là số bậc tương đối giữa x′i và x′i′ : R = r’’- r’ + 1 • Giá trị bậc R và fth dùng để tính qlt trong bảng Duncan. 40
* Tính qtn : x i ' - x i " 2n i '.n i " q tn = . Sth n i ' + n i " * So sánh qtn và qlt : • Nếu q q : sự sai khác giữa x′ và x′′ mang tính hệ thống đáng kể. tn 0,95;R;fth i i Ghi : x i ' > x i " • Nếu q > q :sự sai khác giữa x′ và x′′ mang tính hệ thống rất đáng kể. tn 0,99;R;f th i i Ghi: x′i >> x′i′ Thí dụ : Để chế tạo mẫu chuẩn dùng cho phương pháp phân tích bằng phổ phát xạ nguyên tử, người ta chọn một tấm sắt đồng nhất rồi lần lượt cưa thành các miếng nhỏ cỡ 3x3 cm2. Để kiểm tra tính đồng nhất của mỗi miếng, người ta đã tiến hành xác định % Cr 4 lần. Cứ 5 miếng thì chọn miếng thứ năm để làm mẫu phân tích. Chọn được 6 mẫu như vậy, riêng mẫu thứ hai thì chỉ phân tích 3 lần vì sắt bị rỉ, phải loại bỏ. Hãy kiểm tra tính đồng nhất của các mẫu chuẩn căn cứ theo bảng số liệu sau (xếp lần lượt theo chiều dài của tấm sắt) : i 1 2 3 4 5 6 ni 1 1,42 1,38 1,37 1,38 1,32 1,42 2 1,42 1,41 1,34 1,36 1,33 1,39 3 1,41 1,41 1,38 1,37 1,34 1,41 4 1,44 1,42 1,34 1,37 1,32 x i 1,423 1,407 1,405 1,358 1,370 1,328 41
Giải : Đặt X = 100x - 140 : chuyển thành bảng : i 1 2 3 4 5 6 ni 1 + 2 - 2 - 3 - 2 - 8 + 2 2 + 2 + 1 - 6 - 3 - 7 - 1 3 + 1 + 1 - 2 - 4 - 6 + 1 4 + 4 + 2 - 6 - 3 - 8 ∑X + 9 + 2 + 2 - 17 - 12 - 29 ∑∑X - 45 2 Si 1,583 2,333 3,000 4,25 0,667 0,917 + + 0,667 + 0,50 - 4,25 - 3,0 - 7,25 X i 2,25 2 * Kiểm định tính đồng nhất của Si theo chuẩn Bartlet : Lập bảng sau : 2 2 2 2 I Si fi fi. Si logSi fi.logSi 1 1,583 3 4,749 0,19948 0,59844 2 2,333 2 4,666 0,36791 0,73583 3 3,000 3 9,000 0,47712 1,43136 4 4,25 3 12,75 0,62839 1,88517 5 0,667 3 2,001 - 0,17587 - 0,52797 6 0,917 3 2,751 - 0,03763 - 0,11289 ∑ 17 35,917 4,01001 Tính : 2 2 ∑ f i .Si 35,917 S th = = = 2,1128 (fth = ∑fj = 17) ∑ f i 17 2 logSth = 0,3248 2 fth.logSth = 5,52247 2 2 B = 2,303(fth.logSth - ∑ fi.logSi ) 42
= 2,303(5,52247 - 4,01001) = 3,438 2 2 2 χ lt = χ 0,95;5 = 11,1 > 3,483 = χ tn Vậy các phương sai là đồng nhất. * Kiểm định tính không đồng nhất giữa phương sai theo chuẩn Fisher : 2 S th = 2,1128 fth = 17 2 1 ⎡ 2 1 2 ⎤ Sds = ∑∑n i x i − ()n i x i k −1 ⎣⎢ N ⎦⎥ 1 ⎛ 9 2 2 2 2 2 17 2 12 2 29 2 45 2 ⎞ = ⎜ + + + + + - ⎟ 6 - 1 ⎝ 4 3 4 4 4 4 23 ⎠ 2 S th = 50,60 fâs = 6 - 1 = 5 2 Sds 50,60 Ftn = 2 = = 23,95 S th 2,1128 Flt = F0,95;5;17 = 2,81 F0,99;5;17 = 4,34 Vậy các phương sai là không đồng nhất vì : Ftn > Flt * Kiểm định theo chuẩn Duncan : Sắp xếp lại các giá trị trung bình từ lớn đến nhỏ, ta được bảng như sau : r 1 2 3 4 5 6 X i + 2,25 + 0,667 + 0,50 - 3,0 - 4,25 - 7,25 i 1 2 3 4 5 6 ni 4 3 4 4 4 4 Sth = 2,11 = 1,453 Tính : - So sánh hai giá trị x′i = + 2,25 và x′i′ = + 0,667 : 2,25 - 0,667 2.4.3 q = . = 2,021 (R = r’’- r‘ + 1 = 2 - 1 + 1= 2) tn 1,453 4 + 3 - So sánh hai giá trị x′i = 2,25 và x′i′ = + 0,50 : 2,25 - 0,50 2.4.4 q = . = 2,41 (R = 3) tn 1,453 4 + 4 Lập bảng : 43
x i ' x i " R qtn q0,95;R;17 q0,99;R;17 Kết luận + 2,25 + 0,667 2 2,021 2,98 4,10 ≈ + 0,50 3 2,41 3,13 4,30 ≈ - 3,00 4 7,24 3,22 4,41 >> - 4,25 5 8,97 3,28 4,50 >> -7,25 6 13,10 3,33 4,56 >> + 0,667 + 0,50 2 0,21 2,98 4,10 ≈ - 3,00 3 4,68 3,13 4,30 >> - 4,25 4 6,28 3,22 4,41 >> -7,25 5 10,10 3,28 4,50 >> + 0,50 - 3,00 2 4,83 2,98 4,10 >> - 4,25 3 6,55 3,13 4,30 >> -7,25 4 10,69 3,22 4,50 >> - 3,00 - 4,25 2 1,72 2,98 4,10 ≈ -7,25 3 5,86 3,13 4,30 >> - 4,25 -7,25 2 4,14 2,98 4,10 >> Phương pháp lập bảng này của Doerffel tuy khái quát nhưng không tiện cho việc biện luận kết quả. Giáo sư Cù Thành Long đề nghị một phương pháp khác : Nguyên tắc : Việc so sánh giá trị trung bình cùng một lúc giống như việc phân hạng nhiều đội bóng đá trong cách thi đấu vòng tròn. Trong trận hòa ≈, mỗi đội được 1 điểm; trong trận thắng (> hoặc >>), đội thắng được 2 điểm, đội thua 0 điểm. Số lần thắng đậm (tương ứng “>>”) được ghi dưới dạng chỉ số dưới bên phải của điểm tổng kết. Giá trị trung bình càng lớn thì có điẻm tổng kết càng cao. Các giá trị trung bình được coi là hoàn toàn tương đương nhau khi có cùng điểm tổng kết và cùng chỉ số. i 1 2 3 4 5 6 x i (% Cr) 1,423 1,407 1,405 1,358 1,370 1,328 Điểm tổng kết 83 83 83 31 31 0 Từ bảng trên, có thể kết luận : 44
Hàm lượng % Cr ở những phần đầu của tấm sắt (3 mẫu đầu tiên) là hoàn toàn đồng nhất nhau và có thể dùng làm mẫu chuẩn. Dọc theo chiều dài của tấm sắt, kể từ mẫu số 4, hàm lượng % Cr càng trở nên kém đồng nhất. Do đó không nên dùng để làm mẫu chuẩn. CÂU HỎI ÔN TẬP 1- Phân biệt sai số ngẫu nhiên và sai số hệ thống. Cho biết cách loại trừ hoặc làm giảm các sai số trên trong thực nghiệm hóa học. 2- Cách loại bỏ các số liệu bất thường thu được trong thực nghiệm hóa học. 3- So sánh và phân biệt mục đích sử dụng của các chuẩn thống kê: Bartlet, Fisher, Ducan, Cohran, Student. TÀI LIỆU THAM KHẢO 1- Doerffel – Thống kê trong hóa học phân tích – NXB ĐH&THCN – 1983 2- Cù Thành Long – Giáo trình “xử lý thống kê trong thực nghiệm hóa học” – ĐH Tổng hợp TP HCM 1991 3- Đặng Hùng Thắng – Thống kê và ứng dụng – NXB GD – 1999 45
Chương 2: PHÂN TÍCH PHƯƠNG SAI I. KHÁI QUÁT VỀ PHÂN TÍCH PHƯƠNG SAI (ANALYSIS OF VARIANCE) 1. Mục đích và ý nghĩa: Cần phân biệt hai loại yếu tố ảnh hưởng đến giá trị của một số đo thực nghiệm : yếu tố cơ bản và yếu tố ngẫu nhiên. • Yếu tố cơ bản : Bao gồm một nhóm các điều kiện cơ bản của thí nghiệm. Mỗi điều kiện được coi là một yếu tố cơ bản. Trong thí nghiệm Hóa học, yếu tố cơ bản thường là yếu tố làm dịch chuyển cân bằng hóa học hoặc làm thay đổi vận tốc phản ứng. Thí dụ : nhiệt độ, áp suất, nông độ các chất xúc tác, nồng độ tác chất là các yếu tố cơ bản. Mỗi điều kiện cụ thể của thí nghiệm gọi là mức cố định của yếu tố cơ bản. Chẳng hạn, ảnh hưởng của pH được khảo sát ở 3 mức cố định là pH = 2, pH = 3, pH = 4. Khi lập kế hoạch thí nghiệm, với khoảng mức cố định đã chọn thì yếu tố cơ bản có thể gây ra sự thay đổi có tính hệ thống của giá trị trung bình. Nếu xét về mặt sai số thì yếu tố cơ bản là yếu tố có khả năng gây ra sai số hệ thống của phép đo. Khi có nhiều phòng thí nghiệm cùng tham gia phân tích một mẫu đồng nhất bằng một quy trình phân tích giống hệt nhau, thường xảy ra có sự khác biệt hệ thống giữa các giá trị trung bình thu được bởi mỗi phòng thí nghiệm. Tình huống này rất hay gặp trong thực tế kiểm nghiệm. Khi đó người ta chấp nhận một yếu tố cơ bản đặc biệt gọi là “yếu tố phòng thí nghiệm” với số mức cố định bằng đúng bằng số phòng thí nghiệm tham gia. • Yếu tố ngẫu nhiên : Thể hiện khi lặp lại thí nghiệm với các điều kiện cơ bản không hề thay đổi, thu được những giá trị đo khác nhau. Đây là sai số ngẫu nhiên “thuần túy” của thí nghiệm. Để ước lượng sai số ngẫu nhiên này với mỗi mức cố định của yếu tố cơ bản cần phải tiến hành một số thí nghiệm song song. ⇒ Mỗi giá trị đo chứa đựng ảnh hưởng đồng thời của yếu tố cơ bản và yếu tố ngẫu nhiên. Mục đích của phân tích phương sai là tách biệt và so sánh từng loại yếu tố đến giá trị đo: ảnh hưởng giữa các yếu tố cơ bản với nhau, giữa các yếu tố cơ bản với các yếu tố ngẫu nhiên. Hơn nữa, phân tích phương sai còn cho phép phát hiện một loạt ảnh hưởng đặc biệt chỉ thể hiện khi có mặt đồng thời hai hay nhiều yếu tố cơ bản. Phân tích phương sai được sử dụng rộng rãi trong Hóa phân tích để phát hiện và đánh giá vai trò của nguồn sai số khác nhau. Trong Hóa học nói chung, phân tích phương sai là một công cụ để tìm ra các điều kiện tối ưu hóa trong hoạch định thí nghiệm. Tùy theo số yếu tố cơ bản dự định đem khảo cứu, phân tích phương sai một yếu tố, hai yếu tố, nhiều yếu tố Thông thường mỗi yếu tố được khảo cứu ít nhất với hai mức cố định. 2. Nguyên tắc và thuật toán: • Sự thăng giáng của giá trị đo do mỗi yếu tố gây ra được đặc trưng bằng một phương sai mẫu với bậc số tự do tương ứng. Phép so sánh ảnh hưởng của các yếu tố rút thành phép kiểm định tính đồng nhất của các yếu tố. 46
- Kiểm định tính đồng nhất của 2 phương sai : chuẩn Fisher. - Kiểm định tính đồng nhất của một dãy phương sai : chuẩn Bartlet hoặc Cochran. • Thuật toán : Có hai loại phương sai đặc trưng của phân tích phương sai : 2 - Phương sai tái hiện Sth : biểu thị tác dụng của yếu tố ngẫu nhiên “thuần túy” đến giá trị đo. 2 - Phương sai đối sánh Sds : biểu thị tác dụng chung của yếu tố ngẫu nhiên và yếu tố cơ bản đến giá trị đo. 2 2 + Nếu Sth và Sds đồng nhất (theo Fisher) : yếu tố cơ bản không ảnh hưởng đến kết quả đo. 2 2 2 2 2 + Nếu Sth và Sds không đồng nhất, Sds lấn át Sth , có thể tách Sds thành hai phần riêng : 2 ♣Thành phần Sth của yếu tố ngẫu nhiên thuần túy 2 ♣Thành phần SA của yếu tố cơ bản A 2 2 2 Mối quan hệ giữa Sth và Sds và SA được giải quyết dựa vào số lặp lại ni mỗi mức j của yếu tố A , nếu ni đồng đều cho mọi mức (thí nghiệm đối xứng) thì: 2 2 2 Sds = Sth + nSA (n là số lần thí nghiệm song song) II. PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ (SINGLE FACTOR) Mục đích : Đánh giá sự ảnh hưởng của một yếu tố nào đó trên các giá trị trung bình của kết quả đo Giả sử khảo sát ảnh hưởng của yếu tố cơ bản A với k mức cố định, đánh số j = 1, 2, , k, mỗi mức tiến hành thí nghiệm song song đánh số i = 1, 2, ,n 1. Trình tự thực hiện: Bước 1: Lập bảng ghi kết quả đo xji và tính thêm các các dữ liệu cần thiết j 1 2 k i 1 x11 x21 xk1 2 x12 x22 xk2 n k N = ∑∑n ji i==1 j 1 n x1n x2n xkn 47
n ∑ x i i=1 x1 x 2 x k x j = n i n k ∑ x i T1 T2 Tk T = ∑Tj i=1 j=1 n k x 2 = x 2 2 2 2 x 2 j ∑ i x1 x 2 x k ∑ j i=1 j=1 2 2 2 2 s j s1 s2 sk Các ký hiệu : *Trung bình của mẫu n x ∑ i T i=1 j x j = = n i n i * Trung bình chung: T x = N * SST: Tổng bình phương chung (Total Sum of Squares) n1 n 2 n k 2 2 2 2 2 T SST = ∑(x1i − x) + ∑(x 2i − x) + .+ ∑(x ki − x) =∑ x ji − i=1 i=1 i=1 N * SSF : Tổng bình phương do yếu tố (Sum of Squares for Factor) k 2 2 2 2 2 T1 T2 Tk T SSF = ∑ n j (x j − x) = + + + − j=1 n1 n 2 n k N * SSE : Tổng bình phương do sai số (Sum of Squares for Erro) SSE = SST – SSF * MSF : Trung bình bình phương của yếu tố (Mean Square for Factor) SSF 2 MSF = = S (fđs = k-1 ) k −1 ds * MSE : Trung bình bình phương của sai số (Mean Square for Erro) SSE 2 MSE = = S (fth= N-k) N − k th * MST : Trung bình bình phương chung (Mean Total Sum of quare) 48
SST 2 MST = = S (fchung = N-1) N −1 Chung 2 SSF Sds * Ftn= = (Flt = F ) 2 P,fds ,fth SSE Sth So sánh Ftnvà Flt 2 2 + Nếu Ftn Flt : Sth và Sds không đồng nhất (theo Fisher) ⇒ Yếu tố cơ bản A ảnh hưởng đáng kể đến kết quả đo .Trong dãy giá trị trung bình nhất định có một hoặc vài cặp có sai biệt hệ thống (tiến hành bước 2) Tổng bình Số bậc Thành phần Nguồn gốc phương sai phương các độ Phương sai tự do của phương sai lệch 2 2 2 Tác dụng chung của Sds =Sth + nSA SSF yếu tố cơ bản và ngẫu k - 1 SSF S2 = ds k −1 (thí nghiệm đối nhiên xứng) Tác dụng riêng của 2 SSE 2 N - k SSE S = S yếu tố ngẫu nhiên th N − k th “Ngẫu nhiên hóa” mọi 2 SST 2 tác dụng của yếu tố cơ N- 1 SST SChung = S chung bản và ngẫu nhiên N −1 Bước 2 :Kiểm định tính đồng nhất của phương sai theo chuẩn Bartlet hoặc Cochran (khi thí nghiệm đối xứng các nj=n): Cần loại bỏ các phương sai lớn cho đến khi các phương sai còn lại đều đồng nhất 2 2 Bước3 : Kiểm định tính không đồng nhất của Sth và Sds theo chuẩn Fisher : 2 Sds Ftn = 2 S th Flt = F với fâs = k - 1 fth = k(n - 1) P,f ds ,f th So sánh với Ftn và Flt : – Nếu Ftn < Flt , kết luận : yếu tố A không có ảnh hưởng đáng kể đến các giá trị đo (trên các số đo còn lại sau khi loại bỏ ở bước 2) 49
– Nếu Ftn > Flt, kết luận : yếu tố A có ảnh hưởng đáng kể đến giá trị đo. Trong dãy giá trị trung bình nhất định có một hoặc vài cặp có sai biệt hệ thống., cần tiến hành bước 4 để kiểm định sai biệt giữa các giá trị trung bình. Bước 4 : Kiểm định sự sai biệt hệ thống giữa các giá trị trung bình theo chuẩn Duncan: Ta sắp xếp lại x j theo trình tự từ lớn đến nhỏ, đánh số bậc r = 1, 2, , k; sau đó tiến hành như ở phần chuẩn Duncan. III. BÀI TẬP ỨNG DỤNG 1. Bài tập 1: Hàm lượng Ca (%) trong mẫu đá vôi được xác định bằng 3 phương pháp khác nhau. Hãy cho biết hàm lương Ca thu được có bị ảnh hưởng bởi các phương pháp phân tích khác nhau không? Bảng kết quả: PP1 12 10 11 12 9 12 PP2 12 14 15 16 PP3 12 11 13 10 Bước 1: Lập bảng và ghi các dữ liệu cần thiết Giả thiết thống kê H0 : Hàm lượng Ca không bị ảnh hưởng bởi phương pháp phân tích (Các giá trị trung bình thu được xem như tương đương nhau) H1 : Hàm lượng Ca bị ảnh hưởng bởi phương pháp phân tích (Các giá trị trung bình thu được có sự khác biệt ) PP1 PP2 PP3 12 12 12 10 14 11 11 15 13 12 16 10 9 12 nj 6 4 4 N =14 fj 5 3 3 50
x j 11 14,25 11.5 T 66 57 46 2 S j 1,6 2,916667 1,666667 T 2 SST = x 2 − = 48,9286 ∑ ji N T 2 T 2 T 2 T 2 SSF = 1 + 2 + + k − = 27,1786 n1 n 2 n k N SSE = SST – SSF = 21,75 SSF 2 MSF = = S = 13,5893 (fđs = k-1 = 3-1 = 2) k −1 ds SSE 2 MSE = = S = 1,9773 (fth= N-k = 14-3 = 11) N − k th 2 Sds Ftn = 2 = 6,8727 > F0,95;2;11 = 3,98 S th ⇒ Yếu tố phương pháp phân tích có ảnh hưởng đến kết quả đo Bước 2: Kiểm định tính đồng nhất của các phương sai bằng chuẩn Barlet 2 PP1 PP2 PP3 ∑ f j logS j 2 f j logS j 1,0206 1,3947 0,6655 3,0808 2 2 B = 2,303(f th logSth - ∑ f j logS j ) 2 B = 2,303(11.log1,9773 – 3,0808) = 0,4053 F0,95;2;11 = 3,98 S th 2 2 ⇒ Các phương sai Sth và Sds là không đồng nhất ⇒Yếu tố phương pháp phân tích có ảnh hưởng đến các kết quả thu được Bước 4: Kiểm định sự sai biệt hệ thống giữa các giá trị trung bình theo chuẩn Duncan : Lập bảng 51
r 1 2 3 x j 14,25 11,5 11 nj 4 4 6 Sth = 1,4062 x′ − x′′ 2.n′.n′′ Q = j j j j Q = Q và Q ( với f = 11 và R = r/ - r// + tn lt 0,95;R;fth 0,99;R;fth th Sth n′j + n′j′ 1) x′j x′j′ Q Q R Qtn 0,95;R;fth 0,99;R;fth Kt lun 14,25 11,5 2 3,91 3,12 4,4 > 11 3 5,06 3,26 4,64 >> 11,5 11 2 0,78 3,12 4,4 ≈ Bảng điểm tổng kết: Phng pháp PP1 PP2 PP3 Hàm lng Ca 11 14,25 11,5 (%) im tng kt 1 41 1 Kết luận: Bác bỏ giả thiết H0 , chấp nhận giả thịết H1.Nghĩa là hàm lượng Ca thu được từ 3 PP phân tích có sự khác biệt . Trong đó PP1 và PP3 xem như cho kết quả tương đương nhau. Chú ý: Ở đây chưa biết giá trị đúng của Ca nên không thể kết luận là PP nào cho kết quả đúng . 2. Bài tập 2: Hãy so sánh ảnh hưởng của các halogenur alkyl CH3I (a1), C3H7I (a2), C4H9I (a3), C2H5Br (a4), C3H7Br (a5) đến hiệu suất (%) của phản ứng polimer theo cơ chế gốc tự do, dựa vào bảng số liệu đo hiệu suất : 52
1 2 3 4 5 j (a1) (a2) (a3) (a4) (a5) i 1 79,8 87,3 42,5 76,0 70,7 2 86,3 69,6 64,3 83,8 64,8 3 86,5 81,8 79,0 72,8 38,5 4 92,3 78,0 61,0 89,0 77,0 5 76,5 83,7 31,3 76,5 91,5 6 87,1 64,8 72,9 87,5 68,0 7 82,5 67,3 58,7 74,5 38,1 8 90,0 75,5 52,5 93,2 80,0 Giải : Bước 1:: Lập bảng và ghi các dữ liệu cần thiết Giả thiết thống kê H0 : Các halogenur alkyl không ảnh hưởng đến hiệu suất (Các hiệu suất thu được xem như tương đương nhau) H1 : Các halogenur alkyl có ảnh hưởng đến hiệu suất (Các hiệu suất thu được có sự khác biệt ) 1 2 3 4 5 j (a1) (a2) (a3) (a4) (a5) i 1 79,8 87,3 42,5 76,0 70,7 2 86,3 69,6 64,3 83,8 64,8 3 86,5 81,8 79,0 72,8 38,5 4 92,3 78,0 61,0 89,0 77,0 5 76,5 83,7 31,3 76,5 91,5 6 87,1 64,8 72,9 87,5 68,0 7 82,5 67,3 58,7 74,5 38,1 8 90,0 75,5 52,5 93,2 80,0 x j 85,125 76 57,775 81,6625 66,075 Tj 681 608 462,2 653,3 528,6 53
T= ∑Tj = 2933,1 2 S j 27,4364 66,7086 242,1678 59,1655 361,3421 N = 40 T 2 SST = x 2 − = 9379,9397 ∑ ji N T 2 T 2 T 2 T 2 SSF = 1 + 2 + + k − = 4082,196 n1 n 2 n k N SSE = SST – SSF = 5297,7437 SSF 2 MSF = = S = 1020,549 (fđs = k-1 = 5-1 = 4) k −1 ds SSE 2 MSE = = S = 151,3641 (fth= N-k = 40-5 = 35) N − k th 2 Sds Ftn = 2 = 6,7539 > F0,95;4;35 = 2,65 S th ⇒ Yếu tố halogenur alkyl có ảnh hưởng đến hiệu suất của phản ứng (các hiệu suất thu được có sự khác biệt nhau) 2 Chú ý: Nếu thí nghiệm đối xứng (nj = n), sử dụng giá trị S j để kiểm định sự đồng nhất của các phương sai theo chuẩn Cochran Bước 2: Kiểm định sự đồng nhất của các phương sai theo chuẩn Cochran 2 Smax = 361,3421 2 Smax 361,3421 Gtn = 2 = = 0,4774 ∑S j 756,8204 Glt = G0,95;k-1,n = G0,95;4;8 = 0,3910 ; G0,99;4;8 = 0,4627 < Gtn 2 ⇒ loại bỏ Smax = 361,3421 Xem xét 4 phương sai còn lại : 2 Smax = 242,1678 2 Smax 242,1678 Gtn = 2 = = 0,6123 ∑S j 756,8204 − 361,3421 2 Glt = G0,95;3;8 = 0,4377 ; G0,99;3,8 = 0,5209 < Gtn⇒ loại bỏ Smax = 242,1678 Xem xét 3 phương sai còn lại : 2 Smax = 66,7086 54
2 Smax 66,7086 Gtn = 2 = = 0,2029 ∑S j 756,8204 − 361,3421− 66,7086 Glt = G0,95;2;8 = 0,5157 > Gtn = 0,2029 ⇒ 3 phương sai còn lại là đồng nhất Bảng số liệu bỏ đi 2 cột a3 và a5 T = 2933,1 - 462,2 – 528,6 = 1942,3 N = 40 – 16 = 24 k=3 T 2 SST = x 2 − = 1412,6895 ∑ ji N T 2 T 2 T 2 T 2 SSF = 1 + 2 + + k − = 339,5158 n1 n 2 n k N SSE = SST – SSF = 1073,1737 SSF 2 MSF = = S = 169,7579 (fđs = k-1 = 3-1 = 2) k −1 ds SSE 2 MSE = = S = 51,1035 (fth= N-k = 24-3 = 21) N − k th 2 2 Bước 3 : Kiểm định tính không đồng nhất của Sth và Sds theo chuẩn Fisher : 2 Sds Ftn = 2 = 3,3218 > F0,95;2;21 = 3,47 S th S2* 1185,40 F = ds = = 11,98 tn 2* 98,87 Sth Flt = F0,95;3;28 = 4,57 < 11,98 ⇒ Các hiệu suất của a1, a2, và a4 không có sự khác biệt nhau. Kết luận: Chấp nhận giả thiết thống kê H1, các halogenur alkyl có ảnh hưởng đến hiệu suất của phản ứng polimer hóa. Sau khi loại bỏ a3 và a5 thì các hiệu suất còn lại a1, a2, và a4 không có sự khác biệt nhau. 55
BÀI TẬP 1. Kết quả phân tích hàm lượng (%) của H2SO4 do 3 nhóm sinh viên thực hiện như sau: Nhóm 1: 79 86 94 89 Nhóm 2: 71 77 81 88 Nhóm 3: 82 68 70 76 Kiểm định xem hàm lượng trung bình của các nhóm thu được có giống nhau không? 2. Đánh gia hiệu suất của phương pháp chiết thuốc trừ sâu Basudin từ các hệ dung môi thu được kết quả sau (%): CH3COOH: 78,4 72,2 71,6 73,3 78,4 76,4 78,4 76,1 CH3COOH:CCl4 (1:1): 95,9 96,8 97,8 95,8 93,9 98,8 98,8 97,8 CH3COOH:CCl4(1:2): 96,8 95,5 95,8 94,8 96,8 96,8 94,3 95,8 Cho P=0,95 TÀI LIỆU THAM KHẢO 4- Doerffel – Thống kê trong hóa học phân tích – NXB ĐH&THCN – 1983 5- Cù Thành Long – Giáo trình “xử lý thống kê trong thực nghiệm hóa học” – ĐH Tổng hợp TP HCM 1991 6- Đặng Hùng Thắng – Thống kê và ứng dụng – NXB GD – 1999 56
Chương 3: PHÂN TÍCH HỒI QUY I. KHÁI QUÁT VỀ PHÂN TÍCH HỒI QUY. 1. Mục đích và ý nghĩa : • Trong nghiên cứu khoa học, thường phải vẽ đồ thị phụ thuộc của đại lượng y vào đại lượng x dựa vào các cặp giá trị thực nghiệm (xi , yi), đồ thị biểu diễn sự phụ thuộc này có thể là đường thẳng hoặc là đường cong. Có một số phương pháp để đi tìm các hàm phù hợp với đường thực nghiệm, trong đó có phương pháp hồi quy. Biểu thức toán học của hàm phù hợp này gọi là phương trình hồi quy, công cụ toán học để đi tìm các thông số của hàm phù hợp gọi là phân tích hồi quy . • Trong hóa học, phân tích hồi quy được dùng để tìm cho các đồ thị chuẩn giữa các hàm lượng x đã biết chính xác và tín hiệu phân tích y. Khi đã có phương trình hồi quy, có thể sử dụng ngược phương trình này : Đo tín hiệu phân tích y* của mẫu phân tích rồi tính ra hàm lượng x* theo phương trình hồi quy, như vậy tránh được nhược điểm của phép tìm x* bằng cách chiếu theo đồ thị chuẩn. - Phép chiếu đồ thị thường kém chính xác - Bản thân việc vẽ một đường thẳng đi qua kề sát với tất cả các điểm của đồ thị mang tính chủ quan của người vẽ và có thể gây ra những sai số lớn. - Nếu dùng phương trình hồi quy để tính x* thì có thể theo dõi được sự biến động hằng ngày dù rất nhỏ của tín hiệu phân tích và dễ dàng hiệu chỉnh các thông số của phương trình hồi quy cho phù hợp với khách quan. Ngoài ra, phân tích hồi quy cho phép tính được khoảng tin cậy của x* một cách dễ dàng và khách quan. 2. Điều kiện thực hiện: 2 2 - Phải có các cặp giá trị thực nghiệm (xi , yi) và chấp nhận S (x) << S (y). - Số cặp (xi , yi) nhiều hơn số thông số phải tìm của phương trình hồi quy càng nhiều càng tốt. - Phải lựa chọn một hàm số khả dĩ phù hợp với đồ thị thực nghiệm. - Nếu phương trình hồi quy có dạng hàm tuyến tính y = f(x) = ax + b, các thông số được tìm theo phương pháp bình phương tối thiểu cho quan hệ tuyến tính giữa x và y. II. PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH ĐƠN GIẢN (Y=ax + b). 1. Nguyên tắc tìm các hệ số của phương trình hồi quy: Tìm a và b của phương trình hồi quy tuyến tính Y = ax + b dựa vào giá trị xi trong thực nghiệm ⇒ Yi do tính toán. Giữa Yi và yi có độ sai lệch. Tổng bình phương của độ k 2 lệch SSE = ∑ ()y i - Yi sẽ càng nhỏ khi lựa chọn các hệ số a và b càng phù hợp. Việc i=1 chọn a và b thế nào cho SSE là cực tiểu gọi là phương pháp bình phương tối thiểu (least squares estimation). 57
2. Tính các hệ số a , b và các thông số cần thiết: a) Trường hợp tổng quát : Thay Yi = axi + b : 2 SSE = (yi – axi - b) ⇒ minimum Để cho a và b thỏa mãn điều kiện trên thì các đạo hàm riêng phần của SSE theo a và b phải bằng 0. ∂(SSE) ∂(SSE) = 0 ; = 0 ∂a ∂b Do đó : 2 – 2 ∑ (yi - axi - b) = 0 (1) 2 – 2 ∑ xi(yi - axi -b) = 0 (2) Giải hệ phương trình (1) và (2) : k x y − x y a = ∑∑i i i ∑i 2 2 k∑x i − ()∑x i y − a x b = ∑∑i i k Lập kho dữ liệu : 1. ∑ xi 4. ∑ yi 2 2 2. ∑ x i 5. ∑ y i 2 3. (∑ xi) 6. ∑ xi.yI k k : số các cặp thực nghiệm (xi , yi) ; ∑∑= i=1 Các ký hiệu SST: Tổng bình phương của các sai số trong phân tích hồi quy 2 ()y SST = y 2 − ∑ ∑ i k SSE: Tổng bình phương do sai số 2 SSE = ∑ yi − b∑ yi − a∑ x i yi SSR: Tổng bình phương do hồi quy 2 SSR = SST – SSE = ∑(ax i + b − y) MSR = SSR SSE MSE = (với Y = ax + b) k − 2 58
SSR R2 = : Hệ số xác định SST b) Trường hợp đặc biệt : Nếu b = 0 (đường hồi quy qua gốc tọa độ) : Y’ = a’.x ∑ x i yi a'= 2 ∑ x i 2 SSE = ∑∑yi − a' x i yi SSE MSE = k −1 2 2 2 2 2 S S S S / * Cách tính y , S y/ , a , b , a : 2 SSE yi − b yi − a x i yi S2 = = ∑ ∑ ∑ Y k − 2 k − 2 2 2 ∑∑yi − a x i yi S / = Với f = k-1 Y k −1 kS2 S2 = Y Với f = k-2 a 2 2 k∑∑x i − ()x i S2 x 2 S2 = Y ∑ i Với f = k-2 b 2 2 k∑∑x i − ()x i S2 2 Y / Sa / = 2 Với f = k-1 ∑ x i 3. Xét ý nghĩa của hệ số hồi quy (chuẩn Student): Đặt giả thiết thống kê H0 : Hệ số hồi quy không có ý nghĩa H1 : Hệ số hồi quy có ý nghĩa Giá trị thống kê: a Xét hệ số a : ttn= 2 Sa b Xét hệ số b: ttn= 2 Sb Biện lụân: 59
- ttn tlt = tP, k-2 : chấp nhận giả thiết H1 Chú ý: Nếu hệ số b không có ý nghĩa (b = 0) ⇒ Chọn đường hồi quy Y/ , tính a/ và các thông số cần thiết 4. Kiểm định sự tuyến tính giữa x và y của phương trình hồi quy ( chuẩn Fisher): Khi tính được các hệ số a, b chưa chắc là x và y tuyến tính với nhau, do đó cần phải kiểm định xem giữa x và y có quan hệ tuyến tính với nhau không bằng phép phân tích phương sai một yếu tố. Trong đó, yếu tố cơ bản có mức cố định = k là số cặp (xi,yi) và số thí nghiệm song song đồng đều cho mỗi cặp (xi,yi) là m Đặt giả thiết thống kê H0 : Phương trình hồi quy không thích hợp H1 : Phương trình hồi quy thích hợp. Giá trị thống kê MSR Ftn = MSE Biện lụân: - Ftn Flt = FP,1, k-2 : chấp nhận giả thiết H1 5. Trình bày phương trình hồi quy kèm với các đặc trưng cần thiết: - Nếu chọn Y= ax + b (với P = ) a ± tP, k-2.Sa (với tP, k-2 tra bảng hệ số student) b ± tP, k-2.Sb SY = . (với f = k-2) Sa = . Sb = R2 = - Nếu chọn Y’ = a’x (với P = ) / a ± tP,k-1. S (với tP, k-1 tra bảng hệ số Student) a / S / Y = (với f = k-1) S = a / R2 = 60
6. Ứng dụng phương trình hồi quy: a) Biết Y * suy ra x * Tiến hành n thí nghiệm song song thu được Y * Y * − b ⇒ x * = (với Y = ax + b ) a Y * Hoặc: ⇒ x * = (với Y/ = a/x ) a / Tính KTC ( x * ) ⎛ * 2 ⎞ 1 2 1 1 k(Y − Y) S * = S ⎜ + + ⎟ x Y ⎜ 2 2 2 ⎟ a ⎝ n k a ()k∑∑x i − ( x i ) ⎠ Công thức này dành cho phương trình Y= ax + b, nếu chọn Y/ = a/x thì thay a = a/ 2 2 và SY =SY/ Trong đó : 2 2 SY , SY/ được tính theo công thức trên x y x = ∑ i ; y = ∑ i k k k: số cặp (xi , yi) n: số lần thí nghiệm song song đối với mẫu phân tích Bỉểu diễn kết quả: * x ± t P,f Sx* Với: f=k-2 (Y= ax + b ) và f=k-1 (Y/ = a/x ) Y * Y Công thức trên cho thấy Sx* càng lớn khi càng cách xa ⇒ sự xác định x * càng chính xác khi x * càng gần x (trung điểm của đồ thị chuẩn). Hiệu ứng này gọi là hiệu ứng hành lang. 61
Hành lang sai số Đường hồi quy Y* Y S x* x x* x 1 k Hiệu ứng hành lang khi xác định x * theo Y * b) Biết x* suy raY*: ⎛ * 2 ⎞ 2 ⎜ 1 k(x − x) ⎟ S * = S + Y Y ⎜ k 2 2 ⎟ ⎝ k∑∑x i − ()x i ⎠ Biểu diễn kết quả: * Y ± tP,f. SY* với f = k – 2 (Y = ax + b) III. PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH NHIỀU BIẾN. Khi đại lượng y phụ thuộc nhiều vào biến số độc lập: x1, x2 xn , phương trình hồi quy có dạng:Y= a0 + a1x1 + a2x2 + +anxn. Phương pháp bình phương tối thiểu vẫn được sử dụng để tính các hệ số a0, a1, a2, .an . nhưng phép tính sẽ phức tạp hơn rất nhiều.Tuy nhiên,với sự hổ trợ của chương trình MS EXCEL bài toán này sẽ được giải một cách dễ dàng và nhanh chóng . Trong hóa học phương trình hồi quy nhiều biến (đa biến) thường được sử dụng để tìm nồng độ của nhiều chất có mặt cùng lúc trong dung dịch hoặc tìm mối quan hệ của các yếu tố nhiệt độ, áp suất, pH, thời gian lên trên hiệu suất phản ứng. IV. BÀI TẬP ỨNG DỤNG 1. Bài tập 1: Khi lập đồ thị chuẩn để xác định nồng độ Benzen trong Etanol bằng phương pháp trắc quang ở vùng tử ngoại, thu được kết quả sau : Nồng độ Benzen (g/l) 0,20 0,50 1,00 1,50 2,00 2,50 3,00 Mật độ quang (A) 0,2 0,37 0,64 0,93 1,22 1,50 1,80 a) Hãy lập phương trình đường hồi quy kèm theo đặc trưng cần thiết (P=0,95). b) Tính x * ứng với P = 0,95 của một dung dịch chưa biết nồng độ có mật độ quang A = Y * = 1,53 (với n = 3) Giải : 62
a) Lập phương trình hồi quy : Kho dữ liệu : 1. ∑ xi = 10,7 4. ∑ yi = 6,66 2 2 2. ∑ x i = 22,79 5. ∑ y i = 8,4298 2 3. (∑ xi) = 114,49 6. ∑ xi.yi = 13,850 10,7 x = = 1,5286 y = 0,95143 7 k =7 Bước 1 : Tính a, b và các thông số cần thiết : k x i yi − x i yi 7.13,850 −10,7.6,66 a = ∑∑∑= = 0,570337 2 2 7.22,79 −114,49 k∑x i − ()∑x i y − a x 6,66 − 0,570337.10,7 b = ∑i ∑i = = 0,079628 k 7 2 SSE = ∑ yi − b∑ yi − a∑ x i yi = 0,00031012 2 ()y SST = y 2 − ∑ = 2,09328571 ∑ i k SSR = SST – SSE = 2,09297559 MSR = SSR = 2,09297559 SSE MSE == 0,00006202 k − 2 y 2 − b y − a x y S2 = MSE = ∑ i ∑ i ∑ i i = 0,00006202 Y k − 2 SY= 0,007875 kS2 S2 = Y Với f = k-2 = 5 a 2 2 k∑∑x i − ()x i 2 Sa = 0,00000964 Sa= 0,0031048 S2 x 2 S2 = Y ∑ i Với f = k-2 = 5 b 2 2 k∑∑x i − ()x i 2 Sb = 0,00003138 Sb= 0,005602 R2 = 0,99985 63
Bước 2: Xét ý nghĩa của hệ số hồi quy (chuẩn Student): Đặt giả thiết thống kê H0 : Hệ số hồi quy không có ý nghĩa H1 : Hệ số hồi quy có ý nghĩa Giá trị thống kê: a Xét hệ số a : ttn= = 183,69 > tlt = t0,95;5 = 2,57: Hệ số a có ý nghĩa Sa b Xét hệ số b: ttn= = 14,21> tlt = t0,95;5 = 2,57: Hệ số b có ý nghĩa Sb Bước 3: Kiểm định sự tuyến tính giữa x và y ( chuẩn Fisher) Đặt giả thiết thống kê H0 : Phương trình hồi quy không thích hợp H1 : Phương trình hồi quy thích hợp. Giá trị thống kê: MSR Ftn = = 33744,14 > F0,95;1; 5 = 6,61: Phương trình hồi quy thích hợp MSE Bước 4: Trình bày phương trình hồi quy kèm với các đặc trưng cần thiết Chọn Y= 0,570x + 0,080 (với P = 0,95) a ± t0,95;5.Sa = 0,570 ± 0,008 (với t0,95; 5 = 2,57) b ± t0,95;5.Sb = 0,080 ± 0,014 SY = 0,0079 (với f = 5) Sa = 0,0031 Sb = 0,0056 R2 = 0,99985 b) Tính x * từ Y * Y * − b 1,53 − 0,080 x * = = = 2,544 a 0,570 2 * 1 ⎛ 1 1 7(1,53 − 0,95143) ⎞ KTC( x ) = ± t .S * = ± 2,57. 0,00006202⎜ + + ⎟ 0,95; 5 x ⎜ 2 ⎟ 0,57 ⎝ 3 7 0,57 ()7.22,79 −114,49 ⎠ = ± 0,028 Biểu diễn kết quả : x * = 2,544 ± 0,028 (P = 0,95 ; k = 7 ; n = 3) 64
2. Bài tập 2: Khi lập đồ thị chuẩn để xác định nồng độ Fe2+ trong nước bằng phương pháp trắc quang , thu được kết quả sau : Nồng độ Fe2+ (µg/ml) 0,20 0,50 1,00 2,00 3,00 4,00 5,00 Mật độ quang (A) 0,039 0,087 0,177 0,354 0,537 0,710 0,857 a) Hãy lập phương trình đường hồi quy kèm theo đặc trưng cần thiết (P=0,95). b) Tính x * ứng với P = 0,95 của một dung dịch chưa biết nồng độ có mật độ quang : A = Y * = 0,635 (với n = 3) Các số liệu tham khảo: Với Y= ax + b k x y − x y a = ∑∑i i i ∑i = 0,173320 2 2 k∑∑x i − ()x i y − a x b = ∑∑i i = 0,005696 k 2 SSE = ∑ yi − b∑ yi − a∑ x i yi = 0,00052155 2 (y) SST = y 2 − ∑ = 0,60363571 ∑ i k SSR = SST – SSE = 0,60311416 MSR = SSR = 0,60311416 SSE MSE == 0,00010431 k − 2 y 2 − b y − a x y S2 = MSE = ∑ i ∑ i ∑ i i =0,00010431 Y k − 2 SY= 0,010213 kS2 S2 = Y Với f = k-2 = 5 a 2 2 k∑∑x i − ()x i Sa= 0,002279 S2 x 2 S2 = Y ∑ i Với f = k-2 = 5 b 2 2 k∑∑x i − ()x i Sb= 0,006406 R2 = 0,999136 Với Y’ = a’x 65
∑ x i yi a'= 2 =0,174938 ∑ x i SST = 0,60363571 SSR = 0,60303168 2 SSE = ∑ yi − a'∑ x i yi = 0,00060403 SSE MSE = = 0,000101 k −1 S / Y = 0,010034 Sa / = 0,001349 R2 = 0,999643 BÀI TẬP 3- 1. Lập đồ thị chuẩn để xác định nồng độ PO4 trong mẫu lúa bằng phương pháp trắc quang , thu được kết quả sau : 3- Nồng độ PO4 (µg/ml) 1 2 4 8 12 16 20 Mật độ quang (A) 0,032 0,061 0,119 0,234 0,347 0,465 0,587 a) Hãy lập phương trình đường hồi quy kèm theo đặc trưng cần thiết (P=0,95). b) Tính x * ứng với P = 0,95 của một dung dịch chưa biết nồng độ có mật độ quang : A = Y * = 0,235 (với n = 3) 2- Lập đồ thị chuẩn để xác định nồng độ S2- trong nước bằng phương pháp trắc quang , thu được kết quả sau : Nồng độ S2- (µg/ml) 1 2 4 6 8 10 12 Mật độ quang (A) 0,044 0,083 0,165 0,252 0,335 0,420 0,504 a) Hãy lập phương trình đường hồi quy kèm theo đặc trưng cần thiết (P=0,95). b) Tính x * ứng với P = 0,95 của một dung dịch chưa biết nồng độ có mật độ quang : A = Y * = 0,315 (với n = 4) 66
PHẦN II: TIN HỌC ỨNG DỤNG TRONG HÓA HỌC Chương 1: PHÂN TÍCH DỮ LIỆU BẰNG MICROSOFT EXCEL I. CÔNG CỤ PHÂN TÍCH DỮ LIỆU TRONG EXCEL. Công cụ phân tích dữ liệu trong Excel là một phần mềm bổ sung (Add-In) thuộc nhóm Analysis ToolPak. Để sử dụng bộ công cụ phân tích dữ liệu, ta chọn lệnh Tool/Data Analysis. Hộp thoại Data Analysis sẽ xuất hiện để ta chọn công cụ cần dùng. Hộp thoại Data Analysis Nếu trong menu Tools không có lệnh Data Analysis, ta phải gọi công cụ này bằng cách vào menu Tools, chọn lệnh Add-Ins, sau đó chọn mục Analysis ToolPak rồi Click OK. Hộp thoại Add-Ins 68
Ghi chú: Thông thường, Analysis ToolPak không được cài đặt mặc định cùng với Excel. Khi đó, sau khi chọn Analysis ToolPak tại hộp thoại Add-Ins sẽ xuất hiện hộp thông báo: Ta Click Yes để Excel tiến hành cài đặt Analysis ToolPak. Lúc này có hai khả năng xảy ra: - - Nếu trước đó ta cài MS Office từ ổ cứng hoặc không xóa các file tạm khi cài đặt hoàn tất (đối với MS Office 2002 trở lên) thì chương trình tự tìm và cài đặt Analysis ToolPak. - Nếu không, sẽ xuất hiện hộp thoại: Lúc này, ta phải đưa đĩa CD chứa bộ cài đặt MS Office đúng với phiên bản hiện đang dùng vào ổ đĩa, lưu ý tên ổ đĩa CD trên máy phải được xác định đúng (ở đây là E:), rồi Click OK hoặc Click Browse để chỉ đường dẫn đến tập tin SKU011.CAB để Excel cài đặt Analysis ToolPak. 69
II. ỨNG DỤNG PHÂN TÍCH DỮ LIỆU. 1. Loại giá trị bất thường (aberrant observation): a) Khái niệm: Trong hóa học, một thí nghiệm được tiến hành nhiều trong cùng một điều kiện lần nhằm mục đích tránh các giá trị bất thường trong dãy số liệu thu được. Cách tiến hành như sau: 1. Sắp xếp các giá trị thu được theo thứ tự từ nhỏ đến lớn (nếu nghi ngờ giá trị nhỏ nhất) hay theo thứ tự từ lớn đến nhỏ (nếu nghi ngờ giá trị lớn nhất) là giá trị bất thường): X1, X2, X3, , Xn 2. Tính giá trị Qtn (chuẩn Dixon) và so sánh với giá trị Qlt = QP,n trong Bảng 1. Nếu Qtn > Qlt (P = 0,95) thì kết luận là giá trị X1 có thể được loại ra khỏi dãy số liệu. b) Bài tập ứng dụng với Excel: Thí dụ: Xác định hàm lượng % CaCO3 trong một mẫu đá vôi người ta thu được các kết quả sau: 36, 40, 38, 42, 40, 49. Vậy có nên loại bỏ giá trị 20% hay 42% trong dãy số liệu này không? Các bước phân tích: 1. Nhập dữ liệu vào bảng tính: 2. Tại ô B6, nhập công thức sau: =(A2-A1)/A6-A1) . 3. Nếu muốn xét giá trị 20%, sắp xếp khối dữ liệu (A1:A6) theo chiều tăng dần. Ghi nhận giá trị Qtn 20% ở ô B6 (Qtn 20% = 0,727273). 70
4. Tiếp xét giá trị 42%, ta sắp xếp khối dữ liệu (A1:A6) theo chiều giảm dần. Ghi nhận giá trị Qtn 42% ở ô B6 (Qtn 42% = 0,090909). 5. Kết luận: - Loại giá trị 20% vì Qtn 20% = 0,727 > Qlt = 0,56. - Không loại giá trị 42% vì Qtn 42% = 0,09 < Qlt = 0,56. Bảng 1. Bảng tra chuẩn Dixon Q P,n n P = 0,95 P = 0,99 3 0,94 0,99 4 0,77 0,89 5 0,64 0,76 6 0,56 0,70 7 0,51 0,64 8 0,48 0,58 2. Thống kê mô tả: a) Khái niệm thống kê: - Mean (giá trị trung bình): Giá trị trung bình của mẫu được tính bởi biểu thức: n ∑Xi X = i=1 n - Standard Error of the Mean (độ lệch chuẩn của giá trị trung bình): S S = X n - Median (giá trị trung vị ): 71
Là giá trị trung tâm của dãy dữ liệu. Nếu một dãy dữ liệu có n giá trị được sắp xếp từ nhỏ đến lớn thì giá trị trung vị là số thứ (n + 1)/2. Trong thí dụ sau, giá trị trung vị là số thứ 5: 1 2 3 4 5 6 7 8 9 200 201 202 203 204 206 207 207 209 - Mode (giá trị yếu vị): Là giá trị có tần số xuất hiện cao nhất trong dãy dữ liệu. - Standard deviation (độ lệch chuẩn): S = S2 . n 2 ∑(X i − X) - Sample variance (phương sai mẫu): S2 = i=1 ()n −1 - Kurtosis (giá trị KURT): Giá trị KURT diễn tả đặc điểm thuộc về đỉnh của dạng phân phối dữ liệu. Giá trị KURT có trị số dương khi dữ liệu phân phối tương đối có đỉnh, ngược lại, nó có giá trị âm khi dữ liệu phân phối tương đối phẳng. 4 ⎪⎧ n(n +1) ⎛ X − X ⎞ ⎪⎫ 3(n −1) 2 KURT = ⎨ ∑ ⎜ i ⎟ ⎬ − (n −1)(n − 2)(n − 3) ⎜ S ⎟ (n − 2)(n − 3) ⎩⎪ ⎝ ⎠ ⎭⎪ - Skewness (giá trị SKEW): Giá trị SKEW phản ánh mức độ bất đối xứng của dạng phân phối dữ liệu xung quanh giá trị trung bình. Giá trị SKEW có trị số dương khi dữ liệu phân phối bất đối xứng với đuôi nằm lệch về phía các giá trị dương. Ngược lại, nó có trị số âm khi dữ liệu phân phối bất đối xứng với đuôi nằm lệch về phía các giá trị âm. 3 n ⎛ X − X ⎞ SKEW = ⎜ i ⎟ ∑ ⎜ ⎟ (n −1)(n − 2) ⎝ S ⎠ - Range (khoảng quan sát): R = Xmax - Xmin. - Minimum: Giá trị nhỏ nhất trong dãy số liệu. - Maximum: Giá trị nhỏ nhất trong dãy số liệu. n - Sum: Tổng giá trị dữ liệu, = ∑ X i . i=1 - Count: Dung lượng của mẫu, = n. b) Bài tập ứng dụng với Excel: Thí dụ: Tính giới hạn tin cậy với mức P = 0,95, độ lệch chuẩn và hệ số biến động của hai dãy dữ liệu thí nghiệm 1 (TN1) và thí nghiệm 2(TN2). 72
TN 20 20 20 20 20 20 20 20 20 1 1 3 9 4 2 6 0 7 7 TN 15 15 25 15 20 25 15 25 25 2 1 3 9 4 2 6 0 7 7 Các bước phân tích: 1. Nhập dữ liệu vào bảng tính: 2. Áp dụng công cụ “Descriptive Satistics”: - Chọn lệnh Tools/Data Analysis. - Chọn chương trình Descriptive Satistics rồi Click OK. - Trên hộp thoại Descriptive Satistics ấn định các thông số như minh họa: Hộp thoại Descriptive Satistics S Từ đầu ra của Excel, tính thêm hệ số biến động CV% = 100 : Tại ô B20 trong X bảng tính, nhập công thức =(B10/B6)*100 . Sau đó dùng Drag Fill handle từ ô B20 đến ô D20. 73
Kết quả phân tích 4. Trình bày kết quả: Giá trị thống kê TN1 TN2 Giới hạn tin cậy (P = 204,33 ± 2,37 204,33 ± 40,47 95%) (X ± t S ) P,f X Độ lệch chuẩn 3,08 52,65 Hệ số biến động 1,50% 25,77% 3. So sánh phương sai: a) Khái niệm thống kê: Trắc nghiệm so sánh hai phương sai thường được áp dụng để so sánh độ chính xác của hai phương pháp định lượng khác nhau (sử dụng chuẩn F - F-Test). - Giả thiết thống kê: 2 2 H0: SI = SII : hai phương sai đồng nhất 2 2 H1: SI ≠ SII : hai phương sai không đồng nhất - Giá trị thống kê: 74
2 SI 2 2 Ftn = 2 SI > SII SII Với fI = nI - 1 ; fII = nII - 1 . - Biện luận: Nếu Ftn < Flt(f1, f2) : Chấp nhận giả thiết H0. b) Bài tập ứng dụng với Excel: Thí dụ: Một mẫu được phân tích bởi hai phương pháp A và B với kết quả được tóm tắt trong bảng sau: A 6,4 5,2 4,8 5,2 4,3 4,4 5,1 5,8 B 2,6 3,5 3,4 3,2 3,4 2,8 2,9 2,8 Cho biết phương pháp chính xác hơn? Các bước phân tích: 1. Nhập dữ liệu vào bảng tính: 2. Áp dụng “F-Test Two-Sample for Variances”: - Chọn lệnh Tools/Data Analysis. - Chọn chương trình F-Test Two-Sample for Variances rồi Click OK. - Trên hộp thoại F-Test Two-Sample for Variances ấn định các thông số như minh họa bên dưới. 75
Hộp thoại F-Test Two-Sample for Variances Kết quả phân tích Ghi chú: df (degree of freedom - bậc tự do) : = f ; F = Ftn ; F Critical one-tail = Flt. 3. Biện luận: 2 2 H0: SA = SB : Hai phương pháp có độ chính xác như nhau. 2 2 H1: SA > SB : Độ chính xác của phương pháp B cao hơn A. Ftn = 4,171 > Flt = 3,787 ⇒ Bác bỏ giả thiết H0. Vậy độ chính xác của phương pháp B cao hơn phương pháp A. 4. So sánh giá trị trung bình với hai phương sai đồng nhất: a) Khái niệm thống kê: Trong trường hợp 2 mẫu nhỏ (n < 30) có phương sai đồng nhất, áp dụng chuẩn t-2 phương sai đồng nhất (t-Test: Two-Sample Assuming Equal Variances) để so sánh 2 giá trị trung bình. Chú ý: Cần phải thực hiện kiểm tra 2 phương sai bằng F-Test. - Giả thiết: H0 : X1 = X 2 : Sự sai khác của X1 và X 2 mang tính ngẫu nhiên. H1 : X1 ≠ X 2 : Sự sai khác của X1 và X 2 mang tính hệ thống. - Giá trị thống kê: 76
2 2 X1 − X 2 (n1 −1)S1 + (n 2 −1)S2 t = với S = n1 + n 2 − 2 2 ⎛ 1 1 ⎞ S ⎜ + ⎟ ⎝ n1 n 2 ⎠ f = n1 + n2 − 2 tlt = tP,f (tra bảng hệ số Student) - Biện luận: Nếu ttn = tstat < tlt = tcritcal two-tail : Chấp nhận giả thiết H0. b) Bài tập ứng dụng với Excel: Thí dụ: Để xác định hàm lượng photphat trong mẫu nước, người ta lấy 20 mẫu đồng nhất rồi thêm chất xúc tác vào 10 mẫu. Kết quả phân tích như sau: Mu 1,10 0,99 1,05 1,01 1,02 1,07 1,10 0,98 1,03 1,12 Mu + 1,25 1,31 1,28 1,20 1,18 1,22 1,22 1,17 1,19 1,21 XT Theo bảng kết quả trên, chất xúc tác có ảnh hưởng đến kết quả phân tích không? Các bước phân tích: 1. Nhập dữ liệu vào bảng tính: 2. Áp dụng “t-Test: Two-Sample Assuming Equal Variances”: - Chọn lệnh Tools/Data Analysis. - Chọn chương trình t-Test: Two-Sample Assuming Equal Variances rồi Click OK. - Trong hộp thoại t-Test: Two-Sample Assuming Equal Variances, ấn định các thông số như minh họa bên dưới. 77
Hộp thoại t-Test: Two-Sample Assuming Equal Variances Kết quả phân tích 3. Biện luận: H0 : X1 = X 2 : Mẫu và mẫu thêm xúc tác cho kết quả như nhau. H1 : X1 ≠ X 2 : Xúc tác có ảnh hưởng đến kết quả phân tích. ttn = |tstat| = 8,388 > tlt = tcritcal two-tail = 2,1 ⇒ Xúc tác có ảnh hưởng đến kết quả phân tích. 78
5. Phân tích phương sai một yếu tố: a) Khái niệm thống kê: Phép phân tích phương sai dùng để so sánh các giá trị trung bình của nhiều tập hợp mẫu, từ đó đánh giá sự ảnh hưởng của yếu tố cơ bản (gây ra sai số hệ thống) lên các giá trị trung bình. - Mô hình: j 1 2 . . . k i 1 x11 x21 xk1 2 x12 x22 xk2 . . . M M M M n x1n x2n xkn ∑xi = Tj T1 T2 . . . Tk x j x1 x 2 . . . x n N = ∑ni ; T = ∑Tj - Bảng ANOVA (Analysis of Vanriances): Nguồn sai số Tổng Bình phương Bậc tự do Giá trị thống kê (Source of bình phương trung bình (Dregree of freedom - df) (F) variantion (SS) (MS) Yếu tố SSF MSF SSF k 1 MSF = F = (Between Groups) k −1 MSE Sai số SSE SSE N k MSE = (Within Groups) N − k Tổng cộng SST N 1 (Total) 2 2 T SST = ∑ x j − N 79
T 2 T 2 SSF = ∑ j − n j N SSE = SST − SSF - Giả thiết thống kê: H0 : Các giá trị trung bình tương đương nhau. H1 : Có ít nhất 2 giá trị trung bình khác nhau. - Giá trị thống kê: MSF Ftn = F = MSE - Biện luận: Ftn < Flt = FP,k-1,N-k = Fcritical : Chấp nhận giả thiết H0. b) Bài tập ứng dụng với Excel: Thí dụ: Hàm lượng alcaloid (mg) trong một loại dược liệu được thu hái từ 3 vùng khác nhau được trình bày trong bảng sau: Vùng I Vùng II Vùng III 7,5 5,8 6,1 6,8 5,6 6,3 7,1 6,1 6,5 7,5 6,0 6,4 6,8 5,7 6,5 6,6 6,3 7,8 Hàm lượng alcaloid có khác nhau theo vùng không? (P = 0,95) Các bước phân tích: 1. Nhập dữ liệu vào bảng tính 80
2. Áp dụng “Anova: Single Factor”: - Chọn lệnh Tools/Data Analysis. - Chọn chương trình Anova: Single Factor rồi Click OK. - Trong hộp Anova: Single Factor, ấn định các thông số như minh họa: Hộp thoại Anova: Single Factor 81
Kết quả phân tích 3. Biện luận: Ftn = F = 26,56 > Fcrit = 3,68 ⇒ Bác bỏ H0. Vậy hàm lượng alcaloid khác nhau theo vùng. 6. Hồi quy tuyến tính đơn giản: a) Khái niệm thống kê: Y = ax + b k x y − x y a = ∑ i i ∑ i ∑ i y là biến số phụ thuộc. 2 2 k∑∑x i − ()x i y − a x b = ∑ i ∑ i x là biến số độc lập. k * Bảng ANOVA: Nguồn sai số Tổng Bình phương Bậc tự do Giá trị thống kê (Source of bình phương trung bình (Dregree of freedom - df) (F) variantion (SS) (MS) Hồi quy MSR 1 SSR MSR = SSR F = (Regression) MSE Sai số SSE k 2 SSE MSE = (Residual) k − 2 Tổng cộng k 1 SST (Total) * R2 (R-square): SSR R2 = SST * SY 2 ∑ y i − b∑ y i − a∑ x i y i SY = (standard error) k − 2 * Chuẩn t: - Giả thiết thống kê: H0 : Hệ số hồi quy không có ý nghĩa. 82
H1 : Hệ số hồi quy có ý nghĩa. - Giá trị thống kê: ttn = tstat Nếu ttn < tP,k-2 : Chấp nhận giả thiết H0. * Chuẩn F: - Giả thiết thống kê: H0 : Phương trình hồi quy không thích hợp. H1 : Phương trình hồi quy thích hợp. - Giá trị thống kê: Ftn = F Flt = FP,1,k-2 Nếu Ftn < Flt : Chấp nhận giả thiết H0. b) Bài tập ứng dụng với Excel: Thí dụ: Lập đồ thị chuẩn độ xác định nồng độ Fe2+ trong nước bằng phương pháp trắc quang cho kết quả sau: Nồng độ Fe 0,20 0,50 1,00 2,00 3,00 4,00 5,00 (g/ml) Mật độ quang A 0,039 0,087 0,177 0,354 0,537 0,710 0,857 Hãy lập phương trình đường hồi quy kèm theo các đặc trưng cần thiết (P = 0,95). Các bước phân tích: 1. Nhập dữ liệu vào bảng tính: Với chương trình này ta phải nhập dữ liệu dạng cột: 2. Áp dụng “Regression”: 83
- Chọn lệnh Tools/Data Analysis. - Chọn chương trình Regression rồi Click OK. - Trong hộp Regression, ấn định các thông số như minh họa: Hộp thoại Regression Kết quả phân tích 3. Biện luận - Chuẩn t: + Hệ số a: −9 ttn = tstat = 76,039 > t0,95;5 = 2,57 (P-value = 7,45.10 < α = 0,05) ⇒ Hệ số a có ý nghĩa. 84
+ Hệ số b : ttn = tstat = 0,889 α = 0,05) ⇒ Hệ số b không có ý nghĩa, b = 0. - Chuẩn F: Ftn = F = 5781,92 > Flt = F0,95;1;5 = 6,61 −9 (Fsig = 7,45.10 < α = 0,05) ⇒ Phương trình hồi quy thích hợp. Trong trường hợp này phải tìm các hệ số của phương trình Y’ = a’.x: + Tại hộp thoại Regression, chọn thêm mục Constant is zero. + Click Yes ở hộp thoại kế tiếp. 4. Trình bày kết quả: Y’ = 0,175x GHTC(a’) = 0,175 ± 0,003 SY’ = 0,0100 Sa’ = 0,0013 R2 = 0,99964 7. Hồi quy tuyến tính đa tham số: a) Khái niệm thống kê: * Phương trình tổng quát: Y = a0 + a1x1 + a2x2 + + anxn * Bảng ANOVA: Nguồn sai số Tổng Bình phương Bậc tự do Giá trị thống kê (Source of bình phương trung bình (df) (F) variantion (SS) (MS) Hồi quy SSR MSR n SSR MSR = F = (Regression) n MSE 85
Sai số SSE k n 1 SSE MSE = (Residual) k − n −1 Tổng cộng k 1 SST = SSR+ SSE (Total) * Giá trị thống kê: - Giá trị R bình phương: SSR n.F R2 = = (R2 ≥ 0,81 là khá tốt) SST (k − n −1) + k.F - Giá trị R2 được hiệu chỉnh (Adjust R-square): (k −1)R 2 − n n(1− R 2 ) R2 = = R 2 − k − n −1 k − n −1 - Độ lệch chuẩn SY (Standard error): SSE SY = k − n −1 * Chuẩn t: Đặt giả thiết thống kê và biện luận giống như hồ quy tuyến tính đơn giản (bậc tự do f = k − n − 1). * Chuẩn F: Đặt giả thiết thống kê và biện luận giống như hồ quy tuyến tính đơn giản (bậc tự do f1 = n, f2 = k − n − 1). b) Bài tập ứng dụng với Excel: Thí dụ: Người ta dùng 3 mức nhiệt độ gồm 105, 120 và 135oC kết hợp với 3 khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) được trình bày trong bảng sau: 86
Thời gian (phút) Nhiệt độ (oC) Hiệu suất (%) Y X1 X2 15 105 1,87 30 105 2,02 60 105 3,28 15 120 3,05 30 120 4,07 60 120 5,54 15 135 5,03 30 135 6,45 60 135 7,25 Hãy cho biết yếu tố nhiệt độ và yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì ở điều kiện nhiệt độ 115oC trong 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu? (P = 0,95). Các bước phân tích: 1. Nhập dữ liệu vào bảng tính (dạng cột). 2. Áp dụng “Regression” tương tự như với hồi quy tuyến tính đơn giản. ⇒ Phương trình hồi quy Y = f(X1, X2). 3. Biện luận: - Hệ số a0: −5 ttn = |tstat| = 11,53 > t0,95;6 = 2,45 (PV = 2,56.10 t0,95;6 = 2,45 (PV = 0,0027 t0,95;6 = 2,45 (PV = 7,23.10 F0,95 = 5,14 (FS =1,11.10 < α = 0,05) 87
Chương 2: CHƯƠNG TRÌNH MS EQUATION I. CỬA SỔ ỨNG DỤNG. 1. Cách mở cửa sổ: Thường ta mở cửa sổ ứng dụng Equation Editor từ cửa sổ Word: - Nhấp lần lượt menu Insert và lệnh Object. - Chọn và nhấn nút lệnh OK, hoặc, nhấp đúp vào tập tin tên Microsoft Equation 3.0. Hộp thoại Object Một cửa số mới xuất hiện, nó vẫn mang tiên đề Microsoft Word nhưng thanh menu và thanh công cụ đã biến đối theo chương trình Equation. 89
2. Đặc điểm của cửa sổ: Cửa sổ Equation khi mở từ Word có dạng như sau: 1. Thanh tiêu đề (MS WORD) 3. Vị trí soạn thảo 2. Thanh menu (Equation) 4. Thanh công cụ (Equation) Cửa sổ Equation lồng vào cửa sổ Word 3. Cách đóng cửa sổ: Ta có nhiều cách để đóng cửa sổ Equation (và trở về cửa sổ Word): - Nhấp chuột vào một vị trí bất kỳ trong văn bản và vùng soạn thảo của Equation. - Nhấn phím ESC (Escape). II. THANH MENU. 1. Menu File: Hoàn toàn giống như menu File cửa MS WORD. 2. Menu Edit: Rút gọn từ menu Edit của MS WORD, chỉ còn có các lệnh thông thường: Undo, Cut, Copy, Paste và hai lệnh Clear và Select All. 90
3. Menu View: ª 100%, 200%, 400%: phóng to biểu thức với tỉ lệ bốn lần hay hai lần khi cần xem rõ các chi tiết quá nhỏ (mặc định là 100% - bình thường) ª Zoom: hiển thị biểu thức với các tỉ lệ từ 1 đến 400%. ª Toolbar: ẩn hay hiển thị thanh công cụ. ª Redraw: hiển thị lại biểu thức với kích thước hiện tại. ª Show All: hiển thị hay ẩn các ký hiệu đặc biệt. 4. Menu Format: ª Align Left: canh các ký tự về bên trái. ª Align Center: canh các ký tự về giữa. ª Align Right: canh các ký tự về bên phải. ª Align At =: canh các ký hiệu tương quan (=, ). ª Align At .: canh các dấu chấm hay dấu phẩy của số lẻ thập phân. ª Matrix : cho phép sửa đổi các chi tiết trong một ma trận đã thành lập. ª Spacing : cho phép sửa đổi khoảng cách giữa các thành phần trong biểu thức. 5. Menu Style: ª Math: ấn định kiểu ký hiệu toán học đối với các ký tự được chọn hay được gõ tiếp theo sau. Tra đa số trường hợp, ta nên chọn kiểu Math vì nó tự động phân biệt giữa hàm số và biến số. Hộp thoại Style 91
ª Text: ấn định kiểu văn bản đối với các ký tự được chọn. Khi chọn lệnh này ta sẽ dễ dàng gõ các ký tự từ bàn phím. Chú ý: Ta không thể gõ tiếng Việt với font chữ Unicode (như Times New Roman, ) trong các biểu thức của Equation. ª Function: ấn định kiểu ký hiệu hàm số đối với các ký tự được chọn, khi mà Equation không thể nhận một số ký tự như là hàm số trong chuỗi ký tự. ª Variable: ấn định kiểu ký hiệu biến số đối với các ký tự được chọn, khi mà Equation nhận sai một số ký tự là hàm số trong chuỗi ký tự. ª Greek: ấn định kiểu chữ Hy Lạp đối với các ký tự được chọn. ª Matrix-Vector: ấn định kiểu ký hiệu ma trận - vectơ đối với các ký tự được chọn. ª Other: ấn định font, cỡ và kiểu chữ đối với các ký tự được chọn. ª Define: ấn định một cách hệ thống tất cả các kiểu đã nói trên. 6. Menu Size: Hộp thoại Sizes ª Full: ấn định cỡ chữ thường (mặc định là 12 pt) đối với các ký tự được chọn. ª Subscript/Superscript: ấn định cỡ chữ chỉ số trên và chỉ số dưới (7 pt). ª Sub- Subscript/Superscript: ấn định cỡ chữ chỉ số trên và chỉ số dưới cỡ nhỏ (5 pt). ª Symbol: ấn định cỡ chữ (18 pt) cho các ký hiệu toán học. ª Sub-symbol: ấn định cỡ chữ (12 pt) cho các ký hiệu toán học khi ở dạng chỉ số trên. 7. Menu Help: ª Equation Editor Help Topics: Hiển thị các chủ đề trợ giúp. ª About Equation Editor: Giới thiệu số phiên bản và bản quyền của chương trình. 92
III. TÍNH NĂNG KỸ THUẬT. 1. Thanh ký hiệu: Là hàng trên của thanh công cụ, gồm hơn 150 ký hiệu mà đa số chúng không có trong bảng font Symbol thông dụng. Ta chèn một ký hiệu nào đó vào biểu thức bằng cách nhấp một nút trên thành ký hiệu rồi nhấp vào ký hiệu mình cần trong ngăn mở ra dưới nút ấy. Ký hiệu tương quan Gồm các ký hiệu về sự khác nhau (≠, ≤ và ≥). sự tương đương (≅, ≈ và ≡) Các ký hiệu về sự bằng nhau (=), lớn hơn (>) và nhỏ hơn (>) có thể được gõ từ bàn phím nên không có sẵn. Ký hiệu canh chữ, chèn khoảng cách Gồm các ký hiệu canh trái/phải ( ), chèn khoảng cách (, , , , , và )và ba chấm ngang/dọc/chéo (K, L, M , NvaìO) Dấu phụ Gồm các dấu (−, ∧, ←, →, ↔ ) để thêm vào các ký hiệu toán học Toán tử Gồm các ký hiệu về số học (±, m, ×, ÷ và ⋅), đại số (*, •, ⊗ và ⊕) Mũi tên Gồm các loại ký hiệu mũi tên Ký hiệu logic Gồm các ký hiệu có ý nghĩa đặc thù như “do đó” (∴), “bởi vì” (Q), ‘mọi” (∀) 93
Ký hiệu lý thuyết tập hợp Gồm các ký hiệu về phép giao, phép hội tập hợp, tập hợp rỗng, Các ký hiệu khác Gồm các ký hiệu linh tinh như đạo hàm riêng phần, toán tử nabla, số thực, góc, vuông góc, độ, hằng số Planck, Ký tự Hy Lạp Gồm các ký tự Hy Lạp thường hay in hoa 2. Thanh khung mẫu: Khung mẫu phạm vi Gồm nhiều loại khung mẫu với một hay hai dấu ngoặc: ngoặc đơn, ngoặc vuông, ngoặc thẳng, ngoặc nhọn, ngoặc góc, Khung mẫu phân số, căn số Gồm các khung mẫu dạng phân số và căn số Khung mẫu chỉ số Gồm các khung mẫu để chèn chỉ số trên và/hoặc chỉ số dưới Khung mẫu tổng số Gồm các loại khung mẫu dạng tổng số 94
Khung mẫu tích phân Gồm 21 loại khung mẫu dạng tích phân từ đơn giản đến phức tạp Khung mẫu mang gạch trên hay dưới Gồm các khung mẫu có gạch trên hay gạch dưới Khung mẫu mũi tên có ghi chú Gồm 6 loại mũi tên có ghi chú Khung mẫu tích số/lý thuyết tập hợp Gồm các khung mẫu dạng tích số, đồng tích số, giao và hội Khung mẫu ma trận Gồm các khung mẫu để trình bày vectỏ, định thức hay ma trận IV. BÀI TẬP ỨNG DỤNG. 1. Bài tập 1: Giá trị trung bình: n ∑ X i i=1 X = n a. Khởi động Equation và gõ “X = ”. b. Nhấp nút khung mẫu phân số và chọn dạng phân số. c. Nhấp nút khung tổng số và chọn ký hiệu tổng số. d. Đặt con nháy sau dấu sigma trên tử số, nhấp nút khung mẫu chỉ số, chọn khung mẫu chỉ số dưới. e. Điền các chi tiết vào ô trống. f. Hoàn thiện: chọn chữ X, nhấp nút ký hiệu dấu phụ rồi chọn ký hiệu gạch trên. g. Thoát khỏi Equation. 95
Sau đây là hình minh họa cho một số bước quan trọng: (a) (b) + (c - d) (e) 2. Bài tập 2: Độ lệch chuẩn: n 1 ⎧ 2 2 ⎫ S = ⎨∑ X i − nX ⎬ (n −1) ⎩ i=1 ⎭ 3. Bàii tập 3: Độ dốc của phương trình hồi quy: ∑ xy − (∑ x)(∑ y) N B = 2 ∑∑x 2 − ()x N 4. Bài tập 4: Hàm tích phân: α β −()x2 − y2 Φ()α, β = ∫∫e dxdy 00 5. Bài tập 5: Ma trận: 96
⎡a11 a12 K a1n ⎤ ⎢a a ⎥ ⎢ 21 22 K ⎥ ⎢ M M O M ⎥ ⎢ ⎥ ⎣am1 am2 K amn ⎦ TÀI LIỆU THAM KHẢO 14- Đặng văn Giáp – Soạn thảo văn bản khoa học bằng kỹ thuật vi tính – NXB GD – 1997 97
Chương 3: CHƯƠNG TRÌNH CHEMWIN A. CHƯƠNG TRÌNH CHEMWIN 3 I. CỬA SỔ ỨNG DỤNG. Cửa sổ chương trình ChemWin 3 1. Thanh tiêu đề 4. Thanh trạng thái 2. Thanh menu 5. Thước 3. Thanh công cụ 6. Vùng soạn thảo 98
II. THANH MENU. 1. Menu File: Ngoài các lệnh thông thường (New, Open, Save, Save As, Print Preview, Print và Exit), còn có: ª Revert to Saved : Trả tập tin về tình trạng như lần được lưu sau cùng. ª Import : Nhập hình từ các nguồn khác. ª Export : Xuất hình sang các nguồn khác. ª Load Album : Mở tập tin mẫu (ALBUM.CW2). Sau khi tập mẫu được mở thì công cụ sau đây sẽ hiện lên nét đậm.Ta chỉ cần nhấp lên nút công cụ nêu trên để mở tập mẫu và chọn. ª Load Templates : Nạp trang mẫu (TEMPLATE.CW2). Sau khi trang mẫu được nạp thì nút công cụ sau đây sẽ hiện lên nét đậm. Ta chỉ cần nhấp lên nút công cụ nêu trên để mở trang mẫu và chọn. Template.cw2 Album.cw2 Ghi chú: Trang mẫu và tập tin nằm trong thư mục cài đặt chương trình (thường là C:\Program Files\Chem3Wind, C:\PROGRA~1\CHEM3W~1). 99