Bài giảng Lý thuyết xác suất và thống kê - Chương 8: Hồi qui và tương quan tuyến tính

pdf 11 trang ngocly 480
Bạn đang xem tài liệu "Bài giảng Lý thuyết xác suất và thống kê - Chương 8: Hồi qui và tương quan tuyến tính", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_ly_thuyet_xac_suat_va_thong_ke_chuong_8_hoi_qui_va.pdf

Nội dung text: Bài giảng Lý thuyết xác suất và thống kê - Chương 8: Hồi qui và tương quan tuyến tính

  1. Chương 8: HỒI QUI VÀ TƯƠNG QUAN TUYẾN TÍNH
  2. I. Tương quan tuyến tính : Xét hai biến ngẫu nhiên Y và X có quan hệ phụ thuộc tuyến tính. Giả sử biến X –biến độc lập, biến Y –biến phụ thuộc vào X và từ tổng thể M ta lấy mẫu quan sát X và Y. Có hai cách chọn mẫu: Cách thứ nhất: Cố định X, chẳng hạn . Ứng với ta có một tổng thể con Mi của M, i = 1, , n. Từ Mi ta lấy ngẫu nhiên các thể và xác định . Ở đây Y là biến ngẫu nhiên và mẫu lý thuyết có dạng, còn mẫu thực nghiệm được viết.
  3. Cách thứ hai: Chọn ngẫu nhiên n cá thể từ M và trên mỗi các thể quan sát X và Y. Ở đây X và Y đều là biến ngẫu nhiên và ta có thể dùng hệ số tương quan giữa X và Y để đưa ra các kết luận thống kê, trong khi đó cách thứ nhất không thể làm như vậy được. Mẫu lý thuyết có dạng (X11 ,YXY ), ( 2 , 2 ), , ( XYnn , ) và mẫu thực nghiệm: (x11 ,yxy ), ( 2 , 2 ), , ( xynn , ). Không phụ thuộc vào cách chọn mẫu, có hai bước sơ khởi xác định mức độ quan hệ tuyến tính giữa X và Y.
  4. Bước thứ nhất: Vẽ các điểm trên hệ tọa độ xOy. Dựa vào đồ thị ta đưa ra phỏng đoán về sự phụ thuộc tuyến tính giữ X và Y. Bước thứ hai: Tính hệ số tương quan mẫu n ∑()()xxyyii−− r = i=1 nn 22 ∑∑()()xii−−xyy ii==11 11nn trong đó.x ==∑ xyii; ∑ y nnii==11 Nếu lớn thì ta phỏng đoán giữa X và Y có quan hệ tuyến tính chặt chẽ.
  5. Nếu r lớn thì ta phỏng đoán giữa X và Y có quan hệ tuyến tính chặt chẽ. II. Phương trình hồi qui tuyến tính : Ta xét trường hợp X không ngẫu nhiên, với X ngẫu nhiên kết quả cũng tương tự. Xét mẫu lý thuyết ( x 11 , YxY ), ( 2 , 2 ), , ( xY nn , ) . Yaxbei= ++, = 1, , n Giả sử, ii i 1) Y và X có quan hệ tuyến tính và được biểu diễn bởi phương trình được gọi là mô hình hồi qui tuyến tính đơn của Y theo X, trong đó a và b là các hệ số chưa biết. 2) ee 1 , , n là các sai số ngẫu nhiên độc lập.
  6. Ta cần dựa vào mẫu để ước lượng a và b bằng phương pháp bình phương nhỏ nhất. Tức là tìm ước lượng aˆ vàbˆ của a và b sao cho tổng bình phương sai lệch n 2 f (,)ab=−−∑ ( Yii ax b ) i=1 n  2 đạt cực tiểu: ()min(,) Yaxb ii −−= ˆ fab . ∑ ab, i=1 Giải hệ phương trình ∂f (,)ab = 0 ∂a ∂fab(,) = 0 ∂b
  7. ta tìm được n ∑()()xii−−xY Y  i=1 b = n 2 ∑()xxi − i=1 aYbxˆ =− 1 n YY= ∑ i n i=1 n x = ∑ xi i=1 Như vậy, ta có phương trình đường thẳng hồi qui thực nghiệm: y ˆˆ = ax + b . Nghĩa là ước lượng của Y ˆˆ  tại giá trị X = xi làyii= ax+ b .
  8. Nhận xét: • Có hai cách dự báo giá trị yˆ . Cách thứ nhất: Dự báo giá trị Y cho một cá thể, mà trên đócóX nhận giá trị x. Trong trường hợp này yˆ là ước lượng tốt nhất của duy nhất giá trị Y ứng với X =x. Cách thứ hai: Dự báo giá trị trung bình của Y đối với tổng thể con ứng với X =x. Và ở đây yˆ cũng là ước lượng tốt nhất của giá trị trung bình của Y khi X = x. Sự khác biệt giữa hai cách trên sẽ quan trọng khi xây dựng khoảng tin cậy. • Ta có thể dự báo X theo Y bằng phương trình: xˆˆ=−()/yba .
  9. III. Khoảng tin cậy: Ngoài 2 giả định 1) và 2) trong phần II ở trên, trong phần này giả sử rằng thỏa điều kiện thứ ba sau đây: 3) Các biến ngẫu nhiên ee 1 , , n có phân phối chuẩn N(0, σ 2 ) . Như vậy với mỗi giá trị X = xi ta có biến ngẫu nhiên 2 Yi có luật phân phối chuẩn Nax (,) i + b σ . Với giả định trên ta xét các khoảng tin cậy sau:
  10. 1. Khoảng tin cậy cho EY (/) x = ax + b , kỳ vọng của Y tại X = x, có dạng (, yˆˆ − wy + w ) , trong đó 2 n−2 1(xx− ) wt=+1+γ s n 2 n 2 ∑()xxi − i=1
  11. n ˆ 2 ∑()yii− y s2 = i=1 n − 2 tn−2 1+ γ 1+γ là phân vị mức n-2 bậc tự do. 2 2 2. Khoảng tin cậy cho Y tại X = x, có dạng (, ywyw ˆˆ − + ) , trong đó 2 n−2 1(xx− ) wt=++1+γ s1 n 2 n 2 ∑()xi − x i=1 Nhận xét: s2 được dùng để ước lượng σ 2.