Bài giảng môn Kinh tế lượng (Bản đẹp)

71 trang ngocly 4360

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng môn Kinh tế lượng (Bản đẹp)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_mon_kinh_te_luong_ban_dep.pdf

Nội dung text: Bài giảng môn Kinh tế lượng (Bản đẹp)

Giáo trình Kinh tế lượng ebooks-downloadfree.com 2008 Tamakeno -Nhatdong@gmail.com - 0909429292 4/30/2008 BÀI GIẢNG KINH TẾ LƯỢNG Mục lục 1. CHƯƠNG 1 GIỚI THIỆU 8 1.1 Kinh tế lượng là gì?. 8 1.2 Phương pháp luận của kinh tế lượng. 9 1.3 Những câu hỏi đặt ra cho một nhà kinh tế lượng. 14 1.4 Dữ liệu cho nghiên cứu kinh tế lượng. 14 1.5 Vai trị của máy vi tính và phầm mềm chuyên dụng. 15 2. CHƯƠNG II ƠN TẬP VỀ XÁC SUẤT VÀ THỐNG KÊ 17 2.1 Xác suất 17 2.1.1 Xác suất biến ngẫu nhiên nhận được một giá trị cụ thể. 17 2.1.2 Hàm mật độ xác suất (phân phối xác suất) 19 2.1.3 Một số đặc trưng của phân phối xác suất 23 2.1.4 Tính chất của biến tương quan. 26 2.1.5 Một số phân phối xác suất quan trọng. 27 2.2 Thống kê mơ tả. 30 2.2.1 Xu hướng trung tâm của dữ liệu 31 2.2.2 Độ phân tán của dữ liệu 31 2.2.3 Độ trơi S. 32 2.2.4 Độ nhọn K 32 2.2.5 Quan hệ giữa hai biến-Hệ số tương quan. 32 2.3 Thống kê suy diễn - vấn đề ước lượng. 32 2.3.1 Ước lượng. 32 2.3.2 Hàm ước lượng cho . 33 2.3.3 Phân phối của 33 2.3.4 Các tính chất ứng với mẫu nhỏ. 35 2.3.5 Tính chất của mẫu lớn. 37 2.4 Thống kê suy diễn - Kiểm định giả thiết thống kê. 38 2.4.1 Giả thiết 38 2.4.2 Kiểm định hai đuơi 39 2.4.3 Kiểm định một đuơi 42 2.4.4 Một số trường hợp đặc biệt cho ước lượng giá trị trung bình của tổng thể. 43 2.4.5 Sai lầm loại I và sai lầm loại II 45 2.4.6 Tĩm tắt các bước của kiểm định giả thiết thống kê. 47 3. CHƯƠNG II HỒI QUY HAI BIẾN 48 3.1 Giới thiệu 48 3.1.1 Khái niệm về hồi quy. 48 3.1.2 Sự khác nhau giữa các dạng quan hệ. 48 3.2 Hàm hồi quy tổng thể và hồi quy mẫu 50 3.2.1 Hàm hồi quy tổng thể (PRF) 50 3.2.2 Hàm hồi quy mẫu (SRF) 53 3.3 Ước lượng các hệ số của mơ hình hồi quy theo phương pháp bình phương tối thiểu-OLS 54 3.3.1 Các giả định của mơ hình hồi quy tuyến tính cổ điển. 54 3.3.2 Phương pháp bình phương tối thiểu: 55 3.3.3 Tính chất của hàm hồi quy mẫu theo OLS. 56 3.3.4 Phân phối của và 57 3.4 Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy. 58 3.4.1 Khoảng tin cậy cho các hệ số hồi quy. 58 3.4.2 Kiểm định giả thiết về hệ số hồi quy. 60 3.5 Định lý Gauss-Markov. 63 3.6 Độ thích hợp của hàm hồi quy – R2 63 3.7 Dự báo bằng mơ hình hồi quy hai biến. 66 3.8 Ý nghĩa của hồi quy tuyến tính và một số dạng hàm thường được sử dụng. 68 3.8.1 Tuyến tính trong tham số. 68 3.8.2 Một số mơ hình thơng dụng. 69 4. CHƯƠNG 4 MƠ HÌNH HỒI QUY TUYẾN TÍNH BỘI 74 4.1 Xây dựng mơ hình. 74
4.1.1 Giới thiệu 74 4.1.2 Ý nghĩa của tham số. 74 4.1.3 Giả định của mơ hình. 75 4.2 Ước lượng tham số của mơ hình hồi quy bội 75 4.2.1 Hàm hồi quy mẫu và ước lượng tham số theo phương pháp bình phương tối thiểu 75 4.2.2 Ước lượng tham số cho mơ hình hồi quy ba biến. 76 4.2.3 Phân phối của ước lượng tham số. 77 4.3 và hiệu chỉnh. 78 4.4 Kiểm định mức ý nghĩa chung của mơ hình. 79 4.5 Quan hệ giữa R2 và F. 80 4.6 Ước lượng khoảng và kiểm định giả thiết thống kê cho hệ số hồi quy. 80 4.7 Biến phân loại (Biến giả-Dummy variable) 81 4.7.1 Hồi quy với một biến định lượng và một biến phân loại 81 4.7.2 Hồi quy với một biến định lượng và một biến phân loại cĩ nhiều hơn hai phân lớp 83 4.7.3 Cái bẩy của biến giả. 84 4.7.4 Hồi quy với nhiều biến phân loại 85 4.7.5 Biến tương tác. 86 5. CHƯƠNG 5 GIỚI THIỆU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN MƠ HÌNH HỒI QUY 88 5.1 Đa cộng tuyến. 88 5.1.1 Bản chất của đa cộng tuyến. 88 5.1.2 Hệ quả của đa cộng tuyến. 89 5.1.3 Biện pháp khắc phục. 91 5.2 Phương sai của sai số thay đổi - HETEROSKEDASTICITY 92 5.2.1 Bản chất của phương sai của sai số thay đổi 92 5.2.2 Hệ quả của phương sai thay đổi khi sử dụng ước lượng OLS. 93 5.2.3 Phát hiện và khắc phục. 95 5.3 Tự tương quan (tương quan chuỗi) 97 5.4 Lựa chọn mơ hình. 98 5.4.1 Thiếu biến cĩ liên quan và chứa biến khơng liên quan. 99 5.4.2 Kiểm định so sánh mơ hình (5.21) và (5.22) - Kiểm định Wald 99 5.4.3 Hai chiến lược xây dựng mơ hình. 99 6. CHƯƠNG 6 DỰ BÁO VỚI MƠ HÌNH HỒI QUY (Đọc thêm) 101 6.1 Dự báo với mơ hình hồi quy thơng thường. 102 6.2 Tính chất “trễ” của dữ liệu chuỗi thời gian và hệ quả của nĩ đến mơ hình. 102 6.3 Mơ hình tự hồi quy. 103 6.4 Mơ hình cĩ độ trễ phân phối 103 6.4.1 Cách tiếp cận của Alt và Tinberger: 103 6.4.2 Mơ hình Koyck. 104 6.4.3 Mơ hình kỳ vọng thích nghi 105 6.4.4 Mơ hình hiệu chỉnh từng phần. 106 6.5 Ước lượng mơ hình tự hồi quy. 106 6.6 Phát hiện tự tương quan trong mơ hình tự hồi quy. 107 7. CHƯƠNG 7 CÁC MƠ HÌNH DỰ BÁO MANG TÍNH THỐNG KÊ (Tham khảo) 109 7.1 Các thành phần của dữ liệu chuỗi thời gian. 109 7.1.1 Xu hướng dài hạn. 109 7.1.2 Chu kỳ. 109 7.1.3 Thời vụ 109 7.1.4 Ngẫu nhiên. 109 7.2 Dự báo theo đường xu hướng dài hạn. 111 7.2.1 Mơ hình xu hướng tuyến tính. 111 7.2.2 Mơ hình xu hướng dạng mũ 112 7.2.3 Mơ hình xu hướng dạng bậc hai 113 7.3 Một số kỹ thuật dự báo đơn giản. 113 7.3.1 Trung bình trượt (Moving Average) 113 7.3.2 San bằng số mũ (Exponential Smoothing Method) 113 7.3.3 Tự hồi quy (Autoregression) 114 7.4 Tiêu chuẩn đánh giá mơ hình dự báo. 114 7.5 Một ví dụ bằng số. 115 7.6 Giới thiệu mơ hình ARIMA 116 7.6.1 Tính dừng của dữ liệu 116 7.6.2 Hàm tự tương quan và hàm tự tương quan mẫu 117 7.6.3 Hàm tự tương quan riêng phần (PACF) 118 7.6.4 Mơ hình AR, MA và ARMA 119 7.6.5 Mơ hình ARIMA và SARIMA 120 7.6.6 Phương pháp luận Box-Jenkins. 120 8. TÀI LIỆU THAM KHẢO 129
1. CHƯƠNG 1 GIỚI THIỆU
1.1 Kinh tế lượng là gì? Thuật ngữ tiếng Anh “Econometrics” cĩ nghĩa là đo lường kinh tế[1]. Thật ra phạm vi của kinh tế lượng rộng hơn đo lường kinh tế. Chúng ta sẽ thấy điều đĩ qua một định nghĩa về kinh tế lượng như sau: “Khơng giống như thống kê kinh tế cĩ nội dung chính là số liệu thống kê, kinh tế lượng là một mơn độc lập với sự kết hợp của lý thuyết kinh tế, cơng cụ tốn học và phương pháp luận thống kê. Nĩi rộng hơn, kinh tế lượng liên quan đến: (1) Ước lượng các quan hệ kinh tế, (2) Kiểm chứng lý thuyết kinh tế bằng dữ liệu thực tế và kiểm định giả thiết của kinh tế học về hành vi, và (3) Dự báo hành vi của biến số kinh tế.”[2] Sau đây là một số ví dụ về ứng dụng kinh tế lượng. Ước lượng quan hệ kinh tế (1) Đo lường mức độ tác động của việc hạ lãi suất lên tăng trưởng kinh tế. (2) Ước lượng nhu cầu của một mặt hàng cụ thể, ví dụ nhu cầu xe hơi tại thị trường Việt Nam. (3) Phân tích tác động của quảng cáo và khuyến mãi lên doanh số của một cơng ty. Kiểm định giả thiết (1) Kiểm định giả thiết về tác động của chương trình khuyến nơng làm tăng năng suất lúa. (2) Kiểm chứng nhận định độ co dãn theo giá của cầu về cá basa dạng fillet ở thị trường nội địa. (3) Cĩ sự phân biệt đối xử về mức lương giữa nam và nữ hay khơng? Dự báo (1) Doanh nghiệp dự báo doanh thu, chi phí sản xuất, lợi nhuận, nhu cầu tồn kho (2) Chính phủ dự báo mức thâm hụt ngân sách, thâm hụt thương mại, lạm phát (3) Dự báo chỉ số VN Index hoặc giá một loại cổ phiếu cụ thể như REE.
1.2 Phương pháp luận của kinh tế lượng Theo phương pháp luận truyền thống, cịn gọi là phương pháp luận cổ điển, một nghiên cứu sử dụng kinh tế lượng bao gồm các bước như sau[3]: (1) Phát biểu lý thuyết hoặc giả thiết. (2) Xác định đặc trưng của mơ hình tốn kinh tế cho lý thuyết hoặc giả thiết. (3) Xác định đặc trưng của mơ hình kinh tế lượng cho lý thuyết hoặc giả thiết. (4) Thu thập dữ liệu. (5) Ước lượng tham số của mơ hình kinh tế lượng. (6) Kiểm định giả thiết. (7) Diễn giải kết quả (8) Dự báo và sử dụng mơ hình để quyết định chính sách Lý thuyết hoặc giả thiết Lập mơ hình kinh tế lượng Thu thập số liệu Ước lượng thơng số Kiểm định giả thiết Diễn dịch kết quả Xây dựng lại mơ hình Dự báo Quyết định chính sách Lập mơ hình tốn kinh tế Hình 1.1 Phương pháp luận của kinh tế lượng Ví dụ 1: Các bước tiến hành nghiên cứu một vấn đề kinh tế sử dụng kinh tế lượng với đề tài nghiên cứu xu hướng tiêu dùng biên của nền kinh tế Việt Nam. (1) Phát biểu lý thuyết hoặc giả thiết Keynes cho rằng: Qui luật tâm lý cơ sở là đàn ơng (đàn bà) muốn, như một qui tắc và về trung bình, tăng tiêu dùng của họ khi thu nhập của họ tăng lên, nhưng khơng nhiều như là gia tăng trong thu nhập của họ.[4] Vậy Keynes cho rằng xu hướng tiêu dùng biên(marginal propensity to consume-MPC), tức tiêu dùng tăng lên khi thu nhập tăng 1 đơn vị tiền tệ lớn hơn 0 nhưng nhỏ hơn 1. (2) Xây dựng mơ hình tốn cho lý thuyết hoặc giả thiết Dạng hàm đơn giản nhất thể hiện ý tưởng của Keynes là dạng hàm tuyến tính. (1.1) Trong đĩ : 0 < < 1. Biểu diển dưới dạng đồ thị của dạng hàm này như sau: GNP TD b2=MPC b1 0 b1 : Tung độ gốc b2: Độ dốc TD : Biến phụ thuộc hay biến được giải thích GNP: Biến độc lập hay biến giải thích Hình 1. 2. Hàm tiêu dùng theo thu nhập. (3) Xây dựng mơ hình kinh tế lượng Mơ hình tốn với dạng hàm (1.1) thể hiện mối quan hệ tất định(deterministic relationship) giữa tiêu dùng và thu nhập trong khi quan hệ của các biến số kinh tế thường mang tính khơng chính xác. Để biểu diển mối quan hệ khơng chính xác giữa tiêu dùng và thu nhập chúng ta đưa vào thành phần sai số: (1.2) Trong đĩ e là sai số, e là một biến ngẫu nhiên đại diện cho các nhân tố khác cũng tác động lên tiêu dùng mà chưa được đưa vào mơ hình. Phương trình (1.2) là một mơ hình kinh tế lượng. Mơ hình trên được gọi là mơ hình hồi quy tuyến tính. Hồi quy tuyến tính là nội dung chính của học phần này. (4) Thu thập số liệu Số liệu về tiêu dùng và thu nhập của nền kinh tế Việt Nam từ 1986 đến 1998 tính theo đơn vị tiền tệ hiện hành như sau: Năm Tiêu dùng Tổng thu nhập Hệ số khử TD, đồng hiện hành GNP, đồng hiện hành lạm phát 1986 526.442.004.480 553.099.984.896 2,302 1987 2.530.537.897.984 2.667.299.995.648 10,717 1988 13.285.535.514.624 14.331.699.789.824 54,772 1989 26.849.899.970.560 28.092.999.401.472 100
1990 39.446.699.311.104 41.954.997.960.704 142,095 1991 64.036.997.693.440 76.707.000.221.696 245,18 1992 88.203.000.283.136 110.535.001.505.792 325,189 1993 114.704.005.464.064 136.571.000.979.456 371,774 1994 139.822.006.009.856 170.258.006.540.288 425,837 1995 186.418.693.406.720 222.839.999.299.584 508,802 1996 222.439.040.614.400 258.609.007.034.368 540,029 1997 250.394.999.521.280 313.623.008.247.808 605,557 1998 284.492.996.542.464 361.468.004.401.152 659,676 Bảng 1.1. Số liệu về tổng tiêu dùng và GNP của Việt Nam Nguồn : World Development Indicator CD-ROM 2000, WorldBank. TD: Tổng tiêu dùng của nền kinh tế Việt Nam, đồng hiện hành. GNP: Thu nhập quốc nội của Việt Nam, đồng hiện hành. Do trong thời kỳ khảo sát cĩ lạm phát rất cao nên chúng ta cần chuyển dạng số liệu về tiêu dùng và thu nhập thực với năm gốc là 1989. Năm Tiêu dùng Tổng thu nhập TD, đồng-giá cố định 1989 GNP, đồng-giá cố định 1989 1986 22.868.960.302.145 24.026.999.156.721 1987 23.611.903.339.515 24.888.000.975.960 1988 24.255.972.171.640 26.165.999.171.928 1989 26.849.899.970.560 28.092.999.401.472 1990 27.760.775.225.362 29.526.000.611.153 1991 26.118.365.110.163 31.285.998.882.813 1992 27.123.609.120.801 33.990.999.913.679 1993 30.853.195.807.667 36.735.001.692.581 1994 32.834.660.781.138 39.982.003.187.889 1995 36.638.754.378.646 43.797.002.601.354 1996 41.190.217.461.479 47.888.002.069.333 1997 41.349.567.191.335 51.790.873.128.795 1998 43.126.144.904.439 54.794.746.182.076 Bảng 1.2. Tiêu dùng và thu nhập của Việt Nam, giá cố định 1989 (5) Ước lượng mơ hình (Ước lượng các hệ số của mơ hình) Sử dụng phương pháp tổng bình phương tối thiểu thơng thường (Ordinary Least Squares)[5] chúng ta thu được kết quả hồi quy như sau: TD = 6.375.007.667 + 0,680GNP t [4,77][19,23] R2 = 0,97 Ước lượng cho hệ số b1 là 6.375.007.667 Ước lượng cho hệ số b2 là 0,68 Xu hướng tiêu dùng biên của nền kinh tế Việt Nam là MPC = 0,68. (6) Kiểm định giả thiết thống kê Trị số xu hướng tiêu dùng biên được tính tốn là MPC = 0,68 đúng theo phát biểu của Keynes. Tuy nhiên chúng ta cần xác định MPC tính tốn như trên cĩ lớn hơn 0 và nhỏ hơn 1 với ý nghĩa thống kê hay khơng. Phép kiểm định này cũng được trình bày trong chương 2. (7) Diễn giải kết quả Dựa theo ý nghĩa kinh tế của MPC chúng ta diễn giải kết quả hồi quy như sau: Tiêu dùng tăng 0,68 ngàn tỷ đồng nếu GNP tăng 1 ngàn tỷ đồng. (8) Sử dụng kết quả hồi quy Dựa vào kết quả hồi quy chúng ta cĩ thể dự báo hoặc phân tích tác động của chính sách. Ví dụ nếu dự báo được GNP của Việt Nam năm 2004 thì chúng ta cĩ thể dự báo tiêu dùng của Việt Nam trong năm 2004. Ngồi ra khi biết MPC chúng ta cĩ thể ước lượng số nhân của nền kinh tế theo lý thuyết kinh tế vĩ mơ như sau: M = 1/(1-MPC) = 1/(1-0,68) = 3,125 Vậy kết quả hồi quy này hữu ích cho phân tích chính sách đầu tư, chính sách kích cầu
1.3 Những câu hỏi đặt ra cho một nhà kinh tế lượng 1. Mơ hình cĩ ý nghĩa kinh tế khơng? 2. Dữ liệu cĩ đáng tin cậy khơng? 3. Phương pháp ước lượng cĩ phù hợp khơng? 4. Kết quả thu được so với kết quả từ mơ hình khác hay phương pháp khác như thế nào?
1.4 Dữ liệu cho nghiên cứu kinh tế lượng Cĩ ba dạng dữ liệu kinh tế cơ bản: dữ liệu chéo, dữ liệu chuỗi thời gian và dữ liệu bảng. Dữ liệu chéo bao gồm quan sát cho nhiều đơn vị kinh tế ở một thời điểm cho trước. Các đơn vị kinh tế bao gồm các các nhân, các hộ gia đình, các cơng ty, các tỉnh thành, các quốc gia Dữ liệu chuỗi thời gian bao gồm các quan sát trên một đơn vị kinh tế cho trước tại nhiều thời điểm. Ví dụ ta quan sát doanh thu, chi phí quảng cáo, mức lương nhân viên, tốc độ đổi mới cơng nghệ ở một cơng ty trong khoảng thời gian 1990 đến 2002. Dữ liệu bảng là sự kết hợp giữa dữ liệu chéo và dữ liệu chuỗi thời gian. Ví dụ với cùng bộ biến số về cơng ty như ở ví dụ trên, chúng ta thu thập số liệu của nhiều cơng ty trong cùng một khoảng thời gian. Biến rời rạc hay liên tục Biến rời rạc là một biến cĩ tập hợp các kết quả cĩ thể đếm được.Ví dụ biến Quy mơ hộ gia đình ở ví dụ mục 1.2 là một biến rời rạc. Biến liên tục là biến nhận kết quả một số vơ hạn các kết quả. Ví dụ lượng lượng mưa trong một năm ở một địa điểm. Dữ liệu cĩ thể thu thập từ một thí nghiệm cĩ kiểm sốt, nĩi cách khác chúng ta cĩ thể thay đổi một biến số trong điều kiện các biến số khác giữ khơng đổi. Đây chính là cách bố trí thí nghiệm trong nơng học, y khoa và một số ngành khoa học tự nhiên. Đối với kinh tế học nĩi riêng và khoa học xã hội nĩi chung, chúng ta rất khĩ bố trí thí nghiệm cĩ kiểm sốt, và sự thực dường như tất cả mọi thứ đều thay đổi nên chúng ta chỉ cĩ thể quan sát hay điều tra để thu thập dữ liệu.
1.5 Vai trị của máy vi tính và phầm mềm chuyên dụng Vì kinh tế lượng liên quan đến việc xử lý một khối lượng số liệu rất lớn nên chúng ta cần dến sự trợ giúp của máy vi tính và một chương trình hỗ trợ tính tốn kinh tế lượng. Hiện nay cĩ rất nhiều phần mềm chuyên dùng cho kinh tế lượng hoặc hỗ trợ xử lý kinh tế lượng. Excel Nĩi chung các phần mềm bảng tính(spreadsheet) đều cĩ một số chức năng tính tốn kinh tế lượng. Phần mềm bảng tính thơng dụng nhất hiện nay là Excel nằm trong bộ Office của hãng Microsoft. Do tính thơng dụng của Excel nên mặc dù cĩ một số hạn chế trong việc ứng dụng tính tốn kinh tế lượng, giáo trình này cĩ sử dụng Excel trong tính tốn ở ví dụ minh hoạ và hướng dẫn giải bài tập. Phần mềm chuyên dùng cho kinh tế lượng Hướng đến việc ứng dụng các mơ hình kinh tế lượng và các kiểm định giả thiết một cách nhanh chĩng và hiệu quả chúng ta phải quen thuộc với ít nhất một phần mềm chuyên dùng cho kinh tế lượng. Hiện nay cĩ rất nhiều phần mềm kinh tế lượng như: Phần mềmCơng ty phát triển AREMOS/PC Wharton Econometric Forcasting Associate BASSTALBASS Institute Inc BMDP/PCBMDP Statistics Software Inc DATA-FITOxford Electronic Publishing ECONOMIST WORKSTATIONData Resources, MC Graw-Hill ESPEconomic Software Package ETNew York University EVIEWSQuantitative Micro Software GAUSSAptech System Inc LIMDEPNew York University MATLABMathWorks Inc PC-TSPTSP International P-STATP-Stat Inc SAS/STATVAR Econometrics SCA SYSTEMSAS Institute Inc SHAZAMUniversity of British Columbia SORITECThe Soritec Group Inc SPSSSPSS Inc STATPROPenton Sofware Inc Trong số này cĩ hai phần mềm được sử dụng tương đối phổ biến ở các trường đại học và viện nghiên cứu ở Việt Nam là SPSS và EVIEWS. SPSS rất phù hợp cho nghiên cứu thống kê và cũng tương đối thuận tiện cho tính tốn kinh tế lượng trong khi EVIEWS được thiết kế chuyên cho phân tích kinh tế lượng.
2. CHƯƠNG II ƠN TẬP VỀ XÁC SUẤT VÀ THỐNG KÊ Biến ngẫu nhiên. Một biến mà giá trị của nĩ được xác định bởi một phép thử ngẫu nhiên được gọi là một biến ngẫu nhiên. Nĩi cách khác ta chưa thể xác định giá trị của biến ngẫu nhiên nếu phép thử chưa diễn ra. Biến ngẫu nhiên được ký hiệu bằng ký tự hoa X, Y, Z . Các giá trị của biến ngẫu nhiên tương ứng được biểu thị bằng ký tự thường x, y, z Biến ngẫu nhiên cĩ thể rời rạc hay liên tục. Một biến ngẫu nhiên rời rạc nhận một số hữu hạn(hoặc vơ hạn đếm được) các giá trị. Một biến ngẫu nhiên liên tục nhận vơ số giá trị trong khoảng giá trị của nĩ. Ví dụ 2.1. Gọi X là số chấm xuất hiện khi tung một con súc sắc (xí ngầu). X là một biến ngẫu nhiên rời rạc vì nĩ chỉ cĩ thể nhận các kết quả 1,2,3,4,5 và 6. Ví dụ 2.2. Gọi Y là chiều cao của một người được chọn ngẫu nhiên trong một nhĩm người. Y cũng là một biến ngẫu nhiên vì chúng ta chỉ cĩ nhận được sau khi đo đạc chiều cao của người đĩ. Trên một người cụ thể chúng ta đo được chiều cao 167 cm. Con số này tạo cho chúng ta cảm giác chiều cao là một biến ngẫu nhiên rời rạc, nhưng khơng phải thế, Y thực sự cĩ thể nhận được bất cứ giá trị nào trong khoảng cho trước thí dụ từ 160 cm đến 170 cm tuỳ thuộc vào độ chính xác của phép đo. Y là một biến ngẫu nhiên liên tục.
2.1 Xác suất 2.1.1 Xác suất biến ngẫu nhiên nhận được một giá trị cụ thể Chúng ta thường quan tâm đến xác suất biến ngẫu nhiên nhận được một giá trị xác định. Ví dụ khi ta sắp tung một súc sắc và ta muốn biết xác suất xuất hiện Xi = 4 là bao nhiêu. Do con súc sắc cĩ 6 mặt và nếu khơng cĩ gian lận thì khả năng xuất hiện của mỗi mặt đều như nhau nên chúng ta cĩ thể suy ra ngay xác suất để X= 4 là: P(X=4) = 1/6. Nguyên tắc lý do khơng đầy đủ(the principle of insufficient reason): Nếu cĩ K kết quả cĩ khả năng xảy ra như nhau thì xác suất xảy ra một kết quả là 1/K. Khơng gian mẫu: Một khơng gian mẫu là một tập hợp tất cả các khả năng xảy ra của một phép thử, ký hiệu cho khơng gian mẫu là S. Mỗi khả năng xảy ra là một điểm mẫu. Biến cố : Biến cố là một tập con của khơng gian mẫu. Ví dụ 2.3. Gọi Z là tổng số điểm phép thử tung hai con súc sắc. Khơng gian mẫu là S = {2;3;4;5;6;7;8;9;10;11;12} A = {7;11}Tổng số điểm là 7 hoặc 11 B = {2;3;12}Tổng số điểm là 2 hoặc 3 hoặc 12 C = {4;5;6;8;9;10} D = {4;5;6;7} Là các biến cố. Hợp của các biến cố E = A hoặc B = = {2;3;7;11;12} Giao của các biến cố: F = C và D = = {4;5;6} Các tính chất của xác suất P(S) =1 Tần suất Khảo sát biến X là số điểm khi tung súc sắc. Giả sử chúng ta tung n lần thì số lần xuất hiện giá trị xi là ni. Tần suất xuất hiện kết quả xi là Nếu số phép thử đủ lớn thì tần suất xuất hiện xi tiến đến xác suất xuất hiện xi. Định nghĩa xác suất Xác suất biến X nhận giá trị xi là 2.1.2 Hàm mật độ xác suất (phân phối xác suất) Hàm mật độ xác suất-Biến ngẫu nhiên rời rạc X nhận các giá trị xi riêng rẽ x1, x2, , xn. Hàm số f(x) = P(X=xi) , với i = 1;2; ;n = 0 , với x xi được gọi là hàm mật độ xác suất rời rạc của X. P(X=xi) là xác suất biến X nhận giá trị xi. Xét biến ngẫu nhiên X là số điểm của phép thử tung một con súc sắc. Hàm mật độ xác suất được biểu diễn dạng bảng như sau. X 1 2 3 4 5 6 P(X=x) 1/6 1/6 1/6 1/6 1/6 1/6 Bảng 2.1. Mật độ xác suất của biến ngẫu nhiên rời rạc X Xét biến Z là tổng số điểm của phép thử tung 2 con súc sắc. Hàm mật độ xác suất được biểu diễn dưới dạng bảng như sau. z 2 3 4 5 6 7 8 9 10 11 12 P(Z=z) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 Bảng 2.2. Mật độ xác suất của biến ngẫu nhiên rời rạc Z Hình 2.1. Biểu đồ tần suất của biến ngẫu nhiên Z. Hàm mật độ xác suất(pdf)-Biến ngẫu nhiên liên tục. Ví dụ 2.4. Chúng ta xét biến R là con số xuất hiện khi bấm nút Rand trên máy tính cầm tay dạng tiêu biểu như Casio fx-500. R là một biến ngẫu nhiên liên tục nhận giá trị bất kỳ từ 0 đến 1. Các nhà sản xuất máy tính cam kết rằng khả năng xảy ra một giá trị cụ thể là như nhau. Chúng ta cĩ một dạng phân phối xác suất cĩ mật độ xác suất đều. Hàm mật độ xác suất đều được định nghĩa như sau:f(r) = Với L : Giá trị thấp nhất của phân phối U: Giá trị cao nhất của phân phối Hình 2.2. Hàm mật độ xác suất đều R. Xác suất để R rơi vào khoảng (a; b) là P(a <r<b) = . Cụ thể xác suất để R nhận giá trị trong khoảng (0,2; 0,4) là: P(0,2 < r < 0,4) = , đây chính là diện tích được gạch chéo trên hình 2.1. Tổng quát, hàm mật độ xác suất của một biến ngẫu nhiên liên tục cĩ tính chất như sau: (1) f(x) ≥ 0 (2) P(a<X<b) = Diện tích nằm dưới đường pdf P(a<X<b) =
(3) Hàm đồng mật độ xác suất -Biến ngẫu nhiên rời rạc Ví dụ 2.5. Xét hai biến ngẫu nhiên rời rạc X và Y cĩ xác suất đồng xảy ra X = xi và Y = yi như sau. X 2 3 P(Y) 1 0,2 0,4 0,6 Y 2 0,3 0,1 0,4 P(X) 0,5 0,5 1,0 Bảng 2.3. Phân phối đồng mật độ xác xuất của X và Y. Định nghĩa :Gọi X và Y là hai biến ngẫu nhiên rời rạc. Hàm số f(x,y) = P(X=x và Y=y) = 0 khi X x và Yy được gọi là hàm đồng mật độ xác suất, nĩ cho ta xác xuất đồng thời xảy ra X=x và Y=y. Hàm mật độ xác suất biên f(x) = hàm mật độ xác suất biên của X f(y) = hàm mật độ xác suất biên của Y Ví dụ 2.6. Ta tính hàm mật độ xác suất biên đối với số liệu cho ở ví dụ 2.5. f(x=2) = =0,3 + 0,3 = 0,5 f(x=3) = =0,1 + 0,4 = 0,5 f(y=1) = =0,2 + 0,4 = 0,6 f(y=2) = =0,3 +0,1 = 0,4 Xác suất cĩ điều kiện Hàm số f(x│y) = P(X=x│Y=y) , xác suất X nhận giá trị x với điều kiện Y nhận giá trị y, được gọi là xác suất cĩ điều kiện của X. Hàm số f(y│x) = P(Y=y│X=x) , xác suất Y nhận giá trị y với điều kiện X nhận giá trị x, được gọi là xác suất cĩ điều kiện của Y. Xác suất cĩ điều kiện được tính như sau , hàm mật độ xác suất cĩ điều kiện của X , hàm mật độ xác suất cĩ điều kiện của Y Như vậy hàm mật độ xác suất cĩ điều kiện của một biến cĩ thể tính được từ hàm đồng mật độ xác suất và hàm mật độ xác suất biên của biến kia. Ví dụ 2.7. Tiếp tục ví dụ 2.5 và ví dụ 2.6. Độc lập về thống kê Hai biến ngẫu nhiên X và Y độc lập về thống kê khi và chỉ khi f(x,y)=f(x)f(y) tức là hàm đồng mật độ xác suất bằng tích của các hàm mật độ xác suất biên. Hàm đồng mật độ xác suất cho biến ngẫu nhiên liên tục Hàm đồng mật độ xác suất của biến ngẫu nhiên liên tục X và Y là f(x,y) thỏa mãn f(x,y) ≥ 0 Hàm mật độ xác suất biên được tính như sau , hàm mật độ xác suất biên của X , hàm mật độ xác suất biên của Y 2.1.3 Một số đặc trưng của phân phối xác suất Giá trị kỳ vọng hay giá trị trung bình Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc Giá trị kỳ vọng của một biến ngẫu nhiên liên tục Ví dụ 2.8. Tính giá trị kỳ vọng biến X là số điểm của phép thử tung 1 con súc sắc Một số tính chất của giá trị kỳ vọng (1) E(a) = avới a là hằng số (2) E(a+bX) = a + bE(X)với a và b là hằng số (3) Nếu X và Y là độc lập thống kê thì E(XY) = E(X)E(Y) (4) Nếu X là một biến ngẫu nhiên cĩ hàm mật độ xác suất f(x) thì , nếu X rời rạc , nếu X liên tục Người ta thường ký hiệu kỳ vọng là m : m = E(X) Phương sai X là một biến ngẫu nhiên và m = E(X). Độ phân tán của dữ liệu xung quanh giá trị trung bình được thể hiện bằng phương sai theo định nghĩa như sau: Độ lệch chuẩn của X là căn bậc hai dương của , ký hiệu là . Ta cĩ thể tính phương sai theo định nghĩa như sau , nếu X là biến ngẫu nhiên rời rạc , nếu X là biến ngẫu nhiên liên tục
Trong tính tốn chúng ta sử dụng cơng thức sau var(X)=E(X2)-[E(X)]2 Ví dụ 2.9. Tiếp tục ví dụ 2.8. Tính var(X) Ta đã cĩ E(X) = 3,5 Tính E(X2) bằng cách áp dụng tính chất (4). E(X2) =15,17 var(X)=E(X2)-[E(X)]2 = 15,17 – 3,52 = 2,92 Các tính chất của phương sai (1) (2) var(a) = 0 với a là hằng số (3) var(a+bX) = b2var(X)với a và b là hằng số (4) Nếu X và Y là các biến ngẫu nhiên độc lập thì var(X+Y) = var(X) + var(Y) var(X-Y) = var(X) + var(Y) (5) Nếu X và Y là các biến độc lập, a và b là hằng số thì var(aX+bY) = a2var(X) + b2var(Y) Hiệp phương sai X và Y là hai biến ngẫu nhiên với kỳ vọng tương ứng là mx và my. Hiệp phương sai của hai biến là cov(X,Y) = E[(X-mx)(Y-my)] = E(XY) - mxmy Chúng ta cĩ thể tính tốn trực tiếp hiệp phương sai như sau Đối với biến ngẫu nhiên rời rạc Đối với biến ngẫu nhiên liên tục Tính chất của hiệp phương sai (1) Nếu X và Y độc lập thống kê thì hiệp phương sai của chúng bằng 0. cov(X,Y) = E(XY) –mxmy =mxmy–mxmy =0 (2) cov(a+bX,c+dY)=bdcov(X,Y)với a,b,c,d là các hằng số Nhược điểm của hiệp phương sai là nĩ phụ thuộc đơn vị đo lường. Hệ số tương quan Để khắc phục nhược điểm của hiệp phương sai là phụ thuộc vào đơn vị đo lường, người ta sử dụng hệ số tương quan được định nghĩa như sau: Hệ số tương quan đo lường mối quan hệ tuyến tính giữa hai biến. r sẽ nhận giá trị nằm giữa -1 và 1. Nếu r=-1 thì mối quan hệ là nghịch biến hồn hảo, nếu r=1 thì mối quan hệ là đồng biến hồn hảo. Từ định nghĩa ta cĩ cov(X,Y) =rsxsy 2.1.4 Tính chất của biến tương quan Gọi X và Y là hai biến cĩ tương quan var(X+Y) = var(X) + var(Y) + 2cov(X,Y) = var(X) + var(Y) + 2rsxsy var(X-Y) = var(X) + var(Y) - 2cov(X,Y) = var(X) + var(Y) - 2rsxsy Mơ men của phân phối xác suất Phương sai của biến ngẫu nhiên X là mơ men bậc 2 của phân phối xác suất của X. Tổng quát mơ men bậc k của phân phối xác suất của X là E(X-m)k Mơ men bậc 3 và bậc 4 của phân phối được sử dụng trong hai số đo hình dạng của phân phối xác suất là skewness(độ bất cân xứng) và kurtosis(độ nhọn) mà chúng ta sẽ xem xét ở phần sau. 2.1.5 Một số phân phối xác suất quan trọng Phân phối chuẩn Biến ngẫu nhiên X cĩ kỳ vọng là m, phương sai là s2. Nếu X cĩ phân phối chuẩn thì nĩ được ký hiệu như sau Dạng hàm mật độ xác xuất của phân phối chuẩn như sau m- s m s m s m+ s m+ s m+ s m Xấp xỉ 68% Xấp xỉ 95% Xấp xỉ 99,7%
Hình 2.3. Hàm mật độ xác suất phân phối chuẩn Tính chất của phân phối chuẩn (1) Hàm mật độ xác suất của đối xứng quanh giá trị trung bình. (2) Xấp xỉ 68% diện tích dưới đường pdf nằm trong khoảng m±s, xấp xỉ 95% diện tích nằm dưới đường pdf nằm trong khoảng m±2s, và xấp xỉ 99,7% diện tích nằm dưới đường pdf nằm trong khoảng m±3s. (3) Nếu đặt Z = (X-m)/s thì ta cĩ Z~N(0,1). Z gọi là biến chuẩn hố và N(0,1) được gọi là phân phối chuẩn hố. (4) Định lý giớí hạn trung tâm 1: Một kết hợp tuyến tính các biến cĩ phân phối chuẩn,, trong một số điều kiện xác định cũng là một phân phối chuẩn. Ví dụ và thì Y =aX1+bX2 với a và b là hằng số cĩ phân phối Y~N[(am1+bm2),(]. (5) Định lý giới hạn trung tâm 2: Dưới một số điều kiện xác định, giá trị trung bình mẫu của các một biến ngẫu nhiên sẽ gần như tuân theo phân phối chuẩn. (6) Mơ men của phân phối chuẩn Mơ men bậc ba: E[(X-m)3]=0 Mơ men bậc bốn : E[(X-m)4]=3s4 Đối với một phân phối chuẩn Độ trơi (skewness): Độ nhọn(kurtosis): (7) Dựa vào kết quả ở mục (6), người cĩ thể kiểm định xem một biến ngẫu nhiên cĩ tuân theo phân phối chuẩn hay khơng bằng cách kiểm định xem S cĩ gần 0 và K cĩ gần 3 hay khơng. Đây là nguyên tắc xây dựng kiểm định quy luật chuẩn Jarque-Bera. 2 JB tuân theo phân phối c với hai bậc tự do(df =2). Phân phối c2 Định lý : Nếu X1, X2, , Xk là các biến ngẫu nhiên độc lập cĩ phân phối chuẩn hố thì tuân theo phân phối Chi-bình phương với k bậc tự do. Tính chất của c2 2 (1) Phân phối c là phân phối lệch về bên trái, khi bậc tự do tăng dần thì phân phối c2 tiến gần đến phân phối chuẩn. (2) m = k và s2 = 2k (3) , hay tổng của hai biến cĩ phân phối c2cũng cĩ phân phối c2 với số bậc tự do bằng tổng các bậc tự do. Phân phối Student t Định lý: Nếu Z~N(0,1) và là độc lập thống kê thì tuân theo phân phối Student hay nĩi gọn là phân phối t với k bậc tự do. Tính chất của phân phối t (1) Phân phối t cũng đối xứng quanh 0 như phân phối chuẩn hố nhưng thấp hơn. Khi bậc tự do càng lớn thì phân phối t tiệm cận đến phân phối chuẩn hố. Trong thực hành. Khi bậc tự do lớn hơn 30 người ta thay phân phối t bằng phân phối chuẩn hố. (2) m = 0 và s = k/(k-2) Phân phối F Định lý : Nếu và là độc lập thống kê thì tuân theo phân phối F với (k1,k2) bậc tự do. Tính chất của phân phối F (1) Phân phối F lệch về bên trái, khi bậc tự do k1 và k2 đủ lớn, phân phối F tiến đến phân phối chuẩn. (2) m = k2/(k2-2) với điều kiện k2>2 và với điều kiện k2>4. (3) Bình phương của một phân phối t với k bậc tự do là một phân phối F với 1 và k bậc tự do (4) Nếu bậc tự do mẫu k2 khá lớn thì . Lưu ý : Khi bậc tự do đủ lớn thì các phân phối c2, phân phối t và phân phối F tiến đến phân phối chuẩn. Các phân phối này được gọi là phân phối cĩ liên quan đến phân phối chuẩn
2.2 Thống kê mơ tả Mơ tả dữ liệu thống kê(Descriptive Statistic) Cĩ bốn tính chất mơ tả phân phối xác suất của một biến ngẫu nhiên như sau: - Xu hướng trung tâm hay “điểm giữa” của phân phối. - Mức độ phân tán của dữ liệu quanh vị trí “điểm giữa”. - Độ trơi(skewness) của phân phối. - Độ nhọn(kurtosis) của phân phối. Mối quan hệ thống kê giữa hai biến số được mơ tả bằng hệ số tương quan. 2.2.1 Xu hướng trung tâm của dữ liệu Trung bình tổng thể (giá trị kỳ vọng) mx = E[X] Trung bình mẫu Trung vị của tổng thể : X là một biến ngẫu nhiên liên tục, Md là trung vị của tổng thể khi P(X<Md) = 0,5. Trung vị mẫu : Nếu số phân tử của mẫu là lẻ thì trung vị là số “ở giữa” của mẫu sắp theo thứ tự tăng dần hoặc giảm dần. Nếu số phần tử của mẫu chẳn thì trung vị là trung bình cộng của hai số “ở giữa”. Trong kinh tế lượng hầu như chúng ta chỉ quan tâm đến trung bình mà khơng tính tốn trên trung vị. 2.2.2 Độ phân tán của dữ liệu Phương sai Phương sai của tổng thể : Phương sai mẫu: hoặc Độ lệch chuẩn Độ lệch chuẩn tổng thể : Độ lệch chuẩn mẫu : hoặc : 2.2.3 Độ trơi S Độ trơi tổng thể : Độ trơi mẫu : Đối với phân phối chuẩn độ trơi bằng 0. 2.2.4 Độ nhọn K Độ nhọn của tổng thể Độ nhọn mẫu Đối với phân phối chuẩn độ nhọn bằng 3. Một phân phối cĩ K lớn hơn 3 là là nhọn, nhỏ hơn 3 là phẳng. 2.2.5 Quan hệ giữa hai biến-Hệ số tương quan Hệ số tương quan tổng thể Hệ số tương quan mẫu với
2.3 Thống kê suy diễn - vấn đề ước lượng 2.3.1 Ước lượng Chúng ta tìm hiểu bản chất, đặc trưng và yêu cầu của ước lượng thống kê thơng qua một ví dụ đơn giản là ước lượng giá trị trung bình của tổng thể. Ví dụ 11. Giả sử chúng ta muốn khảo sát chi phí cho học tập của học sinh tiểu học tại trường tiểu học Y. Chúng ta muốn biết trung bình chi phí cho học tập của một học sinh tiểu học là bao nhiêu. Gọi X là biến ngẫu nhiên ứng với chi phí cho học tập của một học sinh tiểu học (X tính bằng ngàn đồng/học sinh/tháng). Giả sử chúng ta biết phương sai của X là =100. Trung bình thực của X là m là một số chưa biết. Chúng ta tìm cách ước lượng m dựa trên một mẫu gồm n=100 học sinh được lựa chọn một cách ngẫu nhiên. 2.3.2 Hàm ước lượng cho m Chúng ta dùng giá trị trung bình mẫu để ước lượng cho giá trị trung bình của tổng thể m. Hàm ước lượng như sau là một biến ngẫu nhiên. Ứng với một mẫu cụ thể thì nhận một giá trị xác định. Ước lượng điểm Ứng với một mẫu cụ thể, giả sử chúng ta tính được = 105 (ngàn đồng/học sinh). Đây là một ước lượng điểm. Xác suất để một ước lượng điểm như trên đúng bằng trung bình thực là bao nhiêu? Rất thấp hay cĩ thể nĩi hầu như bằng 0. Ước lượng khoảng Ước lượng khoảng cung cấp một khoảng giá trị cĩ thể chứa giá trị chi phí trung bình cho học tập của một học sinh tiểu học. Ví dụ chúng ta tìm được = 105. Chúng ta cĩ thể nĩi m cĩ thể nằm trong khoảng hay . Khoảng ước lượng càng rộng thì càng cĩ khả năng chứa giá trị trung bình thực nhưng một khoảng ước lượng quá rộng như khoảng hay thì hầu như khơng giúp ích được gì cho chúng ta trong việc xác định m. Như vậy cĩ một sự đánh đổi trong ước lượng khoảng với cùng một phương pháp ước lượng nhất định: khoảng càng hẹp thì mức độ tin cậy càng nhỏ. 2.3.3 Phân phối của Theo định lý giới hạn trung tâm 1 thì là một biến ngẫu nhiên cĩ phân phối chuẩn. Vì cĩ phân phối chuẩn nên chúng ta chỉ cần tìm hai đặc trưng của nĩ là kỳ vọng và phương sai. Kỳ vọng của Phương sai của Vậy độ lệch chuẩn của là . Từ thơng tin này, áp dụng quy tắc 2s thì xác suất khoảng chứa m sẽ xấp xỉ 95%. Ước lượng khoảng với độ tin cậy 95% cho m là Lưu ý: Mặc dù về mặt kỹ thuật ta nĩi khoảng chứa m với xác suất 95% nhưng khơng thể nĩi một khoảng cụ thể như (103; 107) cĩ xác suất chứa m là 95%. Khoảng (103;107) chỉ cĩ thể hoặc chứa m hoặc khơng chứa m. Ý nghĩa chính xác của độ tin cậy 95% cho ước lượng khoảng cho m như sau: Với quy tắc xây dựng khoảng là và chúng ta tiến hành lấy một mẫu với cỡ mẫu n và tính được một khoảng ước lượng. Chúng ta cứ lặp đi lặp lại quá trình lấy mẫu và ước lượng khoảng như trên thì khoảng 95% khoảng ước lượng chúng ta tìm được sẽ chứa m. Tổng quát hơn, nếu trị thống kê cần ước lượng là và ta tính được hai ước lượng và sao cho với 0 < a < 1 hay xác suất khoảng từ đến chứa giá trị thật là 1-a thì 1-a được gọi là độ tin cậy của ước lượng, a được gọi là mức ý nghĩa của ước lượng và cũng là xác suất mắc sai lầm loại I. Nếu a = 5% thì 1-a là 95%. Mức ý nghĩa 5% hay độ tin cậy 95% thường được sử dụng trong thống kê và trong kinh tế lượng. Các tính chất đáng mong đợi của một ước lượng được chia thành hai nhĩm, nhĩm tính chất của ước lượng trên cỡ mẫu nhỏ và nhĩm tính chất ước lượng trên cỡ mẫu lớn. 2.3.4 Các tính chất ứng với mẫu nhỏ Khơng thiên lệch(khơng chệch) Một ước lượng là khơng thiên lệch nếu kỳ vọng của đúng bằng . Như đã chứng minh ở phần trên, là ước lượng khơng thiên lệch của m. E(q1)=q E(q2) ≠ q f(q) q1 q2 Hình 2.4. Tính khơng thiên lệch của ước lượng. q1 là ước lượng khơng thiên lệch của q trong khi q2 là ước lượng thiên lệch của q. Phương sai nhỏ nhất Hàm ước lượng cĩ phương sai nhỏ nhất khi với bất cứ hàm ước lượng nào ta cũng cĩ . Khơng thiên lệch tốt nhất hay hiệu quả Một ước lượng là hiệu quả nếu nĩ là ước lượng khơng thiên lệch và cĩ phương sai nhỏ nhất.
E(q1)=E(q2)=q f(q) q1 q2 Hình 2.5. Ước lượng hiệu quả. Hàm ước lượng q2 hiệu quả hơn q1. Tuyến tính Một ước lượng của được gọi là ước lượng tuyến tính nếu nĩ là một hàm số tuyến tính của các quan sát mẫu. Ta cĩ Vậy là ước lượng tuyến tính cho m. Ước lượng khơng thiên lệch tuyến tính tốt nhất (Best Linear Unbiased Estimator-BLUE) Một ước lượng được gọi là BLUE nếu nĩ là ước lượng tuyến tính, khơng thiên lệch và cĩ phương sai nhỏ nhất trong lớp các ước lượng tuyến tính khơng thiên lệch của . Cĩ thể chứng minh được là BLUE. Sai số bình phương trung bình nhỏ nhất Sai số bình phương trung bình: MSE()=E(-)2 Sau khi biến đổi chúng ta nhận được: MSE()=var()+E[E()-]2 MSE()=var()+bias() Sai số bình phương trung bình bằng phương sai của ước lượng cộng với thiên lệch của ước lượng. Chúng ta muốn ước lượng ít thiên lệch đồng thời cĩ phương sai nhỏ. Người ta sử dụng tính chất sai số bình phương trung bình nhỏ khi khơng thể chọn ước lượng khơng thiên lệch tốt nhất. 2.3.5 Tính chất của mẫu lớn Một số ước lượng khơng thoả mãn các tính chất thống kê mong muốn khi cỡ mẫu nhỏ nhưng khi cỡ mẫu lớn đến vơ hạn thì lại cĩ một số tính chất thống kê mong muốn. Các tính chất thống kê này được gọi là tính chất của mẫu lớn hay tính tiệm cận. Tính khơng thiên lệch tiệm cận Ước lượng được gọi là khơng thiên lệch tiệm cận của nếu Ví dụ 2.12. Xét phương sai mẫu của biến ngẫu nhiên X: Cĩ thể chứng minh được Vậy là ước lượng khơng thiên lệch của , trong khi là ước lượng khơng thiên lệch tiệm cận của . Nhất quán Một ước lượng được gọi là nhất quán nếu xác suất nếu nĩ tiến đến giá trị đúng của khi cỡ mẫu ngày càng lớn. là nhất quán thì với d là một số dương nhỏ tuỳ ý. N nhỏ N rất lớn N lớn 0 q Hình 2.6. Ước lượng nhất quán Quy luật chuẩn tiệm cận Một ước lượng được gọi là phân phối chuẩn tiệm cận khi phân phối mẫu của nĩ tiến đến phân phối chuẩn khi cỡ mẫu n tiến đến vơ cùng. Trong phần trên chúng ta đã thấy biến X cĩ phân phối chuẩn với trung bình m và phương sai s2 thì cĩ phân phối chuẩn với trung bình m và phương sai s2/n với cả cỡ mẫu nhỏ và lớn. Nếu X là biến ngẫu nhiên cĩ trung bình m và phương sai s2 nhưng khơng theo phân phân phối chuẩn thì cũng sẽ cĩ phân phối chuẩn với trung bình m và phương sai s2/n khi n tiến đến vơ cùng. Đây chính là định lý giới hạn trung tâm 2.
2.4 Thống kê suy diễn - Kiểm định giả thiết thống kê 2.4.1 Giả thiết Giả thiết khơng là một phát biểu về giá trị của tham số hoặc về giá trị của một tập hợp các tham số. Giả thiết ngược phát biểu về giá trị của tham số hoặc một tập hợp tham số khi giả thiết khơng sai. Giả thiết khơng thường được ký hiệu là H0 và giả thiết ngược thường được ký hiệu là H1. 2.4.2 Kiểm định hai đuơi Ví dụ 13. Quay lại ví dụ 11 về biến X là chi phí cho học tập của học sinh tiểu học. Chúng ta biết phương sai của X là =100. Với một mẫu với cỡ mẫu n=100 chúng ta đã tính được =105 ngàn đồng/học sinh/tháng. Chúng ta xem xét khả năng bác bỏ phát biểu cho rằng chi phí cho học tập trung bình của học sinh tiểu học là 106 ngàn đồng/tháng. Giả thiết H0: m = 106 = m0 H1: m ≠ 106 = m0 Chúng ta đã biết ~N(m,/n), với độ tin cậy 95% hay mức ý nghĩa a = 5% chúng ta đã xây dựng được ước lượng khoảng của m là . Nếu khoảng này khơng chứa m thì ta bác bỏ giả thiết khơng với độ tin cậy 95%, ngược lại ta khơng đủ cơ sở để bác bỏ giả thiết H0. Ở phần trên chúng ta đã tính được ước lượng khoảng của m dựa theo là (103;107). Khoảng này chứa m0 = 106. Vậy ta khơng thể bác bỏ được giả thiết H0. Khoảng tin cậy mà ta thiết lập được được gọi là miền chấp nhận, miền giá trị nằm ngồi miền chấp nhận được gọi là miền bác bỏ. Hình 2.7. Miền bác bỏ và miền chấp nhận H0. Tổng quát hơn ta cĩ Z= ~N(0,1) hay Z tuân theo phân phối chuẩn hố. a/2 a/2 Hình 2.8. Miền chấp nhận và miền bác bỏ theo a của trị thống kê Z Ta cĩ tất cả hai miền bác bỏ và do tính chất đối xứng của phân phối chuẩn, nếu mức ý nghĩa là a thì xác suất để Z nằm ở miền bác bỏ bên trái là a/2 và xác suất để Z nằm ở miền bác bỏ bên trái cũng là a/2. Chúng ta đặt giá trị tới hạn bên trái là Za/2 và giá trị tới hạn bên phải là Z1-a/2. Do tính đối xứng ta lại cĩ Za/2 = - Z1-a/2. Xác suất để Z nằm trong hai khoảng tới hạn là (2.1) hay Thay Z= và biến đổi một chút chúng ta nhận được (2) Các mệnh đề (2.1) và (2.2) là những mệnh đề xác suất. Kiểm định giả thiết thống kê theo phương pháp truyền thống Phát biểu mệnh đề xác suất Nguyên tắc ra quyết định Ø Nếu hoặc thì ta bác bỏ H0 với độ tin cậy 1-a hay xác suất mắc sai lầm là a. Ø Nếu thì ta khơng thể bác bỏ H0. Với mức ý nghĩa a =5% thì Z1-a/2 = Z97,5% = 1,96 ≈ 2 Ta cĩ Vậy ta khơng thể bác bỏ giả thiết Ho. Kiểm định giả thiết thống kê theo trị thống kê Z Phát biểu mệnh đề xác suất Quy tắc quyết định Ø Nếu Ztt= Z1-a/2 thì ta bác bỏ H0 với độ tin cậy 1-a hay xác suất mắc sai lầm là a. Ø Nếu Za/2 ≤ Ztt ≤ Z1-a/2 thì ta khơng thể bác bỏ H0. Với mức ý nghĩa a =5% ta cĩ Z1-a/2 = Z97,5% = 1,96 ≈ 2 và Za/2 = Z2,5% = -1,96 ≈ -2 Ztt= Vậy ta khơng thể bác bỏ Ho. Kiểm định giả thiết thống kê theo giá trị p Đối với kiểm định hai đuơi giá trị p được tính như sau: Với Ztt = -1 ta cĩ P(1<Z) = 0,16, vậy giá trị p = 0,32. Quy tắc quyết định Ø Nếu p < a : Bác bỏ Ho.
Ø Nếu p ≥ a : Khơng thể bác bỏ Ho. Trong ví dụ trên p = 0,32 > a = 5%. Vậy ta khơng thể bác bỏ Ho. Ba cách tiếp cận trên cho cùng một kết quả vì thực ra chỉ từ những biến đổi của cùng một mệnh đề xác suất. Trong kinh tế lượng người ta cũng thường hay sử dụng giá trị p. 2.4.3 Kiểm định một đuơi Kiểm định đuơi trái Ví dụ 14. Tiếp tục ví dụ 13. Kiểm định phát biểu : “Chi cho học tập trung bình của học sinh tiểu học lớn hơn 108 ngàn đồng/học sinh/tháng”. Giả thiết H0: m > 108 = m0 H1: m ≤ 108 = m0 Phát biểu mệnh đề xác suất P(Za Za : Bác bỏ Ho. Ø Nếu Ztt ≤ Za : Khơng thể bác bỏ Ho. Ta cĩ Ztt = < Z5% = -1,644 vậy ta khơng thể bác bỏ Ho. 2.4.4 Một số trường hợp đặc biệt cho ước lượng giá trị trung bình của tổng thể v Tổng thể cĩ phân phối chuẩn, cỡ mẫu lớn, phương sai chưa biết. Chiến lược kiểm định giống như trên nhưng thay phương sai tổng thể bằng phương sai mẫu. v Tổng thể cĩ phân phối chuẩn, phương sai chưa biết, cỡ mẫu nhỏ: t-stat~t(n-1) Kiểm định trên trị thống kê t cũng tương tự như đối với trị thống kê Z, ta chỉ việc tra t thay cho Z. Khi cỡ mẫu đủ lớn trị thống kê t tương tự trị thống kê Z. v Tổng thể khơng tuân theo phân phối chuẩn, áp dụng định lý giới hạn trung tâm. Khi cỡ mẫu đủ lớn thì trị thống kê t tính tốn như phần trên cĩ phân phối gần với phân phối Z. Ngồi ra chúng ta cịn cĩ thể kiểm định các giả thiết về phương sai, kiểm định sự bằng nhau giữa các phương sai của hai tổng thể và kiểm định sự bằng nhau giữa các trung bình tổng thể. Chúng ta xét kiểm định giả thiết về phương sai vì giả định về phương sai khơng đổi là một giả định quan trọng trong phân tích hồi quy. Kiểm định giả thiết về phưong sai Xét giả thiết Ho : H1 : Cĩ thể chứng minh được Mệnh đề xác suất Quy tắc quyết định Nếu hoặc , thì bác bỏ H0. Nếu , thì khơng bác bỏ H0. Kiểm định sự bằng nhau của phương sai hai tổng thể Chúng ta cĩ mẫu cỡ n1 từ tổng thể 1 và mẫu cỡ n2 từ tổng thể 2. Xét giả thiết H0 : H1 : Chúng ta đã cĩ Vậy Hay
Phát biểu mệnh đề xác suất Quy tắc quyết định Ø Nếu hoặc thì ta bác bỏ H0. Ø Nếu thì khơng bác bỏ H0. 2.4.5 Sai lầm loại I và sai lầm loại II Khi ta dựa vào một mẫu để bác bỏ một giả thiết, ta cĩ thể mắc phải một trong hai sai lầm như sau: Sai lầm loại I: Bác bỏ Ho khi thực tế Ho đúng. Sai lầm loại II : Khơng bác bỏ Ho khi thực tế nĩ sai. Tính chất Quyết định H0 đúng H0 sai Bác bỏ Sai lầm loại I Khơng mắc sai lầm Khơng bác bỏ Khơng mắc sai lầm Sai lầm loại II m=108 Hình 2.7. Sai lầm loại I-Bác bỏ H0: m=108 trong khi thực tế H0 đúng. Xác suất mắc sai lầm loại I Ví dụ 16. Tiếp tục ví dụ 13. Kiểm định phát biểu : “Chi cho học tập trung bình của học sinh tiểu học là 108 ngàn đồng/học sinh/tháng”. Trung bình thực m = m0=108. Giả thiết H0: m = 108 = m0 H1: m ≠ 108 = m0 Giả sử giá trị m thực là m=108. Với ước lượng khoảng cho m là (103;107) với độ tin cậy 95% chúng ta bác bỏ H0 trong khi thực sự H0 là đúng. Xác suất chúng ta mắc sai lầm loại này là a = 5%. Xác suất mắc sai lầm loại II Ví dụ 17. Tiếp tục ví dụ 13. Kiểm định phát biểu : “Chi tiêu cho học tập trung bình của học sinh tiểu học là 108 ngàn đồng/học sinh/tháng”. Trung bình thực m = m0=104. Giả thiết H0: m = 108 = m0 H1: m ≠ 108 = m0 Giả sử giá trị m thực là m=104. Với ước lượng khoảng cho m là (103;107) với độ tin cậy 95% chúng ta khơng bác bỏ H0 trong khi H0 sai. Xác suất chúng ta mắc sai lầm loại II này là b. Lý tưởng nhất là chúng ta tối thiểu hố cả hai loại sai lầm. Nhưng nếu chúng ta muốn hạn chế sai lầm loại I, tức là chọn mức ý nghĩa a nhỏ thì khoảng ước lượng càng lớn và xác suất mắc phải sai lầm loại II càng lớn. Nghiên cứu của Newman và Pearson[6] cho rằng sai lầm loại I là nghiêm trọng hơn sai lầm loại II. Do đĩ, trong thống kê suy diễn cổ điển cũng như trong kinh tế lượng cổ điển, người ta chọn mức ý nghĩa a hay xác suất mắc sai lầm loại I nhỏ, thơng thường nhất là 5% mà khơng quan tâm nhiều đến b. 2.4.6 Tĩm tắt các bước của kiểm định giả thiết thống kê Bước 1.Phát biểu giả thiết H0 và giả thiết ngược H1. Bước 2. Lựa chọn trị thống kê kiểm định Bước 3. Xác định phân phối thống kê của kiểm định Bước 4. Lựa chọn mức ý nghĩa a hay xác suất mắc sai lầm loại I. Bước 5. Sử dụng phân phối xác suất của thống kê kiểm định, thiết lập một khoảng tin cậy 1-a, khoảng này cịn được gọi là miền chấp nhận. Nếu trị thống kê ứng với H0 nằm trong miền chấp nhận thì ta khơng bác bỏ H0, nếu trị thơng kê ứng với H0 nằm ngồi miền chấp nhận thì ta bác bỏ H0. Lưu ý là khi bác bỏ H0 chúng ta chấp nhận mức độ sai lầm là a.
3. CHƯƠNG II HỒI QUY HAI BIẾN
3.1 Giới thiệu 3.1.1 Khái niệm về hồi quy Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đốn giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập.[7] Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau: Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng, biến nội sinh. Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm sốt, biến ngoại sinh. Sau đây là một và ví dụ về phân tích hồi quy (1) Ngân hàng XYZ muốn tăng lượng tiền huy động. Ngân hàng này muốn biết mối quan hệ giữa lượng tiền gửi và lãi suất tiên gửi, cụ thể hơn họ muốn biết khi tăng lãi suất thêm 0,1% thì lượng tiền gửi sẽ tăng trung bình là bao nhiêu. (2) Một nhà nghiên cứu nơng nghiệp muốn biết năng suất tơm sú nuơi trong hệ thống thâm canh phụ thuộc thế nào vào diện tích ao nuơi, mật độ thả tơm giống, chi phí hố chất xử lý mơi trường, trình độ nhân cơng. Từ phân tích hồi quy này ơng ta đề ra các chỉ tiêu kỹ thuật phù hợp cho loại hình này. 3.1.2 Sự khác nhau giữa các dạng quan hệ Quan hệ tất định và quan hệ thống kê Quan hệ tất định là loại quan hệ cĩ thể biểu diễn bằng mơt hàm số tốn học. Một số quan hệ trong vật lý, hố học và một số ngành khoa học tự nhiên khác là quan hệ tất định. Ví dụ định luật Ohm trong vật lý : gọi U là điện áp, R là điện trở của mạch điện thì dịng điện I sẽ là , nĩi cách khác khi điện áp và điện trở được cố định trước thì chúng ta chỉ nhận được một và chỉ một giá trị dịng điện. Đa số các biến số kinh tế khơng cĩ quan hệ tất định. Thí dụ ta khơng thể nĩi với diện tích nuơi tơm cho trước và kỹ thuật nuơi được chọn thì năng suất sẽ là bao nhiêu. Lý do là cĩ rất nhiều biến số được kể đến trong mơ hình cũng tác động lên năng suất, ngồi ra trong số các biến số vắng mặt này cĩ những biến khơng thể kiểm sốt được như thời tiết, dịch bệnh Nhà nghiên cứu nơng nghiệp kể trên chỉ cĩ thể tiên đốn một giá trị trung bình của năng suất ứng với kỹ thuật nuơi đã chọn. Quan hệ giữa các biến số kinh tế cĩ tính chất quan hệ thống kê. Hồi quy và quan hệ nhân quả Mặc dù phân tích hồi quy dựa trên ý tưởng sự phụ thuộc của một biến số kinh tế vào biến số kinh tế khác nhưng bản thân kỹ thuật phân tích hồi quy khơng bao hàm quan hệ nhân quả. Một ví dụ điển hình của sự nhầm lẫn hai khái niệm này tiến hành hồi quy số vụ trộm ở một thành phố với số nhân viên cảnh sát của thành phố. Gọi Y là số vụ trộm trong một năm và X là số nhân viên cảnh sát. Khi chúng ta hồi quy Y theo X, nếu chúng ta tìm được mối quan hệ đồng biến của Y và X cĩ ý nghĩa thống kê thì phân tích hồi quy này cho kết luận: “Tăng số lượng nhân viên cảnh sát sẽ làm tăng số vụ trộm”. Rõ ràng phân tích này sai lầm trong việc nhận định mối quan hệ nhân quả. Số cảnh sát tăng lên là do sự tăng cường của lực lượng cảnh sát trong bối cảnh số vụ trộm tăng lên. Vậy đúng ra chúng ta phải hồi quy số cảnh sát theo số vụ trộm hay X theo Y.Vậy trước khi phân tích hồi quy chúng ta phải nhận định chính xác mối quan hệ nhân quả.[8] Một sai lầm phổ biến nữa trong phân tích kinh tế lượng là quy kết mối quan hệ nhân quả giữa hai biến số trong khi trong thực tế chúng đều là hệ quả của một nguyên nhân khác. Ví dụ chúng ta phân tích hồi quy giữa số giáo viên và số phịng học trong tồn ngành giáo dục. Sự thực là cả số giáo viên và số phịng học đều phụ thuộc vào số học sinh. Như vậy phân tích mối quan hệ nhân quả dựa vào kiến thức và phương pháp luận của mơn khác chứ khơng từ phân tích hồi quy. Hồi quy và tương quan Phân tích tương quan chỉ cho thấy độ mạnh yếu của mối quan hệ tuyến tính giữa hai biến số. Phân tích tương quan cũng khơng thể hiện mối quan hệ nhân quả.Ví dụ chúng ta xét quan hệ giữa hai biến số X là số bệnh nhân bị xơ gan và Y là số lít rượu được tiêu thụ của một nước. Chúng ta cĩ thể nhận được hệ số tương quan cao giữa X và Y. Hệ số tương quan được xác định như sau: Qua đẳng thức này chúng ta cũng thấy trong phân tích tương quan vai trị của hai biến là như nhau và hai biến đều là ngẫu nhiên. Phân tích hồi quy của X theo Y cho ta biết trung bình số bệnh nhân bị xơ gan là bao nhiêu ứng với lượng tiêu dùng rượu cho trước. Chúng ta khơng thể đảo ngược hồi quy thành Y theo X. Phân tích hồi quy dựa trên giả định biến độc lập là xác định trong khi biến phụ thuộc là ngẫu nhiên. Chúng ta tìm giá trị kỳ vọng của biến phụ thuộc dựa vào giá trị cho trước của của biến độc lập.
3.2 Hàm hồi quy tổng thể và hồi quy mẫu 3.2.1 Hàm hồi quy tổng thể (PRF) Ví dụ 3.1. Hồi quy tiêu dùng Y theo thu nhậpX. Theo Keynes thì hàm tiêu dùng như sau [9]: Y = b1 + b2X , với b2 là xu hướng tiêu dùng biên, 0<b2<1.(3.1) Chúng ta kiểm chứng giả thiết trên với số liệu từ một nước giả định Z cĩ dân số 30 người với số liệu tiêu dùng và thu nhậpcủa từng người như đồ thị phân tán sau.[10] Thu nhập X (XD) Hình 3.1. Đồ thị phân tán quan hệ giữa tiêu dùng và thu nhập khả dụng. Đồ thị 3.1. cho thấy cĩ mối quan hệ đồng biến giữa tiêu dùng và thu nhập khả dụng, hay là thu nhậptăng sẽ làm tiêu dùng tăng. Tuy quan hệ giữa Y và X khơng chính xác như hàm bậc nhất (3.1). Trong phân tích hồi quy chúng ta xem biến độc lập X cĩ giá trị xác định trong khi biến phụ thuộc Y là biến ngẫu nhiên. Điều này tưởng như bất hợp lý. Khi chúng ta chọn ngẫu nhiên người thứ i thì chúng ta thu được đồng thời hai giá trị: Xi là thu nhậpvà Yi là tiêu dùng của người đĩ. Vậy tại sao lại xem Yi là ngẫu nhiên? Câu trả như sau : Xét một mức thu nhậpXi xác định, cách lấy mẫu của chúng ta là chọn ngẫu nhiên trong số những người cĩ thu nhậplà Xi. Thu nhậpgĩp phần chính yếu quyết định tiêu dùng như thể hiện ở hàm số (1.3), tuy nhiên cịn nhiều yếu tố khác cũng tác động lên tiêu dùng nên ứng với một cách lấy mẫu thì với nhiều lần lấy mẫu với tiêu chí X = Xi ta nhận được các giá trị Yi khác nhau. Vậy chính xác hơn biến phụ thuộc Y là một biến ngẫu nhiên cĩ điều kiện theo biến độc lập X. Ước lượng tốt nhất cho Y trong trường hợp này là giá trị kỳ vọng của Y ứng với điều kiện X nhận giá trị Xi xác định. Hàm hồi quy tổng thể (PRF): E(Y/X=Xi) = b1 + b2X (3.2) Đối với một quan sát cụ thể thì giá trị biến phụ thuộc lệch khỏi kỳ vọng tốn, vậy: Yi = b1 + b2Xi + ei(3.3) b1 và b2 : các tham số của mơ hình b1 : tung độ gốc b2: độ dốc Giá trị ước lượng của Yi ei : Sai số của hồi quy hay cịn được gọi là nhiễu ngẫu nhiên Nhiễu ngẫu nhiên hình thành từ nhiều nguyên nhân: - Bỏ sĩt biến giải thích. - Sai số khi đo lường biến phụ thuộc. - Các tác động khơng tiên đốn được. - Dạng hàm hồi quy khơng phù hợp. Dạng hàm hồi quy (3.2) được gọi là hồi quy tổng thể tuyến tính. Chúng ta sẽ thảo luận chi tiết về thuật ngữ hồi quy tuyến tính ở cuối chương. Hình 3.2 cho ta cái nhìn trực quan về hồi quy tổng thể tuyến tính và sai số của hồi quy. Thu nhập X (XD) Hình 3.2. Hàm hồi quy tổng thể tuyến tính 3.2.2 Hàm hồi quy mẫu (SRF) Trong thực tế hiếm khi chúng cĩ số liệu của tổng thể mà chỉ cĩ số liệu mẫu. Chúng ta phải sử dụng dữ liệu mẫu để ước lượng hàm hồi quy tổng thể. Hàm hồi quy mẫu: (3.4) Trong đĩ : ước lượng cho b1. : Ước lượng cho b2. Đối với quan sát thứ i : Yi = + Xi + ei(3.5) Hình 3.3 cho thấy sự xấp xỉ của hàm hồi quy mẫu (SRF) và hàm hồi quy tổng thể (PRF). Thu nhập X (XD) Hình 3.3. Hồi quy mẫu và hồi quy tổng thể
3.3 Ước lượng các hệ số của mơ hình hồi quy theo phương pháp bình phương tối thiểu-OLS[11] 3.3.1 Các giả định của mơ hình hồi quy tuyến tính cổ điển Các giả định về sai số hồi quy như sau đảm bảo cho các ước lượng hệ số hàm hồi quy tổng thể dựa trên mẫu theo phương pháp bình phương tối thiểu là ước lượng tuyến tính khơng chệch tốt nhất(BLUE). Giá trị kỳ vọng bằng 0: Phương sai khơng đổi: Khơng tự tương quan: Khơng tương quan với X: Cĩ phân phối chuẩn: Ở chương 5 chúng ta sẽ khảo sát hậu quả khi các giả thiết trên bị vi phạm. 3.3.2 Phương pháp bình phương tối thiểu: Ý tưởng của phương pháp bình phương tối thiểu là tìm và sao cho tổng bình phương phần dư cĩ giá trị nhỏ nhất. Từ hàm hồi quy (3.5) Vậy (3.6) Điều kiện để (3.6) đạt cực trị là: (1) (3.7) (2) (3.8) Từ (3.7) và (3.8) chúng ta rút ra (3.9) (3.10) Các phương trình (3.9) và (3.10) được gọi là các phương trình chuẩn. Giải hệ phương trình chuẩn ta được (3.11) Thay (3.9) vào (3.8) và biến đổi đại số chúng ta cĩ (3.12) Đặt và ta nhận được (3.13) 3.3.3 Tính chất của hàm hồi quy mẫu theo OLS Tính chất của tham số ước lượng (1) và là duy nhất ứng với một mẫu xác định gồm n quan sát (Xi,Yi). (2) và là các ước lượng điểm của b1 và b2 . Giá trị của và thay đổi theo mẫu dùng để ước lượng. Tính chất của hàm hồi quy mẫu[12] (1) Hàm hồi quy mẫu đi qua giá trị trung bình của dữ liệu Thật vậy, từ (3.11) ta cĩ Thu nhập X (XD) Hình 3.4. Đường hồi quy mẫu đi qua giá trị trung bình của dữ liệu (2) Giá trị trung bình của ước lượng bằng giá trị trung bình của quan sát đối với biến phụ thuộc:. (3) Giá trị trung bình của phần dư bằng 0: (4) Các phần dư ei và Yi khơng tương quan với nhau: (5) Các phần dư ei và Xi khơng tương quan với nhau: 3.3.4 Phân phối của và [13] Ước lượng Kỳ vọng Phương sai Sai số chuẩn Phân phối Hiệp phương sai của hai hệ số ước lượng Trong các biểu thức trên với giả định
3.4 Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy 3.4.1 Khoảng tin cậy cho các hệ số hồi quy Thực sự chúng ta khơng biết nên ta dùng ước lượng khơng chệch của nĩ là Sai số chuẩn của hệ số hồi quy cho độ dốc Từ với ta cĩ (3.14) Từ tính chất của phương sai mẫu ta cĩ (3.15) Từ (3.14) và (3.15) Ta xây dựng trị thống kê (3.16) Biến đổi vế trái chúng ta được Thay vào (3.16) ta được (3.17) Chứng minh tương tự ta cĩ (3.18) Ước lượng khoảng cho hệ số hồi quy với mức ý nghĩa a như sau (3.19) (3.20) 3.4.2 Kiểm định giả thiết về hệ số hồi quy Chúng ta quan tâm nhiều đến ý nghĩa thống kê độ dốc (b2) của phương trình hồi quy hơn là tung độ gốc (b1). Cho nên từ đây đến cuối chương chủ yếu chúng ta kiểm định giả thiết thống kê về độ dốc. Giả thiết Phát biểu mệnh đề xác suất Quy tắc quyết định Ø Nếu hoặc thì bác bỏ H0. Ø Nếu thì ta khơng thể bác bỏ H0. Quy tắc thực hành-Trị thống kê t trong các phần mềm kinh tế lượng Trong thực tế chúng ta thường xét xem biến độc lập X cĩ tác động lên biến phụ thuộc Y hay khơng. Vậy khi thực hiện hồi quy chúng ta kỳ vọng 0. Mức ý nghĩa hay được dùng trong phân tích hồi quy là a=5%. Giả thiết Trị thống kê trở thành t-stat = Quy tắc quyết định Ø Nếu /t-stat/ > t(n-2,97,5%) thì bác bỏ H0. Ø Nếu /t-stat/ ≤ t(n-2,97,5%) thì khơng thể bác bỏ H0. Tra bảng phân phối Student chúng ta thấy khi bậc tự do n trên 20 thì trị thống kê t97,5% thì xấp xỉ 2. Quy tắc thực hành Ø Nếu /t-stat/ > 2 thì bác bỏ giả thiết b2 = 0. Ø Nếu /t-stat/≤ 2 thì ta khơng thể bác bỏ giả thiết b2=0. Trong các phần mềm bảng tính cĩ tính tốn hồi quy, người ta mặc định mức ý nghĩa a=5% và giả thiết H0: bi=0. Thủ tục tính tốn hồi quy của Excel cung cấp cho ta các hệ số hồi quy, trị thống kê t, ước lượng khoảng của hệ số hồi quy và giá trị p[14].Sau đây là kết quả hồi quy được tính tốn bằng thủ tục hồi quy của một vài phần mềm thơng dụng. Excel Kết quả Regresstion cho dữ liệu của ví dụ 3.1. (Chỉ trích phần hệ số hồi quy) Intercept: Tung độ gốc Coefficients : Hệ số hồi quy Standard Error : Sai số chuẩn của ước lượng hệ số t Stat : Trị thống kê t(n-2) P-value : Giá trị p Lower95%: Giá trị tới hạn dưới của khoảng ước lượng với độ tin cậy 95%. Upper95% : Giá trị tới hạn trên của khoảng ước lượng với độ tin cậy 95%. Bác bỏ H0 khi /t-stat/ > 2 hoặc p-value < 0,05 hoặc khoảng (Lower;Upper) khơng chứa 0.[15] Eviews Thủ tục Make Equation cho kết quả như sau(chỉ trích phần hệ số hồi quy): Dependent Variable: Y Method: Least Squares Included observations: 30 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob.
C 92.24091 33.61089 2.744376 0.0105 X 0.611539 0.067713 9.031280 0.0000 C : Tung độ gốc Coefficient : Hệ số hồi quy Std. Error : Sai số chuẩn của ước lượng hệ số t – Statistic : Trị thống kê t(n-2) Prob: Giá trị p.Bác bỏ H0 khi /t-Statistic/ > 2 hoặc Prob Linear. (Chỉ trích phần hệ số hồi quy). Unstandardized Standardized t Sig. Coefficients Coefficients Model B Std. Error Beta 1 (Constant) 92,241 33,611 2,744 ,010 X ,612 ,068 ,863 9,031 ,000 Constant: Tung độ gốc Unstandardized Coefficients: Các hệ số hồi quy Standardized Coefficients: Các hệ số hồi quy chuẩn hố[16]. t: t-StatSig: Giá trị p. Bác bỏ H0 khi /t/ >2 hoặc Sig < 0,05
3.5 Định lý Gauss-Markov Với các giả định của mơ hình hồi quy tuyến tính cổ điển, hàm hồi quy tuyến tính theo phương pháp bình phương tối thiểu là ước lượng tuyến tính khơng thiên lệch tốt nhất. Chúng ta sẽ khơng chứng minh đinh lý này.[17]
3.6 Độ thích hợp của hàm hồi quy – R2 Làm thế nào chúng ta đo lường mức độ phù hợp của hàm hồi quy tìm được cho dữ liệu mẫu. Thước đo độ phù hợp của mơ hình đối với dữ liệu là R2. Để cĩ cái nhìn trực quan về R2, chúng ta xem xét đồ thị sau Y Yi Yi Xi Yi - Y Yi - Yi Yi - Y X Y SRF Hình 3.5. Phân tích độ thích hợp của hồi quy : biến thiên của biến phụ thuộc Y, đo lường độ lệch của giá trị Yi so với giá trị trung bình : biến thiên của Y được giải thích bởi hàm hồi quy : biến thiên của Y khơng giải thích được bởi hàm hồi quy hay sai số hồi quy. Trên mỗi Xi chúng ta kỳ vọng ei nhỏ nhất, hay phần lớn biến thiên của biến phụ thuộc được giải thích bởi biến độc lập. Nhưng một hàm hồi quy tốt phải cĩ tính chất mang tính tổng quát hơn. Trong hồi quy tuyến tính cổ điển, người ta chọn tính chất tổng bình phương biến thiên khơng giải thích được là nhỏ nhất. Ta cĩ Với và Vậy(3.21) Số hạng cuối cùng của (3.21) bằng 0. Vậy Đặt , và TSS(Total Sum of Squares): Tổng bình phương biến thiên của Y. ESS(Explained Sum of Squares): Tổng bình phương phần biến thiên giải thích được bằng hàm hồi quy của Y. RSS(Residual Sum of Squares) : Tổng bình phương phần biến thiên khơng giải thích được bằng hàm hồi quy của Y hay tổng bình phương phần dư.Ta cĩ: TSS = ESS + RSS Đặt Mặt khác ta cĩ Vậy (3.22) Vậy đối với hồi quy hai biến R2 là bình phương của hệ số tương quan. Tính chất của R2 (1) 0≤ R2 ≤1. Với R2=0 thể hiện X và Y độc lập thống kê. R2 =1 thể hiện X và Y phụ thuộc tuyến tính hồn hảo. (2) R2 khơng xét đến quan hệ nhân quả.
3.7 Dự báo bằng mơ hình hồi quy hai biến Dựa trên X0 xác định chúng ta dự báo Y0. Ước lượng điểm cho Y0 là : . Để ước lượng khoảng chúng ta phải tìm phân phối xác suất của . Dự báo giá trị trung bình Từ Suy ra (3.23) Thay biểu thức của , và ở mục 3.3.4 vào (3.23) và rút gọn Dự báo giá trị cụ thể của Y0 Từ Ta cĩ và (3.25) Số hạng cuối cùng . Vậy (3.26) Sai số chuẩn của dự báo Cho giá trị của Y0 Khoảng tin cậy cho dự báo Nhận xét: X0 càng lệch ra khỏi giá trị trung bình thì dự sai số của dự báo càng lớn. Chúng ta sẽ thấy rõ điều này qua đồ thị sau. Ước lượng khoảng cho Y0 trung bình Y trung bình Ước lượng khoảng cho Y0 X trung bình Hình 3.6. Ước lượng khoảng cho Y0.
3.8 Ý nghĩa của hồi quy tuyến tính và một số dạng hàm thường được sử dụng 3.8.1 Tuyến tính trong tham số Trong mục 3.2.1 chúng ta đã đặt yêu cầu là để ước lượng theo phương pháp bình phương tối thiểu thì mơ hình hồi quy phải tuyến tính. Sử dụng tính chất hàm tuyến tính của các phân phối chuẩn cũng là phân phối chuẩn, dựa vào các giả định chặt chẽ và phương pháp bình phương tối thiểu, người ta rút ra các hàm ước lượng tham số hiệu quả và các trị thống kê kiểm định. Hồi quy tuyến tính chỉ yêu cầu tuyến tính trong các tham số, khơng yêu cầu tuyến tính trong biến số. Mơ hình (3.27) là mơ hình tuyến tính trong các tham số nhưng phi tuyến theo biến số. Mơ hình (3.28) là mơ hình phi tuyến trong các tham số nhưng tuyến tính trong biến số. Hồi quy tuyến tính theo OLS chấp nhận dạng mơ hình tuyến tính trong tham số như (3.27) mà khơng chấp nhận dạng mơ hình phi tuyến trong tham số như (3.28). 3.8.2 Một số mơ hình thơng dụng Mơ hình Logarit kép Mơ hình logarit kép phù hợp với dữ liệu ở nhiều lĩnh vực khác nhau. Ví dụ đường cầu với độ co dãn khơng đổi hoặc hàm sản xuất Cobb- Douglas. Mơ hình đường cầu : (3.29) Khơng thể ước lượng mơ hình (3.29) theo OLS vì nĩ phi tuyến trong tham số. Tuy nhiên nếu chúng ta lấy logarit hai vế thì ta được mơ hình (3.30) Đặt và ta được mơ hình (3.31) Mơ hình này tuyến tính theo tham số nên cĩ thể ước lượng theo OLS. Chúng ta sẽ chứng minh đặc tính đáng lưu ý của mơ hình này là độ co dãn cầu theo giá khơng đổi. Định nghĩa độ co dãn: Lấy vi phân hai vế của (3.30) ta cĩ => Vậy độ co dãn của cầu theo giá khơng đổi. 0 X 0 ln(X) b2 Y Y = b1X ln(Y) ln(Y) = ln(b1) + b2ln(X) Hình 3.8. Chuyển dạng Log-log Tổng quát, đối với mơ hình logarit kép, hệ số ứng với ln của một biến số độc lập là độ co dãn của biến phụ thuộc vào biến độc lập đĩ. Mơ hình Logarit-tuyến tính hay mơ hình tăng trưởng Gọi g là tốc độ tăng trưởng, t chỉ thời kỳ. Mơ hình tăng trưởng như sau (3.32) Lấy logarit hai vế của (3.32) (3.33) Đặt , và ta được mơ hình hồi quy (3.34) Mơ hình tuyến tính-Logarit (Lin-log) (3.35) Mơ hình này phù hợp với quan hệ thu nhập và tiêu dùng của một hàng hố thơng thường với Y là chi tiêu cho hàng hố đĩ và X là thu nhập. Quan hệ này cho thấy Y tăng theo X nhưng tốc độ tăng chậm dần. 0 X 0 ln(X) Y Y Y = b1 + b2ln(X) Hình 3.9. Chuyển dạng Lin-log Mơ hình nghịch đảo hay mơ hình Hyperbol (3.36) Mơ hình này phù hợp cho nghiên cứu đường chi phí đơn vị, đường tiêu dùng theo thu nhập Engel hoặc đường cong Philip. X X X Y Y Y b1>0 b2 >0 b1>0 b2 0 Đường chi phí đơn vị Đường tiêu dùng Đường Philip Hình 3.10. Dạng hàm nghịch đảo Phụ lục 3.1.PL Số liệu về thu nhập và tiêu dùng, XD. Thu nhập khả dụng Tiêu dùng STT X Y 1 173 194 2 361 363
3 355 353 4 366 306 5 581 557 6 382 302 7 633 497 8 406 268 9 375 364 10 267 283 11 783 416 12 515 521 13 705 407 14 493 304 15 367 318 16 159 116 17 492 427 18 827 499 19 111 158 20 452 333 21 688 600 22 327 320 23 647 547 24 687 518 25 443 378 26 657 633 27 105 134 28 484 269 29 653 564 30 141 155
4. CHƯƠNG 4 MƠ HÌNH HỒI QUY TUYẾN TÍNH BỘI
4.1 Xây dựng mơ hình 4.1.1 Giới thiệu Mơ hình hồi quy hai biến mà chúng ta đã nghiên cứu ở chương 3 thường khơng đủ khả năng giải thích hành vi của biến phụ thuộc. Ở chương 3 chúng ta nĩi tiêu dùng phụ thuộc vào thu nhập khả dụng, tuy nhiên cĩ nhiều yếu tố khác cũng tác động lên tiêu dùng, ví dụ độ tuổi, mức độ lạc quan vào nền kinh tế, nghề nghiệp Vì thế chúng ta cần bổ sung thêm biến giải thích(biến độc lập) vào mơ hình hồi quy. Mơ hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội. Chúng ta chỉ xem xét hồi quy tuyến tính bội với mơ hình tuyến tính với trong tham số, khơng nhất thiết tuyến tính trong biến số. Mơ hình hồi quy bội cho tổng thể (4.1) Với X2,i, X3,i, ,Xk,i là giá trị các biến độc lập ứng với quan sát i b2, b2, b3, , bk là các tham số của hồi quy ei là sai số của hồi quy Với một quan sát i, chúng ta xác định giá trị kỳ vọng của Yi (4.2) 4.1.2 Ý nghĩa của tham số Các hệ số b được gọi là các hệ số hồi quy riêng (4.3) bk đo lường tác động riêng phần của biến Xm lên Y với điều kiện các biến số khác trong mơ hình khơng đổi. Cụ thể hơn nếu các biến khác trong mơ hình khơng đổi, giá trị kỳ vọng của Y sẽ tăng bm đơn vị nếu Xm tăng 1 đơn vị. 4.1.3 Giả định của mơ hình Sử dụng các giả định của mơ hình hồi quy hai biến, chúng ta bổ sung thêm giả định sau: (1) Các biến độc lập của mơ hình khơng cĩ sự phụ thuộc tuyến tính hồn hảo, nghĩa là khơng thể tìm được bộ số thực (l1,l2, ,lk) sao cho với mọi i. Giả định này cịn được được phát biểu là “ khơng cĩ sự đa cộng tuyến hồn hảo trong mơ hình”. (2) Số quan sát n phải lớn hơn số tham số cần ước lượng k. (3) Biến độc lập Xi phải cĩ sự biến thiên từ quan sát này qua quan sát khác hay Var(Xi)>0.
4.2 Ước lượng tham số của mơ hình hồi quy bội 4.2.1 Hàm hồi quy mẫu và ước lượng tham số theo phương pháp bình phương tối thiểu Trong thực tế chúng ta thường chỉ cĩ dữ liệu từ mẫu. Từ số liệu mẫu chúng ta ước lượng hồi quy tổng thể. Hàm hồi quy mẫu (4.4) Với các là ước lượng của tham số bm. Chúng ta trơng đợi là ước lượng khơng chệch của bm, hơn nữa phải là một ước lượng hiệu quả. Với một số giả định chặt chẽ như ở mục 3.3.1 chương 3 và phần bổ sung ở 4.1, thì phương pháp tối thiểu tổng bình phương phần dư cho kết quả ước lượng hiệu quả bm. Phương pháp bình phương tối thiểu Chọn b1, b2, , bk sao cho (4.5) đạt cực tiểu. Điều kiện cực trị của (4.5) (4.6) Hệ phương trình (4.6) được gọi là hệ phương trình chuẩn của hồi quy mẫu (4.4). Cách giải hệ phương trình (4.4) gọn gàng nhất là dùng ma trận. Do giới hạn của chương trình, bài giảng này khơng trình bày thuật tốn ma trận mà chỉ trình bày kết quả tính tốn cho hồi quy bội đơn giản nhất là hồi quy ba biến với hai biến độc lập. Một số tính chất của hồi quy ta thấy được ở hồi quy hai biến độc lập cĩ thể áp dụng cho hồi quy bội tổng quát. 4.2.2 Ước lượng tham số cho mơ hình hồi quy ba biến Hàm hồi quy tổng thể (4.7) Hàm hồi quy mẫu (4.8) Nhắc lại các giả định (1) Kỳ vọng của sai số hồi quy bằng 0: (2) Khơng tự tương quan: , i≠j (3) Phương sai đồng nhất: (4) Khơng cĩ tương quan giữa sai số và từng Xm: (5) Khơng cĩ sự đa cộng tuyến hồn hảo giữa X2 và X3. (6) Dạng hàm của mơ hình được xác định một cách đúng đắn. Với các giả định này, dùng phương pháp bình phương tối thiểu ta nhận được ước lượng các hệ số như sau. (4.10) (4.11) (4.12) 4.2.3 Phân phối của ước lượng tham số Trong phần này chúng ta chỉ quan tâm đến phân phối của các hệ số ước lựơng và . Hơn nữa vì sự tương tự trong cơng thức xác định các hệ số ước lượng nên chúng ta chỉ khảo sát . Ở đây chỉ trình bày kết quả[18]. là một ước lượng khơng chệch : (4.13) (4.14) Nhắc lại hệ số tương quan giữa X2 và X3 : Đặt = r23 biến đổi đại số (4.14) ta được (4.15) Từ các biểu thức (4.13) và (4.15) chúng ta cĩ thể rút ra một số kết luận như sau: (1) Nếu X2 và X3 cĩ tương quan tuyến tính hồn hảo thì =1. Hệ quả là vơ cùng lớn hay ta khơng thể xác định được hệ số của mơ hình hồi quy. (2) Nếu X2 và X3 khơng tương quan tuyến tính hồn hảo nhưng cĩ tương quan tuyến tính cao thì ước lượng vẫn khơng chệch nhưng khơng hiệu quả. Những nhận định trên đúng cho cả hồi quy nhiều hơn ba biến.
4.3 và hiệu chỉnh Nhắc lại khái niệm về : Một mơ hình cĩ lớn thì tổng bình phương sai số dự báo nhỏ hay nĩi cách khác độ phù hợp của mơ hình đối với dữ liệu càng lớn. Tuy nhiên một tính chất đặc trưng quan trọng của là nĩ cĩ xu hướng tăng khi số biến giải thích trong mơ hình tăng lên. Nếu chỉ đơn thuần chọn tiêu chí là chọn mơ hình cĩ cao, người ta cĩ xu hướng đưa rất nhiều biến độc lập vào mơ hình trong khi tác động riêng phần của các biến đưa vào đối với biến phụ thuộc khơng cĩ ý nghĩa thống kê. Để hiệu chỉnh phạt việc đưa thêm biến vào mơ hình, người ra đưa ra trị thống kê hiệu chỉnh(Adjusted )[19] (4.16) Với n là số quan sát và k là số hệ số cần ước lượng trong mơ hình. Qua thao tác hiệu chỉnh này thì chỉ những biến thực sự làm tăng khả năng giải thích của mơ hình mới xứng đáng được đưa vào mơ hình.
4.4 Kiểm định mức ý nghĩa chung của mơ hình Trong hồi quy bội, mơ hình được cho là khơng cĩ sức mạnh giải thích khi tồn bộ các hệ số hồi quy riêng phần đều bằng khơng. Giả thiết H0: b2 = b3 = = bk = 0 H1: Khơng phải tất cả các hệ số đồng thời bằng khơng. Trị thống kê kiểm định H0: Quy tắc quyết định Ø Nếu Ftt > F(k-1,n-k,a) thì bác bỏ H0. Nếu Ftt ≤ F(k-1,n-k,a) thì khơng thể bác bỏ H0.
4.5 Quan hệ giữa R2 và F
4.6 Ước lượng khoảng và kiểm định giả thiết thống kê cho hệ số hồi quy Ước lượng phương sai của sai số (4.17) Người ta chứng minh được là ước lượng khơng chệch của s2, hay . Nếu các sai số tuân theo phân phối chuẩn thì . Ký hiệu . Ta cĩ trị thống kê Ước lượng khoảng cho bm với mức ý nghĩa a là (4.18) Thơng thường chúng ta muốn kiểm định giả thiết H0 là biến Xm khơng cĩ tác động riêng phần lên Y. H0 : bm = 0 H1 : bm ≠ 0 Quy tắc quyết định Ø Nếu /t-stat/ > t(n-k,a/2) thì ta bác bỏ H0. Ø Nếu /t-stat/≤ t(n-k,a/2) thì ta khơng thể bác bỏ H0.
4.7 Biến phân loại (Biến giả-Dummy variable) Trong các mơ hình hồi quy mà chúng ta đã khảo sát từ đầu chương 3 đến đây đều dựa trên biến độc lập và biến phụ thuộc đều là biến định lượng. Thực ra mơ hình hồi quy cho phép sử dụng biến độc lập và cả biến phụ thuộc là biến định tính. Trong giới hạn chương trình chúng ta chỉ xét biến phụ thuộc là biến định lượng. Trong phần này chúng ta khảo sát mơ hình hồi quy cĩ biến định tính. Đối với biến định tính chỉ cĩ thể phân lớp, một quan sát chỉ cĩ thể rơi vào một lớp. Một số biến định tính cĩ hai lớp như: Biến định tính Lớp 1 Lớp 2 Giới tính Nữ Nam Vùng Thành thị Nơng thơn Tơn giáo Cĩ Khơng Tốt nghiệp đại học Đã Chưa Bảng 4.1. Biến nhị phân Người ta thường gán giá trị 1 cho một lớp và giá trị 0 cho lớp cịn lại. Ví dụ ta ký hiệu S là giới tính với S =1 nếu là nữ và S = 0 nếu là nam. Các biến định tính được gán giá trị 0 và 1 như trên được gọi là biến giả(dummy variable), biến nhị phân, biến phân loại hay biến định tính. 4.7.1 Hồi quy với một biến định lượng và một biến phân loại Ví dụ 4.1. Ở ví dụ này chúng ta hồi quy tiêu dùng cho gạo theo quy mơ hộ cĩ xem xét hộ đĩ ở thành thị hay nơng thơn. Mơ hình kinh tế lượng như sau: Yi = b1 + b2X i+ b3Di + ei(4.19)Y: Chi tiêu cho gạo, ngàn đồng/năm X : Quy mơ hộ gia đình, người D: Biến phân loại, D = 1 nếu hộ ở thành thị, bằng D = 0 nếu hộ ở nơng thơn. Chúng ta muốn xem xét xem cĩ sự khác biệt trong tiêu dùng gạo giữa thành thị và nơng thơn hay khơng ứng với một quy mơ hộ gia đình Xi xác định. Đối với hộ ở nơng thơn (4.20) Đối với hộ ở thành thị (4.21) Vậy sự chênh lệch trong tiêu dùng gạo giữa thành thị và nơng thơn như sau (4.22) Sự khác biệt trong tiêu dùng gạo giữa thành thị và nơng thơn chỉ cĩ ý nghĩa thống kê khi b3 khác khơng cĩ ý nghĩa thống kê. Chúng ta đã cĩ phương trình hồi quy như sau Y = 187 + 508*X - 557*D (4.23) t-stat [0,5] [6,4] [-2,2] R2 hiệu chỉnh = 0,61 Hệ số hồi quy khác khơng với độ tin cậy 95%. Vậy chúng ta khơng thể bác bỏ được sự khác biệt trong tiêu dùng gạo giữa thành thị và nơng thơn. Chúng ta sẽ thấy tác động của làm cho tung độ gốc của phuơng trình hồi quy của thành thị và nơng thơn sai biệt nhau một khoảng b3 = -557 ngàn đồng/năm. Cụ thể ứng với một quy mơ hộ gia đình thì hộ ở thành thị tiêu dùng gạo ít hơn hộ ở nơng thơn 557 ngàn đồng/năm.Chúng ta sẽ thấy điều này một cách trực quan qua đồ thị sau: Hình 4.1. Hồi quy với một biến định lượng và một biến phân loại. 4.7.2 Hồi quy với một biến định lượng và một biến phân loại cĩ nhiều hơn hai phân lớp Ví dụ 4.2. Giả sử chúng ta muốn ước lượng tiền lương được quyết định bởi số năm kinh nghiệm cơng tác và trình độ học vấn như thế nào. Gọi Y : Tiền lương X : Số năm kinh nghiệm D: Học vấn. Giả sử chúng ta phân loại học vấn như sau : chưa tốt nghiệp đại học, đại học và sau đại học. Phuơng án 1: Di = 0 nếu chưa tốt nghiệp đại học Di = 1 nếu tốt nghiệp đại học Di =2 nếu cĩ trình độ sau đại học Cách đặt biến này đưa ra giả định quá mạnh là phần đĩng gĩp của học vấn vào tiền lương của người cĩ trình độ sau đại học lớn gấp hai lần đĩng gĩp của học vấn đối với người cĩ trình độ đại học. Mục tiêu của chúng ta khi đưa ra biến D chỉ là phân loại nên ta khơng chọn phương án này. Phương án 2: Đặt bộ biến giả D1iD2iHọc vấn 00Chưa đại học 10Đại học 01Sau đại học Mơ hình hồi quy Yi = b1 + b2X + b3D1i + b4D2i + ei(4.24)
Khai triển của mơ hình (4.24) như sau Đối với người chưa tốt nghiệp đại học E(Yi )= b1 + b2X (4.25) Đối với người cĩ trình độ đại học E(Yi )= (b1 + b3)+ b2X3(4.26) Đối với người cĩ trình độ sau đại học E(Yi )= (b1 + b3+ b4 )+ b2X (4.27) 4.7.3 Cái bẩy của biến giả Số lớp của biến phân loạiSố biến giả Trong ví dụ 4.1. 21 Trong ví dụ 4.232 Điều gì xảy ra nếu chúng ta xây dựng số biến giả đúng bằng số phân lớp? Ví dụ 4.3. Xét lại ví dụ 4.1. Giả sử chúng ta đặt biến giả như sau D1iD2iVùng 10Thành thị 01Nơng thơn Mơ hình hồi quy là Yi = b1 + b2X i+ b3D1i + b4D2i +ei(4.28) Chúng ta hãy xem kết quả hồi quy bằng Excel Coefficients Standard Error t Stat P-value Intercept 2235,533 0 65535 #NUM! X 508,1297 80,36980143 6,322396 1,08E-06 D1 -2605,52 0 65535 #NUM! D2 -2048 0 65535 #NUM! Kết quả hồi quy rất bất thường và hồn tồn khơng cĩ ý nghĩa kinh tế. Lý do là cĩ sự đa cộng tuyến hồn hảo giữa D1, D2 và một biến hằng X2 =-1. D1i + D2i + X2 = 0 . Hiện tượng đa cộng tuyến hồn hảo này làm cho hệ phương trình chuẩn khơng cĩ lời giải. Thực tế sai số chuẩn tiến đến vơ cùng chứ khơng phải tiến đến 0 như kết quả tính tốn của Excel. Hiện tượng này được gọi là cái bẩy của biến giả. Quy tắc: Nếu một biến phân loại cĩ k lớp thì chỉ sử dụng (k-1) biến giả. 4.7.4 Hồi quy với nhiều biến phân loại Ví dụ 4.4. Tiếp tục ví dụ 4.2. Chúng ta muốn khảo sát thêm cĩ sự phân biệt đối xử trong mức lương giữa nam và nữ hay khơng. Đặt thêm biến và đặt lại tên biến GTi: Giới tính, 0 cho nữ và 1 cho nam. TL : Tiền lương KN: Số năm kinh nghiệm làm việc ĐH: Bằng 1 nếu tốt nghiệp đại học và 0 cho chưa tốt nghiệp đại học SĐH: Bằng 1 nếu cĩ trình độ sau đại học và 0 cho chưa. Mơ hình hồi quy TLi = b1 + b2KNi + b3ĐHi + b4SĐHi +b5GTi+ ei(4.29) Chúng ta xét tiền lương của nữ cĩ trình độ sau đại học E(TLi /SĐH=1∩GT=0)= (b1 + b4)+ b2KNi 4.7.5 Biến tương tác Xét lại ví dụ 4.1. Xét quan hệ giữa tiêu dùng gạo và quy mơ hộ gia đình.Để cho đơn giản trong trình bày chúng ta sử dụng hàm tốn như sau. Nơng thơn: Y = a1 + b1X Thành thị: Y = a2 + b2X D : Biến phân loại, bằng 1 nếu hộ ở thành thị và bằng 0 nếu hộ ở nơng thơn. Cĩ bốn trường hợp cĩ thể xảy ra như sau (1) a1=a2 và b1= b2, hay khơng cĩ sự khác biệt trong tiêu dùng gạo giữa thành thị và nơng thơn. Mơ hình : Y = a + b X Trong đĩ a1=a2 = a và b1= b2 = b. (2) a1≠a2 và b1= b2, hay cĩ sự khác biệt về tung độ gốc Mơ hình: Y = a + bX + cD Trong đĩ a1 = a, a2 = a + c và b1 = b2 = b.
(3) a1=a2 và b1≠ b2, hay cĩ sự khác biệt về độ dốc Mơ hình: Y = a + bX + c(DX) Trong đĩ DX = X nếu nếu D =1 và DX = 0 nếu D = 0 a1 = a2 = a , b1 = b và b2 = b + c. (4) a1≠a2 và b1≠ b2, hay cĩ sự khác biệt hồn tồn về cả tung độ gốc và độ dốc. Mơ hình: Y = a + bX + cD + d(DX) a1 = a , a2 = a + c, b1 = b và b2 = b + d. Quy mơ hộ, X a. Mơ hình đồng nhất a1=a2 b1 = b2 Tiêu dùng gạo, Y Tiêu dùng gạo, Y Quy mơ hộ, X b. Mơ hình song song a1 a2 b1 = b2 Quy mơ hộ, X d. Mơ hình phân biệt Tiêu dùng gạo, Y Tiêu dùng gạo, Y a1=a2 b1 b2 1 a2 a1 b1 b2 Quy mơ hộ, X c. Mơ hình đồng quy Hình 4.2. Các mơ hình hồi quy Biến DX được xây dựng như trên được gọi là biến tương tác. Tổng quát nếu Xp là một biến định lượng và Dq là một biến giả thì XpDq là một biến tương tác. Một mơ hình hồi quy tuyến tổng quát cĩ thể cĩ nhiều biến định lượng, nhiều biến định tính và một số biến tương tác.
5. CHƯƠNG 5 GIỚI THIỆU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN MƠ HÌNH HỒI QUY
5.1 Đa cộng tuyến 5.1.1 Bản chất của đa cộng tuyến Đa cộng tuyến hồn hảo: Các biến X1, X2, ,Xk được gọi là đa cộng tuyến hồn hảo nếu tồn tại l1, l2, ,lk khơng đồng thời bằng khơng sao cho l1X1 + l2X2 + + lkXk =0(5.1) Hiện tượng đa cộng tuyến hồn hảo thường xảy do nhầm lẫn của nhà kinh tế lượng như trường hợp cái bẩy của biến giả mà chúng ta đã xem xét ở mục 4.7.3 chương 4. Hiện tượng đa cộng tuyến mà chúng ta xét trong kinh tế lượng được hiểu với nghĩa rộng hơn đa cộng tuyến hồn hảo như điều kiện (5.1). Các biến X1, X2, ,Xk được gọi là đa cộng tuyến khơng hồn hảo nếu tồn tại l1, l2, ,lk sao cho l1X1 + l2X2 + + lkXk + e =0(5.2) với e là sai số ngẫu nhiên. Chúng ta cĩ thể biểu diễn biến Xi theo các biến cịn lại như sau với li ≠ 0.(5.3) Vậy hiện tượng đa cộng tuyến xảy ra khi một biến là sự kết hợp tuyến tính của các biến cịn lại và một nhiễu ngẫu nhiên. Một số nguyên nhân gây ra hiện tượng đa cộng tuyến (1) Khi chọn các biến độc lập mối quan cĩ quan hệ nhân quả hay cĩ tương quan cao vì đồng phụ thuộc vào một điều kiện khác. Ví dụ số giường bệnh và số bác sĩ nếu đồng thời là biến độc lập của một hồi quy thì sẽ gây ra hiện tượng đa cộng tuyến gần hồn hảo. (2) Khi số quan sát nhỏ hơn số biến độc lập. Một ví dụ điển hình là một nghiên cứu y khoa trên một số lượng nhỏ bệnh nhân nhưng lại khảo sát quá nhiều nhân tố tác động lên hiệu quả điều trị. (3) Cách thu thập mẫu. Ví dụ chỉ thu thập mẫu trên một số lớp giới hạn của tổng thể. (4) Chọn biến Xi cĩ độ biến thiên nhỏ. 5.1.2 Hệ quả của đa cộng tuyến Ví dụ 5.1[20]. Nghiên cứu của Klein và Golberger(1995) về quan hệ giữa tiêu dùng nội địa C, thu nhập từ lương W, thu nhập khác phi nơng nghiệp P và thu nhập từ nơng nghiệp A của nền kinh tế Hoa Kỳ từ năm 1928 đến 1950, với số liệu của các năm 1942 đến 1944 bị loại ra khỏi dữ liệu. Klein và Golberger thực hiện hồi quy tiêu dùng nội địa theo ba loại thu nhập như sau Ct = b1 + b2Wt + b3Pt + b4A + et(5.4) Hồi quy này cĩ thể gặp phải hiện tượng đa cộng tuyến vì các loại thu nhập cĩ xu hướng cùng tăng theo sự phát triển của nền kinh tế. Năm C W P A 1928 52,8 39,21 17,73 4,39 1929 62,2 42,31 20,29 4,60 1930 58,6 40,37 18,83 3,25 1931 56,6 39,15 17,44 2,61 1932 51,6 34,00 14,76 1,67 1933 51,1 33,59 13,39 2,44 1934 54 36,88 13,93 2,39 1935 57,2 39,27 14,67 5,00 1936 62,8 45,51 17,20 3,93 1937 65 46,06 17,15 5,48 1938 63,9 44,16 15,92 4,37 1939 67,5 47,68 17,59 4,51 1940 71,3 50,79 18,49 4,90 1941 76,6 57,78 19,18 6,37 1945 86,3 78,97 19,12 8,42 1946 95,7 73,54 19,76 9,27 1947 98,3 74,92 17,55 8,87 1948 100,3 74,01 19,17 9,30 1949 103,2 75,51 20,20 6,95 1950 108,9 80,97 22,12 7,15 Bảng 5.1. Số liệu thu nhập và tiêu dùng của nền kinh tế Hoa Kỳ Kết quả hồi quy như sau =8,133 +1,059W +0,452P +0,121A(5.5) t-Stat(0,91)(6,10)(0,69)(0,11) Khoảng 95%(-10,78;27,04)(0,69;1,73)(-0,94;1,84)(-2,18;2,43) R2 = 0,95F = 107,07 > F(3,16,99%) = 5,29. Mơ hình này cĩ tính giải thích cao thể hiện qua R2 rất cao và thống kê F cao. Tuy nhiên một số hệ số lại khơng khác khơng với ý nghĩa thống kê thể hiện qua t-stat thấp, nghĩa là ước lượng khoảng cho các hệ số chứa 0. W với hệ số cĩ t-stat lớn thì ý nghĩa kinh tế lại rất lạ: nếu thu nhập từ
lương tăng 1 USD thì tiêu dùng tăng 1,059 USD. Để tìm hiểu lý do gây ra hiện tượng trên chúng ta phải dùng lý thuyết của đại số ma trận, ở đây chỉ minh hoạ bằng mơ hình hồi quy ba biến. Phương sai của ước lượng hệ số b2 là Khi X2 và X3 cĩ hiện tượng cộng tuyến thì cao làm cho phương sai của ước lượng b2 cao. Ước lượng b2 theo phương pháp bình phương tối thiểu trở nên khơng hiệu quả. Hệ quả của đa cộng tuyến (1) Ước lượng các hệ số khơng hiệu quả do phương sai của ước lượng lớn. Mơ hình cĩ đa cộng tuyến cĩ t-stat nhỏ và một số hệ số của thể cĩ dấu trái với lý thuyết hay cĩ giá trị khơng phù hợp. R2 thể hiện độ phù hợp của dữ liệu và F thể hiện ý nghĩa chung của các hệ số cĩ thể rất cao. (2) Giá trị ước lượng của các hệ số rất nhạy cảm đối với việc tăng hoặc bớt một hoặc quan sát hoặc loại bỏ biến cĩ mức ý nghĩa thấp. (3) Mặc dù việc phân tích tác động riêng phần của một biến khĩ khăn nhưng tính chính xác của dự báo cĩ thể vẫn cao khi bản chất của đa cộng tuyến vẫn khơng đổi đối với quan sát mới. 5.1.3 Biện pháp khắc phục Nếu mục tiêu của phân tích hồi quy là dự báo thì trong một số trường hợp chúng ta khơng cần khắc phục hiện tượng đa cộng tuyến. Nếu mục tiêu của phân tích là xét tác động riêng phần của từng biến số lên biến phụ thuộc để quyết định chính sách thì đa cộng tuyến trở thành một vấn đề nghiêm trọng. Sau đây là một số biện pháp khắc phục. (1) Dùng thơng tin tiên nghiệm. Ví dụ khi hồi quy hàm sản xuất Cobb-Douglas Ln(Yi)=b1 + b2ln(Ki)+ b3ln(Li) + ei (5.6) Chúng ta cĩ thể gặp hiện tượng đa cộng tuyến do K và L cùng tăng theo quy mơ sản xuất. Nếu ta biết là hiệu suất khơng đổi theo quy mơ thì ta cĩ thêm thơng tin b2+b3=1. Với thơng tin tiên nghiệm này chúng ta chuyển mơ hình hồi quy (5.6) thành Ln(Yi)=b1 + b2ln(Ki)+ (1-b2)ln(Li) + ei (5.7) (2) Bỏ đi một biến cĩ đa cộng tuyến. Đây là cách làm đơn giản nhất. Ví dụ trong mơ hình cĩ biến giải thích là số bác sĩ và số giường bệnh thì ta cĩ thể bỏ đi biến số giường bệnh. Nếu biến bị bỏ đi thực sự cần phải cĩ trong mơ hình thì chúng ta lại gặp phải một vấn đề khác, đĩ là ước lượng chệch đối với các hệ số cịn lại. Vấn đề này chúng ta sẽ tiếp tục xem xét ở cuối chương. (3) Chuyển dạng dữ liệu Giả sử chúng ta hồi quy trên dữ liệu chuỗi thời gian Yt = b1 + b2X2t + b3X3t + et(5.8) Và chúng ta gặp phải hiện tượng đa cộng tuyến do X1t và X3t cĩ thể cùng tăng hoặc giảm theo từng năm. Ta cĩ thể tối thiểu tác động đa cộng tuyến này bằng kỹ thuật hồi quy trên sai phân bậc nhất như sau: Ta cĩ Yt-1 = b1 + b2X2,t-1 + b3X3,t-1 + et-1(5.9) Từ (5.8) và (5.9) ta xây dựng mơ hình hồi quy (Yt -Yt-1 )= b2(X2t-X2,t-1) + b3(X3t- 3X3,t-1 )+ nt(5.10) Với nt= et-et-1. Một vấn đề mới nảy sinh là nt cĩ thể cĩ tính tương quan chuỗi, và như thế khơng tuân theo giả định của mơ hình hồi quy tuyến tính cổ điển. Nếu hiện tượng tương quan chuỗi là nghiêm trọng thì mơ hình (5.10) cịn kém hơn cả mơ hình (5.8). (4) Tăng thêm quan sát. Giải pháp này thích hợp cho hiện tượng đa cộng tuyến do cỡ mẫu nhỏ. Đơi khi chỉ cần tăng thêm một số quan sát là ta khắc phục được hiện tượng đa cộng tuyến. Một lần nữa chúng ta lại cĩ sự đánh đổi. Tăng dữ liệu đơi khi đồng nghĩa với việc tăng chi phí, nhất là đối với dữ liệu sơ cấp. Mặt khác nếu là dữ liệu khơng cĩ kiểm sốt, chúng ta phải biết chắc rằng các điều kiện khác tương tự với khi ta thu thập dữ liệu gốc. Khắc phục hiện tượng đa cộng tuyến địi hỏi các kỹ thuật phức tạp và đơi khi cũng khơng mang lại hiệu quả như ta mong muốn. Mặt khác, hầu hết các mơ hình hồi quy bội đều cĩ tính cộng tuyến nhất định nên chúng ta phải cẩn thận trong việc xây dựng mơ hình và giải thích kết quả. Chúng ta sẽ nghiên cứu nguyên tắc xây dựng mơ hình ở cuối chương.
5.2 Phương sai của sai số thay đổi - HETEROSKEDASTICITY 5.2.1 Bản chất của phương sai của sai số thay đổi Giả định của mơ hình hồi quy tuyến tính cổ điển là phương sai của sai số hồi quy khơng đổi qua các quan sát. Trong thực tế sai số hồi quy cĩ thể tăng lên hoặc giảm đi khi giá trị biến độc lập X tăng lên. Tổng quát, thay cho giả định chúng ta giả định (5.11) Thường gặp phương sai khơng đồng nhất ở dữ liệu chéo và dữ liệu bảng. Nguyên nhân phương sai khơng đồng nhất rất đa dạng, sau đây là một số trường hợp điển hình: (1) Gọi Y là số phế phẩm trong 100 sản phẩm của một thợ học việc, X là số giờ thực hành. Khi số giờ thực hành càng lớn thì số phế phẩm càng nhỏ và càng ít biến động. Chúng ta cĩ trường hợp phương sai giảm dần khi X tăng dần. (2) Khi thu nhập(X) tăng thì chi tiêu cho các mặt hàng xa xỉ tăng và mức biến động càng lớn. Chúng ta cĩ trường hợp phương sai tăng dần khi X tăng dần. (3) Khi cải thiện phương pháp thu thập số liệu thì phương sai giảm. (4) Phương sai của sai số tăng do sự xuất hiện của điểm nằm ngồi, đĩ là các trường hợp bất thường với dữ liệu rất khác biệt(rất lớn hoặc rất nhỏ so với các quan sát khác). (5) Phương sai thay đổi khi khơng xác đúng dạng mơ hình, nếu một biến quan trọng bị bỏ sĩt thì phương sai của sai số lớn và thay đổi. Tình trạng này giảm hẳn khi đưa biến bị bỏ sĩt vào mơ hình. 5.2.2 Hệ quả của phương sai thay đổi khi sử dụng ước lượng OLS Xét hồi quy Yi = b1 + b2X i+ ei(5.12) với Sử dụng phương pháp bình phương tối thiểu thơng thường (OLS) chúng ta cĩ (5.13) vậy ước lượng theo OLS khơng chệch. Chúng ta khơng chưa rõ là OLS cĩ cho ước lượng hiệu quả hay khơng. Ước lượng bình phương tối thiểu cĩ trọng số (WLS) Đặt , chia hai vế của (5,12) cho wi chúng ta cĩ mơ hình hồi quy (5.14) Ta viết lại mơ hình (5.13) như sau (5.15) Mơ hình (5.14) khơng cĩ tung độ gốc và phương sai đồng nhất. Vậy ước lượng hệ số của (5.15) theo OLS là ước lượng hiệu quả(BLUE). Kết quả ước lượng b2 của (5.15) theo OLS như sau (5.16) Ước lượng (5.16) hồn tồn khác với (5.13). Chúng ta biết ước lượng theo WLS (5.16) là ước lượng hiệu quả vậy ước lượng theo OLS (5.13) là khơng hiệu quả. Phương sai đúng của hệ số ước lượng b2 là nhưng các phần mềm máy tính báo cáo phương sai là . Từ phương sai của sai số bị tính sai này các trị thống kê t-stat và sai số chuẩn của hệ số ước lượng phần mềm cung cấp là vơ dụng. Tĩm lại, với sự hiện diện của phương sai của sai số thay đổi mặc dù ước lượng các hệ số theo OLS vẫn khơng chệch nhưng ước lượng khơng hiệu quả và các trị thống kê như t-stat khơng chính xác. 5.2.3 Phát hiện và khắc phục Phát hiện phương sai của sai số thay đổi. Phương pháp đồ thị. Xét đồ thị của phần dư theo giá trị Y và X. Hình 5.1. Đồ thị phân tán phần dư ei theo . Hình 5.2. Đồ thị phân tán phần dư ei theo Xi Theo các đồ thị trên thì khi giá trị dự báo Y tăng (hoặc khi X tăng) thì phần dư cĩ xu hướng tăng, hay mơ hình cĩ phương sai của sai số thay đổi. Các phép thử chính thức Xét hồi quy bội (5.17) Trong (k-1) biến độc lập trên ta trích ra (p-1) biến làm biến độc lập cho một hồi quy phụ. Trong hồi quy phụ này phần dư từ hồi quy mơ hình(5.17) làm hồi quy biến phụ thuộc. Các dạng hồi quy phụ thường sử dụng là (5.18) (5.19) (5.20) Kiểm định Breusch-Pagan căn cứ vào hồi quy phụ (5.18), kiểm định Glejser căn cứ vào (5.19) và kiểm định Harvey-Godfrey căn cứ vào (5.20).
Giả thiết khơng là khơng cĩ phương sai khơng đồng nhất H0 : a2 = a3 = = ap = 0 H1 : Khơng phải tất cả các hệ số trên đều bằng 0. R2 xác định từ hồi quy phụ, n là cỡ mẫu dùng để xây dựng hồi quy phụ, với cỡ mẫu lớn thì nR2 tuân theo phân phối Chi bình phương với (p-1) bậc tự do. Quy tắc quyết định Nếu thì bác bỏ H0. Nếu bác bỏ được H0 thì chúng ta chấp nhận mơ hình cĩ phương sai của sai số thay đổi và thực hiện kỹ thuật ước lượng mơ hình như sau: Đối với kiểm định Breusch-Pagan Đối với kiểm định Glejser Đối với kiểm định Harvey-Godfrey Ta cĩ. Đến đây chúng ta cĩ thể chuyển dạng hồi quy theo OLS thơng thường sang hồi quy theo bình phương tối thiểu cĩ trọng số WLS.
5.3 Tự tương quan (tương quan chuỗi) Trong mơ hình hồi quy tuyến tính cổ điển chúng ta giả định khơng cĩ tương quan giữa các phần dư hay E(eiej) = 0 với mọi i, j. Trong thực tế đối với dữ liệu chuỗi thời gian, giả định này hay bị vi phạm. Một lý do nơm na là biến số kinh tế cĩ một quán tính(sức ỳ) nhất định. Ví dụ sự tăng cầu một loại hàng hĩa của năm nay sẽ làm tăng lượng cung nội địa của hàng hố đĩ vào năm sau, đây là tác động trễ của biến độc lập hay biến phụ thuộc thời kỳ t chịu tác động của biến độc lập ở thời kỳ t-1. Đơi khi nền kinh tế lại phản ứng quá nhạy với sự thay đổi. Ví dụ giá mía cao ở năm nay sẽ làm cho nơng dân đổ xơ trồng mía, sản lượng mía năm sau tăng vọt làm giảm giá mía ở năm sau, đây là tác động trễ của biến phụ thuộc hay giá trị biến phụ thuộc thời kỳ t chịu ảnh hưởng của giá trị biến phụ thuộc thời kỳ t-1. Hiện tượng tự tương quan làm cho E(eiej) ≠ 0 và gây ra các hậu quả sau (1) Ước lượng theo OLS khơng chệch nhưng khơng hiệu quả (2) Các trị thống kê tính theo OLS khơng hữu ích trong việc nhận định mơ hình. Chúng ta cĩ thể phát hiện hiện tượng tự tương quan bằng cách quan sát đồ thị phần dư của mơ hình trên dữ liệu chuỗi thời gian. Hình 5.3. Tương quan chuỗi nghịch Hình 5.4. Tương quan chuỗi thuận Chúng ta sẽ tiếp tục làm việc với dữ liệu chuỗi và xử lý hiện tượng tự tương quan ở phần sau của giáo trình liên quan đến các mơ hình dự báo.
5.4 Lựa chọn mơ hình Một yếu tố quan trọng đầu tiên để chọn đúng mơ hình hồi quy là chọn đúng dạng hàm. Để chọn đúng dạng hàm chúng ta phải hiểu ý nghĩa và mối quan hệ kinh tế của các biến số. Ý nghĩa của một số loại hàm thơng dụng đã được trình bày ở mục 3.8.2 chương 3. Ở phần này chúng ta xét hậu quả của một số dạng xây dựng mơ hình sai và chiến lược xây dựng mơ hình kinh tế lượng. Chúng ta cũng khơng đi sâu vào chứng minh các kết quả. 5.4.1 Thiếu biến cĩ liên quan và chứa biến khơng liên quan. Xét hai hồi quy sau (5.21) và (5.22) Mơ hình (5.21) cĩ các trị thơng kê tương ứng cĩ ký hiệu R và mơ hình (5.22) cĩ các trị thống kê tương ứng cĩ ký hiệu U. Cĩ hai trường hợp xảy ra: Ø Trường hợp 1: Nếu mơ hình (5.22) là đúng nhưng chúng ta chọn mơ hình (5.21) nghĩa là chúng ta bỏ sĩt L biến quan trọng (X K+1, XK+L). Hậu quả là ước lượng các hệ số cho K-1 biến độc lập cịn lại bị chệch, mơ hình kém tính giải thích cho cả mục tiêu dự báo vào phân tích chính sách. Ø Trường hợp 2: Nếu mơ hình (5.21) là đúng nhưng chúng ta chọn mơ hình (5.22), nghĩa là chúng ta đưa vào mơ hình các biến khơng liên quan. Hậu quả là ước lượng hệ số cho các biến quan trọng vẫn khơng chệch nhưng khơng hiệu quả. 5.4.2 Kiểm định so sánh mơ hình (5.21) và (5.22) - Kiểm định Wald Chúng ta muốn kiểm định xem L biến (XK+1, XK+L) cĩ đáng được đưa vào mơ hình hay khơng. H0: Trị thống kê Quy tắc quyết dịnh: Nếu thì ta bác bỏ H0 hay chấp nhận L biến (XK+1, XK+L) xứng đáng được đưa vào mơ hình. 5.4.3 Hai chiến lược xây dựng mơ hình Cĩ hai chiến lược xây dựng mơ hình kinh tế lượng là: Ø Xây dựng mơ hình từ đơn giản đến tổng quát: chứa tất cả các biến cĩ liên quan trong mơ hình và loại bỏ dần những biến ít ý nghĩa thống kê nhất cho đến khi nhận được mơ hình “tốt nhất”. Ø Xây dựng mơ hình tổng quát đến đơn giản : Xuất phát từ biến độc lập cĩ quan hệ kinh tế trực tiếp nhất với biến phụ thuộc, tiếp tục bổ sung biến mới cho đến khi nhận được mơ hình “tốt nhất”. Mỗi cách làm đều cĩ những ưu và nhược điểm. Hiện nay với cơng cụ máy vi tính, người ta khơng cịn ngại tính tốn trên mơ hình lớn và nhiều nhà kinh tế lượng cho rằng xây dựng mơ hình từ tổng quát đến đơn giản thì hiệu quả hơn từ đơn giản đến tổng quát. Nét chung của cả hai chiến lược này là ở từng bước đều phải thực hiện kiểm định Wald.
6. CHƯƠNG 6 DỰ BÁO VỚI MƠ HÌNH HỒI QUY (Đọc thêm) PHÂN LOẠI CÁC PHƯƠNG PHÁP DỰ BÁO Cĩ hai nhĩm phương pháp dự báo chính là nhĩm định tính và nhĩm định lượng. Trong giáo trình này chúng ta chủ yếu sử dụng phương pháp định lượng cĩ kết hợp với các phán đốn định tính để dự báo. Các phương pháp dự báo định tính Các phương pháp dự báo định tính dựa vào phán đốn chủ quan và trực giác để đưa ra dự báo thay cho vì dựa vào các số liệu quá khứ. Phương pháp dự báo định tính hữu ích cho việc dự báo tồn cục và một số trường hợp mà số liệu quá khứ khơng hữu ích cho dự báo. Các phương pháp dự báo định lượng Các kỹ thuật dự báo định lượng dựa vào việc phân tích số liệu quá khứ để đưa ra dự báo. Giả định của phương pháp này là các nhân tố từng tác động lên biến được dự báo trong quá khứ vẫn tiếp tục ảnh hưởng đến biến này trong tương lai. Vậy dựa vào diễn biến dữ liệu trong quá khứ ta cĩ thể dự báo cho tương lai. Các phương pháp dự báo định lượng lại được chia thành hai nhĩm chính: dự báo định lượng mang tính nhân quả và dự báo định lượng mang tính thống kê. Các phương pháp dự báo định lượng mang tính nhân quả Đại diện của nhĩm phương pháp này là phân tích hồi quy. Mơ hình dự báo cĩ hai nhĩm biến số: các biến số được dự báo được gọi là biến độc lập, các biến số dùng để dự báo được gọi là biến phụ thuộc. Chúng ta đã nghiên cứu mơ hình hồi quy ở phần 1, nay chúng ta tiếp tục nghiên cứu việc áp dụng mơ hình hồi quy cho dự báo và một số kỹ thuật phân tích hồi quy với dữ liệu chuỗi thời gian. Các phương pháp dự báo định lượng mang tính thống kê Nhĩm các phương pháp dự báo mang tính thống kê chỉ quan tâm đến quy luật biến thiên của biến cần dự báo trong quá khứ để dưa ra dự báo. Biến thiên của một biến số kinh tế được chia thành các thành phần: xu hướng, chu kỳ, thời vụ và ngẫu nhiên. Nhĩm các phương pháp dự báo mang tính thống kê lại chia thành hai nhĩm chính. - Nhĩm thứ nhất phân tích một thành phần hoặc kết hợp một số thành phần riêng biệt nêu trên như: đường xu hướng, san bằng số mũ, trung bình động. - Nhĩm thứ hai sử dụng các khái niệm thống kê về dữ liệu chuỗi thời gian mà khơng chia biến động của dữ liệu thành các thành phần riêng biệt như ở phương pháp luận Box-Jenkins.
6.1 Dự báo với mơ hình hồi quy thơng thường Mơ hình hồi quy (6.1) Chỉ số t chỉ thời kỳ thứ t. Giả sử mơ hình này thoả mãn các điều kiện của phương pháp ước lượng theo bình phương tối thiểu. Các tham số ước lượng từ mơ hình tương ứng là . Ước đốn tốt nhất cho Yt+1 khi biết các Xi,t+1 là: (6.2) Độ lệch chuẩn của ước lượng là Đối với hồi quy hai biến (6.3) Đối với hồi quy bội: cơng thức rất phức tạp và nằm ngồi phạm vi giáo trình này.
6.2 Tính chất “trễ” của dữ liệu chuỗi thời gian và hệ quả của nĩ đến mơ hình Khi chúng ta sử dụng mơ hình (6.1) chúng ta giả định rằng các biến độc lập tác động tức thì lên biến phụ thuộc và biến phụ thuộc chỉ chịu tác động của biến độc lập. Đối với các biến số kinh tế các giả định này thường khơng đúng. Tác động của biến độc lập cĩ thành phần tác động tức thời và cĩ thành phần tác động trễ. Mặt khác, đơi khi bản thân biến phụ thuộc cũng cĩ “quán tính” hay “sức ỳ” của nĩ. Cĩ ba nguyên nhân gây ra “độ trễ” hay “sức ỳ” trong kinh tế là (1) Nguyên nhân tâm lý Khi thu nhập của một người giảm tiêu dùng của người đĩ cĩ thể khơng giảm ngay lập tức do thĩi quen duy trì mức sống cao. Nếu tình hình thu nhập vẫn khơng phục hồi trong thời gian dài, anh ta phải học cách chi tiêu tiết kiệm hơn. (2) Nguyên nhân kỹ thuật Giả sử cầu nội địa đối với một mặt hàng tăng lên làm giá một mặt hàng này tăng. Sản lượng nội địa cĩ thể khơng tăng tức thời vì để tăng sản lượng cần phải cĩ thời gian xây dựng nhà máy, đầu tư máy mĩc thiết bị và đào tạo cơng nhân. Doanh nghiệp cịn phải phân tích xem sự tăng cầu nội địa này cĩ mang tính chất lâu dài hay chỉ là tức thời. (3) Nguyên nhân định chế Các ràng buộc pháp lý là nguyên nhân của một số hiện tượng tác động trễ. Ví dụ nếu hợp đồng tài trợ Giải bĩng đá chuyên nghiệp Việt Nam đã được ký kết cĩ hiệu lực 2 năm thì Liên đồn Bĩng đá Việt Nam khơng thể huỷ hợp đồng để ký lại với một đối tác khác cĩ số tiền tài trợ cao hơn. Giả sử số tiền tài trợ phụ thuộc tầm ảnh hưởng của giải đấu lên cơng chúng thể hiện qua số lượt khán giả đến sân và số lượt khán giả theo dõi qua truyền hình. Số khán giả đến sân tăng lên chỉ cĩ thể tác động làm tăng số tiền tài trợ của lần ký kết ở 2 năm sau. Khi cĩ tính chất “trễ” nêu trên của dữ liệu chuỗi thời gian, mơ hình (6.1) cĩ sai số hồi quy khơng thỏa mãn các điều kiện của mơ hình hồi quy tuyến tính cổ điển.(Tại sao?). Từ đĩ dự báo theo (6.2) sẽ khơng chính xác.
6.3 Mơ hình tự hồi quy (6.4) Mơ hình (6.4) cịn được gọi là mơ hình động vì nĩ thể hiện mối liên hệ giữa giá trị của biến phụ thuộc với giá trị quá khứ của nĩ.
6.4 Mơ hình cĩ độ trễ phân phối (6.5) Trong mơ hình này k được gọi là độ trễ. Chúng ta phải xác định độ trễ k. 6.4.1 Cách tiếp cận của Alt và Tinberger[21]: Vì Xt là xác định và khơng tương quan với et nên Xt-1,Xt-2, , Xt-k đều xác định và khơng tương quan với et. Do đĩ chúng ta cĩ thể áp dụng OLS để ước lượng tham số cho mơ hình (6.5). Chúng ta sẽ xác định k bằng cách tăng dần độ trễ như sau: (1) Hồi quy Yt theo Xt (2) Hồi quy Yt theo Xt và Xt-1 (k) Hồi quy Yt theo Xt, Xt-1, , Xt-k (k+1) Hồi quy Yt theo Xt, Xt-1, , Xt-(k+1) Quá trình này dừng ở độ trễ (k+1) hoặc (k+2) khi chúng ta nhận thấy các hệ số ứng với các biến trễ khơng cĩ ý nghĩa thống kê hoặc đổi dấu. Quá trình trên vướng phải bốn nhược điểm như sau: (1) Khơng cĩ tiên liệu trước là độ trễ sẽ là bao nhiêu. (2) Mơ hình cĩ thêm một độ trễ thì mất đi một bậc tự do, nếu dữ liệu chuỗi thời gian khơng đủ dài thì ý nghĩa thống kê của mơ hình ngày càng kém. (3) Các biến giải thích thực chất là giá trị của một biến X theo thời gian, điều này gây ra sự tương quan giữa các biến giải thích trong mơ hình, tức là cĩ hiện tượng đa cộng tuyến. Ước lượng các tham số của mơ hình trong trường hợp cĩ đa cộng tuyến sẽ cho kết quả kém chính xác. (4) Việc xác định độ trễ k của mơ hình (6.5) theo cách thức trên là một dạng của “đào mỏ dữ liệu”. 6.4.2 Mơ hình Koyck Giả định: (1) Tất cả các hệ số ứng với biến trễ cĩ cùng dấu (2) Các hệ số tuân theo cấp số nhân giảm dần: với 0 < l < 1. Chúng ta viết lại mơ hình (6.5) như sau (6.6) Tương tự (6.7) Nhân (6.7) với l (6.8) Lấy (6.6) trừ (6.7) (6.9) Kết quả cuối cùng (6.10) Với , cịn được gọi là trung bình trượt của et và et-1. Mơ hình (6.10) được gọi là mơ hình chuyển dạng Koyck. Chúng ta đã chuyển mơ hình trễ phân phối thành mơ hình tự hồi quy. 6.4.3 Mơ hình kỳ vọng thích nghi Giả sử mơ hình xác định cầu tiền cĩ dạng như sau[22] (6.11) Y : Cầu tiền X*: Giá trị kỳ vọng[23] của lãi suất danh nghĩa e: Sai số hồi quy Lãi suất kỳ vọng của năm nay(năm t) khơng thể quan sát được một cách trực tiếp mà được xác định như sau với 0 < l ≤ 1. Biểu thức này hàm ý kỳ vọng của người ta thay đổi(thích hợp) theo lãi suất thực tế, hay nĩi cách khác người ta học hỏi từ sai lầm. (6.12) Thay (6.12) vào (6.11) Qua một số phép biến đổi tương tự như mơ hình Koyck ta cĩ (6.13) Với 6.4.4 Mơ hình hiệu chỉnh từng phần Mơ hình hiệu chỉnh từng phần phù hợp với phân tích hồi quy cĩ độ trễ do lý do kỹ thuật và định chế. Giả sử mức đầu tư tư bản tối ưu ứng với một mức sản lượng X cho trước là Y*. Mơ hình hồi quy đơn giản Y* theo X như sau:
(6.14) Thực tế chúng ta khơng trực tiếp quan sát được . Giả định được xác định như sau: với 0 < d ≤ 1. (6.15) Trong đĩ : Thay đổi lượng tư bản thực tế, cũng chính là đầu tư trong kỳ : Thay đổi lượng tư bản mong muốn Từ (6.14) và(6.15) sau một vài phép biến đổi chúng ta nhận được (6.17) Một lần nữa chúng ta lại nhận được mơ hình tự hồi quy.
6.5 Ước lượng mơ hình tự hồi quy Trong cả ba mơ hình vừa xét, chúng ta đều nhận được mơ hình cuối cùng cĩ dạng tự hồi quy. Koyck: (6.18) Kỳ vọng thích nghi (6.19) Hiệu chỉnh từng phần (6.20) Dạng chung của ba mơ hình này là (6.21) Cĩ hai vấn đề cần lưu tâm đối với mơ hình (6.21): (1) Thứ nhất, cĩ sự hiện diện của biến ngẫu nhiên trong các biến độc lập, đĩ là Yt-1. Điều này vi phạm điều kiện của mơ hình hồi quy tuyến tính cổ điển. (2) Thứ hai, cĩ khả năng xảy ra hiện tượng tương quan chuỗi. Để tránh các hệ quả bất lợi do Yt-1 gây ra người ta sử dụng một biến thay thế cho Yt-1 với đặc tính biến này tương quan mạnh với Yt-1 nhưng khơng tương quan với Xt. Biến độc lập cĩ đặc tính vừa kể được gọi là biến cơng cụ[24].
6.6 Phát hiện tự tương quan trong mơ hình tự hồi quy Trị thống kê h (6.22) Trong đĩ: n = cỡ mẫu; = phương sai hệ số ước lượng của Yt-1. là hệ số tự tương quan mẫu bậc nhất được xác định từ cơng thức (6.23) h cĩ phân phối chuẩn hố tiệm cận. Từ phân phối chuẩn hố chúng ta cĩ P(-1,96 1,96, chúng ta bác bỏ H0 cho rằng mơ hình khơng cĩ tự tương quan bậc 1 thuận. Ư Nếu -1,96 < h < 1,96: chúng ta khơng thể bác bỏ H0 cho rằng khơng cĩ tự tương quan bậc nhất.
7. CHƯƠNG 7 CÁC MƠ HÌNH DỰ BÁO MANG TÍNH THỐNG KÊ (Tham khảo)
7.1 Các thành phần của dữ liệu chuỗi thời gian Các thành phần chính của dữ liệu chuỗi thời gian là a. Xu hướng b. Chu kỳ c. Thời vụ d. Ngẫu nhiên 7.1.1 Xu hướng dài hạn Xu hướng dài hạn thể hiện sự tăng trưởng hoặc giảm sút của một biến số theo thời gian với khoảng thời gian đủ dài. Một số biến số kinh tế cĩ xu hướng tăng giảm dài hạn như e. Tốc độ tăng dân số của Việt Nam cĩ xu hướng giảm. f. Tỷ trọng nơng nghiệp trong GDP của Việt Nam cĩ xu hướng giảm. g. Mức giá cĩ xu hướng tăng. 7.1.2 Chu kỳ Các số liệu kinh tế vĩ mơ thường cĩ sự tăng giảm cĩ quy luật theo chu kỳ kinh tế. Sau một thời kỳ suy thối kinh tế sẽ là thời kỳ phục hồi và bùng nổ kinh tế, kế tiếp tăng trưởng kinh tế sẽ chựng lại và khỏi đầu cho một cuộc suy thối mới. Tuỳ theo nền kinh tế mà chu kỳ kinh tế cĩ thời hạn là 5 năm, 7 năm hay 10 năm. 7.1.3 Thời vụ Biến động thời vụ của biến số kinh tế là sự thay đổi lặp đi lặp lại từ năm này sang năm khác theo mùa vụ. Biến động thời vụ xảy ra do khí hậu, ngày lễ, phong tục tập quán Biến động thời vụ cĩ tính ngắn hạn với chu kỳ lặp lại thường là 1 năm. 7.1.4 Ngẫu nhiên Những dao động khơng thuộc ba loại trên được xếp vào dao động ngẫu nhiên. Các nguyên nhân gây ra biến động ngẫu nhiên cĩ thể là thời tiết bất thường, chiến tranh, khủng hoảng năng lượng, biến động chính trị Xu hướng dài hạn Tính thời vụ Hình 7.1. Xu hướng và thời vụ[25] Bất thường (Ngẫu nhiên) Chu kỳ 10 năm Hình 7.2. Chu kỳ và ngẫu nhiên-Tăng trưởng kinh tế của Hoa Kỳ giai đoạn 1961-1999. Nguồn : World Development Indicator CD-Rom 2000, World Bank.