Bài giảng Kinh tế lượng - Chương 2: Giới thiệu hàm hồi quy

Tổng thể: là tập hợp tất cả những cá thể hay những nhân tố có cùng 1 hoặc vài đặc tính chung. Ví dụ: tập hợp tất cả những người Việt nam đang theo học các trường Trung cấp, cao đẳng và ñại học là tổng thể của sinh viên Việt nam l Mẫu: là tập hợp con của tổng thể hay nói cách khác mẫu là những phần tử được rút ra từ tổng thể. Ví dụ: những sinh viên của Trường đại học Mở thành phố Hồ Chí Minh là 1 mẫu của tổng thể sinh viên Việt nam. l Phân tích hồi qui: quan tâm mối liên hệ của biến phụ thuộc với 1 hay nhiều biến giải thích (biến độc lập) qua việc ước lượng hay dự đoán giá trị trung bình của tổng thể. Hay nói cách khác: kết quả phân tích hồi qui có thể ñược dùng để ước lượng hay dự ñoán giá trị trung bình của 1 biến dựa trên số liệu đã biết của biến khác.

pdf10 trang | Chia sẻ: thanhlam12 | Lượt xem: 902 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Bài giảng Kinh tế lượng - Chương 2: Giới thiệu hàm hồi quy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyen Minh Duc 2009 1 KINH TẾ LƯỢNG GIỚI THIỆU HÀM HỒI QUY TS Nguyễn Minh Đức TS Nguyễn Minh Đức 2009 2 Một số khái niệm l Tổng thể: là tập hợp tất cả những cá thể hay những nhân tố có cùng 1 hoặc vài đặc tính chung. Ví dụ: tập hợp tất cả những người Việt nam đang theo học các trường Trung cấp, cao đẳng và ñại học là tổng thể của sinh viên Việt nam l Mẫu: là tập hợp con của tổng thể hay nói cách khác mẫu là những phần tử ñược rút ra từ tổng thể. Ví dụ: những sinh viên của Trường đại học Mở thành phố Hồ Chí Minh là 1 mẫu của tổng thể sinh viên Việt nam. l Phân tích hồi qui: quan tâm mối liên hệ của biến phụ thuộc với 1 hay nhiều biến giải thích (biến độc lập) qua việc ước lượng hay dự đoán giá trị trung bình của tổng thể. Hay nói cách khác: kết quả phân tích hồi qui có thể ñược dùng để ước lượng hay dự ñoán giá trị trung bình của 1 biến dựa trên số liệu đã biết của biến khác. TS Nguyễn Minh Đức 2009 3 Một số khái niệm Biến phụ thuộc và biến độc lập còn có 1 số tên gọi khác: l Biến phụ thuộc hay còn ñược xem như là biến được giải thích, biến được dự báo, biến được hồi qui, biến phản ứng, biến nội sinh. Giá trị của biến phụ thuộc thường được tìm kiếm và phân tích sau khi kết thúc hồi qui. l Biến độc lập hay còn gọi là biến giải thích, biến dự báo, biến hồi qui, biến tác nhân hay biến kiểm soát, biến ngoại sinh. l Đường hồi qui: là đường tập hợp (trình diễn) những giá trị (ước lượng) trung bình của biến phụ thuộc dựa vào giá trị ñã biết của biến giải thích (vẽ đường hồi qui) l Hàm hồi qui tổng thể (population regression function) PRF Cho thấy mối liên hệ giữa biến phụ thuộc và biến giải thích dựa trên số liệu đã biết của toàn bộ tổng thể. Hàm hồi qui tổng thể có thể dự ñoán được giá trị chính xác của biến phụ thuộc TS Nguyễn Minh Đức 2009 4 Hàm hồi qui tổng thể PRF l Ví dụ: khi phân tích mối liên hệ giữa giá trị xuất nhập khẩu và thuế nhập khẩu đối với mặt hàng xe hơi ñược nhập khẩu vào Việt nam l Để xây dựng ñược hàm hồi qui này, phải thu thập số liệu về thuế nhập khẩu do Việt nam áp đặt đối với tất cả xe hơi ñược nhập khẩu từ các nước trên thế giới, đồng thời tìm giá trị nhập khẩu của tất cả xe hơi nhập khẩu. l Trong thực tế, đối với những nghiên cứu về kinh tế xã hội rất khó thu thập ñược số liệu của toàn bộ tổng thể. l Ví dụ: khi phân tích mối liên hệ giữa chiều cao của cha và con trên lãnh thổ Việt Nam. Những người tiến hành nghiên cứu không thể thu thập ñược số liệu về chiều cao của tất cả người cha trên toàn lãnh thổ Việt Nam l Hàm hồi qui tổng thể có thể ñược nói tóm gọn như hồi qui tổng thể TS Nguyễn Minh Đức 2009 5 Hàm hồi quy tổng thể Y= β1 + β2X +εi 0 100 200 300 400 500 600 700 0 100 200 300 400 500 600 700 800 900 Thu nhập khả dụng, X (XD) T iê u d ù n g , Y ( X D ) Xi E(Y/Xi)= β1 + β2Xi Yi= β1 + β2Xi + εi εi Y = E(Y/Xi) Yi β1 β2 Thu nhập X (XD) TS Nguyễn Minh Đức 2009 6 Hàm hồi qui mẫu SRF l Hồi qui mẫu (Sample Regression function): cho thấy mối liên hệ giữa biến phụ thuộc với biến giải thích dựa trên giá trị trung bình của tổng thể hay giá trị ñã biết của mẫu. l Do khó khăn trong việc tìm kiếm giá trị của tổng thể hay những giới hạn về tài chính và nguồn lực trong quá trình tiến hành nghiên cứu, những mẫu nghiên cứu sẽ ñược quan sát và phân tích thay cho giá trị của tổng thể. l Dựa vào ví dụ trên về chiều cao của cha và con, sau khi tiến hành thu thập số liệu mẫu về chiều cao của 1000 cặp cha và con sống ở các nơi trên lãnh thổ Việt nam. Hàm hồi qui được xây dựng trên mẫu này với 1000 quan sát được gọi là hàm hồi qui mẫu. l Một trong những mục tiêu của phân tích hồi qui là tìm giá trị ước lượng gần với giá trị thực tế hoặc giá trị tổng thể, mặc dù không biết trước được giá trị thật của tổng thể. Hay nói cách khác giá trị càng gần với b1, b2 thì kết quả hồi qui càng tốt hay , có thể đưa hàm hồi qui ứng dụng vào thực tế. Dựa vào biểu đồ trên, nếu đường hồi qui mẫu (SRF) càng gần với đường hồi qui tổng thể thì kết quả hồi qui càng có giá trị cao. TS Nguyễn Minh Đức 2009 7 0 100 200 300 400 500 600 0 100 200 300 400 500 600 700 800 900 Thu nh?dThu nhập X (PRF) (SRF) Xi Yi E(Y/Xi) Yi ei uii 1 TS Nguyễn Minh Đức 2009 8 Phân biệt các dạng quan hệ trong phân tích hồi qui Quan hệ thống kê và quan hệ hàm số: l Giả sử hàm số y có dạng sau đây: y = a + bX1 l Nếu giá trị của X1 thay đổi thì chỉ cho duy nhất 1 giá trị của y. Quan hệ hàm số thường gặp ở một số ngành khoa học tự nhiên: vật lý, hóa học l Ví dụ: trong thí nghiệm hóa học, mỗi lần thay đổi thành phần của nhân tố hóa học thì chỉ cho 1 kết quả duy nhất, hay chỉ cho 1 hợp chất mới duy nhất l Đối với quan hệ thống kê: từ ví dụ trên, nếu thay đổi giá trị của X thì y có thể nhận nhiều giá trị khác, không thể biết giá trị chính xác. Đó là do sự tác động của nhiều yếu tố khác hoặc nhiều biến khác. Trong thực tế những biến ngẫu nhiên này rất khó nhận dạng ñược. l Ví dụ: khi tiến hành thí nghiệm về ảnh hưởng của phân bón đối với năng suất của cây trồng. Có thể kết luận năng suất của cây trồng có thể tăng, giảm hay mất hoàn toàn bởi vì do ảnh hưởng của rất nhiều nhân tố như thiên tai (nắng, mưa,) hoặc dịch hại (côn trùng, sâu, rầy). Những nhân tố này rất khó kiểm soát trong quá trình nghiên cứu, vì vậy mối quan hệ trong thí nghiệm trên ñược gọi là mối quan hệ thống kê. l Phân tích hồi qui chỉ quan tâm đến mối quan hệ thống kê. TS Nguyễn Minh Đức 2009 9 Phân biệt các dạng quan hệ trong phân tích hồi qui Quan hệ hồi qui và nhân quả l Trong mối quan hệ nhân quả có 1 tác nhân gây ra biến động hoặc ảnh hưởng đến những biến khác. l Ví dụ: số người hút thuốc lá cao thì số bệnh nhân bị ung thư phổi cao, mối quan hệ này có thể nói là mối quan hệ nhân quả vì thuốc lá là tác nhân gây ra bệnh ung thư l Mặc dù trong phân tích hồi qui cũng quan tâm đến mối liên hệ giữa 2 biến số với nhau nhưng phân tích hồi quy không phải luôn bao hàm quan hệ nhân quả, vì còn rất nhiều yếu tố hay biến số khác ảnh hưởng đến mối liên hệ này. l Ngoài ra trong phân tích hồi qui có 1 sai lầm là quy kết mối quan hệ nhân quả giữa hai biến số trong khi thực tế chúng đều là hệ quả của một nguyên nhân khác. l Ví dụ: khi phân tích hồi qui tìm mối liên quan giữa số lượng tivi tính trên đầu người và tuổi thọ. Kết quả nghiên cứu ñã tìm thấy, số lượng tivi tính theo đầu người và tuổi thọ có quan hệ đồng biến, nếu số lượng tivi tính theo đầu người càng cao thì tuổi thọ của người dân càng cao. Tuy nhiên mối quan hệ này không phải là quan hệ nhân quả, số lượng tivi trên đầu người không thể làm cho tuổi thọ tăng lên hay giảm đi. TS Nguyễn Minh Đức 2009 10 Phân biệt các dạng quan hệ trong phân tích hồi qui Quan hệ hồi qui và tương quan l Phân tích tương quan không quan tâm đến mối liên hệ nhân quả. l Mục đích chính của phân tích tương quan là đo mức độ mạnh, yếu trong mối liên hệ tuyến tính giữa 2 biến. l Trong khi đó phân tích hồi qui không đo lường mức độ liên hệ giữa 2 biến mà chủ yếu ước lượng hay dự ñoán giá trị trung bình của 1 biến (biến phụ thuộc) dựa trên giá trị ñã biết của những biến khác. l Khi tiến hànhhồi qui cần có sự phân biệt biến nào là biến độc lập và biến nào là biến phụ thuộc, nhưng trong phân tích tương quan không cần phân biệt những biến này. l Ví dụ: phân tích tương quan của 2 nghiên cứu sau là tương tự nhau Nghiên cứu tương quan giữa điểm môn toán và bài kiểm tra môn thống kê. Cũng giống như nghiên cứu tương quan giữa điểm môn thống kê và bài kiểm tra toán l Ngoài ra, những lý thuyết tương quan thường giả định những biến số đang nghiên cứu là ngẫu nhiên. Trong khi lý thuyết hồi qui giả định biến phụ thuộc có tính chất suy ñoán và biến giải thích là ñã ñược biết. TS Nguyễn Minh Đức 2009 11 Tuyến tính trong hồi qui l Trong hình học, đường tuyến tính là đường thẳng l Trong hồi qui, mô hình tuyến tính hay hàm tuyến tính đối với biến khi biến độc lập (biến giải thích) có hệ số mũ bằng 1. l Mô hình tuyến tính đối với tham số khi tất cả các tham số của mô hình có hệ số mũ bằng 1, hệ số mũ của biến có thể nhận bất kỳ giá trị nào. l Những mô hình gọi là tuyến tính đối với tham số Y = a + b X; Y = a + bX2 ; Y = a + b (1/X) l Mô hình sau đây ñược gọi là tuyến tính đối với biến: Y =a + bX; Y=a2 +bX; Y = a + b3 X l Tính tuyến tính của các mô hình hồi qui thường dựa vào các tham số, không dựa vào biến số. TS Nguyễn Minh Đức 2009 12 Hàm hồi quy hai biến Hàm hồi qui tổng thể (PRF) E(Y/Xi ) = f(Xi ) = b1 + b2 Xi hoặc Yi = b1 + b2 Xi + ui l ui = Yi - E(Y/Xi ) b1, b2 là các tham số của hàm hồi qui, giá trị của b1, b2 cần phải tìm và ước lượng trong quá trình hồi qui. b1 : hệ số tung độ (intercept coefficient) b2 : hệ số gốc (slope coefficient) u i : sai số hồi qui hay sai số ngẫu nhiên. Nguyên nhân tạo nên sai số này là do sai sót trong quá trình thu thập thông tin, số liệu, hoặc do mô hình hồi qui không thích hợp, ngoài ra còn do các tác động khác không dự trù được. X: biến giải thích, giá trị của X đã biết hoặc quan sát được Y: biến phụ thuộc, giá trị của Y cần phải tìm hoặc suy đoán i : tượng trưng cho số quan sát. TS Nguyễn Minh Đức 2009 13 Giả sử khi quan sát số lượng cá tra xuất khẩu và thuế nhập khẩu hàng năm trong giai đoạn 2005-2009 l i = 5 tượng trưng cho 5 quan sát trong 5 năm l Y 1 = b1 + b2 X1+ u1 i=1, giá trị quan sát trong năm 2005 l Y 2 = b1 + b2 X2 + u2 i=2, giá trị quan sát trong năm 2006 l Y 3 = b1 + b2 X3 + u3 i=3, giá trị quan sát trong năm 2007 l Y 4 = b1 + b2 X4 + u4 i=4, giá trị quan sát trong năm 2008 l Y 5 = b1 + b2 X5 + u5 i=5, giá trị quan sát trong năm 2009 TS Nguyễn Minh Đức 2009 14 Hàm hồi quy hai biến : giá trị ước lượng của biến phụ thuộc cho tổng thể Y : biến giải thích, giá trị đã được biết trước : ước lượng tham số của b1, b2, giá trị của cần phải ước lượng trong quá trình hồi qui. Khi thêm biến ngẫu nhiên hay sai số ngẫu nhiên vào hàm số, hàm hồi qui bây giờ là hàm hồi qui tổng thể: Yi = b1 + b2Xi + ei ei : ước lượng của sai số ngẫu nhiên, hay nói cách khác ei là khoảng chênh lệch giữa giá trị thực và giá trị ước lượng của Y. ei có thể nhận giá trị dương hoặc âm. i21i X ˆˆYˆ β+β= i Yˆ iX 21 ˆ,ˆ ββ Hàm hồi qui mẫu (SRF)’’’ TS Nguyễn Minh Đức 2009 15 Phương pháp bình phương tối thiểu (Ordinary Least squares) Thuộc tính của hệ số ước lượng Hệ số ước lượng của hàm hồi qui có thuộc tính tuyến tính không chệch tốt nhất (BLUE) l Tuyến tính: hàm số tuyến tính của biến ngẫu nhiên l Không chệch: l Ước lượng tối ưu: có phương sai tối thiểu 2 ^ 2 ββ =      E TS Nguyễn Minh Đức 2009 16 Phương pháp bình phương tối thiểu (Ordinary Least squares) Giả định 1. Mô hình hồi qui tuyến tính 2. Giá trị của X được giữ cố định trong những lần lặp lại mẫu 3. Giá trị kì vọng của biến số ngẫu nhiên=0 4. Phương sai của biến số ngẫu nhiên không đổi (Homoscedasticity) 5. Không có hiện tượng tự tương quan giữa các biến số ngẫu nhiên 6. Không có tương quan giữa ui và Xi 7. Số quan sát phải lớn hơn số lượng tham số 8. Giá trị của X phải có biến động 9. Mô hình hồi qui được giả định là chính xác 10. Không có hiện tượng đa cộng tuyến hoàn hảo trong mô hình ( ) 2var δ= ii Xu ( ) 0=ii XuE ( ) 0cov =ji uu ( ) 0cov =ii Xu TS Nguyễn Minh Đức 2009 17 Phương pháp bình phương tối thiểu (Ordinary Least squares) l Phương pháp bình phương tối thiểu: là phương pháp làm cho tổng bình phương sai số có giá trị nhỏ nhất i21iiii X ˆˆYYˆYe β−β−=−= ( )2n 1i i21i n 1i 2 i X ˆˆYe ∑∑ == β−β−= ( ) 0e2XˆˆY2 ˆ e n 1i i n 1i i21i 1 n 1i 2 i =−=β−β−−=β∂      ∂ ∑∑ ∑ == = ( ) 0Xe2XXˆˆY2 ˆ e n 1i iii n 1i i21i 2 n 1i 2 i =−=β−β−−=β∂      ∂ ∑∑ ∑ == = (3.7) (3.8) TS Nguyễn Minh Đức 2009 18 Phương pháp bình phương tối thiểu (Ordinary Least squares) ∑∑ β+β= i21i XˆˆnY ∑∑∑ β+β= 2i2i1ii XˆXˆXY XY ^ 2 ^ 1 ββ −= ( )( ) ( )∑ ∑ = = − −− =β n 1i 2 i n 1i ii 2 XX XXYY ˆ XXx ii −= YYy ii −= ∑ ∑ = = =β n 1i 2 i n 1i ii 2 x xy ˆ TS Nguyễn Minh Đức 2009 19 Phương pháp bình phương tối thiểu (Ordinary Least squares) Thuộc tính thống kê của OLS estimators l là duy nhất ứng với một mẫu xác định gồm n quan sát (Xi,Yi), có thể được tính toán dễ dàng l là các ước lượng điểm của b1 và b2 . Giá trị của và thay đổi theo mẫu dùng để ước lượng. OLS estimates đạt được từ mẫu, do đó đường hồi qui mẫu có thuộc tính: 1. Giá trị trung bình của sai số ei bằng 0 2. Ước lượng của sai số ei không tương quan với ước lượng của Yi 3. Ước lượng của sai số ei không tương quan với ước lượng của Yi 4. Giá trị trung bình của ước lượng bằng giá trị trung bình thực của Y 5. đi qua giá trị trung bình của dữ liệu graph 1.ppt 21 ˆ,ˆ ββ XˆˆY 21 β−β= ( ) YYˆE = ( ) 0E = i e ∑ = = n 1i ii 0Ye 21 ˆ,ˆ ββ