Bài giảng Kinh tế lượng - Chương: Hồi qui tuyến tính đơn biến - Nguyễn Tấn Trần Minh Khang

Giới thiệu ─ Sir Francis Galton (1822 – 1911). ─ Anthropology and polymathy. ─ Doctoral students Karl Pearson. ─ In the late 1860s, Galton conceived the standard deviation. ─ He created the statistical concept of correlation and also discovered the properties of the bivariate normal distribution and its relationship to regression analysis.

pdf87 trang | Chia sẻ: thuyduongbt11 | Ngày: 10/06/2022 | Lượt xem: 447 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Kinh tế lượng - Chương: Hồi qui tuyến tính đơn biến - Nguyễn Tấn Trần Minh Khang, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 1 SIMPLE LINEAR REGRESSION HỒI QUI TUYẾN TÍNH ĐƠN BIẾN 1. TS. Nguyễn Tấn Trần Minh Khang 2. ThS. Võ Duy Nguyên 3. Cao học. Nguyễn Hoàn Mỹ 4. Tình nguyện viên. Lê Ngọc Huy 5. Tình nguyện viên. Cao Bá Kiệt TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 2 GIỚI THIỆU HỒI QUY TUYẾN TÍNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 3 Giới thiệu ─ Sir Francis Galton (1822 – 1911). ─ Anthropology and polymathy. ─ Doctoral students Karl Pearson. ─ In the late 1860s, Galton conceived the standard deviation. ─ He created the statistical concept of correlation and also discovered the properties of the bivariate normal distribution and its relationship to regression analysis. ─ https://en.wikipedia.org/wiki/Francis_Galton TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 4 Giới thiệu ─ Simple linear regression – SLR. ─ Hồi qui tuyến tính đơn biến. ─ In statistics, simple linear regression is a linear regression model with a single explanatory variable. ─ Trong thống kê, học máy, hồi quy tuyến tính đơn biến là một mô hình hồi qui tuyến tính với duy nhất một biến độc lập. ─ https://en.wikipedia.org/wiki/Simple_linear_regression TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 5 Giới thiệu ─ Sample points with one independent variable and one dependent variable (conventionally, the x and y coordinates in a Cartesian coordinate system). ─ Điểm dữ liệu là sự tích hợp của một biến phụ thuộc và một biến độc lập. Điểm dữ liệu có thể biểu diễn trên hệ trục tọa độ Cartesian. ─ Finds a linear function (a non-vertical straight line) that, as accurately as possible. ─ Tìm một hàm tuyến tính mà độ chính xác tốt nhất có thể. ─ https://en.wikipedia.org/wiki/Simple_linear_regression TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 6 Giới thiệu ─ Predicts the dependent variable values as a function of the independent variables. ─ Dự báo giá trị của "biến phụ thuộc" dựa theo hàm số của "biến độc lập". ─ Nói một cách trừu tượng hơn thì dự báo giá trị của "biến phụ thuộc" dựa theo mô hình. ─ https://en.wikipedia.org/wiki/Simple_linear_regression TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 7 HỒI QUY TUYẾN TÍNH ĐƠN BIẾN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 8 Hồi quy tuyến tính đơn biến ─ Phát biểu bài toán: + Tập dữ liệu đầu vào: ଵ ୒ với ୧ là các số vô hướng. + Tập dữ liệu đầu ra: ଵ ଶ ୑ trong đó ୧ là các số vô hướng. + Các cặp dữ liệu ୧ ୧ tạo nên tập huấn luyện. + Từ tập huấn luyện ta tìm hàm số , ánh xạ mỗi phần tử từ tập sang một phần tử (xấp xỉ) tương ứng của tập : ௜ ୧ . ─ Mục đích là xấp xỉ hàm số thật tốt để khi có một dữ liệu mới, chúng ta có thể tính được nhãn tương ứng của nó với . TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 9 Mô hình hồi quy ─ Mô hình hồi quy tuyến tính đơn giản là tìm hàm số có dạng: ─ Trong đó: +Biến được gọi biến độc lập. +Biến được gọi là biến phụ thuộc (biến phụ thuộc vào biến độc lập ). TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 10 Mô hình hồi quy ─ Mô hình hồi quy tuyến tính đơn giản có dạng: ─ và được gọi là các tham số của mô hình. ─ Các tham số và không được biết trước. ─ Các tham số và sẽ được ước lượng dựa vào dữ liệu (we estimate them from data). TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 11 Mô hình hồi quy ─ We will write an estimated regression line based on sample data as: + is the intercept of the line + is the slope of the line. + is the estimatd value of for a given value. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 12 Mô hình hồi quy ─ Slope for the Estimated Regression Equation. ଵ ௜ ௜ ௜ ଶ ─ for the Estimated Regression Equation. ଴ ଵ ─ Where: + ௜ = value of independent variable for observation + ௜ = value of dependent variable for observation + = mean value for independent variable + = mean value for dependent variable. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 13 Mô hình hồi quy ─ Least Squares Criterion ௜ ௜ ─ Where: + ௜ = observed value of the dependent variable for the observation. + ௜ = estimated value of the dependent variable for the observation. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 14 VÍ DỤ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 15 Ví dụ ─ Example: Reed Auto Sales ─ Reed Auto periodically has a special week-long sale. As part of the advertising campaign Reed runs one or more television commercials during the weekend preceding the sale. Data from a sample of 5 previous sales are shown on the next slide. Number of TV Ads(x) Number of Cars Sold(y) 1 14 3 24 2 18 1 17 3 27 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 16 Number of TV Ads(x) Number of Cars Sold(y) ௜ ௜ ௜ ௜ ௜ ଶ 1 14 -1 -6 6 1 3 24 1 4 4 1 2 18 0 -2 0 0 1 17 -1 -3 3 1 3 27 1 7 7 1 ௜ ௜ ௜ ଶ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 17 Ví dụ ─ Slope for the Estimated Regression Equation ଵ ௜ ௜ ௜ ଶ ─ -Intercept for the Estimated Regression Equation ଴ ଵ ─ Estimated Regression Equation . Number of TV Ads(x) Number of Cars Sold(y) 1 14 3 24 2 18 1 17 3 27 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 18 ĐÁNH GIÁ MÔ HÌNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 19 Đánh giá mô hình ─ Least Squares Criterion ௜ ௜ ─ Where: + ௜ = observed value of the dependent variable for the observation. + ௜ = estimated value of the dependent variable for the observation. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 20 Đánh giá mô hình TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 21 Đánh giá mô hình ─ Total sum of squares = Regression sum of squares + Error sum of squares. ─ Total variation = Explained variation + Unexplained variation. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 22 Đánh giá mô hình ─ Total sum of squares (Total Variation): ୧ ଶ. ─ Regression sum of squares (Explained Variation by the Regression): ୧ ଶ. ─ Error sum of squares (Unexplained Variation): ୧ ୧ ଶ. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 23 Đánh giá mô hình ─ Coefficient of Determination – it is a measure of the regression goodness-of-fit ─ Ta có: và . ─ Do đó: TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 24 Đánh giá mô hình ─ Giá trị của hệ số ଶ luôn nằm trong đoạn : + Nếu ଶ : Mô hình giống như mô hình cơ sở. + Nếu ଶ : Mô hình chính xác tuyệt đối. ─ ଶ càng lớn (càng gần 1) thì độ chính xác của mô hình với tập dữ liệu đang xét càng cao. ─ Một mô hình được xem là tốt nếu ଶ . TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 25 Chúc các bạn học tốt Thân ái chào tạm biệt các bạn ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP.HCM TOÀN DIỆN – SÁNG TẠO – PHỤNG SỰ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 26 THỰC HÀNH HỒI QUI TUYẾN TÍNH ĐƠN BIẾN 1. TS. Nguyễn Tấn Trần Minh Khang 2. ThS. Võ Duy Nguyên 3. Cao học. Nguyễn Hoàn Mỹ 4. Tình nguyện viên. Lê Ngọc Huy 5. Tình nguyện viên. Cao Bá Kiệt TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 27 TẬP DỮ LIỆU – DATASET TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 28 Tập dữ liệu – Dataset ─ Tên dữ liệu: Salary Data. ─ Nguồn: https://www.superdatascience.com/pages/machine- learning. ─ Tập dữ liệu gồm điểm dữ liệu. ─ Mỗi điểm dữ liệu có hai thuộc tính: + Số năm kinh nghiệm (năm). + Mức lương (dollars/năm). TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 29 Tập dữ liệu – Dataset ─ Mỗi điểm dữ liệu mô tả mức lương của một người khi biết số năm kinh nghiệm của họ. STT Year Experience Salary TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 30 Tập dữ liệu – Dataset STT YE Salary STT YE Salary TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 31 Tập dữ liệu – Dataset STT YE Salary STT YE Salary 7.9 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 32 Tập dữ liệu – Dataset ─Bài toán đặt ra là dựa trên tập điểm dữ liệu đã cho, dự đoán mức lương của một người khi đã biết số năm kinh nghiệm của người đó. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 33 HỒI QUY - REGRESSION TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 34 Hồi quy - Regression ─ Bài toán của chúng ta thuộc dạng hồi quy. ─ Hồi quy là một loại bài toán trong machine learning: + Thuộc nhóm học có giám sát (supervised learning). + Dữ liệu đầu ra là một số thực bất kỳ và nằm trong một đoạn liên tục. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 35 SIMPLE LINEAR REGRESSION TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 36 Simple Linear Regression TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 37 Simple Linear Regression ─ Hồi quy tuyến tính là một dạng bài toán hồi quy mà ta giả định mối quan hệ của dữ liệu đầu vào và dữ liệu đầu ra là tương quan tuyến tính. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 38 Simple Linear Regression ─ Mô hình đơn giản của hồi quy tuyến tính là: ଴ ଵ ─ Trong đó + là dữ liệu đầu vào hay biến độc lập (số năm kinh nghiệm). + là dữ liệu đầu ra dự đoán hay biến phụ thuộc (mức lương). + ଵ ଴ là những tham số mô hình (model parameters). TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 39 Simple Linear Regression ─ Mô hình hồi quy tuyến tính thực chất là một đường thẳng mà chênh lệch giữa đường thẳng này và các điểm trong tập dữ liệu là nhỏ nhất. ─ Giải bài toán hồi quy tuyến tính chính là đi tìm đường thẳng nêu trên. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 40 TIỀN XỬ LÝ DỮ LIỆU TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 41 Tiền xử lý dữ liệu ─ Import các thư viện cần thiết cho việc nhập và tiền xử lý dữ liệu, gồm: + pandas cho nhập dữ liệu từ file csv. + numpy cho việc xử lý lại số chiều của mảng. 1. import pandas as pd 2. import numpy as np TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 42 Tiền xử lý dữ liệu ─ Đọc dữ liệu từ file csv. ─ Chuyển dữ liệu đã đọc được về dạng mảng các dữ liệu đầu vào (input data) – ký hiệu là và dữ liệu đầu ra (outcome data) – ký hiệu là . 3. # Read dataset 4. dataset = pd.read_csv("Salary_Data.csv") 5. # Split dataset to input X and outcome Y 6. X = np.array(dataset.iloc[:, 0].values).reshape(-1, 1) 7. Y = np.array(dataset.iloc[:, 1].values) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 43 Tiền xử lý dữ liệu ─ Import train_test_split từ sklearn.model_selection để phân chia tập dữ liệu ─ Chia nhỏ các mảng thành 2 phần, một phần là tập huấn luyện (training set), phần còn lại là tập kiểm thử (test set). ─ Trong đó, tỉ lệ giữa tập huấn luyện và tập kiểm thử ở bài này là . 8. from sklearn.model_selection import train_test_split 9. X_train, X_test, Y_train, Y_test= train_test_split(X, Y, train_size = 0.8, random_state = 0) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 44 TRỰC QUAN HÓA DỮ LIỆU HUẤN LUYỆN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 45 Trực quan hóa dữ liệu huấn luyện TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 46 Trực quan hóa dữ liệu huấn luyện ─ Để trực quan hóa dữ liệu, ta sử dụng các hàm của thư viện matplotlib.pyplot. ─ Ở bài này, ta sẽ trực quan hóa dữ liệu bằng cách vẽ các điểm trong tập dữ liệu huấn luyện lên mặt phẳng tọa độ. ─ Lưu ý: Tập dữ liệu ban đầu có 30 điểm dữ liệu được chia thành hai tập dữ liệu X_train, Y_train, X_test, Y_test theo tỉ lệ 80-20. + Tập dữ liệu train chiếm 80%: 24 điểm dữ liệu. + Tập dữ liệu test chiếm 20%: 6 điểm dữ liệu. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 47 Trực quan hóa dữ liệu huấn luyện 10.import matplotlib.pyplot as plt 11.# Visualize training data 12.plt.scatter(X_train, Y_train, color = "red") 13.plt.title("Salary vs Experiment") 14.plt.xlabel("Experiment (years)") 15.plt.ylabel("Salary (dollars/year)") 16.plt.show() TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 48 Trực quan hóa dữ liệu huấn luyện ─ Ta thấy, các điểm dữ liệu của tập huấn luyện có quan hệ gần tuyến tính với nhau. ─ Do đó, mô hình hồi quy tuyến tính phù hợp với bài toán này. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 49 HUẤN LUYỆN MÔ HÌNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 50 Huấn luyện mô hình ─ Cách tìm các hệ số ଵ, ଶ của mô hình hồi quy tuyến tính đã có sẵn trong lớp LinearRegression ở module linear_model, package sklearn. ─ Quá trình tìm các hệ số này dựa trên một tập dữ liệu gọi là huấn luyện (training). 17.from sklearn.linear_model import LinearRegression 18.regressor = LinearRegression() 19.regressor.fit(X_train, Y_train) TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 51 TRỰC QUAN HÓA KẾT QUẢ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 52 Trực quan hóa kết quả ─ Ban đầu, ta sẽ vẽ đường thẳng thu được sau khi huấn luyện mô hình dựa trên tập dữ liệu huấn luyện. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH [T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn 53 Trực quan hóa kết quả 20.Y_train_pred = regressor.predict(X_train) 21.plt.scatter(X_train, Y_train, color = "red") 22.plt.plot(X_train, Y_train_pred, color = "blue") 23.plt.title("Salary
Tài liệu liên quan