Giới thiệu
─ Sir Francis Galton (1822 – 1911).
─ Anthropology and polymathy.
─ Doctoral students Karl Pearson.
─ In the late 1860s, Galton conceived the standard deviation.
─ He created the statistical concept of correlation and also
discovered the properties of the bivariate normal distribution and
its relationship to regression analysis.
87 trang |
Chia sẻ: thuyduongbt11 | Ngày: 10/06/2022 | Lượt xem: 447 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Kinh tế lượng - Chương: Hồi qui tuyến tính đơn biến - Nguyễn Tấn Trần Minh Khang, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
1
SIMPLE LINEAR REGRESSION
HỒI QUI TUYẾN TÍNH ĐƠN BIẾN
1. TS. Nguyễn Tấn Trần Minh Khang
2. ThS. Võ Duy Nguyên
3. Cao học. Nguyễn Hoàn Mỹ
4. Tình nguyện viên. Lê Ngọc Huy
5. Tình nguyện viên. Cao Bá Kiệt
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
2
GIỚI THIỆU HỒI QUY TUYẾN TÍNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
3
Giới thiệu
─ Sir Francis Galton (1822 – 1911).
─ Anthropology and polymathy.
─ Doctoral students Karl Pearson.
─ In the late 1860s, Galton conceived the standard deviation.
─ He created the statistical concept of correlation and also
discovered the properties of the bivariate normal distribution and
its relationship to regression analysis.
─ https://en.wikipedia.org/wiki/Francis_Galton
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
4
Giới thiệu
─ Simple linear regression – SLR.
─ Hồi qui tuyến tính đơn biến.
─ In statistics, simple linear regression is a linear regression model
with a single explanatory variable.
─ Trong thống kê, học máy, hồi quy tuyến tính đơn biến là một mô
hình hồi qui tuyến tính với duy nhất một biến độc lập.
─ https://en.wikipedia.org/wiki/Simple_linear_regression
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
5
Giới thiệu
─ Sample points with one independent variable and one dependent
variable (conventionally, the x and y coordinates in a Cartesian
coordinate system).
─ Điểm dữ liệu là sự tích hợp của một biến phụ thuộc và một biến
độc lập. Điểm dữ liệu có thể biểu diễn trên hệ trục tọa độ
Cartesian.
─ Finds a linear function (a non-vertical straight line) that, as
accurately as possible.
─ Tìm một hàm tuyến tính mà độ chính xác tốt nhất có thể.
─ https://en.wikipedia.org/wiki/Simple_linear_regression
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
6
Giới thiệu
─ Predicts the dependent variable values as a function of the
independent variables.
─ Dự báo giá trị của "biến phụ thuộc" dựa theo hàm số của "biến
độc lập".
─ Nói một cách trừu tượng hơn thì dự báo giá trị của "biến phụ
thuộc" dựa theo mô hình.
─ https://en.wikipedia.org/wiki/Simple_linear_regression
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
7
HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
8
Hồi quy tuyến tính đơn biến
─ Phát biểu bài toán:
+ Tập dữ liệu đầu vào: ଵ với ୧ là các số vô hướng.
+ Tập dữ liệu đầu ra: ଵ ଶ trong đó ୧ là các số vô
hướng.
+ Các cặp dữ liệu ୧ ୧ tạo nên tập huấn luyện.
+ Từ tập huấn luyện ta tìm hàm số , ánh xạ mỗi phần tử từ tập
sang một phần tử (xấp xỉ) tương ứng của tập : ୧ .
─ Mục đích là xấp xỉ hàm số thật tốt để khi có một dữ liệu mới,
chúng ta có thể tính được nhãn tương ứng của nó với .
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
9
Mô hình hồi quy
─ Mô hình hồi quy tuyến tính đơn giản là tìm hàm số có
dạng:
─ Trong đó:
+Biến được gọi biến độc lập.
+Biến được gọi là biến phụ thuộc (biến phụ thuộc
vào biến độc lập ).
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
10
Mô hình hồi quy
─ Mô hình hồi quy tuyến tính đơn giản có dạng:
─ và được gọi là các tham số của mô hình.
─ Các tham số và không được biết trước.
─ Các tham số và sẽ được ước lượng dựa vào dữ
liệu (we estimate them from data).
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
11
Mô hình hồi quy
─ We will write an estimated regression line based on
sample data as:
+ is the intercept of the line
+ is the slope of the line.
+ is the estimatd value of for a given value.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
12
Mô hình hồi quy
─ Slope for the Estimated
Regression Equation.
ଵ
ଶ
─ for the Estimated
Regression Equation.
ଵ
─ Where:
+ = value of independent
variable for observation
+ = value of dependent
variable for observation
+ = mean value for
independent variable
+ = mean value for
dependent variable.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
13
Mô hình hồi quy
─ Least Squares Criterion
─ Where:
+ = observed value of the dependent variable for the
observation.
+ = estimated value of the dependent variable for the
observation.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
14
VÍ DỤ
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
15
Ví dụ
─ Example: Reed Auto Sales
─ Reed Auto periodically has a
special week-long sale. As
part of the advertising
campaign Reed runs one or
more television commercials
during the weekend preceding
the sale. Data from a sample
of 5 previous sales are shown
on the next slide.
Number of TV
Ads(x)
Number of Cars
Sold(y)
1 14
3 24
2 18
1 17
3 27
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
16
Number of
TV Ads(x)
Number
of Cars
Sold(y)
ଶ
1 14 -1 -6 6 1
3 24 1 4 4 1
2 18 0 -2 0 0
1 17 -1 -3 3 1
3 27 1 7 7 1
ଶ
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
17
Ví dụ
─ Slope for the Estimated
Regression Equation
ଵ
ଶ
─ -Intercept for the Estimated
Regression Equation
ଵ
─ Estimated Regression Equation
.
Number of TV
Ads(x)
Number of Cars
Sold(y)
1 14
3 24
2 18
1 17
3 27
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
18
ĐÁNH GIÁ MÔ HÌNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
19
Đánh giá mô hình
─ Least Squares Criterion
─ Where:
+ = observed value of the
dependent variable for the
observation.
+ = estimated value of the
dependent variable for the
observation.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
20
Đánh giá mô hình
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
21
Đánh giá mô hình
─ Total sum of squares =
Regression sum of squares +
Error sum of squares.
─ Total variation = Explained
variation + Unexplained variation.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
22
Đánh giá mô hình
─ Total sum of squares (Total
Variation): ୧ ଶ.
─ Regression sum of squares
(Explained Variation by the
Regression): ୧
ଶ.
─ Error sum of squares
(Unexplained Variation):
୧ ୧
ଶ.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
23
Đánh giá mô hình
─ Coefficient of Determination – it is a measure of the regression
goodness-of-fit
─ Ta có: và .
─ Do đó:
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
24
Đánh giá mô hình
─ Giá trị của hệ số ଶ luôn nằm trong đoạn :
+ Nếu ଶ : Mô hình giống như mô hình cơ sở.
+ Nếu ଶ : Mô hình chính xác tuyệt đối.
─ ଶ càng lớn (càng gần 1) thì độ chính xác của mô hình với tập dữ
liệu đang xét càng cao.
─ Một mô hình được xem là tốt nếu ଶ .
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
25
Chúc các bạn học tốt
Thân ái chào tạm biệt các bạn
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP.HCM
TOÀN DIỆN – SÁNG TẠO – PHỤNG SỰ
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
26
THỰC HÀNH
HỒI QUI TUYẾN TÍNH ĐƠN BIẾN
1. TS. Nguyễn Tấn Trần Minh Khang
2. ThS. Võ Duy Nguyên
3. Cao học. Nguyễn Hoàn Mỹ
4. Tình nguyện viên. Lê Ngọc Huy
5. Tình nguyện viên. Cao Bá Kiệt
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
27
TẬP DỮ LIỆU – DATASET
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
28
Tập dữ liệu – Dataset
─ Tên dữ liệu: Salary Data.
─ Nguồn: https://www.superdatascience.com/pages/machine-
learning.
─ Tập dữ liệu gồm điểm dữ liệu.
─ Mỗi điểm dữ liệu có hai thuộc tính:
+ Số năm kinh nghiệm (năm).
+ Mức lương (dollars/năm).
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
29
Tập dữ liệu – Dataset
─ Mỗi điểm dữ liệu mô tả mức
lương của một người khi biết
số năm kinh nghiệm của họ.
STT Year Experience Salary
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
30
Tập dữ liệu – Dataset
STT YE Salary STT YE Salary
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
31
Tập dữ liệu – Dataset
STT YE Salary STT YE Salary
7.9
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
32
Tập dữ liệu – Dataset
─Bài toán đặt ra là dựa trên tập điểm
dữ liệu đã cho, dự đoán mức lương của
một người khi đã biết số năm kinh nghiệm
của người đó.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
33
HỒI QUY - REGRESSION
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
34
Hồi quy - Regression
─ Bài toán của chúng ta thuộc dạng hồi quy.
─ Hồi quy là một loại bài toán trong machine learning:
+ Thuộc nhóm học có giám sát (supervised learning).
+ Dữ liệu đầu ra là một số thực bất kỳ và nằm trong một đoạn
liên tục.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
35
SIMPLE LINEAR REGRESSION
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
36
Simple Linear Regression
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
37
Simple Linear Regression
─ Hồi quy tuyến tính là một dạng
bài toán hồi quy mà ta giả định
mối quan hệ của dữ liệu đầu
vào và dữ liệu đầu ra là tương
quan tuyến tính.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
38
Simple Linear Regression
─ Mô hình đơn giản của hồi quy tuyến tính là:
ଵ
─ Trong đó
+ là dữ liệu đầu vào hay biến độc lập (số năm kinh nghiệm).
+ là dữ liệu đầu ra dự đoán hay biến phụ thuộc (mức lương).
+ ଵ là những tham số mô hình (model parameters).
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
39
Simple Linear Regression
─ Mô hình hồi quy tuyến tính
thực chất là một đường thẳng
mà chênh lệch giữa đường
thẳng này và các điểm trong
tập dữ liệu là nhỏ nhất.
─ Giải bài toán hồi quy tuyến
tính chính là đi tìm đường
thẳng nêu trên.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
40
TIỀN XỬ LÝ DỮ LIỆU
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
41
Tiền xử lý dữ liệu
─ Import các thư viện cần thiết cho việc nhập và tiền xử lý dữ liệu,
gồm:
+ pandas cho nhập dữ liệu từ file csv.
+ numpy cho việc xử lý lại số chiều của mảng.
1. import pandas as pd
2. import numpy as np
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
42
Tiền xử lý dữ liệu
─ Đọc dữ liệu từ file csv.
─ Chuyển dữ liệu đã đọc được về dạng mảng các dữ liệu đầu vào
(input data) – ký hiệu là và dữ liệu đầu ra (outcome data) – ký hiệu
là .
3. # Read dataset
4. dataset = pd.read_csv("Salary_Data.csv")
5. # Split dataset to input X and outcome Y
6. X = np.array(dataset.iloc[:, 0].values).reshape(-1, 1)
7. Y = np.array(dataset.iloc[:, 1].values)
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
43
Tiền xử lý dữ liệu
─ Import train_test_split từ sklearn.model_selection để
phân chia tập dữ liệu
─ Chia nhỏ các mảng thành 2 phần, một phần là tập huấn luyện
(training set), phần còn lại là tập kiểm thử (test set).
─ Trong đó, tỉ lệ giữa tập huấn luyện và tập kiểm thử ở bài này là
.
8. from sklearn.model_selection import train_test_split
9. X_train, X_test, Y_train, Y_test=
train_test_split(X, Y, train_size = 0.8, random_state = 0)
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
44
TRỰC QUAN HÓA DỮ LIỆU HUẤN LUYỆN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
45
Trực quan hóa dữ liệu huấn luyện
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
46
Trực quan hóa dữ liệu huấn luyện
─ Để trực quan hóa dữ liệu, ta sử dụng các hàm của thư viện
matplotlib.pyplot.
─ Ở bài này, ta sẽ trực quan hóa dữ liệu bằng cách vẽ các điểm
trong tập dữ liệu huấn luyện lên mặt phẳng tọa độ.
─ Lưu ý: Tập dữ liệu ban đầu có 30 điểm dữ liệu được chia thành
hai tập dữ liệu X_train, Y_train, X_test, Y_test theo tỉ lệ 80-20.
+ Tập dữ liệu train chiếm 80%: 24 điểm dữ liệu.
+ Tập dữ liệu test chiếm 20%: 6 điểm dữ liệu.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
47
Trực quan hóa dữ liệu huấn luyện
10.import matplotlib.pyplot as plt
11.# Visualize training data
12.plt.scatter(X_train, Y_train, color = "red")
13.plt.title("Salary vs Experiment")
14.plt.xlabel("Experiment (years)")
15.plt.ylabel("Salary (dollars/year)")
16.plt.show()
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
48
Trực quan hóa dữ liệu huấn luyện
─ Ta thấy, các điểm dữ liệu của
tập huấn luyện có quan hệ
gần tuyến tính với nhau.
─ Do đó, mô hình hồi quy tuyến
tính phù hợp với bài toán này.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
49
HUẤN LUYỆN MÔ HÌNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
50
Huấn luyện mô hình
─ Cách tìm các hệ số ଵ, ଶ của mô hình hồi quy tuyến
tính đã có sẵn trong lớp LinearRegression ở module
linear_model, package sklearn.
─ Quá trình tìm các hệ số này dựa trên một tập dữ liệu gọi là huấn
luyện (training).
17.from sklearn.linear_model import LinearRegression
18.regressor = LinearRegression()
19.regressor.fit(X_train, Y_train)
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
51
TRỰC QUAN HÓA KẾT QUẢ
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
52
Trực quan hóa kết quả
─ Ban đầu, ta sẽ vẽ đường
thẳng thu được sau khi huấn
luyện mô hình dựa trên tập dữ
liệu huấn luyện.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, KHU PHỐ 6, PHƯỜNG LINH TRUNG, QUẬN THỦ ĐỨC, TP. HỒ CHÍ MINH
[T] 028 3725 2002 101 | [F] 028 3725 2148 | [W] www.uit.edu.vn | [E] info@uit.edu.vn
53
Trực quan hóa kết quả
20.Y_train_pred = regressor.predict(X_train)
21.plt.scatter(X_train, Y_train, color = "red")
22.plt.plot(X_train, Y_train_pred, color = "blue")
23.plt.title("Salary