Phân tích tương quan và hồi quy? Phân tích tương quan Một kỹ thuật mà chỉ ra được mức độ của sự liên kết giữa 2 biến số trong trong số những hạng mục được sử dụng hệ số tương quan. Ví dụ) IQ ( Chỉ số thông minh) so với thành tích học tập, nghiên cứu, hút thuốc ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy trình ngược với phát triển sản phẩm, việc tập thể dục so với dung lượng phổi Phân tích hồi quy Kỹ thuật phân tích thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến thiên đó
31 trang |
Chia sẻ: thuyduongbt11 | Ngày: 09/06/2022 | Lượt xem: 587 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Bài giảng Six sigma - Chương 17: Phân tích tương quan & hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích tương quan & hồi quy
Phân tích tương quan
Phân tích hồi quy
Mục tiêu học tập
* Hiểu được hệ số tương quan và mối quan hệ qua lại giữa các biến số thông qua phân tích tính tương quan
* Dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy
* Thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau trên Minitab.
Phân tích tương quan
Một kỹ thuật mà chỉ ra được mức độ của sự liên kết giữa 2 biến số trong trong số những hạng mục được sử dụng hệ số tương quan.
Ví dụ) IQ ( Chỉ số thông minh) so với thành tích học tập, nghiên cứu, hút thuốc ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy trình ngược với phát triển sản phẩm, việc tập thể dục so với dung lượng phổi
Phân tích hồi quy
Kỹ thuật phân tích thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến thiên đó
Phân tích tương quan và hồi quy?
X-Y
X-Y
X-Y
X-Y
X-Y
X-Y
Phân tích tính tương quan
Phương pháp phân tích mức liên kết giữa các biến số. Có thể phân tích sử dụng biểu đồ phân tán và hệ số tương quan .
Biểu đồ phân tán
Trình bày các điểm biểu thị điểm dữ liệu trên bảng phối hợp. Biểu đồ phân tán chỉ ra mối quan hệ giữa hai biến thiên đó.
Hệ số tương quan
- Đây là sự trưng bày tuyến tính giữa 2 biến số trong các số hạng.
( Không đề cập đến mối quan hệ chức năng )
- Mẫu của hệ số tương quan r
> Có giá trị giữa -1 và 1
> Nếu r có giá trị (+) : tương quan dương
giá trị ( - ) : tương quan âm
giá trị gần tới 0 (không): không tương quan
giá trị gần hơn -1 hoặc đến 1: tương quan chặt chẽ
Tổng quát về phân tích tính tương quan
Mối quan hệ giữa biểu đồ phân tán và hệ số tương quan
Tương quan dương mạnh mẽ
Tương quan dương yếu
Tương quan âm mạnh mẽ
Tương quan âm yếu
Chi phí quảng cáo
Doanh số bán hàng
Chi phí quảng cáo
Doanh số bán hàng
Trình tự phân tích tương quan
Ví dụ
Thực hiện một phân tích để nhận biết mối liên hệ hiện có giữa chi phí quảng cáo (X) và doanh số bán hàng (Y)của sản phẩm được sản xuất tại công ty A.
(Tên file : Correlation-Regression.mtw )
445 405
395 375
465 405
346 335
417 395
365 345
445 395
388 353
459 415
435 365
336 325
418 375
355 367
445 385
365 375
455 395
395 395
405 365
346 355
429 385
365 365
1
2
Bước 1 Nhập dữ liệu
Bước 2 Vẽ biểu đồ phân tán
Graph > Scatterplot
Chọn hình dạng của biểu đồ
Biểu thị cột chứa dữ liệu của trục X và trục Y
Correlations: Expenditure, SaleVolume
Pearson correlation of Expenditure and SaleVolume = 0.834
P-Value = 0.000
1
2
Bước 3 Tiến hành phân tích tương quan
Stat > Basic Statistics > Correlation
Chọn cột với dữ liệu
Hệ số tương quan
P-Value
Hệ tương quan là 0,834 chỉ ra rằng tương quan dương và P-giá trị là 0,000 là nhỏ hơn mức tương đối của 0,05. Do đó, chúng ta có thể kết luận rằng tương quan chi phí quảng cáo và doanh số bán hàng là đáng kể
Sự lạm dụng và sử dụng sai hệ số tương quan
Ngay cả nếu có tương quan giữa hai biến số, điều đó không có nghĩa là trung bình của một biến số đó là nguyên nhân của cái kia.
Biến số thứ ba có thể ẩn mà ảnh hưởng đến cả hai biến số kia.
Càng bị muỗi cắn thì
doanh thu bán kem càng lớn
có phải không? ????
Mùa
Ảnh hưởng của biến số thứ 3
Sự tương quan không có nghĩa là tạo ra kết quả!
Phân tích tương quan chỉ ra sức mạnh liên kết giữa hai biến số nhưng không chỉ ra mối quan hệ chức năng chính xác.
Nếu trong trường hợp này, điều gì bạn phải làm để ước lượng kết quả của biến số đầu ra với biến số đầu vào ?
Điều gì nên làm?
Tổng quan về phân tích hồi quy
Phân tích hồi quy
Kỹ thuật phân tích thống kê cho phép chúng ta dự đoán biến số đầu ra với biến số đầu vào bằng cách nhận dạng mối liên hệ chức năng giữa hai biến số sử dụng phương trình hồi quy.
Phương trình hồi quy
Một phương trình mà dự đoán các giá trị đầu ra tương ứng với các giá trị đầu vào
Các loại của phân tích hồi quy
Phân loại biến số đầu vào
- Phân tích hồi quy đơn giản : Khi chỉ có một biến số đầu vào
- Phân tích hồi quy phức tạp : Khi có hai hoặc nhiều hơn các biến số
Phân loại bằng mối liên hệ giữa biến số đầu ra và biến số đầu vào
- Phân tích hồi quy tuyến : Một phân tích mô hình giả định một mối quan hệ tuyến tính .
- Phân tích hồi quy không tuyến (cong): : Một mô hình phân tích rằng giả định rằng có một mối quan hệ đường cong
Phân tích hồi quy đơn giản
Chi phí quảng cáo
Doanh số bán hàng
Chi phí quảng cáo
Doanh số bán hàng
Ví dụ
Chúng ta phải tìm ra tác động của chi phí quảng cáo đến cột doanh thu của sản phẩm A được sản xuất tại công ty S. Thực hiện phân tích hồi quy với các dũ liệu sau. . (Tên file: Correlation-Regression.mtw )
445 405
395 375
465 405
346 335
417 395
365 345
445 395
388 353
459 415
435 365
336 325
418 375
355 367
445 385
365 375
455 395
395 395
405 365
346 355
429 385
365 365
1
2
3
Bước 1 Phân tích hồi quy
Tạo ra phương trình hồi quy thông qua việc phân tích hồi quy
Stat > Regression > Regression
Kiểm soát hiển thị kết quả đầu ra trên của sổ (Không hiển thị, chỉ hiển thị thông tin cơ bản, hiển thị giá trị phù hợp và bảng dư ra)
Biến số độc lập
Biến số phụ thuộc
Vẽ đồ thị dư
Thông tin khác nhau có thể lưu trữ trên cửa sổ làm việc (Work Sheet window)
Regression Analysis: SaleVolume versus Expenditure
The regression equation is
SaleVolume = 183 + 0.476 Expenditure
Predictor Coef SE Coef T P
Constant 182.81 29.36 6.23 0.000
Expenditure 0.47629 0.07239 6.58 0.000
S = 13.56 R-Sq = 69.5% R-Sq(adj) = 67.9%
Analysis of Variance
Source DF SS MS F P
Regression 1 7955.9 7955.9 43.29 0.000
Residual Error 19 3492.1 183.8
Total 20 11448.0
- Kết quả thực hiện từ Minitab
Phương trình hồi quy
P-Value
: Xác định có hay không số thống kê có ý nghĩa.
Hệ số xác định
R 2 (Hệ số xác định)
R 2 được gọi là hệ số xác định và đặt tại vị trí trong khoảng 0≤R 2 ≤1.
R 2 là tỉ lệ phương sai được giải thích bằng dòng hồi quy nằm ngoài tổng các phương sai.
Đó là, nếu R 2 là 0.7, 70% của phương sai được giải thích bởi phương trình hồi quy và còn lại 30% là do nhân tố khác nhau.
R 2 adj ( Hệ số xác định được điều chỉnh )
R 2 trở nên lớn hơn như biến thiên độc lập được thêm vào mẫu hồi quy. R 2 giá trị không thể sử dụng như tiêu chí chọn lựa đối với mẫu ưu tiên trong việc phân tích hồi quy phức tạp. Thay vào đó, R 2 adj được sử dụng vì nó bổ sung thêm cho các hàm yếu đã cho ở trên.
R 2 adj trở nên nhỏ hơn khi các biến số độc lập vô nghĩa được thêm vào mẫu.
Do đó, R 2 adj thường được sử dụng như tiêu chí để chọn các mẫu ưu tiên.
Thuyết minh cho giá trị P-Value và R 2 (adj)
P-Value < 0.05
P-Value > 0.05
R 2 (adj) lớn
Phương sai được tính cho mức thống kê quan trọng.
[Tìm thấy một điều gì đó có ý nghĩa]
Xác nhận ảnh hưởng của nhân tố, độ lệch chuẩn, tiêu chuẩn..., và ý nghĩa thực tế.
Phương sai được tính, nhưng nó không là mức thống kê quan trọng.
[Cần thêm nhiều dữ liệu.]
Qúa ít dữ liệu có thể dẫn đến tình trạng này. Thêm vào đó những yếu tố nằm ngoài cũng có thể có ảnh hưởng đáng kể.
R 2 (adj) nhỏ
Phương sai là một phần được tính cho mức thống kê có ý nghĩa.
[Những X khác]
Quá nhiều dữ liệu có thể dẫn đến giá trị P nhỏ. Nếu thấy R2 là vừa đủ ( ngay cả sự thay đổi nhỏ này cũng có ý nghĩa vì thay đổi trong y rất quan trọng ) và những X khác
Phương sai không được tính và nó cũng không là mức thống kê có ý nghĩa.
[Không có gì]
Thu thập càng nhiều dữ liệu, và xem nếu đó là mối quan hệ phi tuyến tính. Kiểm tra những X khác nữa.
Những gì cần được kiểm tra trước khi định nghĩa phương trình hồi quy :
Phương trình hồi chiếu lệch số thứ nhất được xác định
thông qua phân tích hồi quy, có chính xác không?
Có phải không cần mẫu trật tự cao?
2
3
6
1
4
5
Bước 2 Xác minh mô hình hồi quy
Phân tích các mô hình hồi quy để kiểm tra xem có hay không một mô hình hồi quy trình tự cao là cần thiết
Stat > Regression > Fitted Line Plot
Xác định loại mô hình hồi quy
Tuyến tính: hồi quy tuyến tính
Bình phương: hồi quy đường cong
bình phương
Lập phương: hồi quy đường cong
lập phương
Lưu trữ số dư và giá trị phù hợp trong bảng làm việc
- Kết quả thực hiện từ Minitab
The regression equation is
SaleVolume = 182.807 + 0.476288 Expenditure
S = 13.5571 R-Sq = 69.5 % R-Sq(adj) = 67.9 %
The regression equation is
SaleVolume = 37.3209 + 1.20943 Expenditure
- 0.0009140 Expenditure **2
S = 13.8674 R-Sq = 69.8 % R-Sq(adj) = 66.4 %
The regression equation is
SaleVolume = -7212.82 + 56.0416 Expenditure
- 0.138346 Expenditure **2
+ 0.0001142 Expenditure **3
S = 13.0853 R-Sq = 74.6 % R-Sq(adj) = 70.1 %
[ Tuyến tính ]
[ Bình phương ]
[ Lập phương ]
Mặc dù R 2 adj của mô hình lập phương ở trang trước, kết quả cho chúng ta biết rằng giá trị p- cho mô hình bình phương và mô hình lập phương là lớn hơn 0,05, và do đó các ảnh hưởng không đáng kể. Đó là, ảnh hưởng của bình phương và lập phương là không đáng kể và do vậy mô hình tuyến tính là chính xác nhất.
Polynomial Regression Analysis: SaleVolume versus Expenditure
The regression equation is
SaleVolume = -7212.82 + 56.0416 Expenditure - 0.138346 Expenditure **2 + 0.0001142 Expenditure **3
S = 13.0853 R-Sq = 74.6 % R-Sq(adj) = 70.1 %
Analysis of Variance
Source DF SS MS F P
Regression 3 8537.2 2845.72 16.6197 0.000
Error 17 2910.8 171.23
Total 20 11448.0
Source DF Seq SS F P
Linear 1 7955.91 43.2871 0.000
Quadratic 1 30.59 0.1591 0.695
Cubic 1 550.66 3.2160 0.091
2
3
1
Bước 3 Thực hiện phân tích thừa dư
Xác định có hay không ‘mô hình hồi quy là phù hợp’ ?
Stat > Regression > Regression > Residual Plots
Chọn các hạng mục vào đồ thị (plot)
- Vẽ tất cả hạng mục này
Dữ liệu được hình thành mới khi thực hiện: “Storage>Residuals, Fits” trong bước 3 “Nhận dạng mẫu hồi quy”
Chọn số dư chuẩn hóa tổng quát.
Tiêu chuẩn hóa số dư
= (Số dư) / (độ lệch chuẩn của số dư)
- Kết quả thực hiện từ Minitab
Xác nhận số dư có phân bố chuẩn hay không (Số dư tuân theo phân bố chuẩn và hầu hết các chấm đều nằm theo đường thẳng)
Những số dư là những điểm ngẫu nhiên xung quanh số 0 (zero)
Xác nhận sự phân bố của những số dư thông qua biểu đồ.
Những số dư không xuất hiện theo một mô hình nào.
Biến số đầu vào
Biến số đầu ra
- Số dư càng nhỏ, thì phương trình hồi quy ước tính tính tốt hơn cho việc quan sát thực tế
Số dư ước lượng tốt nhất về lỗi
Số dư phải đối xứng qua số 0 (không) và không được chỉ hướng cụ thể
Số dư là gì ?
Số dư ngụ ý chỉ sự khác nhau giữa giá trị thực tế và giá trị dự đoán mô hình hồi quy. Một mô hình phù hợp có thể được xác nhận thông qua phân tích số dư.
Cần thiết cho phân tích số dư
Thực hiện phân tích hồi quy với dữ liệu sau.
(Tên file : Corr-Residual.mtw)
Y
X1
X2
10
8.04
9.14
8
6.95
8.14
13
7.58
8.74
9
8.81
8.77
11
8.33
9.26
14
9.96
8.10
6
7.24
6.13
4
4.26
3.10
12
10.84
9.13
7
4.82
7.26
5
5.68
4.74
Số dư đối với Y-X1 thì ngẫu nhiên trong khi số dư cho Y-X2 thì không
Regression Analysis: Y versus X1
The regression equation is
Y = - 1.00 + 1.33 X1
Predictor Coef SE Coef T P
Constant -0.998 2.434 -0.41 0.692
X1 1.3328 0.3142 4.24 0.002
S = 2.01881 R-Sq=66.7% R-Sq(adj)=62.9%
Regression Analysis: Y versus X2
The regression equation is
Y = - 0.99 + 1.33 X2
Predictor Coef SE Coef T P
Constant -0.995 2.435 -0.41 0.692
X2 1.3325 0.3144 4.24 0.002
S = 2.01972 R-Sq=66.6% R-Sq(adj)=62.9%
- Kết quả phân tích
> Không có sự khác nhau giữa Y-X1 R 2 =66,7% và Y-X2 R 2 = 66.6%
> Tuy nhiên, từ việc phân tích số dư, chúng ta biết là rằng phương trình hồi quy Y-X1 là đúng nhưng phương trình hồi quy Y-X2 là không chính xác.
> Trong trường hợp Y-X2, chúng ta cần xem xét việc áp dụng mô hình bình phương .
Ví dụ này chỉ rõ ra tính rủi ro khi áp dụng công thức một cách mù quáng trong việc phân tích hồi quy và việc quan trọng của đồ thị phân tán và phân tích số dư.
Phòng ngừa đối với phân tích hồi quy
Phương trình hồi quy được sử dụng để dự đoán trong phạm vi của các biến số được thử nghiệm.
Xác định nếu các biến số mà bạn muốn ước tính là phải nằm trong phạm vi bạn đã chọn. Nếu chúng lệch ra khỏi phạm vi , thì phải thực hiện thử nghiệm để xác nhận
Không được ngoại suy nó, luôn xác định lại nó !
Tóm tắt
Phân tích tương quan và phân tích hồi quy
Được sử dụng để phân tích các mức liên kết giữa các biến số đầu vào và biến số đầu ra.
Phân tích tương quan chỉ ra có bao nhiêu liên kết tồn tại giữa các biến số, trong đó
Phân tích hồi quy suy ra phương trình giữa chúng.
Các loại của phân tích hồi quy
- Phân loại hồi quy đơn giản và phức tạp theo số lượng biến số đầu vào
- Phân loại theo tuyến tính và không tuyến tính theo mối quan hệ giữa các biến số đầu vào và đầu ra.
Ghi chú
Hệ số xác định (R 2 )
Hệ số xác định là tỉ lệ của phương sai được giải thích bởi phương trình hồi quy khỏi tổng các phương sai. Đối với hồi quy phức tạp và hồi quy không tuyến tính, R 2 adj phải được kiểm tra.
Phân tích số dư
Phương trình hồi quy phù hợp có thể được xác định thông qua phân tích số dư.
Bài tập
1. Dữ liệu thu được theo sau là sự nghiên cứu về bộ nhớ của con người (X) và sự phán đoán (Y).
Phân tích dữ liệu theo một trật tự sau đây (Tên file : CorrRegression_Ex1.mtw)
1)Mô tả mối liên hệ giữa X và Y. (Cho ví dụ, X giảm và Y tăng)
Thuyết minh các số dư.
① Các thông số dư tuân theo phân bổ thông thường không?
② Dựa vào kết quả phân tích số dư, mô hình có xuất hiện chính xác không?
Bộ nhớ (X)
11 10 14 18 10 6 12 8 15 16
Sự phán đoán (Y)
6 4 6 10 2 3 5 4 6 9
Bài tập
2) Thuyết minh kết quả
① Phương trình hồi quy là gì?
② Các giá trị đối với R 2 and R 2 adj là gì ?
③ Giá trị R 2 là gì ?
2. Để xác định mối liên hệ giữa số năm sử dụng (X) và chi phí bảo trì (Y), Đội đổi cải tiến đã phân tích ghi chép bảo trì trên cùng 1 loại máy photo copy, và thu được dữ liệu như sau :
Từ dữ liệu này, nhận dạng phương trình hồi quy đơn giản với giải thích mối liên hệ giữa X và Y
(Tên file : CorrRegression_Ex2.mtw)
Giai đoạn sử dụng (Years)
3 1 5 8 1 4 2 6 9 3 5 7 2 6
Chi phí bảo trì (USD)
39 24 115 105 50 86 67 90 140 112 70 186 43 126
3. Để điều tra khối lượng tiêu thụ nước hàng tháng, Công ty S thu thập các dữ liệu về tiêu thụ nước hàng tháng (y), nhiệt độ trung bình (x1), số ngày làm việc (x2) và cường độ làm việc (x3), như sau . (Tên file: CorrRegression_Ex3.mtw)
1) Miêu tả mối quan hệ giữa các biến số X và Y .
2) Phương trình hồi quy là gì?
3) Các giá trị đối với R 2 and R 2 adj là gì ?
X1
X2
X3
Y
10
27
64
2.8
24
26
72
3.9
25
28
80
3.9
28
26
88
4.4
15
30
81
3.1
18
24
45
3.1
22
27
46
3.5
22
25
69
3.6
12
27
54
3.0
15
25
39
3.3
Trả lời
1. 1) Y tăng khi X tăng
2) ① Với P-Value=0.093 thì dữ liệu có phân bố chuẩn.
② Các số dư tuân theo phân bố chuẩn. Số dư không vượt ra ngoài dòng giới hạn kiểm soát trong bảng đồ I và không xuất hiện theo một mô hình nào. Và chúng được phân bố ngẫu nhiên quanh số 0 (không) trong các số dư ngược với biểu đồ Fit. Dựa vào kết quả phân tích số dư, mô hình phù hợp sẽ được quyết định.
3) ① Y = - 1.55 + 0.587 X
② R 2 :76.9%, R 2 adj :74.0%
③ Tỷ lệ phương sai được giải thích bởi phương trình hồi quy nằm ngoài
tổng các phương sai
2. Chi phí bảo trì = 29.1 + 13.6* Số năm sử dụng
3. 1) Y tăng là X1 tăng, X2 giảm, và X3 tăng
2) y = 2.41 + 0.0698 x1 - 0.0248 x2 + 0.00586 x3
3) R-Sq = 92.0% R-Sq(adj) = 88.0%