Bài giảng Six sigma - Chương 17: Phân tích tương quan & hồi quy

Phân tích tương quan và hồi quy? Phân tích tương quan Một kỹ thuật mà chỉ ra được mức độ của sự liên kết giữa 2 biến số trong trong số những hạng mục được sử dụng hệ số tương quan. Ví dụ) IQ ( Chỉ số thông minh) so với thành tích học tập, nghiên cứu, hút thuốc ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy trình ngược với phát triển sản phẩm, việc tập thể dục so với dung lượng phổi Phân tích hồi quy Kỹ thuật phân tích thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến thiên đó

ppt31 trang | Chia sẻ: thuyduongbt11 | Ngày: 09/06/2022 | Lượt xem: 572 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Bài giảng Six sigma - Chương 17: Phân tích tương quan & hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích tương quan & hồi quy Phân tích tương quan Phân tích hồi quy Mục tiêu học tập * Hiểu được hệ số tương quan và mối quan hệ qua lại giữa các biến số thông qua phân tích tính tương quan * Dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy * Thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau trên Minitab. Phân tích tương quan Một kỹ thuật mà chỉ ra được mức độ của sự liên kết giữa 2 biến số trong trong số những hạng mục được sử dụng hệ số tương quan. Ví dụ) IQ ( Chỉ số thông minh) so với thành tích học tập, nghiên cứu, hút thuốc ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy trình ngược với phát triển sản phẩm, việc tập thể dục so với dung lượng phổi Phân tích hồi quy Kỹ thuật phân tích thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến thiên đó Phân tích tương quan và hồi quy? X-Y X-Y X-Y X-Y X-Y X-Y Phân tích tính tương quan Phương pháp phân tích mức liên kết giữa các biến số. Có thể phân tích sử dụng biểu đồ phân tán và hệ số tương quan . Biểu đồ phân tán Trình bày các điểm biểu thị điểm dữ liệu trên bảng phối hợp. Biểu đồ phân tán chỉ ra mối quan hệ giữa hai biến thiên đó. Hệ số tương quan - Đây là sự trưng bày tuyến tính giữa 2 biến số trong các số hạng. ( Không đề cập đến mối quan hệ chức năng ) - Mẫu của hệ số tương quan r > Có giá trị giữa -1 và 1 > Nếu r có giá trị (+) : tương quan dương giá trị ( - ) : tương quan âm giá trị gần tới 0 (không): không tương quan giá trị gần hơn -1 hoặc đến 1: tương quan chặt chẽ Tổng quát về phân tích tính tương quan Mối quan hệ giữa biểu đồ phân tán và hệ số tương quan Tương quan dương mạnh mẽ Tương quan dương yếu                                  Tương quan âm mạnh mẽ Tương quan âm yếu                                                                                                                               Chi phí quảng cáo Doanh số bán hàng Chi phí quảng cáo Doanh số bán hàng Trình tự phân tích tương quan Ví dụ Thực hiện một phân tích để nhận biết mối liên hệ hiện có giữa chi phí quảng cáo (X) và doanh số bán hàng (Y)của sản phẩm được sản xuất tại công ty A. (Tên file : Correlation-Regression.mtw ) 445 405 395 375 465 405 346 335 417 395 365 345 445 395 388 353 459 415 435 365 336 325 418 375 355 367 445 385 365 375 455 395 395 395 405 365 346 355 429 385 365 365 1 2 Bước 1 Nhập dữ liệu Bước 2 Vẽ biểu đồ phân tán Graph > Scatterplot Chọn hình dạng của biểu đồ Biểu thị cột chứa dữ liệu của trục X và trục Y Correlations: Expenditure, SaleVolume Pearson correlation of Expenditure and SaleVolume = 0.834 P-Value = 0.000 1 2 Bước 3 Tiến hành phân tích tương quan Stat > Basic Statistics > Correlation Chọn cột với dữ liệu Hệ số tương quan P-Value Hệ tương quan là 0,834 chỉ ra rằng tương quan dương và P-giá trị là 0,000 là nhỏ hơn mức tương đối của 0,05. Do đó, chúng ta có thể kết luận rằng tương quan chi phí quảng cáo và doanh số bán hàng là đáng kể Sự lạm dụng và sử dụng sai hệ số tương quan Ngay cả nếu có tương quan giữa hai biến số, điều đó không có nghĩa là trung bình của một biến số đó là nguyên nhân của cái kia. Biến số thứ ba có thể ẩn mà ảnh hưởng đến cả hai biến số kia. Càng bị muỗi cắn thì doanh thu bán kem càng lớn có phải không? ???? Mùa Ảnh hưởng của biến số thứ 3 Sự tương quan không có nghĩa là tạo ra kết quả! Phân tích tương quan chỉ ra sức mạnh liên kết giữa hai biến số nhưng không chỉ ra mối quan hệ chức năng chính xác. Nếu trong trường hợp này, điều gì bạn phải làm để ước lượng kết quả của biến số đầu ra với biến số đầu vào ? Điều gì nên làm? Tổng quan về phân tích hồi quy Phân tích hồi quy Kỹ thuật phân tích thống kê cho phép chúng ta dự đoán biến số đầu ra với biến số đầu vào bằng cách nhận dạng mối liên hệ chức năng giữa hai biến số sử dụng phương trình hồi quy. Phương trình hồi quy Một phương trình mà dự đoán các giá trị đầu ra tương ứng với các giá trị đầu vào Các loại của phân tích hồi quy Phân loại biến số đầu vào - Phân tích hồi quy đơn giản : Khi chỉ có một biến số đầu vào - Phân tích hồi quy phức tạp : Khi có hai hoặc nhiều hơn các biến số Phân loại bằng mối liên hệ giữa biến số đầu ra và biến số đầu vào - Phân tích hồi quy tuyến : Một phân tích mô hình giả định một mối quan hệ tuyến tính . - Phân tích hồi quy không tuyến (cong): : Một mô hình phân tích rằng giả định rằng có một mối quan hệ đường cong Phân tích hồi quy đơn giản Chi phí quảng cáo Doanh số bán hàng Chi phí quảng cáo Doanh số bán hàng Ví dụ Chúng ta phải tìm ra tác động của chi phí quảng cáo đến cột doanh thu của sản phẩm A được sản xuất tại công ty S. Thực hiện phân tích hồi quy với các dũ liệu sau. . (Tên file: Correlation-Regression.mtw ) 445 405 395 375 465 405 346 335 417 395 365 345 445 395 388 353 459 415 435 365 336 325 418 375 355 367 445 385 365 375 455 395 395 395 405 365 346 355 429 385 365 365 1 2 3 Bước 1 Phân tích hồi quy Tạo ra phương trình hồi quy thông qua việc phân tích hồi quy Stat > Regression > Regression Kiểm soát hiển thị kết quả đầu ra trên của sổ (Không hiển thị, chỉ hiển thị thông tin cơ bản, hiển thị giá trị phù hợp và bảng dư ra) Biến số độc lập Biến số phụ thuộc Vẽ đồ thị dư Thông tin khác nhau có thể lưu trữ trên cửa sổ làm việc (Work Sheet window) Regression Analysis: SaleVolume versus Expenditure The regression equation is SaleVolume = 183 + 0.476 Expenditure Predictor Coef SE Coef T P Constant 182.81 29.36 6.23 0.000 Expenditure 0.47629 0.07239 6.58 0.000 S = 13.56 R-Sq = 69.5% R-Sq(adj) = 67.9% Analysis of Variance Source DF SS MS F P Regression 1 7955.9 7955.9 43.29 0.000 Residual Error 19 3492.1 183.8 Total 20 11448.0 - Kết quả thực hiện từ Minitab Phương trình hồi quy P-Value : Xác định có hay không số thống kê có ý nghĩa. Hệ số xác định R 2 (Hệ số xác định) R 2 được gọi là hệ số xác định và đặt tại vị trí trong khoảng 0≤R 2 ≤1. R 2 là tỉ lệ phương sai được giải thích bằng dòng hồi quy nằm ngoài tổng các phương sai. Đó là, nếu R 2 là 0.7, 70% của phương sai được giải thích bởi phương trình hồi quy và còn lại 30% là do nhân tố khác nhau. R 2 adj ( Hệ số xác định được điều chỉnh ) R 2 trở nên lớn hơn như biến thiên độc lập được thêm vào mẫu hồi quy. R 2 giá trị không thể sử dụng như tiêu chí chọn lựa đối với mẫu ưu tiên trong việc phân tích hồi quy phức tạp. Thay vào đó, R 2 adj được sử dụng vì nó bổ sung thêm cho các hàm yếu đã cho ở trên. R 2 adj trở nên nhỏ hơn khi các biến số độc lập vô nghĩa được thêm vào mẫu. Do đó, R 2 adj thường được sử dụng như tiêu chí để chọn các mẫu ưu tiên. Thuyết minh cho giá trị P-Value và R 2 (adj) P-Value < 0.05 P-Value > 0.05 R 2 (adj) lớn Phương sai được tính cho mức thống kê quan trọng. [Tìm thấy một điều gì đó có ý nghĩa] Xác nhận ảnh hưởng của nhân tố, độ lệch chuẩn, tiêu chuẩn..., và ý nghĩa thực tế. Phương sai được tính, nhưng nó không là mức thống kê quan trọng. [Cần thêm nhiều dữ liệu.] Qúa ít dữ liệu có thể dẫn đến tình trạng này. Thêm vào đó những yếu tố nằm ngoài cũng có thể có ảnh hưởng đáng kể. R 2 (adj) nhỏ Phương sai là một phần được tính cho mức thống kê có ý nghĩa. [Những X khác] Quá nhiều dữ liệu có thể dẫn đến giá trị P nhỏ. Nếu thấy R2 là vừa đủ ( ngay cả sự thay đổi nhỏ này cũng có ý nghĩa vì thay đổi trong y rất quan trọng ) và những X khác Phương sai không được tính và nó cũng không là mức thống kê có ý nghĩa. [Không có gì] Thu thập càng nhiều dữ liệu, và xem nếu đó là mối quan hệ phi tuyến tính. Kiểm tra những X khác nữa. Những gì cần được kiểm tra trước khi định nghĩa phương trình hồi quy : Phương trình hồi chiếu lệch số thứ nhất được xác định thông qua phân tích hồi quy, có chính xác không? Có phải không cần mẫu trật tự cao? 2 3 6 1 4 5 Bước 2 Xác minh mô hình hồi quy Phân tích các mô hình hồi quy để kiểm tra xem có hay không một mô hình hồi quy trình tự cao là cần thiết Stat > Regression > Fitted Line Plot Xác định loại mô hình hồi quy Tuyến tính: hồi quy tuyến tính Bình phương: hồi quy đường cong bình phương Lập phương: hồi quy đường cong lập phương Lưu trữ số dư và giá trị phù hợp trong bảng làm việc - Kết quả thực hiện từ Minitab The regression equation is SaleVolume = 182.807 + 0.476288 Expenditure S = 13.5571 R-Sq = 69.5 % R-Sq(adj) = 67.9 % The regression equation is SaleVolume = 37.3209 + 1.20943 Expenditure - 0.0009140 Expenditure **2 S = 13.8674 R-Sq = 69.8 % R-Sq(adj) = 66.4 % The regression equation is SaleVolume = -7212.82 + 56.0416 Expenditure - 0.138346 Expenditure **2 + 0.0001142 Expenditure **3 S = 13.0853 R-Sq = 74.6 % R-Sq(adj) = 70.1 % [ Tuyến tính ] [ Bình phương ] [ Lập phương ] Mặc dù R 2 adj của mô hình lập phương ở trang trước, kết quả cho chúng ta biết rằng giá trị p- cho mô hình bình phương và mô hình lập phương là lớn hơn 0,05, và do đó các ảnh hưởng không đáng kể. Đó là, ảnh hưởng của bình phương và lập phương là không đáng kể và do vậy mô hình tuyến tính là chính xác nhất. Polynomial Regression Analysis: SaleVolume versus Expenditure The regression equation is SaleVolume = -7212.82 + 56.0416 Expenditure - 0.138346 Expenditure **2 + 0.0001142 Expenditure **3 S = 13.0853 R-Sq = 74.6 % R-Sq(adj) = 70.1 % Analysis of Variance Source DF SS MS F P Regression 3 8537.2 2845.72 16.6197 0.000 Error 17 2910.8 171.23 Total 20 11448.0 Source DF Seq SS F P Linear 1 7955.91 43.2871 0.000 Quadratic 1 30.59 0.1591 0.695 Cubic 1 550.66 3.2160 0.091 2 3 1 Bước 3 Thực hiện phân tích thừa dư Xác định có hay không ‘mô hình hồi quy là phù hợp’ ? Stat > Regression > Regression > Residual Plots Chọn các hạng mục vào đồ thị (plot) - Vẽ tất cả hạng mục này Dữ liệu được hình thành mới khi thực hiện: “Storage>Residuals, Fits” trong bước 3 “Nhận dạng mẫu hồi quy” Chọn số dư chuẩn hóa tổng quát. Tiêu chuẩn hóa số dư = (Số dư) / (độ lệch chuẩn của số dư) - Kết quả thực hiện từ Minitab Xác nhận số dư có phân bố chuẩn hay không (Số dư tuân theo phân bố chuẩn và hầu hết các chấm đều nằm theo đường thẳng) Những số dư là những điểm ngẫu nhiên xung quanh số 0 (zero) Xác nhận sự phân bố của những số dư thông qua biểu đồ. Những số dư không xuất hiện theo một mô hình nào. Biến số đầu vào         Biến số đầu ra  - Số dư càng nhỏ, thì phương trình hồi quy ước tính tính tốt hơn cho việc quan sát thực tế Số dư ước lượng tốt nhất về lỗi Số dư phải đối xứng qua số 0 (không) và không được chỉ hướng cụ thể Số dư là gì ? Số dư ngụ ý chỉ sự khác nhau giữa giá trị thực tế và giá trị dự đoán mô hình hồi quy. Một mô hình phù hợp có thể được xác nhận thông qua phân tích số dư. Cần thiết cho phân tích số dư Thực hiện phân tích hồi quy với dữ liệu sau. (Tên file : Corr-Residual.mtw) Y X1 X2 10 8.04 9.14 8 6.95 8.14 13 7.58 8.74 9 8.81 8.77 11 8.33 9.26 14 9.96 8.10 6 7.24 6.13 4 4.26 3.10 12 10.84 9.13 7 4.82 7.26 5 5.68 4.74 Số dư đối với Y-X1 thì ngẫu nhiên trong khi số dư cho Y-X2 thì không Regression Analysis: Y versus X1 The regression equation is Y = - 1.00 + 1.33 X1 Predictor Coef SE Coef T P Constant -0.998 2.434 -0.41 0.692 X1 1.3328 0.3142 4.24 0.002 S = 2.01881 R-Sq=66.7% R-Sq(adj)=62.9% Regression Analysis: Y versus X2 The regression equation is Y = - 0.99 + 1.33 X2 Predictor Coef SE Coef T P Constant -0.995 2.435 -0.41 0.692 X2 1.3325 0.3144 4.24 0.002 S = 2.01972 R-Sq=66.6% R-Sq(adj)=62.9% - Kết quả phân tích > Không có sự khác nhau giữa Y-X1 R 2 =66,7% và Y-X2 R 2 = 66.6% > Tuy nhiên, từ việc phân tích số dư, chúng ta biết là rằng phương trình hồi quy Y-X1 là đúng nhưng phương trình hồi quy Y-X2 là không chính xác. > Trong trường hợp Y-X2, chúng ta cần xem xét việc áp dụng mô hình bình phương . Ví dụ này chỉ rõ ra tính rủi ro khi áp dụng công thức một cách mù quáng trong việc phân tích hồi quy và việc quan trọng của đồ thị phân tán và phân tích số dư. Phòng ngừa đối với phân tích hồi quy Phương trình hồi quy được sử dụng để dự đoán trong phạm vi của các biến số được thử nghiệm. Xác định nếu các biến số mà bạn muốn ước tính là phải nằm trong phạm vi bạn đã chọn. Nếu chúng lệch ra khỏi phạm vi , thì phải thực hiện thử nghiệm để xác nhận Không được ngoại suy nó, luôn xác định lại nó ! Tóm tắt Phân tích tương quan và phân tích hồi quy Được sử dụng để phân tích các mức liên kết giữa các biến số đầu vào và biến số đầu ra. Phân tích tương quan chỉ ra có bao nhiêu liên kết tồn tại giữa các biến số, trong đó Phân tích hồi quy suy ra phương trình giữa chúng. Các loại của phân tích hồi quy - Phân loại hồi quy đơn giản và phức tạp theo số lượng biến số đầu vào - Phân loại theo tuyến tính và không tuyến tính theo mối quan hệ giữa các biến số đầu vào và đầu ra. Ghi chú Hệ số xác định (R 2 ) Hệ số xác định là tỉ lệ của phương sai được giải thích bởi phương trình hồi quy khỏi tổng các phương sai. Đối với hồi quy phức tạp và hồi quy không tuyến tính, R 2 adj phải được kiểm tra. Phân tích số dư Phương trình hồi quy phù hợp có thể được xác định thông qua phân tích số dư. Bài tập 1. Dữ liệu thu được theo sau là sự nghiên cứu về bộ nhớ của con người (X) và sự phán đoán (Y). Phân tích dữ liệu theo một trật tự sau đây (Tên file : CorrRegression_Ex1.mtw) 1)Mô tả mối liên hệ giữa X và Y. (Cho ví dụ, X giảm và Y tăng) Thuyết minh các số dư. ① Các thông số dư tuân theo phân bổ thông thường không? ② Dựa vào kết quả phân tích số dư, mô hình có xuất hiện chính xác không? Bộ nhớ (X) 11 10 14 18 10 6 12 8 15 16 Sự phán đoán (Y) 6 4 6 10 2 3 5 4 6 9 Bài tập 2) Thuyết minh kết quả ① Phương trình hồi quy là gì? ② Các giá trị đối với R 2 and R 2 adj là gì ? ③ Giá trị R 2 là gì ? 2. Để xác định mối liên hệ giữa số năm sử dụng (X) và chi phí bảo trì (Y), Đội đổi cải tiến đã phân tích ghi chép bảo trì trên cùng 1 loại máy photo copy, và thu được dữ liệu như sau : Từ dữ liệu này, nhận dạng phương trình hồi quy đơn giản với giải thích mối liên hệ giữa X và Y (Tên file : CorrRegression_Ex2.mtw) Giai đoạn sử dụng (Years) 3 1 5 8 1 4 2 6 9 3 5 7 2 6 Chi phí bảo trì (USD) 39 24 115 105 50 86 67 90 140 112 70 186 43 126 3. Để điều tra khối lượng tiêu thụ nước hàng tháng, Công ty S thu thập các dữ liệu về tiêu thụ nước hàng tháng (y), nhiệt độ trung bình (x1), số ngày làm việc (x2) và cường độ làm việc (x3), như sau . (Tên file: CorrRegression_Ex3.mtw) 1) Miêu tả mối quan hệ giữa các biến số X và Y . 2) Phương trình hồi quy là gì? 3) Các giá trị đối với R 2 and R 2 adj là gì ? X1 X2 X3 Y 10 27 64 2.8 24 26 72 3.9 25 28 80 3.9 28 26 88 4.4 15 30 81 3.1 18 24 45 3.1 22 27 46 3.5 22 25 69 3.6 12 27 54 3.0 15 25 39 3.3 Trả lời 1. 1) Y tăng khi X tăng 2) ① Với P-Value=0.093 thì dữ liệu có phân bố chuẩn. ② Các số dư tuân theo phân bố chuẩn. Số dư không vượt ra ngoài dòng giới hạn kiểm soát trong bảng đồ I và không xuất hiện theo một mô hình nào. Và chúng được phân bố ngẫu nhiên quanh số 0 (không) trong các số dư ngược với biểu đồ Fit. Dựa vào kết quả phân tích số dư, mô hình phù hợp sẽ được quyết định. 3) ① Y = - 1.55 + 0.587 X ② R 2 :76.9%, R 2 adj :74.0% ③ Tỷ lệ phương sai được giải thích bởi phương trình hồi quy nằm ngoài tổng các phương sai 2. Chi phí bảo trì = 29.1 + 13.6* Số năm sử dụng 3. 1) Y tăng là X1 tăng, X2 giảm, và X3 tăng 2) y = 2.41 + 0.0698 x1 - 0.0248 x2 + 0.00586 x3 3) R-Sq = 92.0% R-Sq(adj) = 88.0%