Giải bài toán kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R

Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được giảng dạy trong xác suất - thống kê. Bài viết ngắn gọn với các nội dung chính: giới thiệu chi tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết thống kê và cuối cùng là kết luận.

6 trang | Chia sẻ: thuyduongbt11 | Lượt xem: 678 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Giải bài toán kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

79 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Tóm tắt Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được giảng dạy trong xác suất - thống kê. Bài viết ngắn gọn với các nội dung chính: giới thiệu chi tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết thống kê và cuối cùng là kết luận. Từ khóa: Phần mềm R, kiểm định giả thuyết thống kê, thống kê ứng dụng 1. Giới thiệu phần mềm R Bên cạnh các phần mềm phân tích dữ liệu như: Eviews, Stata, SPSS, S-Plus, Matlab, phần mềm R vươn lên như là một lựa cho tối ưu cho các nhà phân tích. Được đề xuất đầu tiên bởi hai tác giả Ross Ihaka và Robert Gentleman của Đại học Auckland, New Zealand vào những năm 1990, phần mềm R đã không ngừng lớn mạnh thông qua các gói lệnh (package) được phát triển bởi người dùng khắp thế giới. R là một ngôn ngữ lập trình cấp cao với mã nguồn mở (open source). Phần mềm R được sử dụng rộng rãi cho các tính toán thống kê, phân tích số liệu, Kinh tế lượng ứng dụng mà trong đó nổi bật là phân tích dữ liệu bảng (Panel Data) cùng với các công cụ hỗ trợ vẽ đồ thị rất chuyên nghiệp. Phần mềm R đã thể hiện sức mạnh qua các giải thưởng uy tín và sự tán dương của cộng đồng thế giới như: New York Times, Forbes, Intelligent Enterprise Ngoài những ứng dụng trên, phần mềm R còn là một công cụ hiệu quả thiết yếu cho Data Mining, Big Data, Data Visualization và Machine Learning. Sử dụng phần mềm R hoàn toàn miễn phí, chúng ta có thể tải về phiên bản phù hợp với hệ điều hành đang sử dụng từ https://cran.r-project.org/. Sau khi được cài đặt, phần mềm R đã * Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing GIẢI BÀI TOÁN KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ VỚI SỰ TRỢ GIÚP CỦA PHẦN MỀM R 10. ThS. Lê Trường Giang* 80 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC sẵn sàng hoạt động, tuy nhiên, giao diện mặc định không thực sự hấp dẫn. Để cải thiện điều này, chúng ta nên dùng môi trường phát triển tích hợp dành cho nó và RStudio là lựa chọn hàng đầu hiện nay. Phần mềm này bao gồm một trình biên tập đánh dấu cú pháp, hỗ trợ thực hiện mã lệnh trực tiếp, cũng như các công cụ vẽ biểu đồ, lược sử, gỡ lỗi và quản lý không gian làm việc. Để có một phiên bản RStudio, chúng ta có thể truy cập vào trang https://www. rstudio.com/. Hiện có hơn 10.000 gói lệnh trên https://cran.r-project.org/ và tất cả đều miễn phí. Một gói lệnh là một tập các mã lệnh được viết nhằm thực hiện một hệ công việc nào đó bởi một người hay một nhóm người, thường là các chuyên gia. Các gói như base hay stats được tự động cài đặt khi cài R. Những gói lệnh khác, ví dụ ggplot2 - hỗ trợ xây dựng các biểu đồ, có thể cài đặt trực tuyến bằng lệnh. Một trong những gói lệnh được quan tâm nhiều nhất trong giới giao dịch tài chính là quantmod. Trong giới hạn bài viết này, tác giả sẽ tập trung vào kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R. 2. Kiểm định giả thuyết thống kê 2.1. Kiểm định trung bình cho biến định lượng Để thực hiện kiểm định T cho biến định lượng trong R, ta sử dụng hàm t.test(). Ta có thể sử dụng cấu trúc hàm t.test() đơn giản như sau: ( ). (X, mu ,alternative c " . "," "," " ,conf .level )t test two sided less greaterµ γ= = = Trong đó: X là biến quan sát, µ là trung bình và γ là độ tin cậy. Ví dụ 1: File dữ liệu dulieu GDP.csv ghi nhận số liệu về xuất khẩu, nhập khẩu, GDP và CPI của một quốc gia từ năm 1985 đến năm 2016. a. Có nhận định cho rằng, GDP trung bình của quốc gia trên là 80.000 triệu USD. Với mức ý nghĩa 5%, hãy cho kết luận về nhận định trên. b. Có nhận định cho rằng, xuất khẩu trung bình của quốc gia trên tối đa là 30.000 triệu USD. Với mức ý nghĩa 1%, hãy cho kết luận về nhận định trên. Hướng dẫn giải > setwd(“D:/R.Software/R_Data”) > data1<-read.csv(“dulieuGDP.csv”,header = TRUE) > data1 Nam XUATKHAU NHAPKHAU GDP CPI 1 1985 698.5 1857.4 5480.517 2.90 2 1986 789.1 2155.1 7127.222 5.30 3 1987 854.2 2455.1 7797.167 6.10 4 1988 1038.4 2756.7 7925.763 4.40 5 1989 1946.0 2565.8 9923.438 3.60 6 1990 2404.0 2752.4 13212.120 6.10 7 1991 2087.1 2338.1 16362.360 6.50 81 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC 8 1992 2580.7 2540.4 20804.590 17.50 9 1993 2985.2 3924.5 24708.650 5.20 10 1994 4054.3 5825.3 26834.030 14.40 11 1995 5448.9 8155.4 26931.150 12.70 12 1996 7255.9 11143.6 28639.270 4.50 13 1997 9185.5 11592.3 31210.580 3.60 14 1998 9360.3 11499.6 32697.380 9.20 15 1999 11541.4 11742.1 35072.110 3.10 16 2000 14482.7 15636.5 39585.890 1.60 17 2001 15029.2 16217.9 45669.710 1.80 18 2002 16706.1 19745.6 54704.020 4.30 19 2003 20149.3 25255.8 66308.860 3.10 20 2004 26485.0 31968.8 77391.740 9.50 21 2005 32447.0 36761.1 97480.430 8.40 22 2006 39826.2 44891.1 99784.310 6.60 23 2007 48561.4 62764.7 110706.500 12.63 24 2008 62685.1 80713.8 133104.600 9.89 25 2009 57096.3 69948.8 155225.600 6.52 26 2010 71629.0 84801.2 170264.800 11.75 27 2011 96905.7 106749.9 183546.900 8.13 28 2012 114529.2 113780.4 193876.700 6.81 29 2013 132134.9 142125.5 220786.500 6.04 30 2014 142134.9 148125.5 210786.500 7.40 31 2015 162137.8 178145.9 230776.800 8.12 32 2016 182121.8 189654.3 249876.100 9.60 > summary(data1) Nam XUATKHAU NHAPKHAU GDP CPI Min. :1985 Min. : 698.5 Min. : 1857 Min. : 5481 Min. : 1.600 1st Qu.:1993 1st Qu.: 2884.1 1st Qu.: 3633 1st Qu.: 23733 1st Qu.: 4.375 Median :2000 Median : 14756.0 Median : 15927 Median : 42628 Median : 6.510 Mean :2000 Mean : 40540.3 Mean : 45331 Mean : 82331 Mean : 7.103 3rd Qu.:2008 3rd Qu.: 58493.5 3rd Qu.: 72640 3rd Qu.:138635 3rd Qu.: 9.275 Max. :2016 Max. :182121.8 Max. :189654 Max. :249876 Max. :17.500 > attach(data1) > t.test(GDP,mu=80000,alternative=”two.sided”,conf.level = 0.95) One Sample t-test data: GDP t = 0.1684, df = 31, p-value = 0.8674 alternative hypothesis: true mean is not equal to 80000 82 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC 95 percent confidence interval: 54096.74 110565.91 sample estimates: mean of x 82331.32 Ta có: 0.05 0.8674p valueα = < − = - . 74 nên với mức ý nghĩa 5%, ta chưa có cơ sở bác bỏ giả thuyết đặt ra. Vậy, nhận định trên là phù hợp. Ngoài ra, dựa trên kết quả nhận được từ R, ta cũng có được khoảng ước lượng cho GDP với độ tin cậy 95% là (54096.74; 110565.91). > t.test(XUATKHAU,mu=30000,alternative=”greater”, conf.level = 0.99) One Sample t-test data: XUATKHAU t = 1.128, df = 31, p-value = 0.134 alternative hypothesis: true mean is greater than 30000 99 percent confidence interval: 17621.43Inf sample estimates: mean of x 40540.35 Ta có: 0.01 0.134p valueα = < − = - .134 nên với mức ý nghĩa 1%, ta chưa có cơ sở bác bỏ giả thuyết đặt ra. Vậy, xuất khẩu trung bình của quốc gia trên tối đa là 30.00 triệu USD. Ngoài ra, dựa trên kết quả nhận được từ R, ta cũng có được khoảng ước lượng tối thiểu cho xuất khẩu với độ tin cậy 99% là (17621.43; +∞). 2.2. Kiểm định phương sai cho biến định lượng Ta sử dụng hàm varTest() để tiến hành kiểm định phương sai cho biến định lượng trong R. Cấu trúc hàm varTest() như sau: var (X,sigma .squared ,alternative c("two.sided","less","greater"),conf .level )Test σ γ= = = Trong đó: X là biến quan sát, σ là phương sai và γ là độ tin cậy. Ví dụ 2: File dữ liệu dulieuGDP.csv ghi nhận số liệu về xuất khẩu, nhập khẩu, GDP và CPI của một quốc gia từ năm 1985 đến năm 2016. Có nhận định cho rằng, phương sai của CPI là 5.1. Với mức ý nghĩa 5%, hãy cho kết luận về nhận định trên. Hướng dẫn giải > varTest(CPI,sigma.squared=5.1,alternative=”two.sided”,conf.level = 0.95) Results of Hypothesis Test -------------------------- Null Hypothesis: variance = 5.1 Alternative Hypothesis: True variance is not equal to 5.1 83 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Test Name: Chi-Squared Test on Variance Estimated Parameter(s): variance = 14.14428 Data: CPI Test Statistic:Chi-Squared = 85.97503 Test Statistic Parameter: df = 31 P-value: 9.164284e-07 95\% Confidence Interval: LCL = 9.090928 UCL = 25.000238 Ta có: 0.05 _ 9.164284 07p value eα = > = − - . . nên với mức ý nghĩa 5%, ta bác bỏ giả thuyết. Vậy, phương sai của CPI thực tế là khác 5.1. 2.3. Kiểm định tỷ lệ cho biến định tính Ta sử dụng hàm prop.test() để kiểm định tỷ lệ cho biến định tính trong R. Cấu trúc của hàm prop.test() như sau: i) Kiểm định tỷ lệ cho một biến định tính prop.test( , ,An n p ,alternative=c(“two.sided”, “less”, “greater”),conf.level = γ ) Trong đó: An là số phần tử có tính chất A đang cần quan sát, n là kích thước mẫu, p là xác suất thành công và γ là độ tin cậy. ii) Kiểm định tỷ lệ cho hai biến định tính prop.test(c( ,A An m ),c(n,m),alternative=c(“two.sided”,”less”,”greater”), conf.level = γ ) Trong đó: An là số phần tử có tính chất A trong n phần tử; Am là số phần tử có tính chất A trong m phần tử; n là kích thước mẫu thứ nhất và m là kích thước mẫu thứ 2; γ là độ tin cậy. Ví dụ 3: Ở một nước, một đảng chính trị tuyên bố rằng, 45% cử tri sẽ bỏ phiếu bầu cho ông A là ứng cử viên của họ. Chọn ngẫu nhiên 200 người hỏi ý kiến, có 80 người sẽ bầu cho ông A. Với mức ý nghĩa 5%, hãy cho nhận xét về tuyên bố trên. Hướng dẫn giải > prop.test(80,200,0.45,alternative=”two.sided”,conf.level=0.95) 1-sample proportions test with continuity correction data: 80 out of 200, null probability 0.45 X-squared = 1.8232, df = 1, p-value = 0.1769 alternative hypothesis: true p is not equal to 0.45 95 percent confidence interval: 0.3322225 0.4716840 sample estimates: p 0.4 84 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Ta có: 0.05 _ 0.1769p valueα = < = - 0.05 _ 0.1769p valueα = < = nên chưa có cơ sở bác bỏ giả thuyết. Vậy với mức ý nghĩa 5%, tuyên bố của đảng chính trị trên là phù hợp với thực tế. Ví dụ 4: Kiểm tra 150 trẻ của vùng I phát hiện 58 trẻ bị sâu răng, vùng II có 102 trẻ bị sâu răng khi kiểm tra 250 trẻ. Với mức ý nghĩa 5%, có thể xem tỷ lệ trẻ bị sâu răng ở hai vùng bằng nhau được không? Hướng dẫn giải > prop.test(c(58,102),c(150,250),alternative=”two.sided”,conf.level=0.95) 2-sample test for equality of proportions with continuity correction data: c(58, 102) out of c(150, 250) X-squared = 0.1, df = 1, p-value = 0.7518 alternative hypothesis: two.sided 95 percent confidence interval: -0.12558527 0.08291861 sample estimates: prop 1 prop 2 0.3866667 0.4080000 Ta có: 0.05 _ 0.7518p valueα = < = - nên chưa có cơ sở bác bỏ giả thuyết. Vậy, với mức ý nghĩa 5%, tỷ lệ trẻ em bị sâu răng của hai vùng là như nhau. 3. Kết luận Bài viết đã trình bày một số ứng dụng của phần mềm R trong giải quyết bài toán kiểm định giả thuyết thống kê, mà cụ thể là thông qua các ví dụ về kiểm định trung bình, kiểm định phương sai cho biến định lượng, kiểm định tỷ lệ cho biến định tính. Các kiểm định khác có thể thực hiện tương tự. Các đoạn mã cũng được cung cấp để bất kỳ ai, kể cả những người mới biết về phần mềm R cũng có thể sử dụng dễ dàng. TÀI LIỆU THAM KHẢO 1. Trần Kim Thanh, Lê Trường Giang (2017), Giáo trình Lý thuyết xác suất và thống kê toán, Trường Đại học Tài chính - Marketing. 2. Võ Văn Tài, Nguyễn Thị Hồng Dân, Hồng Việt Minh (2016), Phân tích số liệu thống kê với R, NXB Giáo dục Việt Nam.