Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải
quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được
giảng dạy trong xác suất - thống kê. Bài viết ngắn gọn với các nội dung chính: giới thiệu chi
tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết
thống kê và cuối cùng là kết luận.
6 trang |
Chia sẻ: thuyduongbt11 | Ngày: 10/06/2022 | Lượt xem: 395 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Giải bài toán kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
79
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Tóm tắt
Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải
quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được
giảng dạy trong xác suất - thống kê. Bài viết ngắn gọn với các nội dung chính: giới thiệu chi
tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết
thống kê và cuối cùng là kết luận.
Từ khóa: Phần mềm R, kiểm định giả thuyết thống kê, thống kê ứng dụng
1. Giới thiệu phần mềm R
Bên cạnh các phần mềm phân tích dữ liệu như:
Eviews, Stata, SPSS, S-Plus, Matlab, phần mềm
R vươn lên như là một lựa cho tối ưu cho các nhà
phân tích.
Được đề xuất đầu tiên bởi hai tác giả Ross Ihaka
và Robert Gentleman của Đại học Auckland, New
Zealand vào những năm 1990, phần mềm R đã
không ngừng lớn mạnh thông qua các gói lệnh (package) được phát triển bởi người dùng
khắp thế giới.
R là một ngôn ngữ lập trình cấp cao với mã nguồn mở (open source). Phần mềm R được
sử dụng rộng rãi cho các tính toán thống kê, phân tích số liệu, Kinh tế lượng ứng dụng mà
trong đó nổi bật là phân tích dữ liệu bảng (Panel Data) cùng với các công cụ hỗ trợ vẽ đồ thị
rất chuyên nghiệp. Phần mềm R đã thể hiện sức mạnh qua các giải thưởng uy tín và sự tán
dương của cộng đồng thế giới như: New York Times, Forbes, Intelligent Enterprise
Ngoài những ứng dụng trên, phần mềm R còn là một công cụ hiệu quả thiết yếu cho Data
Mining, Big Data, Data Visualization và Machine Learning.
Sử dụng phần mềm R hoàn toàn miễn phí, chúng ta có thể tải về phiên bản phù hợp với hệ
điều hành đang sử dụng từ https://cran.r-project.org/. Sau khi được cài đặt, phần mềm R đã
* Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing
GIẢI BÀI TOÁN KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
VỚI SỰ TRỢ GIÚP CỦA PHẦN MỀM R
10.
ThS. Lê Trường Giang*
80
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
sẵn sàng hoạt động, tuy nhiên, giao diện mặc định không thực sự hấp dẫn. Để cải thiện điều
này, chúng ta nên dùng môi trường phát triển tích hợp dành cho nó và RStudio là lựa chọn
hàng đầu hiện nay. Phần mềm này bao gồm một trình biên tập đánh dấu cú pháp, hỗ trợ thực
hiện mã lệnh trực tiếp, cũng như các công cụ vẽ biểu đồ, lược sử, gỡ lỗi và quản lý không
gian làm việc. Để có một phiên bản RStudio, chúng ta có thể truy cập vào trang https://www.
rstudio.com/.
Hiện có hơn 10.000 gói lệnh trên https://cran.r-project.org/ và tất cả đều miễn phí. Một
gói lệnh là một tập các mã lệnh được viết nhằm thực hiện một hệ công việc nào đó bởi một
người hay một nhóm người, thường là các chuyên gia. Các gói như base hay stats được tự
động cài đặt khi cài R. Những gói lệnh khác, ví dụ ggplot2 - hỗ trợ xây dựng các biểu đồ, có
thể cài đặt trực tuyến bằng lệnh. Một trong những gói lệnh được quan tâm nhiều nhất trong
giới giao dịch tài chính là quantmod. Trong giới hạn bài viết này, tác giả sẽ tập trung vào
kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R.
2. Kiểm định giả thuyết thống kê
2.1. Kiểm định trung bình cho biến định lượng
Để thực hiện kiểm định T cho biến định lượng trong R, ta sử dụng hàm t.test(). Ta có thể
sử dụng cấu trúc hàm t.test() đơn giản như sau:
( ). (X, mu ,alternative c " . "," "," " ,conf .level )t test two sided less greaterµ γ= = =
Trong đó: X là biến quan sát, µ là trung bình và γ là độ tin cậy.
Ví dụ 1: File dữ liệu dulieu GDP.csv ghi nhận số liệu về xuất khẩu, nhập khẩu, GDP và
CPI của một quốc gia từ năm 1985 đến năm 2016.
a. Có nhận định cho rằng, GDP trung bình của quốc gia trên là 80.000 triệu USD. Với
mức ý nghĩa 5%, hãy cho kết luận về nhận định trên.
b. Có nhận định cho rằng, xuất khẩu trung bình của quốc gia trên tối đa là 30.000 triệu
USD. Với mức ý nghĩa 1%, hãy cho kết luận về nhận định trên.
Hướng dẫn giải
> setwd(“D:/R.Software/R_Data”)
> data1<-read.csv(“dulieuGDP.csv”,header = TRUE)
> data1
Nam XUATKHAU NHAPKHAU GDP CPI
1 1985 698.5 1857.4 5480.517 2.90
2 1986 789.1 2155.1 7127.222 5.30
3 1987 854.2 2455.1 7797.167 6.10
4 1988 1038.4 2756.7 7925.763 4.40
5 1989 1946.0 2565.8 9923.438 3.60
6 1990 2404.0 2752.4 13212.120 6.10
7 1991 2087.1 2338.1 16362.360 6.50
81
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
8 1992 2580.7 2540.4 20804.590 17.50
9 1993 2985.2 3924.5 24708.650 5.20
10 1994 4054.3 5825.3 26834.030 14.40
11 1995 5448.9 8155.4 26931.150 12.70
12 1996 7255.9 11143.6 28639.270 4.50
13 1997 9185.5 11592.3 31210.580 3.60
14 1998 9360.3 11499.6 32697.380 9.20
15 1999 11541.4 11742.1 35072.110 3.10
16 2000 14482.7 15636.5 39585.890 1.60
17 2001 15029.2 16217.9 45669.710 1.80
18 2002 16706.1 19745.6 54704.020 4.30
19 2003 20149.3 25255.8 66308.860 3.10
20 2004 26485.0 31968.8 77391.740 9.50
21 2005 32447.0 36761.1 97480.430 8.40
22 2006 39826.2 44891.1 99784.310 6.60
23 2007 48561.4 62764.7 110706.500 12.63
24 2008 62685.1 80713.8 133104.600 9.89
25 2009 57096.3 69948.8 155225.600 6.52
26 2010 71629.0 84801.2 170264.800 11.75
27 2011 96905.7 106749.9 183546.900 8.13
28 2012 114529.2 113780.4 193876.700 6.81
29 2013 132134.9 142125.5 220786.500 6.04
30 2014 142134.9 148125.5 210786.500 7.40
31 2015 162137.8 178145.9 230776.800 8.12
32 2016 182121.8 189654.3 249876.100 9.60
> summary(data1)
Nam XUATKHAU NHAPKHAU GDP CPI
Min. :1985 Min. : 698.5 Min. : 1857 Min. : 5481 Min. : 1.600
1st Qu.:1993 1st Qu.: 2884.1 1st Qu.: 3633 1st Qu.: 23733 1st Qu.: 4.375
Median :2000 Median : 14756.0 Median : 15927 Median : 42628 Median : 6.510
Mean :2000 Mean : 40540.3 Mean : 45331 Mean : 82331 Mean : 7.103
3rd Qu.:2008 3rd Qu.: 58493.5 3rd Qu.: 72640 3rd Qu.:138635 3rd Qu.: 9.275
Max. :2016 Max. :182121.8 Max. :189654 Max. :249876 Max. :17.500
> attach(data1)
> t.test(GDP,mu=80000,alternative=”two.sided”,conf.level = 0.95)
One Sample t-test
data: GDP
t = 0.1684, df = 31, p-value = 0.8674
alternative hypothesis: true mean is not equal to 80000
82
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
95 percent confidence interval:
54096.74 110565.91
sample estimates:
mean of x
82331.32
Ta có: 0.05 0.8674p valueα = < − = - . 74 nên với mức ý nghĩa 5%, ta chưa có cơ sở bác bỏ giả
thuyết đặt ra. Vậy, nhận định trên là phù hợp.
Ngoài ra, dựa trên kết quả nhận được từ R, ta cũng có được khoảng ước lượng cho GDP
với độ tin cậy 95% là (54096.74; 110565.91).
> t.test(XUATKHAU,mu=30000,alternative=”greater”, conf.level = 0.99)
One Sample t-test
data: XUATKHAU
t = 1.128, df = 31, p-value = 0.134
alternative hypothesis: true mean is greater than 30000
99 percent confidence interval:
17621.43Inf
sample estimates:
mean of x
40540.35
Ta có: 0.01 0.134p valueα = < − = - .134 nên với mức ý nghĩa 1%, ta chưa có cơ sở bác bỏ giả
thuyết đặt ra. Vậy, xuất khẩu trung bình của quốc gia trên tối đa là 30.00 triệu USD.
Ngoài ra, dựa trên kết quả nhận được từ R, ta cũng có được khoảng ước lượng tối thiểu
cho xuất khẩu với độ tin cậy 99% là (17621.43; +∞).
2.2. Kiểm định phương sai cho biến định lượng
Ta sử dụng hàm varTest() để tiến hành kiểm định phương sai cho biến định lượng trong
R. Cấu trúc hàm varTest() như sau:
var (X,sigma .squared ,alternative c("two.sided","less","greater"),conf .level )Test σ γ= = =
Trong đó: X là biến quan sát, σ là phương sai và γ là độ tin cậy.
Ví dụ 2: File dữ liệu dulieuGDP.csv ghi nhận số liệu về xuất khẩu, nhập khẩu, GDP và
CPI của một quốc gia từ năm 1985 đến năm 2016. Có nhận định cho rằng, phương sai của
CPI là 5.1. Với mức ý nghĩa 5%, hãy cho kết luận về nhận định trên.
Hướng dẫn giải
> varTest(CPI,sigma.squared=5.1,alternative=”two.sided”,conf.level = 0.95)
Results of Hypothesis Test
--------------------------
Null Hypothesis: variance = 5.1
Alternative Hypothesis: True variance is not equal to 5.1
83
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Test Name: Chi-Squared Test on Variance
Estimated Parameter(s): variance = 14.14428
Data: CPI
Test Statistic:Chi-Squared = 85.97503
Test Statistic Parameter: df = 31
P-value: 9.164284e-07
95\% Confidence Interval: LCL = 9.090928
UCL = 25.000238
Ta có: 0.05 _ 9.164284 07p value eα = > = − - . . nên với mức ý nghĩa 5%, ta bác bỏ giả thuyết.
Vậy, phương sai của CPI thực tế là khác 5.1.
2.3. Kiểm định tỷ lệ cho biến định tính
Ta sử dụng hàm prop.test() để kiểm định tỷ lệ cho biến định tính trong R. Cấu trúc của
hàm prop.test() như sau:
i) Kiểm định tỷ lệ cho một biến định tính
prop.test( , ,An n p ,alternative=c(“two.sided”, “less”, “greater”),conf.level = γ )
Trong đó: An là số phần tử có tính chất A đang cần quan sát, n là kích thước mẫu, p là xác
suất thành công và γ là độ tin cậy.
ii) Kiểm định tỷ lệ cho hai biến định tính
prop.test(c( ,A An m ),c(n,m),alternative=c(“two.sided”,”less”,”greater”), conf.level = γ )
Trong đó: An là số phần tử có tính chất A trong n phần tử; Am là số phần tử có tính chất A
trong m phần tử; n là kích thước mẫu thứ nhất và m là kích thước mẫu thứ 2; γ là độ tin cậy.
Ví dụ 3: Ở một nước, một đảng chính trị tuyên bố rằng, 45% cử tri sẽ bỏ phiếu bầu cho
ông A là ứng cử viên của họ. Chọn ngẫu nhiên 200 người hỏi ý kiến, có 80 người sẽ bầu cho
ông A. Với mức ý nghĩa 5%, hãy cho nhận xét về tuyên bố trên.
Hướng dẫn giải
> prop.test(80,200,0.45,alternative=”two.sided”,conf.level=0.95)
1-sample proportions test with continuity correction
data: 80 out of 200, null probability 0.45
X-squared = 1.8232, df = 1, p-value = 0.1769
alternative hypothesis: true p is not equal to 0.45
95 percent confidence interval:
0.3322225 0.4716840
sample estimates:
p
0.4
84
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Ta có: 0.05 _ 0.1769p valueα = < = - 0.05 _ 0.1769p valueα = < = nên chưa có cơ sở bác bỏ giả thuyết. Vậy với mức ý
nghĩa 5%, tuyên bố của đảng chính trị trên là phù hợp với thực tế.
Ví dụ 4: Kiểm tra 150 trẻ của vùng I phát hiện 58 trẻ bị sâu răng, vùng II có 102 trẻ bị sâu
răng khi kiểm tra 250 trẻ. Với mức ý nghĩa 5%, có thể xem tỷ lệ trẻ bị sâu răng ở hai vùng
bằng nhau được không?
Hướng dẫn giải
> prop.test(c(58,102),c(150,250),alternative=”two.sided”,conf.level=0.95)
2-sample test for equality of proportions with continuity correction
data: c(58, 102) out of c(150, 250)
X-squared = 0.1, df = 1, p-value = 0.7518
alternative hypothesis: two.sided
95 percent confidence interval:
-0.12558527 0.08291861
sample estimates:
prop 1 prop 2
0.3866667 0.4080000
Ta có: 0.05 _ 0.7518p valueα = < = - nên chưa có cơ sở bác bỏ giả thuyết. Vậy, với mức ý
nghĩa 5%, tỷ lệ trẻ em bị sâu răng của hai vùng là như nhau.
3. Kết luận
Bài viết đã trình bày một số ứng dụng của phần mềm R trong giải quyết bài toán kiểm
định giả thuyết thống kê, mà cụ thể là thông qua các ví dụ về kiểm định trung bình, kiểm
định phương sai cho biến định lượng, kiểm định tỷ lệ cho biến định tính. Các kiểm định khác
có thể thực hiện tương tự. Các đoạn mã cũng được cung cấp để bất kỳ ai, kể cả những người
mới biết về phần mềm R cũng có thể sử dụng dễ dàng.
TÀI LIỆU THAM KHẢO
1. Trần Kim Thanh, Lê Trường Giang (2017), Giáo trình Lý thuyết xác suất và thống kê
toán, Trường Đại học Tài chính - Marketing.
2. Võ Văn Tài, Nguyễn Thị Hồng Dân, Hồng Việt Minh (2016), Phân tích số liệu thống kê
với R, NXB Giáo dục Việt Nam.