Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3 Ước lượng & kiểm định giả thuyết

NỘI DUNG 1. Ước lượng 2. Kiểm định giả thuyết 3. So sánh hai tổng thể

pptx32 trang | Chia sẻ: thanhlam12 | Lượt xem: 643 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3 Ước lượng & kiểm định giả thuyết, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích và xử lý dữ liệu với RChương 3ƯỚC LƯỢNG & KIỂM ĐỊNH GIẢ THUYẾTNỘI DUNG1. Ước lượng2. Kiểm định giả thuyết 3. So sánh hai tổng thểQuy trình ước lượngƯớc lượng các tham số của tổng thể chungƯớc lượng các tham số của tổng thể chungTừ thống kê của tổng thể mẫuTrung bìnhTỷ lệPhương saiKhác biệt1.2 Ước lượng trung bình của tổng thể chungKhoảng tin cậyTỷ lệTrung bìnhTổng thể bộc lộ  1.2.1 Trường hợp đã biết phương sai   Đọc dữ liệu vào R>setwd(“D:/testR”)>data = read.csv(“salary.csv”, header =T)>attach(data)>head(data) id salbeg sex time age salnow edlevel work jobcat minority sexrace1 7 6900 0 79 28.00 16080 15 3.17 1 0 12 8 5400 0 67 28.75 14100 15 0.50 1 0 13 9 5040 0 96 27.42 12420 15 1.17 1 0 14 11 6300 0 84 33.50 15720 15 6.00 1 0 15 12 6000 0 88 54.33 8880 12 27.00 1 0 16 18 6900 0 72 32.67 10380 15 6.92 1 0 1Ước lượng lương trung bình hiện tại của nhân viênsumary (salnow)n = length(salnow)alpha = 0.05salnow.bar = mean (salnow)s = sd (salnow)z = qnorm(1-alpha/2)erro = z *s / sqrt(n)// khoảng ước lượng:sal.now + c(-erro, erro)Tính khoảng ước lượng trung bình thâm niên làm việc của nhân viên trong công ty với mức ý nghĩa alpha = 10%1.3 Ước lượng về tỷ lệ của tổng thể chung Ước lượng tỉ lệ nhân viên của công ty có mức lương nhỏ hơn 10,000 usd với alpha = 0.05>count =0> alpha =0.05> for(i in 1:n){if (data[i,"salnow"]f = count /n>z = qnorm(1-alpha/2)>erro = z*sqrt(f*(1-f)/n)> f + c(-erro, erro)Hãy ước lượng tỉ lệ nhân viên có trình độ đại học có mức lương thấp hơn 20,000 USD1.4 Xác định cỡ mẫuKhi chọn cỡ mẫu Giả sử rằng chiều cao của học sinh lớp 2 có độ lệch chuẩn là 9.48 cm, hãy tính cỡ mẫu cần thiết để ước lượng được giá trị trung bình có sai số quanh điểm ước lượng là 1.2 cm với khoảng tin cậy 95%>sigma = 9.48>e = 1.2> z = qnorm(0.975)> n = z^2*sigma^2/(e^2)NỘI DUNG1. Ước lượng2. Kiểm định giả thuyết 3. So sánh trung bình, tỉ lệ hai mẫua) Kiểm định Z một phía Miền bác bỏKiểm định trái khi đã biết phương saiGiả sử các nhà sản xuất tuyên bố rằng cuộc đời trung bình của một bóng đèn là hơn 10.000 giờ. Trong một mẫu của 30 bóng đèn, người ta thấy rằng tuổi thọ trung bình của chúng chỉ là 9,900 giờ. Giả sử độ lệch chuẩn của tổng thể là 120 giờ. Với mức ý nghĩa 5% có thể bác bỏ tuyên bố của nhà sản xuất hay khôngHo: μ >=10000> xbar = 9900         # sample mean  > mu0 = 10000       # hypothesized value  > sigma = 120        # population standard deviation > n = 30                 # sample size  > z = (xbar−mu0)/(sigma/sqrt(n))  > z                      # test statistic  [1] −4.5644> alpha = .05  > z.alpha = qnorm(1−alpha)  > −z.alpha               # critical value  [1] −1.6449Kết luận: Giá trị thống kê z xbar = 2.1          # sample mean  > mu0 = 2             # hypothesized value  > sigma = 0.25      # population standard deviation  > n = 35                 # sample size  > z = (xbar−mu0)/(sigma/sqrt(n))  > z                      # test statistic  [1] 2.3664> alpha = .05  > z.alpha = qnorm(1−alpha)  > z.alpha                # critical value  [1] 1.6449Kết luận: Giá trị thống kê z > z.alpha nên không đủ cơ sở để chấp nhận giả thuyết Ho nên có thể yêu cầu nhà sản xuất đính chính lại thông tin trên bao bì.2.4 Kiểm định tỷ lệ NỘI DUNG1. Ước lượng2. Kiểm định giả thuyết 3. So sánh hai tổng thể3. So sánh hai tổng thể3.1 Kiểm định giá trị trung bình của hai tổng thểHai mẫu độc lậpHai mẫu phụ thuộc3.2 Kiểm định tỷ lệ của hai tổng thểSo sánh hai mẫu độc lậpSo sánh thu nhập của cán bộ nam và cán bộ nữ trong công ty>head(data)>ibrary(psych)>describe.by(salnow, sex)>t=t.test(salnow~ sex)>print(t)data: salnow by sext = 11.688, df = 344.26, p-value library(beeswarm) // nếu ko có gõ lệnh install.packages (“beeswarm”)>beeswarm(salnow~sex, data=data, pch=16)>boxplot(salnow~sex, add=T, col = c("green", "red"))So sánh hai mẫu phụ thuộcSo sánh giữa lương khởi điểm và lương hiện tại của nhân viên trong công ty> t=t.test(salnow, salbeg, paired=TRUE)>print(t) Paired t-testdata: salnow and salbegt = 35.036, df = 473, p-value < 2.2e-16alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: 6570.963 7351.822sample estimates:mean of the differences 6961.392