Toán học - Phần 2: Thống kê

1. Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ? 2. Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày? 3. Phụ nữ có xu hướng khóc nhiều hơn đàn ông? 4. Số thẻ tín dụng của sinh viên lớp này là thông thường là bao nhiêu?

pptx74 trang | Chia sẻ: anhquan78 | Lượt xem: 898 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Toán học - Phần 2: Thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ1PHẦN 2Thống kê là khoa học về các phương pháp thu thập, tổ chức, trình bày, phân tích và xử lý số liệu.Ví dụ1. Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ?2. Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày?3. Phụ nữ có xu hướng khóc nhiều hơn đàn ông?4. Số thẻ tín dụng của sinh viên lớp này là thông thường là bao nhiêu?2Ví dụ mở đầuTrung bình xe của bạn đi được bao nhiêu km trên 1 lít xăng?Sinh viên A:Khoảng 40km. Ta có ước lượng điểmTừ 35 - 45 km. Ta có ước lượng khoảng3Tổng thể và MẫuTổng thể (population)Mẫu (Sample)Tham số (parameter)Thống kê (statistic)4Bài tậpHãy mô tả tổng thể và mẫu tương ứng với các câu hỏi khảo sát sau:Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ?Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày?Phụ nữ có xu hướng khóc nhiều hơn đàn ông?Số thẻ ATM của sinh viên lớp này là thông thường là bao nhiêu?5Tổng thể và MẫuTa không nghiên cứu được toàn bộ các phần tử của tổng thể vì:----6Chọn mẫu ngẫu nhiênMẫu ngẫu nhiên (random sample)Mỗi phần tử chọn ngẫu nhiên và độc lậpMỗi phần tử có khả năng được chọn như nhauMọi mẫu cỡ n có cùng khả năng được chọnPhương pháp chọn mẫu đơn giảnĐánh sốChọn ngẫu nhiên, lần lượt, hoàn lại7Thống kê mô tả & suy luậnTK mô tả (descriptive statistics) : thu thập, tổng hợp, xử lý dữ liệu để biến đổi dữ liệu thành thông tinThu thập dữ liệu: khảo sát, đo đạc Biểu diễn dữ liệu: dùng bảng, đồ thị Tổng hợp dữ liệu: trung bình mẫu, phương sai mẫu, trung vị 8Thống kê mô tả & suy luậnSuy luận: rút ra các kết luận hoặc đưa ra các quyết định về tổng thể dựa trên các nghiên cứu trên mẫu.TK suy luận (inferential statistics): xử lý các thông tin có được từ thống kê mô tả, từ đó đưa ra các cơ sở để dự đoán, dự báo, ước lượngƯớc lượng:Kiểm định giả thuyết:9Thống kê mô tảBảng biểuPhân phối tần sốĐồ thịSố đặc trưng10Mô tả dữ liệu bằng đồ thịBảngĐồ thịTùy thuộc vào loại biến quan sátHay dùng: biểu đồ đường, tần số, nhánh và lá, phân tán11Đồ thị12Ví dụVẽ đồ thị:Mục tiêu của phân phối tần số:Tạo ra phân phối không quá lởm chởm, nhiều đỉnh và không có dạng khốiChỉ ra sự biến thiên trong dữ liệuLà một quá trình “thử - sai”13Hình dạng phân phốiĐối xứng14Hình dạng phân phốiBất đối xứng15Đồ thị Stem and LeafSắp xếp số liệu tăng dầnGồm 2 phần:Stem: gồm các chữ số đầuLeaf: gồm các chữ số đuôi16Đồ thị Stem and LeafVí dụ 1:17StemLeaves2341 4 4 6 7 70 2 81Đồ thị Stem and LeafVí dụ 2:18StemLeaves67891011121 3 62 2 5 83 4 6 6 9 91 3 3 6 83 5 64 72Ví dụVẽ đồ thị Stem-leaf cho tập dữ liệu sau19Đồ thị phân tán (tham khảo)Scatter plotĐược sử dụng để xác định mối liên hệ giữa hai biến X, Y20Mô tả dữ liệu sốĐộ đo trung tâm:Trung bìnhTrung vịModeSự biến thiênMiền giá trịMiền phân vịPhương saiĐộ lệch tiêu chuẩnHệ số biến thiên21Độ đo trung tâm22Trung bìnhTrung bình tổng thể:Trung bình mẫu:Trung bình bị ảnh hưởng bởi các giá trị ngoại lai (outliers)23Trung vịLà giá trị chính giữa của tập dữ liệu khi sắp tăng dần.Không bị ảnh hưởng bởi các giá trị outliersGọi i là vị trí trung vịNếu i chẵnNếu i lẻ24ModeĐo xu hướng trung tâm của dữ liệuKhông bị ảnh hưởng bởi outliersLà giá trị thường xảy ra nhấtDùng cho cả biến định tính và định lượngCó thể có nhiều mode hoặc không có mode25Độ đo nào tốt nhấtTrung bình luôn được dùng nếu outlier không tồn tại.Trung vị thường được dùng vì không bị ảnh hưởng bởi outlierVị trí của trung vị và trung bình ảnh hưởng bởi hình dạng của phân phối.26Độ đo sự biến thiênCho biết thông tin về sự phân tán hay sự biến thiên của số liệu27Miền giá trị (range)Độ đo sự biến thiên đơn giản nhấtLà chênh lệch giữa giá trị lớn nhất và nhỏ nhấtMiền giá trị=Xmax-XminBỏ qua sự phân bố của số liệuBị ảnh hưởng bởi outliers28Miền phân vịCó thể loại bỏ outlier bằng cách sử dụng miền phân vịMiền phân vị: (interquatile range)2925%25%25%25%Đồ thị boxplotBiểu diễn miền phân vị và các điểm outliersCông thức: Q1=0,25(n+1)Q2=0,5(n+1)Q3=0,75(n+1)30Đồ thị boxplotVí dụ:31Yêu cầu chương 6Phân biệt được tổng thể và mẫuPhân biệt cách ký hiệu các đặc trưng của tổng thể và mẫuTính được các đặc trưng của tổng thể và mẫu tổng quátTính được các đặc trưng của mẫu cụ thể trong cả 2 trường hợpMẫu không lặpMẫu có lặp32Yêu cầu chương 6Biết được thế nào là mẫu tổng quát (mẫu lý thuyết) và mẫu cụ thể.Khác biệt trong việc ký hiệu các đặc trưng của mẫu tổng quát và cụ thểTham số là gì?Thống kê là gì?Thống kê cụ thể là gì?33Yêu cầu chương 6Hiểu được nội dung định lý giới hạn trung tâm (Central Limit Theorem)Nắm được phân phối xác suất của các đặc trưng mẫu hay nhìn chung là thống kê mẫu.Biết cách áp dụng trong bài tập cụ thể.34Phương saiPhương sai tổng thểPhương sai mẫuPhương sai mẫu hiệu chỉnhPhương sai mẫu (biết )35Phương saiPhương sai tổng thểPhương sai mẫu36Phương saiPhương sai mẫu hiệu chỉnh:Phương sai mẫu: (đã biết trung bình tổng thể )37Tính các thống kê mẫuCho mẫu định lượng cụ thể thu gọn:Trung bình mẫu:38Xx1x2xkTần sốn1n2nkTính các thống kê mẫuPhương sai mẫu:Phương sai mẫu hiệu chỉnh:39Các thống kê mẫu_cụ thểĐộ lệch chuẩn mẫu:Độ lệch chuẩn mẫu hiệu chỉnh:40Tỷ lệ mẫu_tổng quátXét tổng thể định tính, dấu hiệu nghiên cứu là tính chất A, tỉ lệ tổng thể là p. Lấy mẫu ngẫu nhiên kích thước n: (X1, ..., Xn)Tỉ lệ mẫu tổng quát:Xi là các biến ngẫu nhiên có phân phối A(p)Tỷ lệ mẫu = trung bình của n biến ngẫu nhiên cùng phân phối A(p)41Tỷ lệ mẫu_cụ thểXét tổng thể định tính, dấu hiệu nghiên cứu là tính chất A, tỉ lệ tổng thể là p. Lấy mẫu cụ thể kích thước n: (x1, x2 ,..., xn)Tỉ lệ mẫu cụ thể:k: số phần tử trong mẫu có tính chất A.n: cỡ mẫuVới mẫu cụ thể ta đếm cho nhanh.42Tính thống kê mẫuĐiều tra thời gian sử dụng internet trong tuần của 90 sinh viên một trường ta được bảng số liệu sau:Hãy tính các thống kê mẫu sau:Trung bình mẫu, phương sai mẫu, phương sai mẫu hiệu chỉnh?Tỷ lệ sinh viên trong mẫu có thời gian sử dụng trên 5 giờ một tuần?43Thời gian (giờ)345678Số sv781724201444Cách 1_Lập bảngxinixini(xi)2ni........Tổng45Cách 1_Lập bảngxinixini(xi)2ni372163483212851785425624144864720140980814112896Tổng905343356Cách 1_Lập bảngCỡ mẫu:Trung bình mẫu:Phương sai mẫu:Phương sai mẫu hiệu chỉnh:46Độ lệch mẫu hiệu chỉnh:Cách 2__dùng máy tính 570ESShift + 9 + 3 + = + =: Reset máyShift + Mode +  + 4 + 1: bật tần sốMode + 3 + 1: vào tính thống kê 1 biếnKhi này ta có bảng sau:47XFREQ123Cách 2__dùng máy tính 570ESTa nhập vào như sau:Nhấn AC để thoát.48XFREQ1372483517462457206814Cách 2_dùng máy tính 570ESLấy số liệu thống kê: Shift + 1 + 5.Ta có bảng sau:Tương ứng:1: cỡ mẫu 2: trung bình mẫu3. Độ lệch chuẩn mẫu.4. Độ lệch chuẩn mẫu hiệu chỉnh.491: n2:3: x4: sxKhông phải phương saiĐối với FX 500MS hoặc 570MSReset máy: Shift + Mode + 3 + = + =Vào hệ SD:Máy 500MS: Mode + 2Máy 570MS: Mode + Mode + 1Nhập dữ liệu: “Giá trịShift , Tần sốM+”3Shift , 7M+Nhập đến hết. Nhấn ACLấy số liệu: Shift 2 1 = : Trung bình mẫu. Shift 2 3 = : Độ lệch chuẩn mẫu hiệu chỉnh.50Ví dụ 1Đường kính (mm) của 100 chi tiết do một máy sản xuất kết quả cho ở bảng sau:Tính thống kê mẫu?Tính tỷ lệ chi tiết từ 20mm trở lên trong mẫu?51Đường kínhSố chi tiết19,80 – 19,85319,85 – 19,90519,90 – 19,951619,95 – 20,002820,00 – 20,052320,05 – 20,101420,10 – 20,15720,15 – 20,204Ví dụ 1Ta viết lại mẫu:Từ mẫu ta có:Cỡ mẫu: n=100Trung bình mẫu: x=20,0015Độ lệch chuẩn mẫu hiệu chỉnh: s=0,077997≈0,078052xi19,82519.87519.92519.97520.025ni3516282320.07520.12520.1751474Tổng thểMẫu TQMẫu cụ thểKích thướcNnnTrung bìnhPhương saiĐộ lệch chuẩnTỷ lệ ATổng thể và mẫu53Các tham số tổng thểTrung bình cộng tổng thể:Phương sai tổng thể: 54Các tham số tổng thểXét tổng thể định tính, dấu hiệu A.Tỉ lệ tổng thể: N: kích thước tổng thể.M: số phần tử trong tổng thể có dấu hiệu A.55Ví dụTổng thể nghiên cứu là một xí nghiệp có 40 công nhân với dấu hiệu nghiên cứu là năng suất lao động (sản phẩm/ đơn vị thời gian)Tính trung bình, phương sai tổng thểTính tỉ lệ công nhân có năng suất cao hơn 65sp.56Năng suất lao động505560657075Số công nhân35101273Định lí Giới hạn trung tâm (CLT)Cho n biến ngẫu nhiên độc lập.Cùng kỳ vọng, cùng phương sai.Số lượng biến ngẫu nhiên đủ lớn (>30).Trung bình của n biến ngẫu nhiên này sẽ có phân phối xấp xỉ phân phối chuẩn Điều này đúng bất chấp phân phối của các biến ngẫu nhiên thành phần là gì.57PHÂN PHỐI MẪUTrung bình mẫuTỷ lệ mẫuPhương sai mẫu58Tính chất của trung bình mẫuCho tổng thể có kì vọng  và phương sai 2Lấy mẫu ngẫu nhiên cỡ n.Gọi là trung bình mẫu. Ta có:59Phân phối của trung bình mẫu60Tổng thểTrung bình mẫuKích thước mẫuTùy ýKhông chuẩnn>30Không chuẩn nhưng đối xứng.Có thể được với n nhỏ.Chuẩn hóa ppxs61Tổng thểTB mẫuChuẩn hóaChuẩn,đã biết n>30,đã biết  n>30,chưa biết Chuẩn, n30Ví dụTỷ lệ người hút thuốc ở một vùng là 10%. Với xác suất 0,95 hãy cho biết nếu kiểm tra ngẫu nhiên 100 người thì sẽ có tối đa bao nhiêu người hút thuốc lá?71Câu hỏi ôn tậpMẫu ngẫu nhiên kích thước n về dấu hiệu nghiên cứu X là một dãy gồm n biến ngẫu nhiên X1, X2,,Xn độc lập và có cùng phân bố với X?Trung bình mẫu của tổng thể có dấu hiệu nghiên cứu có phân phối chuẩn cũng có phân phối chuẩn?Phương sai mẫu của dấu hiệu nghiên cứu có phân phối chuẩn cũng có phân phối chuẩn?72Bài 3Chiều cao của thanh niên ở một địa phương là biến ngẫu nhiên phân phối chuẩn với trung bình 170 cm và độ lệch chuẩn 10cm. Chọn ngẫu nhiên 31 thanh niên ở vùng đó.a) Tìm xác suất để chiều cao trung bình của số thanh niên nói trên không vượt quá 172 cm?b)Tìm xác suất để độ lệch chuẩn hiệu chỉnh về chiều cao của số thanh niên nói trên lớn hơn 15 cm?73Tổng thể và mẫuTổng thểMẫuKích thướcNnTrung bìnhPhương sai2Độ lệch chuẩnTỷ lệpFModeMedianSkew, KurtosisGọi là tham sốGọi là thống kê74