Bài giảng Phân tích và xử lý dữ liệu với R - Phần 3 Phân tích mô tả dữ liệu
Nội dung 1. Quy trình phân tích 2. Dữ liệu thực tế 3. Phân tích mô tả biến liên tục 4. Phân tích mô tả biến phân nhóm (categorical)
Bạn đang xem nội dung tài liệu Bài giảng Phân tích và xử lý dữ liệu với R - Phần 3 Phân tích mô tả dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Phân tích dữ liệu với RPhần 3Phân tích mô tả dữ liệuNội dung1. Quy trình phân tích2. Dữ liệu thực tế3. Phân tích mô tả biến liên tục4. Phân tích mô tả biến phân nhóm (categorical)1. Quy trình phân tíchKiểm tra các số liệu “bất thường”Xác định mục tiêu phân tích, thông điệp muốn chuyển tảiXác định biến số cần thiết (trong dataframe)Xác định Phương pháo thống kêXác định lệnh/hàm trong R.Kiểm tra số liệu “bất thường”Xem xét số tối đa và tối thiểuTính hợp lý (validity)- Không có nhân viên nào có mức lượng 100.000$ 1 thángTính nhất quán (consistency) – giáo viên không thể có trình độ trung cấpCoi chừng lẫn lộn biếnMục tiêu phân tíchMô tả hay kiểm định giả thuyếtMuốn người đọc nhận những thông điệp chính nàoPhác họa bảng số liệu và biểu đồ muốn có Đòi hỏi thời gian suy nghĩXác định biến sốBiến số có liên quan đến mục tiêu (trong dataframe) là gì.Biến liên tục (continous) hay phân nhóm (categorical)Xác định phương pháp thống kêPhương pháp tùy thuộc vào mục tiêu và biến sốMô tả: mean, standard deviation, median, proportion,Tương quan: Regression modelsSo sánh hai nhómXác định hàm/lệnh trong RChỉ cần một số hàm/lệnh căn bảnHàm có thể tìm trong các packageMỗi phương phấp phân tích có thể thực hiện bằng nhiều hàmCó khi chỉ cần một lệnh từ một packageVí dụ nghiên cứuNghiên cứu về thu nhập và trình độ nhân viên tại một công ty A dựa trên file số liệu “salary.csv” chứa những thông tin sau:idEMPLOYEE CODEmã nhân viênsalbegBEGINNING SALARYLương khởi điểmsexSEX OF EMPLOYEEgiới tính của nhân viên (0 - nam, 1- Nữ)timeJOB SENIORITYThâm niên làm việc (tháng)ageAGE OF EMPLOYEEtuổi của nhân viên (năm)salnowCURRENT SALARYlương hiện tạiedlevelEDUCATIONAL LEVELtrình độ học vấnworkWORK EXPERIENCEkinh nghiệm làm việc (năm)jobcatEMPLOYMENT CATEGORYloại công việc (1: văn thư, tạp vụ ; 2: Tập sự văn phòng ; 3: nhân viên bảo vệ ; 4: nhân viên có trình ĐH ; 5: lao động phổ thông ; 6: nhân viên có trình độ từ ths ; 7.nhân viên kỹ thuật) Package “psych” và “Hmisc”Package “psych” và “Hmisc” rất có ích cho phân tích mô tảHmisc có hàm describe“psych” có hàm describe describe.by (tên dataframe, tên biến chia nhóm, tùy biến khác)// có thế dùng lệnh? Describe.by() để tìm hiểu về hàm này Phân tích mô tả bằng R>data= read.csv(“D:/salary.csv”,header = T)>Attach(data) // lấy dataframe data ra phân tích>library(psych) // nếu chưa có gõ lệnh instal.library(psych)>describe(data)>mean(age) // tính tuổi trung bình>median (age)// tính median của tuổi>describe(data)// biểu hiện tất cả các giá trị mô tả các biến có trong dataSử dụng R cho phân tổ dữ liệuLibrary (gmodels)CrossTable (sex, digits =3) // phân tích số lượng, tỉ lệ nhân viên theo giới tínhCrossTable (sex,jobcat, digits =3)//phân tích số lượng, tỉ lệ nhân viên theo giới tính