Bài giảng Phân tích và xử lý dữ liệu với R - Phần 2 Nhập liệu với R

Nhập liệu với R Giao diện và tương tác với R Nhập Dữ liệu cho R từ file excel Nhập dữ liệu cho R từ file .sav (trong spss) Biên tập dữ liệu

pptx25 trang | Chia sẻ: thanhlam12 | Lượt xem: 623 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích và xử lý dữ liệu với R - Phần 2 Nhập liệu với R, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích và xử lý dữ liệu với RPhần 2Nhập liệu với RNhập liệu với RGiao diện và tương tác với RNhập Dữ liệu cho R từ file excelNhập dữ liệu cho R từ file .sav (trong spss)Biên tập dữ liệu 1. Giao diện và tương tác với R1.1 Giao diện R1.2 R như là một calculator1.3 Đối tượng (object)1.4 Vector và Dataset1.1 Giao diện RTrình thực hiện qua tương tác1.2 R như là một canculatorCác hàm phổ biến: sqrt, log, lũy thừaThực hiện qua tương tác1.3 ObjectMỗi đối tượng phải có một tênTên có thể được viết bằng chữ thường, con số và các ký hiệuTên của các đối tượng phân biệt chữ hoa chữ thườngTương tác1.4 Vector và DatasetVector là tập hợp nhiều số liệuVector có thể coi là cột dữ liệu hay biến số (variable)Khai báo 1 vector Tên đối tượng = c(danh sách số liệu)VD: x = c(1,5, 80,90,91)Tương tácDatasetNhiều vector hợp thành một DatasetDataset = matrix(dòng và cột)data.frame(danh sách các vector) tạo datasetVD: id= c(“1”,”2”,”3”,”4”,”5”,”6”)Y = c(10, 16, 34,40, 50,26)Data = data.frame(id,Y)Tính toán thống kêNhững hàm phổ biếnmean, median, var, sd, leghth,min, max, rangemeBiểu đồ cơ bảnhist,plotNhập liệu với RGiao diện và tương tác với RNhập Dữ liệu cho R từ file excelNhập dữ liệu cho R từ file .sav (trong spss)Biên tập dữ liệu2. Nhập liệu dữ liệu từ Excel vào RB1: Dùng lệnh “save as” trong Excel lưu số liệu dưới dạng file “.csv”B2: dùng lệnh Data = read.csv (đường dẫn file, header = TRUE)Để lưu dữ liệu vào đối tượng dataB3: Báo cho R biết: lấy Data ra phân tíchattach(Data) 3. Nhập liệu dữ liệu từ 1 file .sav (SPSS)B1: gọi thư viện: library(foreign)B2: dùng lệnh Data = read.spss( đường dẫn file, to.data.frame = TRUE) Để lưu dữ liệu vào đối tượng dataB3: Báo cho R biết: lấy đối tượng Data ra phân tích attach(Data) Nhập liệu với RGiao diện và tương tác với RNhập Dữ liệu cho R từ file excelNhập dữ liệu cho R từ file .sav (trong spss)Biên tập dữ liệu4. Biên tập dữ liệu (phần 1)Toán tử (Operators)Tạo biến mớiHàm có sẵnSắp xếp dữ liệuHoán chuyển dữ liệuToán tử số họcToán tửMô tả+Addition - Cộng-Subtraction – Trừ*Multiplication – Nhân/Division – Chia^ hoặc **Exponentiation – lũy thữaX%%Y chia x cho y lấy phần dư( a = 5%%2  a =1)X%/%Y Chia lấy phần nguyên ( a = 5%/%2  a=2)Toán tử logicToán tửMô tảLớn hơn>=Lớn hơn hoặc bằng==Bằng!=Không bằng!xKhông xX|YX hoặc YX&YX và YisTRUEKiểm tra xem Hàm sốHàmMô tảAbs(x)Gía trị tuyệt đốiSqrt (x)Căn bậc 2Cos( x), sin (x)Tan(x)Log10(x)LogarithmExp(x)e^xTạo biến mớiDataFrame có tên: DataNếu DataFrame có 2 cột (biến) x1 và x2// Khởi tạo biến x1,x2x1 = c(1,3,4,7)x2 = c(4,6,8,3)// Gán dữ liệu vào biến DataData = data.frame(x1,x2)Tạo biến mớix1 = c(1,3,4,7)x2 = c(4,6,8,3)Data = data.frame(x1,x2)Chúng ta có thể tạo ra một biến mới là tổng số của 2 cột sum = x1+x2Nhưng biến sum sẽ không nằm trong Data giải phápGiới thiệu dấu $Dùng dấu $ để tạo biến mới và kết nối với một dataframe Data$sum = Data$x1+Data$x2 // Kiểm tra giá trị của Data DataBây giờ dataframe Data có 3 biến x1,x2 và sum.Tạo biến mới qua coding (mã hóa)id = c(1,2,3,4,5)gender = c(“male”,”female”,”male”,”male”,”male”)Mục tiêu: Tạo ra biến mới là sex với 1= male, 2= femaleTạo biến mới qua codingid = c(1,2,3,4,5)gender = c(“male”,”female”,”male”,”male”,”male”)dat = data.frame (id,gender)// giải quyết vấn đềdat$sex[gender == “male”] = 1dat$sex[gender ==“female”]=2// kiểm tra giá trị hiện tại của datdatTạo biến mới qua codingid = c(1,2,3,4,5)gender = c(“male”,”female”,”male”,”male”,”male”)Mục tiêu: Tạo ra biến mới là group nếu id = 1,2,3 thì group = “A” nếu id = 4,5 thì group =“B”Tạo biến mới qua coding> id = c(1,2,3,4,5)> gender = c("male","female","male","male","male")> dat = data.frame(id,gender)> dat$sex[gender=="male"]=1> dat$sex[gender=="female"]=2> dat id gender sex1 1 male 12 2 female 23 3 male 14 4 male 15 5 male 1> dat$group[id>=1 & id dat$group[id>=4 & id dat id gender sex group1 1 male 1 A2 2 female 2 A3 3 male 1 A4 4 male 1 B5 5 male 1 BHoán chuyển dữ liệuChuyển từ numeric sang text/characterAs.numeric(), as.character()Ví dụ id1 = as.character(id)