Dự báo xói mòn đất do mưa gây ra ở vùng đồi núi Việt Nam bằng các phương pháp học máy

Xói mòn do mưa gây ra là một vấn đề nghiêm trọng đối với các vùng đồi núi nhiệt đới. Các mô hình dự báo xói mòn đất truyền thống (vật lý, kinh nghiệm) đều gặp khó khăn trong quá trình phát triển và dự báo chính xác. Do đó, nghiên cứu này xây dựng các mô hình dựa trên cơ sở dữ liệu sẵn có để dự đoán tình trạng xói mòn bằng các thuật toán học máy. Một bộ dữ liệu xói mòn đất được thu thập trong ba năm từ 2009-2011 vùng Tây Bắc Việt Nam đã được sử dụng để xây dựng và kiểm nghiệm các mô hình. Kết quả nghiên cứu cho thấy tất cả các mô hình học máy có thể đạt được kết quả dự đoán tốt với tỷ lệ chính xác trong phân loại đều cao hơn 80 %. Trong đó mô hình dựa trên RVM là thuật toán phù hợp nhất vì nó đạt được kết quả dự đoán cao nhất trong cả hai giai đoạn đào tạo (tỷ lệ chính xác đạt 92,54 %) và giai đoạn kiểm nghiệm (tỷ lệ chính xác đạt 91,74 %).

5 trang | Chia sẻ: thanhuyen291 | Lượt xem: 610 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Dự báo xói mòn đất do mưa gây ra ở vùng đồi núi Việt Nam bằng các phương pháp học máy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” DOI: 10.15625/vap.2019.000130 259 DỰ BÁO XÓI MÒN ĐẤT DO MƢA GÂY RA Ở VÙNG ĐỒI NÚI VIỆT NAM BẰNG CÁC PHƢƠNG PHÁP HỌC MÁY Vũ Đình Tuấn1,3, Hoàng Nhật Đức2, Trần Xuân Linh3 1Khoa Môi trường, Trường Đại học Khoa học tự nhi n, Đại học u c gia à ội Email: [email protected] 2 Khoa Xây dựng, Đại học Duy Tân, Email: [email protected] 3 Viện Nghiên cứu phát triển, Đại học Duy Tân, Email: [email protected] TÓM TẮT Xói mòn do mưa gây ra là một vấn đề nghiêm trọng đối với các vùng đồi núi nhiệt đới. Các mô hình dự báo xói mòn đất truyền thống (vật lý, kinh nghiệm) đều gặp khó khăn trong quá trình phát triển và dự báo chính xác. Do đó, nghiên cứu này xây dựng các mô hình dựa trên cơ sở dữ liệu sẵn có để dự đoán tình trạng xói mòn bằng các thuật toán học máy. Một bộ dữ liệu xói mòn đất được thu thập trong ba năm từ 2009-2011 vùng Tây Bắc Việt Nam đã được sử dụng để xây dựng và kiểm nghiệm các mô hình. Kết quả nghiên cứu cho thấy tất cả các mô hình học máy có thể đạt được kết quả dự đoán tốt với tỷ lệ chính xác trong phân loại đều cao hơn 80 %. Trong đó mô hình dựa trên RVM là thuật toán phù hợp nhất vì nó đạt được kết quả dự đoán cao nhất trong cả hai giai đoạn đào tạo (tỷ lệ chính xác đạt 92,54 %) và giai đoạn kiểm nghiệm (tỷ lệ chính xác đạt 91,74 %). Từ khóa: Dự báo xói mòn đất, bộ dữ liệu thực nghiệm, vùng đồi núi, học máy. 1. GIỚI THIỆU Xói mòn đất do nước gây ra mất đất từ đồng ruộng, phá vỡ cấu trúc đất và suy giảm các chất hữu cơ và chất dinh dưỡng (Spekken et al., 2016). Xói mòn còn làm giảm độ dày tầng đất trồng trọt và giảm độ phì nhiêu của đất. Ngoài ra xói mòn còn gây bồi lắng ở hạ lưu, làm suy giảm chức năng của sông, hồ chứa và mương thoát nước, tăng nguy cơ lũ lụt và chặn các kênh tưới tiêu (Morgan, 2005). Xói mòn đất ở vùng nhiệt đới sẽ trở nên nghiêm trọng hơn khi kết hợp với các điều kiện khác. Chẳng hạn đất dễ bị xói mòn hơn vào đầu mùa vụ khi mưa lớn, và lớp phủ mặt đất thấp. Trong những năm gần đây, phương pháp học máy đã được áp dụng để phân tích dữ liệu từ các thí nghiệm nhằm mục đích dự đoán xói mòn đất. Các mô hình dựa trên học máy có thể cung cấp một giải pháp thay thế hữu ích để đối phó với tính chất đa biến và phức tạp của các hiện tượng trong khoa học đất và khoa học địa chất (Shahin, 2016). Nghiên cứu này nhằm mục đích mở rộng kiến thức bằng cách thiết lập các mô hình dự báo xói mòn đất cho các vùng đồi núi nhiệt đới dựa trên năm phương pháp học máy: mô hình trí tuệ nhân tạo (ANN), Vectơ hỗ trợ (SVM), Vectơ hỗ trợ tối thiểu (LSSVM), Vectơ liên quan (RVM) và Fuzzy-K (FKNN). Một bộ dữ liệu, gồm mười biến, được thu thập từ các thí nghiệm ở Sơn La được sử dụng để xây dựng và hiệu đính các mô hình này. 2. PHƢƠNG PHÁP 2.1. Mạng nơ ron nhân tạo (Artificial Neural Network (ANN)) ANN là một phương pháp học máy được sử dụng rộng rãi lấy cảm hứng từ các mạng lưới thần kinh sinh học. Phương pháp này mô phỏng quá trình thu nhận kiến thức và lý luận xảy ra trong não người (Hagan et al., 2014; Tran and Hoang, 2016). 2.2. Máy véc tơ hỗ trợ (Support Vector Machine (SVM)) Cho một tập dữ liệu huấn luyện N kkk yx 1},{ với dữ liệu đầu n k Rx vào và nhãn lớp tương ứng }1,1{ky , thuật toán SVM thiết lập ranh giới quyết định sao cho khoảng cách giữa các lớp Hồ Chí Minh, tháng 11 năm 2019 260 càng lớn càng tốt. Hơn nữa, SVM dựa vào thủ thuật Kernel để đối phó với các vấn đề phân loại phi tuyến (Tien Bui et al., 2015; Chou et al., 2016). 2.3. Máy véc tơ hỗ trợ quân phƣơng tối thiểu (Least Squares Support Vector Machine (LSSVM)) LSSVM là phiên bản bình phương nhỏ nhất của SVM tiêu chuẩn, trong đó cấu trúc mô hình được xác định bằng cách giải quyết một tập hợp hệ thống tuyến tính thay vì vấn đề tối ưu hóa phi tuyến (Hoang and Tien Bui, 2016). 2.4. Máy véc tơ liên quan (Relevance Vector Machine (RVM)) RVM được đề xuất bởi Tipping (Tipping, 2000) là một phương pháp dựa trên suy luận Bayesian có thể được sử dụng để giải quyết các vấn đề phân loại. Dạng chức năng của RVM tương tự như máy vectơ hỗ trợ. Hơn nữa, một phương pháp dựa trên tối đa hóa kỳ vọng được sử dụng để xây dựng mô hình dự đoán RMV. 2.5. Thuật toán Fuzzy k-Nearest Neighbor (FKNN) Thuật toán FKNN, được đề xuất bởi Keller et al. (Keller et al., 1985), là một biến thể nâng cao của thuật toán k Nearest Neighbor (KNN) thông thường. FKNN sử dụng khái niệm lý thuyết tập mờ để cải thiện năng lực học tập và hiệu suất dự đoán của KNN. Phương thức FKNN gán các thành viên mờ của các mẫu đầu vào cho mỗi nhãn lớp trong bộ nhãn. Nhãn lớp đi kèm với mức độ thành viên tối đa được chọn làm đầu ra cho mẫu đầu vào được quan tâm. 3. KẾT QUẢ VÀ THẢO LUẬN Tập dữ liệu gốc được phân tách thành Tập huấn luyện (80% dữ liệu) và Tập kiểm tra (20% dữ liệu). Bộ thứ nhất được sử dụng để huấn luyện mô hình, bộ thứ hai nhằm mục đích kiểm tra hiệu suất của mô hình. Quá trình chạy được tiến hành lặp đi lặp lại 30 lần để nâng cao khả năng chính xác của mô hình. Trong mỗi lần chạy, 20% bộ dữ liệu được trích xuất ngẫu nhiên để tạo thành dữ liệu thử nghiệm; phần còn lại là bộ dữ liệu cho đào tạo mô hình. Sau 30 lần chạy, kết quả dự đoán của năm mô hình được sử dụng được tóm tắt trong bảng 1. Kết quả bảng 1 cho thấy mô hình RVM đã đạt được độ chính xác dự đoán mong muốn nhất trong cả hai giai đoạn đào tạo (CAR = 92,54% và AUC = 0,97) và các giai đoạn thử nghiệm (CAR = 91,74% và AUC = 0,96). LSSVM là mô hình tốt thứ hai (CAR = 88,19% và AUC = 0,96); SVM xếp hạng là mô hình thứ ba (CAR = 85,90% và AUC = 0,96), theo sau là ANN (CAR = 85,28% and AUC = 0.94) và FKNN (CAR = 83,68% và AUC = 0,90). Kết quả cũng chỉ ra các giá trị đặc biệt cao của TPR (0.90) và TNR (0,94) do RVM mang lại. Biểu đồ hình hộp thể hiện trong hình 1 tóm tắt kết quả CAR và AUC của năm mô hình thu được từ 30 lần chạy. Bảng 1. Kết quả dự đoán của các mô hình Metrics FKNN ANN SVM LSSVM RVM Mean Std Mean Std Mean Std Mean Std Mean Std Giai đoạn đào tạo CAR (%) 85,64 1,97 88,67 2,96 91,81 6,70 92,22 1,11 92,54 0,90 AUC 0,91 0,02 0,96 0,01 0,99 0,00 0,98 0,00 0,97 0,01 TPR 0,85 0,02 0,86 0,07 0,96 0,03 0,88 0,02 0,91 0,02 FPR 0,14 0,02 0,09 0,07 0,13 0,15 0,04 0,02 0,06 0,01 FNR 0,15 0,02 0,14 0,07 0,04 0,03 0,12 0,02 0,09 0,02 TNR 0,86 0,02 0,91 0,07 0,87 0,15 0,96 0,02 0,95 0,01 Giai đoạn thử nghiệm CAR (%) 83,68 4,74 85,28 4,80 85,90 5,44 88,19 4,90 91,74 3,07 Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” 261 AUC 0,90 0,04 0,94 0,04 0,96 0,02 0,96 0,03 0,96 0,02 TPR 0,85 0,06 0,82 0,11 0,92 0,06 0,86 0,07 0,90 0,06 FPR 0,18 0,09 0,12 0,09 0,20 0,12 0,09 0,07 0,06 0,04 FNR 0,15 0,06 0,18 0,07 0,08 0,03 0,14 0,02 0,10 0,02 TNR 0,83 0,09 0,88 0,09 0,80 0,12 0,91 0,07 0,94 0,04 (a) (b) Hình 1. Hiệu suất dự báo của các mô hình: (a) CAR, (b) AUC. So sánh hiệu suất của các mô hình theo phương pháp xếp hạng Wilcoxon (Bảng 2) cho thấy, RVM vượt trội đáng kể so với các mô hình chuẩn khác. LSSVM xếp thứ hai, có được hai vượt trội đáng kể trước FKNN và ANN và một trước SVM. FKNN là mô hình có độ dự báo chính xác thấp nhất, kém hơn SVM, LSSVM và RVM, và thậm chí kém cả ANN. Bảng 2. So sánh hiệu suất của các mô hình với thử nghiệm xếp hạng Wilcoxon (a) Test result Models FKNN ANN SVM LSSVM RVM FKNN x - -- -- -- ANN + x - -- -- SVM ++ + x - -- LSSVM ++ ++ + x -- RVM ++ ++ ++ ++ x (b) p-values Models FKNN ANN SVM LSSVM RVM FKNN x 0.3669 0.0282 0.0050 0.0000 ANN 0.3669 x 0.3470 0.0137 0.0000 SVM 0.0282 0.3470 x 0.0931 0.0001 LSSVM 0.0050 0.0137 0.0931 x 0.0020 RVM 0.0000 0.0000 0.0001 0.0020 x 4. KẾT LUẬN Năm thuật toán đại diện cho các mô hình học máy khác nhau đã được ứng dụng để dự báo xói mòn đất. Kết quả thử nghiệm được hỗ trợ kiểm tra xếp hạng phương pháp Wilcoxon chỉ ra rằng mô hình RVM là phù hợp nhất trong bài toán dự đoán xói mòn đất. Mô hình RVM đạt được kết quả tốt nhất trong cả đào tạo (CAR = 92,54 % và AUC = 0,97) và sau đó là giai đoạn thử nghiệm (CAR = 91,74 % và AUC = 0,96). Các thuật toán học tập khác cũng thể hiện hiệu suất tốt vì tất cả các giá trị CAR vượt quá 80 % và tất cả các giá trị AUC đều lớn hơn 0,9. Do đó, những kết quả này khẳng Hồ Chí Minh, tháng 11 năm 2019 262 định mạnh mẽ hiệu quả của việc áp dụng trí thông minh nhân tạo để giải quyết các vấn đề quan tâm. Hơn nữa, mô hình RVM có thể là một công cụ hứa hẹn để nhanh chóng xác định các khu vực xói mòn đất tiềm năng và phát triển các biện pháp phòng ngừa. TÀI LIỆU THAM KHẢO [1]. Chou, J.-S., Yang, K.-H., Lin, J.-Y., 2016. Peak Shear Strength of Discrete Fiber-Reinforced Soils Computed by Machine Learning and Metaensemble Methods. Journal of Computing in Civil Engineering 30, 04016036. [2]. Hagan , M.T., Demuth, H.B., Beale, M.H., Jesús, O.D., 2014. Neural Network Design (2nd Edition). Martin Hagan; 2 edition (September 1, 2014), ISBN-10: 0971732116. [3]. Hoang, N.-D., Tien Bui, D., 2016. Predicting earthquake-induced soil liquefaction based on a hybridization of kernel Fisher discriminant analysis and a least squares support vector machine: a multi- dataset study. B. Eng. Geol. Environ., 1-14. [4]. Keller, J.M., Gray, M.R., Given, J.A., 1985. A Fuzzy K-Nearest Neighbor Algorithm. IEEE T. Syst. Man Cy. 15, 580-585. [5]. Morgan, R.P.C., 2005. Soil Erosion and Conservation. Blackwell Science Ltd, Oxford, England. [6]. Shahin, M.A., 2016. State-of-the-art review of some artificial intelligence applications in pile foundations. Geoscience Frontiers 7, 33-44. [7]. Spekken, M., de Bruin, S., Molin, J.P., Sparovek, G., 2016. Planning machine paths and row crop patterns on steep surfaces to minimize soil erosion. Comput. Electron. Agric. 124, 194-210. [8]. Tien Bui, D., Tran, A.T., Klempe, H., Pradhan, B., Revhaug, I., 2015. Spatial prediction models for shallow landslide hazards: a comparative assessment of the efficacy of support vector machines, artificial neural networks, kernel logistic regression, and logistic model tree. Landslides, 1-18. [9]. Tipping, M.E., 2000. The Relevance Vector Machine. Adv. Neural Inf. Process. Syst., MIT Press 12, 652–658. [10]. Tran, T.-H., Hoang, N.-D., 2016. Predicting Colonization Growth of Algae on Mortar Surface with Artificial Neural Network. J. Comput. Civ. Eng. 30, 04016030. Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” 263 MACHINE LEARNING APPROACHES FOR PREDICTING RAINFALL- INDUCED SOIL EROSION IN TROPICAL HILLY NORTHWEST VIETNAM Tuan Vu Dinh 1,3 , Nhat-Duc Hoang 2 , Xuan-Linh Tran 3 1 Faculty of Environmental Sciences, VNU University of Science, Vietnam National University [email protected] 2 Faculty of Civil Engineering, Duy Tan University Email: [email protected] 3 Institute of Research and Development, Duy Tan University, Email: [email protected] ABSTRACT Rainfall-induced soil erosion is a critical problem for landowners in tropical hilly regions. Conventional erosion prediction models either physical or empirical or both face difficulty in model development, and predictive accuracy due to the appropriateness of erosion concepts employed. This study attemp to predict erosion status using five machine learning algorithms: Fuzzy k-Nearest Neighbor (FKNN), Artificial Neural Network (ANN), Support Vector Machine (SVM), Least Squares Support Vector Machine (LSSVM), and Relevance Vector Machine (RVM). A data set consisting of recorded daily soil erosion in 2009-2011 from 24 bounded plots in two experiments in Northwest Vietnam was used to construct and verify the models. The data featuring ten factors affecting soil erosion, was randomly assigned into two sets: Training Set (80) used for model establishment and Testing Set (20 %) used to test model performance. The research finding shows that all machine learning algorithms can attain good predictive outcomes, reflected by the fact that all classification accuracy rates surpass 80 %. The Wilcoxon signed-rank test indicates that RVM is the most appropriate learning algorithm since it achieves the highest prediction results in both training phase (classification accuracy rate = 92.54 %) and testing phase (classification accuracy rate = 91.74%). Key words: Soil Erosion Prediction, Experimental data set, Hilly Region, Machine Learning.