Xói mòn do mưa gây ra là một vấn đề nghiêm trọng đối với các vùng đồi núi nhiệt đới. Các
mô hình dự báo xói mòn đất truyền thống (vật lý, kinh nghiệm) đều gặp khó khăn trong quá trình
phát triển và dự báo chính xác. Do đó, nghiên cứu này xây dựng các mô hình dựa trên cơ sở dữ liệu
sẵn có để dự đoán tình trạng xói mòn bằng các thuật toán học máy. Một bộ dữ liệu xói mòn đất
được thu thập trong ba năm từ 2009-2011 vùng Tây Bắc Việt Nam đã được sử dụng để xây dựng và
kiểm nghiệm các mô hình. Kết quả nghiên cứu cho thấy tất cả các mô hình học máy có thể đạt được
kết quả dự đoán tốt với tỷ lệ chính xác trong phân loại đều cao hơn 80 %. Trong đó mô hình dựa
trên RVM là thuật toán phù hợp nhất vì nó đạt được kết quả dự đoán cao nhất trong cả hai giai đoạn
đào tạo (tỷ lệ chính xác đạt 92,54 %) và giai đoạn kiểm nghiệm (tỷ lệ chính xác đạt 91,74 %).
5 trang |
Chia sẻ: thanhuyen291 | Ngày: 10/06/2022 | Lượt xem: 306 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Dự báo xói mòn đất do mưa gây ra ở vùng đồi núi Việt Nam bằng các phương pháp học máy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường”
DOI: 10.15625/vap.2019.000130
259
DỰ BÁO XÓI MÒN ĐẤT DO MƢA GÂY RA Ở VÙNG ĐỒI NÚI VIỆT NAM
BẰNG CÁC PHƢƠNG PHÁP HỌC MÁY
Vũ Đình Tuấn1,3, Hoàng Nhật Đức2, Trần Xuân Linh3
1Khoa Môi trường, Trường Đại học Khoa học tự nhi n, Đại học u c gia à ội
Email: vudinhtuaniae@gmail.com
2
Khoa Xây dựng, Đại học Duy Tân, Email: tranxuanlinh@dtu.edu.vn
3
Viện Nghiên cứu phát triển, Đại học Duy Tân, Email: hoangnhatduc@dtu.edu.vn
TÓM TẮT
Xói mòn do mưa gây ra là một vấn đề nghiêm trọng đối với các vùng đồi núi nhiệt đới. Các
mô hình dự báo xói mòn đất truyền thống (vật lý, kinh nghiệm) đều gặp khó khăn trong quá trình
phát triển và dự báo chính xác. Do đó, nghiên cứu này xây dựng các mô hình dựa trên cơ sở dữ liệu
sẵn có để dự đoán tình trạng xói mòn bằng các thuật toán học máy. Một bộ dữ liệu xói mòn đất
được thu thập trong ba năm từ 2009-2011 vùng Tây Bắc Việt Nam đã được sử dụng để xây dựng và
kiểm nghiệm các mô hình. Kết quả nghiên cứu cho thấy tất cả các mô hình học máy có thể đạt được
kết quả dự đoán tốt với tỷ lệ chính xác trong phân loại đều cao hơn 80 %. Trong đó mô hình dựa
trên RVM là thuật toán phù hợp nhất vì nó đạt được kết quả dự đoán cao nhất trong cả hai giai đoạn
đào tạo (tỷ lệ chính xác đạt 92,54 %) và giai đoạn kiểm nghiệm (tỷ lệ chính xác đạt 91,74 %).
Từ khóa: Dự báo xói mòn đất, bộ dữ liệu thực nghiệm, vùng đồi núi, học máy.
1. GIỚI THIỆU
Xói mòn đất do nước gây ra mất đất từ đồng ruộng, phá vỡ cấu trúc đất và suy giảm các chất
hữu cơ và chất dinh dưỡng (Spekken et al., 2016). Xói mòn còn làm giảm độ dày tầng đất trồng trọt
và giảm độ phì nhiêu của đất. Ngoài ra xói mòn còn gây bồi lắng ở hạ lưu, làm suy giảm chức năng
của sông, hồ chứa và mương thoát nước, tăng nguy cơ lũ lụt và chặn các kênh tưới tiêu (Morgan,
2005). Xói mòn đất ở vùng nhiệt đới sẽ trở nên nghiêm trọng hơn khi kết hợp với các điều kiện
khác. Chẳng hạn đất dễ bị xói mòn hơn vào đầu mùa vụ khi mưa lớn, và lớp phủ mặt đất thấp.
Trong những năm gần đây, phương pháp học máy đã được áp dụng để phân tích dữ liệu từ các
thí nghiệm nhằm mục đích dự đoán xói mòn đất. Các mô hình dựa trên học máy có thể cung cấp
một giải pháp thay thế hữu ích để đối phó với tính chất đa biến và phức tạp của các hiện tượng
trong khoa học đất và khoa học địa chất (Shahin, 2016). Nghiên cứu này nhằm mục đích mở rộng
kiến thức bằng cách thiết lập các mô hình dự báo xói mòn đất cho các vùng đồi núi nhiệt đới dựa
trên năm phương pháp học máy: mô hình trí tuệ nhân tạo (ANN), Vectơ hỗ trợ (SVM), Vectơ hỗ trợ
tối thiểu (LSSVM), Vectơ liên quan (RVM) và Fuzzy-K (FKNN). Một bộ dữ liệu, gồm mười biến,
được thu thập từ các thí nghiệm ở Sơn La được sử dụng để xây dựng và hiệu đính các mô hình này.
2. PHƢƠNG PHÁP
2.1. Mạng nơ ron nhân tạo (Artificial Neural Network (ANN))
ANN là một phương pháp học máy được sử dụng rộng rãi lấy cảm hứng từ các mạng lưới
thần kinh sinh học. Phương pháp này mô phỏng quá trình thu nhận kiến thức và lý luận xảy ra trong
não người (Hagan et al., 2014; Tran and Hoang, 2016).
2.2. Máy véc tơ hỗ trợ (Support Vector Machine (SVM))
Cho một tập dữ liệu huấn luyện
N
kkk yx 1},{ với dữ liệu đầu
n
k Rx vào và nhãn lớp tương
ứng }1,1{ky , thuật toán SVM thiết lập ranh giới quyết định sao cho khoảng cách giữa các lớp
Hồ Chí Minh, tháng 11 năm 2019
260
càng lớn càng tốt. Hơn nữa, SVM dựa vào thủ thuật Kernel để đối phó với các vấn đề phân loại phi
tuyến (Tien Bui et al., 2015; Chou et al., 2016).
2.3. Máy véc tơ hỗ trợ quân phƣơng tối thiểu (Least Squares Support Vector Machine
(LSSVM))
LSSVM là phiên bản bình phương nhỏ nhất của SVM tiêu chuẩn, trong đó cấu trúc mô hình
được xác định bằng cách giải quyết một tập hợp hệ thống tuyến tính thay vì vấn đề tối ưu hóa phi
tuyến (Hoang and Tien Bui, 2016).
2.4. Máy véc tơ liên quan (Relevance Vector Machine (RVM))
RVM được đề xuất bởi Tipping (Tipping, 2000) là một phương pháp dựa trên suy luận
Bayesian có thể được sử dụng để giải quyết các vấn đề phân loại. Dạng chức năng của RVM tương
tự như máy vectơ hỗ trợ. Hơn nữa, một phương pháp dựa trên tối đa hóa kỳ vọng được sử dụng để
xây dựng mô hình dự đoán RMV.
2.5. Thuật toán Fuzzy k-Nearest Neighbor (FKNN)
Thuật toán FKNN, được đề xuất bởi Keller et al. (Keller et al., 1985), là một biến thể nâng
cao của thuật toán k Nearest Neighbor (KNN) thông thường. FKNN sử dụng khái niệm lý thuyết tập
mờ để cải thiện năng lực học tập và hiệu suất dự đoán của KNN. Phương thức FKNN gán các thành
viên mờ của các mẫu đầu vào cho mỗi nhãn lớp trong bộ nhãn. Nhãn lớp đi kèm với mức độ thành
viên tối đa được chọn làm đầu ra cho mẫu đầu vào được quan tâm.
3. KẾT QUẢ VÀ THẢO LUẬN
Tập dữ liệu gốc được phân tách thành Tập huấn luyện (80% dữ liệu) và Tập kiểm tra (20% dữ
liệu). Bộ thứ nhất được sử dụng để huấn luyện mô hình, bộ thứ hai nhằm mục đích kiểm tra hiệu
suất của mô hình. Quá trình chạy được tiến hành lặp đi lặp lại 30 lần để nâng cao khả năng chính
xác của mô hình. Trong mỗi lần chạy, 20% bộ dữ liệu được trích xuất ngẫu nhiên để tạo thành dữ
liệu thử nghiệm; phần còn lại là bộ dữ liệu cho đào tạo mô hình. Sau 30 lần chạy, kết quả dự đoán
của năm mô hình được sử dụng được tóm tắt trong bảng 1. Kết quả bảng 1 cho thấy mô hình RVM
đã đạt được độ chính xác dự đoán mong muốn nhất trong cả hai giai đoạn đào tạo (CAR = 92,54%
và AUC = 0,97) và các giai đoạn thử nghiệm (CAR = 91,74% và AUC = 0,96). LSSVM là mô hình
tốt thứ hai (CAR = 88,19% và AUC = 0,96); SVM xếp hạng là mô hình thứ ba (CAR = 85,90% và
AUC = 0,96), theo sau là ANN (CAR = 85,28% and AUC = 0.94) và FKNN (CAR = 83,68% và
AUC = 0,90). Kết quả cũng chỉ ra các giá trị đặc biệt cao của TPR (0.90) và TNR (0,94) do RVM
mang lại. Biểu đồ hình hộp thể hiện trong hình 1 tóm tắt kết quả CAR và AUC của năm mô hình
thu được từ 30 lần chạy.
Bảng 1. Kết quả dự đoán của các mô hình
Metrics FKNN ANN SVM LSSVM RVM
Mean Std Mean Std Mean Std Mean Std Mean Std
Giai đoạn đào tạo
CAR (%) 85,64 1,97 88,67 2,96 91,81 6,70 92,22 1,11 92,54 0,90
AUC 0,91 0,02 0,96 0,01 0,99 0,00 0,98 0,00 0,97 0,01
TPR 0,85 0,02 0,86 0,07 0,96 0,03 0,88 0,02 0,91 0,02
FPR 0,14 0,02 0,09 0,07 0,13 0,15 0,04 0,02 0,06 0,01
FNR 0,15 0,02 0,14 0,07 0,04 0,03 0,12 0,02 0,09 0,02
TNR 0,86 0,02 0,91 0,07 0,87 0,15 0,96 0,02 0,95 0,01
Giai đoạn thử nghiệm
CAR (%) 83,68 4,74 85,28 4,80 85,90 5,44 88,19 4,90 91,74 3,07
Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường”
261
AUC 0,90 0,04 0,94 0,04 0,96 0,02 0,96 0,03 0,96 0,02
TPR 0,85 0,06 0,82 0,11 0,92 0,06 0,86 0,07 0,90 0,06
FPR 0,18 0,09 0,12 0,09 0,20 0,12 0,09 0,07 0,06 0,04
FNR 0,15 0,06 0,18 0,07 0,08 0,03 0,14 0,02 0,10 0,02
TNR 0,83 0,09 0,88 0,09 0,80 0,12 0,91 0,07 0,94 0,04
(a) (b)
Hình 1. Hiệu suất dự báo của các mô hình: (a) CAR, (b) AUC.
So sánh hiệu suất của các mô hình theo phương pháp xếp hạng Wilcoxon (Bảng 2) cho thấy,
RVM vượt trội đáng kể so với các mô hình chuẩn khác. LSSVM xếp thứ hai, có được hai vượt trội
đáng kể trước FKNN và ANN và một trước SVM. FKNN là mô hình có độ dự báo chính xác thấp
nhất, kém hơn SVM, LSSVM và RVM, và thậm chí kém cả ANN.
Bảng 2. So sánh hiệu suất của các mô hình với thử nghiệm xếp hạng Wilcoxon
(a) Test result
Models FKNN ANN SVM LSSVM RVM
FKNN x - -- -- --
ANN + x - -- --
SVM ++ + x - --
LSSVM ++ ++ + x --
RVM ++ ++ ++ ++ x
(b) p-values
Models FKNN ANN SVM LSSVM RVM
FKNN x 0.3669 0.0282 0.0050 0.0000
ANN 0.3669 x 0.3470 0.0137 0.0000
SVM 0.0282 0.3470 x 0.0931 0.0001
LSSVM 0.0050 0.0137 0.0931 x 0.0020
RVM 0.0000 0.0000 0.0001 0.0020 x
4. KẾT LUẬN
Năm thuật toán đại diện cho các mô hình học máy khác nhau đã được ứng dụng để dự báo xói
mòn đất. Kết quả thử nghiệm được hỗ trợ kiểm tra xếp hạng phương pháp Wilcoxon chỉ ra rằng mô
hình RVM là phù hợp nhất trong bài toán dự đoán xói mòn đất. Mô hình RVM đạt được kết quả tốt
nhất trong cả đào tạo (CAR = 92,54 % và AUC = 0,97) và sau đó là giai đoạn thử nghiệm (CAR =
91,74 % và AUC = 0,96). Các thuật toán học tập khác cũng thể hiện hiệu suất tốt vì tất cả các giá trị
CAR vượt quá 80 % và tất cả các giá trị AUC đều lớn hơn 0,9. Do đó, những kết quả này khẳng
Hồ Chí Minh, tháng 11 năm 2019
262
định mạnh mẽ hiệu quả của việc áp dụng trí thông minh nhân tạo để giải quyết các vấn đề quan tâm.
Hơn nữa, mô hình RVM có thể là một công cụ hứa hẹn để nhanh chóng xác định các khu vực xói
mòn đất tiềm năng và phát triển các biện pháp phòng ngừa.
TÀI LIỆU THAM KHẢO
[1]. Chou, J.-S., Yang, K.-H., Lin, J.-Y., 2016. Peak Shear Strength of Discrete Fiber-Reinforced Soils
Computed by Machine Learning and Metaensemble Methods. Journal of Computing in Civil
Engineering 30, 04016036.
[2]. Hagan , M.T., Demuth, H.B., Beale, M.H., Jesús, O.D., 2014. Neural Network Design (2nd Edition).
Martin Hagan; 2 edition (September 1, 2014), ISBN-10: 0971732116.
[3]. Hoang, N.-D., Tien Bui, D., 2016. Predicting earthquake-induced soil liquefaction based on a
hybridization of kernel Fisher discriminant analysis and a least squares support vector machine: a multi-
dataset study. B. Eng. Geol. Environ., 1-14.
[4]. Keller, J.M., Gray, M.R., Given, J.A., 1985. A Fuzzy K-Nearest Neighbor Algorithm. IEEE T. Syst.
Man Cy. 15, 580-585.
[5]. Morgan, R.P.C., 2005. Soil Erosion and Conservation. Blackwell Science Ltd, Oxford, England.
[6]. Shahin, M.A., 2016. State-of-the-art review of some artificial intelligence applications in pile
foundations. Geoscience Frontiers 7, 33-44.
[7]. Spekken, M., de Bruin, S., Molin, J.P., Sparovek, G., 2016. Planning machine paths and row crop
patterns on steep surfaces to minimize soil erosion. Comput. Electron. Agric. 124, 194-210.
[8]. Tien Bui, D., Tran, A.T., Klempe, H., Pradhan, B., Revhaug, I., 2015. Spatial prediction models for
shallow landslide hazards: a comparative assessment of the efficacy of support vector machines,
artificial neural networks, kernel logistic regression, and logistic model tree. Landslides, 1-18.
[9]. Tipping, M.E., 2000. The Relevance Vector Machine. Adv. Neural Inf. Process. Syst., MIT Press 12,
652–658.
[10]. Tran, T.-H., Hoang, N.-D., 2016. Predicting Colonization Growth of Algae on Mortar Surface with
Artificial Neural Network. J. Comput. Civ. Eng. 30, 04016030.
Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường”
263
MACHINE LEARNING APPROACHES FOR PREDICTING RAINFALL-
INDUCED SOIL EROSION IN TROPICAL HILLY NORTHWEST
VIETNAM
Tuan Vu Dinh
1,3
, Nhat-Duc Hoang
2
, Xuan-Linh Tran
3
1
Faculty of Environmental Sciences, VNU University of Science, Vietnam National University
vudinhtuaniae@gmail.com
2
Faculty of Civil Engineering, Duy Tan University
Email:
hoangnhatduc@dtu.edu.vn
3
Institute of Research and Development, Duy Tan University,
Email: tranxuanlinh@dtu.edu.vn
ABSTRACT
Rainfall-induced soil erosion is a critical problem for landowners in tropical hilly regions.
Conventional erosion prediction models either physical or empirical or both face difficulty in model
development, and predictive accuracy due to the appropriateness of erosion concepts employed.
This study attemp to predict erosion status using five machine learning algorithms: Fuzzy k-Nearest
Neighbor (FKNN), Artificial Neural Network (ANN), Support Vector Machine (SVM), Least
Squares Support Vector Machine (LSSVM), and Relevance Vector Machine (RVM). A data set
consisting of recorded daily soil erosion in 2009-2011 from 24 bounded plots in two experiments in
Northwest Vietnam was used to construct and verify the models. The data featuring ten factors
affecting soil erosion, was randomly assigned into two sets: Training Set (80) used for model
establishment and Testing Set (20 %) used to test model performance. The research finding shows
that all machine learning algorithms can attain good predictive outcomes, reflected by the fact that
all classification accuracy rates surpass 80 %. The Wilcoxon signed-rank test indicates that RVM is
the most appropriate learning algorithm since it achieves the highest prediction results in both
training phase (classification accuracy rate = 92.54 %) and testing phase (classification accuracy
rate = 91.74%).
Key words: Soil Erosion Prediction, Experimental data set, Hilly Region, Machine Learning.