Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau

Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree). Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. Kết quả thực hiện của nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám; khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực thực nghiệm.

5 trang | Chia sẻ: thanhuyen291 | Lượt xem: 840 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” DOI: 10.15625/vap.2019.000155 361 NGHIÊN CỨU CƠ SỞ KHOA HỌC ỨNG DỤNG THUẬT TOÁN RANDOM FOREST TRONG PHÂN LOẠI ẢNH VỆ TINH SPOT6 VỚI KHU VỰC THỰC NGHIỆM TẠI TỈNH CÀ MAU Phạm Minh Hải1, Đỗ Thị Hoài1, Bùi Quang Thành2, Nguyễn Ngọc Quang 3 1Viện Khoa học Đo đạc và Bản đồ, Bộ Tài Nguyên và Môi trường Email: [email protected], [email protected] 2Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội Email: [email protected] 3Cục Viễn thám Quốc gia, Bộ Tài Nguyên và Môi trường Email: [email protected] TÓM TẮT Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree). Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. Kết quả thực hiện của nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám; khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực thực nghiệm. Từ khóa: Viễn thám, rừng ngập mặn, random forest 1. GIỚI THIỆU Từ trước đến nay, để chiết tách các thông tin ảnh viễn thám, việc ứng dụng các thuật toán có kiểm định như K-Nearest Neighbors (KNN) đã trở nên phổ biến. K-Nearest Neighbors phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đối tượng trong các bộ mẫu (Training Data). Tuy nhiên hiện nay, các nhà nghiên cứu đã và đang phát triển nhiều thuật toán mới, phức tạp, mạnh mẽ và hiệu quả hơn. Một trong số đó là Random Forest. Thuật toán này cho phép con người xác định chính xác các thông tin phân loại và thống kê dựa vào các tập dữ liệu khổng lồ. Trong phạm vi bài báo này, nhóm nghiên cứu tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) - RF trong phân loại rừng ngập mặn trên ảnh viễn thám SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. 2. PHƯƠNG PHÁP LUẬN CỦA NGHIÊN CỨU Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree) [1]. Mỗi Node của cây sẽ là các thuộc tính, và các nhánh là giá trị lựa chọn của thuộc tính đó. Từ hình 1 chúng ta thấy rằng Random Forest được cấu thành bởi một số cây quyết định. Thuật toán lấy mẫu cho phương pháp random forest ứng dụng cho các phương pháp sử dụng thuật toán mô tả thống kê để ước lượng số lượng từ một mẫu dữ liệu (bagging). Một tập mẫu X = x1, ..., xn với các câu trả lời Y = y1, ..., yn, lấy giá trị trung bình (B lần), chọn một mẫu ngẫu nhiên từ bộ mẫu phù hợp với cây quyết định: Lặp b = 1,, B; n mẫu từ giá trị tọa độ (X, Y); gọi là (Xb, Yb); lớp dữ liệu hay kết quả hồi quy fb của biến Xb, Yb; Hồ Chí Minh, tháng 11 năm 2019 362 Hình 1. Sơ đồ biểu diễn các cây quyết định trong phương pháp random forest [1]. Sau khi lấy mẫu, các phép tính toán cho các mẫu là ẩn số x’ có thể được thực hiện bằng cách lấy trung bình các giá trị nội suy từ tất cả các cây hồi quy riêng lẻ của biến x' hoặc lấy giá trị từ đa số của các mẫu trong cây quyết định: ∑ Random forest có thể sắp xếp sự quan trọng của các biến trong các bài toán phân loại hay hồi quy, được mô tả trong các nghiên cứu của Breiman, xác định các biến quan trọng trong 1 tập dữ liệu là làm phù hợp phương pháp random forest với tập dữ liệu: . Để xác định được tính quan trọng của đối tượng thứ i sau khi lấy mẫu, các giá trị của mẫu i được hoán vị trong tập mẫu và các lỗi dự báo được tính toán lại trong tập dữ liệu. Độ quan trọng của đối tượng được tính bằng điểm, các điểm được tính toán bằng cách lấy trung bình của độ chênh lệch giữa các lỗi dự báo trước và sau khi hoán vị. Các đối tượng có giá trị lớn được xếp quan trọng hơn các điểm có giá trị nhỏ. 3. KẾT QUẢ VÀ THẢO LUẬN 3.1. Dữ liệu đầu vào và khu vực thực nghiệm a. Khu vực thực nghiệm Khu vực thử nghiệm của nghiên cứu thuộc huyện Đầm Dơi và Ngọc Hiển của Tỉnh Cà Mau Hình 2. Phạm vi khu vực thực nghiệm (Ảnh SPOT6 band 3,2,1) b. Dữ liệu đầu vào và công tác tiền xử lý ảnh Bài báo thực hiện với dữ liệu ảnh vệ tinh SPOT6 được chụp tại thời điểm năm 2015. Dữ liệu được cung cấp bởi Đài thu Viễn thám Quốc Gia, Cục Viễn thám Quốc Gia, Bộ Tài Nguyên và Môi Trường. Ảnh vệ tinh trong đề tài có độ phủ mây nhỏ hơn 10%, và được hiệu chỉnh bức xạ và khí quyển bằng công cụ ATCOR (Atmospheric correction) trong phần mềm PCI Geomatic 2018. Quá trình tiền xử lý ảnh gồm 3 bước: Hiệu chỉnh bức xạ trước đầu thu; hiệu chỉnh bức xạ ảnh hưởng mây; hiệu chỉnh ảnh hưởng khí quyển. Nhóm thực hiền nghiên cứu tiến hành công tác nắn chỉnh Cây 1 Cây 2 Cây 3 Tổng hợp để phân lớp hay chia trung bình để tính hồi quy Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” 363 hình học và trộn ảnh về độ phân giải 2.5m. Ảnh được nắn về hệ tọa độ WGS84 và hệ quy chiếu UTM múi 48. Để đánh giá độ chính xác của kết quả thực hiện, nhóm thực hiện đề tài sử dụng bản đồ kiểm kê rừng tại cùng khu vực nghiên cứu được thành lập năm 2015. 3.2. Kết quả thực hiện Nhóm thực hiện đề tiến hành để thu thập mẫu giải đoán ảnh tại khu vực nghiên cứu. Công tác thu thập mẫu được tiến hành cả bằng phương pháp thực địa và trên phần mềm Google Earth. Hệ thống chú giải được xây dựng thê hiện trên bảng 1. Bảng 1. Hệ thống chú giải được xây dựng STT Mã Chú giải 1 RNMG Rừng ngập mặn giàu 2 RNMTB Rừng ngập mặn trung bình 3 RNMPH Rừng ngập mặn phục hồi 4 DTR Đất trống, bãi cát 5 MN Mặt nước 6 DNN Đất NN, NTTS Trong đó, tập dữ liệu sau khi giải đoán được chia thành 2 phần với số lượng điểm và bố trí các điểm thể hiện trên hình dưới. Trong đó, 70% mẫu được sử dụng mẫu huấn luyện để phân loại (training data), 30 % mẫu còn lại được sử dụng mẫu kiểm chứng kết quả phân loại (testing data). Sử dụng thuật toán Random Forest và dữ liệu ảnh SPOT6, nhóm thực hiện nghiên cứu đã xây dựng được hiện trạng rừng ngập mặn khu vực thực nghiệm với các đối tượng cây ngậm mặn được chia ra thành các loại như: mắm, đước, hỗn giao.v.v. Nhóm thực hiện đã xây dựng được hiện trạng trữ lượng rừng ngập mặn theo loài tại khu vực thực nghiệm. Nhằm đánh giá độ chính xác của kết quả phân loại ảnh, nhóm thực hiện đề tài tiến hành so sánh bằng mắt thường về ranh giới khu vực rừng ngập mặn giữa kết quả phân loại ảnh và bản đồ kiểm kê rừng cùng thời kỳ. Kết quả cho thấy, kết quả phân loại ảnh cho độ chính xác cao hơn với mức độ chi tiết về các đường ranh giới khu vực rừng ngập mặn cao. Ngược lại, nhiều khu vực có các đường ranh giới khu vực rừng ngập mặn trên bản đồ kiểm kê rừng cùng thời kỳ đã bị khái quát hóa cao khi thành lập do đó phản ánh không chính xác vị trí ranh giới khu vực rừng ngập mặn. Kết quả đánh giá độ chính xác khi kiểm chứng với 109 điểm kiểm chứng như sau: Độ chính xác tổng thể đạt 83%, trong đó kết quả phân loại rừng đước cho độ chính xác cao cả độ chính xác pixel và độ chính xác tổng thể, rừng hỗn giao đước, mắm có độ chính xác tổng thể chỉ đạt 74%, trong khi đó mắm có độ chính xác pixel đạt 68 % do vẫn chưa tách được các lớp khác bị lẫn vào trong 1 điểm ảnh. Hình 3. Kết quả phân loại ảnh sử dụng thuật toán Random Forest Hồ Chí Minh, tháng 11 năm 2019 364 Bản đồ kiểm kê rừng 2015 Kết quả phân loại ảnh SPOT6 2015 Hình 4. Minh họa so sánh đánh giá độ chính xác giữa kết quả phân loại ảnh và bản đồ kiểm kê rừng cùng thời kỳ 4. KẾT LUẬN Qua công tác nghiên cứu khảo sát cho thấy, việc nghiên cứu ứng dụng phương pháp Randon Forest trong phân loại ảnh viễn thám có cơ sở khoa học và thực tiễn, mang lại độ chính xác cao với chi phí thấp hơn với các phương pháp phân loại có kiểm định truyền thống. Kết quả thực hiện của nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám, và khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực thực nghiệm. Nghiên cứu được thực hiện và đã đạt được những kết quả nhất định, tuy nhiên nhóm nghiên cứu có một số kiến nghị cần nghiên cứu tiếp để có những kết quả có độ chính xác cao hơn. Đó là: 1). Sử dụng ảnh RADAR để có thể phản ảnh cấu trúc đứng của rừng ngập mặn; 2). Sử dụng các yếu tố kiến trúc ảnh (image texture) và các chỉ số hình dạng (shape index) trong phân loại kiểu rừng; 3). Thiết kế các điểu khảo sát, OTC để xác định loài, cấu trúc rừng, trữ lượng rừng để phân loại, kiểm chứng từ ảnh vệ tinh. TÀI LIỆU THAM KHẢO [1]. Sesnie, S.E.; Gessler, P.E.; Finegan, B.; Thessler, S. Integrating Landsat TM and SRTM-DEM derived variables with decision trees for habitat classification and change detection in complex neotropical environments (2018). Remote Sens. Environ, 112, 2145–2159. [2]. Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, J.P (2012). An assessment of the effectiveness of a random forest classifier for land-cover classification. ISPRS J. Photogramm. Remote Sens, 67, 93–104. [3]. Hai., P.M (2016). “Nghiên cứu đề xuất giải pháp nâng cao độ chính xác của công tác phân loại ảnh khu vực có lớp phủ hỗn hợp-Cơ sở khoa học”, Tạp chí Khoa học Đo đạc và Bản đồ, Số 29(9)/2016. Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” 365 RESRACHING ON THE METHODOLOGY OF APPLYING RANDOM FOREST IN SPOT6 SATELLITE IMAGE CLASSIFICATION WITH THE CASE IN CAMAU PROVINCE Pham Minh Hai 1 , Do Thi Hoai 1 , Bui Quang Thanh 2 , Nguyen Ngoc Quang 3 1 Vietnam Institute of Geodesy and Cartography, Ministry of Natural Resources and Environment, Emails: [email protected], [email protected] 2 VNU Univeristy Science, Email: [email protected] 3 Department of National Remote Sensing, Email: [email protected] ABSTRACT Random forest (RF) is a machine learning algorith, which used for the purposes of classification and regression by constructing the decision trees. The objective of this research was to investigate the ability of an algorithm of Machine Learning method (RF) in classifying SPOT6 satellite image with the study area in Ca Mau Province. The results of the study have achieved two new points: the successful application of machine learning (RF) in remote sensing image classification, and the ability of the classification method to magrove species in the study area. Key words: Remote sensing, mangrove, random forest.