Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục
vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết
định (Decision tree). Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán
của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh
SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. Kết quả thực hiện của nghiên cứu đã đạt được 2
điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám;
khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực
thực nghiệm.
5 trang |
Chia sẻ: thanhuyen291 | Lượt xem: 470 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường”
DOI: 10.15625/vap.2019.000155
361
NGHIÊN CỨU CƠ SỞ KHOA HỌC ỨNG DỤNG THUẬT TOÁN
RANDOM FOREST TRONG PHÂN LOẠI ẢNH VỆ TINH SPOT6
VỚI KHU VỰC THỰC NGHIỆM TẠI TỈNH CÀ MAU
Phạm Minh Hải1, Đỗ Thị Hoài1, Bùi Quang Thành2, Nguyễn Ngọc Quang
3
1Viện Khoa học Đo đạc và Bản đồ, Bộ Tài Nguyên và Môi trường
Email: pmhai@monre.gov.vn, haialas@yahoo.com
2Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội
Email: qthanh.bui@gmail.com
3Cục Viễn thám Quốc gia, Bộ Tài Nguyên và Môi trường
Email: quangavril@yahoo.com
TÓM TẮT
Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục
vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết
định (Decision tree). Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán
của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh
SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. Kết quả thực hiện của nghiên cứu đã đạt được 2
điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám;
khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực
thực nghiệm.
Từ khóa: Viễn thám, rừng ngập mặn, random forest
1. GIỚI THIỆU
Từ trước đến nay, để chiết tách các thông tin ảnh viễn thám, việc ứng dụng các thuật toán có
kiểm định như K-Nearest Neighbors (KNN) đã trở nên phổ biến. K-Nearest Neighbors phương
pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query
point) và tất cả các đối tượng trong các bộ mẫu (Training Data). Tuy nhiên hiện nay, các nhà nghiên
cứu đã và đang phát triển nhiều thuật toán mới, phức tạp, mạnh mẽ và hiệu quả hơn. Một trong số
đó là Random Forest. Thuật toán này cho phép con người xác định chính xác các thông tin phân
loại và thống kê dựa vào các tập dữ liệu khổng lồ. Trong phạm vi bài báo này, nhóm nghiên cứu
tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) - RF trong
phân loại rừng ngập mặn trên ảnh viễn thám SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau.
2. PHƯƠNG PHÁP LUẬN CỦA NGHIÊN CỨU
Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning
statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây
dựng nhiều cây quyết định (Decision tree) [1]. Mỗi Node của cây sẽ là các thuộc tính, và các nhánh
là giá trị lựa chọn của thuộc tính đó.
Từ hình 1 chúng ta thấy rằng Random Forest được cấu thành bởi một số cây quyết định.
Thuật toán lấy mẫu cho phương pháp random forest ứng dụng cho các phương pháp sử dụng thuật
toán mô tả thống kê để ước lượng số lượng từ một mẫu dữ liệu (bagging).
Một tập mẫu X = x1, ..., xn với các câu trả lời Y = y1, ..., yn, lấy giá trị trung bình (B lần), chọn
một mẫu ngẫu nhiên từ bộ mẫu phù hợp với cây quyết định:
Lặp b = 1,, B; n mẫu từ giá trị tọa độ (X, Y); gọi là (Xb, Yb); lớp dữ liệu hay kết quả hồi
quy fb của biến Xb, Yb;
Hồ Chí Minh, tháng 11 năm 2019
362
Hình 1. Sơ đồ biểu diễn các cây quyết định trong phương pháp random forest [1].
Sau khi lấy mẫu, các phép tính toán cho các mẫu là ẩn số x’ có thể được thực hiện bằng cách
lấy trung bình các giá trị nội suy từ tất cả các cây hồi quy riêng lẻ của biến x' hoặc lấy giá trị từ đa
số của các mẫu trong cây quyết định:
∑
Random forest có thể sắp xếp sự quan trọng của các biến trong các bài toán phân loại hay hồi
quy, được mô tả trong các nghiên cứu của Breiman, xác định các biến quan trọng trong 1 tập dữ liệu
là làm phù hợp phương pháp random forest với tập dữ liệu:
.
Để xác định được tính quan trọng của đối tượng thứ i sau khi lấy mẫu, các giá trị của mẫu i
được hoán vị trong tập mẫu và các lỗi dự báo được tính toán lại trong tập dữ liệu. Độ quan trọng
của đối tượng được tính bằng điểm, các điểm được tính toán bằng cách lấy trung bình của độ chênh
lệch giữa các lỗi dự báo trước và sau khi hoán vị. Các đối tượng có giá trị lớn được xếp quan trọng
hơn các điểm có giá trị nhỏ.
3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Dữ liệu đầu vào và khu vực thực nghiệm
a. Khu vực thực nghiệm
Khu vực thử nghiệm của nghiên cứu thuộc huyện Đầm Dơi và Ngọc Hiển của Tỉnh Cà Mau
Hình 2. Phạm vi khu vực thực
nghiệm (Ảnh SPOT6 band
3,2,1)
b. Dữ liệu đầu vào và công tác tiền xử lý ảnh
Bài báo thực hiện với dữ liệu ảnh vệ tinh SPOT6 được chụp tại thời điểm năm 2015. Dữ liệu
được cung cấp bởi Đài thu Viễn thám Quốc Gia, Cục Viễn thám Quốc Gia, Bộ Tài Nguyên và Môi
Trường. Ảnh vệ tinh trong đề tài có độ phủ mây nhỏ hơn 10%, và được hiệu chỉnh bức xạ và khí
quyển bằng công cụ ATCOR (Atmospheric correction) trong phần mềm PCI Geomatic 2018. Quá
trình tiền xử lý ảnh gồm 3 bước: Hiệu chỉnh bức xạ trước đầu thu; hiệu chỉnh bức xạ ảnh hưởng
mây; hiệu chỉnh ảnh hưởng khí quyển. Nhóm thực hiền nghiên cứu tiến hành công tác nắn chỉnh
Cây 1 Cây 2 Cây 3
Tổng hợp để phân lớp hay chia trung bình để tính hồi quy
Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường”
363
hình học và trộn ảnh về độ phân giải 2.5m. Ảnh được nắn về hệ tọa độ WGS84 và hệ quy chiếu
UTM múi 48. Để đánh giá độ chính xác của kết quả thực hiện, nhóm thực hiện đề tài sử dụng bản
đồ kiểm kê rừng tại cùng khu vực nghiên cứu được thành lập năm 2015.
3.2. Kết quả thực hiện
Nhóm thực hiện đề tiến hành để thu thập mẫu giải đoán ảnh tại khu vực nghiên cứu. Công tác
thu thập mẫu được tiến hành cả bằng phương pháp thực địa và trên phần mềm Google Earth. Hệ
thống chú giải được xây dựng thê hiện trên bảng 1.
Bảng 1. Hệ thống chú giải được xây dựng
STT Mã Chú giải
1 RNMG Rừng ngập mặn giàu
2 RNMTB Rừng ngập mặn trung bình
3 RNMPH Rừng ngập mặn phục hồi
4 DTR Đất trống, bãi cát
5 MN Mặt nước
6 DNN Đất NN, NTTS
Trong đó, tập dữ liệu sau khi giải đoán được chia thành 2 phần với số lượng điểm và bố trí
các điểm thể hiện trên hình dưới. Trong đó, 70% mẫu được sử dụng mẫu huấn luyện để phân loại
(training data), 30 % mẫu còn lại được sử dụng mẫu kiểm chứng kết quả phân loại (testing data).
Sử dụng thuật toán Random Forest và dữ liệu ảnh SPOT6, nhóm thực hiện nghiên cứu đã xây
dựng được hiện trạng rừng ngập mặn khu vực thực nghiệm với các đối tượng cây ngậm mặn được
chia ra thành các loại như: mắm, đước, hỗn giao.v.v. Nhóm thực hiện đã xây dựng được hiện trạng
trữ lượng rừng ngập mặn theo loài tại khu vực thực nghiệm.
Nhằm đánh giá độ chính xác của kết quả phân loại ảnh, nhóm thực hiện đề tài tiến hành so
sánh bằng mắt thường về ranh giới khu vực rừng ngập mặn giữa kết quả phân loại ảnh và bản đồ
kiểm kê rừng cùng thời kỳ. Kết quả cho thấy, kết quả phân loại ảnh cho độ chính xác cao hơn với
mức độ chi tiết về các đường ranh giới khu vực rừng ngập mặn cao. Ngược lại, nhiều khu vực có
các đường ranh giới khu vực rừng ngập mặn trên bản đồ kiểm kê rừng cùng thời kỳ đã bị khái quát
hóa cao khi thành lập do đó phản ánh không chính xác vị trí ranh giới khu vực rừng ngập mặn.
Kết quả đánh giá độ chính xác khi kiểm chứng với 109 điểm kiểm chứng như sau: Độ chính
xác tổng thể đạt 83%, trong đó kết quả phân loại rừng đước cho độ chính xác cao cả độ chính xác
pixel và độ chính xác tổng thể, rừng hỗn giao đước, mắm có độ chính xác tổng thể chỉ đạt 74%,
trong khi đó mắm có độ chính xác pixel đạt 68 % do vẫn chưa tách được các lớp khác bị lẫn vào
trong 1 điểm ảnh.
Hình 3. Kết quả phân loại ảnh sử dụng
thuật toán Random Forest
Hồ Chí Minh, tháng 11 năm 2019
364
Bản đồ kiểm kê rừng 2015 Kết quả phân loại ảnh SPOT6 2015
Hình 4. Minh họa so sánh đánh giá độ chính xác giữa kết quả phân loại ảnh và bản đồ kiểm kê
rừng cùng thời kỳ
4. KẾT LUẬN
Qua công tác nghiên cứu khảo sát cho thấy, việc nghiên cứu ứng dụng phương pháp Randon
Forest trong phân loại ảnh viễn thám có cơ sở khoa học và thực tiễn, mang lại độ chính xác cao với
chi phí thấp hơn với các phương pháp phân loại có kiểm định truyền thống. Kết quả thực hiện của
nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong
phân loại ảnh viễn thám, và khả năng của phương pháp phân loại được chi tiết theo loài thực vật của
rừng ngập mặn tại khu vực thực nghiệm. Nghiên cứu được thực hiện và đã đạt được những kết quả
nhất định, tuy nhiên nhóm nghiên cứu có một số kiến nghị cần nghiên cứu tiếp để có những kết quả
có độ chính xác cao hơn. Đó là: 1). Sử dụng ảnh RADAR để có thể phản ảnh cấu trúc đứng của
rừng ngập mặn; 2). Sử dụng các yếu tố kiến trúc ảnh (image texture) và các chỉ số hình dạng (shape
index) trong phân loại kiểu rừng; 3). Thiết kế các điểu khảo sát, OTC để xác định loài, cấu trúc
rừng, trữ lượng rừng để phân loại, kiểm chứng từ ảnh vệ tinh.
TÀI LIỆU THAM KHẢO
[1]. Sesnie, S.E.; Gessler, P.E.; Finegan, B.; Thessler, S. Integrating Landsat TM and SRTM-DEM derived
variables with decision trees for habitat classification and change detection in complex neotropical
environments (2018). Remote Sens. Environ, 112, 2145–2159.
[2]. Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, J.P (2012). An
assessment of the effectiveness of a random forest classifier for land-cover classification. ISPRS J.
Photogramm. Remote Sens, 67, 93–104.
[3]. Hai., P.M (2016). “Nghiên cứu đề xuất giải pháp nâng cao độ chính xác của công tác phân loại ảnh khu
vực có lớp phủ hỗn hợp-Cơ sở khoa học”, Tạp chí Khoa học Đo đạc và Bản đồ, Số 29(9)/2016.
Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường”
365
RESRACHING ON THE METHODOLOGY OF APPLYING
RANDOM FOREST IN SPOT6 SATELLITE IMAGE CLASSIFICATION
WITH THE CASE IN CAMAU PROVINCE
Pham Minh Hai
1
, Do Thi Hoai
1
, Bui Quang Thanh
2
, Nguyen Ngoc Quang
3
1
Vietnam Institute of Geodesy and Cartography, Ministry of Natural Resources and Environment,
Emails: pmhai@monre.gov.vn, haialas@yahoo.com
2
VNU Univeristy Science, Email: qthanh.bui@gmail.com
3
Department of National Remote Sensing, Email: quangavril@yahoo.com
ABSTRACT
Random forest (RF) is a machine learning algorith, which used for the purposes of
classification and regression by constructing the decision trees. The objective of this research was to
investigate the ability of an algorithm of Machine Learning method (RF) in classifying SPOT6
satellite image with the study area in Ca Mau Province. The results of the study have achieved two
new points: the successful application of machine learning (RF) in remote sensing image
classification, and the ability of the classification method to magrove species in the study area.
Key words: Remote sensing, mangrove, random forest.