Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn
đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm
trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam.
Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại
các nước phát triển được tiến hành nhằm nâng cao tính chính xác
của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa
có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng
các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA).
Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết
định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo
(ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả
của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu
hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính
xác cho các mô hình chấm điểm tín dụng.
10 trang |
Chia sẻ: hadohap | Lượt xem: 534 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
46
© Học viện Ngân hàng
ISSN 1859 - 011X
Tạp chí Khoa học & Đào tạo Ngân hàng
Số 193- Tháng 6. 2018
Mô hình chấm điểm tín dụng dựa trên sự kết hợp
giữa mô hình Cây quyết định, Logit, K láng giềng
gần nhất và Mạng thần kinh nhân tạo
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
Nguyễn Tiến Hưng
Lê Thị Huyền Trang
Ngày nhận: 03/06/2018 Ngày nhận bản sửa: 06/06/2018 Ngày duyệt đăng: 18/06/2018
Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn
đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm
trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam.
Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại
các nước phát triển được tiến hành nhằm nâng cao tính chính xác
của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa
có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng
các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA).
Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết
định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo
(ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả
của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu
hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính
xác cho các mô hình chấm điểm tín dụng.
Từ khóa: Chấm điểm tín dụng, Cây quyết định, K láng giềng gần
nhất, Mạng thần kinh nhân tạo
1. Giới thiệu
hấm điểm tín dụng được hiểu
một cách rộng rãi là việc đánh
giá rủi ro tiềm tàng của các đối
tượng đi vay theo một thang
điểm nhất định. Mô hình chấm
điểm tín dụng là một công cụ giúp cho nhà
quản trị biết được khi nào họ nên cho vay, với
số lượng tiền là bao nhiêu và họ cần phải xây
dựng những chiến lược gì để gia tăng được lợi
nhuận trong khi vẫn quản lý hiệu quả các rủi ro
đi kèm. Việc xây dựng được một công cụ chấm
điểm hiệu quả đem lại rất nhiều lợi ích cho các
TCTD:
○ Cải thiện dòng vốn
○ Bảo đảm tài sản thế chấp là phù hợp
○ Giảm các khoản lỗ tín dụng
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
47Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
○ Giảm chi phí phân tích tín dụng
○ Giảm thời gian đưa ra quyết định cấp tín
dụng
○ Đa dạng hoá các sản phẩm tín dụng theo các
phân cấp rủi ro khác nhau
○ Hiểu được hành vi của khách hàng.
Chấm điểm tín dụng đo lường định lượng rủi ro
tiềm tàng của khách hàng bằng cách phân tích
dữ liệu cá nhân để tìm ra khả năng vỡ nợ của họ
với khoản vay trong tương lai. Hoạt động này
cũng có thể được hiểu như là một kỹ thuật khai
phá dữ liệu, tìm kiếm các quy luật của các dữ
liệu lịch sử và áp dụng đưa ra quyết định cấp
tín dụng cho các khách hàng trong tương lai.
Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh
vực chấm điểm tín dụng được phát minh từ thập
niên 50 thế kỉ trước (Lando, 2004). Đến nay, đã
có rất nhiều các kĩ thuật được phát triển và ứng
dụng, trong đó phổ biến nhất phải kể đến các
kĩ thuật như: Phân tích phân biệt (DA), logit,
K láng giềng gần nhất, mạng thần kinh nhân
tạo (ANN) (Thomas và cộng sự, 2009; Abdou,
2011). Sự bùng nổ của công nghệ thông tin 4.0
cùng với sự phát triển của trí tuệ thông minh,
thì việc tập trung vào khai phá dữ liệu sử dụng
các kỹ thuật trí tuệ nhân tạo đang là xu hướng
trong lĩnh vực chấm điểm tín dụng.
Bên cạnh sự phát triển của các kĩ thuật phân
loại đơn lẻ, đã có nhiều nghiên cứu tiến hành
đánh giá hiệu quả của việc kết hợp các thuật
toán đơn lẻ nhằm tối đa hoá khả năng dự báo
trong các mô hình chấm điểm tín dụng. Một số
nghiên cứu của Kim và cộng sự (2001), Ahn và
cộng sự (2009), Luo và cộng sự (2009) đề cập
đến việc sử dụng các kĩ thuật phân loại dữ liệu
như Seft-Organzing Map (SOM), thuật toán
di truyền (GA), thuật toán phân
nhóm (K-MC), sau đó sử dụng
dữ liệu mới này cho các mô hình
chấm điểm như phân tích phân biệt
(DA), Logit (LR), K-NN, ANN.
Một số nghiên cứu khác của Lee
và cộng sự (2005), Li và cộng sự
(2010) kết hợp các kĩ thuật phân
loại, trong đó kết quả dự báo của
kĩ thuật này sẽ được sử dụng như
là một nhân tố đầu vào cho kĩ thuật
khác. Đã có rất nhiều cách kết
hợp hiệu quả đã được tìm ra, tuy nhiên càng
kết hợp nhiều kỹ thuật thì việc giải thích sự tác
động giữa các dữ liệu đầu vào đến kết quả điểm
được chấm càng khó khăn. Bài nghiên cứu sẽ
xây dựng, đánh giá hiệu quả của mô hình kết
hợp các mô hình DT_LR, DT_KNN, DT_ANN,
nhằm tăng cường độ chính xác cho các mô hình
chấm điểm tín dụng.
2. Các mô hình xếp hạng tín dụng
2.1. Mô hình Logit
Mô hình Logit là mô hình hồi quy với biến phụ
thuộc (Y) là biến nhị phân, chỉ nhận hai giá trị
là 0 và 1; các biến độc lập có thể là biến nhị
phân, biến rời rạc hoặc biến liên tục. Trong mô
hình xếp hạng tín dụng, biến phụ thuộc Y nhận
giá trị 0 khi khách hàng không trả được nợ và
1 khi khách hàng trả được nợ (Lee và cộng sự,
2000). Các biến độc lập đại diện cho các thông
tin định tính và định lượng của khách hàng như
thu nhập, độ tuổi, giới tính, trình độ học vấn...
Sau khi hồi quy mô hình Logit, thu được Ŷ = α
+ β
1
X
1
+ β
2
X
2
+ ... + β
k
X
k
là giá trị ước lượng
của Y. Khi đó, xác suất trả nợ của khách hàng
được tính bằng công thức sau:
P = 1/ (1 + e−Y)
Giá trị P nhận được trong khoảng (0,1) được
so sánh với các ngưỡng mà ngân hàng đặt ra
để xếp hạng khách hàng. Tuy nhiên, trong bài
nghiên cứu này, để dễ dàng hơn trong việc so
sánh hiệu quả của các mô hình, giá trị ngưỡng
để phân loại khách hàng được chọn là 0,5. Điều
này có nghĩa rằng nếu giá trị P < 0,5, khách
hàng sẽ được dự báo vỡ nợ, và ngược lại nếu P
Hình 1. Cây quyết định (Decision tree)
Nguồn: Abdou. (2011)
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
48 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
≥ 0,5, khách hàng sẽ được dự báo trả được nợ.
2.2. Cây quyết định (Decision Tree- DT)
Cây quyết định (DT) là một kiểu mô hình phân
lớp các quan sát dựa vào dãy các luật. Mô hình
này bao gồm một nút gốc (Root node), các nút
bên trong (Internal node) và nút lá (Leaf node).
Mỗi một nút trong DT tương ứng với một biến;
đường nối giữa nó với nút con của nó thể hiện
một giá trị cụ thể cho biến đó (đây chính là điều
kiện hay luật để phân nhánh cho mỗi node).
Mỗi nút lá đại diện cho giá trị dự đoán của biến
mục tiêu; các giá trị cho trước của các biến
được biểu diễn bởi đường đi từ nút gốc tới nút
lá đó (Hình 1).
Cây quyết định được xây dựng bằng cách phân
tách thuộc tính các giá trị tại mỗi nút dựa trên
một thuộc tính đầu vào. Quá trình phân lớp sử
dụng các thuộc tính phân tách được thực hiện
liên tục cho tới khi gặp các nút lá (giá trị mục
tiêu). Tập hợp các luật đường đi từ nút gốc tới
nút lá sẽ xác định cho chúng ta các luật quyết
định mà hàm mục tiêu trả về giá trị là mức độ
rủi ro tương ứng với khách hàng.
DT là một phương pháp phân lớp rất hiệu quả
và dễ hiểu. Tuy nhiên, hiệu quả phân lớp của
cây quyết định phụ thuộc rất lớn vào dữ liệu
huấn luyện (training data). Do vậy, việc sử
dụng một bộ dữ liệu lớn về lịch sử vay nợ của
khách hàng là rất cần thiết để xây dựng mô hình
DT đáng tin cậy.
2.3. K Láng giềng gần nhất (K-Nearest
Neighbor- KNN)
KNN là phương pháp học máy để phân lớp các
đối tượng dựa vào khoảng cách gần nhất giữa
đối tượng cần xếp lớp và tất cả các đối tượng
trong dữ liệu huấn luyện. Lớp của một điểm dữ
liệu mới (hay phân loại khách hàng) được suy
ra trực tiếp từ K điểm dữ liệu gần nhất trong
dữ liệu huấn luyện. Lớp này có thể được quyết
định theo lớp có số lượng điểm (trong K điểm
gần nhất) nhiều nhất.
Từ Hình 2 có thể thấy, nếu chọn số điểm gần
nhất để phân loại là 3 thì xung quanh điểm cần
phân lớp có 3 điểm trong đó 1 điểm thuộc lớp 1
và 2 điểm thuộc lớp 2. Với số điểm thuộc lớp 2
nhiều hơn, điểm cần phân lớp được đưa vào lớp
số 1. Tương tự như vậy, nếu lựa chọn số điểm
gần nhất k=5 thì có năm điểm xung quanh điểm
cần phân lớp, trong đó có 3 điểm thuộc lớp số 1
và 2 điểm thuộc lớp 2. Nếu theo dữ liệu này thì
điểm cần phân lớp sẽ thuộc lớp số 1.
Trên thực tế dữ liệu cần phân loại có nhiều
thuộc tính trong đó mỗi thuộc tính tương ứng
với một chiều không gian, do vậy khi tính
khoảng cách gần nhất cần tính khoảng cách
vector trong không gian đa chiều với công thức
khoảng cách Euclidean:
Hình 2. K Láng giềng gần nhất (K-Nearest neighbor- KNN)
Nguồn: Marinakis và cộng sự (2008)
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
49Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
Trong đó: x, y là 2 điểm cần xác định khoảng
cách; n là số chiều không gian (số thuộc tính
của biến mục tiêu).
2.4. Mô hình Mạng Nơ ron nhân tạo (ANN)
Nơ ron nhân tạo
Ý tưởng về mạng nơ ron nhân tạo
(ANN) được hình thành từ những quan
sát bộ não con người với chức năng cơ
bản là tiếp nhận thông tin, xử lý thông
tin và đưa ra kết quả. Cụ thể, bộ não
được cấu thành từ các nơ ron liên kết
với nhau. Mỗi nơ ron tiếp nhận thông
tin đầu vào, xử lý và xuất thông tin đầu
ra. Vì các nơ ron có sự liên kết phức tạp
với nhau nên thông tin đầu ra của nơ
ron này sẽ là thông tin đầu vào của nơ
ron khác. Đến khi các thông tin được
xử lý thỏa mãn theo các yêu cầu thì não
bộ sẽ ngừng quá trình này lại và đưa ra
kết quả cuối cùng.
Sự tương tác phức tạp của hàng tỉ nơ
ron được mô hình hóa thành các mô
hình nơ ron nhân tạo (ANN). Về cơ
bản, ANN cấu tạo bởi các nơ ron nhân
tạo hay còn được gọi là các “node”.
Hình 3 mô tả cơ chế hoạt động của một
node.
Các biến số sẽ được các node tiếp nhận
theo các trọng số khác nhau thể hiện
sự quan trọng của các nhân tố đầu vào
này. Các biến số đầu vào sau khi nhân
với các trọng số sẽ được lấy tổng để
trở thành 1 đầu vào duy nhất. Tại các node sẽ
có các hàm kích hoạt để tính toán các kết quả
đầu ra. Trong nghiên cứu này, để có sự tương
đồng với mô hình logit, hàm kích hoạt sigmoid
sẽ được dùng để xây dựng mô hình ANN. Hàm
Hình 3. Cơ chế hoạt động nơ ron nhân tạo (node)
Nguồn: Lee và cộng sự (2000)
Hình 4. Mô hình mạng nơ ron đa lớp truyền thẳng
(MLP)
Nguồn: Lee và cộng sự (2005)
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
50 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
sigmoid được mô tả bởi công thức S(x) = 1/
(1- ), do đó, với mọi giá trị đầu vào x nhận giá
trị từ -∞ đến +∞ thì kết quả đầu ra nằm trong
khoảng (0,1)
Mạng Nơ ron nhân tạo
Một mạng nơ ron đầy đủ bao gồm 3 lớp với tên
gọi lớp đầu vào (input layer), lớp ẩn (hidden
layer) và lớp đầu ra (output layer). Trong đó
một mạng nơ ron có thể có nhiều hơn một lớp
ẩn, tuy nhiên, Lee và cộng sự (2005) chỉ ra rằng
mạng nơ ron một lớp ẩn có thể giải quyết hầu
hết các bộ số liệu kinh tế phức tạp. Mỗi lớp
được cấu tạo từ một cho đến nhiều node. Trong
lịch sử phát triển của mạng nơ ron nhân tạo,
nhiều kiểu kiến trúc mạng quy định kết nối giữa
các node được hình thành, tuy nhiên, bài nghiên
cứu sử dụng mạng nơ ron truyền thẳng đa lớp
(MLP), một trong những mạng được sử dụng
phổ biến và đem lại hiệu quả cao nhất.
Cấu trúc của mạng truyền thẳng đa lớp được
mô tả trong Hình 4. Số lượng node trong một
lớp và số lượng lớp phụ thuộc vào sự phức tạp
của cơ sở dữ liệu đầu vào và yêu cầu xử lý. Các
node của lớp trước sẽ được truyền thẳng và kết
nối tới tất cả node của lớp sau. Thông tin lan
truyền trong mạng sẽ được gắn với các trọng số
khác nhau.
Các trọng số được ước lượng bằng thuật
toán lan truyền ngược (Back-Propagation
alogorithm), lần đầu tiên được giới thiệu bởi
Rumelhart và cộng sự (1986). Thuật toán này
điều chỉnh liên tục các trọng số của các kết nối
trong mạng để tối thiểu hóa sự khác biệt giữa
giá trị đầu ra ước lượng và giá trị đầu ra thực
tế, quá trình này còn được gọi là quá trình huấn
luyện mạng. Cụ thể, trong giai đoạn đầu tiên
khi hình thành mạng MLP, các trọng số được
khởi tạo ngẫu nhiên. Các giá trị đầu ra của
mạng được thiết lập thông qua giá trị bộ giữ
liệu đầu vào. Sự chênh lệch giữa giá trị đầu ra
ước lượng và đầu ra thực tế, hay còn gọi là sai
số của mạng được xác định bởi công thức:
Trong đó f(X
i
) là ước lượng đầu ra thứ i, Yj là
giá trị đầu ra thực tế và p là số trường hợp trong
bộ dữ liệu. Sau mỗi lần huấn luyện mạng sai số
sẽ được lan truyền ngược lại và các trọng số sẽ
được điều chỉnh để giảm sai số. Quá trình huấn
luyện sẽ dừng lại khi khi mạng đạt được sai số
nhỏ nhất, hay nói cách khác, mạng MLP đạt
được cấu trúc hợp lý nhất để hiểu về bộ dữ liệu.
3. Đề xuất Mô hình kết hợp
Phương pháp kết hợp này dùng để cải thiện
hiệu suất và độ chính xác phân loại. Hệ thống
phân loại được chia làm nhiều lớp dựa trên sự
kết hợp của hai hay nhiều các mô hình phân
loại để đạt được hiệu suất cao hơn. Mục tiêu
của các mô hình kết hợp là sẽ điều chỉnh các
tập dữ liệu huấn luyện, xây dựng các tập dữ liệu
đào tạo mới trong đó có sử dụng được kết quả
(thế mạnh dự báo) của các mô hình khác. Nhiều
nghiên cứu chỉ ra rằng dữ liệu huấn luyện có
thể không cung cấp đủ thông tin để lựa chọn
một mô hình phân loại tốt nhất. Việc sử dụng
các mô hình phân loại kết hợp có thể bù trừ
giảm thiểu những hạn chế của các mô hình đơn
lẻ.
Một số nghiên cứu trước đây của Peter và cộng
sự (2015), Radall (2017) đã tiến hành kết hợp
mô hình DT và mô hình mạng ANN. Sự kết hợp
này được đánh giá là hiệu quả khi hai mô hình
được kết hợp có chung khả năng là xử lý khối
lượng dữ liệu lớn. Mô hình DT với ưu điểm là
khả năng giải thích biến rõ ràng giúp cải thiện
khả năng giải thích của mô hình chấm điểm tín
dụng khi kết hợp với các mô hình “hộp đen”
như ANN.
Mô hình đề xuất trong bài nghiên cứu là sự
kết hợp giữa mô hình DT và các mô hình LR,
KNN, ANN nhằm so sánh hiệu quả giữa mô
hình kết hợp với các kĩ thuật hiện đại và truyền
thống. Quy trình kết hợp được mô tả trong Hình
5, trong đó mô hình DT được thiết lập dựa trên
bộ dữ liệu nghiên cứu. Kết quả từ mô hình DT
bao gồm dự báo về phân loại khách hàng và xác
xuất rủi ro được xem như 2 biến mới để kết hợp
với bộ dữ liệu đã có làm nhân tố đầu vào cho
các mô hình được kết hợp cùng.
4. Dữ liệu nghiên cứu
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
51Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
Bài nghiên cứu sử dụng dữ liệu thông tin về
các khoản vay tiêu dùng và kinh doanh cá nhân
được trích xuất trực tiếp từ cơ sở dữ liệu tại một
ngân hàng thương mại Nhà nước trong khoảng
thời gian từ năm 2009 đến 2014. Sau khi loại
bỏ các trường hợp thiếu sót và cân nhắc giữa số
lượng đặc điểm khách hàng và số lượng khách
hàng, bộ dữ liệu cuối cùng được sử dụng bao
gồm thông tin về 15.470 khách hàng cá nhân
với 19 đặc điểm (trong đó 18 đặc điểm được ký
hiệu thành các biến từ x
1
đến x
18
, đặc điểm thứ
19 là tình trạng nợ, tương ứng với cột “Tỷ lệ”-
Bảng 1).
Các khoản nợ cá nhân được phân loại thành
12.118 khoản nợ tốt (hoàn trả trong hạn hoặc
thời gian quá hạn dưới 90 ngày) chiếm tỉ trọng
78,3% và 3.352 khoản nợ xấu (quá hạn từ 90
ngày trở lên) chiếm tỉ trọng 21,7%. Có một lưu
ý rằng, nợ xấu và nợ tốt trong bài nghiên cứu
này có sự khác biệt với nợ đủ tiêu chuẩn và nợ
xấu theo quy định phân loại nợ của Ngân hàng
Nhà nước Việt Nam, và những tỉ lệ này không
đại diện cho tỉ lệ nợ xấu và nợ đủ tiêu chuẩn
của toàn bộ hệ thống ngân hàng mà tác giả
nghiên cứu.
Bảng 1 mô tả về các dữ liệu khách hàng được
đưa vào xây dựng mô hình chấm điểm tín dụng,
mỗi đặc tính được phân chia thành các nhóm
với tỉ trọng từng nhóm. Bảng thống kê cho thấy
cơ sở dữ liệu có sự đa dạng về thông tin khách
hàng và phù hợp trong việc xây dựng các mô
hình xếp hạng tín dụng.
5. Kết quả nghiên cứu
5.1. Kết quả của các mô hình đơn lẻ
Nguồn: Tác giả đề xuất
Hình 5. Cấu trúc của mô hình kết hợp
Bảng 1. Mô tả dữ liệu
Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm
Đặc điểm khách
hàng Nhóm
Tỉ lệ
(%) Nhóm
Tỉ lệ
(%) Nhóm
Tỉ lệ
(%) Nhóm
Tỉ lệ
(%)
Tuổi (X1) 0 đến 30 6,90 30 đến 45 49,60 45 đến 60 40,20 Trên 60 3,30
Giới tính (X2) Nữ 30,30 Nam 67,90
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
52 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
Để đảm bảo độ tin cậy và tính đại diện của các
kết quả phân loại, các mô hình được thực hiện
lặp lại 10 lần và kết quả phân loại cuối cùng
là trung bình kết quả của các lần chạy trước.
Kết quả của các mô hình đơn lẻ cho thấy mô
hình ANN có độ chính xác cao nhất khi phân
loại các khoản nợ xấu với tỷ lệ phân loại đúng
52,47% trong khi mô hình KNN kém hiệu quả
nhất khi chỉ phân loại đúng được 36,28% các
khoản nợ xấu. Đối với các khoản nợ tốt thì
Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm
Đặc điểm khách
hàng Nhóm
Tỉ lệ
(%) Nhóm
Tỉ lệ
(%) Nhóm
Tỉ lệ
(%) Nhóm
Tỉ lệ
(%)
Trình độ (X3)
Dưới trung
học 34,40 Trung học 35,30
Trung cấp,
và trên 30,30
Sở hữu nhà (X4) không 4,50 có 95,50
Người phụ thuộc (X5) 0 đến 1 35,20 Trên 1 64,80
Hôn nhân (X6) Độc thân 8,80
Đã có gia
đình 91,20
Quan hệ với gia đình
(X7)
Xấu 2,10 Tốt 97,90
Năm làm việc (X8) 0 đến 5 8,80 5 đến 10 15,90 Trên 10 75,30
Nghề nghiệp (X9)
Lao động
không đào tạo 16,80
Lao động
được đào tạo 52,50
Văn phòng,
CNVC 30,70
Bảo hiểm nhân thọ
(X10)
Không 90,90 Có 9,10
Thu nhập hàng tháng
(X11) (triệu VND)
0 đến 3,5 11,30 3,5 đến 10 39,90 Trên 10 48,70
Tài khoản thanh toán
(X12)
Không 46,40 Có 53,60
Tài khoản tiết kiệm
(X13)
Không 95,30 Có 4,70
Đặc điểm khoản vay
Lãi suất (X14) Thấp 4,90 Cao 95,10
Thời hạn (X15) (ngày) 0 đến 185 36,40 185 đến 365 41,00 Trên 365 22,60
Giá trị khoản vay (X16) 0 đến 50 37,10 50 đến 100 22,60 100 đến 200 18,30 Trên 200 22,00
Mục đích vay (X17) Tiêu dùng 9,00 Kinh doanh 91,00
Phương thức trả (X18) Một lần 78,40 Từng phần 21,60
Tình trạng nợ (X19) Nợ xấu 21,7 Nợ tốt 78,3
Bảng 2. Kết quả phân loại của các mô hình đơn lẻ
Mô
hình
Mẫu huấn luyện (30%)
Mẫu kiểm tra (70%)
Tổng thể
CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể%
DT 37,60 89,49 78,24 38,91 87,42 76,90 38,52 88,04 77,31
LR 39,50 92,94 81,36 38,89 93,94 82,01 39,07 93,64 81,81
KNN 35,54 97,94 84,42 36,59 96,83 83,78 36,28 97,16 83,97
ANN 51,97 94,33 85,15 52,69 94,02 85,06 52,47 94,11 85,09
Ghi chú: CCB%: Tỷ lệ phân loại đúng các khoản nợ xấu; CCG%: Tỷ lệ phân loại đúng các khoản nợ tốt
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
53Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
mô hình được coi là hiệu quả nhất là KNN với
97,16% khoản nợ loại này được phân loại chính
xác.
5.2. Kết quả các mô hình kết hợp
Kết quả phân loại tổng thể cho thấy rõ rằng
phương pháp kết hợp đem lại kết quả dự báo tốt
hơn với cả 3 mô hình (Bảng 4). Trong khi mô
hình kết hợp DT_ANN cho thấy có sự cải thiện
trong cả kết quả phân loại các khoản nợ xấu và
nợ tốt, thì đối với mô hình DT_LR và DT_KNN
hiệu phân loại nợ xấu và nợ tốt thay đổi theo
hai xu hướng ngược nhau. Tỷ lệ phân loại nợ
xấu đúng tăng từ 8-11% cho cả ba mô hình kết
hợp trong khi tỷ lệ phân loại nợ tốt đúng giảm
nhẹ từ 1-2% với mô hình DT_LR và DT_KNN.
Trên thực tế, việc cải thiện khả năng dự báo các
khoản nợ xấu đúng đem lại lợi ích lớn cho các
ngân hàng khi so sánh với việc dự báo đúng các
khoản nợ tốt. Quan sát tình trạng vay nợ của
khách hàng cho thấy thiệt hại đến từ các khoản
nợ xấu thường cao hơn nhiều lần lợi nhuận của
một khoản nợ tốt mang lại. Đặc biệt trong bối
cảnh hiện nay khi mà các hệ thống ngân hàng
đang tập trung vào hoạt động quản trị rủi ro,
giảm thiểu nợ xấu thì việc dự báo các khoản nợ
xấu sẽ có ý nghĩa cấp thiết hơn.
6. Kết luận
So với nhiều nước phát triển, hoạt động chấm
điểm tín dụng tại Việt Nam chưa nhận được
nhiều sự quan tâm nghiên cứu. Những mô hình
truyền thống đang được sử dụng phổ biến tại
các ngân hàng thương mại là mô hình chuyên
gia dựa trên kinh nghiệm và một số m