Mô hình COCOMO nguyên thủy do Barry Boehm phát triển vào năm 1981 dựa trên tập dữ liệu 63 dự án phần mềm của Bộ Quốc phòng Mỹ.Mô hình này xoay quanh công thức 3.1 tính công thực hiện dự án.
E=AxSIZE b
Công thức 3.1. Công thức tính công chủ ñạo của mô hình COCOMO 81 [4].
12 trang |
Chia sẻ: vietpd | Lượt xem: 1586 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Các nghiên cứu áp dụng giải thuật di truyền vào ước lượng công thực hiện phần mềm, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
30
Chương 3: Các nghiên cứu áp dụng giải thuật di truyền
vào ước lượng công thực hiện phần mềm
3.1. Tinh chỉnh các hệ số của mô hình COCOMO bằng giải thuật
di truyền
3.1.1. Nghiên cứu trên tập dữ liệu của NASA [9]
3.1.1.1. Hướng tiếp cận
Mô hình COCOMO nguyên thủy do Barry Boehm phát triển vào năm 1981 dựa trên
tập dữ liệu 63 dự án phần mềm của Bộ Quốc phòng Mỹ. Mô hình này xoay quanh
công thức 3.1 tính công thực hiện dự án.
BSIZEAE ×=
Công thức 3.1. Công thức tính công chủ ñạo của mô hình COCOMO 81 [4].
Trong ñó:
- E: công thực hiện dự án phần mềm, ñơn vị người-tháng (person-month).
- A, B: các hệ số ñiều chỉnh của công thức, phụ thuộc vào môi trường phát
triển phần mềm ở mỗi công ty.
- SIZE: kích thước phần mềm tính bằng ñơn vị dòng-mã-nguồn.
ðể tăng ñộ chính xác của ước lượng, tác giả mô hình COCOMO khuyến cáo nên
tinh chỉnh lại các hệ số A, B cho phù hợp với tính chất của từng công ty phần mềm
[4].
Trong bài báo của mình, Alaa F. Sheta ñề xuất áp dụng giải thuật di truyền vào việc
tinh chỉnh các hệ số A, B của mô hình COCOMO. Một quần thể các cá thể ñược
khởi tạo ban ñầu. Mỗi cá thể là một chuỗi bit có kích thước cố ñịnh dùng ñể biểu
31
diễn cặp hệ số A, B ñược phát sinh ngẫu nhiên trong một miền giá trị nào ñó. Hàm
thích nghi ñược chọn là Varrianced Account For – VAF.
100
)var(
)var(Re
1 ×
−
−=
Effort
ffortEstimatedEalEffort
VAF
Công thức 3.2. ðộ thích nghi trong phương pháp của Alaa F. Sheta [9].
Quần thể ñược cho tiến hóa qua các thế hệ theo giải thuật di truyền. Kết quả cuối
cùng thu ñược là cá thể có ñộ thích nghi cao nhất. ðó chính là cặp hệ số A, B phù
hợp nhất cần tinh chỉnh.
3.1.1.2. Kết quả thực nghiệm
Tác giả Alaa F. Sheta tiến hành thực nghiệm hướng tiếp cận của mình trên tập dữ
liệu của NASA bao gồm 18 dự án phần mềm. Tham số của giải thuật di truyền ñược
cho bởi bảng 3.1.
Bảng 3.1. Tham số giải thuật di truyền trong phương pháp của Alaa F. Sheta.
STT Tham số Giá trị
1 Cách thức chọn lọc normGeomSelect
2 Loại lai ghép arithXover
3 Loại ñột biến nonUnifMutation
4 Kích thước quần thể 10
5 Số thế hệ tiến hóa 100
6 Miền giá trị hệ số A 0 – 10
7 Miền giá trị hệ số B 0.3 – 2
Kết quả thu ñược sau khi thực hiện giải thuật di truyền là công thức COCOMO với
hệ số A = 4.9067, B = 0.7311.
7311.09067.4 SIZEE ×=
32
Áp dụng công thức thu ñược ñể ước lượng lại công thực hiện của 18 dự án phần
mềm, kết quả thu ñược như bảng 3.2.
Bảng 3.2. Công thực tế và công ước lượng bởi phương pháp của Alaa F. Sheta.
STT Công thực tế Công ước lượng
1 115.8000 131.9154
2 96.0000 80.8827
3 79.0000 81.2663
4 90.8000 91.2677
5 39.6000 60.5603
6 98.4000 106.7196
7 18.9000 31.6447
8 10.3000 27.3785
9 28.5000 46.2352
10 7.0000 11.2212
11 9.0000 14.0108
12 7.3000 22.0305
13 5.0000 8.4406
14 8.4000 15.9157
15 98.7000 119.2850
16 15.6000 25.8372
17 23.9000 31.1008
18 138.3000 143.0788
ðồ thị biểu diễn công thực tế và công ước lượng như hình 3.1.
33
Hình 3.1. ðồ thị biểu diễn công thực tế và công ước lượng [9].
3.1.1.3. Kết luận
Kết thúc bài báo của mình, tác giả Alaa F. Sheta kết luận việc áp dụng giải thuật di
truyền ñể tinh chỉnh các hệ số A, B của mô hình COCOMO cho ra kết quả tốt. Công
thức tính công thu ñược có khả năng ước lượng với ñộ chính xác cao. Hướng tiếp
cận này cần ñược kiểm chứng thêm trên các tập dữ liệu khác và cải tiến hơn nữa ñể
ñưa ra kết quả tốt hơn.
3.1.2. Nghiên cứu trên tập dữ liệu của công ty phần mềm Việt Nam [1]
3.1.2.1. Hướng tiếp cận
Trong luận văn thạc sỹ chuyên ngành Tin học “Nghiên cứu phương pháp ước lượng
ñộ lớn, thời gian, và nhân lực cho một dự án phần mềm”, tác giả Trương Quang
Bình Long ñề xuất một phương pháp cải tiến hướng tiếp cận của Alaa F. Sheta nêu
ở phần trên. Phương pháp này sử dụng giải thuật di truyền ñể tinh chỉnh các hệ số
A, B của mô hình COCOMO II. Không như mô hình COCOMO nguyên thủy, mô
hình COCOMO II có nhiều tham số hơn và ñược chia làm nhiều phiên bản ñể phù
hợp hơn với từng giai ñoạn trong quy trình phát triển phần mềm.
34
Một ñiểm cải tiến ñáng ghi nhận của tác giả là sử dụng phương pháp tinh truyền
thống của mô hình COCOMO ñể thu ñược các hệ số A0, B0. Sau ñó, các hệ số A0,
B0 này sẽ ñược dùng làm gợi ý cho quá trình thực hiện giải thuật di truyền ñể tìm ra
các hệ số A, B sau cùng.
3.1.2.2. Kết quả thực nghiệm
Phương pháp của tác giả Trương Quang Bình Long ñược tiến hành thực nghiệm
trên tập dữ liệu bao gồm 63 dự án thực tế của một công ty phần mềm ở Việt Nam.
Tham số của giải thuật di truyền ñược cho bởi bảng 3.3.
Bảng 3.3. Tham số giải thuật di truyền trong phương pháp của Trương Quang Bình Long.
STT Tham số Giá trị
1 Cách thức chọn lọc Bàn quay Roulette
2 Tỷ lệ lai ghép 0.85
3 Tỷ lệ ñột biến 0.01
4 Kích thước quần thể 100
5 Số thế hệ tiến hóa 100
6 Miền giá trị hệ số A Từ A0 – e ñến A0 + e
7 Miền giá trị hệ số B Từ B0 – e ñến B0 + e
Kết quả thu ñược sau khi thực hiện giải thuật di truyền là công thức COCOMO II
với hệ số A = 0.1852, B = 0.8109.
∏
=
××=
17
1
1852.0
i
i
K EMSizeE
∑
=
×+=
5
1
01.08109.0
j
jSFK
35
Khả năng ước lượng của công thức tinh chỉnh bằng giải thuật di truyền ñược tác giả
so sánh với công thức tinh chỉnh bằng phương pháp COCOMO truyền thống. Kết
quả so sánh hai công thức bằng các ñộ ño MMRE và PRED(30%).
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Phiên thử nghiệm
T
ổ
n
g
s
ai
s
ố
MRE COCOMO II MRE GA
Hình 3.2. So sánh ñộ chính xác của hai mô hình COCOMO ñã tinh chỉnh [1].
36
0%
10%
20%
30%
40%
50%
60%
70%
80%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Phiên thử nghiệm
K
h
ả
n
ăn
g
ư
ớ
c
lư
ợ
n
g
PRED(30%) COCOMO II PRED(30%) GA
Hình 3.3. So sánh ñộ ổn ñịnh của hai mô hình COCOMO ñã tinh chỉnh [1].
3.1.2.3. Kết luận
Như vậy, thông qua những thực nghiệm của mình, tác giả Trương Quang Bình Long
ñã kiểm chứng ñược hướng tiếp cận giải thuật di truyền do Alaa F. Sheta ñề xuất là
khả quan. Tác giả cũng cải tiến phương pháp ñể áp dụng trên mô hình COCOMO II
và thu ñược kết quả rất tốt với tập dữ liệu thực tế từ một công ty phần mềm ở Việt
Nam.
3.2. Tìm năng của lập trình di truyền trong ước lượng công thực
hiện phần mềm
3.2.1. Nghiên cứu của Colin và Martin [10]
3.2.1.1. Hướng tiếp cận
Trong những năm trở lại ñây, một nhánh của giải thuật di truyền là lập trình di
truyền ñang ñược quan tâm nghiên cứu và ứng dụng vào lĩnh vực ước lượng công
thực hiện phần mềm. Lập trình di truyền dựa trên nền tảng của giải thuật di truyền
37
nhưng các cá thể khác biệt. Các các thể ñược biểu diễn dưới dạng cây thay vì dạng
chuỗi cố ñịnh. ðiều này làm gia tăng ñộ ña dạng của các cá thể trong quá trình tiến
hóa, một tiêu chí rất quan trọng trong quá trình vận hành hiệu quả giải thuật di
truyền.
Trong bài báo của mình [10], Colin và Martin ñề xuất phương pháp dùng lập trình
di truyền ñể phát sinh công thức tính công dựa trên một tập dữ liệu lịch sử ñược biết
từ trước. Quần thể ban ñầu bao gồm các cá thể là các công thức tính công ñược phát
sinh ngẫu nhiên. Thông qua giải thuật di truyền, quần thể ñược tiến hóa qua các thế
hệ ñể cuối cùng thu ñược các cá thể thích nghi nhất chính là những công thức tính
công phù hợp nhất. Hàm thích nghi ñược hai tác giả sử dụng tương tự như hàm
thích nghi VAF của Alaa F. Sheta. ðể so sánh với các phương pháp khác, hai tác
giả dùng ñộ ño MMRE và PRED.
100
1
×
−
= ∑
N
i i
ii
Actual
ActualEstimated
N
MMRE
Công thức 3.3. ðộ ño MMRE ño ñộ chính xác của mô hình.
Trong ñó:
- MRRE: ñộ lệch trung bình của các ước lượng ñược thực hiện.
- Estimatedi: giá trị ước lượng bởi mô hình trên bộ dữ liệu thứ i.
- Actuali: giá trị thực trên bộ dữ liệu thứ i.
N
KMREP
KPRED
)(
%)(
≤
=
Công thức 3.4. ðộ ño PRED ño ñộ ổn ñịnh của mô hình.
Trong ñó:
- PRED(K%): tỷ lệ ước lượng với ngưỡng K%.
- P(MRE<=K): số ước lượng thực hiện bởi mô hình có MRE không quá K%.
- N: số bộ dữ liệu trong tập dữ liệu lịch sử.
38
3.2.1.2. Kết quả thực nghiệm
Hai tác giả Colin và Martin ñã tiến hành thực nghiệm phương pháp ñề xuất trên tập
dữ liệu Dersharnais nổi tiếng. Tập dữ liệu này bao gồm 81 dự án phần mềm do Hiệp
hội Tin học Canada thu thập ñược vào cuối thập niên 1980. Các tham số của lập
trình di truyền sử dụng trong thực nghiệm cho bởi bảng 3.4.
Bảng 3.4. Tham số lập trình di truyền trong hướng tiếp cận của Colin và Martin.
STT Tham số Giá trị
1 Kích thước quần thể 1000
2 Số thế hệ tiến hóa 500
3 ðộ sâu cá thể khởi tạo 5
4 Số nút tối ña của cá thể 64
5 Cách thức chọn lọc Tournament
6 Số lượng chọn lọc 5
Kết quả thu ñược sau khi thực hiện lập trình di truyền là công thức tính công. Công
thức này ñược tác giả áp dụng lại trên tập dữ liệu lịch sử vào so sánh với phương
pháp Mạng Neuron nhân tạo.
Bảng 3.5. So sánh kết quả của Colin và Martin với Mạng Neuron nhân tạo [10].
Công thực hiện dự án dự ñoán
Mạng Neuron nhân tạo Lập trình tiến hoá
Tệ nhất TB Tốt nhất Tệ nhất TB Tốt nhất
Correlation 0.588 0.635 0.650 0.612 0.752 0.824
AMSE 6.278 5.477 5.209 14.58 11.13 7.77
Pred(25) 10 10 10 2 4.2 5
Pred(25%) 56 56 56 11.2 23.5 28
MMRE 65.45 60.63 59.23 52.12 44.55 37.95
BMMRE 74 69 66 92.47 74.57 59.23
39
3.2.1.3. Kết luận
Với kết quả thực nghiệm ñạt ñược, Colin và Martin kết luận lập trình di truyền có
khả năng ñược sử dụng ñể tạo ra công thức tính công cho các mô hình ước lượng.
So với Mạng Neuron nhân tạo, công thức phát sinh bởi lập trình di truyền có ñộ
chính xác ước lượng MMRE tốt hơn, tuy nhiên ñộ ổn ñịnh ước lượng PRED(25%)
còn thấp. Lập trình di truyền có thể trở thành một phương pháp song song dùng ñể
kiểm tra chéo kết quả ước lượng của những phương pháp khác. Trong tương lai, cần
có thêm nhiều thực nghiệm trên những tập dữ liệu lịch sử khác ñể kiểm chứng
hướng tiếp cận này.
3.2.2. Nghiên cứu Y. Shan [11]
3.2.2.1. Hướng tiếp cận
Cũng với hướng tiếp cận dùng lập trình di truyền ñể phát sinh công thức tính công
cho mô hình ước lượng, Y. Shan và các ñồng sự [11] ñưa ra giải pháp thay thế công
cụ lập trình di truyền thông thường bằng công cụ lập trình di truyền cải tiến GGGP
(Grammar-Guided-Genetic-Programming). Giải pháp này cho phép người sử dụng
can thiệp sâu vào quá trình phát sinh công thức, dạng của công thức phát sinh có thể
ñược ñịnh trước.
Bên cạnh những tham số ñiều khiển hoạt ñộng của giải thuật di truyền, dạng của
công thức phát sinh ñược biểu diễn bằng một cây ngữ pháp BNF như trong hình 3.4.
Hàm thích nghi ñược nhóm tác giả lựa chọn tương tự như hàm VAF.
40
Hình 3.4. Cây ngữ pháp BNF sử dụng trong hướng tiếp cận của Y. Shan [11].
3.2.2.2. Kết quả thực nghiệm
Sau khi ñề xuất giải pháp, nhóm tác giả ñã tiến hành thực nghiệm trên tập dữ liệu
ISBSG nổi tiếng, bao gồm thông số của 423 dự án phần mềm ñược thu thập trên
toàn thế giới. Thông số ñiều khiển lập trình di truyền cho bởi bảng 3.6.
Bảng 3.6. Tham số lập trình di truyền trong hướng tiếp cận của Y. Shan.
STT Tham số Giá trị
1 Kích thước quần thể 1000
2 Số thế hệ tiến hóa 200
3 ðộ sâu cá thể khởi tạo 9
4 Tỷ lệ lai ghép 0.9
5 Tỷ lệ ñột biến 0.1
6 Cách thức chọn lọc Tournament
7 Số lượng chọn lọc 3
Công thức tính công thu ñược sau khi thực hiện lập trình di truyền ñược nhóm tác
giả dùng ñể so sánh với các công thức tính công thu ñược từ phương pháp hồi quy
41
tuyến tính (Linear Regression) và hồi quy logarithm (Logarithm Regression). Kết
quả so sánh trên các ñộ ño MMRE, PRED và R2 cho bởi bảng 3.7.
Bảng 3.7. So sánh hướng tiếp cận của Y. Shan với phân tích hồi quy [11].
3.2.2.3. Kết luận
Trong công trình của mình, nhóm của Y. Shan ñã khẳng ñịnh lại tính khả thi của
hướng tiếp cận lập trình di truyền trong việc ước lượng công thực hiện phần mềm.
Những kết quả ñạt ñược tuy chưa cho thấy sự vượt trội nhưng cũng giúp phát triển
một phương pháp song song ñược dùng ñể kiểm tra chéo kết quả quả thu ñược từ
những phương pháp truyền thống. Việc áp dụng GGGP cho phép ñịnh trước dạng
công thức phát sinh còn có thể giúp ích cho việc nghiên cứu ảnh hưởng của từng
thông số dự án vào quá trình tính công thực hiện của toàn dự án. ðây là hướng tiếp
cận cần nhiều ñóng góp trong tương lai.