Hình 4.4: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp với 3 khung hình 4.1(a-c).(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng
                
              
                                            
                                
            
 
            
                 17 trang
17 trang | 
Chia sẻ: vietpd | Lượt xem: 1502 | Lượt tải: 0 
              
            Bạn đang xem nội dung tài liệu Thực nghiệm và đánh giá các đối tượng chuyển động trong video dựa trên mạng bayes, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
34 
Chương 4: Thực nghiệm và đánh giá 
Kết quả phân đoạn chuỗi “table tennis” trong hình 4.1, 4.2, 4.3 
(a) (b) (c) 
(d) (e) (f) 
(g) (h) (i) 
(j) (k) 
Hình 4.1: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp 
(a-c) 3 khung hình liên tiếp có số thứ tự 41,42,43 (d) Vector chuyển động (e) Kết 
quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong 
35 
trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng (h-j)chi tiết kết quả 
phân đoạn các đối tượng 
(a) (b) (c) 
(d) (e) (f) 
(g) (h) 
Hình 4.2: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp cải tiến với 3 
khung hình 4.1(a-c). (a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) 
Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ 
(d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng 
(a) (b) (c) 
36 
(d) (e) (f) 
(g) (h) 
Hình 4.3: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp trên 3 
khung hình 4.1(a-c)(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) 
Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ 
(d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng 
(a) (b) (c) 
(d) (e) (f) 
37 
(g) (h) 
Hình 4.4: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp với 3 khung 
hình 4.1(a-c).(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) Ảnh thể 
hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (d) kết 
quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng 
Quá trình phân đoạn ở các hình 4.1, 4.2, 4.3 đều dùng bộ hệ số (λ
1
, λ
2
, 
λ
3
,λ
4
,α)=(1,12,4,16,0.625) tương ứng với quy trình phân đoạn theo ước lượng lặp, 
ước lượng lặp cải tiến theo công thức 3.26.2 và 3.26.3, ước lượng không lặp. Kết 
quả phân đoạn ở hình 4.4 đạt được khi dùng bộ hệ số (λ
1
, λ
2
, 
λ
3
,λ
4
,α)=(1,12,4,32,0.3125). Trường phân đoạn cường độ và vector chuyển động ở 
các hình 4.1, 4.2, 4.3, 4.4 đều cho kết quả tương đối giống nhau. Tuy nhiên, kết quả 
phân đoạn cuối cùng ở cả 4 trường hợp khác nhau. Kết quả phân đoạn ở hình 4.1 có 
nhiều nhiễu trong khi kết quả phân đoạn ở hình 4.2 rất tốt, không có nhiễu và đường 
biên rất chính xác. Tương tự như hình 4.2, hình 4.3 có kết quả phân đoạn chính xác 
tại biên trong khi hình 4.4, kết quả phân đoạn không được chính xác tại biên nơi 
vùng cánh tay phải. 
Sau đây là thử nghiệm phân đoạn theo phương pháp ước lượng không lặp khi các 
tham số trong bộ tham số (λ
1
, λ
2
, λ
3
,λ
4
,α)=(1,12,4,32,0.3125) thay đổi để thấy sự tác 
động lên ước lượng MAP. Do các sự thay đổi của biến số đều có thể quy về λ
1
 =1, 
nên sự biến đổi của λ
1
 không cần được xét đến. Trong chuỗi “table tennis” gồm 3 
khung hình ở hình 4.1a,b,c vùng cổ tay trái và cổ tay phải có chuyển động, vùng 
cánh tay trái và thân người đứng yên. 
38 
(a) (b) (c) 
(d) (e) (f) 
Hình 4.5: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham 
số λ
2 
= 6,12,18. 
Tham số λ
2
 biểu thị sự đóng góp của tức là ảnh hưởng của trường phân đoạn 
cường độ lên toàn bộ ước lượng MAP biểu thức 3.14. Hình 4.5d với giá trị tham số 
λ
2 
= 6, đường biên nơi cánh tay phải không được chính xác. Hình 4.5f với giá trị 
tham số λ
2 
= 12, đường biên nơi cánh tay phải chính xác nhưng biên tại cây vợt đã 
bị phạm do ước lượng MAP chịu ảnh hưởng của trường phân đoạn cường độ mạnh 
hơn trường vector chuyển động 
(a) (b) (c) 
39 
(d) (e) (f) 
Hình 4.6: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham 
số λ
3 
= 1,4,7 
Tham số λ
3
biểu thị sự đóng góp của tức là ảnh hưởng của trường vector 
chuyển động lên toàn bộ ước lượng MAP biểu thức 3.14. Hình 4.6d với giá trị tham 
số λ
3 
= 1, đường biên đầu cây vợt và cánh tay trái bị phạm vào trong do tác động 
của trường vector chuyển động yếu hơn trường phân đoạn cường độ. Hình 4.6f với 
giá trị tham số λ
3 
= 7, đường biên nơi đầu cây vợt và cánh tay trái đã khôi phục nhờ 
vào tác động của trường vector chuyển động tăng lên. Tuy nhiên biên dưới bàn tay 
phải bị phạm do tác động của trường phân đoạn cường độ giảm. 
(a) (b) (c) 
Hình 4.7: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham 
số λ
4 
= 6,16,26 
Tham số λ
4
biểu thị sự đóng góp của tức là ràng buộc không gian và lực hợp 
nhất vùng lên ước lượng MAP biểu thức 3.14. Hình 4.7a với giá trị tham số λ
4 
= 6, 
đường biên chính xác tuy nhiên xuất hiện nhiều nhiễu. Điều này do lực hợp nhất 
vùng yếu nên các nhiễu này không gia nhập vào các vùng thích hợp. Hình 4.7c với 
40 
giá trị tham số λ
3 
= 26, nhiễu giảm nhưng đường biên nơi đầu vợt không chính xác 
do tác động của lực hợp nhất và ràng buộc không gian tăng lên. 
(a) (b) (c) 
Hình 4.8: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham 
số 
= 0.1,0.625,0.9375 
Tham số biểu thị tác động tại biên của đối tượng dựa trên trường phân đoạn 
cường độ. Tham số thúc đẩy sự chính xác tại biên của đối tượng cho phù hợp với 
trường phân đoạn cường độ. Hình 4.8a với giá trị tham số = 0.1, đường biên tại 
cánh tay phải không chính xác. Hình 4.8c với giá trị tham số 
= 0.9375, đường biên 
tại cánh tay phải chính xác nhưng biên tại cây vợt không chính xác. 
Phương pháp ước lượng không lặp được thử nghiệm trên các đoạn video chuẩn 
thường được dùng để đánh giá các phương pháp phân đoạn và theo vết đối tượng 
chuyển động.Vì phương pháp chủ yếu có hiệu quả khi các đối tượng chuyển động 
và camera chuyển động nhanh nên thuật toán tập trung thực nghiệm trên các đoạn 
video có nền chuyển động, các đối tượng chuyển động trung bình và có nhiều chi 
tiết thông tin không gian. Bảng (4.1) là danh sách các đoạn video dùng để thử 
nghiệm và mức độ đánh giá độ khó khi xử lí của các đoạn video. 
Bảng 4.1: Danh sách các chuỗi video được thử nghiệm. 
Tên đoạn video husky football bus paris 
Số khung hình 250 260 149 1065 
Kích thước 352x288 352x288 352x288 352x288 
41 
Số lượng đối tượng chuyển 
động 
7 15 1 3 
Hiện tượng che khuất 1 15 2 1 
Số lượng đối tượng xuất 
hiện 
3 10 1 0 
Camera chuyển động Nhanh Nhanh Chậm 
Tịnh tiến 
Không 
Mức độ chuyển động của đối 
tượng 
Trung 
bình 
Nhanh 
Phức tạp 
Chậm 
Tịnh tiến 
Chậm 
Chuỗi “garden”, “bus” và “paris” có ít đối tượng chuyển động. Chuỗi “husky” có số 
lượng đối tượng chuyển động trung bình. Chuỗi “football” có nhiều đối tượng 
chuyển động nhất. Hơn nữa, do có quá nhiều đối tượng và các đối tượng có chuyển 
động phức tạp nên chuỗi “football” xảy ra hiện tượng che khuất thường xuyên. 
Chuỗi “paris” có các đối tượng chuyển động chậm và không có đối tượng mới xuất 
hiện nên ít có hiện tượng che khuất. Trường hợp đặc biệt là chuỗi “bus”. Đối tượng 
và camera đều chuyển động tính tiến trong chuỗi “bus” nên có vẻ như đối tượng 
đứng yên một chỗ trong khung hình, còn nền lại chuyển động. Chuỗi “husky” và 
“football”, camera chuyển động nhanh và có 1 pha camera chuyển động đột ngột 
bên cạnh đó các đối tượng lại chuyển động nhanh và phức tạp. Thực nghiệm cho 
thấy, chuỗi “husky” và “bus” cho kết quả phân đoạn tốt. Trong khi chuỗi “football” 
cho kết quả không tốt. Chuỗi “paris” chỉ phân đoạn được đối tượng chuyển động 
nhanh, còn 2 đối tượng chuyển động chậm thì không phát hiện được. 
Sau đây lần lượt là kết quả phân đoạn và phân tích, đánh giá với chuỗi “husky”, 
“football”, “bus” và “paris”. 
42 
(a) (b) (c) 
(d) (e) (f) 
(g) (h) (i) 
(j) 
 Hình 4.9: Kết quả phân đoạn của chuỗi “husky”. 
43 
(a-c) 3 khung hình liên tiếp có số thứ tự 54,55,56 (d) Vector chuyển động (e) Kết 
quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong 
trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng.(h-j)các đối tượng 
Trường vector chuyển động trong hình (4.9e) cho thấy những đối tượng có chuyển 
động tương đối được phân đoạn. Những đối tượng chuyển động nhẹ như đối tượng 
đứa bé đã bị đánh đồng với nền do lực tác động của trường vector chuyển động 
chưa đủ mạnh. Trường phân đoạn với 4 mức cường độ thể hiện trong Hình (4.9f), 
trong đó các điểm ảnh có cùng giá trị cường độ thuộc về một vùng cường độ. Hình 
(4.9g) biểu diễn khoảng cách của mỗi điểm ảnh đến điểm biên gần nhất trong 
trường phân đoạn cường độ. Giá trị mức xám càng cao thể hiện điểm ảnh càng xa 
biên. Nghĩa là điểm ảnh càng sáng thì càng xa biên. 
(a) (b) (c) 
(d) (e) (f) 
44 
(g) (h) (i) 
(j) (k) 
Hình 4.10: Kết quả phân đoạn của chuỗi “bus”. 
(a-c) 3 khung hình liên tiếp có số thứ tự 30,31,32 (d) Vector chuyển động (e) Kết 
quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong 
trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng (h-k) các đối tượng 
được phân đoạn. 
Với chuỗi “bus”, thông tin biên bị mất trong hình (4.10e) (thông tin biên có thể bị 
mất khi phân đoạn quá mức, trong trường hợp này là biên giữa đầu xe và nền) được 
phục hồi nhờ vào thông tin từ trường vector chuyển động. Tuy nhiên, biên được 
phát hiện chính xác hơn khi cả đặc trưng không gian và thời gian phù hợp với nhau. 
(ví dụ hình người và chó trong hình 4.9i-j và đầu xe bus 4-10i). Thuật toán phân 
đoạn rất tốt ngay cả với những vùng phức tạp rộng lớn (ví dụ nền trong hình 4.9h và 
nền hình 4.10h), là nơi chuyển động đồng nhất theo camera và có rất nhiều chi tiết. 
So sánh với kết quả phân đoạn trong hình 4.9g-j và 4.10-j, có thể thấy là phương 
45 
pháp này rất tốt với kết quả đạt được đồng nhất về thông tin không gian và thời 
gian, mà không cần quá trình phân đoạn cường độ tốt. 
(a) (b) 
(c) (d) 
Hình 4.11: Kết quả phân đoạn của chuỗi “husky” với khung hình 49, 50 và 264, 
267. 
Hình 4.11(a) và (b) cho thấy sự tách vùng do có sự khác không đồng nhất về thông 
tin không gian. Hình 4.11(c) và (d) các vùng nhỏ đồng nhất về chuyển động và 
thông tin không gian được hợp nhất thành một vùng đơn. 
46 
(a) (b) 
(c) (d) 
Hình 4.12: Kết quả phân đoạn của chuỗi “football” với khung hình 1, 2 và 3, 4. 
Chuỗi kết quả phân đoạn video “football” từ khung hình 1 đến 4 cho thấy biên của 
đối tượng vẫn được duy trì tốt dù các đối tượng chuyển động nhanh và che khuất 
lẫn nhau. 
47 
(a) (b) (c) 
(d) (e) (f) 
(g) (h) (i) 
Hình 4.13: Kết quả phân đoạn của chuỗi “football” với khung hình từ 23 đến 31 
tương ứng từ hình 4.13(a) đến hình 4.13(k). 
(a) (b) (c) 
48 
(d) (e) (f) 
(g) (h) (i) 
Hình 4.14: Kết quả phân đoạn của chuỗi “husky” với khung hình từ 166 đến 174 
tương ứng từ hình 4.13(a) đến hình 4.13(h). 
Hình 4.13 thể hiện kết quả phân đoạn cả của các khung hình từ 23 đến 32 là giai 
đoạn camera chuyển động đột ngột. Kết quả phân đoạn từ hình 4.13c cho thấy biên 
của các đối tượng đã không được duy trì tốt và kết quả phân đoạn đã bị rối loạn từ 
đó. Khi camera bắt đầu chuyển động đột ngột và các đối tượng chuyển động phức 
tạp hơn thì đường biên bị sai lệch do mô hình chuyển động trong thuật toán là mô 
hình chuyển động tịnh tiến đơn giản. Khi cả camera và đối tượng cùng chuyển động 
thì trường vector chuyển động thu được dựa trên 3 khung hình liên tiếp không thể 
hiện đúng chuyển động của đối tượng trên thực tế. Tương tự như vậy đối với hình 
4.14. Chuỗi “husky” kể từ khung hình 4.14(c), camera bắt đầu chuyển động xoay 
đột ngột và zoom về đối tượng. Do đó, biên của đối tượng đã không được duy trì và 
kết quả phân đoạn bị phân mảnh. 
49 
(a) (b) (c) 
(d) (e) (f) 
(g) 
Hình 4.15: Kết quả phân đoạn của chuỗi “paris”. 
(a-c) 3 khung hình liên tiếp có số thứ tự 54,55,56 (d) Vector chuyển động (e) Kết 
quả phân đoạn cường độ (f)Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong 
trườngphân đoạn cường độ (g) Kết quả phân đoạn đối tượng. 
Nhìn vào trường vector chuyển động hình 4.15d ta thấy chỉ có bàn tay phải của 
nhân vật nữ có vector chuyển động mạnh mới được phân đoạn, trong khi thân người 
50 
của nhân vật nam chuyển động yếu đã không có tác động lên kết quả phân đoạn. 
Điều này giống với kết quả đã phân tích ở hình 4.9. 
Tóm lại, phần kết quả thực nghiệm cho thấy một số đánh giá sau đây: 
- Ràng buộc phân đoạn cường độ nhằm phát sinh biên chính xác trong vùng 
đồng nhất về không gian – thời gian. Vì đôi khi một vùng có cường độ tương 
đương nhau có thể thuộc về một đối tượng khác, sự ràng buộc phân đoạn 
cường độ sẽ trở nên yếu thế khi thông tin chuyển động trong một vùng phân 
đoạn cường độ không đồng nhất. Đó là lí do vì sao vùng biên bị mất có thể 
phục hồi bởi thông tin chuyển động. 
- Vì hướng tiếp cận này không tạo được các biên chính xác trên trường phân 
đoạn video khi camera quay và đối tượng chuyển động phức tạp. Tuy nhiên, 
phương pháp này có ưu thế trên các ứng dụng cần xác định các vùng có các 
chuyển động khác nhau. 
Khi các đối tượng dừng lại hoặc có chuyển động quá chậm thì trường vector chuyển 
động có lực tác động không đủ nên có thể mất biên của đối tượng. Trong trường 
hợp này có thể gia tăng tham số , tuy nhiên cũng cần phải xem xét đến các hệ số 
để cân bằng sự tác động của các giá trị đến ước lượng MAP trong biểu thức 3.14.