Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt

Abstract: Trình bày một số kiến thức chuẩn bị về xác suất: phần tử ngẫu nhiên và phân phối xác suất; một số đặc trưng của đại lượng ngẫu nhiên; một số phân phối thường gặp. Nghiên cứu quá trình ngẫu nhiên: một số quá trình ngẫu nhiên thường gặp. Giới thiệu về hồi quy Poisson. Mô hình hồi quy Poisson tổng quát. Phân tích hoạt động tín dụng tiêu dùng. Keywords: Toán học; Phân tích thống kê; Hoạt động kinh doanh; Công ty Tài chính Việt

pdf16 trang | Chia sẻ: hongden | Ngày: 01/10/2015 | Lượt xem: 744 | Lượt tải: 2download
Bạn đang xem nội dung tài liệu Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt Chu Thị Hồng Đăng Trường Đại học Khoa học Tự nhiên Luận văn Thạc sĩ ngành: Lý thuyết xác suất và thống kê; Mã số: 60 46 15 Người hướng dẫn: PGS.TS Hồ Đăng Phúc Năm bảo vệ: 2012 Abstract: Trình bày một số kiến thức chuẩn bị về xác suất: phần tử ngẫu nhiên và phân phối xác suất; một số đặc trưng của đại lượng ngẫu nhiên; một số phân phối thường gặp. Nghiên cứu quá trình ngẫu nhiên: một số quá trình ngẫu nhiên thường gặp. Giới thiệu về hồi quy Poisson. Mô hình hồi quy Poisson tổng quát. Phân tích hoạt động tín dụng tiêu dùng. Keywords: Toán học; Phân tích thống kê; Hoạt động kinh doanh; Công ty Tài chính Việt Content 1. Một số kiến thức chuẩn bị về xác suất 1.1. Phần tử ngẫu nhiên và phân phối xác suất Định nghĩa 1. Giả sử ( , A, P) là không gian xác suất cơ bản và (E, F) là không gian đo được. Ta gọi X :   E là một biến ngẫu nhiên nếu nó là một ánh xạ đo được (tức là X-1 (F)  A) Đặc biệt, nếu E = Rn và F = Bn là  - đại số Borel của Rn thì ta gọi X là véc tơ ngẫu nhiên n chiều và viết X  thay cho X. Trong trường hợp n = 1, ta viết X thay cho X  và gọi X là đại lượng ngẫu nhiên. Định nghĩa 2. Phân bố xác suất (hay còn gọi là phân phối xác suất) của một biến ngẫu nhiên X (trên R) là phân bố xác suất PX trên R, với  - đại số là  - đại số Borel B của R, cho bởi công sau: PF(B) = P(X -1 (B) với mọi tập con B của R nằm trong  - đại số B. Định nghĩa 3. Hàm phân phối xác suất của phân bố xác suất PX trên R của một biến ngẫu nhiên X là hàm Fx: R  [0; 1] cho bởi công thức : ( ) ( ( , ])XF P X x P x    2 Định lý 1. Hàm phân phối FX của một phân bố xác suất tuỳ ý trên R thoả mãn 4 tính chất sau: 1. Đơn điệu không giảm: FX(x)FX(y) với mọi x  y. 2. Liên tục bên phải: )()(lim 0 xFxF XX  với mọi x, 3. 0)(lim  xFXx 4. lim ( ) 1x XF y  Ngược lại, mọi hàm số thực trên R thoả mãn 4 tính chất trên là hàm phân phối của một phân bố xác suất trên R. Định nghĩa 4. Một phân bố PX trên R được gọi là liên tục nếu như hàm phân phối xác suất FX là hàm liên tục trên R. Nó được gọi là liên tục tuyệt đối nếu như tồn tại một hàm số :X R R  khả tích và không âm, sao cho với mọi a R ta có ( ) ( , ) ( ) a X X XF a P a x dx      Hàm X : R R+ thoả mãn như trên gọi là hàm mật độ của PX . Định nghĩa 5. Một phân bố xác suất PX được gọi là rời rạc nếu như nó tập trung trên các điểm hạt của nó: PX (AX) = 1, PX (R\ AX) = 0 1.2. Một số đặc trưng của đại lượng ngẫu nhiên Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X, ký hiệu là E(X), chính là trung bình cộng có trọng số của biến ngẫu nhiên đó. Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác suất trên R thì có cùng kỳ vọng. Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng của phân bố xác suất trên R. Trong trường hợp không gian xác suất là một tập hợp hữu hạn hoặc đếm được,  ={ ..., 21  } với xác suất P 1)(),(  iii P  thì công thức tính giá trị kỳ vọng của một biến ngẫu nhiên X là ( ) ( ) ( )i i i E X X P  Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết dưới dạng phân Lesbesgue của X trên không gian xác suất ( , R):  XdPXE )( Định nghĩa 7. Phương sai của biến ngẫu nhiên X là đại lượng: D(X) = E[X-E(X)] 2 còn ( )D X  được gọi là độ lệch tiêu chuẩn của X. 1.3. Một số phân phối thường gặp 3 Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế. Định nghĩa 8. Giả sử a, b là hai số thực, với b > a. Khi đó phân phối đều trên đoạn thẳng [a; b] là phân bố liên tục với hàm mật độ xác suất được cho như sau:        bxaxkhi bxakhi abx caho  0 1 )( Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b). Trong định nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b) hoặc nửa đóng, nửa mở cũng được. Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng một biến ngẫu nhiên với phân bố đều, nếu chúng ta không có thông tin gì ngoài thông tin người đi bộ trên quãng đường đó. Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác suất là một miền của Rn (n 2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó. Định nghĩa 9. Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với trung bình  và độ lệch chuẩn  là phân bố liên tục với hàm mật độ sau: . 2 2 1 ( ) ( ) ( ) 22 x x e xp        Ký hiệu phân phối chuẩn trên đây là N( 2, ), phân bố chuẩn với  = 0,  2= 1 được gọi là chuẩn tắc. Phân bố chuẩn là một trong những phân bố quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá giống phân bố chuẩn. Định nghĩa 10. Phân bố mũ với tham số  là phân bố xác suất liên tục tuyệt đối trên R cho bởi hàm mật độ sau:        00 0 )( xkhi xkhie x x  Định nghĩa 11. Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với tham số n, p nếu hàm phân bố xác suất của nó có dạng ( ) (1 ) ; 0,1,2..., ;0 1k k n knP X k C p p k n p       Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị thức lần lượt là np và np (1-p) Định nghĩa 12. Một biến ngẫu nhiên Y được gọi là phân phối Poisson với tham số  >0 nếu nó nhận các giá trị nguyên y = 0, 1, 2, với xác suất   ! ye P Y y y    (1) 4 Khi đó ta ký hiệu ( )Y P  Phân phối Poisson là giới hạn của phân bố nhị thức với tham số p = / n và n, khi n tiến tới vô cùng. 2. Quá trình ngẫu nhiên 2.1. Một số quá trình ngẫu nhiên thường gặp Chuyển động Brown Quá trình Wiener Wt có ba đặc điểm: 1. W0 = 0 2. Wt liên tục hầu chắc chắn. 3. Wt có số gia độc lập với phân phối Wt - Ws ~ N(0, t - s) (với 0  s  t). Ở đây 2,( N ) biểu thị phân phối chuẩn với giá trị trung bình  và phương sai 2 . Điều kiện quá trình có số gia độc lập có nghĩa là nếu 22110 tsts  thì Wt1 - Ws1 và Wt2- Ws2 là những biến ngẫu nhiên độc lập. Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình Poisson, sẽ được đề cập chi tiết ở mục sau. 3. Giới thiệu về hồi quy Poisson 3.1. Phân bố Poisson Phân phối Poisson là phân phối được đặt theo tên nhà toán học người Pháp Siméon Denis Poisson (1781 - 1840). Như trên ta đã nói, một biến ngẫu nhiên Y được gọi là có phân phối Poisson với tham số  > 0 nếu nó nhận các giá trị nguyên y = 0, 1, 2, với xác suất   ! ye P Y y y    (2) Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng: E(Y) = Var (Y) =  Một tính chất quan trọng của phân phối Poisson là tổng của các biến ngẫu nhiên Poisson độc lập cũng có phân phối Poisson. Cụ thể, nếu Y1, Y2 là các biến ngẫu nhiên độc lập, iY ~ ( ), 1; 2iP i  thì 21 YY  ~ 1 2( )P   . Kết quả này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson. Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Yij là số lượng biến cố của quan sát thứ j trong lớp nhóm thứ i. Trên các nhóm đó, Yi là toàn bộ các quan sát của nhóm thứ i. Với giả thiết thông thường về tính độc lập và Yij ~ P( i) với j = 1,2, ni thì Yi ~ ( )i iP n . 3.2. Quá trình hồi quy Poisson 5 Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa theo sự xuất hiện của các biến cố. Một quá trình ngẫu nhiên N(t) là một quá trình Poisson (thời gian - thuần nhất, một chiều) nếu: 1. N (0) = 0 2. Số các biến cố xảy ra trong hai khoảng thời gian không giao nhau là các biến ngẫu nhiên độc lập. 3. Xác suất của số biến cố trong một khoảng con [t, t +  ] nào đó được cho bởi công thức   ,...1,0 ! )( ))()((   k k e ktNtNP k   trong đó số  dương là một tham số cố định, được gọi là tham số cường độ, có nghĩa là, biến ngẫu nhiên N(t+ ) - N(t) mô tả số lần xuất hiện trong khoảng thời gian [t, t+ ] tuân theo một phân bố Poisson với tham số  . 3.3. Mô hình loga tuyến tính cho quá trình Poisson Giả sử ta có một mẫu bao gồm n quan sát Y1, Y2,,Yn là các biến ngẫu nhiên độc lập có phân phối Poisson, Yi ~ P( i ), ta mong muốn i phụ thuộc vào một véc tơ các biến độc lập, ta có thể bắt đầu bằng mô hình tuyến tính đơn giản. jii x  ' (3) Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá trị trung bình không âm. Phương án thay thế giải quyết vấn đề này là ta nghĩ đến logarit của giá trị trung bình. Ta lấy )(log ii   và xét mô hình tuyến tính. jii x  ')log(  (4) Trong mô hình này j biểu diễn sự thay đổi của loga giá trị trung bình ứng với mỗi thay đổi của xj. Lấy luỹ thừa cơ số e hai vế của (4) ta thu được mô hình  jii xxpe  ' (5) Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng phương pháp ước lượng hợp lý cực đại. Trước tiên ta xây dựng hàm hợp lý là tích các giá trị của biểu thức (2) lấy trên n quan sát độc lập có phân phối Poisson với tham số i thoả mãn (3), tức là ! )( 1 i yi i in i y e L      (6) Lấy loga hai vế ta có 6     n i iiiyLogL 1 )log()(  (7) Ở đó i phục thuộc vào các biến độc lập xi và  là vecto gồm p tham số được cho ở (3). Lấy đạo hàm riêng hai vế theo từng phần tử của  và cho chúng bằng 0. Nghiệm của các phương trình đó cho ta ước lượng hợp lý cực đại của mô hình loga tuyến tính Poisson. Có thể chỉ ra rằng các nghiệm đó thoả mãn phương trình. ˆ'' YyX  (8) Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể bao gồm hằng số). Y biến đáp ứng, ˆ là một vectơ của giá trị dự báo, được tính toán thông qua ước lượng ˆ bằng cách lấy exp mũ của dự báo tuyến tính  ˆ'X . Một độ đo đánh giá mức độ phù hợp của mô hình với tập giá trị quan sát là độ chệch có dạng          n i ii i i i y y yD 1 ˆ() ˆ log(2   (9) Với cỡ mẫu lớn, D là đại lượng có phân phối xấp xỉ phân phối khi bình phương với (n- p) bậc tự do, ở đây n là số lượng quan sát, p số lượng tham số. Do vậy D thường được sử dụng trực tiếp để kiểm tra tính đúng đắn của mô hình. Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason    i ii p y X   ˆ )ˆ( 22 Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối khi bình phương với (n-p) bậc tự do. Hai độ đo trên được dùng để kiểm định sự phù hợp của mô hình với dữ liệu quan sát được. 4. Mô hình hồi quy Poisson tổng quát Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động của p biến mô tả (xi1, xi2,xip). Mô hình hồi quy Poisson tổng quát được xây dựng bởi Famoye nói rằng phân phối của Yi lấy điều kiện theo (xi1, xi2,xip) và được định nghĩa bằng 1(1 ) (1 ) 1 ( | ) ( ) ( ) .exp( ) 1 1 1 ! iyi i i i i i i i i i i i y y P Y y x f y y y                 (10) yi = 0,1, với x1 = (1, xi1, xip) là véctơ (p + 1) . 1 chiều, 0i là giá trị trung bình phụ thuộc của Yi với điều kiện xi. Ta cũng có phân tích phổ biến cho i là 7 ( | ) ( )ti i i iE Y x e xp x   (11) Phương sai của Y được cho bởi 2 2 /( | ) (1 )i i y x i iV a r Y x      (12) Ở đây ),...,( 10 p  là một véc tơ p + 1 chiều của các tham số hồi quy, tham số  là một độ đo của hàm mật độ. Khi  = 0 mô hình hồi quy Poisson tổng quát ở (10) trở thành mô hình hồi quy Poisson bình thường. Với  > 0 mô hình hồi quy Poisson tổng quát có thể sử dụng cho mô hình có số liệu đếm có độ phân tán vượt trội, tương tự  < 0, mô hình hồi quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt. Với một vài quan sát trong tập số liệu, giá trị Yi có thể bị mất theo dõi, từ đó mô hình hồi quy Poisson tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004. Nếu quan sát không bị mất theo dõi thì Yi = yi. Nếu quan sát mất theo dõi thì Yi  yi, và phân phối được áp dụng cho số liệu mẫu là phân phối nhị phân di được xác định như sau: di = 1 nếu ii yY  và di = 0 nếu ngược lại. Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:   1 1 0 ( , | ) ( ) 1 ( ) i i i d y d i i i i j p y d x f y f j            (13) Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được sắp xếp trong véctơ ),'(  , và nó có thể được ước lượng bằng phương pháp hợp lý cực đại như trình bày tiếp sau đây. 4.1. Ước lượng tham số ),'(  Hàm hợp lý của (13) được cho bởi   1 1 1 0 ( , , ) ( ) [1- ( )] i i i yn d d i i i j L y f y f j             (14) Hàm log hợp lý là:   1 1 0 0 ( , . ) (1 ) log ( ) log[(1 ( )] iyn n i i i i i j j LL y d f y d f j            (15) Thay công thức hàm mật độ ở (13) vào (15) ta thu được               n i i i ii i i i ii y y yydyLL 1 1 )!log( 1 )1( )1log()1( 1 log)1(),,(             n j y ji i jfd 0 1 0 )(1log( (16) Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu được 8 0 ))(1( ) )( ( ) )1( )(1( ),,( 1 1 0 1 0 1 2                                       n i y j y j i n i i i ii i i i i jf jf dx y d yLL      (17)                     n i i iii i ii i ii i i y y yyy d yLL 1 2 ) )1( )( )1( )1( ) )1( )(1( ),,(       0 ))(1( ) )( ( 1 1 0 1 0                      n i y j y j i i i jf jf d  (18) Trong đó: , )1( )( )( )( 2 i i i x j jf jf         (19) , )1( )( 1 )1( )1( )( )( )( 2 i ii i i j j jjj jf jf                 (20) Hệ phương trình hợp lý trên không tuyến tính với các tham số  , , chúng được giải bằng cách dùng phương pháp lặp Newtơn - Raphson. Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher ),( I bằng cách lấy kỳ vọng của hiệu các đạo hàm cấp hai. Ma trận nghịch đảo của ),( I cho ta các phương sai của ước lượng hợp lý cực đại. Phương sai của ước lượng hợp lý cực đại có thể thu được từ ma trận Hessian, H là ma trận vuông cấp p+2. Toàn bộ ma trận Hessian, được ký hiệu là các đạo hàm riêng cấp hai, được cho bởi:                               ) ),,( () ),,( ( ) ' ),,( () ' ),,( ( )( 2 22 22 2221 1211         ii ii yLLyLL yLLyLL HH HH H . Ở đây,                n i iii i ii i i xx y d yLL H 1 ' 3 2 11 ) )1( 21 ()1( ' ),,(      , ))(1( ) ' )( () )( () ' )( ())(1( 1 1 0 2 1 0 1 0 1 0 1 0 2                                                   n i y j y j y j y j y j i i i iii jf jfjfjf jf d                 n i i i iii i i x y d yLL H 1 3 2 12 ) )1( )( ()1(2 ),,(     9 , ))(1( ) )( () )( () )( ())(1( 1 1 0 2 1 0 1 0 1 0 1 0 2                                                   n i y j y j y j y j y j i i i iii jf jfjfjf jf d                      n i i ii i i i ii i i y y yyy d yLL H 1 3 2 1 2 1 2 2 2 2 2 22 ) )1( )(2 )1( )1( )1( ()1( ),,(       , ))(1( ) )( () )( ())(1( 1 1 0 2 1 0 1 0 21 0 2 2                                             n i y j y j y j y j i i i ii jf jfjf jf d  H21= H'12 ,) )1( )( ) )1( 21 ()( ' )( '2 23 2 ii i i i i i xx jj jf jf                                                            i i ii i i i i i ii x j j jjjjj jf jf 223 2 )1( ( ) 1 )1( 1( ( )1()1( )(2 )( )(                                                2 23 2 2 2 2 2 2 2 )1( )( ) 1 )1( 1()1( (2 )1( )1( )1( )( )( i ii i i i ii i i j j jjjj j jjj jf jf          Trong trường hợp ma trận Hessian được tính toán tại ước lượng hợp lý cực đại )'ˆ,'(ˆ   , và có nghịch đảo âm thì ta sẽ nhận được ma trận phương sai - hiệp phương sai được ký hiệu bởi     12 )ˆ(ˆ,ˆ   HS . 4.2. Sự phù hợp của thống kê hợp lý Để kiểm tra sự phù hợp của mô hình CGPS, cũng giống trường hợp hồi quy Poisson, ta dùng tỉ số hợp lý để kiểm tra mô hình, bài toán kiểm định giả thuyết của chúng ta là 0....: 210  pH  (21) Thống kê tỉ lệ hợp lý có dạng 0 ˆ ˆˆ ˆ2( ( , , ) ( , , ) )i R i UD LL y LL y     (22) Ở đây 0 ˆ ˆˆ ˆ( , , ) , ( , , )i R i ULL y LL y    lần lượt là các hàm loga hợp lý được tính toán từ mô hình được hạn chế và không hạn chế các tham số đưa vào. Với giả thuyết không (21), thống kê D trên có phân phố 2 với p bậc tự do. 4.3. Kiểm định tham số hồi quy và các tham số phân tán Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực 10 đại )'ˆ,'ˆ(ˆ  cực đại hàm loga hợp lý của mô hình luon tồn tại với )','(  và thu được kết quả tiệm cận chuẩn sau:   ),))ˆ,ˆ()/1((;0()ˆ( 1 InENn Từ đó giúp ta có các kết luận về các hệ số hồi quy và các tham số phân tán  . Kiểm định hệ số phân tán  Hiện tượng mất theo dõi có thể ảnh hưởng đến mô hình không, mô hình cũng có thể dẫn tới mô hình hồi quy Poisson tổng quát, ta có bài toán kiểm định. 0:;0:0   HH (23) Đây là bài toán điểm định sự quan trọng của tham số  . Sự xuất hiện của trong mô hình hồi quy Poisson tổng quát được khẳng định nếu giả thuyết H0 bị bác bỏ, thống kê sử dụng cho H0 là: ).),ˆ(),ˆ((2 UiRi yLLyLLD   (24) Nếu giả thiết H0 đúng, D có phân phối 2 với một bậc tự do. Kiểm định các tham số hồi quy Để kiểm định các hệ số mũ J , j = 1, 2, , p ta có bài toán H : J = 0; H1: J  0 Thống kê cho giả thuyết không là ˆ( ˆ ) j mle mleJ Z s    Ở đây, ˆ j mle  là ước lượng hợp lý cực đại của hệ số J , s( ˆ j mle ) là sai số chuẩn của các ước lượng này, được xác định từ ước lượng của ma trận phương sai – hiệp phương sai, S2 ( ˆ ,   ). Dưới giả thuyết không, thống kê Z có phân bố tiệm cận chuẩn. 5. Phân tích hoạt động tín dụng tiêu dùng 5.1. Mô tả số liệu Số lượng sản phẩm khách hàng mua và có tham gia dịch vụ cho vay của công ty là nhân tố chính để đánh giá được hiệu quả kinh doanh của công ty, và cũng góp phần đánh giá hiệu quả kinh doanh của các đại lý bán hàng liên kết. Do vậy, trong mô hình, biến quan sát phụ thuộc Y được chọn là tổng số sản phẩm được bán bằng dịch vụ cho vay trả góp trong một đơn vị thời gian tại một địa điểm bán hàng. 11 Các biến độc lập bao gồm: + Biến macoso là biến mô tả các địa điểm của đại lý bán hàng liên kết với Công ty Tài chính Việt được đặt tại quận: Đống Đa, Ba Đình, Hai Bà Trưng, Cầu Giấy, Thanh Xuân, Hà Đông, Đông Anh, Thanh Trì, Hoàng Mai. Trong số liệu gốc macoso bao gồm các biến “ba dinh” (cơ sở Ba Đì