Ước lượng và kiểm định là các bài toán có ý nghĩa lớn trong thống kê. Từ mẫu ngẫu nhiên khảo sát được ta có thể đưa ra những nhận định sát với tổng thể để có được những dự đoán tương đối chính xác về một hiện tượng của xã hội hay các biến động trong tương lai Ở nước ta hiện nay, phân tích thống kê nhiều chiều chưa được quan tâm một cách đáng kể trong các trường đại học và cao đẳng
167 trang |
Chia sẻ: vietpd | Lượt xem: 2189 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Ước lượng và kiểm định trong thống kê nhiều chiều, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
HUỲNH VĂN HIẾU
ƯỚC LƯỢNG VÀ KIỂM ĐỊNH
TRONG THỐNG KÊ NHIỀU CHIỀU
Chuyên ngành : Xác suất – Thống kê
Mã ngành : 60 46 15
LUẬN VĂN THẠC SỸ TOÁN HỌC
Người hướng dẫn khoa học:
GS.TSKH Nguyễn Văn Thu
TP.HCM, tháng 7 năm 2009
LỜI CẢM ƠN
Lời đầu tiên tác giả xin gởi lời cảm ơn sâu sắc nhất đến GS.TSKH. Nguyễn
Văn Thu. Cảm ơn sự hướng dẫn nhiệt tình và tận tâm của Thầy trong suốt thời
gian thực hiện luận văn.
Chân thành cảm ơn các Thầy phản biện đã đọc luận văn và cho những nhận
xét rất quý báu.
Cảm ơn các Thầy Cô trong Khoa Toán-Tin học, Đại học Khoa học Tự nhiên
Tp.HCM nhất là các Thầy Cô trong Bộ môn Xác suất – Thống kê đã tận tình giúp
đỡ tác giả trong suốt quá trình học tập và tham gia các hoạt động khoa học tại
trường.
Cảm ơn phòng Quản lý khoa học – Hợp tác Quốc tế – Sau Đại học trường
Đại học Khoa học Tự nhiên Tp.HCM đã giúp đỡ về mặt thủ tục hành chính trong
suốt quá trình tác giả học tập và tham gia các hoạt động khoa học tại trường.
Tác giả không thể không kể đến sự giúp đỡ nhiệt tình của các các bạn học
cùng khóa trong suốt thời gian tham gia khóa học.
Vì thời gian hạn hẹp mà đề tài tương đối rộng nên chắc chắn có nhiều sai
sót. Tác giả vô cùng biết ơn mọi đóng góp, chỉ dẫn của quý thầy cô và các bạn để
luận văn được hoàn thiện hơn.
Tp.HCM, tháng 8 năm 2009
Học viên Huỳnh Văn Hiếu
MỤC LỤC
Trang phụ bìa
Lời cảm ơn
Mục lục
Lời giới thiệu
CHƯƠNG 1 : CÁC KHÁI NIỆM................................................................................. 1
1. 1 Véc tơ ngẫu nhiên nhiều chiều ........................................................................... 1
1. 1. 1 Véc tơ ngẫu nhiên nhiều chiều .................................................................... 1
1. 1. 1. 1 Định nghĩa .......................................................................................... 1
1. 1. 1. 2 Hàm phân phối xác suất ..................................................................... 1
1. 1. 1. 3 Phân phối xác suất .............................................................................. 1
1. 1. 2 Vector trung bình – vector kỳ vọng............................................................. 2
1. 2 Ma trận hiệp phương sai..................................................................................... 5
1. 2. 1 Ma trận hiệp phương sai mẫu ...................................................................... 5
1. 2. 2 Ma trận hiệp phương sai tổng thể ................................................................ 6
1. 2. 3 Ma trận tương quan ..................................................................................... 7
1. 2. 4 Vector trung bình - ma trận hiệp phương sai cho nhiều nhóm con của các
biến ............................................................................................................ 10
1. 2. 4. 1 Hai nhóm .......................................................................................... 10
1. 2. 4. 2 Ba hoặc nhiều các nhóm hơn............................................................ 14
1. 3 Sự kết hợp tuyến tính giữa các biến ................................................................. 15
1. 3. 1 Tính chất của mẫu...................................................................................... 15
1. 3. 2 Tính chất của tổng thể ............................................................................... 22
1. 4 Hàm mật độ của một đại lượng ngẫu nhiên nhiều chiều.................................. 24
1. 4. 1 Định nghĩa ................................................................................................. 24
1.4.2 Tính chất ................................................................................................24
1. 5 Phân phối đại lượng ngẫu nhiên nhiều chiều ................................................... 24
1. 5. 1 Định nghĩa ................................................................................................. 24
1. 5. 2 Tính chất .................................................................................................... 25
1. 6 Phân phối chuẩn nhiều chiều............................................................................ 26
1. 6. 1 Hàm mật độ phân phối chuẩn một biến..................................................... 27
1. 6. 2 Hàm mật độ của phân phối chuẩn nhiều chiều.......................................... 28
1. 6. 3 Tổng quát hóa phương sai tổng thể ........................................................... 28
1. 6. 4 Tính chất phân phối chuẩn của biến ngẫu nhiên nhiều chiều.................... 30
1. 6. 5 Ước lượng trong phân bố chuẩn nhiều chiều ............................................ 36
1. 6. 5. 1 Ước lượng hợp lý tối đa (MLE) ....................................................... 36
1. 6. 5. 2 Phân phối của y và S ...................................................................... 38
CHƯƠNG 2 : ƯỚC LƯỢNG KHÔNG CHỆCH TUYẾN TÍNH............................ 40
2. 1 Mô hình thống kê tuyến tính tổng quát hạng đầy đủ........................................ 40
2. 2 Ước lượng không chệch cho mô hình thống kê tuyến tính tổng quát hạng đầy
đủ ...................................................................................................................... 42
2. 2. 1 Định lí 2.1 (Gauss – Markov).................................................................... 42
2. 2. 2 Bổ đề 2.1.................................................................................................... 43
2. 2. 3 Hệ quả 2.1.................................................................................................. 44
2. 3 Mô hình thống kê tuyến tính với hạng không đầy đủ ...................................... 46
2. 4 Ước lượng không chệch cho mô hình thống kê tuyến tính hạng không đầy đủ ..
.......................................................................................................................... 46
2. 4. 1 Định lí 2.2 .................................................................................................. 46
2. 4. 2 Bổ đề 2.2................................................................................................... 47
2. 4. 3 Định lí 2.3 ( Gauss – Markov ).................................................................. 48
2. 4. 4 Ước lượng bình phương bé nhất mở rộng ................................................. 49
2. 4. 5 Tổ hợp tuyến tính tốt nhất của thống kê thứ tự ......................................... 52
2. 5 Ứng dụng trong mô hình ước lượng tham số hồi quy nhiều chiều .................. 59
2. 5. 1 Hàm hồi quy tổng thể (PRF)...................................................................... 59
2. 5. 2 Dạng ma trận của hàm hồi quy.................................................................. 60
2. 5. 2. 1 Hàm hồi quy tổng thể PRF ............................................................... 60
2. 5. 2. 2 Hàm hồi quy mẫu SRF ..................................................................... 60
2. 5. 3 Ước lượng bình phương bé nhất thông thường (OLS) .............................. 61
2. 5. 3. 1 Giới thiệu.......................................................................................... 61
2. 5. 3. 2 Điều kiện cần.................................................................................... 62
2. 5. 3. 3 Nghiệm hệ phương trình chuẩn ........................................................ 67
2. 5. 3. 4 Điều kiện đủ ..................................................................................... 69
2. 6 Xây dựng thuật toán hồi quy cho lập trình trên máy tính................................. 72
2. 6. 1 Bài toán xây dựng phương trình siêu phẳng hồi qui. ................................ 72
2. 6. 2 Bài toán tính hệ số tương quan riêng ........................................................ 72
2. 6. 3 Bài toán hồi quy từng bước ....................................................................... 73
2. 6. 4 Mô tả phương pháp tính toán..................................................................... 74
2. 6. 4. 1 Các ký hiệu sử dụng ......................................................................... 74
2. 6. 4. 2 Phương pháp tính toán...................................................................... 74
2. 6. 5 Xây dựng hàm tính định thức của ma trận (sau đó sử dụng hàm này để tính
định thức của ma trận covarian L_Da) ...................................................... 75
2. 6. 5. 1 Phần 1 ............................................................................................... 75
2. 6. 5. 2 Phần 2 ............................................................................................... 76
2. 6. 5. 3 Xây dựng hàm tính định thức của ma trận khi bỏ đi 1 hàng 1 cột .......
.......................................................................................................... 77
2. 6. 6 Bài toán về tương quan riêng..................................................................... 78
2. 6. 7 Bài toán về hồi quy từng bước................................................................... 78
2. 6. 8 Lưu đồ thuật toán của ba bài toán nêu trên................................................ 79
CHƯƠNG 3 : KIỂM ĐỊNH GIẢ THIẾT TRÊN VECTƠ KỲ VỌNG................... 82
3. 1 Mâu thuẫn giữa kiểm định nhiều chiều và một chiều ...................................... 82
3. 2 Kiểm định trên μ với Σ đã biết ...................................................................... 83
3. 2. 1 Nhắc lại kiểm định đơn biến giả thiết 0 :H 0μ μ= với σ đã biết........... 83
3. 2. 2 Kiểm định nhiều chiều cho giả thiết : 0 0:μ μH = với đã biết ........... 84 ∑
3. 3 Kiểm định giả thiết trên μ khi ∑ chưa biết .................................................... 89
3. 3. 1 Nhắc lại kiểm định đơn biến cho giả thiết 0 :H 0μ μ= khi σ chưa biết ...
................................................................................................................... 89
3. 3. 2 của Hotelling kiểm định giả thiết 2T 0 0:μ μH = với chưa biết ....... 90 ∑
3. 4 So sánh hai vetor trung bình ............................................................................ 95
3. 4. 1 Nhắc lại hai mẫu một chiều với kiểm định t Test− ................................ 95
3. 4. 2 Kiểm định với hai mẫu nhiều chiều ...................................... 96 2 TestT −
3. 5 Kiểm định trên từng biến riêng lẻ với điều kiện bác bỏ giả thiết 0H bởi
........................................................................................................ 100 2T tes− t
3. 6 Thao tác tính toán của - Thu được từ hồi quy nhiều chiều............... 106 2T 2T
3. 7 Kiểm định các cặp quan sát ............................................................................ 108
3. 7. 1 Trường hợp một chiều ............................................................................. 108
3. 7. 2 Trường hợp nhiều chiều .......................................................................... 110
3. 8 Kiểm định thêm thông tin............................................................................... 113
3. 9 Phân tích hình thể ........................................................................................... 118
3. 9. 1 Phân tích hình thể một mẫu ..................................................................... 118
3. 9. 2 Phân tích hình thể hai mẫu ...................................................................... 121
CHƯƠNG 4: KIỂM ĐỊNH GIẢ THIẾT TRÊN MA TRẬN HIỆP PHƯƠNG SAI
...................................................................................................................................... 130
4. 1 Giới thiệu........................................................................................................ 130
4. 2 Kiểm định mô hình dự kiến cho ∑ ............................................................... 130
4. 2. 1 Kiểm định giả thiết H0: 0∑ = ∑ ............................................................. 130
4. 2. 2 Kiểm định tính cầu .................................................................................. 132
4. 2. 3 Kiểm định ( )20 1:H I+ Jσ ρ ρ⎡ ⎤∑ = −⎣ ⎦ ............................................... 135
4. 3 So sánh các kiểm định ma trận phương sai .................................................... 138
4. 3. 1 Kiểm đinh phương sai bằng nhau............................................................ 139
4. 3. 2 Kiểm định bằng nhau các ma trận hiệp phương sai nhiều chiều............. 140
4. 4 Kiểm định tính độc lập ................................................................................... 145
4. 4. 1 Độc lập của hai vector con ...................................................................... 145
4. 4. 2 Sự độc lập của nhiều vectors con ............................................................ 147
4. 4. 3 Kiểm định độc lập cho tất cả các biến ..................................................... 151
Tài liệu tham khảo
Phụ lục
Lời Giới Thiệu
Ước lượng và kiểm định là các bài toán có ý nghĩa lớn trong thống kê. Từ mẫu
ngẫu nhiên khảo sát được ta có thể đưa ra những nhận định sát với tổng thể để có được
những dự đoán tương đối chính xác về một hiện tượng của xã hội hay các biến động
trong tương lai… Ở nước ta hiện nay, phân tích thống kê nhiều chiều chưa được quan
tâm một cách đáng kể trong các trường đại học và cao đẳng. Ước lượng và kiểm định
lại là bài toán có ý nghĩa quan trọng trong việc phân tích hồi quy và phương sai nhiều
chiều. Bắt nguồn từ những suy nghĩ trên, với sự hướng dẫn của Thầy và sự nghiên cứu
của bản thân, tác giả xin được giới thiệu luận văn thạc sĩ của mình với đề tài :
“Ước Lượng và Kiểm Định Trong Thống Kê Nhiều Chiều”.
Nội dung chủ yếu của luận văn này nhằm giới thiệu :
¾ Hàm ( )g F nào đối với nó có ước lượng tuyến tính không chệch. Tìm trong lớp
tất cả các ước lượng tuyến tính không chệch của ( )g F ước lượng có phương sai
bé đều nhất. Từ đó ứng dụng trong mô hình ước lượng tham số hồi quy và xây
dựng các thuật toán cho bài toán tìm siêu phẳng hồi quy.
¾ Các kiểm định giả thiết chủ yếu là trên vector kỳ vọng và ma trận hiệp phương sai.
Phân tích để làm nổi rõ ưu điểm của việc sử dụng kiểm định nhiều biến trong
thống kê nhiều chiều thay vì sử dụng kiểm định một biến thông thường.
Dựa vào nội dung cơ bản trên luận văn gồm bốn chương với bố cục như sau
Chương 1 : CÁC KHÁI NIỆM
Chương này nhằm giới thiệu sơ lược về các khái niệm, thuộc tính của biến ngẫu
nhiên nhiều chiều. Giới thiệu rõ về các tính chất của phân phối chuẩn nhiều chiều. Đây
là phân phối quan trọng trong bài toán ước lượng và kiểm định.
Chương 2 : ƯỚC LƯỢNG KHÔNG CHỆCH TUYẾN TÍNH
Giới thiệu các định lí (Gauss – Markov) và bổ đề dùng để giải quyết bài toán
ước lượng cho mô hình thống kê tuyến tính với hạng đầy đủ và hạng không đầy đủ.
Từ lý thuyết có được ta xây dưng mô hình để ứng dụng ước lượng tham số hồi
quy bằng phương pháp bình phương bé nhất. Sau đó là ứng dụng để xây dựng thuật
toán tìm phương trình siêu phẳng hồi quy. Cuối chương là sơ đồ thuật toán tìm phuơng
trình siêu phẳng hồi quy và hồi quy từng bước.
Chương 3 : KIỂM ĐỊNH GIẢ THIẾT TRÊN VECTƠ KỲ VỌNG
Ta tìm thấy từ chương này các kiểm định giả thiết 0 0:μ μH = cho trường hợp ma
trận hiệp phương sai đã biết hoặc chưa biết. Bài toán kiểm định giả thiết
với đối thiết
∑
1:μ μoH = 2 21 1:μ μH ≠ tức là so sánh hai vector trung bình của hai
mẫu ngẫu nhiên nhiều chiều cũng được trình bày ở chương này. Hoặc là bài toán kiểm
định các cặp quan sát từ ghép nối hai mẫu nhiều chiều cũng được thảo luận khá kĩ
trong chương này…
Ưu điểm của chương này là các phần đều được xây dưng từ mô hình đơn chiều và
phát triển thành mô hình đa chiều, giúp người đọc có thể so sánh ưu điểm của kiểm
định nhiều chiều so vói dùng kiểm định một biến cho bài toán kiểm định nhiều chiều.
Đồng thời các ví dụ được trình bày cụ thể với kết quả rõ ràng làm sáng tỏ hơn phần lý
thuyết đã được trình bày.
Chương 4 : KIỂM ĐỊNH GIẢ THIẾT TRÊN MA TRẬN HIỆP PHƯƠNG SAI
Trong chương này , bao gồm ba loại hình cơ bản của kiểm định giả thiết : (1) mô
hình dự kiến của ma trận hiệp phương sai, (2) hai hoặc nhiều ma trận phương sai bằng
nhau, và (3) chắc chắn thành phần của ma trận phương sai là 0, kéo theo tính độc lập
tương ứng của các biến ngẫu nhiên (chuẩn nhiều chiều). Trong hầu hết trường hợp,
chúng ta sử dụng xấp xỉ tỉ số hợp lí. Kết quả thống kê kiểm định thường liên quan đến
tỉ số xác định của các ma trận hiệp phương sai mẫu với giả thiết không và với đối
thiết khác không.
Ưu điểm của chương này là bên cạnh phần trình bày lý thuyết đều có kèm theo các
ví dụ rất cụ thể với các kết quả rất rõ ràng và có liên thông với các kết quả của chương
1 và 3. Điều này giúp chúng ta có cái nhìn rõ liên hệ giữa các bài toán kiểm định với
phương sai và cấu trúc của ma trận hiệp phương sai.
Nhằm giúp luận văn chặt chẽ hơn về lí luận , cuối luận văn là phụ lục các bảng tra
của phân phối như : phân phối chuẩn, phân phối chi bình phương, phân phối Student,
phân phối Fisher…
1 Chương 1
CHƯƠNG 1 : CÁC KHÁI NIỆM
1. 1 Véc tơ ngẫu nhiên nhiều chiều :
1. 1. 1 Véc tơ ngẫu nhiên nhiều chiều
n
1 2 nX (X ,X ,...,X ) : ( , ,P)= Ω F R→
X là hàm đo được, tức là nghịch ảnh của mọi ”hình hộp” đều là tập thuộc . F
1. 1. 1. 1 Định nghĩa
Thứ tự trong : với nR n1 2 n 1 2 na (a ,a ,...a ), b (b ,b ,...b )= = R∈ , ta nói a b≺
nếu i ii 1,2,...,n : a b∀ = ≤
Hình hộp trong : nR
1 2 n[a, b] {x (x , x ,..., x ) : a x b}= = ≺ ≺
1 2 n k k k(a, b] {x (x ,x ,..., x ) : a x b k 1,2,...,n}= = < ≤ ∀ =
1. 1. 1. 2 Hàm phân phối xác suất
( ) ( ){ } nXF x : P : X x x= ω∈Ω ω < ∀ ∈\
- Là hàm đơn điệu không giảm : X Xx y F (x) F (y⇒ ≤≺ )
- Liên tục phải, có giới hạn trái :
k 0 X k X 0 k 0 X k X 0x x F (x ) F (x ) ; x x F (x ) c F (x ) ↓ ⇒ ↓ ↑ ⇒ ↑ ≤
- Tiến tới 0 khi với một chỉ số j nào đó jx ↓−∞
- Tiến tới 1 khi x ↑+∞
1. 1. 1. 3 Phân phối xác suất
j
j n 1 1 n n
n
n m
m 1 m m 1 m
X X 1 1 n n
m {0,1}
P ((a, b]) : ( 1) F (b a ,...,b a ) 0 a, b : a b≤
⎛ ⎞⎟⎜ ⎟⎜ ⎟−⎜ ⎟⎜ ⎟⎜ ⎟⎜ − −⎝ ⎠
∈
∑
= − ≥ ∀∑ ≺
Từ định nghĩa trên ta có thể nới rộng ra một độ đo XS trên nR
- nX XP ( ) 0, F ( ) 1∅ = =R
- n nX XP ( A) 1 P (A) A ( )− = − ∀ ∈R RB
__________________________________________________________________
2 Chương 1
- nX X XP (A B) P (A) P (B) A,B ( ),A B∪ = + ∀ ∈ ∩ =∅RB
- nX k X k 1 2 i k
k 1 k 1
P ( A ) P (A ) A ,A ,... ( ),A A i k
∞∞
= =
= ∀ ∈ ∩ =∅∑∪ RB ∀ ≠
* Hệ quả :
Trong nghiên cứu các đại lượng ngẫu nhiên nhiều chiều, có thể dùng các độ
đo xác suất trên (phân phối XS của ĐLNNNC) thay cho độ đo xác suất P trên
.
nR
Ω
1. 1. 2 Vector trung bình – vector kỳ vọng :
Cho y là biểu diễn của một vector ngẫu nhiên p biến đo được trên đơn vị mẫu.
Nếu n vectors riêng lẻ được quan sát trong mẫu : , thì : 1 2y ,y ,...,yn
1
2yi
p
y
y
y
⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
#
Vector trung bình mẫu y có thể có thể được tìm tương tự như n vector được
quan sát hoặc được tính bởi trung bình của mỗi một p biến riêng lẻ :
1
2
1
1y y
n
i
i
p
y
y
n
y
=
⎛ ⎞⎜ ⎟⎜ ⎟= = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
∑ # (1.1)
ở đây cụ thể như : 22 1
n
ii
y y==∑ n . Do đó 1y là trung bình của n quan sát trên
biến đầu tiên, 2y là trung bình của biến thứ hai và cứ như thế.
Tất cả n vector được quan sát có thể được chuyển vị đến vector
dòng và được liệt kê trong ma trân Y như sau
1 2y ,y ,...,yn
__________________________________________________________________
3 Chương 1
Đơn
vị
dòng
Các biến
Đơn
vị
dòng
Các biến
ở đây n thường là lớn hơn p. Dữ liệu được sắp xếp theo dạng bảng bằng việc truy
nhập vào các vector quan sát theo hàng chứ không phải là theo cột. Chú ý rằng chỉ
số dưới đầu tiên i tương ứng với các đơn vị dòng và chỉ số th