Hầu hết các bài kiểm tra thống kê mà người học gặp phải trong một khóa học về thống kê
suy diễn đều phụ thuộc vào bậc tự do. Nhiều tài liệu, giáo trình phát biểu bậc tự do theo một
công thức xác định thường không có định nghĩa hoặc sự giải thích rõ ràng. Vì vậy, có nhiều
quan điểm trái chiều khi bàn về bậc tự do, ví dụ: có tài liệu ghi “thật khó để định nghĩa bậc
tự do nên thừa nhận hoặc nằm ngoài phạm vi của tài liệu này”. Sự thiếu sót này khiến cho
người học, đặc biệt là sinh viên, không hiểu một cách trực quan vấn đề, làm cho họ có cái
nhìn phức tạp thêm về các phương pháp thống kê khi tiếp cận môn học theo một cách tổng
quát nhất. Bài viết sẽ định nghĩa ngắn gọn, trình bày công thức tính toán bậc tự do giúp người
học hiểu sâu sắc hơn về các khái niệm cơ bản này.
5 trang |
Chia sẻ: thuyduongbt11 | Ngày: 10/06/2022 | Lượt xem: 564 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Bậc tự do - Võ Thị Bích Khuê, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
206
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
*Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing
BẬC TỰ DO 1
1 Degrees of freedom: An elusive concept that occurs throughout statistics
25.
TS. Võ Thị Bích Khuê*, TS. Ngô Thái Hưng*
Tóm tắt
Bài viết xem xét lại một số phương pháp định nghĩa bậc tự do và giải thích một cách đơn
giản bậc tự do có nguồn gốc như thế nào và tại sao chúng được sử dụng trong nhiều ngữ cảnh
khác nhau.
Từ khóa: Degrees of freedom, effective sample size, statistical inference
1. Giới thiệu
Hầu hết các bài kiểm tra thống kê mà người học gặp phải trong một khóa học về thống kê
suy diễn đều phụ thuộc vào bậc tự do. Nhiều tài liệu, giáo trình phát biểu bậc tự do theo một
công thức xác định thường không có định nghĩa hoặc sự giải thích rõ ràng. Vì vậy, có nhiều
quan điểm trái chiều khi bàn về bậc tự do, ví dụ: có tài liệu ghi “thật khó để định nghĩa bậc
tự do nên thừa nhận hoặc nằm ngoài phạm vi của tài liệu này”. Sự thiếu sót này khiến cho
người học, đặc biệt là sinh viên, không hiểu một cách trực quan vấn đề, làm cho họ có cái
nhìn phức tạp thêm về các phương pháp thống kê khi tiếp cận môn học theo một cách tổng
quát nhất. Bài viết sẽ định nghĩa ngắn gọn, trình bày công thức tính toán bậc tự do giúp người
học hiểu sâu sắc hơn về các khái niệm cơ bản này.
2. Nội dung
2.1. Định nghĩa
Định nghĩa về bậc tự do, các tài liệu cung cấp rất ít thông tin trong cách giải thích, định
nghĩa khái niệm này. Các tài liệu tham khảo hầu như không định nghĩa rõ ràng về thuật ngữ
“bậc tư do”. Theo một từ điển của Toán học, Daintith and Rennie (2005) định nghĩa số bậc
tự do là “số lượng các tham số độc lập cần thiết để xác định cấu hình của một hệ thống”
và tiến hành khai thác các khái niệm trong bối cảnh của vật lý chứ không phải là thống kê.
Schwartzman (1994) phát biểu rằng, “Trong Toán học, thuật ngữ bậc tự do đề cập đến số
lượng của các biến độc lập tham gia vào một thống kê nào đó”. Trong khi một số định nghĩa
lại nhấn mạnh khái niệm của sự độc lập, Maythew (2004) phỏng chừng về bậc tự do có liên
207
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
quan đến cỡ mẫu và mức ý nghĩa như sau: “Một con số đại diện cho kích thước của mẫu hoặc
mẫu được sử dụng trong một bài kiểm định thống kê. Trong một số trường hợp, nó là kích
thước mẫu, ở những trường hợp khác nó là một giá trị đã được tính toán. Mỗi bài kiểm định
có tính toán cụ thể, và cho giá trị chính xác thì mỗi bài kiểm định phải được tính toán trước
khi kết quả của kiểm định được kiểm tra mức ý nghĩa thống kê”.
Upton và Cook (2002) đề cập đến “một tham số xuất hiện trong một vài phân phối xác
suất được sử dụng trong thống kê suy diễn, đặc biệt là phân phối , phân phối , và phân
phối ” và lưu ý rằng, cụm từ “bậc tự do” đã được giới thiệu bởi Sir Ronald Fisher vào năm
1992 mà không nhắc đến mục đích của nó. Sau đó, phát sinh ra một số công thức để tính toán
bậc tự do mà không có bất kỳ lời giải thích nào về nguồn gốc của nó.
Một số định nghĩa được đưa ra trong các sách giáo khoa không tương đồng với nhau.
Clapham (1996) phát biểu rằng, “Số bậc tự do là một số nguyên dương thường tương đương
với số quan sát độc lập trong một mẫu, trừ đi số lượng các tham số của tổng thể được ước
lượng từ mẫu”. Ngược lại, Kotz và Johson (1982) chỉ ra rằng, “Về mặt kỹ thuật, mặc dù số
bậc tự do thường là một số nguyên dương hay dạng phân số xảy ra ở một số phép xấp xỉ, ví
dụ, người ta có thể có một phân bố không quy tâm với bậc tự do không, thu được bằng
cách lấy giá trị này cho các bậc tự do của tham số”.
Một định nghĩa rõ ràng hơn được cung cấp bởi Everett (2002). Sau khi mô tả bậc tự do
như “một khái niệm khó nắm bắt”, Everett giải thích: “Về cơ bản, thuật ngữ này có nghĩa là
số lượng đơn vị thông tin độc lập trong một mẫu liên quan đến việc ước lượng của một tham
số hoặc tính toán thống kê”. Ví dụ, trong một bảng 2 x 2 được xét các tập tổng trên biên, chỉ
một trong bốn phần tử của bảng là tự do, khi đó bảng này có bậc tự do. Hơn nữa, giải thích
tốt hơn được đưa ra bởi Glenn và Littler (1984), chú tâm vào cả sự độc lập và kích thước
mẫu: “Trong thống kê, số lượng các hạng mục của thông tin độc lập được đưa ra bởi dữ liệu,
nghĩa là tổng số các hạng mục ít hơn số thống kê tóm lược liên quan hoặc các ràng buộc. Do
đó, một tập hợp các kết quả độc lập có bậc tự do, nhưng n - 1 bậc tự do nếu
trung bình biết, vì bất kỳ một trong số các bây giờ phụ thuộc vào tổng các khác. Chú
ý rằng, mẫu có kích thước có bậc tự do nếu trung bình tổng thể biết, vì điều này không
xác định được với nếu giá trị khác được biết. Khái niệm này rất quan
trọng trong thống kê suy diễn vì nó xác định kích thước mẫu hiệu chỉnh”.
Ví dụ: Giả sử trung bình của số là , biết , khi đó Rõ ràng,
phải bằng là số không thay đổi. Ở đây, thì bậc tự do: .
(2 giá trị có thể là bất kỳ số nào, nhưng số thứ 3 là không thay đổi vì đã biết).
Vì vậy, không mất tính tổng quát, chúng ta có thể nghĩ về bậc tự do là số lượng các
mẫu thông tin có thể được tự do thay đổi mà không vi phạm bất kỳ sự ràng buộc nào.
Một sự khác biệt giữa kích thước mẫu danh nghĩa và mẫu có kích thước hiệu chỉnh được
208
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
công nhận, nó lý giải rõ ràng tại sao một số loại trung bình dựa vào bậc tự do chứ không
phải số lượng quan sát.
2.2. Bậc tự do trong đời sống thường nhật
Minh họa được lấy từ cuộc sống hàng ngày có thể cung cấp cho sinh viên một cái nhìn
trực quan các giá trị của một bài toán trước khi ứng dụng nghiên cứu thống kê. Ví dụ, sinh
viên phải hoàn thành ba nhiệm vụ khác nhau trong một thời gian kéo dài (đọc báo, ăn trưa và
nghỉ trưa) từ 13 giờ đến 16 giờ. Lập kế hoạch cho việc này có hai bậc tự do: hai nhiệm vụ bất
kỳ được sắp xếp theo ý muốn, nhưng một khi hai nhiệm vụ trong số ba nhiệm vụ được đặt
trong các mốc thời gian thì nhiệm vụ thứ ba được xác định theo mặc định. Hơn nữa, nếu đưa
thêm một ràng buộc vào (ví dụ: nghỉ trưa phải hoàn thành trước), khi đó, chỉ có một nhiệm
vụ khác có thể được sắp xếp một cách tự do, sự ràng buộc đã loại bỏ đi một bậc tự do. Thực
hiện các ví dụ như vậy với sự sáng tạo, sinh viên sẽ bắt đầu quan sát bậc tự do gần như ở khắp
nơi trong thế giới xung quanh.
2.3. Bậc tự do đối với phương sai mẫu
Nhiều sách giáo khoa giới thiệu công thức tính phương sai mẫu mà không có chỉ định cụ
thể số chia ( , trong đó là cỡ mẫu) là bậc tự do, bằng cách bào chữa việc chia tổng độ
lệch bình phương cho thay cho . Những thảo luận ban đầu của phương sai mẫu có lẽ
là nơi thuận tiện nhất để nhấn mạnh ý nghĩa và mục đích của bậc tự do, bởi vì khái niệm này
lặp lại như vậy thường xuyên.
Ví dụ, xét một mẫu gồm 5 quan sát. Nếu không có thông tin gì về mẫu, không có hạn chế
về giá trị được thực hiện bởi các quan sát, lấy bất kỳ 5 giá trị sẽ đủ để tạo thành một mẫu
. Thật vậy, tất cả 5 quan sát có thể bị loại bỏ và được thay thế bởi những quan sát khác
lấy ra từ tổng thể. Nhưng nếu chúng ta muốn tính phương sai mẫu, việc đầu tiên là phải tính
trung bình mẫu, . Giả sử ta tính được . Khi đó, tất cả 5 quan sát là tự do được
thay thế bằng việc lấy ra ngẫu nhiên từ tổng thể lớn hơn. Vì , tổng của tất cả 5 quan
sát bây giờ phải bằng , do đó 4 (hoặc ít hơn) quan sát có thể được tự do thay đổi, nhưng
một khi 4 trong số các quan sát được cố định, quan sát cuối cùng được xác định theo mặc
định. Vì vậy, chỉ có bốn bậc tự do ( ) để sử dụng trong tính toán phương sai mẫu. Cỡ mẫu
hiệu chỉnh đã được giảm xuống . Điều này giúp giải thích lý do tại sao phương
sai mẫu được tính bằng:
.
Điều này là sự lý giải rõ ràng trong thống kê, nhưng nó chắc chắn không rõ ràng cho sinh
viên, do đó, mặc dù đơn giản nhưng trình bày về vấn đề này cũng rất quan trọng. Và biết lý do
tại sao có bậc tự do khi tính phương sai mẫu, sinh viên dễ dàng đánh giá rằng, bậc tự
do tính thông qua độ lệch tiêu chuẩn mẫu, và đi đến thống kê (thống kê Student). Hơn nữa,
nó trở nên rõ ràng hơn khi kích thước mẫu hiệu chỉnh tăng, mẫu này càng trở nên đại diện cho
209
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
tổng thể nói chung, theo giới hạn, thống kê tiến về thống kê có phân phối chuẩn tắc. Ngoài
ra, bậc tự do cho mỗi phương sai mẫu giải thích lý do tại sao kiểm định so sánh hai
trung bình tổng thể sử dụng một phương sai chung có
bậc tự do và lý do tại sao tỷ số dùng để so sánh hai phương sai tổng thể sử dụng mẫu và
quan sát có bậc tự do trên tử số và dưới mẫu số.
2.4. Bậc tự do đối với phân tích ANOVA và hồi quy
Một ứng dụng xa hơn của bậc tự do xảy ra trong phân tích ANOVA1, vì bậc tự do biểu thị
cho phương sai mẫu có hiệu chỉnh đã đúng khi chia tổng bình phương độ lệch cho bậc tự do
tương ứng của nó để đạt được bình phương trung bình các độ lệch. Cụ thể, cho tổng số
quan sát , phương sai tổng 2 đơn giản là trung bình tất cả các quan sát chia cho bậc tự
do .
Cho nhóm (mẫu), tổng bình phương biến thiên giữa các nhóm là:
Trong đó: và là số quan sát và trung bình của nhóm thứ . Một khi 3 được tính,
số hạng cuối cùng trong tổng được xác định bởi giá trị của , và trước
số hạng, do đó mục tiêu của việc tính bình phương các chênh lệch trung bình là vì số nhóm
chỉ có bậc tự do. Vì tổng bình phương các chênh lệch do sai số chuẩn (SSE4) dựa trên
bình phương độ lệch chuẩn của nhóm, bình phương cách độ lệch trung bình do sai số có
bậc tự do. Hiển nhiên bậc tự do của các
chênh lệch bình phương trung bình tổng cộng là .
Đúng như vậy, bậc tự do lại xuất hiện trong phân tích hồi quy tuyến tính bội, nếu có
hệ số hồi quy kể cả số hạng là hằng số. Nhân tố căn bản cho việc thay thế hệ số xác định
, hiệu chỉnh
.
Nghĩa là trung bình và đối với cỡ mẫu có hiệu chỉnh lần lượt là và .
2.5. Bậc tự do đối với kiểm định tính độc lập
Minh họa ý niệm về bậc tự do trong bảng số sử dụng kiểm định của tính độc lập. Công
thức tổng quát để tính bậc tự do trong một bảng số với hàng và cột như sau: Bất kỳ bảng
số liệu nào với hàng và cột sẽ có ô. Vì mỗi hàng có ô, mỗi cột có ô và giao nhau
1 Analysis of Variance
2 Sum of squares total
3 Between-groups sum of squares
4 Sum of squares of errors
210
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
giữa hàng và cột là một ô, số ô thừa (số ô trong hàng và cột cuối cùng) là ô, do đó,
bậc tự do được tính theo công thức
.
3. Kết luận
Bậc tự do thường gặp trong thống kê suy diễn nhưng chúng thường không được xác định
rõ ràng. Đối với sinh viên, bậc tự do có trong các tài liệu tham khảo và các giáo trình được
xây dựng dưới góc nhìn toán học nên họ có cảm giác khó hình dung khi tiếp cận vấn đề. Bài
viết này trình bày các khái niệm cơ bản cùng các ví dụ đơn giản nhằm bảo đảm cho người
đọc có cái nhìn thống nhất về bậc tự do trong quy trình thống kê phân tích số liệu.
TÀI LIỆU THAM KHẢO
1. Black, K. (1994), Business Statistics: Contemporary Decision Making. St. Paul.
2. Clapham, C. (1996), The concise Oxford dictionary of mathematics. Oxford University Press
3. Daintith, J. and Rennie, R. (2005), The facts on file dictionary of Mathematics. New York:
Market House Books.
4. Everett, B. S. (2002), The Cambridge Dictionary of Statistics. Cambridge, UK: Cambridge
University Press.
5. Glenn, J.A. & Littler, G. H. (1984), A Dictionary of Mathematics. Totowa, NJ: Barnes
and Noble Books.
6. Kotz, S. & Johnson, N. L (1982), Encyclopedia of statistical sciences. New York: John
Wiley and Sons.
7. Mayhew, S. (2004), A Dictionary of Geography. Oxford, UK: Oxford University Press.
8. Schwartzman, S. (1994), The Words of Mathematics: An Etymological Dictionary of
Mathematical Terms Used in English. Washington, DC: Mathematics Association of America.
9. Upton, G. and Cook, I. (2002), A Dictionary of Statistics. Oxford, UK: Oxford University Press.