Bậc tự do - Võ Thị Bích Khuê

Hầu hết các bài kiểm tra thống kê mà người học gặp phải trong một khóa học về thống kê suy diễn đều phụ thuộc vào bậc tự do. Nhiều tài liệu, giáo trình phát biểu bậc tự do theo một công thức xác định thường không có định nghĩa hoặc sự giải thích rõ ràng. Vì vậy, có nhiều quan điểm trái chiều khi bàn về bậc tự do, ví dụ: có tài liệu ghi “thật khó để định nghĩa bậc tự do nên thừa nhận hoặc nằm ngoài phạm vi của tài liệu này”. Sự thiếu sót này khiến cho người học, đặc biệt là sinh viên, không hiểu một cách trực quan vấn đề, làm cho họ có cái nhìn phức tạp thêm về các phương pháp thống kê khi tiếp cận môn học theo một cách tổng quát nhất. Bài viết sẽ định nghĩa ngắn gọn, trình bày công thức tính toán bậc tự do giúp người học hiểu sâu sắc hơn về các khái niệm cơ bản này.

pdf5 trang | Chia sẻ: thuyduongbt11 | Ngày: 10/06/2022 | Lượt xem: 467 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Bậc tự do - Võ Thị Bích Khuê, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
206 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC *Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing BẬC TỰ DO 1 1 Degrees of freedom: An elusive concept that occurs throughout statistics 25. TS. Võ Thị Bích Khuê*, TS. Ngô Thái Hưng* Tóm tắt Bài viết xem xét lại một số phương pháp định nghĩa bậc tự do và giải thích một cách đơn giản bậc tự do có nguồn gốc như thế nào và tại sao chúng được sử dụng trong nhiều ngữ cảnh khác nhau. Từ khóa: Degrees of freedom, effective sample size, statistical inference 1. Giới thiệu Hầu hết các bài kiểm tra thống kê mà người học gặp phải trong một khóa học về thống kê suy diễn đều phụ thuộc vào bậc tự do. Nhiều tài liệu, giáo trình phát biểu bậc tự do theo một công thức xác định thường không có định nghĩa hoặc sự giải thích rõ ràng. Vì vậy, có nhiều quan điểm trái chiều khi bàn về bậc tự do, ví dụ: có tài liệu ghi “thật khó để định nghĩa bậc tự do nên thừa nhận hoặc nằm ngoài phạm vi của tài liệu này”. Sự thiếu sót này khiến cho người học, đặc biệt là sinh viên, không hiểu một cách trực quan vấn đề, làm cho họ có cái nhìn phức tạp thêm về các phương pháp thống kê khi tiếp cận môn học theo một cách tổng quát nhất. Bài viết sẽ định nghĩa ngắn gọn, trình bày công thức tính toán bậc tự do giúp người học hiểu sâu sắc hơn về các khái niệm cơ bản này. 2. Nội dung 2.1. Định nghĩa Định nghĩa về bậc tự do, các tài liệu cung cấp rất ít thông tin trong cách giải thích, định nghĩa khái niệm này. Các tài liệu tham khảo hầu như không định nghĩa rõ ràng về thuật ngữ “bậc tư do”. Theo một từ điển của Toán học, Daintith and Rennie (2005) định nghĩa số bậc tự do là “số lượng các tham số độc lập cần thiết để xác định cấu hình của một hệ thống” và tiến hành khai thác các khái niệm trong bối cảnh của vật lý chứ không phải là thống kê. Schwartzman (1994) phát biểu rằng, “Trong Toán học, thuật ngữ bậc tự do đề cập đến số lượng của các biến độc lập tham gia vào một thống kê nào đó”. Trong khi một số định nghĩa lại nhấn mạnh khái niệm của sự độc lập, Maythew (2004) phỏng chừng về bậc tự do có liên 207 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC quan đến cỡ mẫu và mức ý nghĩa như sau: “Một con số đại diện cho kích thước của mẫu hoặc mẫu được sử dụng trong một bài kiểm định thống kê. Trong một số trường hợp, nó là kích thước mẫu, ở những trường hợp khác nó là một giá trị đã được tính toán. Mỗi bài kiểm định có tính toán cụ thể, và cho giá trị chính xác thì mỗi bài kiểm định phải được tính toán trước khi kết quả của kiểm định được kiểm tra mức ý nghĩa thống kê”. Upton và Cook (2002) đề cập đến “một tham số xuất hiện trong một vài phân phối xác suất được sử dụng trong thống kê suy diễn, đặc biệt là phân phối , phân phối , và phân phối ” và lưu ý rằng, cụm từ “bậc tự do” đã được giới thiệu bởi Sir Ronald Fisher vào năm 1992 mà không nhắc đến mục đích của nó. Sau đó, phát sinh ra một số công thức để tính toán bậc tự do mà không có bất kỳ lời giải thích nào về nguồn gốc của nó. Một số định nghĩa được đưa ra trong các sách giáo khoa không tương đồng với nhau. Clapham (1996) phát biểu rằng, “Số bậc tự do là một số nguyên dương thường tương đương với số quan sát độc lập trong một mẫu, trừ đi số lượng các tham số của tổng thể được ước lượng từ mẫu”. Ngược lại, Kotz và Johson (1982) chỉ ra rằng, “Về mặt kỹ thuật, mặc dù số bậc tự do thường là một số nguyên dương hay dạng phân số xảy ra ở một số phép xấp xỉ, ví dụ, người ta có thể có một phân bố không quy tâm với bậc tự do không, thu được bằng cách lấy giá trị này cho các bậc tự do của tham số”. Một định nghĩa rõ ràng hơn được cung cấp bởi Everett (2002). Sau khi mô tả bậc tự do như “một khái niệm khó nắm bắt”, Everett giải thích: “Về cơ bản, thuật ngữ này có nghĩa là số lượng đơn vị thông tin độc lập trong một mẫu liên quan đến việc ước lượng của một tham số hoặc tính toán thống kê”. Ví dụ, trong một bảng 2 x 2 được xét các tập tổng trên biên, chỉ một trong bốn phần tử của bảng là tự do, khi đó bảng này có bậc tự do. Hơn nữa, giải thích tốt hơn được đưa ra bởi Glenn và Littler (1984), chú tâm vào cả sự độc lập và kích thước mẫu: “Trong thống kê, số lượng các hạng mục của thông tin độc lập được đưa ra bởi dữ liệu, nghĩa là tổng số các hạng mục ít hơn số thống kê tóm lược liên quan hoặc các ràng buộc. Do đó, một tập hợp các kết quả độc lập có bậc tự do, nhưng n - 1 bậc tự do nếu trung bình biết, vì bất kỳ một trong số các bây giờ phụ thuộc vào tổng các khác. Chú ý rằng, mẫu có kích thước có bậc tự do nếu trung bình tổng thể biết, vì điều này không xác định được với nếu giá trị khác được biết. Khái niệm này rất quan trọng trong thống kê suy diễn vì nó xác định kích thước mẫu hiệu chỉnh”. Ví dụ: Giả sử trung bình của số là , biết , khi đó Rõ ràng, phải bằng là số không thay đổi. Ở đây, thì bậc tự do: . (2 giá trị có thể là bất kỳ số nào, nhưng số thứ 3 là không thay đổi vì đã biết). Vì vậy, không mất tính tổng quát, chúng ta có thể nghĩ về bậc tự do là số lượng các mẫu thông tin có thể được tự do thay đổi mà không vi phạm bất kỳ sự ràng buộc nào. Một sự khác biệt giữa kích thước mẫu danh nghĩa và mẫu có kích thước hiệu chỉnh được 208 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC công nhận, nó lý giải rõ ràng tại sao một số loại trung bình dựa vào bậc tự do chứ không phải số lượng quan sát. 2.2. Bậc tự do trong đời sống thường nhật Minh họa được lấy từ cuộc sống hàng ngày có thể cung cấp cho sinh viên một cái nhìn trực quan các giá trị của một bài toán trước khi ứng dụng nghiên cứu thống kê. Ví dụ, sinh viên phải hoàn thành ba nhiệm vụ khác nhau trong một thời gian kéo dài (đọc báo, ăn trưa và nghỉ trưa) từ 13 giờ đến 16 giờ. Lập kế hoạch cho việc này có hai bậc tự do: hai nhiệm vụ bất kỳ được sắp xếp theo ý muốn, nhưng một khi hai nhiệm vụ trong số ba nhiệm vụ được đặt trong các mốc thời gian thì nhiệm vụ thứ ba được xác định theo mặc định. Hơn nữa, nếu đưa thêm một ràng buộc vào (ví dụ: nghỉ trưa phải hoàn thành trước), khi đó, chỉ có một nhiệm vụ khác có thể được sắp xếp một cách tự do, sự ràng buộc đã loại bỏ đi một bậc tự do. Thực hiện các ví dụ như vậy với sự sáng tạo, sinh viên sẽ bắt đầu quan sát bậc tự do gần như ở khắp nơi trong thế giới xung quanh. 2.3. Bậc tự do đối với phương sai mẫu Nhiều sách giáo khoa giới thiệu công thức tính phương sai mẫu mà không có chỉ định cụ thể số chia ( , trong đó là cỡ mẫu) là bậc tự do, bằng cách bào chữa việc chia tổng độ lệch bình phương cho thay cho . Những thảo luận ban đầu của phương sai mẫu có lẽ là nơi thuận tiện nhất để nhấn mạnh ý nghĩa và mục đích của bậc tự do, bởi vì khái niệm này lặp lại như vậy thường xuyên. Ví dụ, xét một mẫu gồm 5 quan sát. Nếu không có thông tin gì về mẫu, không có hạn chế về giá trị được thực hiện bởi các quan sát, lấy bất kỳ 5 giá trị sẽ đủ để tạo thành một mẫu . Thật vậy, tất cả 5 quan sát có thể bị loại bỏ và được thay thế bởi những quan sát khác lấy ra từ tổng thể. Nhưng nếu chúng ta muốn tính phương sai mẫu, việc đầu tiên là phải tính trung bình mẫu, . Giả sử ta tính được . Khi đó, tất cả 5 quan sát là tự do được thay thế bằng việc lấy ra ngẫu nhiên từ tổng thể lớn hơn. Vì , tổng của tất cả 5 quan sát bây giờ phải bằng , do đó 4 (hoặc ít hơn) quan sát có thể được tự do thay đổi, nhưng một khi 4 trong số các quan sát được cố định, quan sát cuối cùng được xác định theo mặc định. Vì vậy, chỉ có bốn bậc tự do ( ) để sử dụng trong tính toán phương sai mẫu. Cỡ mẫu hiệu chỉnh đã được giảm xuống . Điều này giúp giải thích lý do tại sao phương sai mẫu được tính bằng: . Điều này là sự lý giải rõ ràng trong thống kê, nhưng nó chắc chắn không rõ ràng cho sinh viên, do đó, mặc dù đơn giản nhưng trình bày về vấn đề này cũng rất quan trọng. Và biết lý do tại sao có bậc tự do khi tính phương sai mẫu, sinh viên dễ dàng đánh giá rằng, bậc tự do tính thông qua độ lệch tiêu chuẩn mẫu, và đi đến thống kê (thống kê Student). Hơn nữa, nó trở nên rõ ràng hơn khi kích thước mẫu hiệu chỉnh tăng, mẫu này càng trở nên đại diện cho 209 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC tổng thể nói chung, theo giới hạn, thống kê tiến về thống kê có phân phối chuẩn tắc. Ngoài ra, bậc tự do cho mỗi phương sai mẫu giải thích lý do tại sao kiểm định so sánh hai trung bình tổng thể sử dụng một phương sai chung có bậc tự do và lý do tại sao tỷ số dùng để so sánh hai phương sai tổng thể sử dụng mẫu và quan sát có bậc tự do trên tử số và dưới mẫu số. 2.4. Bậc tự do đối với phân tích ANOVA và hồi quy Một ứng dụng xa hơn của bậc tự do xảy ra trong phân tích ANOVA1, vì bậc tự do biểu thị cho phương sai mẫu có hiệu chỉnh đã đúng khi chia tổng bình phương độ lệch cho bậc tự do tương ứng của nó để đạt được bình phương trung bình các độ lệch. Cụ thể, cho tổng số quan sát , phương sai tổng 2 đơn giản là trung bình tất cả các quan sát chia cho bậc tự do . Cho nhóm (mẫu), tổng bình phương biến thiên giữa các nhóm là: Trong đó: và là số quan sát và trung bình của nhóm thứ . Một khi 3 được tính, số hạng cuối cùng trong tổng được xác định bởi giá trị của , và trước số hạng, do đó mục tiêu của việc tính bình phương các chênh lệch trung bình là vì số nhóm chỉ có bậc tự do. Vì tổng bình phương các chênh lệch do sai số chuẩn (SSE4) dựa trên bình phương độ lệch chuẩn của nhóm, bình phương cách độ lệch trung bình do sai số có bậc tự do. Hiển nhiên bậc tự do của các chênh lệch bình phương trung bình tổng cộng là . Đúng như vậy, bậc tự do lại xuất hiện trong phân tích hồi quy tuyến tính bội, nếu có hệ số hồi quy kể cả số hạng là hằng số. Nhân tố căn bản cho việc thay thế hệ số xác định , hiệu chỉnh . Nghĩa là trung bình và đối với cỡ mẫu có hiệu chỉnh lần lượt là và . 2.5. Bậc tự do đối với kiểm định tính độc lập Minh họa ý niệm về bậc tự do trong bảng số sử dụng kiểm định của tính độc lập. Công thức tổng quát để tính bậc tự do trong một bảng số với hàng và cột như sau: Bất kỳ bảng số liệu nào với hàng và cột sẽ có ô. Vì mỗi hàng có ô, mỗi cột có ô và giao nhau 1 Analysis of Variance 2 Sum of squares total 3 Between-groups sum of squares 4 Sum of squares of errors 210 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC giữa hàng và cột là một ô, số ô thừa (số ô trong hàng và cột cuối cùng) là ô, do đó, bậc tự do được tính theo công thức . 3. Kết luận Bậc tự do thường gặp trong thống kê suy diễn nhưng chúng thường không được xác định rõ ràng. Đối với sinh viên, bậc tự do có trong các tài liệu tham khảo và các giáo trình được xây dựng dưới góc nhìn toán học nên họ có cảm giác khó hình dung khi tiếp cận vấn đề. Bài viết này trình bày các khái niệm cơ bản cùng các ví dụ đơn giản nhằm bảo đảm cho người đọc có cái nhìn thống nhất về bậc tự do trong quy trình thống kê phân tích số liệu. TÀI LIỆU THAM KHẢO 1. Black, K. (1994), Business Statistics: Contemporary Decision Making. St. Paul. 2. Clapham, C. (1996), The concise Oxford dictionary of mathematics. Oxford University Press 3. Daintith, J. and Rennie, R. (2005), The facts on file dictionary of Mathematics. New York: Market House Books. 4. Everett, B. S. (2002), The Cambridge Dictionary of Statistics. Cambridge, UK: Cambridge University Press. 5. Glenn, J.A. & Littler, G. H. (1984), A Dictionary of Mathematics. Totowa, NJ: Barnes and Noble Books. 6. Kotz, S. & Johnson, N. L (1982), Encyclopedia of statistical sciences. New York: John Wiley and Sons. 7. Mayhew, S. (2004), A Dictionary of Geography. Oxford, UK: Oxford University Press. 8. Schwartzman, S. (1994), The Words of Mathematics: An Etymological Dictionary of Mathematical Terms Used in English. Washington, DC: Mathematics Association of America. 9. Upton, G. and Cook, I. (2002), A Dictionary of Statistics. Oxford, UK: Oxford University Press.