Đặc trưng thống kê và hồi quy với dữ liệu khoảng

Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá trình tính toán, các phương pháp ước lượng dữ liệu Do đó, việc nghiên cứu trên các loại dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau. Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và huyết áp Các loại dữ liệu này thường được biểu diễn dưới dạng và trong đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến có giá trị theo khoảng.

5 trang | Chia sẻ: thuyduongbt11 | Lượt xem: 820 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Đặc trưng thống kê và hồi quy với dữ liệu khoảng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

173 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Tóm tắt Bài viết trình bày một số đặc trưng thống kê và áp dụng trong phân tích tương quan và hồi quy trên các biến ngẫu nhiên nhận giá trị khoảng có dạng . Từ khóa: Dữ liệu khoảng, đặc trưng thống kê, hồi quy với dữ liệu khoảng 1. Giới thiệu Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá trình tính toán, các phương pháp ước lượng dữ liệu Do đó, việc nghiên cứu trên các loại dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau. Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và huyết áp Các loại dữ liệu này thường được biểu diễn dưới dạng và trong đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến có giá trị theo khoảng. Đối với dữ liệu khoảng có dạng , chúng ta cũng đã xây dựng các bài toán liên quan đến ước lượng, kiểm định cho các tham số như trung bình , phương sai và tỷ lệ , bằng cách xét điểm đại diện (điểm giữa: ) trên từng khoảng của dữ liệu. * Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing ĐẶC TRƯNG THỐNG KÊ VÀ HỒI QUY VỚI DỮ LIỆU KHOẢNG 21. ThS. Nguyễn Văn Phong* 174 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Bằng cách tiếp cận tương tự, nhưng thay vì chỉ xét trên một giá trị duy nhất của dữ liệu, trong bài viết này sẽ trình bày một vài kết quả liên quan đến các đặc trưng thống kê, cũng như áp dụng trong phân tích tương quan và hồi quy đối với dữ liệu khoảng có dạng 2. Một số kết quả Trong phần này, để trình bày các kết quả liên quan đến các đặc trưng thống kê cũng như trong phân tích tương quan và hồi quy, chúng ta xét biến ngẫu nhiên có giá trị khoảng có dạng: . Khi đó, các đặt trưng thống kê như: trung bình, phương sai và độ lệch chuẩn được xác định như sau: i) Trung bình: ii) Độ lệch từ một điểm đến trung bình: và iii) Phương sai: Để xác định phương sai trên dữ liệu khoảng, trước tiên với biến ngẫu nhiên , với trung bình , ta có: Khi đó, với , iv) Hiệp phương sai và hệ số tương quan: Với , ta có: Xét Đặt , ta có: 175 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Trong đó: Hệ số tương quan giữa và được xác định như sau: Trong đó: v) Hồi quy đơn với dữ liệu khoảng Giả sử với lần lượt là biến độc lập và phụ thuộc: Hình 1. Mô tả quan hệ giữa hai dữ liệu khoảng Khi đó, mô hình hồi quy ước lượng của phụ thuộc vào có dạng: Trong đó: X 176 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC với: vi) Ví dụ số Ví dụ 1: Để mô tả cho các kết quả trên, xét bảng số liệu sau: Đối tượng 1 0.93, 0.94 -27, -18 170, 204 118, 196 2 0.93, 0.94 -5, -4 192, 208 188, 197 3 0.92, 0.92 -6, -1 99, 113 198, 198 4 0.92, 0.93 -6, -4 104, 116 187, 193 5 0.92, 0.92 -21, -15 80, 82 189, 193 6 0.91, 0.92 0, 6 79, 90 187, 196 7 0.86, 0.87 30, 38 40, 48 190, 199 8 0.86, 0.86 22, 32 53, 77 190, 202 Khi đó, áp dụng các kết quả trên ta có: Trung bình: Phương sai: Độ lệch chuẩn: Ma trận hiệp phương sai: Ma trận tương quan: 177 ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN KỶ YẾU HỘI THẢO KHOA HỌC Ví dụ 2: Xét bộ số liệu sau: Đối tượng X Y 1 [90, 100] [44, 68] 2 [90, 130] [60, 72] 3 [140, 180] [56, 90] 4 [110, 142] [70, 112] 5 [90, 100] [54, 72] 6 [130, 160] [70, 100] 7 [60, 100] [63, 75] 8 [130, 160] [72, 100] 9 [110, 190] [76, 98] 10 [130, 180] [86, 96] 11 [110, 150] [86, 100] Giả sử rằng: Y . Khi đó, ta có kết quả hồi quy như sau: 3. Kết luận Bài viết giới thiệu một cách tiếp cận nghiên cứu trên các biến có giá trị theo khoảng, nhằm khắc phục các vấn đề về sai số cũng như tổng hợp thông tin trên các đối tượng. Công cụ này cũng hữu dụng trong việc nghiên cứu các dữ liệu liên quan đến các lĩnh vực như: dữ liệu tài chính; dữ liệu về sự hài lòng của khách hàng, hay trong nghiên cứu về giới hạn dung sai trong kiểm soát chất lượng; khoảng tin cậy của các ước tính từ các cuộc khảo sát mẫu Tuy nhiên, việc tính toán trên các dữ liệu khoảng khá phức tạp đòi hỏi các công cụ như Đại số trên các tập mà các phần tử nhận giá trị trên một khoảng; giải quyết các bài toán tối ưu cho các hàm. Trong giới hạn của bài viết này, tác giả không phát biểu và nêu ra các công cụ đó, cũng như các tính toán chi tiết. Người đọc quan tâm có thể tìm hiểu và phát triển lĩnh vực này trong các tài liệu tham khảo được tác giả sử dụng. TÀI LIỆU THAM KHẢO 1. Billard L., Diday E. (2000), Regression Analysis for Interval-Valued Data. In: Data Analysis, Classification and Related Methods (eds. H.-H. Bock and E. Diday), Springer, pp. 103 - 124. 2. Moore R.E. (1966), Interval Analysis, Prentice-Hall, Series in Automatic Computation. 3. F. Gioia, CN Lauro (2005), Basic statistical methods for interval data, Statistica applicata. 4. Bock H. -H. Diday E. (2000), Analysis of Symbolic Data, Springer. 5. Alefeld G., Herzberger J. (1983), Introduction to Interval Computations, Computer Science and Applied Mathematics.