Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính
xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá
trình tính toán, các phương pháp ước lượng dữ liệu Do đó, việc nghiên cứu trên các loại
dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài
liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau.
Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên
cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi
nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và
huyết áp Các loại dữ liệu này thường được biểu diễn dưới dạng và trong
đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp
chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra
hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực
nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp
nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do
trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến
có giá trị theo khoảng.
5 trang |
Chia sẻ: thuyduongbt11 | Ngày: 10/06/2022 | Lượt xem: 438 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Đặc trưng thống kê và hồi quy với dữ liệu khoảng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
173
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Tóm tắt
Bài viết trình bày một số đặc trưng thống kê và áp dụng trong phân tích tương quan và hồi
quy trên các biến ngẫu nhiên nhận giá trị khoảng có dạng .
Từ khóa: Dữ liệu khoảng, đặc trưng thống kê, hồi quy với dữ liệu khoảng
1. Giới thiệu
Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính
xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá
trình tính toán, các phương pháp ước lượng dữ liệu Do đó, việc nghiên cứu trên các loại
dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài
liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau.
Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên
cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi
nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và
huyết áp Các loại dữ liệu này thường được biểu diễn dưới dạng và trong
đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp
chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra
hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực
nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp
nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do
trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến
có giá trị theo khoảng.
Đối với dữ liệu khoảng có dạng , chúng ta cũng đã xây dựng
các bài toán liên quan đến ước lượng, kiểm định cho các tham số như trung bình , phương
sai và tỷ lệ , bằng cách xét điểm đại diện (điểm giữa: ) trên từng
khoảng của dữ liệu.
* Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing
ĐẶC TRƯNG THỐNG KÊ VÀ HỒI QUY
VỚI DỮ LIỆU KHOẢNG
21.
ThS. Nguyễn Văn Phong*
174
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Bằng cách tiếp cận tương tự, nhưng thay vì chỉ xét trên một giá trị duy nhất của dữ liệu,
trong bài viết này sẽ trình bày một vài kết quả liên quan đến các đặc trưng thống kê, cũng
như áp dụng trong phân tích tương quan và hồi quy đối với dữ liệu khoảng có dạng
2. Một số kết quả
Trong phần này, để trình bày các kết quả liên quan đến các đặc trưng thống kê cũng
như trong phân tích tương quan và hồi quy, chúng ta xét biến ngẫu nhiên có giá trị
khoảng có dạng:
.
Khi đó, các đặt trưng thống kê như: trung bình, phương sai và độ lệch chuẩn được xác
định như sau:
i) Trung bình:
ii) Độ lệch từ một điểm đến trung bình:
và
iii) Phương sai:
Để xác định phương sai trên dữ liệu khoảng, trước tiên với biến ngẫu nhiên
, với trung bình , ta có:
Khi đó, với ,
iv) Hiệp phương sai và hệ số tương quan:
Với , ta có:
Xét
Đặt , ta có:
175
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Trong đó:
Hệ số tương quan giữa và được xác định như sau:
Trong đó:
v) Hồi quy đơn với dữ liệu khoảng
Giả sử với lần lượt là biến độc
lập và phụ thuộc:
Hình 1. Mô tả quan hệ giữa hai dữ liệu khoảng
Khi đó, mô hình hồi quy ước lượng của phụ thuộc vào có dạng:
Trong đó:
X
176
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
với:
vi) Ví dụ số
Ví dụ 1: Để mô tả cho các kết quả trên, xét bảng số liệu sau:
Đối tượng
1 0.93, 0.94 -27, -18 170, 204 118, 196
2 0.93, 0.94 -5, -4 192, 208 188, 197
3 0.92, 0.92 -6, -1 99, 113 198, 198
4 0.92, 0.93 -6, -4 104, 116 187, 193
5 0.92, 0.92 -21, -15 80, 82 189, 193
6 0.91, 0.92 0, 6 79, 90 187, 196
7 0.86, 0.87 30, 38 40, 48 190, 199
8 0.86, 0.86 22, 32 53, 77 190, 202
Khi đó, áp dụng các kết quả trên ta có:
Trung bình:
Phương sai:
Độ lệch chuẩn:
Ma trận hiệp phương sai:
Ma trận tương quan:
177
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Ví dụ 2: Xét bộ số liệu sau:
Đối tượng X Y
1 [90, 100] [44, 68]
2 [90, 130] [60, 72]
3 [140, 180] [56, 90]
4 [110, 142] [70, 112]
5 [90, 100] [54, 72]
6 [130, 160] [70, 100]
7 [60, 100] [63, 75]
8 [130, 160] [72, 100]
9 [110, 190] [76, 98]
10 [130, 180] [86, 96]
11 [110, 150] [86, 100]
Giả sử rằng: Y . Khi đó, ta có kết quả hồi quy như sau:
3. Kết luận
Bài viết giới thiệu một cách tiếp cận nghiên cứu trên các biến có giá trị theo khoảng, nhằm
khắc phục các vấn đề về sai số cũng như tổng hợp thông tin trên các đối tượng. Công cụ này
cũng hữu dụng trong việc nghiên cứu các dữ liệu liên quan đến các lĩnh vực như: dữ liệu tài
chính; dữ liệu về sự hài lòng của khách hàng, hay trong nghiên cứu về giới hạn dung sai trong
kiểm soát chất lượng; khoảng tin cậy của các ước tính từ các cuộc khảo sát mẫu Tuy nhiên,
việc tính toán trên các dữ liệu khoảng khá phức tạp đòi hỏi các công cụ như Đại số trên các
tập mà các phần tử nhận giá trị trên một khoảng; giải quyết các bài toán tối ưu cho các hàm.
Trong giới hạn của bài viết này, tác giả không phát biểu và nêu ra các công cụ đó, cũng như
các tính toán chi tiết. Người đọc quan tâm có thể tìm hiểu và phát triển lĩnh vực này trong các
tài liệu tham khảo được tác giả sử dụng.
TÀI LIỆU THAM KHẢO
1. Billard L., Diday E. (2000), Regression Analysis for Interval-Valued Data. In: Data
Analysis, Classification and Related Methods (eds. H.-H. Bock and E. Diday), Springer,
pp. 103 - 124.
2. Moore R.E. (1966), Interval Analysis, Prentice-Hall, Series in Automatic Computation.
3. F. Gioia, CN Lauro (2005), Basic statistical methods for interval data, Statistica applicata.
4. Bock H. -H. Diday E. (2000), Analysis of Symbolic Data, Springer.
5. Alefeld G., Herzberger J. (1983), Introduction to Interval Computations, Computer
Science and Applied Mathematics.