Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính
xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá
trình tính toán, các phương pháp ước lượng dữ liệu Do đó, việc nghiên cứu trên các loại
dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài
liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau.
Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên
cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi
nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và
huyết áp Các loại dữ liệu này thường được biểu diễn dưới dạng và trong
đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp
chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra
hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực
nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp
nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do
trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến
có giá trị theo khoảng.
                
              
                                            
                                
            
 
             
            Bạn đang xem nội dung tài liệu Đặc trưng thống kê và hồi quy với dữ liệu khoảng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
173
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG 
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Tóm tắt 
Bài viết trình bày một số đặc trưng thống kê và áp dụng trong phân tích tương quan và hồi 
quy trên các biến ngẫu nhiên nhận giá trị khoảng có dạng . 
Từ khóa: Dữ liệu khoảng, đặc trưng thống kê, hồi quy với dữ liệu khoảng
1. Giới thiệu
Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính 
xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá 
trình tính toán, các phương pháp ước lượng dữ liệu Do đó, việc nghiên cứu trên các loại 
dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài 
liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau. 
Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên 
cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi 
nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và 
huyết áp Các loại dữ liệu này thường được biểu diễn dưới dạng và trong 
đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp 
chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra 
hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực 
nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp 
nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do 
trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến 
có giá trị theo khoảng. 
Đối với dữ liệu khoảng có dạng , chúng ta cũng đã xây dựng 
các bài toán liên quan đến ước lượng, kiểm định cho các tham số như trung bình , phương 
sai và tỷ lệ , bằng cách xét điểm đại diện (điểm giữa: ) trên từng 
khoảng của dữ liệu. 
* Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing
ĐẶC TRƯNG THỐNG KÊ VÀ HỒI QUY 
VỚI DỮ LIỆU KHOẢNG
21.
ThS. Nguyễn Văn Phong* 
174
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG 
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Bằng cách tiếp cận tương tự, nhưng thay vì chỉ xét trên một giá trị duy nhất của dữ liệu, 
trong bài viết này sẽ trình bày một vài kết quả liên quan đến các đặc trưng thống kê, cũng 
như áp dụng trong phân tích tương quan và hồi quy đối với dữ liệu khoảng có dạng 
2. Một số kết quả
Trong phần này, để trình bày các kết quả liên quan đến các đặc trưng thống kê cũng 
như trong phân tích tương quan và hồi quy, chúng ta xét biến ngẫu nhiên có giá trị 
khoảng có dạng:
.
Khi đó, các đặt trưng thống kê như: trung bình, phương sai và độ lệch chuẩn được xác 
định như sau:
i) Trung bình:
ii) Độ lệch từ một điểm đến trung bình:
và 
iii) Phương sai:
Để xác định phương sai trên dữ liệu khoảng, trước tiên với biến ngẫu nhiên 
, với trung bình , ta có:
Khi đó, với ,
iv) Hiệp phương sai và hệ số tương quan:
Với , ta có:
Xét 
Đặt , ta có:
175
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG 
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Trong đó:
Hệ số tương quan giữa và được xác định như sau:
Trong đó:
v) Hồi quy đơn với dữ liệu khoảng
Giả sử với lần lượt là biến độc 
lập và phụ thuộc: 
Hình 1. Mô tả quan hệ giữa hai dữ liệu khoảng
Khi đó, mô hình hồi quy ước lượng của phụ thuộc vào có dạng:
Trong đó:
X
176
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG 
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
với:
vi) Ví dụ số 
Ví dụ 1: Để mô tả cho các kết quả trên, xét bảng số liệu sau:
Đối tượng
1 0.93, 0.94 -27, -18 170, 204 118, 196
2 0.93, 0.94 -5, -4 192, 208 188, 197
3 0.92, 0.92 -6, -1 99, 113 198, 198
4 0.92, 0.93 -6, -4 104, 116 187, 193
5 0.92, 0.92 -21, -15 80, 82 189, 193
6 0.91, 0.92 0, 6 79, 90 187, 196
7 0.86, 0.87 30, 38 40, 48 190, 199
8 0.86, 0.86 22, 32 53, 77 190, 202
Khi đó, áp dụng các kết quả trên ta có: 
Trung bình: 
Phương sai: 
Độ lệch chuẩn:
Ma trận hiệp phương sai:
Ma trận tương quan:
177
ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG 
CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN
KỶ YẾU HỘI THẢO KHOA HỌC
Ví dụ 2: Xét bộ số liệu sau:
Đối tượng X Y
1 [90, 100] [44, 68]
2 [90, 130] [60, 72]
3 [140, 180] [56, 90]
4 [110, 142] [70, 112]
5 [90, 100] [54, 72]
6 [130, 160] [70, 100]
7 [60, 100] [63, 75]
8 [130, 160] [72, 100]
9 [110, 190] [76, 98]
10 [130, 180] [86, 96]
11 [110, 150] [86, 100]
Giả sử rằng: Y . Khi đó, ta có kết quả hồi quy như sau:
3. Kết luận
Bài viết giới thiệu một cách tiếp cận nghiên cứu trên các biến có giá trị theo khoảng, nhằm 
khắc phục các vấn đề về sai số cũng như tổng hợp thông tin trên các đối tượng. Công cụ này 
cũng hữu dụng trong việc nghiên cứu các dữ liệu liên quan đến các lĩnh vực như: dữ liệu tài 
chính; dữ liệu về sự hài lòng của khách hàng, hay trong nghiên cứu về giới hạn dung sai trong 
kiểm soát chất lượng; khoảng tin cậy của các ước tính từ các cuộc khảo sát mẫu Tuy nhiên, 
việc tính toán trên các dữ liệu khoảng khá phức tạp đòi hỏi các công cụ như Đại số trên các 
tập mà các phần tử nhận giá trị trên một khoảng; giải quyết các bài toán tối ưu cho các hàm. 
Trong giới hạn của bài viết này, tác giả không phát biểu và nêu ra các công cụ đó, cũng như 
các tính toán chi tiết. Người đọc quan tâm có thể tìm hiểu và phát triển lĩnh vực này trong các 
tài liệu tham khảo được tác giả sử dụng.
TÀI LIỆU THAM KHẢO
1. Billard L., Diday E. (2000), Regression Analysis for Interval-Valued Data. In: Data 
Analysis, Classification and Related Methods (eds. H.-H. Bock and E. Diday), Springer, 
pp. 103 - 124.
2. Moore R.E. (1966), Interval Analysis, Prentice-Hall, Series in Automatic Computation.
3. F. Gioia, CN Lauro (2005), Basic statistical methods for interval data, Statistica applicata. 
4. Bock H. -H. Diday E. (2000), Analysis of Symbolic Data, Springer. 
5. Alefeld G., Herzberger J. (1983), Introduction to Interval Computations, Computer 
Science and Applied Mathematics.