Luận văn Mô hình chuỗi thời gian mờ trong dự báo chuỗi thời gian

Chuỗi thời gian đang được sử dụng như một công cụ hữu hiệu để phân tích trong kinh tế, xã hội cũng như trong nghiên cứu khoa học. Chính do tầm quan trọng của phân tích chuỗi thời gian, rất nhiều tác giả đã đề xuất các công cụ để phân tích chuỗi thờ i gian. Trong những năm trước, công cụ chủ yếu để phân tích chuỗi thời gian là sử dụng các công cụ thống kê như hồi qui, phân tích Furie và một vài công cụ khác.

68 trang | Chia sẻ: vietpd | Lượt xem: 2027 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Mô hình chuỗi thời gian mờ trong dự báo chuỗi thời gian, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN --------------------------------- NGUYỄN THỊ KIM LOAN MÔ HÌNH CHUỖI THỜI GIAN MỜ TRONG DỰ BÁO CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 Giáo viên hướng dẫn: TS. NGUYỄN CÔNG ĐIỀU THÁI NGUYÊN - 2009 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên MỤC LỤC MỞ ĐẦU ........................................................................................................ 1 CHƢƠNG 1. CÁC KIẾN THỨC CƠ BẢN VỀ CHUỖI THỜI GIAN ............ 5 1. Chuỗi thời gian và quá trình ngẫu nhiên ................................................... 5 1.1. Khái niệm chuỗi thời gian và quá trình ngẫu nhiên ............................ 5 1.2. Quá trình ngẫu nhiên dừng ................................................................ 6 1.3. Hàm tự tƣơng quan ............................................................................ 7 1.4. Toán tử tiến, toán tử lùi...................................................................... 8 2. Quá trình ARMA ...................................................................................... 9 2.1. Quá trình tự hồi quy ........................................................................... 9 2.2. Quá trình trung bình trƣợt ................................................................ 11 2.3. Quá trình tự hồi quy trung bình trƣợt ............................................... 13 3. Ƣớc lƣợng tham số mô hình ARMA ....................................................... 15 4. Những hạn chế của mô hình ARMA trong chuỗi thời gian tài chính ....... 16 CHƢƠNG 2. LÝ THUYẾT TẬP MỜ VÀ CHUỖI THỜI GIAN MỜ ........... 23 1. Lý thuyết tập mờ .................................................................................... 23 1.1. Tập mờ ............................................................................................ 23 1.2. Các phép toán trên tập mờ ............................................................... 25 2. Các quan hệ và suy luận xấp xỉ, suy diễn mờ .......................................... 30 2.1. Quan hệ mờ ..................................................................................... 30 2.2. Suy luận xấp xỉ và suy diễn mờ ....................................................... 31 3. Hệ mờ ..................................................................................................... 33 3.1. Bộ mờ hoá ....................................................................................... 33 3.2. Hệ luật mờ ....................................................................................... 34 3.3. Động cơ suy diễn ............................................................................. 35 3.4. Bộ giải mờ ....................................................................................... 36 3.5. Ví dụ minh hoạ ................................................................................ 37 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên CHƢƠNG 3. MỘT SỐ THUẬT TOÁN CƠ BẢN TRONG CHUỖI THỜI GIAN MỜ VÀ MỘT SỐ THUẬT TOÁN CẢI TIẾN ................................... 39 1. Một số khái niệm .................................................................................... 39 1.1. Định nghĩa tập mờ và chuỗi thời gian mờ ........................................ 39 1.2. Một số định nghĩa liên quan đến chuỗi thời gian mờ........................ 40 2. Mô hình một số thuật toán dự báo trong mô hình chuỗi thời gian mờ ......... 41 2.1. Mô hình thuật toán của Song và Chissom ........................................ 41 2.2. Mô hình thuật toán của Chen ........................................................... 42 2.3. Thuật toán của Singh ....................................................................... 43 2.4. Mô hình Heuristic cho chuỗi thời gian mờ ....................................... 45 3. Ứng dụng trong dự báo chứng khoán ...................................................... 48 3.1. Bài toán chỉ số chứng khoán Đài Loan ............................................ 48 3.2. Xây dựng chƣơng trình .................................................................... 60 KẾT LUẬN ................................................................................................... 64 TÀI LIỆU THAM KHẢO ............................................................................. 65 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 1 MỞ ĐẦU Chuỗi thời gian đang được sử dụng như một công cụ hữu hiệu để phân tích trong kinh tế, xã hội cũng như trong nghiên cứu khoa học. Chính do tầm quan trọng của phân tích chuỗi thời gian, rất nhiều tác giả đã đề xuất các công cụ để phân tích chuỗi thời gian. Trong những năm trước, công cụ chủ yếu để phân tích chuỗi thời gian là sử dụng các công cụ thống kê như hồi qui, phân tích Furie và một vài công cụ khác. Nhưng hiệu quả nhất có lẽ là mô hình ARIMA của Box-Jenkins. Mô hình này đã cho một kết quả khá tốt trong phân tích dữ liệu. Tuy nhiên sự phức tạp của thuật toán đã gây khó khăn khi ứng dụng trong phân tích chuỗi số liệu, nhất là khi chuỗi số liệu có những thay đổi phản ánh sự phi tuyến của mô hình. Để vượt qua được những khó khăn trên, gần đây nhiều tác giả đã sử dụng mô hình chuỗi thời gian mờ. Khái niệm tập mờ được Zadeh đưa ra từ năm 1965 và ngày càng tìm được ứng dụng trong nhiều lĩnh vực khác nhau nhất là trong điều khiển và trí tuệ nhân tạo. Trong lĩnh vực phân tích chuỗi thời gian, Song và Chissom đã đưa khái niệm chuỗi thời gian mờ phụ thuộc vào thời gian và không phụ thuộc vào thời gian để dự báo. Chen đã cải tiến và đưa ra phương pháp mới đơn giản và hữu hiệu hơn so với phương pháp của Song và Chissom. Trong phương pháp của mình, thay vì sử dụng các phép tính tổ hợp Max- Min phức tạp, Chen đã tính toán bằng các phép tính số học đơn giản để thiết lập mối quan hệ mờ. Phương pháp của Chen cho hiệu quả cao hơn về mặt sai số dự báo và độ phức tạp của thuật toán. Từ các công trình ban đầu về chuỗi thời gian mờ được xuất hiện năm 1993, hiện nay mô hình này đang được sử dụng để dự báo rất nhiều lĩnh vực trong kinh tế hay xã hội như trong lĩnh vực giáo dục để dự báo số sinh viên nhập trường, hay trong lĩnh vực dự báo thất nghiệp, trong lĩnh vực dân số, Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 2 chứng khoán và trong nhiều lĩnh vực khác như tiêu thụ điện, hay dự báo nhiệt độ của thời tiết… Tuy nhiên xét về độ chính xác của dự báo, một số thuật toán trên còn cho kết quả chưa cao. Để nâng cao độ chính xác của dự báo, một số thuật toán cho moo hình chuỗi thời gian mờ liên tiếp được đưa ra. Chen sử dụng mô hình bậc cao của chuỗi thời gian mờ để tính toán. Sah và Degtiarev thay vì dự báo chuỗi thời gian đã sử dụng chuỗi thời gian là hiệu số bậc nhất để nâng cao độ chính xác. Đây cũng là một phương pháp hay được sử dụng trong mô hình Box-Jenkins để loại bỏ tính không dừng của chuỗi thời gian. Huarng đã sử dụng các thông tin có trước trong tính chất của chuỗi thời gian như mức độ tăng giảm để đưa ra mô hình heuristic chuỗi thời gian mờ. Trong thời gian gần đây, đề tài này vẫn luôn được một số tác giả nghiên cứu. Các hướng hiện nay vẫn là tập trung nâng cao độ chính xác dự báo của mô hình chuỗi thời gian mờ. Bài báo của I-Hong Kuo và các tác giả (2008) đưa ra phương pháp tăng độ chính xác của dự báo bằng tối ưu các phần tử đám đông (Particle swarm optimaization). Ching Hsue Cheng và các đồng tác giả (2008) mở rông nghiên cứu bằng các phương pháp kỳ vọng (Exspectation method) và Phương pháp lựa chọn mức (Grade Selection Method) thông qua các ma trận chuyển dịch có trọng. Ngoài ra hiện nay có xu hướng sử dụng kết hợp các phương pháp khác nhau với chuỗi thời gian mờ như phương pháp mạng Nơ ron như Cagdas H. Aladag (2008) hay Medey Khascay (2008). Ngay cả một nhà nghiên cứu sâu trong lĩnh vực này là Huarng cũng đã mở rộng theo hướng này từ năm 2006. Thuật toán di truyền cũng tìm được ứng dụng trong hướng nghiên cứu này. Năm 2007 có bài báo của Li-Wei Lee sử dụng mối quan hệ mờ và thuật toán di truyền để dự báo nhiệt độ và chỉ số tài chính của Đài Loan. Ngoài ra một số tác giả khác tìm những thuật toán khác đơn giản để dự báo như bài báo của Singh (2007) hay thuật toán dựa vào trend của chuỗi thời gian (Baldwin 2000). Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 3 Nghiên cứu dự báo chuỗi thời gian luôn là một bài toán gây được sự chú ý của các nhà toán học, kinh tế, xã hội học,... Các quan sát trong thực tế thường được thu thập dưới dạng chuỗi số liệu. Từ những chuỗi số liệu này người ta có thể rút ra được những quy luật của một quá trình được mô tả thông qua chuỗi số liệu. Nhưng ứng dụng quan trọng nhất là dự báo khả năng xảy ra khi cho một chuỗi số liệu. Những thí dụ dẫn ra trong các bài báo đều đưa ra khả năng dự báo trong kinh tế như dự báo chỉ số chứng khoán, mức tăng dân số, dự báo nhu cầu sử dụng điện, dự báo số lượng sinh viên nhập học của một trường đại học... Các thí dụ này đều có thể dẫn ra trong mỗi ngành kinh tế kỹ thuật. Như đã trình bày ở phần trên, có khá nhiều phương pháp dự báo chuỗi thời gian. Thông thường để dự báo, người ta sử dụng một công cụ khá mạnh của thống kê là mô hình ARIMA. Mô hình này thích ứng hầu hết cho chuỗi thời gian dừng và tuyến tính. Trong mỗi bộ chương trình xử lý số liệu đều có một phần để dự báo chuỗi thời gian. Nhưng đối với các chuỗi số liệu phi tuyến, nhất là trong số liệu kinh tế, sử dụng mô hình ARIMA kém hiệu quả. Chính vì vậy phải có những phương pháp khác nhau để xử lý chuỗi số liệu phi tuyến. Đã có nhiều người sử dụng công cụ mạng nơ ron để xử lý tính chất phi tuyên của chuỗi số liệu. Đây là một hướng đi đã được nhiều người tiếp cận và đã có những sách chuyên khảo về vấn đề này thí dụ như cuốn của Mandic và Chambers “ Recurrent neural network and prediction” in vào năm 2001. Một hướng đi khác là sử dụng khái niệm mờ để đưa ra thuật ngữ “ Chuỗi thời gian mờ”. Phương pháp sử dụng chuỗi thời gian mờ đã được đưa ra từ năm 1994 và đến nay vẫn đang được tiếp tục nghiên cứu để làm tăng độ chính xác của dự báo. Trong đề tài này em trình bày phương pháp dự báo chỉ số chứng khoán bằng công cụ chuỗi thời gian mờ đã được một số tác giả phát triển. Tư tưởng chính của phương pháp là sử dụng một số khái niệm của Huarng và Chen, Hsu để phát triển thuật toán mới. Dựa trên thuật toán đề ra, em đã tính toán một bài toán thực tế dựa trên dữ liệu lấy từ thị trường chứng khoán Đài Loan để kiểm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 4 chứng. Kết quả thu được rất khả quan. Độ chính xác của dự báo được nâng lên khá nhiều so với các thuật toán trước đây đề ra. Nội dung chính của luận văn nghiên cứu những khái niệm, tính chất và những thuật toán khác nhau trong mô hình chuỗi thời gian mờ để dự báo cho một số chuỗi số trong kinh tế xã hội, được trình bày trong 3 chương: Chương 1: trình bày các kiến thức cơ bản về chuỗi thời gian. Chương 2: trình bày Lý thuyết tập mờ và chuỗi thời gian mờ. Chương 3: trình bày một số thuật toán cơ bản trong chuỗi thời gian mờ và một số thuật toán cải tiến. Luận văn này được hoàn thành dưới sự hướng dẫn tận tình của TS Nguyễn Công Điều, tác giả xin bày tỏ lòng biết ơn chân thành của mình đối với thầy. Tác giả xin chân thành cảm ơn các thầy giáo Viện công nghệ thông tin, khoa Công nghệ thông tin Đại học Thái Nguyên đã tham gia giảng dạy giúp đỡ em trong suốt qúa trình học tập nâng cao trình độ kiến thức. Tuy nhiên vì điều kiện thời gian và khả năng có hạn nên luận văn không thể tránh khỏi những thiếu sót. Tác giả rất mong các thầy cô giáo và bạn đóng góp ý kiến để đề tài được hoàn thiện hơn. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 5 CHƢƠNG 1 CÁC KIẾN THỨC CƠ BẢN VỀ CHUỖI THỜI GIAN Trong phần này, chúng ta sẽ tìm hiểu về một lớp mô hình chuỗi thời gian hết sức thông dụng trong thực tế. Đó là mô hình quy trình trượt ARMA(Autoregressive Moving Average). Ta sẽ nghiên cứu các đặc trưng của quá trình ARMA, xem xét tổng quan về phương pháp ước lượng tham số của lớp mô hình này và cũng thấy rõ được hạn chế của nó khi áp dụng vào chuỗi thời gian tài chính. Ngoài ra, mô hình ARMA còn đóng vai trò quan trong như là cơ sở để xây dựng mô hình ARCH sau này. 1. Chuỗi thời gian và quá trình ngẫu nhiên Trước khi đi vào chi tiết tìm hiểu về mô hình ARMA, ta sẽ nhắc lại một số khái niệm liên quan đến chuỗi thời gian và quá trình ngẫu nhiên. Dù là ta đi vào chi tiết mô hình gì đi chăng nữa thì các khái niệm cơ bản này vẫn sẽ theo chúng ta trong suốt quá trình nghiên cứu về chuỗi thời gian. 1.1. Khái niệm chuỗi thời gian và quá trình ngẫu nhiên Một chuỗi thời gian là một dãy các giá trị quan sát X:={x1, x2,……… xn} được xếp thứ tự diễn biến thời gian với x1 là các giá trị quan sát tại thời điểm đầu tiên, x2 là quan sát tại thời điểm thứ 2 và xn là quan sát tại thời điểm thứ n. Ví dụ: Các báo cáo tài chính mà ta thấy hằng ngày trên báo chí, tivi hay Internet về các chỉ số chứng khoán, tỷ giá tiền tệ, chỉ số tăng cường hay chỉ số tiêu dùng đều là những thể hiện rất thực tế của chuỗi thời gian. Bước đầu tiên của việc phân tích chuỗi thời gian là chọn một mô hình toán học phù hợp với tập dữ liệu cho trước X:={x1, x2,……… xn}nào đó. Để có thể nói về bản chất của những quan sát chưa diễn ra, ta giả thiết mỗi quan sát xt là một giá trị thể hiện của biến ngẫu nhiên Xt với tT. Ở đây T được gọi là tập chỉ số. Khi đó ta có thể coi tập dữ liệu X:={x1, x2,……… xn} là thể hiện của quá Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 6 trình ngẫu nhiên Xt, tT. Và vì vậy, ta có thể định nghĩa một quá trình ngẫu nhiên như sau Định nghĩa 1.1(Quá trình ngẫu nhiên) Một quá trình ngẫu nhiên là một họ các biến ngẫu nhiên  Xt, tT được định nghĩa trên một không gian xác suất(, ,). Chú ý: Trong việc phân tích chuỗi thời gian, tập chỉ số T là một tập các thời điểm, ví dụ như là tập {1,2..} hay tập (-,+). Tất nhiên cũng có những quá trình ngẫu nhiên có T không phải là một tập con của R nhưng trong giới hạn của luận văn này ta chỉ xét cho trường hợp TR. Và thường thì ta xem T là các tập các số nguyên, khi đó ta sẽ sử dụng ký hiệu tập chỉ số là Z thay vì T ở trên. Một điểm chú ý nữa là trong luận văn này chúng ta sẽ dùng thuật ngữ chuỗi thời gian để đồng thời chỉ dữ liệu cũng như quá trình có dữ liệu đó là một thể hiện. 1.2. Quá trình ngẫu nhiên dừng Định nghĩa 1.2 (Hàm tự hiệp phƣơng sai) Giả sử  Xt, t Z là một quá trình ngẫu nhiên có var(Xt)< với mỗi t Z. Khi đó hàm tự hiệp phương sai của Xt được định nghĩa theo công thức sau: )],sX)(rX[(),cov(:),( EsXErXEsXrXsrx  với r, s  Z. Định nghĩa 1.3 (Quá trình dừng) Chuỗi thời gian Xt, t Z được gọi là dừng nếu nó thoả mãn 3 điều kiện sau: - ZtE  ,X 2 t - ZtmE  ,X t - Zsrttstrsr xx  ,,),,(),(  Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 7 Định lý 1.1 Nếu  Xt, t Z là một quá trình dừng, và nếu như at  R, i Z thoả mãn điều kiện   i ia thì hệ thức ZtaY i it     ,X: i-t sẽ định nghĩa một quá dừng. Chú ý: Cũng có tài liệu gọi “dừng” theo nghĩa trên là dừng yếu, đừng theo nghĩa rộng hay dừng bậc hai. Tuy nhiên ở đây ta chỉ xem xét tính dừng theo nghĩa đã định nghĩa ở trên Khi chuỗi thời gian Xt, t Z là dừng thì ,,),0,(),( Zsrsrxsrxy   Và vì vậy, với một quá trình dừng thì có thể định nghĩa lại hàm tự hiệp phương sai bằng cách chỉ thông qua hàm một biến. Khi đó, với quá trình dừng Xt, t Z ta có: ZhttXht XCovhxhxy   ,),,()0,()(  Hàm số (.)xy được gọi là hàm tự hiệp phương sai của Xt, còn x(h)là giá trị của nó tại “trễ” h. Đối với một quá trình dừng thì ta thường ký hiệu hàm tự hiệp phương sai bởi (.) thay vì x(.). Với một quá trình dừng thì hàm hiệp phương sai có các tính chất (0)  0, (h)(0), hZ Và nó còn là một hàm chẵn nghĩa là: (h) = (-h),hZ. 1.3. Hàm tự tƣơng quan Định nghĩa 1.4 Hàm tự tương quan của quá trình ngẫu nhiên  Xt, t Z được định nghĩa tại trễ h như sau: (h): = (h)/(0):=corr(Xt+h,Xt), t, hZ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 8 Chú ý: Trong thực tế, ta chỉ quan sát được một thể hiện hữu hạn X:={xt, t = 1,2,…n}của một chuỗi thời gian đừng nên về nguyên tắc ta không thể biết chính xác được các hàm tự hiệp phương sai của chuỗi thời gian đó, muốn ước lượng nó ta đưa vào khái niệm hàm tự hiệp phương sai mẫu của thể hiện X. Hàm tự hiệp phương sai mẫu của một thể hiện X được định nghĩa bởi công thức nhx hj xx hn j jxnnhc      0),)( 1 (11:)( Và ,0),(:)(  hnhchc trong đó    n j jxnx 1 1 là trung bình mẫu. Khi đó thì hàm tương tự tương quan mẫu cũng định nghĩa thông qua hàm tự hiệp phương sai mẫu như sau: .),0(/)(:)( nhchchr  1.4. Toán tử tiến, toán tử lùi Toán tử lùi B kết hợp với một quá trình ngẫu nhiên  Xt, t Z là quá trình ngẫu nhiên  Yt, t Z sao cho 1::  ttt XBXY Toán tử lìu B là toán tử tuyến tính va khả nghịch. Nghịch đảo của nó B -1:=F được gọi là toán tử tiến, định nghĩa bởi công thức: FXt :=Xt+1 Các toán tử B, F thoả mãn hệ thức B n Xt = Xt-n, F n Xt :=Xt+n Và i-t X 0 tX 0           n i ia n i iBia Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 9 Chú ý: Một cách tổng quát, người ta có thể định nghĩa các chuỗi theo toán tử tiến F hay toán tử lùi b và muốn thế chúng ta hạn chế trong trường hợp các quá trình là dừng. Khi đó, giả sử ta có quá trình dừng  Xt, t Z và một dãy {ai ,iZ tuyệt đối khả tổng, tức là   i i a , thì định lý 1.1, quá trình ZtXaY it i it      ,: cũng là quá trình dừng. Ta ký hiệu i i i Ba   là ánh xạ đặt tương ứng quá trình dừng  Xt, t Z với quá trình dừng  Yt, t Z. Các chuỗi theo B khi đó sẽ có những tính chất cho phép ta xử lý nó tương tự như đối với chuỗi nguyên thông thường. Đặc biệt ta có thể thực hiện phép cộng, phép nhân hay phép lấy nghịch đảo. Điều này có vai trò quan trọng trong các phép biến đổi của đa thức tự hồi quy, đa thức trung bình trượt và các phép biến đổi xử lý chuỗi thời gian khác. 2. Quá trình ARMA 2.1. Quá trình tự hồi quy Định nghĩa 1.5 (Quá trình ồn trắng) Quá trình ngẫu nhiên t tZ được gọi là một ồn trắng, ký hiệu WN(0,2), khi nó thoả mãn các điều kiện sau: Ets = 0 (t s) 22  tE ttE  ,0 Định nghĩa 1.6 (Quá trình tự hồi quy) Người ta gọi quá trình ngẫu nhiên  Xt, t Z là một quá trình tự hồi quy cấp P, viết là Xt  AR(p), là một quá trình dừng {Xt, tZ} thoả mãn 0,p-tX...2211      patpat Xa t XatX  . Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 10 với {} là một ồn trắng. Ta có thể viết biểu thức của quá trình tự hồi quy ở trên bởi công thức ,0,p-tX....2211      patpat Xa t XatX  Hay ở dạng toán tử ở đây a(z) được gọi là đa thức hồi quy. Chú ý: Nếu đa thức a(z) ở trên có nghiệm nằm ngoài đĩa tròn đơn vị )1( z thì Xt được gọi là quá trình nhân quả tự hồi qui cấp p và nói chung ta chỉ xét các quá trình nhân quả. Các đặc trưng của quá trình tự hồi quy cấp p: - E(Xt) = 0 -    p t i ia 1 2|)()0(  - 0,0)( 1 )(    hih p i iah  Lần lượt cho h = 1,2,….p ta được                p p a a a a 1 2 1 =                  )( )1( ...... )2( )1( p p     Hệ phương trình gọi là hệ phương trình Jule – Walker, song tuyến đối với a và . 1 (1) …. (p-2) (p-1) (1) 1 …. (p-3) (p-1) …. …. …. …... ….. (p-2)…. (p-3) 1 (1) (p-1) (p-2) (1) 1 p zpazazaza