Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng cuả việc nắm bắt và xử lí thông tin. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và tiềm ẩn nhiều thông tin có ích.
11 trang |
Chia sẻ: vietpd | Lượt xem: 1484 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Sự cần thiết của quy trình nghiên cứu quy trình khám phá tri thức –khai phá dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng cuả việc nắm bắt và xử lí thông tin. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là phải có những kĩ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô đọng và có ích. Khám phá tri thức – Khai phá dữ liệu ra đời như một kết quả tất yếu đáp ứng các nhu cầu đó.
SỰ CẦN THIẾT CỦA QUY TRÌNH NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC –KHAI PHÁ DỮ LIỆU.
Hiện nay trên thế giới Khám phá tri thức – Khai phá giữ liệu đã và đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực khác nhau như : y tế , marketing , ngân hàng , viễn thông, internet…, ở Việt nam hiện thuật ngữ Khám phá tri thức – Khai phá dữ liệu đang còn rất là mới mẻ, vì vậy việc đầu tư nghiên cứu một cách tỷ mỷ nhằm nắm rõ được bản chất của kỹ thuật Khám phá tri thức là gì, các bước chính trong quy trình khám phá tri thức được thực hiện như thế nào, thực chất của việc khai phá dữ liệu cũng như các giải thuật cúa nó là rất cần thiết đối với các nhà phát triển công nghệ thông tin Việt.
MỤC ĐÍCH NGHIÊN CỨU CỦA ĐỀ TÀI.
Vì kỹ thuật Khám phá tri thức – Khai phá dữ liệu là một lĩnh vực mới, do đó mục đích của đề tài là nghiên cứu một cách tổng quan quy trình Khám phá tri thức – Khai phá dữ liệu, từ đó có thể nắm bắt được những luận điểm, giải thuật cơ bản nhất của kỹ thuật này làm tiền đề cho việc nghiên cứu phát triển các ứng dụng cụ thể nào đó.
PHẠM VI NGHIÊN CỨU CỦA ĐỀ TÀI.
Đề tài chỉ dừng ở phạm vi nghiên cứu các bước cơ bản nhất của quy trình Khám phá tri thức, áp dụng vào việc phân tích CSDL chuỗi thời gian mà cụ thể là CSDL của thị trường chứng khoán. Giới thiệu kỹ thuật làm sạch giữ liệu bằng việc áp dụng phương pháp trung bình trượt hàm mũ, đồng thời đưa ra thuật toán phân loại trạng thái của hệ thống “nhiễu loạn” dựa trên cặp chỉ số xu hướng.
QUY TRÌNH KHÁM PHÁ TRI THỨC
CÁC KHAI NIỆM
Khám phá tri thức - Knowledge Discovery: Khám phá tri thức trong CSDL là một quá trình gồm một loạt các bước phân tích dữ liệu nhằm rút ra được các thông tin có ích, xác định được các giá trị, quy luật tiềm ẩn trong các khuân mẫu hoặc mô hình dữ liệu.
Khai phá dữ liệu – Data Minning: Khai phá dữ liệu là một bước trong quá trình Khám phá tri thức bao gồm các thuật toán Khai phá đặc biệt nằm trong giới hạn khả năng của máy tính để tìm ra các mẫu, mô hình dữ liệu hoặc các thông tin có ích.
CÁC GIAI ĐOẠN CỦA QUY TRÌNH KHÁM PHÁ TRI THỨC.
Tỡm hiểu lĩnh vực ứng dụng
Thu thập và tiền xử lý dữ liệu
Khai phỏ trớch rỳt tri thức
Phân tích và kiểm định kết quả
Sử dụng tri thức phát hiện được
CSDL
Dữ liệu đó được tiền xử lý
Cỏc mẫu / mụ hỡnh
Trực quan húa dữ liệu
Có thể tổng quát hóa các giai đoạn của quy trình khám phá tri thức trên hính vè sau (Hình 2.1)
Hình 2.1: Các giai đoạn của quá trình khám phá tri thức
NHIỆM VỤ CỦA QUÁ TRÌNH KHÁM PHÁ TRI THỨC
Trên thực tế mỗi giai đoạn của quá trình khám phá tri thức là rất phức tạp. Để hiểu rõ hơn quá trình Khám phá tri thức cần phải làm những việc gì, chúng ta hãy xem xét những nhiệm vụ mà một quá trình Khám phá tri thức sẽ thực hiện qua hình sau (Hình 2.2):
Hình 2.2: Các nhiệm vụ của quá trình Khám phá tri thức
Dữ liệu
(1)
Lựa chọn dữ liệu
(2)
Tiền xử lý dữ liệu
(3)
Biến đổi dữ liệu
(4)
Khai phá dữ liệu
(5)
Biểu diễn/ Đánh giá tri thức
Dữ liệu đích
Dữ liệu đã được tiền xử lý
Dữ liệu đã được chuyển đổi
Các mẫu, mô hình
Tri thức
Rõ ràng, nhiệm vụ của quá trình Khám phá tri thức là rất nặng nề và liên quan đến nhiều vấn đề khác nhau nếu như lĩnh vực ứng dụng hay bài toán đặt ra được xác định trên các tập dữ liệu lớn như kho dữ liệu, CSDL, ... cụ thể, thì một quy trình Khám phá tri thức (kết hợp cả việc Khai phá dữ liệu) có thể được thực hiện theo 5 bước như hình sau (Hình 3.2):
Hình 2.3 Quy trình Khám phá tri thức
ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL CHỨNG KHOÁN (CSDL CHUỖI THỜI GIAN)
CÁC ĐỊNH NGHĨA.
a. CSDL chuỗi thời gian - Time Series DataBase (TSDB): Cơ sở dữ liệu chuỗi thời gian là một tập hợp các bản ghi , trong đó mỗi một bản ghi chứa một tập các thuộc tính và giá trị thời gian . Mỗi một thuộc tính có thể nhận giá trị thực hoặc giá trị rời rạc và có hoặc không có mối liên hệ với giá trị thời gian. Nếu thuộc tính có mối liên hệ với giá trị thời gian thì nó được gọi là thuộc tính động, trong trong trường hợp ngược lại thì được gọi là thuộc tính tĩnh. Còn giá trị thời gian được đưa ra trên thang chia thời gian ứng với mỗi khoảng thời gian, ví dụ như là phút, ngày, tháng, năm.
b. Hàm thuộc tính: đó là hàm của thời gian mà các phần tử của nó là các giá trị của thuộc tính trong bản ghi, ký hiệu là .
(3.1)
Trong đó – là thuộc tính theo thời gian với khoảng (Interval) thời gian ; – là bản ghi thứ trong CSDL chuỗi thời gian với interval thời gian ; – là nhãn thời gian tương ứng với bản ghi đó. Nếu như hàm thuộc tính có thể được sấp xỉ cũng bởi một hàm thời gian khác trên khoảng thời gian thì người ta nói rằng và các tham số của nó chính là đặc tínhg của trên khoảng thời gian . Ví dụ, nếu trên một khoảng thời gian nào đó, thì có thể nói rằng trong khoảng thời gian đó hàm có độ lệch , ở đây độ lệch chính là đặc tính được rút ra từ trên một khoảng thời gian nào đó.
ĐẶC ĐIỂM CỦA THỊ TRƯỜNG CHỨNG KHOÁN.
Đây là một dạng điển hình của cơ sở dữ liệu chuỗi thời gian.
Hệ thống phân tích là một hệ thống “nhiễu loạn”, bởi giá trị của chỉ số chứng khoán chịu ảnh hưởng của rất nhiều yếu tố ngẫu nhiên, không xác đinh.
Các thông tin có ích phản ánh sự biến đổi của xu hướng của các chỉ số chứng khoán không thể hiện dưới dạng dữ liệu tường minh, mà nó tồn tại dưới dạng phi cấu trúc trong các trạng thái tự do của hệ thống. Không gian giữ liệu cần phân tích là rất lớn, không đầy đủ và nhiều “nhiễu” .
Sự biến đổi xu hướng của chỉ số chứng khoán không chỉ được phản ánh trong giá trị của giá đóng (Close), mà nó còn được thể hiện ở sự trênh lệch giữa giá đóng, giá Max (Hight) và giá Min(Low) so với giá mở (Open).
TIỀN XỬ LÝ DỮ LIỆU CHUỖI THỜI GIAN
Thực chất của quá trình tiền xử lý dữ liệu chính là lọc dữ liệu nhằm nhận được các dữ liệu “sạch” với càng ít các nhiễu hay tạp chất càng tốt. Giả sử dữ liệu thô bao gồm tín hiệu của xu hướng dài hạn và nhiễu , tức là :
(3.2)
Thủ thuật làm sạch thực chất là tìm ra là sấp xỉ gần đúng của . Để làm được điều đó chúng ta phải phân biệt được và . Người ta thường sử dụng thủ thuật lọc tần số thấp (Low Pass Filter - LPF) để làm sạch dữ liệu. Có rất nhiều phương pháp lọc tần số thấp trong lĩnh vực thời gian và tần số, như: phương pháp trung bình trượt đơn giản, trung bình trượt có trọng số … Đại đa số các nhà phân tích hiện nay lựa chọn phương pháp làm trơn hàm mũ, mà thực chất là việc tìm trung bình trượt hàm mũ EMA (Exponential Moving Average) với công thức hồi quy như sau:
(3.3)
Với, được gọi là hằng số làm trơn (hay trọng số), là giá trị cần làm trơn tại thời điểm , là giá trị đã làm trơn ở thời điểm , là dữ liệu thô tại thời điểm . Trong bài toán chúng ta sẽ chọn. Và ta có thể chuyển về công thức lọc dữ liệu cụ thể như sau:
(3.4)
Ở đây: là giá đóng tại thời điểm , là giá trị trung bình trượt số mũ tại thời điểm , là giá trị trung bình trượt số mũ tại thời điểm .
Khi áp dụng phương pháp này vào thì trường FOREX, ta nhận được kết quả như hình 3.1:
Hình 3.1: Trung bình trượt hàm mũ
CHỈ SỐ XU HƯỚNG TỔNG QUÁT.
Sự thay đổi giá của thị trường chứng khoán được diễn ra dưới dạng các xu hướng, mà đặc tính của xu hướng lại được xác định bởi rất nhiều các yếu tố. Có rất nhiều các yếu tố khác nhau tác động lên sự dịch chuyển của gía chứng khoán. Do đó, tại thời điểm xuất hiện xu hướng thì nguyên nhân xuất hiện của nó hầu hết là không rõ ràng.
Giả sử - là hàm thuộc tính ứng với giá đóng của chỉ số chứng khoán thứ trong chu kỳ trên interval . Còn (, ) – là sấp xỉ gần đúng của nó dưới dạng các trung bình trượt hàm mũ với các chu kỳ T=8 (13, 55). Còn (, ) – là đặc tính của hàm thuộc tính, được định nghĩa giống như góc lệch của hàm sấp xỉ (giá trị đạo hàm). Khi đó chỉ số xu hướng tổng quát sẽ được tính theo công thức sau:
(3.5)
Nếu chỉ sử dụng một chỉ số I(t) thì sẽ rất khó khăn cho việc Khai phá dữ liệu, bởi I(t) mới chỉ được biểu diễn trên không gian một chiều, khó áp dụng cho việc tích lũy thống kê. Mặt khác, lại thấy I(t) cũng là tín hiệu biến đổi theo thời gian, nên ta có thể tiếp tục làm trơn tín hiệu này bằng phương pháp trung bình trượt hàm mũ lần nữa. Tuy nhiên, lúc này chỉ áp dụng với một tiết diện thời gian phù hợp, trong trường hợp này ta chọn interval=5 phút bởi vì đặc tính của thị trường FOREX các phiên giao dịch được thực hiện theo phút do đó khoảng thời gian 5 phút là một khoảng thời gian phù hợp.
Giả sử (, ) – là trung bình trượt hàm mũ ứng với T=8 (13, 55), còn (, ) – là độ lệch của nó. Khi đó ta sẽ thiết lập được chỉ số xu hướng của chính I(t) như sau:
(3.6)
PHÂN LOẠI TRẠNG THÁI CỦA HỆ THỐNG NHIỄU LOẠN – TÍCH LŨY THÔNG TIN THỐNG KÊ.
Từ công thức 3.5 và 3.6 ta thấy , còn , như vậy nếu chia các miền giá trị của , lần lượt thành và đoạn bằng nhàu và biểu diễn chúng trên hệ tọa độ 2 chiều , khi đó ta sẽ nhận được cặp tọa độ, và ta coi mỗi cặp tọa độ đó là một trạng thái chuẩn của hệ thống. Rõ ràng là với việc tạo ra cặp chỉ số xu hướng và ta đã chuyển được không gian trạng thái của hệ thống từ vô hạn về hữu hạn, mỗi một trạng thái tự do của hệ thống sẽ được đặc chưng bởi cặp giá trị . Và khi đó ta sẽ phân tất cả các trạng thái tự do của hệ thống được bao bởi 4 trạng thái chuẩn gần chúng nhất vào một nhóm, sau đó tiến hành tích lũy thông tin có ích của chúng vào các trạng thái chuẩn với việc sử dụng hệ số tích lũy , ở đây hệ số chính là đặc chưng về mặt định lượng cho vị trí tương đối của trạng thái tự do so với trạng thái chuẩn , hệ số được tính toán theo công thức sau:
(3.7)
Trong đó, thang chia đối với miền gián trị của , còn là thang chia đối với miền giá trị của . Khi đó ta có thể thực hiện việc tích lũy thông tin thống kê theo công thức sau:
(3.8)
Trong đó, - là thông tin tích lũy của trạng thái chuẩn tại thời điểm , - là thông tin tích lũy của trạng thái chuẩn tại thời điểm , là hệ số tích lũy của trạng thái tự do tương ứng với trạng thái chuẩn , còn là thông tin có ích cần tích lũy, chẳng hạn như độ trênh lệch của giá đóng tại thời điểm so với thời điểm , nghĩa là , hoặc là độ lệch của giá đóng tại thời điểm so với giá mở ở thời điểm …vvv. Và ta có sơ đồ thuật toán sau:
Hình 3.2. Sơ đồ thuật toán tích lũy thông tin thống kê
DỰ BÁO TRẠNG THÁI CỦA HỆ THỐNG.
Sau khi đã thực hiện phân loại và tích lũy thông tin thống kê với một không gian dữ liệu đủ lớn, thì tại một thời điểm nào đó khi ta xác định được giá trị của cặp chỉ số , ta có thể dự báo trạng thái của hệ thống này sau khoảng thời gian dựa trên thông tin tích lũy của 4 trạng thái chuẩn bao quanh - , dựa trên công thức sau:
(3.9)
Dưới đây là sơ đồ thuật toán cho việc xây dựng trạng thái tự do của hệ thống:
Hình 3.3. Sơ đồ thuật toán dự báo trạng thái của hệ thống nhiễu loạn
Như vậy, với việc sử dụng cặp chỉ số ta đã tìm được một giải pháp phân loại trạng thái cho hệ thống “nhiễu loạn” cụ thể ở đây là thị trường chứng khoán, từ đó ta tiến hành tích lũy thông tin thống kê vào các trạng thái chuẩn, sau đó sử dụng bài toán ngược để xây dựng các trạng thái tự do của hệ thống tại một thời điểm nào đó trong tương lai khi biết được giá trị của cặp chỉ số . Đây chính là giai đoạn khai phá dữ liệu, tri thức mà chúng ta nhận được chính là các các thông tin có ích được tích lũy trong không gian trạng thái chuẩn của hệ thống.
KẾT QUẢ ĐẠT ĐƯỢC CỦA LUẬN VĂN.
Luận văn đã trình bày những vấn đề cơ bản nhất về khám phá tri thức và khai phá dữ liệu, nghiên cứu những bước cơ bản của một quy trình Khám phá tri thức.
Trong luận văn cũng giới thiệu những khái niệm về cơ sở dữ liệu chuỗi thời gian.
Phân tích và đưa ra một phương pháp hiệu quả cho công đoạn làm sạch dữ liệu chuỗi thời gian mà thực chất của nó là việc sử dụng phương pháp trung bình trượt hàm mũ để loại bỏ các “nhiễu” trong cở sở dữ liệu.
Luận văn cũng giới thiệu một phương pháp mới cho việc phân loại trạng thái và tích lũy thông tin thống kê bằng việc tạo ra cặp chỉ số xu hướng và .
Đưa ra thuật toán dự báo trạng thái của hệ thống “nhiễu loạn” dựa trên các thông tin thống kê đã được tích lũy khi xác định được giá trị của cặp chỉ số xu hướng và .
Áp dụng các kết quả nghiên cứu để phân tích cơ sở dữ liệu của thị trường FOREX.
HƯỚNG NGHIÊN CỨU TIẾP THEO.
Hiện nay Khai phá dữ liệu - Khám phá tri thức trong các hệ CSDL lớn và các bài toán về CSDL thời gian là những vấn đề đang được nhiều nhà khoa học tập trung nghiên cứu bởi các kết quả của nó rất có giá trị để ứng dụng trong nhiều lĩnh vực, nhất là trong các lĩnh vực kinh doanh và các lĩnh vực khoa học mang tính thời đại. Trong luận văn mới chỉ nghiên cứu tìm hiểu một cách cơ bản nhất quy trình khám phá tri thức – khai phá dữ liệu, cũng như đề cập đến một phương án cụ thể có thể áp dụng vào công đoạn khai phá dữ liệu. Vì vậy, trong thời gian tới tôi sẽ tập chung nghiên cứu một cách tổng thể về CSDL thời gian, xem xét các hướng tiếp cận mới đối với CSDL chuỗi thời gian, tìm hiểu và nghiên cứu rộng hơn nữa về các giải pháp khai phá dữ liệu, đặc biệt là trong vấn đề dự báo. Từ đó góp phần phát triển một hướng mới trong ngành công nghệ thông tin nước nhà đó là Khám phá tri thức – Khai phá dữ liệu.