Khóa luận Một số phương pháp khai phá dữ liệu quan hệ trong tài chính và chứng khoán

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Ngọc Thiệp  
MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU  
QUAN HỆ TRONG TÀI CHÍNH  
VÀ CHỨNG KHOÁN  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI – 2010  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Ngọc Thiệp  
MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU  
QUAN HỆ TRONG TÀI CHÍNH VÀ  
CHỨNG KHOÁN (MÔ HÌNH ARIMA )  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
Cán bộ hƣớng dẫn : PGS-TS. Hà Quang Thụy  
Cán bộ đồng hƣớng dẫn : ThS. Trần Thị Oanh  
HÀ NỘI - 2010  
LỜI CẢM ƠN  
Lời đầu tiên, em xin bày tỏ long biết ơn tới các thầy, cô giáo trong trƣờng Đại  
học Công Nghệ - Đại học Quốc Gia Hà nội. Các thầy cô đã dạy bảo, chỉ dẫn em và  
luôn tạo điều kiện tốt nhất cho chúng em học tập trong suốt quá trình học đại học đặc  
biệt là trong thời gian làm khóa luận tốt nghiệp.  
Em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo PGS.TS Hà Quang Thụy cùng cô  
giáo ThS Trần Thị Oanh, và các anh chị trong phòng LAB 102 đã hƣớng dẫn em tận  
tình trong năm học vừa qua.  
Tôi cũng xin cảm ơn những ngƣời bạn của mình, các bạn đã luôn bên tôi, giúp đỡ  
và cho tôi những ý kiến đóng góp quý báu trong học tập cũng nhƣ trong cuộc sống.  
Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm  
yêu thƣơng nhất.  
Hà Nội, ngày 10/05/2010  
Nguyễn Ngọc Thiệp  
TÓM TẮT NỘI DUNG  
Bài toán dự báo tài chính ngày càng đƣợc nhiều ngƣời quan tâm trong bối cảnh  
phát triển kinh tế xã hội. Đầu tƣ vào thị trƣờng chứng khoán đòi hỏi nhiều kinh  
nghiệm và hiểu biết của các nhà đầu tƣ. Các kĩ thuật khai phá dữ liệu đƣợc áp dụng  
nhằm dự báo sự lên xuống của thị trƣờng là một gợi ý giúp các nhà đầu tƣ có thể ra  
quyết định giao dịch.  
Mô hình ARIMA đƣợc xây dựng với chức năng nhận dạng mô hình, ƣớc lƣợng  
các tham số và đƣa ra kết quả dự báo dựa trên các tham số ƣớc lƣợng đã đƣợc lựa chọn  
một cách tối ƣu.  
Khóa luận nghiên cứu mô hình ARIMA vào bài toán khai phá dữ liệu chuỗi thời  
gian trong dự báo tài chính, chứng khoán. Hệ thống công cụ Eviews đã đƣợc sử dụng  
để thi hành mô hình ARIMA đối với dữ liệu chứng khoán của công ty cổ phần Thủy  
sản Mekong. Khóa luận đã tiến hành thử nghiệm, kết quả thực nghiệm cho thấy việc  
nghiên cứu, áp dụng là có cơ sở.  
MỤC LỤC  
Chƣơng 1. GIỚI THIỆU CHUNG  
DANH MỤC HÌNH VẼ  
CHƢƠNG 1. GIỚI THIỆU CHUNG  
1.1. Bài toán dự báo  
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin  
trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa  
với lƣợng dữ liệu đã đƣợc các cơ quan thu thập và lƣu trữ ngày một tích lũy nhiều lên.  
Họ lƣu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó.  
Tuy nhiên, theo thống kê thì chỉ có một lƣợng nhỏ của những dữ liệu này (khoảng từ  
5% đến 10% ) là luôn đƣợc phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có  
thể làm gì với chúng nhƣng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng  
sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi  
trƣờng cạnh tranh, ngƣời ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ  
giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần  
phải trả lời dựa trên một khối lƣợng dữ liệu khổng lồ đã có. Với những lý do nhƣ vậy,  
các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp  
ứng đƣợc thực tế đã làm phát triển một khuynh hƣớng kỹ thuật mới đó là kỹ thuật phát  
hiện tri thức và khai phá dữ liệu (KDD – Knowledge Discovery and Data Mining).  
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang đƣợc nghiên cứu, ứng  
dụng trong nhiều lĩnh vực khác nhau ở các nƣớc trên thế giới, tại Việt Nam kỹ thuật  
này tƣơng đối còn mới mẻ tuy nhiên cũng đang đƣợc nghiên cứu và dần đƣa vào ứng  
dụng.  
Nhƣ trình bày trong [2, 3], kỹ thuật dự báo đã hình thành từ thế kỉ thứ 19, tuy  
nhiên dự báo có ảnh hƣởng mạnh mẽ khi công nghệ thông tin phát triển vì bản chất mô  
phỏng của các phƣơng pháp dự báo rất cần thiết sự hỗ trợ của máy tính. Đến năm  
những 1950, các lý thuyết về dự báo cùng với các phƣơng pháp luận đƣợc xây dựng và  
phát triển có hệ thống.  
Dự báo là một nhu cầu không thể thiếu cho những hoạt động của con ngƣời trong  
bối cảnh bùng nổ thông tin. Dự báo sẽ cung cấp những cơ sở cần thiết cho các hoạch  
định, và có thể nói rằng nếu không có khoa học dự báo thì những dự định tƣơng lai của  
con ngƣời vạch ra sẽ không có sự thuyết phục đáng kể.  
Trong công tác phân tích dự báo, vấn đề quan trọng hàng đầu cần đặt ra là việc  
nắm bắt tối đa thông tin về lĩnh vực dự báo. Thông tin ở đây có thể hiểu một cách cụ  
thể gồm : (1) các số liệu quá khứ của lĩnh vực dự báo, (2) diễn biến tình hình hiện  
trạng cũng nhƣ động thái phát triển của lĩnh vực dự báo và (3) đánh giá một cách đầy  
đủ nhất các nhân tố ảnh hƣởng cả về định lƣợng lẫn định tính.  
1
   
Căn cứ vào nội dung phƣơng pháp và mục đích của dự báo, ngƣời ta chia dự báo  
thành hai loại: Phƣơng pháp định tính và phƣơng pháp định lƣợng.  
Phƣơng pháp định tính thƣờng phụ thuộc rất nhiều vào kinh nghiệm của  
một hay nhiều chuyên gia trong lĩnh vực liên quan. Phƣơng pháp này  
thƣờng đƣợc áp dụng, kết quả dự báo sẽ đƣợc các chuyên gia trong lĩnh  
vực liên quan nhận xét, đánh giá và đƣa ra kết luận cuối.  
Phƣơng pháp định lƣợng sử dụng những dữ liệu quá khứ theo thời gian,  
dựa trên dữ liệu lịch sử để phát hiện chiều hƣớng vận động của đối tƣợng  
phù hợp với một mô hình toán học nào đó và đồng thời sử dụng mô hình  
đó làm mô hình ƣớc lƣợng. Tiếp cận định lƣợng dựa trên giả định rằng giá  
trị tƣơng lai của biến số dự báo sẽ phụ thuộc vào xu thế vận động của đối  
tƣợng đó trong quá khứ. Phƣơng pháp dự báo theo chuỗi thời gian là một  
phƣơng pháp định lƣợng.  
Phƣơng pháp chuỗi thời gian sẽ dựa trên việc phân tích chuỗi quan sát của  
một biến duy nhất theo biến số độc lập là thời gian. Giả định chủ yếu là  
biến số dự báo sẽ giữ nguyên chiều hƣớng phát triển đã xảy ra trong quá  
khứ và hiện tại.  
Căn cứ theo thời gian dự báo, ngƣời ta chia dự báo làm 3 loại:  
Dự báo ngắn hạn : Thời gian dự báo ít hơn 3 tháng ( Mô hình ARIMA khá  
phù hợp với loại dự báo ngắn hạn).  
Dự báo trung hạn : Thời gian dự báo từ 3 tháng đến 3 năm  
Dự báo dài hạn : Thời gian dự báo lớn hơn 3 m.  
Khóa luận tập trung nghiên cứu mô hình ARIMA để thực hiện phân tích dữ liệu  
chứng khoán hƣớng tới việc dự báo chứng khoán. Mô hình ARIMA (AutoRegressive  
Integrate Moving Average) do Box-Jenkins đề nghị năm 1976 [5, 11, 13], dựa trên mô  
hình tự hồi quy AR và mô hình trung bình động MA. ARIMA là mô hình dự báo định  
lƣợng theo thời gian, giá trị tƣơng lai của biến số dự báo sẽ phụ thuộc vào xu thế vận  
động của đối tƣợng đó trong quá khứ. Mô hình ARIMA phân tích tính tƣơng quan  
giữa các dữ liệu quan sát để đƣa ra mô hình dự báo thông qua các giai đoạn nhận dạng  
mô hình, ƣớc lƣợng các tham số từ dữ liệu quan sát và kiểm tra các tham số ƣớc lƣợng  
để tìm ra mô hình thích hợp. Mô hình kết quả của quá trình trên gồm các tham số thể  
hiện mức độ tƣơng quan trên dữ liệu, và đƣợc chọn để dự báo giá trị tƣơng lai.  
2
1.2. Dữ liệu chuỗi thời gian  
Trong các bài toán dự báo nói chung và các bài toán dự báo tài chính và chứng  
khoán nói riêng, dữ liệu thƣờng đƣợc biểu diễn dƣới dạng chuỗi thời gian. Trong các  
dạng dữ liệu đƣợc phân tích thì dữ liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ  
biến. Các bảng thống kê thăm dò về các kiểu dữ liệu đƣợc phân tích trong 4 năm 2005-  
20081 (Hình 1) là một minh chứng về điều này.  
Hình 1.Chuỗi thời gian là kiểu dữ liệu đƣợc phân tích phổ biến  
1 http://www.kdnuggets.com/  
3
   
1.2.1. Khái niệm chuỗi thời gian thực  
Theo [12, 15], dữ liệu thời gian thực hay chuỗi thời gian là một chuỗi các giá trị  
của một đại lƣợng nào đó đƣợc ghi nhận là thời gian.  
Ví dụ :  
Chỉ số chứng khoán giá mở cửa của công ty X trên thị trƣờng chứng  
khoán hàng ngày.  
Các giá trị của chuỗi thời gian của đại lƣợng X đƣợc kí hiệu là X1, X2,  
X3,…, Xt,… , Xn với X là giá trị của X tại thời điểm t.  
1.2.2. Chuỗi thời gian dừng  
Chuỗi thời gian đƣợc coi là dừng nếu nhƣ trung bình và phƣơng sai của nó không  
đổi theo thời gian và giá trị của đồng phƣơng sai giữa hai thời đoạn chỉ phụ thuộc vào  
khoảng cách và độ trễ về thời gian giữa hai thời đoạn này chứ không phụ thuộc vào  
thời điểm thực tế mà đồng phƣơng sai đƣợc tính.  
Trung bình :  
Phƣơng sai :  
E(Yt) =  
Var(Yt) = E(Yt - )2 = 2  
Đồng phƣơng sai : k = E[(Yt- )( Yt+k- )]  
Giả sử dịch chuyển chuỗi Y ban đầu từ Yt đên Yt+m và nếu Yt là dừng, thì trung  
bình, phƣơng sai và các tự đồng phƣơng sai của Yt+m phải đúng bằng trung bình,  
phƣơng sai và các tự đồng phƣơng sai của Yt. Tóm lại, nếu một chuỗi thời gian là  
dừng thì trung bình, phƣơng sai và tự đồng phƣơng sai (tại các độ trễ khác nhau) sẽ  
giữ nguyên không đổi dù cho chúng đƣợc xác định vào thời điểm nào.  
1.2.3. Các thành phần của dữ liệu chuỗi thời gian thực  
Các nhà thống kê thƣng chia chui theo thời gian thành 4 thành phần:  
Thành phần xu hƣớng dài hạn (long –term trend component)  
Thành phần mùa (seasional component)  
Thành phần chu kỳ (cyclical component)  
Thành phần bất thƣờng (irregular component)  
Thành phần xu hƣớng dài hạn  
Thành phần này dùng để chỉ xu hƣớng tăng hay giảm của đại lƣợng X trong thời  
gian dài. Về mặt đồ thị thành phần này có thể biểu diễn bởi một đƣờng thẳng hay một  
đƣờng cong trơn.  
4
   
Hình 2. Xu hƣớng tăng theo thời gian [12]  
Thành phần mùa  
Thành phần này dùng để chỉ xu hƣớng tăng hay giảm của đại lƣợng X tính theo  
mùa trong năm (có thể tính theo tháng trong năm)  
Ví dụ :  
Giá bán hàng của công ty máy tính sẽ tăng vào mùa khai giảng năm học  
mới.  
Lƣợng tiêu thụ bia sẽ tăng mạnh vào mùa hè, giảm vào mùa đông  
Thay đổi theo mùa  
Xu hƣớng tăng theo thời gian  
Hình 3. Thành phần mùa [1]  
5
   
Thành phần chu kỳ  
Thành phần này chỉ sự thay đổi của đại lƣợng X theo chu kỳ. Thành phần này  
khác thành phần mùa ở chỗ chu kỳ của đại lƣợng X kéo dài hơn 1 năm. Để đánh giá  
thành phần này các giá trị của chuỗi thời gian đƣợc quan sát hàng năm.  
Ví dụ, Lƣợng dòng chảy đến hồ Trị An từ năm 1959 – 1985  
Q(m3/s)  
1985  
t (năm)  
1959  
1960  
Hình 4. Thành phần chu kỳ [1]  
Thành phần bất thƣờng  
Thành phần này dùng để chỉ sự thay đổi bất thƣờng của các giá trị trong chuỗi  
thời gian. Sự thay đổi này không thể dự đoán bằng các số liệu kinh nghiệm trong quá  
khứ, về mặt bản chất thành phần này không có tính chu kỳ.  
Tóm tắt chƣơng 1  
Chƣơng này giới thiệu qua về bài toán dự báo, cho thấy sự cần thiết của việc phát  
triển các mô hình dự báo cùng các khái niệm cơ bản về chuỗi thời gian, chuỗi thời gian  
dừng (ổn định) các thành phần trong chuỗi thời gian: (1) thành phần xu hƣớng dài hạn,  
(2) thành phần mùa, (3) thành phần chu kỳ, (4) thành phần bất thƣờng.  
6
       
CHƢƠNG 2. MÔ HÌNH ARIMA VÀ PHẦN MỀM EVIEWS  
2.1. Mô hình ARIMA  
2.1.1. Hàm tự tƣơng quan ACF  
Hàm tự tƣơng quan đo lƣờng phụ thuộc tuyến tính giữa các cặp quan sát y(t) và  
y(t+k), ứng với thời đoạn k = 1, 2, …(k còn gọi là độ trễ). Với mỗi độ trễ k, hàm tự  
tƣơng quan tại độ trễ k đƣợc xác định qua độ lệch giữa các biến ngẫu nhiên Yt. Yt+k so  
với các giá trị trung bình, và đƣợc chuẩn hóa qua phƣơng sai.  
Dƣới đây, giả thiết rằng các biến ngẫu nhiên trong chuỗi dng thay đổi quanh giá  
trị trung bình  với phƣơng sai hằng s2. Hàm tự tƣơng quan tại các độ trễ khác nhau  
sẽ có giá trị khác nhau.  
Trong thực tế, ta có thể ƣớc lƣợng hàm tự tƣơng quan tại độ trễ thứ k qua phép  
biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các độ trễ k, với giá trị  
trung bình mẫu là , đƣợc chuẩn hóa bởi phƣơng sai 2.Chẳng hạn, cho mỗi chuỗi N  
điểm, giá trị rk của hàm tự tƣơng quan tại độ trễ thứ k đƣợc tính nhƣ sau :  
    
 =  
 
 
   
 
   
     
 +  
rk =  
(2.1)  
(2.2)  
vi  =  
=()  =  
=(  )  
 
 
yt : chuỗi thời gian dừng tại thời điểm t  
yt+k : chuỗi thời gian dừng tại thời điểm t +k  
 : giá trị trung bình của chuỗi dừng  
rk : giá trị tƣơng quan giữa yt và yt+k tại độ trễ k  
rk = 0 thì không có hiện tƣợng tự tƣơng quan  
Về mặt lý thuyết, chuỗi dừng khi tất cả các rk = 0 hay chỉ vài rk khác không. Do  
chúng ta xem xét hàm tự tƣơng quan mẫu, do đó sai số mẫu sẽ xuất hiện vì vậy, hiện  
tƣợng tự tƣơng quan khi rk = 0 theo ý nghĩa thống kê.  
Khi hàm tự tƣơng quan ACF giảm đột ngột, có nghĩa rk rất lớn ở độ trễ 1, 2 và có  
ý nghĩa thống kê (|t| >2). Những rk này đƣợc xem là những ―đỉnh‖ và ta nói rằng hàm  
7
     
tự tƣơng quan ACF giảm đột ngột sau độ trễ k nếu không có những ―đỉnh‖ ở độ trễ k  
lớn hơn k. Hầu hết hàm tự tƣơng quan ACF sẽ giảm đột ngột sau độ trễ 1, 2.  
Nếu hàm tự tƣơng quan ACF của chuỗi thời gian không dừng không giảm đột  
ngột mà trái lại giảm nhanh nhƣng đều : không có đỉnh, ta gọi chiều hƣớng này là ―tắt  
dần‖.  
Hình 5 a) dao động mũ tắt dần  
Hình 5 b) Dao động mũ tắt dần theo luật số mũ  
Hình 5 c) Dao động song tắt dần theo hình sin  
Hình 5. Ví dụ về chiều hƣớng giảm đều khác nhau [3]  
a) Dao động hàm mũ tắt dần (Damped Exponential)  
b) Dao động tắt dần theo quy luật số mũ (Damped exponential oscillation)  
c) Dao động sóng tắt dần theo quy luật hình sin (Damped sine wave)  
8
 
Xem minh họa trong hình 5, hàm tự tƣơng quan ACF có thể ―tắt dần‖ trong vài  
dạng sau :  
Dạng phân phối mẫu (hình 5a và hình 5b)  
Dạng sóng sin (hình 5c)  
Kết hợp cả hai dạng 1 và 2.  
Sự khác nhau giữa hiện tƣợng ―tắt dần‖ nhanh và ―tắt dần‖ chậm đều đƣợc phân  
biệt khá tự do, theo ngữ cảnh.  
2.1.2. Hàm tự tƣơng quan từng phần PACF  
Song song với việc xác định hàm tự tƣơng quan giữa các cặp y(t) và y(t+k), ta  
xác định hàm tự tƣơng quan từng phần cũng có hiệu lực trong việc can thiệp đến các  
quan sát y(t+1), ..., y(t+k-1). Hàm tự tƣơng quan từng phần tại độ trễ k Ckk đƣợc ƣớc  
lƣợng bằng hệ số liên hệ y(t) trong mối kết hợp tuyến tính bên dƣới. Sự kết hợp đƣợc  
tính dựa trên tầm ảnh hƣởng của y(t) và các giá trị trung gian y(t+k).  
y(t+k) = Ck1y(t+k-1) + Ck2y(t+k-2) + ... + Ckk-1y(t + 1) + Ckky(t) + e(t)  
(2.3)  
Giải phƣơng trình hồi quy dựa trên bình phƣơng tối thiểu vì hệ số hồi quy Ckj  
phải đƣợc tính ở mỗi độ trễ k, với j chạy từ 1 đến k.  
Giải pháp ít tốn kém hơn do Durbin [13] phát triển dùng để xấp xỉ đệ quy hệ số  
hồi quy cho mô hình ARIMA chuỗi dừng, sử dụng giá trị hàm tự tƣơng quan tại độ trễ  
k rk và hệ số hồi quy của độ trễ trƣớc. Dƣới đây là phƣơng pháp Durbin sử dụng cho 3  
độ trễ đầu tiên.  
Độ trễ 1 : Khởi tạo, giá trị của hàm tự tƣơng quan từng phần tại độ trễ 1 có cùng  
giá trị với hàm tự tƣơng quan tại độ trễ 1 vì không có trung gian giữa các quan sát kết  
tiếp : C11 = r1  
Độ trễ 2 : Hai giá trị C22 và C21 đƣợc tính dựa vào hàm tự tƣơng quan r2 và r1,  
cùng với hàm tự tƣơng quan từng phần trƣớc đó  
r22C11r1  
C22=  
1C11r1  
C21 = C11 C22C11  
Độ trễ 3 : Tƣơng tự, ba giá trị C33, C32, C31 đƣợc tính dựa vào các hàm tự tƣơng  
quan trƣớc r3,r2,r1 cùng với các hệ số đƣợc tính ở độ trễ thứ 2 : C22 và C21.  
9
 
r3C21r2C22r1  
1C22r2C21r1  
C33 =  
C32 = C21-C33C22  
C31 = C22- C33C21  
Tổng quan, hàm tự tƣơng quan từng phần đƣợc tính theo Durbin :  
 
r   (C  
 r  
k1,j kj  
k
Ckk =  
(2.4)  
 
1 (C  
)r  
k1,j  
j
Trong đó :  
rk : Hàm tự tƣơng quan tại độ trễ k  
v : Phƣơng sai  
Ckj : Hàm tự tƣơng quan từng phần cho độ trễ k, loại bỏ những ảnh hƣởng của các  
độ trễ can thiệp.  
Ckj = Ck-1,j (Ckk).C(k-1,k-j) k = 2,…, j = 1,2,…, k-1  
2
2
C22 = (r2-r1 )/(1-r1 )  
C11 = r1  
Khi độ trễ tăng, số các hệ số tăng theo. Phƣơng pháp của Durbin cho phép việc  
tính đệ quy dựa vào việc sử dụng kết quả trƣớc đó.  
Tóm lại, hàm tự tƣơng quan ACF và hàm tự tƣơng quan từng phần PACF của  
chuỗi thời gian có các đặc tính khác nhau. Hàm tự tƣơng quan ACF đo mức độ phụ  
thuộc tuyến tính giữa các cặp quan sát. Hàm tự tƣơng quan từng phần PACF đo mức  
độ phụ thuộc tuyến tính từng phần. ARIMA khai thác những điểm khác biệt này để  
xác định cấu trúc mô hình cho chuỗi thời gian.  
Xu hƣớng vận động của hàm tự tƣơng quan từng phần PACF có thể giảm đột  
ngột (thƣờng sau độ trễ 1 hoặc 2) hay có thể giảm đều. Cũng nhƣ hàm tự tƣơng quan  
ACF, xu hƣớng giảm đều của hàm tự tƣơng quan từng phần PACF cũng có các dạng  
phân phối mũ, dạng sóng hình sin hoặc kết hợp cả 2 dạng này (hình 5)  
10  
2.1.3. Mô hình AR(p)  
Theo [5, 11, 16], ý tƣởng chính của mô hình AR(p) là hồi quy trên chính số liệu  
quá khứ ở những chu kì trƣớc.  
Y(t) = a0 + a1y(t-1) + a2y(t-2) +…apy(t-p) + e(t)  
Trong đó :  
(2.5)  
y(t) : quan sát dừng hiện tại  
y(t-1), y(t-2), ... : quan sát dừng quá khứ (thƣờng sử dụng không quá 2 biến này)  
a0, a1, a2, … : các tham số phân tích hồi quy.  
et : sai số dự báo ngẫu nhiên của giai đoạn hiện tại. Giá trị trung bình đƣợc mong  
đợi bằng 0.  
Y(t) là một hàm tuyến tính của những quan sát dừng quá khứ y(t-1). y(t-2), …  
Nói cách khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian dừng  
có độ trễ, chúng ta sẽ đƣợc mô hình AR (yếu tố xu thế đã đƣợc tách khỏi yếu tố thời  
gian, chúng ta sẽ mô hình hóa những yếu tố còn lại – đó là sai số).  
Số quan sát dừng quá khứ sử dụng trong mô hình hàm tự tƣơng quan là bậc p của  
mô hình AR. Nếu ta sử dụng hai quan sát dừng quá khứ, ta có mô hình tƣơng quan bậc  
hai AR(2).  
Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1 :  
a1 + a2 + … + ap < 1  
Mô hình AR(1) : y(t) = a0 + a1y(t-1) + e(t)  
Mô hình AR(2) : y(t) = a0 + a1y(t-1) + a2y(t-2) +e(t)  
2.1.4. Mô hình MA(q)  
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai số dự  
báo quá khứ và hiện tại. Mô hình bình quân di động là một trung bình trọng số của  
những sai số mới nhất.  
y(t) = b0 + e(t) +b1e(t-1) + b2e(t-2) + ... +bqe(t-q)  
Trong đó :  
(2.6)  
y(t) : quan sát dừng hiện tại  
11  
   
e(t) : sai số dự báo ngẫu nhiên, giá trị của nó không đƣợc biết và giá trị trung bình  
của nó là 0.  
e(t-1), e(t-2), ... : sai số dự báo quá khứ (thông thƣờng mô hình sẽ sử dụng không  
quá 2 biến này)  
b0, b1, b2, ... : giá trị trung bình của y(t) và các hệ số bình quân di động.  
q : sai số quá khứ đƣợc dùng trong mô hình bình quân di động, nếu ta sử dụng hai  
sai số quá khứ thì sẽ có mô hình bình quân di động bậc 2 là MA(2).  
Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1 :  
b1 + b2 + ... + bq < 1  
Mô hình MA(1) : y(t) = b0 + e(t) + b1e(t-1)  
Mô hình MA(2) : y(t) = b0 + e(t) + b1e(t-1) + b2e(t-2)  
2.1.5. Sai phân I(d), mùa vụ (S)  
2.1.5.1. Sai phân I(d)  
Trong thực tế, rất hiếm khi gặp một chuỗi thời gian dừng bởi sự dao động lên  
xuống của thị trƣờng. Do đó, trƣớc khi áp dụng mô hình ARIMA vào dữ liệu chuỗi  
thời gian phải chuyển đổi chuỗi thời gian thành chuỗi dừng mới.  
Để xác định tính dừng của chuỗi thời gian :  
Dựa vào biểu đồ ttƣơng quan ACF  
Nếu hàm tự tƣơng quan ACF của chuỗi thời gian hoặc giảm thật nhanh  
hoặc giảm dần khá nhanh thì giá trị của chuỗi thời gian đƣợc xem là dừng.  
Nếu hàm tự tƣơng quan ACF của chuỗi thời gian giảm dần thật chậm thì  
chuỗi thời gian đƣợc xem là không dừng.  
Dựa trên đồ thị Y(t) = f(t), một cách trực quan chuỗi Y(t) có tính dừng nếu nhƣ  
đồ thị cho thấy trung bình và phƣơng sai của quá trình Yt không thay đổi theo  
thời gian.  
Sai phân chỉ sự khác nhau giữa giá trị hiện tại và giá trị trƣớc đó. Phân tích sai  
phân nhằm làm cho ổn định giá trị trung bình của chuỗi dữ liệu, giúp cho việc chuyển  
đổi chuỗi thành một chuỗi dừng.  
Sai phân lần 1 (I(1)) : z(t) = y(t) y(t-1)  
Sai phân lần 2 (I(2)) : h(t) = z(t) z(t-1)  
12  
 
Thí dụ : xét chuỗi dữ liệu sau, cột thời gian thể hiện bằng mili giây :  
100.5, 130.2, 160.7, 190.5,  
Sai phân bậc một cung cấp một chuỗi dừng dao động quanh giá trị trung bình 30  
70.3,  
250.4  
của chuỗi :  
100.5  
130.2  
100.5  
29.7  
160.7  
130.2  
30.5  
190.5  
160.7  
29.8  
220.2  
190.5  
29.7  
250.4  
220.2  
30.2  
70.3  
30.2  
Trong ví dụ trên, chỉ thực hiện một lần chuyển đổi sai phân cho toàn bộ dữ liệu  
nhằm làm ổn định giá trị trung bình. Tuy nhiên, trong thực tế, có rất nhiều chuỗi dữ  
liệu cần thực hiện sai phân nhiều hơn để có thể đạt đƣợc tính dừng.  
2.1.5.2. Mùa vụ (S)  
Hiện tƣợng có thành phần mùa vụ (xem lại 1.2.3. Thành phần mùa) trong dữ liệu  
chuỗi thời gian cũng là một hiện tƣợng khá phổ biến khi sử dụng mô hình ARIMA với  
dữ liệu trong một khoảng thời gian dài.  
Vì lý do đó, để có thể áp dụng đƣợc mô hình ARIMA vào dữ liệu chuỗi thời gian  
cần khử tính mùa vụ trƣớc. Nếu Y(t) có tính mùa vụ, với chu kỳ s, thì để khử tính mùa  
vụ ta lấy sai phân thứ s : Z(t) = Y(t) Y(t-s). Và sử dụng chuỗi dữ liệu mới Z(t) sau  
khi đã khử tính mùa vụ vào mô hình ARIMA.  
Thông thƣờng, tính mùa vụ của chuỗi dữ liệu vào khoảng  
4 mùa trong một năm S(4) : z(t) = y(t) y(t-4)  
12 tháng trong một năm S(12) : z(t) = y(t) y(t-12)  
2.1.6. Mô hình ARIMA  
Mô hình ARMA(p,q) : là mô hình hỗn hợp của AR và MA. Hàm tuyến tính sẽ  
bao gồm những quan sát dừng quá khứ và những sai số dự báo quá khứ và hiện tại:  
y(t) = a0 + a1y(t-1) + a2y(t-2) +... + apy(t-p) + e(t)  
+ b1e(t-1) +b2e(t-2) + ... + bqe(t-q)  
Trong đó :  
(2.7)  
y(t) : quan sát dừng hiện tại  
y(t-p), và e(t-q) : quan sát dừng và sai số dự báo quá khứ.  
a0, a1, a2, ..., b1, b2, ... : các hệ số phân tích hồi quy  
13  
 
Ví dụ : ARMA(1,2) là mô hình hỗn hợp của AR(1) và MA(2)  
Đối với mô hình hỗn hợp thì dạng (p,q) = (1,1) là phổ biến. Tuy nhiên, giá trị p  
và q đƣợc xem là những độ trễ cho ACF và PACF quan trọng sau cùng. Cả hai điều  
kiện bình quân di động và điều kiện dừng phải đƣợc thỏa mãn trong mô hình hỗn hợp  
ARMA.  
Mô hình ARIMA(p,d,q) : Do mô hình Box-Jenkins chỉ mô tả chuỗi dừng hoặc  
những chuỗi đã sai phân hóa, nên mô hình ARIMA(p,d,q) thể hiện những chuỗi dữ  
liệu không dừng, đã đƣợc sai phân (ở đây, d chỉ mức độ sai phân).  
Khi chuỗi thời gian dừng đƣợc lựa chọn (hàm tự tƣơng quan ACF giảm đột ngột  
hoặc giảm đều nhanh), chúng ta có thể chỉ ra một mô hình dự định bằng cách nghiên  
cứu xu hƣớng của hàm tự tƣơng quan ACF và hàm tự tƣơng quan từng phần PACF.  
Theo lý thuyết, nếu hàm tự tƣơng quan ACF giảm đột biến và hàm tự tƣơng quan từng  
phần PACF giảm mạnh thì chúng ta có mô hình tự tƣợng quan. Nếu hàm tự tƣơng  
quan ACF và hàm tự tƣơng quan từng phần PACF đều giảm đột ngột thì chúng ta có  
mô hình hỗn hợp.  
Về mặt lý thuyết, không có trƣờng hợp hàm tự tƣơng quan ACF và hàm tự tƣơng  
quan từng phần cùng giảm đột ngột. Trong thực tế, hàm tự tƣơng quan ACF và hàm tự  
tƣơng quan từng phần PACF giảm đột biến khá nhanh. Trong trƣờng hợp này, chúng  
ta nên phân biệt hàm nào giảm đột biến nhanh hơn, hàm còn lại đƣợc xem là giảm đều.  
Do đôi lúc sẽ có trƣờng hợp giảm đột biến đồng thời khi quan sát biểu đồ hàm tự  
tƣơng quan ACF và hàm tự tƣơng quan từng phần PACF, biện pháp khắc phục là tìm  
vài dạng hàm dự định khác nhau cho chuỗi thời gian dừng. Sau đó, kiểm tra độ chính  
xác mô hình tốt nhất.  
Mô hình ARIMA (1, 1, 1) : y(t) y(t-1) = a0 + a1(y(t-1) y(t-2) + e(t) + b1e(t-1))  
Hoặc z(t) = a0 + a1z(t-1) + e(t) + b1e(t-1),  
Với z(t) = y(t) – y(t-1) ở sai phân đầu tiên : d = 1.  
Tƣơng tự ARIMA(1,2,1) : h(t) = a0 + a1z(t-1) + e(t) + b1e(t-1),  
Với h(t) = z(t) – z(t-1) ở sai phân thứ hai : d = 2.  
Theo [5], trong thực hành d lớn hơn 2 rất ít đƣợc sử dụng.  
14  
Tính các hàm tự tƣơng quan và  
tự tƣơng quan từng phần để  
nhận dạng một mô hình dự định  
Chọn lựa một mô hình  
Ƣớc lƣợng các giá trị cho các  
tham số mô hình  
Không  
Kiểm tra độ  
chính xác của  
mô hình ƣớc  
lƣợng  
Có  
Sử dụng mô hình để dự báo  
Hình 6. Sơ đồ mô phỏng mô hình Box-Jenkins [3,5]  
15  
 
2.1.7.  
Các bƣớc phát triển mô hình ARIMA  
Theo [3, ], phƣơng pháp Box – Jenkins bao gồm các bƣớc chung:  
Xác định mô hình  
Ƣớc lƣợng tham số  
Kiểm định độ chính xác  
Dự báo  
Xác định mô hình : Mô hình ARIMA chỉ đƣợc áp dụng đối với chuỗi dừng Mô  
hình có thể trình bày theo dạng AR, MA hay ARMA. Phƣơng pháp xác định mô hình  
thƣờng đƣợc thực hiện qua nghiên cứu chiều hƣớng biến đổi của hàm tự tƣơng quan  
ACF hay hàm tự tƣơng quan từng phần PACF.  
Chuỗi dữ liệu không dừng : Cần phải đƣợc chuyển đồi thành chuỗi dừng  
trƣớc khi tính ƣớc lƣợng tham số bình phƣơng tối thiểu. Việc chuyển đổi này  
đƣợc thực hiện bằng cách tính sai phân giữa các giá trị quan sát dựa vào giả định  
các phần khác nhau của các chuỗi thời gian đều đƣợc xem xét tƣơng tự, ngoại trừ  
các khác biệt ở giá trị trung bình. Nếu việc chuyển đổi này không thành công, sẽ  
áp dụng tiếp các kiểu chuyển đổi khác (chuyển đồi logarithm chẳng hạn).  
Chuỗi dữ liệu có yếu tố mùa vụ : Cần phải khử tính mùa vụ sau đó áp  
dụng mô hình ARIMA vào chuỗi dữ liệu mới.(xem thêm 2.1.5.)  
Ƣớc lƣợng tham s: Tính những ƣớc lƣợng khởi đầu cho các tham số a0, a1,  
…, ap, b1, …, bq của mô hình dự định. Sau đó xây dựng những ƣớc lƣợng sau cùng  
bằng một quá trình lặp. Mô hình phù hợp nhất khi các tham số ƣớc lƣợng thỏa mãn :  
bình phƣơng tối thiểu phần dƣ là nhỏ nhất :  
2
 
Với (푌푡  ^)  
min  
t = (Yt Y^t)  
Kiểm định độ chính xác : Sau khi các tham số của mô hình tổng quát đã xây  
dựng, ta kiểm tra mức độ chính xác và phù hợp của mô hình với dữ liệu. Chúng ta  
kiểm định phần dƣ (Yt Y^t) và có ý nghĩa cũng nhƣ mối quan hệ các tham số, đánh  
giá một vài tiêu chuẩn của những mô hình khác nhau. Nếu bất cứ kiểm định nào không  
thỏa mãn, mô hình sẽ nhận dạng lại các bƣớc trên đƣợc thực hiện lại.  
16  
 
Dự báo : Khi mô hình thích hợp với dữ liệu đã tìm đƣợc, ta sẽ thực hiện dự báo  
tại thời điểm tiếp theo t. Do đó, mô hình ARMA(p,q) :  
y(t+1)=a0+a1y(t) +…+ apy(tp+1)+e(t+1)+b1e(t)+…+bqe(t q + 1)  
(2.8)  
Những giá trị Y(t+1),… ban đầu là những giá trị đƣợc dự báo. Nhƣng để cải  
thiện tính tin cậy của các giá trị dự báo cần phải cập nhật liên tục những giá trị thực tế .  
2.2. Phần mềm ứng dụng Eviews  
2.2.1. Giới thiệu Eviews  
Eviews là một gói phần mềm thống kê cho Windows (do Quantitative Micro  
Software (QMS) phát triển), đƣợc sử dụng chính vào phân tích kinh tế hƣớng đối  
tƣợng chuỗi thời gian.. Phiên bản 1.0 đƣợc ra đời vào tháng 3 năm 1994 [20].  
Phùng Thanh Bình [4] đã giới thiệu tƣơng đổi cụ thể về Eviews và các tình huống  
sử dụng Eviews. Eviews cung cấp các công cụ phân tích dữ liệu phức tạp, hồi quy và  
dự báo chạy trên Windows. Với Eviews, chúng ta có thể nhanh chóng xây dựng mối  
quan hệ kinh tế lƣợng từ dữ liệu có sẵn và sử dụng mối quan hệ này để dự báo các giá  
trị tƣơng lai. Eviews có thể hữu ích trong tất cả các loại nghiên cứu nhƣ đánh giá và  
phân tích dữ liệu khoa học, phân tích tài chính, mô phỏng và dự báo vĩ mô, dự báo  
doanh số, và phân tích chi phí. Đặc biết, Eviews là một phần mềm rất mạnh cho phân  
tích dữ liệu thời gian.  
Eviews đƣa ra nhiều cách nhập dữ liệu rất thông dụng và dễ sử dụng nhƣ nhập  
bằng tay, từ các file có dƣới dạng excel hay text, dễ dàng mở rộng file dữ liệu có sẵn.  
Eviews trình bày các biểu đồ, kết quả ấn tƣợng và có thể in trực tiếp hoặc chuyển qua  
các loại định dạng văn bản khác nhau. Eviews giúp ngƣời sử dụng dễ dàng ƣớc lƣợng  
và kiểm định các mô hình kinh tế lƣợng. Eviews cung cấp nhiều mô hình cho quá trình  
dự báo: Mô hình trung bình dịch chuyển hàm mũ, mô hình ARIMA, … Ngoài ra,  
Eviews còn giúp ngƣời nghiên cứu có thể xây dựng các file chƣơng trình cho dự án  
nghiên cứu của mình, với ngôn ngữ lập trình hƣớng đối tƣợng.  
17  
   
Khi khởi động chƣơng trình có dạng :  
Main menu  
Command window  
Status line  
Work area  
Hình 7. Giao diện sử dụng (Eviews 5 Users Guide)  
Tạo một tập tin Eviews  
Có nhiều cách tạo một tập tin mới.  
Eviews sẽ tạo ra một tập tin mới để ta nhập dữ liệu vào một cách thủ công  
từ bàn phím hoặc copy và paste  
File/ New Workfile…từ thực đơn chính để mở hộp thoại Workfile  
Create. Ở góc bên trái mô tả cấu trúc cơ bản của dữ liệu. Ta có thể chọn  
giữa Dated-Regular Frequency, Unstructured, Balanced Panel. Với dữ  
liệu thời gian ta chọn Dated-Regular Frequency, nếu dữ liệu đơn giản ta  
chọn Balanced Panel, các trƣờng hợp khác chọn Unstructured.  
18  
 
Hình 8. Lựa chọn cấu trúc cơ bản của quá trình tạo Workfile  
Nếu là dữ liệu năm, thì ở ô Frequency ta chọn Annual; ở các ô  
Start date Ende date ta nhập năm bắt đầu và năm kết thúc của chuỗi  
dữ liệu. Nếu dữ liệu là quý, thì ở ô Frequency ta chọn Quarrterly…  
Mở và đọc dữ liệu từ một nguồn bên ngoài (không thuộc định dạng của  
Eviews) nhƣ Text, Excel, Stata  
File/open/Foreign Data as Workfile,…để đến hộp thoại Open, chọn  
Files of type  
Hình 9. Mở một file có sẵn với Eviews 5  
19  
   
Sau khi tạo một tập tin Eviews, ta lƣu lại dƣới định dạng Eviews bằng cách họn  
File/Save As… hay File/Save...  
Trình bày dữ liệu  
Trình bày dữ liệu của một chuỗi  
Để xem nội dung của một biến nào đó, ví dụ giadongcua trong tập tin. Kích  
đúp vào biến cần xem.  
Hình 10. Miêu tả chuỗi dữ liệu  
Vẽ đồ thị  
Có hai cách biểu hiện đồ thị dạng Line của biến.  
Thứ nhất, từ chuỗi (lấy chuỗi giadongcua làm ví dụ) ta chọn  
View/Graph/Line.  
Thứ hai, từ cửa sổ Workfile trên thanh Main menu ta chọn Quick/Graph/Line  
Graph,… rồi nhập tên biến giadongcua  
20  
 
Hình 11. Đồ thị của chuỗi GIADONGCUA  
Đơn giản để copy đồ thị ra word ta chỉ cần Ctrl + C và paste sang word.  
Tạo một biến mới  
Eviews hỗ trợ chuyển đổi để tạo biến mới bằng cách click Genr rồi gõ hàm  
chuyển đổi:  
loggiadongcua = log(giadongcua) : chuyển đổi chuỗi ban đầu thành  
chuỗi mới có giá trị bằng log(chuỗi ban đầu)  
dexport = export export(-1) : Sai phân lần một  
d12lexport = lexport - lexport(-12) : Khử tính mùa vụ bằng cách lấy sai phân  
d = 12.  
Biến trễ, tới, sai phân và mùa vụ  
Biến trễ , tới một giai đoạn (xt-1) : x(-1), (xt+1) : x(+1)  
Biến trễ k giai đoạn (xt-k) : x(-k), (xt+k) : x(+k)  
Sai phân bậc một (d(x) = xt xt-1)  
Sai phân bậc k (d(x,k) = xt xt-k)  
21  
 

Tải về để xem bản đầy đủ

pdf 55 trang yennguyen 28/05/2025 130
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Một số phương pháp khai phá dữ liệu quan hệ trong tài chính và chứng khoán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_mot_so_phuong_phap_khai_pha_du_lieu_quan_he_trong.pdf