Khóa luận Ứng dụng mô hình học máy tiên tiến nhằm tăng cường khả năng dự báo xu thế của thị trường chứng khoán

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Đinh ThThùy Trang  
NG DNG MÔ HÌNH HC MÁY TIÊN TIN  
NHM TĂNG CƯỜNG KHNĂNG DBÁO XU THẾ  
CA THTRƯỜNG CHNG KHOÁN  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Đinh ThThùy Trang  
NG DNG MÔ HÌNH HC MÁY TIÊN TIN  
NHM TĂNG CƯỜNG KHNĂNG DBÁO XU THẾ  
CA THTRƯỜNG CHNG KHOÁN  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: TS. Nguyn Hà Nam  
HÀ NI-2010  
LI CM ƠN  
Để hoàn thành khóa lun này, tôi xin gi li cm ơn ti các thy, cô giáo trong  
trường Đại hc Công ngh- Đại hc Quc gia Hà Ni. Các thy cô đã dy bo, chdn  
và luôn to điu kin tt nht cho tôi hc tp trong sut quá trình hc đại hc đặc bit là  
trong thi gian làm khóa lun tt nghip  
Tôi xin bày tlòng biết ơn sâu sc ti thy giáo TS. Nguyn Hà Nam, thy đã tn  
tình hướng dn tôi trong năm hc va qua.  
Tôi cũng thm biết ơn nhng người bn ca mình, các bn đã luôn bên tôi, giúp  
đỡ và cho tôi nhng ý kiến đóng góp quý báu trong hc tp cũng như trong cuc sng.  
Cui cùng, tôi xin gi ti bmvà toàn thgia đình lòng biết ơn và tình cm yêu  
thương nht. Con xin dành tng bmkết qumà con đã đạt được trong sut bn năm  
hc đại hc. Con cm ơn bmnhiu và ccác em na.”  
Hà ni, ngày 20/05/2010  
i
Tóm tt khóa lun  
Ngày nay, cách thc kiếm tin và sdng đồng tin ca các nhà đầu tư cũng có  
nhiu thay đổi. Hu hết mi người đều đầu tư vào chng khoán, hcho rng đó là mt  
cách đầu tư thông minh và nhng đồng tin y là đồng tin thông minh. Nhưng thtrường  
chng khoán luôn có nhng yếu tbt ngkhông theo ý mun chquan ca ai, có lúc  
tăng nhanh sau đó gim mt cách đột ngt, có lúc thì liên tc tăng mà chưa có du hiu  
gim xung.…Do vy dự đoán được xu thế ca thtrường chng khoán là mt vn đề  
quan trng đầu tư tài chính. Thtrường sdin biến ra sao, đầu tư vào chng khoán thi  
đim này có được hay không, phthuc rt nhiu vào kết qudự đoán ca chúng ta chính  
xác ra sao  
Trong khóa lun này, tôi xin gii thiu mt kthut được sdng nhiu trong khai  
phá dliu, có hiu qucao trong dự đoán, xây dng mô hình dbáo đơn gin, nhanh  
chóng và dhiu. Đó là mô hình cây quyết định, khóa lun đã tìm hiu cu trúc, hot  
động ca cây quyết định, các độ đo dùng để chia ct các thuc tính và các thut toán đặc  
bit là thut toán C4.5 mà khóa lun sdng để xây dng cây. Từ đó, thiết kế mô hình  
cây quyết định cho dliu thi gian thc (time series) áp dng trong dbáo xu thế ca thị  
trường chng khoán được trình bày chi tiết. Khóa lun đã thc nghim trên dliu  
VnIndex và đã thu được nhng kết qubước đầu  
Tkhóa: data mining, decision tree, time series, stock trend prediction, weka….  
ii  
MC LC  
LI CM ƠN.................................................................................................................i  
TÓM TT KHÓA LUN .............................................................................................ii  
MC LC ................................................................................................................... iii  
DANH MC HÌNH V...............................................................................................vi  
DANH MC BNG BIU .........................................................................................vii  
Chương 1. Gii thiu các kiến thc cơ!Ä......................................................................1  
1.1.  
Khai phá dliu ...........................................................................................1  
1.1.1. Khai phá dliu là gì ..............................................................................1  
1.1.2. Quá trình khai phá dliu........................................................................1  
1.1.3. Các phương pháp khai phá dliu...........................................................2  
1.1.4. Scn thiết phi có khai phá dliu .......................................................2  
1.1.5. Mt skhó khăn gp phi khi xây dng quá trình khai phá dliu........3  
1.1.6. Các lĩnh vc ng dng .............................................................................4  
1.2.  
Phân lp và dbáo .......................................................................................4  
1.2.1. Định nghĩa ................................................................................................4  
1.2.2. Các bước để phân lp và dbáo ..............................................................5  
1.2.3. Độ chính xác trong phân lp và dbáo ...................................................8  
1.2.4. Mt sbài toán phân lp và dbáo đin hình .........................................8  
1.3.  
1.4.  
Bài toán dbáo xu thế thtrường chng khoán...........................................9  
Ni dung và cu trúc ca khóa lun ...........................................................10  
Chương 2. Tng quan vcây quyết định .....................................................................12  
iii  
2.1.  
2.2.  
2.3.  
2.4.  
Định nghĩa ..................................................................................................12  
Cu trúc ......................................................................................................12  
Các kiu cây quyết định .............................................................................13  
Các độ đo sdng để xác định đim chia tt nht.....................................13  
2.4.1. Độ li thông tin (Information Gain).......................................................14  
2.4.2. Độ đo tlGain (Gain ratio)..................................................................15  
2.4.3. ChsGini (Gini index).........................................................................15  
2.5.  
Ct ta cây (thu gn cây).............................................................................17  
Rút ra quy tc phân lp tcây quyết định..................................................18  
Các thut toán trong cây quyết định...........................................................19  
Quá trình to cây quyết định ......................................................................21  
2.6.  
2.7.  
2.8.  
2.8.1. Khnăng hc và tng quát hóa ..............................................................21  
2.8.2. Các phương pháp hun luyn cây ..........................................................21  
2.9.  
Gii thut C4.5............................................................................................22  
Tng kết ...................................................................................................................25  
Chương 3.Mô hình cây quyết định trong dbáo xu thế ca thtrường chng khoán.27  
3.1.  
Gii thiu chung vdliu thi gian thc.................................................27  
3.1.1. Các thành phn ca dliu thi gian thc.............................................27  
3.1.2. Các phương pháp làm trơn .....................................................................29  
3.2.  
Dliu chng khoán ..................................................................................30  
Mô hình dbáo tài chính............................................................................32  
Thiết kế cây quyết định cho dliu thi gian thc....................................33  
3.3.  
3.4.  
3.4.1. Tp hp dliu.......................................................................................33  
3.4.2. Tin xlý dliu ...................................................................................34  
3.4.3. Phân hoch dliu .................................................................................34  
iv  
3.4.4. Mô hình hóa cây quyết định...................................................................36  
3.4.5. Tiêu chun đánh giá................................................................................37  
3.4.6. Trin khai................................................................................................40  
Tng kết ...................................................................................................................40  
Chương 4. Thc nghim ..............................................................................................41  
4.1.  
4.2.  
Môi trường thc nghim.............................................................................41  
Xây dng cơ sdliu...............................................................................42  
4.2.1. Dliu chng khoán ..............................................................................42  
4.2.2. Xây dng dliu cho mô hình...............................................................42  
4.3.  
Thc nghim mô hình cây quyết định cho dliu thi gian thc .............47  
4.3.2. Đánh giá mô hình ...................................................................................50  
4.3.3. La chn mô hình tt nht......................................................................51  
4.4.  
Mt smô hình khác..................................................................................55  
4.4.1. Mô hình mng nơ ron.............................................................................56  
4.4.2. Mô hình SVM (support vector machine) ...............................................59  
Kết lun....................................................................................................................62  
Kết quả đạt được ca lun văn.............................................................................62  
Hướng nghiên cu tiếp theo.................................................................................62  
PHLC-MT STHUT NGANH –VIT......................................................63  
TÀI LIU THAM KHO ...........................................................................................64  
v
DANH MC HÌNH VẼ  
Hình 1-0: Bước 1 Hc để xây dng mô hình phân lp.................................................5  
Hình 1-1: Bước 2 Kim tra và đánh giá.........................................................................6  
Hình 1-2: Ví dvhc mô hình ....................................................................................7  
Hình 1-3 : Ví dvphân lp dliu.............................................................................7  
Hình 2-0: Biu din cu trúc cây quyết định ...............................................................12  
Hình 2-1: Mt cây quyết định miêu tkhái nim “mua máy tính” .............................18  
Hình 3-0: Thành phn xu hướng dài hn.....................................................................28  
Hình 3-1: Thành phn mùa ..........................................................................................28  
Hình 3-2: Thành phn chu k......................................................................................29  
Hình 3-3: Mô hình cây quyết định dbáo chng khoán............................................32  
Hình 3-5: Tlkích thước ca tp hun luyn và tp kim chng.............................35  
Hình 4-0: Giao din chính ca weka ...........................................................................42  
Hình 4-1: Dliu chng khoán thu được tsàn chng khoán....................................43  
Hình 4-2: (a) Mt trong snhng dliu hun luyn t1/2008-12/2008..................45  
(b) Mt trong snhng bkim chng t1/2009-3/2009..........................45  
Hình 4-3: Mt trong nhng file dliu đầu ra ca chương trình................................45  
Hình 4-4: Lnh đọc file CSV và chuyn thành file ARFF ..........................................46  
Hình 4-5: Dliu dưới định dng arff trong weka......................................................47  
Hình 4-6: Lnh hun luyn dliu..............................................................................49  
Hình 4-8: Lnh đánh giá da trên tp kim chng......................................................50  
Hình 4-12: (a) Cu trúc mt nơ ron .............................................................................57  
(b) Cu trúc mng nơ ron...........................................................................57  
vi  
DANH MC BNG BIU  
Hình 2-2: Kết quca cuc kho sát..................................................................................21  
Hình 3-4: Tchc dliu ca mô hình..............................................................................34  
Hinh 3-6: Bng ma trn 2 x 2.............................................................................................39  
Hình 4-7: Kết ququa các ln hun luyn .........................................................................49  
Hình 4-9: Kết quả đánh giá trên tp kim chng ...............................................................51  
Hình 4-10: Kết qukhi thay đổi các tham s-C, -M.........................................................54  
Hình 4-11: Kết qukhi hun luyn li mô hình vi tham stt nht................................55  
Hình 4-13: So sánh kết qugia Mng nơ ron và cây quyết định .....................................59  
Hình 4-14: So sánh kết qugia mô hình Support vector machine và cây quyết định .....60  
vii  
Chương 1. Gii thiu các kiến thc cơ sở  
1.1. Khai phá dliu  
1.1.1. Khai phá dliu là gì  
Khai phá dliu là vic khám phá tri thc trong các cơ sdliu, là mt quá trình  
trích xut nhng thông tin n, trước đây chưa biết và có khnăng hu ích, dưới dng các  
quy lut, ràng buc, quy tc trong cơ sdliu [1].  
1.1.2. Quá trình khai phá dliu  
Mt quá trình KPDL bao gm năm giai đon chính  
1) Tìm hiu nghip vvà dliu : nghiên cu kiến thc vlĩnh vc sáp dng, bao  
gm ccu trúc vhthng và tri thc, các ngun tài liu hin hu, ý nghĩa, vai trò  
và tm quan trng ca các thc thdliu  
2) Chun bdliu: sdng các kthut tin xđể biến đổi và ci thin cht lượng  
dliu để thích hp vi nhng yêu cu ca các gii thut hc. Bước này thường  
chiếm phn ln thi gian ca toàn bquá trình khai phá dliu  
3) Mô hình hóa dliu: la chn kthut phù hp để gii quyết các vn đề đặt ra. Các  
bài toán được phân loi vào mt trong nhng nhóm bài toán chính trong khai phá dữ  
liu da trên đặc tca chúng.  
4) Hu xlý và đánh giá mô hình: các kết quả được biến đổi tdng hc thut sang  
dng phù hp vi nghip vvà dhiu hơn cho người dùng. Kinh nghim cho thy,  
các mu và các mô hình tìm thy không phi lúc nào cũng đáng quan tâm và có thể  
trc tiếp sdng được ngay. Vì vy, quá trình khai phá dliu cn thiết lp đi lp  
li vi vic đánh giá tri thc đã thu được.  
5) Trin khai tri thc: các mô hình được đưa vào hthng thông tin thc tế dưới dng  
các modun htrvic đưa ra quyết định. Trong mt strường hp, người ta có thể  
sdng tri thc phát hin được mà không cn phi đưa vào mt hthng máy tính.  
Mc khác, người sdng li mong mun tri thc đã tìm được có thể được đưa vào  
máy tính và được khai thác bng mt schương trình. Đưa các kết quả đã thu được  
vào sdng trong thc tế là mc tiêu cui cùng ca mt quá trình khai phá dliu  
1
Mi quan hcht chgia các giai đon trong quá trình khai phá dliu là rt quan  
trng cho vic nghiên cu trong khai phá dliu. Quá trình này có thể được lp li nhiu  
ln mt hay nhiu giai đon da trên phn hi tkết quca các giai đon sau. Tham gia  
chính trong quá trình KPDL là các nhà tư vn và phát trin chuyên nghip trong lĩnh vc  
KPDL  
1.1.3. Các phương pháp khai phá dliu  
1) Phân lp (classification) : vi mt tp các dliu hun luyn cho trước và shun  
luyn ca con người, các gii thut phân loi slc ra bphân loi dùng để phân dữ  
liu mi vào trong nhng lp đã được định trước. Mt sphương pháp đin hình là  
cây quyết định, mng nơ ron….  
2) Hi qui (Regression) : là hc mt hàm ánh xdliu nhm tìm và xác định giá trị  
thc ca mt biến  
3) Phân cm (Clustering): thc hin vic nhóm dliu thành các lp mi để có thể  
phát hin các mu phân b.  
4) Tng hp (Summarization): Tìm ra các đặc trưng và tính cht ca các khái nim. Ví  
dnhư tng quát hóa, tóm tt, các đặc trưng dliu ràng buc  
5) Mô hình ràng buc (Dependency modeling): tìm ra mt mô hình mô tsphthuc  
có ý nghĩa gia các biến. Mô hình ràng buc gm hai mc: mc cu trúc ca mô  
hình mô tvà mc định lượng  
6) Dò tìm biến đổi và độ lch (change and deviation dectection) : phát hin sthay đổi  
có ý nghĩa dưới dng độ đo đã biết trước hoc giá trchun  
1.1.4. Scn thiết phi có khai phá dliu  
Có rt nhiu lý do khiến chúng ta cn phi có khai phá dliu, mt slý do tiêu  
biu đó là:  
-
Nhiu tchc, trong mt thi gian dài đã thu thp được mt lượng ln dliu,  
hphi làm gì vi nhng dliu này?  
-
Người ta thu thp và lưu trdliu vì nghĩ rng có ththu được nhng thông  
tin có giá trtnhng dliu này  
2
-
Trong kinh doanh, thu gicác dliu vthtrường, đối thcnh tranh và về  
khách hàng. Trong các ngành sn xut, thu gicác dliu vhiu sut, ti ưu hóa các cơ  
hi, cũng như nguyên tc ci tiến các quy trình và các rc ri gp phi  
-
-
Chcó mt lượng nhdliu đã thu thp được phân tích  
Vi ý nghĩ tiếp tc phân thu thp dliu để không bqua điu gì đó quan  
trng, mà dliu này li không được phân tích gây ra tn kém  
Các phương pháp phân tích dliu cổ đin tra không còn my phù hp khi  
lượng dliu lên  
-
-
Nhiu khi người phân tích dliu không phi là nhng chuyên gia vdliu,  
đó đó cn phi có công cụ để hthc hin công vic phân tích dliu  
-
Trong môi trường cnh tranh vic phát hin ngay nhng du hiu bt thường  
và nhanh chóng đưa ra quyết định phù hp là điu hết sc quan trn  
1.1.5. Mt skhó khăn gp phi khi xây dng quá trình khai phá dliu  
Trong quá trình khai phá dliu chúng ta luôn gp phi nhng trngi, chúng ta  
phi tìm cách khc phc và vượt qua nhng trngi này để thu được kết qumong mun.  
Mt trong nhng khó khăn cơ bn đó là:  
-
Kích thước ln: Không chcó nhiu bn ghi trong cơ sdliu mà trong các  
bng cũng có rt nhiu thuc tính, vì thế kích thước ca vn đề ln. Mt tp dliu có  
kích thước ln làm tăng không gian tìm kiếm theo cách bùng nthp. Hơn na, slàm  
tăng khnăng làm cho thut toán khai phá dliu tìm ra nhng mu sai, không có giá trị  
khái quát. Để gii quyết vn đề, người ta sdng phương pháp làm gim kích thước nh  
hưởng đến vn đề và sdng tri thc ưu tiên (có trước) để nhn ra và loi bnhng  
trường không liên qua  
-
Hin tượng quá khp: Khi thut toán tìm kiếm tham stt nht cho mt mô  
hình cthsdng mt tp dliu hc hn chế, có thxy ra hin tượng dliu quá  
khp, làm cho mô hình kém hiu qutrên tp dliu th. Gii quyết vn đề này sdng  
phương pháp kim tra chéo, thc hin theo đúng các nguyên tc và chiến lược thng kê  
phc tp khác  
-
Tri thc và dliu thay đổi: Dliu thay đổi nhanh chóng có thlàm cho các  
mô hình tìm thy trước đây không còn giá tr. Hơn na, các trường đã được chn trong  
3
mt ng dng cơ sdliu cthcó thbthay đổi, bxóa, hay được thêm vào. Gii  
pháp có thsdng là tăng cường phương thc cho vic cp nht các mô hình và xem sự  
thay đổi như là mt cơ hi cho vic khám phá bng cách sdng chúng mt cách thích  
hp để chtìm phi kiếm li cho các mô hình bthay đổi.  
-
Dliu bnhiu và bmt. Vn đề này đặc bit hay xy ra trong các cơ sdữ  
liu thương mi, dliu ca các thuc tính quan trng có thbmt nếu cơ sdliu  
không được thiết kết để dành cho mc đích khai phá. Để gii quyết vn đề này chúng ta  
phi tăng cường sdng nhng chiến lược thng kê phc tp để phát hin ra nhng  
trường hp thông tin n và sphthuc gia chúng  
-
Tính hiu được ca các mô hình: Trong rt nhiu ng dng, vic tìm ra được  
điu gì dhiu hơn đối vi con người là rt quan trng. Có thbiu din bng đồ th,  
ngôn ngtnhiên, và các kthut cho vic trc quan hóa dliu  
-
…..  
1.1.6. Các lĩnh vc ng dng  
Theo J.Han và M.Kamber, ng dng ca khai phá dliu được chia thành hai lp  
chính bao gm lp các ng dng phân tích dliu - htrquyết định và lp các lĩnh vc  
ng dng khác  
Lp các ng dng trong phân tích dliu và htrquyết định bao gm các ng  
dng trong phân tích và qun lý thtrường, phân tích và qun lý ri ro, khám phá ngoi lai  
và các mu không hu ích. Dliu trong các ng dng này là khá phong phú có được từ  
các giao dch thtín dng, nghiên cu đời sng cng đồng…  
Lp các lĩnh vc ng dng đin hình khác bao gm khai phá Text, khai phá web,  
khai phá dliu dòng, khai phá dliu sinh hc…  
Sphát trin nhanh chóng ca khai phá dliu làm cho min ng dng lĩnh vc  
ngày càng thêm phong phú và đa dng  
1.2. Phân lp và dbáo  
1.2.1. Định nghĩa  
Phân lp và dbáo là hai hình thc phân tích dliu được sdng để rút ra nhng  
4
mô hình miêu tlp dliu quan trng hoc dbáo xu thế dliu trong tương lai. Trong  
khi phân lp dự đoán các nhãn lp đã được xác định rõ ràng thì mô hình dbáo thc hin  
chc năng trên nhng giá trliên tc.  
Ly ví d, mt mô hình phân lp được xây dng để phân loi ng dng cho vay  
ngân hàng là an toàn hay mo him, trong khi mt mô hình dbáo được xây dng để dự  
báo lượng thiết bmáy tính được mua bi các khách hàng tin năng da vào thu nhp và  
nghnghip ca họ  
Nhiu phương pháp phân lp và dbáo đã được gii thiu bi các nhà nghiên cu  
trong lĩnh vc hc máy, hchuyên gia, thng kê….  
1.2.2. Các bước để phân lp và dbáo  
Phân lp dliu gm hai bước xlý chính:  
Bước 1: Hc (training) xây dng mt mô hình xác định mt tp các lp dliu. Mô  
hình này được xây dng bng cách phân tích các bdliu ca mt cơ sdliu, mi bộ  
dliu được xác định bi giá trca các thuc tính vào mt lp được xác định trước.  
Bước này được xem là hc có giám sát, các mu hun luyn thuc vlà biết trước và số  
lp dliu cũng được biết trước. Nhng bdliu được phân tích để xây dng mô hình  
phân lp được ly ttrong tp dliu hc hay dliu hun luyn. Mô hình đưa ra sau khi  
phân tích xong tp dliu hun luyn thường có dng là nhng quy tc phân lp, cây  
quyết định hay các công thc toán hc  
Thut toán phân lp  
Mô hình  
Dliu hc  
phân lp  
Hình 1-0: Bước 1 Hc để xây dng mô hình phân lp  
5
Bước 2: Kim tra và đánh giá, bước này sdng mô hình phân lp đã được xây  
dng bước 1 vào vic phân lp. Đánh giá độ chính xác ca mô hình hay bphân lp,  
bng cách sdng mt tp các mu đã được phân lp lp để th(test) gi là bth(test  
set). Nhng mu này được chn ngu nhiên và độc lp vi các mu đã được hc bước 1  
gi là mu th(test sample). Độ chính xác ca mt mô hình phân lp da trên bthlà tỷ  
lnhng mu thử được phân lp đúng bng mô hình phân lp đó. Nếu độ chính xác ca  
mt mô hình được xem xét có thchp nhn được thì mô hình đó được dùng để phân lp  
cho các bdliu hoc các đối tượng trong tương lai  
Mô hình phân lp  
Dliu mi  
Dliu kim chng  
Tin cy  
Hình 1-1: Bước 2 Kim tra và đánh giá  
Ly ví d, cho mt cơ sdliu vthông tin tin gi ca khách hàng, quy tc phân  
lp có thể được hc để phân bit khách hàng có loi tin gi được đánh giá tt hay rt tt  
(hình 1.2 ). Quy tc có thể được sdng để phân loi các mu dliu vsau, cũng như  
cung cp nhng hiu biết tt hơn vni dung ca cơ sdliu  
Tnhng quy tc đã hc được tvic phân tích dliu khách hàng đã tn ti có thể  
được sdng để dbáo tin gi ca khách hàng mi hoc khách hàng vsau (hình 1.3)  
6
Thut toán phân lp  
Quy tc phân lp  
Dliu hun  
luyn  
Tên  
Tui  
Thu nhp  
Đánh giá  
tin gi  
Tt  
Sandy Jones  
Bill Lee  
<=30  
<=30  
Thp  
Thp  
Rt tt  
Rt tt  
Tt  
Nếu tui = “31…40” và  
thu nhp = “cao” đánh  
giá tin gi = “rt tt”  
Coutnay fox  
Susan Lake  
Claire Phips  
….  
31….40 Cao  
>40  
Trung bình  
31….40 Trung bình  
Tt  
.  
…  
..  
Hình 1-2: Ví dvhc mô hình  
Dliu kim  
ch
ng  
Quy tc phân lp  
Tên  
Tui  
Thu nhp Đánh  
tin gi  
Cao Tt  
giá  
Dliu mi  
Frank Jones >40  
Sylvia Crest <=30  
John Henri, 31…40  
Thp  
Cao  
…..  
Tt  
High Đánh giá tin gi?  
Anne Yee  
…..  
31….40  
……  
Rt tt  
……  
Rt tt  
Hình 1-3 : Ví dvphân lp dliu  
7
“Dbáo khác bit vi phân lp chnào?” Dbáo có thxem như vic xây dng  
và sdng mô hình để đánh giá mt lp ví dchưa được gán nhãn, hoc để đánh giá giá  
trhay khong giá trca mt thuc tính trong mt ví dụ đã cho có thcó. Theo cách này,  
phân lp và hi quy là hai loi quan trng ca dbáo vn đề phân lp được sdng để dự  
báo nhng giá trri rc hoc dùng vào vic chtên, trong khi hi quy được sdng để  
dbáo nhng giá trliên tc hoc đã được sp xếp. Tuy nhiên, theo quan đim ca chúng  
ta, vic sdng dbáo để tiên đoán nhng nhãn lp như là phân lp và sdng dbáo  
để dự đoán nhng giá trliên tc (tc là sdng kthut hi quy) vn hay được sdng  
hơn. Quan đim này thường cũng được chp nhn trong khai phá dliu [2, 20].  
1.2.3. Độ chính xác trong phân lp và dbáo  
Độ chính xác trong phân lp và dbáo được đo bng ước lượng tlsai:  
-
Phân hoch: Hun luyn và kim tra đối vi nhng tp dliu ln. Dùng hai  
tp dliu độc lp, tp hun luyn bng 2/3 tp dliu, tp kim tra bng 1/3 tp hun  
luyn  
-
Kim tra chéo: Dùng vi nhng tp dliu va, chia tp dliu thành k mu  
con, sdng k-l mu con làm tp hun luyn và mt mu con làm tp kim tra—kim tra  
chéo k thành phn  
-
Bootstrapping: Dùng vi nhng tp dliu nh, xóa đi mt – leave-one-out  
1.2.4. Mt sbài toán phân lp và dbáo đin hình  
Nhng người có nguy cơ cao, trung bình hoc thp vi mt loi bnh tt nào đó  
Các đối tượng hin lên màn hình radar tương ng vi các vt thnhư xe c, người,  
tòa nhà hay cây ci  
Nhng người có vging, hơi ging hoc không ging vi ti phm  
Nhng ngôi nhà có thtăng giá, gim giá hoc gigiá trong vòng 1 năm ti  
Độ chính xác ca thi tiết (mưa) ca ngày tiếp theo trong dbáo thi tiết (chính xác  
cao, có vẻ đúng, không đúng, hu như sai)  
Các khách hàng có vmun hoc không mun mua mt sn phm nào đó trong siêu  
thị  
8
1.3. Bài toán dbáo xu thế thtrường chng khoán  
Các hthng tài chính thường là nhng hthng rt phc tp vì vy rt khó có thể  
dự đoán được dliu ca nó. Ví dnhư thtrường chng khoán, vic dự đoán được sự  
lên xung ca thtrường chng khoán qulà không đơn gin. Tính phi tuyến tính ca thị  
trường chng khoán kèm theo smù quáng ca các nhà đầu tư làm cho vic dự đoán thị  
trường chng khoán rt phc tp và khó khăn. Vì vy, vic làm thế nào để dự đoán tt thị  
trường chng khoán trnên rt thú vị đối vi các nhà nghiên cu và phân tích  
Để dự đoán được xu thế ca thtrường chng khoán, chúng ta phi tha nhn rng  
có mt slut cơ bn có thể được lp đi lp li trong thtrường chng khoán. Các lut  
này n trong lch sdliu. Tkhía cnh toán hc, các lut này là các hàm quan h. Đối  
tượng ca dự đoán chính là tìm ra các lut này và mô tchúng. Nhng dự đoán ca hệ  
thng phi tuyến động có thể được chuyn đổi thành vn đề dự đoán chui thi gian thc.  
Nhng nghiên cu trước chra rng, để dự đoán dliu chui thi gian phi tuyến tính thì  
sdng cây quyết định là mt phương pháp hiu qu. Chính vì lẽ đó, cây quyết định là  
mô hình tt để dự đoán xu thế ca thtrường chng khoán. Ngày nay có rt nhiu nghiên  
cu trên lĩnh vc này, nhưng trong nhng nghiên cu đó, thtrường chng khoán có thể  
không được phân tích tkhía cnh toán hc, vì thế mà cơ stoán hc ca phương pháp  
này không được công khai. Vì vy để gii quyết bài toán tt hơn, trước hết, cn đưa ra mô  
ttoán hc ca thtrường chng khoán.  
Vi mt hthng động, sphát trin ca nó có thể được mô tbng phương trình vi  
phân  
d p x  
dxp  
= f (x, x',..., x( p1)  
)
(1.0)  
Nếu mt biến trng thái ca quá trình này là li gii cho phương trình trên, thì hệ  
thng có thể được mô hình hóa thành mt vài chui thi gian ca biến này  
d2 x  
dt2  
dx  
= f (x, )  
dt  
(1.1)  
9
Gisrng nghim ca phương trình là mt chui thi gian vi bước h, x(j), j = 1 ~  
n, và sau đó mô hình ca hthng có thể được thc hin vi các phép tính, li gii ca  
phương trình vi phân bình thường trên. Các đáp án ca hsvi phân ti j ca phương  
trình trên được thay thế bi skhác nhau dưới đây:  
d2x  
dt2  
x(j+1)2x(j)+x(j1)  
|j =  
+o(h2)  
(1.2)  
(1.3)  
h2  
dx  
dt  
x( j) x( j 1)  
| j =  
+ o(h)  
h
Từ đó ta có được hàm sau  
x(j)x(j1)  
x(j+1)=h2 f x(j),  
+2x(j)x(j1)+o(h3)  
(1.4)  
h
Có thviết hàm trên thành mt hàm tng quát sau:  
x(j+1)=F(x(j),x(j1),h)  
(1.5)  
(1.6)  
Tng quát hóa đến phn tthp, ta có hàm tng quát sau:  
x(j+1)=F(x(j),x(j1),....,x(jp+1),h)  
Các khía cnh chính ca hàm nói trên để xác nhn hàm quan hF. Vì hthng áp  
dng chc năng giao dch phi tuyến tính, thế nên nhng vn đề phc tp vphi tuyến tính  
có thể được gii quyết rt tt trong cây quyết định. Da vào lý thuyết cơ bn vcây quyết  
định, từ đó ta xây dng mô hình cây quyết định cho bài toán dbáo xu thế chng khoán  
[7].  
1.4. Ni dung và cu trúc ca khóa lun  
Vi ni dung trình bày nhng lý thuyết cơ bn vmô hình cây quyết định cho dữ  
liu chng khoán – dliu thi gian thc (time series) và áp dng vào bài toán dbáo sự  
lên xung ca thtrường chng khoán. Khóa lun được tchc theo cu trúc như sau:  
Chương 1: Gii thiu các kiến thc cơ sở  
10  
Gii thiu sơ lược vkhai phá dliu, bài toán phân lp và dbáo và bài toán dự  
báo cho lĩnh vc chng khoán được phân tích dưới khía cnh toán hc giúp ta chn  
hướng gii quyết tt nht cho bài toán là sdng mô hình hc máy – mô hình cây quyết  
định. Chương này gii thiu nhng gì mà khóa lun nghiên cu từ đó thông qua vic trình  
bày vni dung và cu trúc ca khóa lun.  
Chương 2: Tng quan vcây quyết định  
Chương hai đi vào gii thiu mt cách tng quát nht vcây quyết định, cu trúc và  
hot động ca cây quyết định, các độ đo dùng để tìm đim chia ct thuc tính tt nht, các  
thut toán dùng để xây dng cây quyết định và gii thiu kthut toán C4.5. Vi nhng  
kiến thc cơ bn này, người đọc shiu được phn nào cu trúc, hot động cũng như  
nhng ưu nhược đim ca cây quyết định từ đó có thxây dng được mô hình phù hp  
cho tng bài toán  
Chương 3: Mô hình cây quyết định cho dliu chng khoán – dliu time  
series trong bài toán dbáo xu thế thtrường chng khoán  
Chương này gii thiu dliu thi gian thc (time series), dliu chng khoán  
trong bài toán dbáo chng khoán. Qua đó xây dng mô hình xlý bài toán và thiết kế  
chi tiết mô hình cây quyết định, cách thc hin tng bước trong thiết kế mô hình cây  
quyết định  
Chương 4: Thc nghim  
Gii thiu sơ lược vphn mm mã ngun mweka – công cmà khóa lun sử  
dng để xây dng mô hình dbáo xu thế chng khoán, xây dng mô hình, đánh giá mô  
hình da trên các độ đo xác định, từ đó chn được mô hình tt nht cho bdliu mà tác  
gisdng. Trong chương này, tác gicũng gii thiu hai mô hình khác và có điu chnh  
tham sca hai mô hình này để cho ra kết qutt nht ri so sánh vi kết qutt nht ca  
mô hình mà tác giả đã dùng  
Chương 5: Kết lun  
Chương này tng kết li nhng gì đã đạt được và chưa đạt được. Từ đó nêu lên  
nhng kết quhướng ti, hướng nghiên cu và phát trin tiếp theo ca lun văn này  
11  
Chương 2. Tng quan vcây quyết định  
2.1. Định nghĩa  
Cây quyết định (decision tree) là mt trong nhng hình thc mô tdliu trc quan  
nht, dhiu nht đối vi người dùng. Trong lĩnh vc hc máy, cây quyết định là mt  
kiu mô hình dbáo (prediction model), nghĩa là ánh xtcác quan sát vmt sự  
vt/hin tượng ti các kết lun vgiá trmc tiêu ca svt/hin tượng [20].  
2.2. Cu trúc  
Mt cây quyết định là mt sơ đồ có cu trúc dng cây bao gm các nút và các  
nhánh.  
Nút dưới cùng được gi là nút lá, trong mô hình phân lp dliu chính là các giá trị  
ca các nhãn lp (gi tt là nhãn). Các nút khác nút lá được gi là các nút trong tương  
ng vi mt biến, đây còn là các thuc tính ca tp dliu, hin nhiên các thuc tính này  
phi khác thuc tính phân lp.  
Mi mt nhánh ca cây xut phát tmt nút trong nào đó ng vi mt phép so sánh  
da trên min giá trca nút đó. Nút đầu tiên được gi là nút gc ca cây  
Nút gc  
Nhánh  
Nút trong  
Nút lá  
Nút lá  
Nút lá  
Hình 2-0: Biu din cu trúc cây quyết định  
12  
Cây quyết định có thể được mô tnhư là skết hp ca các kthut toán hc và  
tính toán nhm htrvic mô t, phân loi và tng quát hóa mt tp dliu cho trước  
Dliu được cho dưới dng các bn ghi có dng:  
(x, y) = (x1, x2, x3….xk, y)  
Biến phthuc y là biến mà chúng ta cn tìm hiu, phân loi hay tng quát hóa x1,  
x2, x3…. là các biến sgiúp ta thc hin công vic đó.  
2.3. Các kiu cây quyết định  
Cây quyết định còn có hai tên khác:  
Cây hi quy (Regression tree): ước lượng các hàm có giá trlà sthc thay vì được  
sdng cho các nhim vphân loi. Ví d: ước tính giá mt ngôi nhà hoc khong thi  
gian mt bnh nhân nm vin  
Cây phân loi (Classification tree): nếu y là mt biến phân loi như: gii tính (nam  
hay n), kết quca mt trn đâu (thng hay thua)  
2.4. Các độ đo sdng để xác định đim chia tt nht  
Như phn trên đã phân tích thì các tiêu chí để đánh giá tìm đim chia là rt quan  
trng, chúng được xem là mt tiêu chun “heuristic” để phân chia dliu. Ý tưởng chính  
trong vic đưa ra các tiêu chí trên là làm sao cho các tp con được phân chia càng trnên  
“trong sut” (tt ccác bthuc vcùng mt nhãn) càng tt.  
Cho mt tp dliu D, mt tp các nhãn Ci (i >=1 và i <= m vi m là snhãn), định  
nghĩa các khái nim sau:  
Ci, D: là tt ccác bdliu có nhãn lp Ci trong D  
|D|: là tng sbdliu ca tp dliu D  
|Ci, D|: là tng sbdliu ca tp dliu D có nhãn lp Ci  
Vi các khái nim trên, thông thường người ta ssdng ba tiêu chsau để đánh giá  
chn đim chia:  
13  
2.4.1. Độ li thông tin (Information Gain)  
Độ đo này da trên cơ slý thuyết thông tin ca nhà toán hc Claude Shannon, độ  
đo này xác định giá trca ni dung mà các thông tin shu trong mt lot các thông  
đip. Độ đo này phthuc vào độ đo shn lon ca tp dliu và thông tin có được sau  
khi phân lp  
Đo shn lon ca tp dliu (entropy)  
m
Info (D) = -  
p .log p  
i
(2.0)  
i
2
i=1  
Vi pi là xác sut ca mt bbt ktrên D thuc vnhãn Ci  
|Ci , D |  
p =  
(2.1)  
i
| D |  
Có thxem công thc Info(D) như mt hàm tính giá trtrung bình trên lượng  
thông tin nhm xác định nhãn ca mt bbt ktrong tp D  
Độ đo thông tin có được sau khi phân lp  
Gisphân chia các btrong D trên mt thuc tính A bt k, để không mt tính  
tng quát có thxem A có các giá trphân bit {a1, a2, a3, …, av}. Nếu thuc tính A được  
sdng để chia thành v tp con, nhng tp con này stương ng vi các nhánh con ca  
nút hin ti. Độ đo thông tin có được sau khi phân lp theo v tp con trên sẽ được tính  
như sau:  
v
D
Info A (D) =  
j Info(Dj )  
(2.2)  
D
j=1  
Vi |Dj| là tng sbdliu được phân chia vào tp con thj  
Độ đo Gain được xác định là skhác bit gia thông tin gc (thông tin khi chưa  
phân lp) và thông tin mi (thông tin sau khi đã phân lp). Thông tin có được bi vic  
phân nhánh trên thuc tính A là:  
Gain (A) = Info(D) – InfoA(D)  
(2.3)  
Nói mt cách khác, độ đo Gian cho biết được lượng thông tin thu được khi phân lp,  
thuc tính nào có độ đo Gain ln nht sẽ được chn làm ng cviên để phân chia. Vic  
chn thuc tính theo tiêu chí độ đo Gian ln nht tương đượng vi vic mun tìm được  
14  
mt phân hoch sao cho vic phân lp là tt nht hay nói cách khác lượng thông tin cn  
thiết để hoàn thành vic phân lp ( thhin qua giá trlà nhnht)  
2.4.2. Độ đo tlGain (Gain ratio)  
Theo các nghiên cu thì độ đo Gain thích hp trong trường hp các thuc tính có  
nhiu giá trhin hành (dĩ nhiên các giá trnày phi thuc min giá tr, ví dvi 100 mu  
tin có 80 giá trkhác nhau ca thuc tính khi sdng phép chiếu lên thuc tính). Độ đo tỷ  
lGain (Gain ratio) được mrng từ độ đo Gain, được định nghĩa như sau:  
v
| Dj |  
| D |  
| Dj |  
| D |  
SplitInfo (D) =  
×log2 (  
)
(2.4)  
A
j=1  
Công thc SplitInfoA (D) cho biết thông tin tim n được to ra bng cách chia tp D  
trong v tp con. Vi mi tp con được to ra, tính toán tlca sbtrong tp con này  
so vi tng sbdliu trong tp D. Khi đó, độ đo tlGain sẽ được tính theo công  
thc sau:  
Gain( A)  
GainRatio( A) =  
(2.5)  
SplitInfo( A)  
Tt cthuc tính sẽ được tính toán độ đo tlGain, thuc tính nào có độ đo tlệ  
Gain ln nht sẽ được chn làm thuc tính phân chia.  
2.4.3. ChsGini (Gini index)  
ChsGini được sdng trong thut toán CART. Trái ngược vi độ đo Gain, chsố  
Gini là độ đo vtính “không trong sut” ca tp dliu. ChsGini ca mt tp dliu  
D được định nghĩa như sau:  
m
G in i ( D ) = 1 −  
( p i ) 2  
(2.6)  
i = 1  
Vi m là tng snhãn lp, pi là xác sut để mt bbt ktrong D thuc vmt  
nhãn Ci, được tính như sau:  
| C  
|
i , D  
p i  
=
(2.7)  
| D |  
15  
ChsGini thường sẽ được tính toán da trên giả định vmt tp dliu D được  
phân chia nhphân thành hai tp con. Đầu tiên xét trường hp thuc tính A bt ktrong D  
có kiu dliu ri rc, khi dùng phép chiếu sthu được v = {a1, a2, …., av} giá trkhác  
nhau. Để xác định đim chia tt nht ca A, kim tra tt ctp con có thto được tv  
giá trphân bit trên, mi tp con tm gi là SA là mt điu kin kim tra nhphân dng A  
€ SA. Như vy vi v giá trkhác nhau ta scó 2v – 2 tp con, trong đó tp rng và tp toàn  
phn v = {a1, a2, ….,av} skhông được xét đến. Như vy tiến hành lp qua tt ccác tp  
con này, mi ln lp sphân chia tp giá trv thành hai tp con v1 và v2 riêng bit tha  
điu kin ri rc toàn phn (hi v1 và v2 chính là tp v và phn giao là tp rng). Vi hai  
tp con v1 và v2 này tương ng tp con D cũng được phân chia thành hai tp con D1 (các  
bcó giá trthuc tính A € v1) và D2 (các bcó giá trthuc tính A € v2) theo, Gini (D) sẽ  
được tính như sau:  
| D |  
| D2 |  
| D |  
1
GiniA (D) =  
Gini(D ) +  
Gini(D2 )  
(2.8)  
1
| D |  
Khác vi độ đo Gain, ta chn chsGini nhnht vi mong mun sau khi phân chia  
dliu slàm gim tính không trong sut ca tp D nhiu nht. Đối vi các giá trliên  
tc thì đầu tiên phi sp xếp các giá trnày, sau đó tt ccác giá trcũng sẽ được tính toán  
chsGini và cũng chn ra giá trnào có thuc tính Gini nhnht. Cũng ging như độ đo  
Gain, chsGini thông thường cũng được tính cho đim gia ca hai giá trliên tc nm  
lin knhau. Lúc này tp D sẽ được chia làm hai tp D1 là các bdliu tha điu kin  
giá trthuc tính A nhhơn hoc bng giá trị đim gia và D2 tha điu kin giá trthuc  
tính A ln hơn giá trị đim gia. Mc tiêu ca chsGini là càng làm gim tính không  
trong sut ca dliu càng nhiu càng tt, giá trgim trnày thc hin qua công thc:  
Ugini (A) = Gini(D) – GiniA(D)  
(2.9)  
Lưu ý Gini (D) là mt con scố định, chính vì mc đích chn đim chia sao cho  
Ugini(A) là ln nht nên bt buc chn thuc tính A sao cho GiniA(D) là nhnht [3]  
[19]  
16  
2.5. Ct ta cây (thu gn cây)  
Khi xây dng cây quyết định, cu trúc ca mt cây quyết định là mt vn đề quan  
trng cn xem xét, có thcác nhánh sphn ánh nhng dthường trong dliu thdo  
nhiu hay dliu không liên quan. Ct nhánh hay không ct nhánh cây có thlàm thay  
đổi hiu quhc tcác tp dliu. Ct nhánh làm gim kích thước ca cây do loi bbt  
các nhánh tha trong quá trình xây dng cây do đó làm gim sphc tp ca kết quả  
phân lp và độ chính xác ca dbáo cũng tt hơn  
Phương thc này thông thường sdng độ đo thng kê để loi bnhng nhánh ít tin  
cy nht, nhìn chung smang li kết quphân lp nhanh hơn và ci thin được độ tin cy  
ca cây để gii quyết vn đề phân lp bị độc lp vi dliu thử  
Nhìn chung có hai phương pháp thu gn cây như sau:  
Phương pháp thu gn cây trước: Cây được thu gn bng cách tm dng quá trình  
dng cây sm (tc là bng cách quyết định không tiếp tc phân chia tp con ví dụ đào to  
nút hin ti nhhơn na), do dng vic phân chia sm này, nút đó strthành mt lá,  
lá này có thcha đựng lp xut hin nhiu nht trong scác tp mu con hay phân bố  
xác sut ca các mu  
Khi xây dng mt cây, các độ đo như ý nghĩa thng kê, li ích thông tin,… có thể  
được sdng để đánh giá độ tt ca vic chia ct. Nên vic phân hoch các mu ti nút  
đó có kết qunm bên dưới mt ngưỡng định trước nào đó thì skhông phân chia tiếp  
các tp con na. Tuy nhiên để chn được mt ngưỡng phù hp là mt vic làm khó.  
Ngưỡng cao smang li mt cây quá đơn gin, trong khi ngưỡng thp có thmang li  
mt cây quá chi tiết  
Phương pháp rút gn cây sau: Thc hin loi bcác nhánh khi mt cây đã được  
xây dng xong. Mt nút ca cây được rút gn bng cách loi bcác nhánh ca nó. Nút  
thp nht không bthu gn strthành lá và được gán nhãn bng nhãn lp xut hin  
nhiu nht trong scác nhánh ca nó trước đó. Vi mi nút không phi là lá trong cây,  
thut toán stính toán tlli mong mun xy ra nếu cây con ti nút đó không bct ct  
bng vic sdng tlli cho mi nhánh, được kết hp bi li ln hơn tlli mong  
mun thì cây con đó được gili, nếu không thì nó sbloi b. Sau khi sinh ra mt tp  
17  
các cây đã được ct gn theo tng nc, mt lot các phép thử độc lp được sdng để  
đánh giá schính xác ca mi cây này. Cây quyết định nào mà có tlli thp nht sẽ  
được ưu tiên chn  
Chúng ta cũng có thsdng xen khai phương pháp thu gn cây trước và thu gn  
cây sau trong quá trình thu gn cây. Thu gn cây đòi hi nhiu tính toán hơn thu gn cây  
trước, song thông thường nó mang li cây quyết định tin cy hơn  
2.6. Rút ra quy tc phân lp tcây quyết định  
“Chúng ta có thrút ra được quy tc phân lp tcây quyết định? Nếu có thì như thế  
nào?” Tri thc biu din trong cây quyết định có thể được rút ra và biu din dưới hình  
thc ca quy tc phân lp IF-THEN. Mt quy tc được to rat hay thế cho mt đường dn  
ti mt nút lá. Mi mt cp thuc tính-giá trtheo mt hướng đi cthhình thành phn  
đầu ca quy tc (phn “IF”). Nút lá cha lp dự đoán, hình thành phn sau ca quy tc  
(phn “THEN”). Quy tc IF-THEN có thlàm cho người đọc dhiu, đặc bit trong  
trường hp cây ln.  
Ví dcây quyết định sau  
Tui  
<=30  
>40  
31…4  
Sinh viên  
Có  
Tltin gi  
sai  
đúng  
T
t  
R
t t
t  
Có  
Không  
Có  
Không  
Hình 2-1: Mt cây quyết định miêu tkhái nim “mua máy tính”  
Ta có thchuyn đổi thành quy tc phân lp có dng IF-THEN bng cách ln theo  
đường dn tgc đến tng nút lá như sau:  
18  
IF tui=”<=30” AND sinh_vien = “sai”  
IF tuoi = “<=30” AND sinh_vien = “đúng”  
IF tuoi = “31…40”  
THEN mua_may_tinh= “sai”  
THEN mua_may_tinh = “đúng”  
THEN mua_may_tinh = “sai”  
IF tuoi = “>40” AND ty_le_tien_gui = “rt tt” THEN mua_may_tinh = “sai”  
IF tuoi = “>40” AND ty_le_tien_gui = “tt” THEN mua_may_tinh = “đúng”  
Mt quy tc có thể được thu gn bng cách loi bmt số điu kin phn đầu ca  
quy tc, điu này không làm ci tiến độ chính xác ước lượng ca quy tc. Vi mi lp,  
các quy tc trong mt lp sau đó có thể được xếp loi theo độ chính xác ước lượng ca  
chúng. Vì thế khnăng mt mu thử đã cho skhông tha mãn phn đầu ca mi quy tc,  
mt quy tc mc định được gán cho đa scác lp, thông thường cũng được thêm vào tp  
quy tc kết quả  
2.7. Các thut toán trong cây quyết định  
Cây quyết định là mt trong nhng gii pháp trc quan và hu hiu để mô tquá  
trình phân lp dliu. Do cây quyết định rt hu dng nên đã có nhiu nghiên cu để xây  
dng nó mà ni bt là các thut toán hc quy np như CARD, ID3, C45…..  
Các thut toán trên đều da trên mt thut toán cơ bn để xây dng cây chkhác  
nhau tiêu chun/thuc tính phân chia và độ đo để la chn.  
Thut toán ID3 (Iterative Dichotomiser 3) do Quinlan Ross gii thiu vào năm 1986  
[11]. Nó da trên thut toán Hunt và sdng độ li thông tin (Gain) để la chn thuc  
tính phân lp các đối tượng. Ý tưởng cơ bn ca gii thut ID3 là để xây dng cây quyết  
định bng vic sdng mt cách tìm kiếm ttrên xung trên nhng tp hp cho trước để  
kim tra mi thuc tính ti mi nút ca cây, thuc tính nào có độ li thông tin (Gain) ln  
nht sẽ được chn để phân chia đối tượng. Quá trình này được thc hin mt cách đệ quy  
cho đến khi tp đối tượng ti mt cây con đã trnên thun nht, tc là nó chcha các đối  
tượng thuc vcùng mt lp. Lp này strthành mt lá ca cây.  
Thut toán C4.5 là mt ci tiến ca thut toán ID3, do Quinlan Ross phát trin vào  
năm 1993, sdng độ đo tlgain làm tiêu chun chia ct [11]. Khi slượng các trường  
19  
hp nhhơn mt ngưỡng nào đó thì nó bct khi cây. Li ct ta được tính toán sau khi  
mrng cây. C4.5 có thxlý các thuc tính s.  
Thut toán CART (classification and regression trees) do Breiman phát trin vào  
năm 1984, gm cphân lp và hi quy cây [11]. Phân lp trong CART da trên vic chia  
ct nhphân các thuc tính, sdng độ đo gini để la chn thuc tính chia ct. Ct ta cây  
trong CART được thc hin bng cách sdng mt phn ca tp dliu hun luyn.  
CART sdng cthuc tính kiu svà thuc tính rõ ràng trong xây dng cây quyết định  
và có khnăng xlý vi các thuc tính li. CART khác vi các thut toán khác, nó sử  
dng phân tích hi quy để giúp quá trình hi quy ca cây. Nhng đặc đim phân tích hi  
quy được sdng trong dự đoán mt biến phthuc trong mt tp hp các biến dự đoán  
trong mt khong thi gian (Breiman, 1984) [11]. Nó sdng nhiu biến độc lp làm tiêu  
chun chia ct như chsgini, symgin…và mt trong nhiu biến để xác định đim chia  
tt nht và dliu được sp xếp mi nút.Các tiêu chí kết hp chia ct tuyến tính được  
sdng trong sut quá trình phân tích hi quy. Salford systems đã thc hin phiên bn  
ca CART gi là CARTR sdng mã ban đầu ca Breiman (1984) [11]. CARTR mrng  
nhng đặc tính và khnăng phân lp và dự đoán chính xác ca cây vi nhng dliu  
thiếu  
Trong [13], hai tác giMatthew N.Anyanwu và Sajjan G.Shiva đã xem xét khong  
30 bài báo để kho sát xem trong mt lot các thut toán ca cây quyết định thì thut toán  
nào hay được sdng nht.  
Thut toán  
CLS  
Tlsdng  
9%  
ID3  
4.5%  
C4.5  
54.55%  
9%  
C5.0  
CART  
40.9%  
4.5%  
Random Tree  
Random Forest  
9%  
20  
SLIQ  
27.27%  
……  
………  
Hình 2-2: Kết quca cuc kho sát  
Theo như cuc kho sát trên thì thut toán C4.5 là thut toán được sdng nhiu  
nht, sau đó là thut toán CART. Thut toán CART sdng độ đo gini để xác định đim  
chia còn thut toán C4.5 sdng độ đo tlgain.  
Kim tra trên CART luôn là nhphân, nhưng trên C4.5 cho phép hai hay nhiu giá  
trthuc tính. CART ct nhánh cây dùng mt mô hình chi phí phc tp qua các tham số  
được ước lượng bng cách kim tra chéo (cross-validation), C4.5 dùng mt gii thut để  
xác định mt giá trnhn được tmt gii hn nhphân đáng tin cy. Do đó kết quphân  
lp khi sdng thut toán C4.5 stt hơn, nhanh hơn thut toán CART. Trong lun văn  
này, tôi sdng thut toán C4.5 để xây dng mô hình cây quyết định cho bài toán phân  
lp  
2.8. Quá trình to cây quyết định  
2.8.1. Khnăng hc và tng quát hóa  
Có thnói đặc trưng cơ bn nht ca cây quyết định là khnăng hc và tng quát  
hóa. Trong kthut hc máy dùng cây quyết định được gi là hc bng cây quyết định,  
hay chgi vi cái tên ngn gn là cây quyết định  
Hc: là khnăng mà cây quyết định có thphân loi chính xác nhng mu đã được  
hun luyn  
Tng quát hóa: là khnăng cây có thnhn biết được nhng mu chưa tng được  
hun luyn. Chính khnăng này to nên sc mnh ca mng  
2.8.2. Các phương pháp hun luyn cây  
Hun luyn cây: là quá trình to cây sao cho khnăng hc và tng quát hóa mà nó  
đạt được là cao nht. Bn cht ca vic làm này là tính toán lượng thông tin nhn được  
trên các thuc tính và chn thuc tính tương ng có lượng thông tin ti đa làm nút phân  
21  

Tải về để xem bản đầy đủ

pdf 74 trang yennguyen 05/05/2025 90
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Ứng dụng mô hình học máy tiên tiến nhằm tăng cường khả năng dự báo xu thế của thị trường chứng khoán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_ung_dung_mo_hinh_hoc_may_tien_tien_nham_tang_cuong.pdf