Khóa luận Áp dụng phương pháp trích chọn thuộc tính đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
Trần Phƣơng Nhung  
ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC  
TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ  
PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI - 2009  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  
Trần Phƣơng Nhung  
ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC  
TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ  
PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
Cán bộ hƣớng dẫn: TS. Nguyễn Hà Nam  
HÀ NỘI - 2009  
Li cảm ơn  
“Để hoàn thành khóa lun này, tôi xin gi li cảm ơn chân thành tới quý thy cô  
trong trường Đại hc Công Ngh- ĐHQGHN đã tận tình chbo tôi trong sut bốn năm  
học đại học. Tôi cũng xin cảm ơn sự hướng dn nhit tình ca thy Nguyn Hà Nam,  
cùng sự giúp đỡ của anh Đặng Tất Đạt sinh viên cao hc khoa Toán Tin trường Đại  
hc Tự Nhiên, ĐHQGHN.  
Tôi cũng thầm biết ơn sự ủng hcủa gia đình, bạn bè những người thân yêu luôn  
luôn là chda tinh thn vng chắc cho tôi.”  
Hà Nội, tháng 05 năm 2009.  
Sinh viên  
Trần Phương Nhung  
Tóm tt khóa lun  
Trong khóa lun này tôi áp dng thut toán di truyền (Genetic Algorithm) để bước  
đầu ci tiến hiu quphân lp của phương pháp minimax probability machine (MPM).  
Phần đầu tôi xin gii thiu tng quan vkhái nim khai phá dliu. Tiếp đó, tôi strình  
bày về cơ sở lý thuyết ca thut toán di truyền và phương pháp phân lớp minimax  
probability machine. Cui cùng, tôi smô tchi tiết vquá trình xây dng hthng có  
ng dng thut toán di truyn trong phân lớp minimax probability machine để chuẩn đoán  
bệnh ung thư. Mô hình phân lp mi này sẽ được chy thtrên mt số cơ sở dliu ln  
và đưa ra những sliu thống kê để có ththấy được hiu quca hthng so vi  
phương pháp phân lớp chsdng minimax probability machine.  
1
Mc lc  
Gii thiu.........................................................................................................................8  
Chương 1: Gii thiu vkhai phá dliu....................................................................10  
1.1. Khai phá dliu là gì?......................................................................................10  
1.2. Ti sao phi tiến hành khai phá dliu?...........................................................10  
1.3. Quá trình khai phá dliu ................................................................................11  
1.4. Kiến trúc điển hình ca mt hkhai phá dliu...............................................12  
1.5. Các bài toán khai phá dliệu điển hình............................................................13  
1.6. Các lĩnh vực liên quan đến khai phá dliu .....................................................15  
1.7. Các ng dụng điển hình ca khai phá dliu ...................................................15  
1.8. Các thách thc vi khai phá dliu..................................................................16  
1.9. Kết lun............................................................................................................16  
Chương 2: Trích chn thuc tính phù hp..................................................................17  
2.1. Gii thiu .........................................................................................................17  
2.2. Mô hình trong bài toán trích chn.....................................................................18  
2.2.1. Các mô hình trong trích chn....................................................................18  
2.2.2. Đánh giá hai mô hình Filter và Wrapper...................................................19  
2.2.2.1.  
2.2.2.2.  
Mô hình Filter....................................................................................19  
Mô hình Wrapper...............................................................................19  
2.3. Mt skthut xlý........................................................................................20  
2.3.1. Bsinh tp con (Feature Subset Generator)..............................................20  
2.3.2. Bộ đánh giá tập con đc trưng (Feature Subset Evaluator).......................21  
2.3.3. Thut toán học điều khin (Central machine learning algorithm)..............22  
2.4. Kết lun............................................................................................................22  
2
Chương 3: Genetic algorithms .....................................................................................23  
3.1. Gii thiu...........................................................................................................23  
3.2. Động lc ............................................................................................................23  
3.3. Thut gii di truyn ............................................................................................24  
3.3.1. Ni dung thut toán .......................................................................................24  
3.3.2. Thhin các githuyết ..................................................................................26  
3.3.3. Các toán tdi truyn .....................................................................................27  
3.3.4. Hàm thích nghi và schn lc.......................................................................29  
Chương 4: Minimax probability machine ...................................................................31  
4.1. Gii thiu...........................................................................................................31  
4.2. Ni dung thut toán............................................................................................31  
4.3. Ưu điểm và nhược điểm ca minimax probability machine ................................32  
4.4. Các phiên bn ci tiến ca minimax probability machine ...................................32  
4.4.1. Minimum error minimax probability machine (MEMPM) ..............................32  
4.4.2. Biased minimax probability machine (BMPM)...............................................34  
Chương 5: Phương pháp đề ngh.................................................................................35  
5.1. Tng quan vphương pháp ..............................................................................35  
5.1.1. Mô tphương pháp...................................................................................35  
5.1.2. Mô hình bài toán.......................................................................................36  
5.2. Mô tdliu sdng.......................................................................................36  
5.3. Các module trong hthng và giao din ca chương trình................................37  
5.3.1. Chi tiết các module ca Genetic Algorithm ...............................................37  
5.3.2. Chi tiết các module ca minimax probability machine...............................41  
5.4. Thc nghim và phân tích kết qu....................................................................43  
5.4.1. Phương pháp đánh giá...................................................................................43  
5.4.2. Phân tích kết qu...........................................................................................44  
3
5.4.2.1. Kết quthc hin phân lp trên bdliệu ban đầu.................................44  
5.4.2.2. Kết quthc hin phân lp trên bdliu gim chiu (outData.mat)......45  
5.4.2.3. So sánh kết qu4 trường hp kim th....................................................51  
5.4.2.4. Kết lun...................................................................................................52  
Chương 6: Tng kết......................................................................................................53  
4
Danh sách các hình  
Hình 1.1: Quá trình phát hin tri thc trong cơ sdliu [2]. ........................................12  
Hình 1.2: Kiến trúc điển hình ca hthng khai phá dliu [2].....................................13  
Hình 1.3: Tính đa/ liên ngành của khai phá dliu [2]...................................................15  
Hình 2.1: Bn bước cơ bn trong quá trình trích chn các thuc tính phù hp [6]. .........17  
Hình 2.2: Mô hình Filter [6]...........................................................................................18  
Hình 2.3: Mô hình Wrapper [6]......................................................................................18  
Hình 3.1: Các toán tchung cho thut gii di truyn [20]...............................................28  
Hình 4.1: Mô tskhác nhau gia MEMPM (h.1) và MPM (h.2) vi cùng xác sut tiên  
nghim cho 2 lp. [17]....................................................................................................34  
Hình 5.1: Mô hình kết hp thut toán di truyn và phương pháp phân lp MPM............36  
Hình 5.2: 6 bước thc hiện để tìm ra chromosome tt nht.............................................38  
Hình 5.3: Giá trcủa hàm đánh giá tại mi thế h...........................................................39  
Hình 5.4: Hình nh biu diễn hàm đánh giá ca GA ti mi thế h.................................40  
Hình 5.5: Kết ququá trình ti ưu tp thuc tính ca dliệu ban đầu.............................41  
Hình 5.6: Giao din kết quca bphân lp minimax probability machine. ..................42  
Hình 5.7: So sánh tlphân lp chính xác ca tp dliu gc và dliu mi (trường hp  
1)....................................................................................................................................46  
Hình 5.8: So sánh tlphân lp chính xác ca tp dliu gc và dliu mi (trường hp  
2)....................................................................................................................................47  
Hình 5.9: So sánh tlphân lp chính xác ca tp dliu gc và dliu mi (trường hp  
3)....................................................................................................................................49  
Hình 5.10: So sánh tlphân lp chính xác ca tp dliu gc và dliu mi (trường  
hp 4). ............................................................................................................................50  
Hình 5.11: So sánh kết quphân lp trung bình trong 4 trường hp kim thvà kết quả  
phân lp ca dliu gc.................................................................................................51  
5
Danh sách các bng  
Bng 3.1: Thut gii di truyn mu. [20] ........................................................................24  
Bng 5.1: Mô tbng dliu sdng (file Stomach_Full.mat)......................................37  
Bng 5.2: Kết quphân lp trên bdliệu ban đầu .......................................................44  
Bng 5.3: Kết quphân lp trong trường hp 1..............................................................45  
Bng 5.4: Kết quphân lp trong trường hp 2..............................................................46  
Bng 5.5: Kết quphân lp trong trường hp 3..............................................................48  
Bng 5.6: Kết quphân lp trong trường hp 4..............................................................49  
6
Bng các tviết tt  
Biased Minimax Probability Machine  
BMPM  
GA  
Genetic Algorithm  
Genetic Algorithms  
Gas  
Las Vegas  
LV  
Matlab  
Matrix Laboratory  
MPM  
Minimax Probability Machine  
Minimum Error Minimax Probability Machine  
Online Analytical Processing  
MEMPM  
OLAP  
7
Gii thiu  
Những năm gần đây, các cơ sở dliệu đã đem lại nhng li ích vô cùng to ln cho  
con người. Song hành cùng sphát trin nhanh chóng ca công nghthông tin và nhng  
ng dng của nó trong đời sng, kinh tế và xã hội, lượng dliu thu thp ngày càng nhiu  
theo thi gian, dẫn đến vic xut hin ngày càng nhiu các hthống cơ sở dliu có kích  
thước ln. Trong xã hi hiện đại, thông tin được coi như sức mnh và là yếu tquyết định  
thành công trong mọi lĩnh vực, do đó việc tìm ra thông tin hu ích trong khi dliu  
khng lồ được xem như mục tiêu hàng đầu ca mi tchc và cá nhân.  
Trong khóa lun này, tôi sẽ ứng dng kthut chn la tp các thuc tính có ích trong  
bài toán trích chọn để nhm ci thin hiu quphân lp dliu, là nn tng cho hthng  
chuẩn đoán bệnh ung thư. Hệ thng này sẽ được hun luyn vi tp dliu vcác bnh  
nhân có từ trước và khi có dliu ca bnh nhân mi, hthng stự động đưa ra chuẩn  
đoán người đó có bị bnh hay không? Tôi sdụng phương pháp phân lớp Minimax  
Probability Machine (MPM) kết hp cùng thut toán di truyền (Genetic Algorithm) để  
xây dng hthng này. Vi mục đích làm tăng độ chính xác ca quá trình phân lp dữ  
liu và gim thi gian hun luyn ca bphân lp, tôi sdng thut toán di truyền để la  
chn tp thuc tính tt nht ca tp dliệu ban đầu nhm tìm ra bdliu phù hp nht  
cho đầu vào ca bphân lp MPM. Kết quthc nghiệm đã chứng minh rằng phương  
pháp phân lp sdng thut toán di truyền để tối ưu tập thuc tính cho kết qutốt hơn  
phương pháp truyn thng.  
Ni dung chính ca khóa lun bao gồm sáu chương, với ni dung cthể như sau:  
Chương 1 tp trung mô tvkhai phá dliu (data mining), gii thiu nhng bài toán  
điển hình trong khai phá dliệu cũng như những ng dng rng rãi của lĩnh vực này.  
Cui cùng là nhng thách thức đặt ra cho quá trình khai phá dliu.  
Chương 2 có ni dung chyếu trình bày vkhái nim trích chn thuc tính phù hp,  
nhng mô hình trích chọn điển hình và mt skthut xlý trong quá trình trích chn.  
Chương 3 gii thiu về cơ sở lý thuyết cũng như những bước thc hin ca thut toán di  
truyn. Thuật toán này được sdụng để tìm ra tp các thuc tính phù hp nht vi thut  
toán MPM sẽ được trình bày ở chương sau.  
8
Chương 4 smô tả phương pháp phân lớp minimax probability machine. Phân tích  
nhng mt mnh và yếu của phương pháp này để đề ra nhng ci tiến nhm nâng cao hiu  
quphân lp ca minimax probability machine.  
Chương 5 trình bày chi tiết quá trình xây dng mô hình dkiến ca tôi bao gm phân lp  
minimax probability machine kết hp vi thut toán di truyn. Phn còn li của chương  
dùng để mô tả quá trình đánh giá chất lượng, từ đó đưa ra những phân tích kthut và kết  
lun vhiu quca mô hình.  
Chương 6 tóm tt li nhng kết quả đã đạt được ca khóa luận, đồng thi nêu ra nhng  
mt còn hn chế trong phương pháp đề nghvà nhng hướng nghiên cu có thtrong  
tương lai nhằm ci tiến hiu qucủa phương pháp này.  
9
Chương 1: Gii thiu vkhai phá dliu  
1.1. Khai phá dliu là gì?  
Có khá nhiều định nghĩa về khai phá dliệu, nhưng định nghĩa đơn giản nht là khai  
phá dliu là vic trích rút thông tin hay tri thc mi và có ích tngun dliu khng lồ  
(Frawley, Piatetski-Shapiro và Matheus) [1].  
Ngoài ra, khai phá dliu còn có thhiu là trích rút các thông tin có ích tnhng dữ  
liệu không tường minh, hoc trích rút ly nhng thông tin không biết trước và tim tàng  
trong dliu. Cũng có thể hiu, khai phá dliu là vic phân tích kho sát mt cách tmỉ  
số lượng ln dliu bng các phương pháp tự động hoc bán tự động nhm tìm ra các  
thông tin hay tri thc có ích.  
Có thnhn xét rng, khái nim khai phá dliu là khá rng lớn, nhưng không phải  
tt cmi công việc liên quan đến dliệu đều được coi là khai phá dliu, chng hn  
như nhng vic xlý truy vấn đơn giản như tra cứu mt số điện thoi, hay thng kê ra  
nhng hc sinh gii ca mt lp, thì không thể coi đó là khai phá dữ liệu. Nhưng những  
công việc như gom nhóm các tài liệu trvtmáy tìm kiếm theo tng ngcnh thì li  
được xem là khai phá dliu. Chính vì sự phong phú và đa dạng này mà dẫn đến thc  
trng là tn ti mt squan nim khác nhau vchuyên ngành nghiên cu gần gũi nhất vi  
lĩnh vực khai phá dliu. Tài liu này của tôi tán thành quan điểm vkhai phá dliu ca  
Frawley, Piatetski-Shapiro và Matheus [1].  
1.2. Ti sao phi tiến hành khai phá dliu?  
Trong những năm gần đây, khai phá dữ liu trthành một lĩnh vực nghiên cu rng  
rãi trong ngành công nghip thông tin, nguyên nhân chyếu là do khối lượng khng lồ  
ca dliu mà con người tạo ra, đi kèm với nó là scn thiết ca vic rút trích tri thc từ  
nhng dliệu đó. Thông tin và tri thc có thể được áp dng vào nhiều lĩnh vực tphân  
tích thị trường tài chính, phát hin gimạo, cho đến điều khin sn xut và nghiên cu  
khoa hc.  
Nhìn vào hai lĩnh vực sinh ra nhiu dliu nhất đó là thương mại và khoa hc. Trong  
lĩnh vực thương mại, hàng ngày hàng giờ con người đang tạo ra, thu thập và lưu trữ li rt  
nhiu dliệu, như dliu web, dliu về thương mại điện t, dliu vvic thanh toán  
ti các ca hàng và các dliu thanh toán trong các tài khoản… Tính cạnh tranh trong  
10  
kinh doanh là rt cao, cho nên vic phân tích dliệu để cung cp dch vtốt hơn, có nhiều  
tiện ích cho khách hàng, và đón bắt chính xác nhu cu ca khách hàng rt quan trng.  
Trong lĩnh vực khoa học, dường như lượng dliu sinh ra và thu thp li còn lớn hơn  
nhiu, lên ti hàng GB/gi, chng hạn như dữ liu tvtinh, tcác nh chụp vũ trụ và từ  
các mô phng thnghim khoa hc. Khai phá dliu giúp các nhà khoa hc trong vic  
phân lp dliu và htrtrong việc đưa ra các quyết định.  
Cùng vi sphát trin ca khoa hc, của ngành cơ sở dliu không thkhông kể đến  
là sphát trin ca ngành công nghiệp máy tính, người ta đã tạo ra những phương tiện  
lưu trữ lớn hơn, những máy tính rẻ hơn, tốc độ cao hơn, trợ giúp cho quá trình thu thp dữ  
liệu cũng như khai phá chúng.  
Trong quá trình tác nghiệp, người ta thường phải đưa ra các quyết định, tuy nhiên, vi  
lượng dliu khng lồ như thế, người ta không thsdng hết, hoc nếu mun sdng  
thì phi mt thi gian quá nhiều, như vậy có nguy cơ đánh mất cơ hội. Do đó, vic sử  
dụng máy tính để khai phá dliu nhm giúp đỡ con người trong công việc càng được  
thúc đẩy mnh m, làm sao vi các dliu đã thu thập được có thể đưa ra hành động  
mang li li ích tối đa.  
1.3. Quá trình khai phá dliu  
một góc độ nào đó, khái niệm khai phá dliu khai phá tri thc nhiều khi được  
coi là mt. Tuy nhiên, nếu xét kthì khai phá dliu chlà mt khâu quan trng trong  
khai phá tri thc [1]. Mt quá trình phát hin tri thức trong cơ sở dliu bao gm các giai  
đoạn chính sau [2]:  
(1) Làm sch dliu (Data Cleaning): Khnhiu và các dliu mâu thun.  
(2) Tích hp dliu (Data Integration): Kết hp nhiu ngun dliu khác nhau.  
(3) La chn dliu (Data Selection): Cht lc ly nhng dliệu liên quan đến nhim  
vphân tích sau này.  
(4) Biến đổi dliu (Data Transformation): Biến đổi dliệu thu được vdng thích  
hp cho quá trình khai phá.  
(5) Khai phá dliu (Data Mining): Sdng những phương pháp thông minh để khai  
thác dliu nhằm thu đưc các mu mong mun.  
(6) Đánh giá kết qu(Pattern Evaluation): Sdụng các độ đo để đánh giá kết quthu  
được.  
11  
(7) Biu din tri thc (Knowledge Presentation): Sdng các công cbiu din trc  
quan để biu din nhng tri thức khai phá được cho người dùng.  
Đánh giá &  
Trình din  
Tri thc  
Khai phá  
dliu  
Mu  
La chn &  
Chuyn dng  
Dliu  
chuyn  
dng  
Kho dữ  
liu  
Làm sch &  
Tích hp  
Dliu  
Hình 1.1: Quá trình phát hin tri thức trong cơ sở dliu [2].  
Quá trình này có thể được lp li nhiu ln mt hay nhiều giai đoạn da trên phn hi  
tkết quca các giai đoạn sau.  
1.4. Kiến trúc điển hình ca mt hkhai phá dliu  
Trong kiến trúc điển hình ca mt hkhai phá dliu (hình 1.2), các ngun dliu  
cho hthng khai phá dliu bao gồm cơ sở dliu, hoc kho dliu, hoc World Wide  
Web, hoc kho cha dliu kiu bt kkhác, hoc thp các kiu dliu nói trên.  
Cơ sở tri thc bao cha các tri thc hin có vmin ng dụng, được sdng trong  
thành phn khai phá dliệu để tăng tính hiệu quca thành phn này. Mt stham sca  
thut toán khai phá dliu tương ứng stinh chnh theo tri thc min sn có từ cơ sở tri  
thc trong hthống. Cơ sở tri thức còn được sdng trong việc đánh giá các mẫu đã khai  
phá được xem chúng có tht sự đúng đắn hay không, trong đó có đối chng vi các tri  
12  
thức đã có trong cơ stri thc. Nếu mẫu khai phá được thc slà hp dẫn thì được bổ  
sung vào cơ sở tri thức để phc vcho hoạt động tiếp theo ca hthng.  
Giao diện người dùng  
Đánh giá mẫu khai phá được  
Cơ sở tri  
thc  
Thành phn khai phá dliu  
Phc vụ Cơ sở dliu/ Kho dữ  
Làm sch, tích hp và chn la dliu  
Kiu kho  
cha thông tin  
Cơ sở dữ  
liu  
World  
Wide  
Kho dữ  
liu  
Hình 1.2: Kiến trúc điển hình ca hthng khai phá dliu [2].  
1.5. Các bài toán khai phá dliệu điển hình  
Hai mc tiêu chyếu ca khai phá dliu là dbáo (prediction) mô tả  
(description). Dbáo dùng mt sbiến hoặc trường trong trong cơ sở dliệu để dự đoán  
vgiá trị chưa biết hoc vgiá trsẽ có trong tương lai của các biến. Mô thướng ti vic  
tìm ra các mu mô tdliu.  
Dbáo và mô tả được thhin thông qua các bài toán cthsau [2]:  
Mô tkhái nim (Summarization)  
Mục đích của bài toán là tìm ra các đặc trưng và tính chất ca các khái niệm. Điển  
hình cho bài toán này là các bài toán như tng quát hóa, tóm tắt, các đặc trưng dữ liu  
ràng buc.  
13  
Quan hphthuc (Dependency relationship)  
Mt trong nhng vấn đề ca phát hin mi quan hlà làm rõ ràng và nguyên nhân.  
Bài toán tìm lut kết hp là một đại diện điển hình, thc hin vic phát hin ra mi  
quan hgia các thuc tính (các biến), có dng phthuộc hàm trong cơ sở dliu  
quan h.  
Phân lp (Classification)[5]  
Phân lớp còn được gi là hc máy có giám sát (supervised learning). Vi mt tp  
các dliu hun luyện cho trước và shun luyn của con người, các gii thut phân  
loi shc ra bphân loại (classifier) dùng để phân dliu mi vào trong nhng lp  
(còn gi là loại) đã được định trước. Mt số phương pháp điển hình là cây quyết định,  
lut phân lp, mng neuron.  
Phân cm (Clustering)  
Phân cụm còn được gi là hc máy không giám sát (unsupervised learning), thc  
hin vic nhóm dliu thành các lp mới để có thphát hin các mu phân b. Phân  
cm chlà bái toán mô tả hướng ti vic nhn biết mt tp hu hn các loi hoc các  
cụm để mô tdliu. Các loi (cm) có thri nhau và toàn phn (to nên phân  
hoch) hoc chng chéo lên nhau [3].  
Phân đoạn (Segmentation)  
Vbn chất phân đoạn là thp ca phân cm và phân lớp, trong đó phân cụm  
được tiến hành trước và sau đó là phân lp.  
Hi quy (Regression)  
Hi quy là hc mt hàm ánh xdliu nhm tìm và xác định giá trthc ca mt  
biến.  
Mô hình phthuc (Dependency modeling)  
Bài toán xây dng mô hình phthuộc hướng ti vic tìm ra mt mô hình mô tsự  
phthuộc có ý nghĩa giữa các biến. Mô hình phthuc gm hai mc: mc cu trúc  
ca mô hình mô tả (thường dưới dạng đồ th) và mức định lượng.  
Phát hin biến đổi và độ lch (Change and Deviation Detection)  
Tp trung vào vic phát hin hu hết sự thay đổi có ý nghĩa dưới dạng độ đo đã  
biết trước hoc giá trchun.  
14  
1.6. Các lĩnh vực liên quan đến khai phá dliu  
Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực như thống kê, trí tuệ nhân  
tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức cho  
các hệ chuyên gia, quan sát dữ liệu... Đặc biệt khai phá dữ liệu rất gần gũi với lĩnh vực  
thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,  
luật. Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP –  
Online Analytical Processing) cũng liên quan chặt chẽ với khai phá dữ liệu [2].  
Các kthut truyn thng không còn thích hp vi các loi dliu bli, bnhiu hay  
dliu nhiu chiu và các hdliu tnhiên phân tán hay hn tạp. Do đó khi kết hp vi  
nhau, hình thành lĩnh vực mới, đó là khai phá dữ liu.  
Thng kê  
Hthống cơ  
sdliu  
Khai phá  
Hc máy  
Trc quan hóa  
dliu  
Thut toán  
Các bmôn  
khác  
Hình 1.3: Tính đa/ liên ngành ca khai phá dliu [2].  
1.7. Các ng dụng điển hình ca khai phá dliu  
ng dng ca khai phá dliệu được chia thành hai lp chính bao gm các ng dng  
phân tích htrra quyết định và lp các lĩnh vực ng dng khác.  
Lp các ng dng trong phân tích dliu và htrra quyết định bao gm các ng  
dng trong [2] [4]:  
- Thông tin thương mại: Phân tích dliệu Marketing, khách hàng; Phân tích đầu  
tư; Phê duyệt cho vay vn hay phát hin gian ln.  
- Thông tin kthut: Điều khin và lp trình lch; Qun trmng.  
15  
- Bo him y tế.  
- Vin thông.  
- Ththao  
Lớp các lĩnh vực ng dụng điển hình khác được kể đến là khai phá văn bản, khai  
phá Web, khai phá dliu sinh hc và khai phá dliu dòng.  
1.8. Các thách thc vi khai phá dliu  
Cơ sở dliu ln.  
Schiu ln.  
Thay đổi dliu và tri thc có thlàm cho các mẫu đã phát hiện không còn phù  
hp.  
Dliu bthiếu hoc bnhiu.  
Quan hgiữa các trường phc tp.  
Giao tiếp với người sdng và kết hp vi các tri thức đã có.  
Tích hp vi các hthng khác [2] [4] …  
1.9. Kết lun  
Qua các vấn đề đã trình bày, chúng ta nhận thy vi một lượng dliu thc tế nhvà  
vi mục đích bài toán cụ thể nhưng ta có thể tiếp cn theo nhiều hướng khác nhau ca  
cùng một phương pháp khai phá dliệu và đạt được kết quả khác nhau, điều đó càng làm  
sáng tkhả năng ứng dng thc tế to lớn đồng thi vi nhng thách thức đối vi kthut  
khai phá dliu trong các bài toán kinh tế - xã hi và trong nhiều lĩnh vực khác.  
16  
Chương 2: Trích chn thuc tính phù hp  
2.1. Gii thiu  
Trích chn đặc trưng (Feature Selection) là phương pháp chọn ra mt tp con tt nht  
ttập các đặc trưng đầu vào bng cách lai bnhững đặc trưng có rất ít hoc không có  
thông tin dự đoán.  
Trích chn đặc trưng có vai trò quan trng trong vic chun bvà la chn dliu cho  
quá trình khai phá dliu. Nó slàm gim kích ccủa không gian đặc trưng, loại bỏ dư  
tha hay nhiu ca dliệu. Phương pháp này có thể tìm chính xác nhng tập con đặc  
trưng có khả năng dự đoán, do đó giúp ci thiện đáng kể kết quả thu được trong các mô  
hình phân lp.  
Về cơ bản, quá trình trích chọn đặc trưng bao gồm bốn bước cơ bản: sinh tp con  
(subset generation), đánh giá tập con (subset evaluation), kim tra điều kin dng ca quá  
trình trích chn (stopping criterion) và kết qu(result validation).  
Subset  
Subset  
Subset  
Generation  
Evaluation  
Original  
Set  
Goodness of Subset  
YES  
NO  
Result  
Validation  
Stopping  
Criterion  
Hình 2.1: Bốn bước cơ bản trong quá trình trích chn các thuc tính phù hp [6].  
Subset generation là mt thtc tìm kiếm. Về cơ bản, nó sinh ra mt tp con ca tp  
các đặc trưng để đánh giá. Giả sử có N đặc trưng trong tp dliu gc, thì số lượng các  
tp con tiềm năng là 2n. Vì mt tp con tối ưu các điểm đặc trưng không phải là duy nht  
nên số lượng các tp con có ththa mãn là rt lớn, do đó quá trình tìm kiếm trong trích  
chọn đặc trưng sẽ tn nhiu thi gian và công sc. Mi tập con được sinh ra cn phi  
được đánh giá và so sánh với nhng tp con tt nhất đã được tìm thấy trước. Nếu tp con  
tìm thy sau là tốt hơn thì nó sẽ được thay thế cho tp con tt nhất trước đây. Nếu không  
17  
có một điều kin dng hp lý thì quá trình tìm kiếm các tp con tt nht sẽ được xem như  
là vô hn. Mt quá trình trích chọn đặc trưng có thể dng khi tha mãn mt trong nhng  
điều kiện đánh giá sau: (a) chọn đủ số lượng đã được xác định trước ca tập đặc trưng, (b)  
tha mãn slần đã được xác định trước ca quá trình lp li. (c) mt khía cạnh (điều  
kiện) nào đó tập con mới được đánh giá là không tốt hơn tập con trước, (d) tập con được  
bộ đánh giá cho là tốt nht [6].  
2.2. Mô hình trong bài toán trích chn  
2.2.1.Các mô hình trong trích chn  
Trích chọn đặc trưng thật sự là lý tưởng trong la chn tập con đặc trưng tối ưu từ  
mt tp ng cử để mô tkhái nim mc tiêu trong hthng hc. Độ tt ca mt tp con  
đặc trưng có thể được đánh giá qua nhiều cách khác nhau, nhờ đó mà có nhiều mô hình  
khác nhau được đưa ra trong phương pháp trích chọn. Điển hình là hai mô hình: Filter và  
Wrapper [10].  
Filter  
A
3
1
2
Hình 2.2: Mô hình Filter [6]  
Wrapper Model  
1
A
3
2
4
Hình 2.3: Mô hình Wrapper [6]  
Gii thích hình v:  
A: Tập đặc trưng đu vào.  
1: Bsinh tp con (Feature Subset Generator).  
18  
2: Bộ đánh giá (Feature Subset Evaluator).  
3: Các thut toán hc máy (Followed Machine learning Algorithm)  
4: Thut toán học máy điều khin (Central Machine learning Algorithm).  
Mô hình Filter đánh giá mỗi cá thbng mt vài tiêu chun hay độ đo nào đó, ri  
chn ra tp con các thuộc tính được đánh giá cao nhất. Nhìn chung, Filter coi tiến trình  
ca trích chn thuc tính như tiến trình thực thi trước, sau đó mới sdng thuật toán để  
phân lp.  
Wrapper sdng mt thut toán tìm kiếm để đánh giá tập con các thuc tính coi như  
là một nhóm hơn là một cá thriêng l. Ct lõi ca mô hình Wrapper là mt thut toán  
máy hc cth. Nó đánh giá độ tt ca nhng tập con đặc trưng tùy theo độ chính xác hc  
ca tp con, điều này xác định thông qua một tiêu chí nào đó. Nhng thut toán tìm kiếm  
cũng sử dụng hàm đánh giá kinh nghiệm (heuristics) để hướng dn vic tìm kiếm tp  
trung vào các đối tượng có trin vng.  
2.2.2.Đánh giá hai mô hình Filter và Wrapper  
2.2.2.1. Mô hình Filter  
Ưu điểm:  
- Không có xlý hc máy trong quá trình la chọn các đặc trưng.  
- Ddàng nhn din và thi gian tiêu thụ ít hơn mô hình Wrapper.  
Nhược điểm:  
- Hiu sut sn sinh các tập con đặc trưng là không đảm bảo vì nó thường đánh  
giá mt tập con đặc trưng chỉ da trên đặc trưng nhỏ thiên vnguyên lý mà  
không tính tới độ chính xác ca kết quhc máy.  
- Kết quả thu được bgim sút về độ chính xác hc những giai đoạn sau vì các  
hàm đánh giá hiện thời được sdụng thường thiên vgiá trị ở mt vài phm vi,  
do đó sẽ không đánh giá một cách khách quan tm quan trng của các đặc trưng.  
2.2.2.2. Mô hình Wrapper  
Ưu điểm:  
- Đảm bo hiu sut ca kết quhọc hơn mô hình Filter.  
Nhược điểm:  
- Ít được sdụng hơn môt hình Filter trên thực tế vì:  
19  
. Tiến trình hc tn kém vthời gian đến mc thi gian thc hiện đưa ra bi  
mt thut toán sdng mô hình Wrapper là không chp nhận được.  
. Vi mt hthống kích thước cc ln, mô hình này không thc tế do phm  
vi ca nó buc phi thu nhlại trước khi thut toán học máy được áp dng.  
. Kết quả đánh giá của mô hình phthuc nhiu vào thut toán học máy điều  
khin.  
2.3. Mt skthut xlý  
2.3.1.Bsinh tp con (Feature Subset Generator)  
Tùy tng chiến lược cth, bsinh tp con sto ra nhng tập con đặc trưng từ mt  
tập đầu vào tương ứng. Đầu ra ca bsinh sẽ xác định thut toán trích chọn đặc trưng  
ca việc tìm đường và tìm kiếm phm vi trong một không gian đặc trưng tương ứng. Nói  
chung, bsinh có hai chiến lược để sn sinh ra nhng tập con đặc trưng:  
Đầy đủ (Completely): Mt bkhi tạo đầy đủ có thsn sinh ra tt ccác tp con  
tmt tập đặc trưng đầu vào, do vy phm vi tìm kiếm ca chiến lược này là NP  
đầy đủ, tuy nhiên điều này không phải lúc nào cũng chứng ttìm kiếm vét cn là  
cn thiết trong thc tế, bi vì mt scông nghệ như: đường biên và rnhánh có thể  
được áp dụng để lược bt phm vi tìm kiếm tt nht. Bi vy nếu là thut toán  
trích chn vi bkhi tạo đầy đủ, thc nghim chra rng không gian tìm kiếm  
ln nht là O(2k). Mà đối vi hu hết nhng hthng hc máy thực, điều này là  
không cn thiết phải đánh giá tt cnhng tp con tmt tập đặc trưng tương ứng.  
Thường thì, thut toán trích chn vi bkhi tạo đầy đủ có thtìm ra mt tp con  
đặc trưng tối ưu của hthng học máy nhưng đòi hỏi thi gian thc thi phc tp.  
Liu H. [10] đã đưa ra bộ khi tạo đầy đủ đặc bit mà sn sinh mt cách ngu nhiên  
ra nhng tập con đặc trưng dựa vào thut toán Las Vegas (LV). Thut toán LV có  
thtìm kiếm trên toàn bộ không gian đáp án rồi sau đó đưa ra kết qutối ưu đảm  
bo. Tuy nhiên khác vi nhng bkhi tạo đầy đủ khác, đối vi mt ng dng  
thc tế, khả năng thực thi ca bkhi tạo Liu là hoàn toàn thay đổi, nó phthuc  
nhiu vào quá trình phân chia dliu ngu nhiên trong toàn bhthng hc máy.  
Kinh nghim (Heuristically): Để lược bt không gian tìm kiếm, bkhi to kinh  
nghim sn sinh ra các tập con đặc trưng dựa vào nhng chiến lược da theo kinh  
nghim nào đó. Có ba kỹ thut tìm kiếm tập con điển hình là:  
20  
- La chn tiến (Forward Selection): Các tập con đặc trưng được khi to  
trước hết là rng (null), sau đó liên tục gán những tính năng tốt nht hin  
thi cho tập con đó cho đến khi không còn tính năng nào nữa hay các điều  
kin thực thi đưa ra đã được tiếp nhn hết.  
- Lược blùi (Backward Elimination): Các tập con đặc trưng được khi to  
trước hết là đầy đủ các đặc trưng, sau đó loại blần lượt những đặc trưng  
kém nht hin thi tcác tập con đó, cho đến khi không còn đặc trưng nào  
hoặc các điều kin thực thi đưa ra đã được trit tiêu hết.  
- La chọn hai hướng (Bi direction Selection): Các tập con đặc trưng được  
khi tạo trước hết là rỗng, đầy, hoc sn sinh ngu nhiên mt tập con đặc  
trưng, sau đó liên tục hoặc là gán tính năng tốt nht hin thi cho tập con đó  
hoc là triệt tiêu tính năng kém nhất tcác tập con đó. Để từ đó đưa ra  
nhng giá trị định hướng tt nht mi ln lp lại đó. Quá trình tiếp tc cho  
ti khi tt cả điều kiện được đưa ra từ trước đã được tiếp nhn hết.  
Bphn khi to da trên kinh nghim gim thiu phm vi tìm kiếm đa thức số mũ,  
do đó giảm thi gian thc hin thut toán phc tạp trong phương pháp trích chọn. Tuy  
nhiên, thut toán chỉ đưa ra một lượng nhkết qutối ưu, khi thực hiện tìm đường và tìm  
kiếm phm vi ca bphn khi to, kết quả này được đảm bo thông qua nhng thut  
toán này.  
2.3.2.Bộ đánh giá tập con đặc trưng (Feature Subset Evaluator)  
Hiu sut ca mt tập con đặc trưng được đánh giá dựa trên cơ sở nào đó mà bộ đánh  
giá đạt được. Bộ đánh giá của nhng mô hình thut toán khác nhau là khác nhau. Bộ  
đánh giá của mô hình Filter thường là các hàm đánh giá, trong khi ca mô hình Wrapper  
là độ học chính xác đạt được bi quá trình thc thi thut toán học máy điều khin trên hệ  
thng hc.  
Hàm đánh giá  
Những hàm đánh giá điển hình dùng để đo đạc và phân bit khả năng phân lớp ca  
những đặc điểm khác nhau trên các mu. Thc tế, các hàm đánh giá khác nhau  
thường được dùng hiện nay như: xp xchất lượng (Approximation Quality), độ  
quan trng ca thuc tính (Feature Importance), trng sca thuc tính (Feature  
Weight).  
Hc chính xác  
21  
Trong mô hình Wrapper, để ước lượng độ học máy chính xác, trước hết, các mu  
ca hun luyn phải được chia ngu nhiên làm hai tp dliu, bao gm: tp hun  
luyn và tp kiểm tra, trong đó, cu trúc ca hai hthống con có cùng đặc điểm và  
được to ra bi bsinh; sau đó mô hình được hun luyn (training) để tìm ra tham  
stối ưu và các tham số này được kim chng li nhquá trình kim tra kết quả  
hc thông qua tp kim tra (Validation set). Hiển nhiên, độ chính xác đạt được  
trong trường hp này là giá trngu nhiên, nó phthuc ln vào kết quca vic  
chia mẫu. Để tăng mức độ ổn định ca việc ước lượng độ chính xác hc máy, bộ  
đánh giá của mô hình Wrapper thường được sdng cùng kthut kim tra chéo  
(Cross Validation) [11].  
2.3.3.Thut toán học điu khin (Central machine learning algorithm)  
Trong mô hình Wrapper, thut toán học máy điều khin có ảnh hưởng ln tới ước  
lượng độ chính xác hc ca mt tập con đặc trưng. Do vy, thuật toán đóng vài trò quyết  
định trong mô hình Wrapper. Thuật toán thường được chn ví trí trung tâm mô hình  
thường là: ID3, CN2, C4.5 …  
2.4. Kết lun  
Trích chọn được xem như bước tin xlý dliệu. Phương pháp này lọc ra những đặc  
trưng tốt nhất, đồng thi loi bnhiu, gim bt chiu trong dliu. Hai mô hình phổ  
biến trong phương pháp trích chọn thuc tính đặc trưng là Filter và Wrapper. Mỗi mô  
hình đều có những ưu điểm và nhược điểm riêng. Tùy tng yêu cầu và trường hp cthể  
mà ta có tháp dng mt trong hai mô hình này.  
22  
Chương 3: Genetic algorithms  
3.1. Gii thiu  
Thut toán di truyn là thut toán tối ưu ngẫu nhiên dựa trên cơ chế chn lc tnhiên  
và tiến hóa di truyn. Thut toán di truyền được ng dụng đầu tiên trong hai lĩnh vực  
chính: tối ưu hóa và học máy. Trong lĩnh vực tối ưu hóa thuật toán di truyền được phát  
trin nhanh chóng và ng dng trong nhiều lĩnh vực khác nhau như tối ưu hàm, xử nh,  
bài toán hành trình người bán hàng, nhn dng hthống và điều khin. Thut toán di  
truyền cũng như các thut toán tiến hóa nói chung, hình thành da trên quan nim cho  
rng, quá trình tiến hóa tnhiên là quá trình hoàn ho nht, hp lý nht và tự nó đã mang  
tính tối ưu. Quan niệm này có thể xem như một tiên đề đúng, không chứng minh được,  
nhưng phù hợp vi thc tế khách quan. Quá trình tiến hóa thhin tính tối ưu ở ch, thế  
hsau bao giờ cũng tốt hơn (phát triển hơn, hoàn thiện hơn) thế hệ trước bi tính kế tha  
và đấu tranh sinh tn.  
3.2. Động lc  
Thut gii di truyn cung cp một phương pháp học được thúc đẩy bi sự tương tự vi  
stiến hóa sinh hc. Thay vì tìm kiếm các githuyết ttổng quát đến cthhoc từ đơn  
giản đến phc tp, GAs to ra các githuyết kế tiếp bng cách lp việc đột biến và vic  
tái hp các phn ca githuyết được biết hin ti là tt nht. mỗi bước, mt tp các giả  
thuyết được gi là qun thhin tại được cp nht bng cách thay thế vài phn nhqun  
thbi cá thcon ca các githuyết tt nht thời điểm hin ti. Sphbiến ca GAs  
được thúc đẩy bi các yếu tsau:  
Tiến hóa là một phương pháp mạnh và thành công cho sthích nghi bên trong các  
hthng sinh hc.  
GA có thtìm kiếm trên các không gian githuyết có các phần tương tác phức tp,  
ở đó ảnh hưởng ca mi phn lên toàn thể độ thích nghi githuyết khó có thmô  
hình hóa.  
Thut gii GA có thể được thc hin song song và có thtn dng thành tu ca  
phn cng máy tính.  
23  
3.3. Thut gii di truyn  
3.3.1. Ni dung thut toán  
Bài toán dành cho GAs là tìm kiếm trên không gian các githuyết ng cử để xác định  
githuyết tt nhất. Trong GAs “giả thuyết tt nhất” được định nghĩa như là một giả  
thuyết tối ưu hóa một đại lượng số được định nghĩa trước cho bài toán sp tới, được gi là  
độ thích nghi ca githuyết. Ví d, nếu tác vhc hi là bài toán xp xmột hàm chưa  
biết cho tp mu hun luyn gm dliệu đầu vào và dliệu đầu ra, thì độ thích nghi có  
thể được định nghĩa như là độ chính xác ca githuyết trên dliu hun luyn này. Nếu  
tác vlà hc chiến lược chơi cờ, độ thích nghi có thlà sván thng ca chiến lược này  
khi đấu vi các chiến lược khác trong qun thhin ti.  
Mc dù các thut gii di truyền được thc hiện thay đổi theo bài toán cthể, nhưng  
chúng chia schung cu trúc tiêu biu sau: Thut gii hoạt động bng cách cp nht liên  
tc tp githuyết – được gi là qun th. mi ln lp, tt ccác cá thtrong qun thể  
được ước lượng tương ứng vi hàm thích nghi. Ri qun thmới được to ra bng cách  
la chn có xác sut các cá ththích nghi tt nht tqun thhin ti. Mt strong  
nhng cá thể được chọn được đưa nguyên vẹn vào qun thkế tiếp. Nhng cá thkhác  
được dùng làm cơ sở để to ra các cá thcon bng cách áp dụng các tác động di truyn:  
lai ghép đột biến.  
Bng 3.1: Thut gii di truyn mu. [20]  
GA (Fitness, Fitness_threshold, p, r, m)  
{
// Fitness: hàm gán thang điểm ước lượng cho mt githuyết.  
// Fitness_threshold: Ngưỡng xác định tiêu chun dng giài thut tìm kiếm.  
// p: Scá thtrong qun thgithuyết.  
// r: Phân scá thtrong qun thể được áp dng toán tlai ghép mỗi bước.  
// m: Tlcá thbị đột biến.  
Khi to qun th: P To ngu nhiên p cá thgithuyết  
Ước lưng: ng vi mi h trong P, tính Fitness(h)  
while [max Fitness(h)] < Fitness_threshold do  
To thế hmi, PS  
1. Chn cá th: chn theo xác sut (1 r)p cá thtrong qun thP thêm vào PS. Xác  
sut Pr(hi) ca githuyết hi thuc P được tính bi công thc:  
24  
Fitness(hi)  
    
퐏퐫 hi =  
p
 
j=1 Fitness(hj)  
rp  
2
2. Lai ghép: chn lc theo xác sut  
cp githuyết tqun thP, theo Pr(hi) đã  
tính ở bước trên. ng vi mi cp <h1, h2>, to ra hai con bng cách áp dng toán tử  
lai ghép. Thêm tt các các con vào PS.  
3. Đột biến: Chn m% cá thca PS vi xác sut cho mi cá thể là như nhau. Ứng vi  
mi cá thbiến đổi một bit được chn ngu nhiên trong cách thhin ca nó.  
4. Cp nht: P PS.  
5. Ước lượng: ng vi mi h trong P, tính Fitness(h)  
Trvgithuyết trong P có độ thích nghi cao nht.  
}
Qun thgm p cá th. mi ln lp, qun thkế tiếp PS được hình thành tvic la  
chn theo xác sut các githuyết hin tại theo độ thích nghi ca chúng và bng cách thêm  
vào các githuyết mi. Các githuyết mới được to ra bng cách áp dng toán tlai ghép  
cho cp githuyết thích nghi nht và bng cách tạo ra các đột biến điểm đơn trong thế hệ  
githuyết kết quả. Quá trình này được lặp cho đến khi các githuyết thích hợp được phát  
hin. Các toán tlai ghép đột biến tiêu biểu được định nghĩa trong bảng kế tiếp.  
Mt thut gii di truyn mu được mô ttrong bng 3.1. Các đầu vào cho thut gii  
này bao gồm hàm tính độ thích nghi để tính hng cho các githuyết ng c, mt giá trị  
ngưỡng được định nghĩa cấp độ thích nghi có thchp nhận để kết thúc thut gii, kích  
thước qun th, và các tham squyết định các qun thkế tiếp được tạo ra như thế nào:  
phn qun thbthay thế ở mi thế hvà tlệ đột biến.  
Lưu ý trong thuật gii này, mỗi bước lp qua vòng lp chính to ra mt thế hmi  
các githuyết da vào qun thế hhin tại. Trước tiên, mt sgithuyết được chn từ  
qun thhin tại để đưa vào thế hkế tiếp. Nhng githuyết này được chn theo xác sut,  
ở đây xác suất ca githuyết được tính bi [20]:  
    
퐹푖푡푛푒푠푠   
    
Pr  =  
 
퐹푖푡푛푒푠푠    
=1  
Vì vy, xác sut để githuyết được chn tlvới độ thích nghi ca nó và tlnghch  
với độ thích nghi ca các githuyết cnh tranh khác trong qun thhin ti.  
Mt khi các cá thnày ca thế hhin tại đã được chọn để đưa vào quần ththế hkế  
tiếp, các cá thể thêm vào được to ra dùng toán tử lai ghép. Lai ghép, được định nghĩa chi  
25  
tiết trong phn kế tiếp, ly hai githuyết tthế hhin ti và to ra hai githuyết con  
bng cách kết hp các phn ca hai githuyết cha. Các githuyết cha được chn theo xác  
sut tqun thhin ti, sdng hàm xác sut được định nghĩa ở trên. Sau khi các cá thể  
mới được to ra thoạt động lai ghép này, qun thế thế hmi bây giờ có đủ số lượng  
thành viên mong mun. Lúc này, mt phân sm nào đó các cá thể này được chn mt  
cách ngu nhiên và tt ccác đột biến ngẫu nhiên được thc hiện để thay đổi các cá thể  
này.  
3.3.2. Thhin các githuyết  
Các githuyết trong GAs thường được thhiện dưới dng chui các bit, để chúng có  
thdễ dàng được thc hin bi các toán tdi truyn là đột biến lai ghép [14]. Các giả  
thuyết được thhin bi chui bit này có thkhá phc tp. Ví d, tp các lut if-then có  
thdễ dàng được thhin theo cách này, bng cách chn mt cách thc mã hóa các lut  
để phân bcác chui con riêng cho mỗi điều kiện trước và điều kin sau ca lut.  
Để thy các lut if-then có thể được mã hóa bng các chuỗi bit như thế nào, trước tiên  
hãy xem chúng ta có thsdng chuỗi bit như thế nào để mô tràng buc trên giá trca  
thuộc tính đơn. Lấy mt ví d[20], hãy xem xét thuc tính Outlook, thuc tính này có thể  
ly bt kì giá trnào trong ba giá tr: Sunny, Overcast hoc Rain. Một cách rõ ràng để thể  
hin ràng buc cho Outlook là dùng mt chui bit có chiu dài 3, mi vị trí bit tương ứng  
vi mt trong ba giá trcó thcủa nó. Đặt giá tr1 mt vài vị trí để chra rng thuc  
tính được phép ly giá trị tương ứng. Ví d, chui 010 thhin ràng buc Outlook phi  
ly giá trthhai trong các giá trnày, hay là Outlook = Overcast. Một cách tương tự,  
chui 011 thhin ràng buc tổng quát hơn là cho phép hai giá trị có th, hay là Outlook  
= Overcast  Rain. Chú ý 111 thhin ràng buc có thtng quát nht, chra rng chúng  
ta không quan tâm giá trnào trong các giá trcó thca nó mà thuc tính gi.  
Đưa ra phương pháp này để thhin các ràng buc trên thuộc tính đơn, các liên kết  
ca các ràng buc trên nhiu thuc tính có thdễ dàng được thhin bng cách ni các  
chuỗi bit tương ứng. Ví d, xem xét thuc tính thhai, Wind có thly giá trStrong  
hoc Weak. Điều kiện trước ca lut chng hạn như:  
 
 
푂푢푡푙표표푘 = 푂푣푒푟푐푎푠푡  푅푎푖  (푊푖푛푑 = 푆푡푟표푛)  
Có thể được biu din bi chui bit có chiu dài là 5 sau:  
Wind  
Outlook  
26  
10  
011  
Các điều kin sau ca lut (chng hạn như PlayTennis = yes) có thể được thhin theo  
kiểu tương tự. Vì vy, toàn blut có thể được mô tbi móc ni các chui bit mô tcác  
điều kiện đầu, cùng vi chui bit mô tả điều kin sau ca lut. Ví d, lut  
IF Wind = Strong THEN PlayTennis = yes  
sẽ được thhin bi chui:  
Outlook  
Wind  
10  
PlayTennis  
10  
111  
ở đây 3 bit đầu tiên mô tràng buộc “không quan tâm” trên Outlook , hai bit kế tiếp  
mô tràng buc trên Wind, và hai bit cui cùng mô tả điều kin sau ca lut (ở đây chúng  
ta gisPlayTennis có thly giá trYes hoc No). Chú ý chui bit thhin lut cha  
mt chui con cho mi thuc tính trong không gian githuyết, thm chí thuc tính không  
bràng buc bởi các điều kiện trước. Điều này to ra mt chui bit có chiu dài cố định để  
thhin các luật, trong đó các chuỗi con các vtrí cthmô tcác ràng buc trên các  
thuc tính cthể. Đưa ra cách thể hin này cho các luật đơn, chúng ta có thể thhin tp  
các lut bng cách móc ni các thhin chui bit ca các lut riêng bit.  
Trong thiết kế mã hóa chui bit cho mt vài không gian githuyết, tht là hữu ích để  
sp xếp cho mi chui bit tuân thủ theo cú pháp để thhin mt githuyết được định  
nghĩa tốt. Để mô t, chú ý cách mã hóa lut ở đoạn trên, chui bit 111 10 11 thhin lut  
có điu kiện trước không ràng buc thuc tính mc tiêu PlayTennis. Nếu tránh xem xét  
githuyết này, chúng ta có thể mượn mt cách mã hóa khác (ví dphân bchmt bit  
cho điều kiện sau để chỉ định giá trlà Yes hoặc No), thay đổi các toán tdi truyền để  
tránh một cách tường minh vic xây dng các chuỗi bit như thế, hoặc đơn giản gán mt  
độ thích nghi rt thp cho các chuỗi bit như vậy.  
3.3.3. Các toán tdi truyn  
Nhng thế hệ sau trong GAs được quyết định bi tp các toán ttái hợp và đột biến  
các cá thể được chn tqun thhin ti. Các toán tGAs tiêu biểu để thc hin các giả  
thuyết chuỗi bit được mô ttrong bng 3.1. Các toán tử này tương ứng vi các phiên bn  
được ý tưởng hóa ca các hoạt động di truyn trong tiến hóa sinh hc. Hai toán tphổ  
biến nht là lai ghép đột biến.  
27  

Tải về để xem bản đầy đủ

pdf 58 trang yennguyen 12/05/2025 170
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Áp dụng phương pháp trích chọn thuộc tính đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_ap_dung_phuong_phap_trich_chon_thuoc_tinh_dac_trun.pdf