Luận văn Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam

BGIÁO DC VÀ ðÀO TO  
TRƯꢃNG ðꢂI HC BÁCH KHOA HÀ NI  
----------------------------------------------  
LUN VĂN THC SKHOA HC  
NGÀNH: CÔNG NGHTHÔNG TIN  
NGHIÊN CU VÀ ÁP DNG MT SKTHUT  
KHAI PHÁ DLIU  
VI CƠ SDLIU NGÀNH THUVIT NAM  
NGUYN THU TRÀ  
Hà Ni 2006  
Hà Ni  
2006  
2
M  
C LC  
DANH MC CÁC KÝ HIU VÀ CÁC CHVIT TT........................4  
DANH MC CÁC BNG ..........................................................................5  
DANH MC CÁC HÌNH V.....................................................................6  
Mꢇ ðꢈU .....................................................................................................8  
CHƯƠNG 1. KHAI PHÁ DLIU .....................................................12  
1.1. Tng quan khai phá dliu.....................................................12  
1.1.1 Dliu.............................................................................. 14  
1.1.2 Tin xlý dliu .............................................................. 16  
1.1.3 Mô hình khai phá dliu .................................................. 18  
1.2. Các chc năng cơ bn khai phá dliu ..................................19  
1.2.1 Phân lp (Classification) .................................................. 19  
1.2.2 Hi qui.............................................................................. 31  
1.2.3 Phân nhóm........................................................................ 34  
1.2.4 Khai phá lut kt hp........................................................ 38  
CHƯƠNG 2. MT STHUT TOÁN KHAI PHÁ DLIU ..........46  
2.1. Thut toán khai phá lut kt hp.............................................46  
2.1.1 Thut toán Apriori ............................................................ 46  
2.1.2 Thut toán AprioriTid ....................................................... 49  
2.1.3 Thut toán AprioriHybrid ................................................. 51  
2.2. Ci tin hiu quthut toán Apriori........................................54  
2.2.2 Phương pháp FP-tree ....................................................... 56  
2.2.3 Thut toán PHP ................................................................ 59  
2.2.4 Thut toán PCY................................................................. 63  
2.2.5 Thut toán PCY nhiu chng............................................. 65  
2.3. Thut toán phân lp bng hc cây quyt ñꢋnh........................67  
2.3.1 Các ñꢊnh nghĩa.................................................................. 68  
2.3.2 Thut toán ID3.................................................................. 69  
2.3.3 Các mrng ca C4.5 ...................................................... 70  
CHƯƠNG 3. ÁP DNG KHAI PHÁ TRÊN CSDL NGÀNH THU..72  
3.1. CSDL ngành Thu..................................................................72  
3.2. La chn công ckhai phá .....................................................73  
3.2.1 La chn công c.............................................................. 73  
3.2.2 Oracle Data Mining (ODM) ............................................. 76  
3.2.3 DBMS_DATA_MINING.................................................... 78  
3.3. Mc tiêu khai thác thông tin ca ngành Thu.........................79  
3
3.4. Thnghim khai phá lut kt hp ..........................................81  
3.5. Phân lp bng hc cây quyt ñꢋnh ..........................................91  
3.5.1 Phân lp ðTNT da vào so sánh tsut các năm ............. 93  
3.5.2 Phân lp ðTNT theo sliu ca mt năm......................... 96  
CHƯƠNG 4. KT LUN....................................................................102  
HƯꢌNG NGHIÊN CU TIP THEO..................................................103  
TÀI LIU THAM KHO ......................................................................104  
PHLC................................................................................................106  
4
DANH MC CÁC KÝ HIU VÀ CÁC CHVIT TT  
Ký hiu, chvit tt  
Association Rules  
Candidate itemset  
Ý nghĩa  
Các lut kt hp  
Mt itemset trong tp Ck ñưꢇc sdng ñꢑ sinh ra các  
large itemset  
Ck  
Tp các candidate k-itemset giai ñon thk  
ðꢐ chc chn ca lut kt hp  
= support(XY)/support(X) phn ánh khnăng giao  
dch htrX thì cũng htrY  
Cơ sdliu  
Confidence  
CSDL  
DM  
Data mining – Khai phá dliu  
Data warehouse – Kho dliu  
ðꢖi tưꢇng np thu, chti các cá nhân hoc tchc  
np thuꢆ  
DW  
ðTNT  
Frequent/large itemset Mt itemset có ñꢐ htr(support) >= ngưꢙng ñꢐ hꢕ  
trti thiu  
ID  
Identifier  
Item  
Mt phn tca itemset  
Tp ca các item  
Itemset  
k-itemset  
Lk  
Mt itemset có ñꢐ dài k  
Tp các Large itemset giai ñon thk  
Oracle Data Mining – 1 công ckhai phá dliu  
Unique Transaction Identifier  
Giao dch  
ODM  
TID  
Transaction  
5
DANH MC CÁC BNG  
Bng 1.1: CSDL ñơn gin gm các ví dhun luyn ....................................25  
Bng 1.2 Mô hình CSDL giao dch ñơn gin .................................................39  
Bng 2.1 Cơ sdliu giao dch T ...............................................................56  
Bng 2.2 Bng các sn phm khai phá dliu ...............................................74  
6
DANH MC CÁC HÌNH Vꢆ  
Hình 1.1 Quá trình khám phá tri thc.............................................................14  
Hình 1.2 Khuôn dng ñơn bn ghi và ña bn ghi ...........................................16  
Hình 1.3: Cây quyt ñꢋnh ñơn gin vi các tests trên các thuc tính X và Y.22  
Hình 1.4: Sphân lp mt mu mi da trên mô hình cây quyt ñꢋnh .........23  
Hình 1.5 Cây quyt ñꢋnh cui cùng cho CSDL T ñã nêu trong bng 1.1.......29  
Hình 1.6 Cây quyt ñꢋnh dng gicode cho CSDL T (bng 1.1)...............29  
Hình 1.7 Hi qui tuyn tính ............................................................................32  
Hình 1.8 Gp nhóm theo phương pháp k-means (ðim ñánh du + là tâm) 36  
Hình 1.9 Phân hoch vun ñꢖng hoc tách dn...............................................37  
Hình 1.10 Bưꢈc lp ñꢚu tiên ca thut toán Apriori cho CSDL DB ..............41  
Hình 1.11 Ln lp th2 ca thut toán Apriori cho CSDL DB .....................42  
Hình 1.12 Ln lp th3 ca thut toán Apriori cho CSDL DB .....................42  
Hình 2.1 Thut toán Apriori............................................................................46  
Hình 2.2 Thut toán AprioriTid......................................................................50  
Hình 2.3 Ví d................................................................................................51  
Hình 2.4: Thi gian thc hin cho mi ln duyt ca Apriori và AprioriTid 52  
Hình 2.5: Mt ví dca cây phân cp khái nim cho khai phá các frequent  
itemsets nhiu mc..........................................................................................55  
Hình 2.6: FP-tree cho CSDL T trong bng 2.1...............................................57  
Hình 2.7 Thut toán PHP ................................................................................62  
Hình 2.8 Bnhvi 2 ln duyt ca thut toán PCY ..................................63  
Hình 2.9 Sdng bnhcho các bng băm nhiu chng.............................66  
Hình 3.1 Công sc cn cho mi giai ñon khai phá dliu..........................82  
Hình 3.2 Các bưꢈc khai phá lut kt hp trên CSDL ngành Thu................83  
Hình 3.3 Nhánh cây phân cp ngành ngh....................................................85  
Hình 3.4 Các lut khai phá tODM (ñꢐ dài lut = 2)...................................87  
7
Hình 3.5 Các lut khai phá tODM (ñꢐ dài lut = 3)...................................89  
Hình 3.6 Cây quyt ñꢋnh dùng ODM – Bài toán phân tích tsut................95  
Hình 3.7 Cây quyt ñꢋnh dùng See5 – Bài toán phân tích tsut .................96  
Hình 3.8 Cây quyt ñꢋnh dùng ODM – Bài toán xét sliu mt năm...........99  
Hình 3.9 Cây quyt ñꢋnh dùng See5 – Bài toán phân tích trong năm.......... 100  
8
Mꢇ ðꢈU  
Thi ñꢓi phát trin mnh ca Internet, Intranet, Data warehouse, cùng  
vi sphát trin nhanh vcông nghlưu trꢁ ñã to ñiu kin cho các doanh  
nghip, các tchc thu thp và shu ñưꢇc khi lưꢇng thông tin khng l.  
Hàng triu CSDL ñã ñưꢇc dùng trong qun trkinh doanh, qun lý chính ph,  
qun lý dliu khoa hc và nhiu ng dng khác. Vi khnăng htrmnh  
ca các Hqun trCSDL, các CSDL này càng ln lên nhanh chóng. Câu “Sꢌ  
ln mnh ca các CSDL dn ñꢆn scn thit phi có các kthut và các công  
cmi ñꢑ thc hin chuyn ñꢀi tꢌ ñꢐng dliu mt cách thông minh thành  
thông tin và tri thc hu ích” [10] ñã trthành ñꢘt vn ñꢠ ca nhiu bài vit  
vkhai phá thông tin và tri thc tcác CSDL ln.  
Công tác trong ngành Thu, nơi Công nghthông tin ñưꢇc áp dng vào  
qun lý Thutnhng năm 1986, CSDL thông tin liên quan ñꢆn các lĩnh vc  
qun lý Thulà mt CSDL ln và chc chn tim n nhiu thông tin quý báu.  
Vi mong mun bưꢈc ñꢚu áp dng kthut khai phá dliu trên CSDL  
ngành Thu, lun văn ñã tp trung nghiên cu vcác kthut khai phá dꢁ  
liu và tin hành khai phá thnghim trên CSDL ngành Thu.  
Khnăng mrng tri thc có ích n trong dliu ñꢑ ñưa ra nhng  
hành ñꢐng cn thit da trên tri thc ñó ñang trnên ngày càng quan trng  
trong thgii cnh tranh hin nay. Toàn bquá trình dùng các phương pháp  
lun da trên tính toán, bao gm các kthut mi ñꢑ phát hin ra tri thc tꢡ  
dliu ñưꢇc gi là khai phá dliu (data mining). [9]  
Khai phá dliu là stìm kim thông tin mi, có giá trvà không tm  
thưꢟng trong mt khi lưꢇng dliu ln. Nó là sphi hp nlc ca con  
ngưꢟi và máy tính. Các kt qutt nht nhn ñưꢇc bng vic cân bng gia  
9
tri thc ca các chuyên gia con ngưꢟi trong vic mô tcác vn ñꢠ và mc  
ñích vi khnăng tìm kim ca máy tính.  
Hai mc ñích chính ca khai phá dliu là ñꢑ dꢌ ñoán (prediction) và  
mô t(description). Dꢌ ñoán bao gm vic dùng mt vài bin hoc trưꢟng  
trong tp dliu ñꢑ dꢌ ñoán các giá trtương lai hoc chưa bit ca các bin  
cn quan tâm. Còn mô ttp trung vào vic tìm ra các mu mô tdliu mà  
con ngưꢟi có thhiu ñưꢇc/ biên dch ñưꢇc. Có thꢑ ñưa các hot ñꢐng khai  
phá dliu vào mt trong hai loi sau:  
Khai phá dliu dbáo, to ra mô hình ca hthng ñưꢇc mô tꢄ  
bi tp dliu cho trưꢈc, hoc  
Khai phá dliu mô t, vi vic to ra thông tin mi, không tm  
thưꢟng da trên tp dliu có sn.  
Mt schc năng khai phá dliu chính như:  
Mô tkhái nim: Mô tꢄ ñꢘc ñim và phân bit. Tìm ra các ñꢘc ñim  
khái quát hoá, tng kt, các ñꢘc ñim khác nhau trong dliu.  
Kt hp: xem xét vtương quan và quan hnhân qu.  
Phân lp và dbáo (Classification and Prediction): Xác ñꢋnh mô  
hình mô tcác lp riêng bit và dùng cho dꢌ ñoán tương lai.  
Phân tích nhóm (Cluster analysis): Chưa bit nhãn lp, thc hin  
nhóm dliu thành các lp mi da trên nguyên tc cc ñꢓi hoá sꢌ  
tương ttrong cùng lp và cc tiu hoá skhác tương tgia các  
lp khác nhau.  
Phân tích nhiu (Outlier analysis): Hu ích trong vic phát hin li,  
phân tích các skin him.  
Phân tích xu hưꢈng và sphát trin  
Khai phá dliu là mt trong nhng lĩnh vc phát trin nhanh nht  
trong công nghip máy tính. Tchlà mt min quan tâm nhtrong khoa hc  
10  
máy tính và thng kê, nó ñã nhanh chóng mrng thành mt lĩnh vc/ngành  
ca riêng nó. Mt trong nhng ln mnh nht ca khai phá dliu là sꢌ ꢄnh  
hưꢒng trong phm vi rng ca các phương pháp lun và các kthut ñưꢇc  
ng dng ñꢖi vi mt lot các bài toán, các lĩnh vc.  
Trong kinh doanh, khai phá dliu có thꢑ ñưꢇc dùng ñꢑ khám phá ra  
nhng xu hưꢈng mua sm mi, khoch cho các chin lưꢇc ñꢚu tư, và phát  
hin nhng stiêu dùng không chính ñáng ththng ktoán. Nó có thꢑ  
giúp ci tin các chin dch marketing ñꢑ mang li nhiu htrvà quan tâm  
hơn ti khách hàng. Các kthut khai phá dliu có thꢑ ñưꢇc áp dng ñꢖi  
vi các bài toán thit kli quy trình kinh doanh, trong ñó mc ñích là ñꢑ hiu  
ñưꢇc các tương tác và quan htrong thông lkinh doanh và các tchc kinh  
doanh.  
Nhiu ñơn vthi hành lut, các ñơn vꢋ ñiu tra ñꢘc bit, có nhim vꢍ  
tìm ra các hành ñꢐng không trung thc và phát hin ra các xu hưꢈng phm ti,  
cũng ñã sdng khai phá dliu mt cách thành công. Các kthut khai phá  
dliu cũng có thꢑ ñưꢇc dùng trong các tchc tình báo nơi lưu ginhiu  
ngun dliu ln liên quan ñꢆn các hot ñꢐng, các vn ñꢠ van ninh quc  
gia.  
Vi mc ñích nghiên cu mt sphương pháp khai phá dliu và thꢏ  
nghim khai phá trên CSDL ngành Thu, lun văn ñưꢇc trình bày vi các  
phn sau:  
Chương 1 – Khai phá dliu: Tìm hiu các chc năng khai phá dliu.  
Chương 2 – Mt sthut toán khai phá dliu. Nghiên cu trên hai  
kiu khai phá: Khai phá lut kt hp - mt kthut thông dng trong hc  
không giám sát. Phân lp bng hc cây quyt ñꢋnh - kthut hc có giám sát.  
Chương 3 – Áp dng khai phá trên CSDL ngành Thu: Thnghim  
khai phá lut kt hp và phân lp trên CSDL ngành Thuꢆ  
11  
Chương 4 – Kt lun và nhng kt quꢄ ñꢓt ñưꢇc  
Cui cùng là mt shưꢈng nghiên cu tip theo.  
Em xin chân thành cm ơn PGS. TS Nguyn Ngc Bình ñã hưꢈng dn  
và cho em nhng ý kin quý báu, chân thành cm ơn các thy cô giáo ca  
trưꢟng ðꢓi hc Bách khoa Hà Ni ñã trang bkin thc giúp em hoàn thành  
lun văn này.  
12  
CHƯƠNG 1. KHAI PHÁ DLIU  
1.1. Tng quan khai phá dliu  
Khai phá dliu có ngun gc tcác phương pháp riêng bit, 2 dng  
quan trng nht là thng kê và hc máy. Thng kê có ngun gc ttoán hc  
và do ñó nhn mnh ñꢆn ñꢐ chính xác toán hc, mong mun thit lp cái mà  
có thnhn ra trên nn toán hc trưꢈc khi kim thnó trong thc t. Ngưꢇc  
li, hc máy có ngun gc rt nhiu trong thc tin tính toán. ðiu này dn  
ñꢆn shưꢈng thc tin, sn sàng kim thꢏ ñꢑ bit nó thc hin tt thnào mà  
không cn chmt chng minh chính thc. [9]  
Có thñꢋnh nghĩa vKhai phá dliu như sau: Khai phá dliu là  
quá trình phát hin các mô hình, các tng kt khác nhau và các giá trꢋ ñưꢇc  
ly ttp dliu cho trưꢈc. [9]  
Hay, Khai phá dliu là sthăm dò và phân tích lưꢇng dliu ln ñꢑ  
khám phá tdliu ra các mu hp l, mi l, có ích và có thhiu ñưꢇc  
[14]. Hp llà các mu ñꢄm bo tính tng quát, mi llà mu chưa ñưꢇc bit  
trưꢈc ñó, có ích là có thda vào mu ñó ñưa ra các hành ñꢐng phù hp, hiu  
ñưꢇc là có thbiên dch và hiu thu ñáo các mu.  
Các knăng phân tích ca con ngưꢟi là không ñꢚy ñꢎ do: Kích thưꢈc  
và chiu ca dliu; tc ñꢐ tăng trưꢒng ca dliu là rt ln. Thêm vào ñó là  
nhng ñáp ng mnh mca kthut vkhnăng: thu thp dliu, lưu tr,  
năng lc tính toán, phn mm, sthành tho vchuyên môn. Ngoài ra còn có  
môi trưꢟng cnh tranh vdch v, chkhông chcnh tranh vgiá (ñꢖi vi  
Ngân hàng, công ty ñin thoi, khách sn, công ty cho thuê …) vi câu “Bí  
quyt ca sthành công là bit nhng gì mà không ai khác bit” (Aristotle  
Onassis [14]). Tt cnhng ñiu ñó chính là nhng nguyên nhân thúc ñꢝy  
Khai phá dliu phát trin.  
13  
Quá trình khám phá tri thc:  
Trưꢈc tiên, phân bit gia các thut ng“mô hình (model)” và “mu  
(pattern)” dùng trong khai phá dliu. Mô hình là mt cu trúc “quy mô ln”,  
có thlà tng kt các quan hqua nhiu trưꢟng hp (case) (ñôi khi là tt cꢄ  
các trưꢟng hp), trong khi mu là mt cu trúc cc b, thomãn bi mt sít  
trưꢟng hp hoc trong mt min nhca không gian dliu. Trong khai phá  
dliu, mt mu ñơn gin là mt mô hình cc b.  
Quá trình khám phá tri thc tin hành theo các bưꢈc sau:  
1. Xác ñꢋnh bài toán nghip v: Trưꢈc tiên phi tìm hiu lĩnh vc ca ng  
dng nghip v; Tìm hiu các tri thc liên quan và các mc ñích ca ng  
dng.  
2. Khai phá dliu  
- La chn dliu: Xác ñꢋnh các tp dliu ñích và các trưꢟng liên  
quan  
- Làm sch dliu: Xoá bnhiu, tin xlý. Phn vic này có thꢑ  
chim ti 60% công sc.  
- Gim bt dliu và chuyn ñꢀi dliu: Tìm ra nhng ñꢘc trưng  
hu dng, gim bt các chiu hoc các bin, biu din li các ñꢓi  
lưꢇng bt bin  
- La chn chc năng khai phá dliu: Tng kt, phân lp, Hi qui,  
kt hp, phân nhóm.  
- La chn thut toán khai phá.  
- Thc hin khai phá dliu (Data Mining): Tìm kim các mu quan  
tâm  
- ðánh giá các mu và biu din tri thc  
14  
Hình 1.1 Quá trình khám phá tri thc  
3. Áp dng khám phá tri thc  
4. ðánh giá và ño ñꢓc  
5. Trin khai và tích hp vào các qui trình nghip vꢍ  
1.1.1 Dliu  
Do có nhiu kiu dliu, các CSDL sdng trong các ng dng cũng  
khác nhau, nên ngưꢟi dùng luôn mong ñꢇi mt hthng khai phá dliu có  
thꢑ ñiu khin ñưꢇc tt ccác loi dliu. Thc tCSDL có sn thưꢟng là  
CSDL quan hvà hthng khai phá dliu cũng thc hin hiu quvic khai  
phá tri thc trên dliu quan h. Vi nhng CSDL ca ng dng cha các  
kiu dliu phc tp, như dliu hypertext và multimedia, dliu tm và  
không gian (spatial), dliu ktha (legacy)… thưꢟng phi có các hthng  
khai phá dliu riêng bit xây dng ñꢑ khai phá cho các kiu dliu cth.  
15  
Dliu ñưꢇc khai phá có thlà dliu có cu trúc, hoc không có cu  
trúc. Mi bn ghi dliu ñưꢇc coi như mt trưꢟng hp hoc mt ví dꢍ  
(case/example).  
Phân bit hai kiu thuc tính: phân loi (categorical) sꢓ  
(numerical). Các thuc tính kiu phân loi là nhng thuc tính có các giá trꢋ  
thuc vào mt slưꢇng nhcác phân loi hoc các lp riêng rvà gia chúng  
không có thtꢌ ꢝn nào. Nu chcó 2 giá tr, ví dlà yes và no, hoc male và  
female, thuc tính ñưꢇc coi là binary. Nu có hơn 2 giá tr, ví d, nh, va,  
ln, rt ln, thuc tính ñưꢇc coi là ña lp (multiclass).  
Các thuc tính slà nhng thuc tính ly các giá trliên tc, ví d, thu  
nhp hàng năm, hoc tui. Thu nhp hàng năm hoc tui có thvlý thuyt  
là bt kmt giá trnào t0 ti vô hn, mc dù mi giá trthưꢟng xut hin  
phù hp vi thc t. Các thuc tính scó thꢑ ñưc bin ñꢀi thành categorical:  
Ví d, thu nhp hàng năm có thꢑ ñưꢇc chia thành các loi: thp, trung bình,  
cao.  
Dliu không có cu trúc có tháp dng các thut toán khai phá dꢁ  
liu thưꢟng là dliu kiu Text.  
Khuôn dng bng ca dliu có ththuc hai loi:  
Dliu dng ñơn bn ghi (còn gi là kiu không giao dch), ñây là  
các bng dliu quan hthông thưꢟng.  
Dliu dng ña bn ghi (còn gi là kiu giao dch), ñưꢇc dùng cho  
dliu vi nhiu thuc tính.  
dng ñơn bn ghi (kiu không giao dch), mi bn ghi ñưꢇc lưu trꢁ  
như 1 dòng trong bng. Dliu ñơn bn ghi không ñòi hi cung cp khoá ñꢑ  
xác ñꢋnh duy nht mi bn ghi. Nhưng, khoá là cn cho các trưꢟng hp kt  
hp (associate) ñꢑ có kt qucho hc có giám sát.  
16  
Trong dng ña bn ghi (kiu giao dch), mi trưꢟng hp (case) ñưꢇc  
lưu trong nhiu bn ghi trong mt bng vi các ct: dãy sꢖ ñꢋnh danh, tên  
thuc tính, giá tr.  
Hình 1.2 Khuôn dng ñơn bn ghi và ña bn ghi  
1.1.2 Tin xlý dliu  
Dliu ñưꢇc chn lc sphi qua bưꢈc tin xlý trưꢈc khi tin hành  
khai phá phát hin tri thc. Bưꢈc thu thp và tin xlý dliu là bưꢈc rt  
phc tp. ðꢑ mt gii thut DM thc hin trên toàn bCSDL srt cng  
knh, kém hiu qu. Trong quá trình khai phá dliu, nhiu khi phi thc  
hin liên kt/tích hp dliu trt nhiu ngun khác nhau. Các hthng sn  
ñưꢇc thit kvi nhng mc ñích và ñꢖi tưꢇng phc vkhác nhau, khi tp  
hp dliu tnhng hthng này ñꢑ phc vkhai phá dliu, hin tưꢇng dư  
tha là rt phbin, ngoài ra còn có thxy ra xung ñꢐt gây my dliu, dꢁ  
liu không ñꢛng nht, không chính xác. Rõ ràng yêu cu chn lc và làm sch  
dliu là rt cn thit.  
Nu ñꢚu vào ca quá trình khai phá là dliu trong DW thì srt thun  
tin, vì dliu này ñã ñưꢇc làm sch, nht quán và có tính cht hưꢈng chꢎ ñꢑ.  
17  
Tuy nhiên nhiu khi vn phi có thêm mt sbưꢈc tin xñꢑ ñưa dliu  
vꢠ ñúng dng cn thit.  
Ngoài mt sxlý thông thưꢟng như: bin ñꢀi, tp hp dliu tꢡ  
nhiu ngun vmt kho chung, xñꢑ ñꢄm bo nht quán dliu (khcác  
trưꢟng hp lp, thng nht cách ký hiu, chuyn ñꢀi vkhuôn dng thng  
nht (ñơn vtin t, ngày tháng..)). Mt sxñꢘc bit cn chú ý trong  
bưꢈc tin xlý dliu:  
Xlý vi dliu thiu (missing data): Thưꢟng thì khi khai phá dliu  
không ñòi hi NSD phi xlý các giá trthiu bng cách thc ñꢘc bit nào.  
Khi khai phá, thut toán khai phá sbqua các giá trthiu. Tuy nhiên trong  
mt vài trưꢟng hp cn chú ý ñꢑ ñꢄm bo thut toán phân bit ñưꢇc gia giá  
trcó nghĩa (“0”) vi giá trtrng. (tham kho trong [11]).  
Các giá trgây nhiu (Outliers): Mt outlier là mt giá trꢋ ꢒ xa bên  
ngoài ca min thông thưꢟng trong tp hp dliu, là giá trchênh lch vi  
chun vý nghĩa. Scó mt ca outliers có thnh hưꢒng ñáng ktrong  
các mô hình khai phá dliu.  
Outliers nh hưꢒng ñꢆn khai phá dliu trong bưꢈc tin xlý dliu  
hoc là khi nó ñưꢇc thc hin bi NSD hoc tꢌ ñꢐng trong khi xây dng mô  
hình.  
Binning: Mt vài thut toán khai phá dliu có thcó li nhvic  
binning vi chai loi dliu number và categorical. Các thut toán Naive  
Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, và  
Association Rules có thcó li tvic binning.  
Binning nghĩa là nhóm các giá trliên quan vi nhau, như vy gim sꢖ  
lưꢇng các giá trriêng bit ca mt thuc tính. Có ít hơn các giá trriêng bit  
dn ñꢆn mô hình gn nhvà xây dng ñưꢇc nhanh hơn, nhưng nó cũng có thꢑ  
18  
dn ñꢆn vic mt ñi ñꢐ chính xác [11] (Các phương pháp tính toán ranh gii  
bin [11]).  
1.1.3 Mô hình khai phá dliu  
Mô hình khai phá dliu là mt mô tvmt khía cnh cthca mt  
tp dliu. Nó to ra các giá trꢋ ñꢚu ra cho tp các giá trꢋ ñꢚu vào.  
Ví d: Mô hình Hi qui tuyn tính, mô hình phân lp, mô hình phân  
nhóm.  
Mt mô hình khai phá dliu có thꢑ ñưꢇc mô tꢄ ꢒ 2 mc:  
Mc chc năng (Function level): Mô tmô hình bng nhng thut  
ngvdꢌ ñnh sdng. Ví d: Phân lp, phân nhóm.  
Mc biu din (representation level): Biu din cthmt mô hình.  
Ví d: Mô hình log-linear, cây phân lp, phương pháp láng ging  
gn nht.  
Các mô hình khai phá dliu da trên 2 kiu hc: có giám sát và không  
giám sát (ñôi khi ñưꢇc nói ñꢆn như là hc trc tip và không trc tip –  
directed and undirected learning) [11].  
Các hàm hc có giám sát (Supervised learning functions) ñưꢇc sdng  
ñꢑ dꢌ ñoán giá tr. Các hàm hc không giám sát ñưꢇc dùng ñꢑ tìm ra cu trúc  
bên trong, các quan hhoc tính ging nhau trong ni dung dliu nhưng  
không có lp hay nhãn nào ñưꢇc gán ưu tiên. Ví dca các thut toán hc  
không giám sát gm phân nhóm k-mean (k-mean clustering) và các lut kt  
hp Apriori. Mt ví dca thut toán hc có giám sát bao gm Naive Bayes  
cho phân lp (classification).  
Tương ng có 2 loi mô hình khai phá dliu:  
Các mô hình dbáo (hc có giám sát):  
19  
Phân lp: nhóm các items thành các lp riêng bit và dꢌ ñoán  
mt item sthuc vào lp nào.  
Hi qui (Regression): xp xhàm và dbáo các giá trliên tc  
ðꢐ quan trng ca thuc tính: xác ñꢋnh các thuc tính là quan  
trng nht trong các kt qudbáo  
Các mô hình mô t(hc không giám sát):  
Phân nhóm (Clustering): Tìm các nhóm tnhiên trong dliu  
Các mô hình kt hp (Association models): Phân tích “gihàng”  
Trích chn ñꢘc trưng (Feature extraction): To các thuc tính  
(ñꢘc trưng) mi như là kt hp ca các thuc tính ban ñꢚu  
1.2. Các chc n  
ăng c  
ơ
bn khai phá dliu  
1.2.1 Phân lp (Classification)  
Trong bài toán phân lp, ta có dliu lch s(các ví dꢍ ñưꢇc gán nhãn  
- thuc lp nào) và các dliu mi chưa ñưꢇc gán nhãn. Mi ví dꢍ ñưꢇc gán  
nhãn bao gm nhiu thuc tính dbáo và mt thuc tính ñích (bin phꢍ  
thuc). Giá trca thuc tính ñích chính là nhãn ca lp. Các ví dkhông  
ñưꢇc gán nhãn chbao gm các thuc tính dbáo. Mc ñích ca vic phân  
lp là xây dng mô hình da vào dliu lch sꢏ ñꢑ dbáo chính xác nhãn  
(lp) ca các ví dkhông gán nhãn. [11]  
Nhim vphân lp bt ñꢚu vi vic xây dng dliu (dliu hun  
luyn) có các giá trꢋ ñích (nhãn lp) ñã bit. Các thut toán phân lp khác  
nhau dùng các kthut khác nhau cho vic tìm các quan hgia các giá trꢋ  
ca thuc tính dbáo và các giá trca thuc tính ñích trong dliu hun  
luyn. Nhng quan hnày ñưꢇc tng kt trong mô hình, sau ñó ñưꢇc dùng  
20  
cho các trưꢟng hp mi vi các giá trꢋ ñích chưa bit ñꢑ dꢌ ñoán các giá trꢋ  
ñích.  
Mô hình phân lp có thꢑ ñưꢇc dùng trên bdliu kim th/dliu  
ñánh giá vi mc ñích so sánh các giá trdbáo vi các câu trli ñã bit.  
Kthut này ñưꢇc gi là kim tra mô hình, nó ño ñꢐ chính xác dbáo ca  
mô hình.  
Áp dng mô hình phân lp ñꢖi vi dliu mi ñưꢇc gi là sdng mô  
hình, và dliu ñưꢇc gi là dliu sdng hay dliu trung tâm (apply data  
or scoring data). Vic sdng dliu thưꢟng ñưꢇc gi là ‘scoring the data’.  
Sphân lp ñưꢇc dùng trong phân ñon khách hàng, phân tích tín  
dng, và nhiu ng dng khác. Ví d, công ty thtín dng mun dbáo  
nhng khách hàng nào skhông trꢄ ñúng hn trên các chi trca h. Mi  
khách hàng tương ng vi mt trưꢟng hp; dliu cho mi trưꢟng hp có thꢑ  
bao gm mt sthuc tính mô tthói quen tiêu dùng ca khách hàng, thu  
nhp, các thuc tính nhân khu hc,… ðây là nhng thuc tính dbáo.  
Thuc tính ñích chra có hay không ngưꢟi khách hàng ñã vn/không trꢄ  
ñúng hn; như vy, có hai lp có khnăng, tương ng vi vnhoc không.  
Dliu hun luyn sꢧ ñưꢇc dùng ñꢑ xây dng mô hình dùng cho dbáo các  
trưꢟng hp mi sau này (dbáo khách hàng mi có khnăng chi trnꢇ  
không).  
Chi phí (Costs):  
Trong bài toán phân lp, có thcn xác ñꢋnh chi phí bao hàm trong vic  
to ra mt quyt ñꢋnh sai lm. Vic này là quan trng và cn thit khi có  
chênh lch chi phí ln gia các phân lp sai (misclassification). Ví d, bài  
toán dbáo có hay không mt ngưꢟi strli vi thư qung cáo. ðích có 2  
phân loi: YES (khách hàng trli) và NO (khách hàng không trli). Gisꢏ  
trli tích cc ñꢖi vi qung cáo sinh ra $500 và nó trgiá $5 ñꢑ gi thư. Nu  
21  
mô hình dbáo YES và giá trthc tlà YES, giá trca phân lp sai là $0.  
Nu mô hình dbáo YES và giá trthc tlà NO, giá trca phân lp sai là  
$5. Nu mô hình dbáo NO và giá trthc tlà YES, giá trca phân lp sai  
là $500. Nu mô hình dbáo NO và giá trthc là NO, chi phí là $0.  
Ma trn chi phí, có chshàng ương ng vi các giá trthc; chsct  
tương ng vi các giá trdbáo. Vi mi cp chsthc-dbáo, giá trca  
ma trn chra chi phí ca sphân lp sai.  
Mt vài thut toán, như Adaptive Bayes Network, ti ưu ma trn chi  
phí mt cách trc tip, sa ñꢀi mô hình mc ñích to ra các gii pháp chi phí  
cc tiu. Các thut toán khác, như Naive Bayes (dbáo xác sut), dùng ma  
trn chi phí trong khi tìm kt qutrên dliu tht ñꢑ ñưa ra gii pháp chi phí  
ít nht.  
1.2.1.1 Phân lp - mt quá trình hai bưꢗc  
Bưꢉc 1. Xây dng mô hình (Hc)  
Xây dng mô hình bng cách phân tích tp dliu hun luyn, sdng  
các thut toán phân lp và thhin mô hình theo lut phân lp, cây quyt ñꢋnh  
hoc các công thc toán hc, mng nơron…  
Bưꢈc này còn ñưꢇc coi là bưꢈc to ra bphân lp (classifier).  
Bưꢉc 2. Sdng mô hình (Phân lp)  
Áp dng mô hình cho tp dliu kim thvi các lp ñã xác ñꢋnh ñꢑ  
kim tra và ñánh giá ñꢐ chính xác ca mô hình. Nu ñꢐ chính xác là chp  
nhn ñưꢇc, mô hình sꢧ ñưꢇc sdng ñꢑ phân lp cho các dliu mi.  
Như vy có 3 tp dliu có cu trúc và các thuc tính dꢌ ñoán ging  
nhau: Tp hun luyn và tp kim thꢏ ñã bit lp; Tp mi chưa xác ñꢋnh lp.  
22  
1.2.1.2 Phân lp bng hc cây quyt ñꢛnh  
Cây quyt ñꢋnh  
Phương pháp hiu quꢄ ñꢘc bit cho vic to ra các bphân lp tdꢁ  
liu là sinh ra cây quyt ñꢋnh. Biu din ca cây quyt ñꢋnh là phương pháp  
logic ñưꢇc sdng rng rãi nht [9]. Mt cây quyt ñꢋnh bao gm các nodes  
ꢒ ñó các thuc tính ñưꢇc kim tra (tested). Các nhánh ra ca mt node  
tương ng vi tt ccác kt qucó thca vic kim tra ti node.  d, cây  
quyt ñꢋnh ñơn gin cho vic phân lp các mu vi 2 thuc tính ñꢚu vào X và  
Y ñưꢇc cho trong hình 1.3. Tt ccác mu vi các giá trꢋ ñꢘc trưng X>1 và  
Y=B thuc vào Class2, trong khi các mu vi giá trX<1 ñꢠu thuc vào  
Class1, dù Y ly bt kgiá trnào.  
Hình 1.3: Cây quyt ñꢋnh ñơn gin vi các tests trên các thuc tính X và Y  
Phn quan trng nht ca thut toán là quá trình sinh ra mt cây quyt  
ñꢋnh khi ñꢚu ttp các mu hun luyn. Kt qu, thut toán sinh ra mt bꢐ  
phân lp dng ca mt cây quyt ñꢋnh; Mt cu trúc vi 2 kiu nodes: Node  
lá, ñꢑ ch1 lp, hoc mt node quyt ñꢋnh chra kim tra ñưꢇc thc hin trên  
mt giá trthuc tính ñơn, vi mt nhánh và cây con cho mi khnăng ñꢚu ra  
ca kim tra.  
23  
Mt cây quyt ñꢋnh có thꢑ ñưꢇc dùng ñꢑ phân lp mt mu mi bng  
cách khi ñꢚu ti gc ca cây và di chuyn qua nó ñꢆn khi gp mt lá. Ti  
mi node quyt ñꢋnh không là lá, ñꢚu ra vi kim tra ti node ñưꢇc xác ñꢋnh  
và la chn di chuyn ti gc ca cây con. Ví d, nu mô hình phân lp ca  
bài toán ñưꢇc cho vi cây quyt ñꢋnh trong hình 1.4.1 và mu cho vic phân  
lp trong hình 1.4.2, thì thut toán sto ñưꢟng ñi qua các nodes A, C, và F  
(node lá) ñꢆn khi nó to quyt ñꢋnh phân lp cui cùng: CLASS2.  
Hình 1.4: Sphân lp mt mu mi da trên mô hình cây quyt ñꢋnh  
Thut toán phát trin cây (tree-growing) cho vic sinh ra cây quyt ñꢋnh  
da trên các phân tách ñơn bin là ID3 vi phiên bn mrng là C4.5.  
Giscó nhim vla chn mt kim tra vi n ñꢚu ra (n giá trcho  
mt ñꢘc trưng ñã cho) mà chia tp các mu hc T thành các tp con T1, T2,  
…, Tn. Thông tin dùng cho vic hưꢈng dn là sphân tán ca các lp trong T  
và các tp con Ti ca nó. Nu S là tp bt kcác mu, gi freq (Ci, S) biu thꢋ  
slưꢇng các mu trong S mà thuc vào lp Ci, và |S| biu din slưꢇng các  
mu trong tp S.  
Thut toán ID3 gc dùng mt tiêu chun ñưꢇc gi là li ích (gain) ñꢑ  
la chn thuc tính ñưꢇc kim tra, da trên khái nin lý thuyt thông tin:  
entropy. Quan hsau ñây ñưa ra tính toán ca entropy ca tp S:  
24  
k
k
Info(S) = - pi log2pi = - ((freq(Ci, S) / |S|) * log2 (freq(Ci, S) / |S|)  
i=1  
i=1  
Xem xét tp T sau khi ñưꢇc phân chia tương ng vi n ñꢚu ra ca mt  
thuc tính kim tra X. Yêu cu vthông tin mong ñꢇi có thꢑ ñưꢇc tìm ra như  
là tng trng sca các entropies trên các tp con:  
n
Infox(T) = - ((|Ti| / |T|) * Info(Ti))  
i=1  
ðꢌ ño li ích thông tin Gain: Mt thuc tính có li ích thông tin cao,  
nghĩa là nu bit ñưꢇc các giá trca thuc tính ñó thì vic phân lp stin  
gn ti ñích. Như ví dtrên hình 1.3, nu bit X>1 thì bit ñưꢇc ngay thuc  
lp Class1. Gain ca thuc tính X ñưꢇc ño bng ñꢐ gim entropy trung bình  
ca tp T sau khi ñã bit giá trca X:  
Gain(X) = Info(T) – Infox(T)  
Ví dminh hovic áp dng các phép ño khi to cây quyt ñꢋnh:  
GisCSDL T vi 14 trưꢟng hp (ví d) ñưꢇc mô tvi 3 thuc tính  
ñꢚu vào và thuc vào 2 nhóm cho trưꢈc: CLASS1 hoc CLASS2. CSDL cho  
trưꢈc trong bng 1.1  
9 mu thuc vào CLASS1 và 5 mu thuc CLASS2, vy entropy trưꢈc  
khi phân tách là:  
Info(T) = – 9/14 log2 (9/14) – 5/14 log2 (5/14) = 0.940 bits  
Sau khi dùng Attribute1 ñꢑ chia tp ban ñꢚu ca các mu T thành 3 tp  
con (kim tra x1 biu din la chn mt trong 3 giá trA, B hoc C), thông tin  
kt quꢄ ñưꢇc cho bi:  
Infox1 (T) = 5/14 ( – 2/5 log2 (2/5) – 3/5 log2 (3/5))  
+ 4/14 ( – 4/4 log2 (4/4) – 0/4 log2 (0/4))  
+ 5/14 ( – 3/5 log2 (3/5) – 2/5 log2 (2/5))  
= 0.694 bits  
25  
Bng 1.1: CSDL ñơn gin gm các ví dhun luyn  
CSDL T:  
Attribute1  
Attribute2  
70  
Attribute3  
True  
Attribute4  
CLASS1  
CLASS2  
CLASS2  
CLASS2  
CLASS1  
CLASS1  
CLASS1  
CLASS1  
CLASS1  
CLASS2  
CLASS2  
CLASS1  
CLASS1  
CLASS1  
A
A
A
A
A
B
B
B
B
C
C
C
C
C
90  
True  
85  
False  
False  
False  
True  
95  
70  
90  
78  
False  
True  
65  
75  
False  
True  
80  
70  
True  
80  
False  
False  
False  
80  
96  
Thông tin thu ñưꢇc bng kim tra x1 này là:  
Gain (x1) = 0.940 – 0.694 = 0.246 bits  
Nu kim tra và phân tách da trên Attribute3 (kim tra x2 bin din  
la chn mt trong 2 giá trTrue hoc False), mt tính toán tương tscho  
các kt qumi:  
Infox2 (T) = 6/14 ( – 3/6 log2 (3/6) – 3/6 log2 (3/6))  
+ 8/14 ( – 6/8 log2 (6/8) – 2/8 log2 (2/8))  
= 0.892 bits  
26  
Và gain tương ng là  
Gain(x2) = 0.940 – 0.892 = 0.048 bits  
Da trên ñiu kin li ích (gain criterion), thut toán cây quyt ñꢋnh sꢧ  
la chn kim tra x1 như mt kim tra khi ñꢚu cho vic phân tách CSDL T  
bi vì giá trli ích cao hơn. ðꢑ tìm ra kim tra ti ưu, cn phi phân tích  
kim tra trên Attribute2, là mt ñꢘc trưng svi các giá trliên tc.  
trên ñã gii thích kim tra chun cho các thuc tính phân loi. Dưꢈi  
ñây snêu thêm vthtc cho vit thit lp các kim tra trên các thuc tính  
vi các giá trs. Các kim tra trên các thuc tính liên tc skhó công thc  
hoá, vì nó cha mt ngưꢙng bt kcho vic phân tách tt ccác giá trvào 2  
khong.  
Có mt thut toán cho vic tính toán giá trngưꢙng ti ưu Z. Các mu  
hc ñꢚu tiên ñưꢇc sp xp trên các giá trca thuc tính Y ñang ñưꢇc xem  
xét. Chcó mt scó hn ca các giá trnày, vì vy ký hiu chúng trong thꢃ  
tꢌ ñã ñưꢇc sp xp là {v1, v2 …, vm}. Bt kgiá trngưꢙng nào nm gia vi  
và vi+1 scó cùng hiu qunu ngưꢙng ñó chia các trưꢟng hp thành nhng  
phn mà giá trca thuc tính Y ca chúng nm trong {v1, v2 …, vi} và trong  
{vi+1, vi+2, …, vm}. Chcó m-1 khnăng trên Y, tt cchúng cn ñưꢇc kim  
tra mt cách có hthng ñꢑ thu ñưꢇc mt phân tách ti ưu. Thưꢟng chn  
ngưꢙng là ñim gia ca mi khong (vi + vi+1)/2.  
Ví dminh hoquá trình tìm ngưꢙng này: Vi CSDL T, phân tích các  
khnăng phân tách Attribute2. Sau khi sp xp, tp các giá trcho Attribute2  
là {65, 70, 75, 78, 80, 85, 90, 95, 96} và tp các giá trngưꢙng tim năng Z  
là {65, 70, 75, 78, 80, 85, 90, 95}. Z ti ưu (vi thông tin li ích cao nht) cn  
ñưꢇc la chn. Trong ví dnày, giá trZ ti ưu là Z = 80 và quá trình tính  
toán thông tin li ích tương ng cho kim tra x3 (Attribute2 80 or Attribute2  
> 80) như sau:  
27  
Infox3 (T) = 9/14 ( – 7/9 log2 (7/9) – 2/9 log2 (2/9))  
+ 5/14 ( – 2/5 log2 (2/5) – 3/5 log2 (3/5))  
= 0.837 bits  
Gain(x3) = 0.940 – 0.837 = 0.103 bits  
So sánh thông tin li ích cho 3 thuc tính trong ví d, ta có ththy  
Attribute1 vn cho li ích cao nht 0.246 bits và do ñó thuc tính này sꢧ ñưꢇc  
la chn cho vic phân tách ñꢚu tiên trong vic xây dng cây quyt ñꢋnh. Nút  
gc scó kim tra cho các giá trca Attribute1, và 3 nhánh sꢧ ñưꢇc to, mi  
nhánh cho mt giá trthuc tính. Cây ban ñꢚu này vi các tp con tương ng  
ca các mu trong các nodes con ñưꢇc biu din trong hình 1.5.  
Hình 1.5 Cây quyt ñꢋnh ban ñꢚu  
và tp con các trưꢟng hp cho mt CSDL trong bng 1.1  
Sau vic phân tách ban ñꢚu, mi node con có mt vài mu tCSDL,  
và toàn bquá trình la chn và ti ưu kim tra sꢧ ñưꢇc lp li cho mi node  
con. Bi vì node con cho kim tra x1: Attribute1 = B có 4 trưꢟng hp và tt cꢄ  
chúng là trong CLASS1, node này slà node lá, và không có các kim tra bꢀ  
sung nào cn cho nhánh này ca cây.  
28  
Cho node con còn li, có 5 trưꢟng hp trong tp con T1, các kim tra  
trên các thuc tính còn li có thꢑ ñưꢇc thc hin; mt kim tra ti ưu (vi  
thông tin có ích cc ñꢓi) slà kim tra x4 vi 2 la chn: Attribute2 70 or  
Attribute2 > 70.  
Info (T1) = – 2/15 log2 (2/5) – 3/15 log2 (3/5) = 0.940 bits  
Dùng Attribute2 ñꢑ chia T1 thành 2 tp con (kim tra x4 biu din la  
chn ca mt trong 2 khong), thông tin kt quꢄ ñưꢇc cho bi:  
Infox4 (T1) = 2/5 ( – 2/2 log2 (2/2) – 0/2 log2 (0/2))  
+ 3/5 ( – 0/3 log2 (0/3) – 3/3 log2 (3/3))  
= 0 bits  
Gain thu ñưꢇc bi test này là cc ñꢓi:  
Gain(x4) = 0.940 – 0 = 0.940 bits  
Và 2 nhánh sto các node lá cui cùng vì các tp con ca các trưꢟng  
hp trong mi nhánh thuc vào cùng mt class.  
Tính toán tương tsꢧ ñưꢇc tin hành/tip tc cho con th3 ca node  
gc. Cho tp con T3 ca CSDL T, kim tra x5 ti ưu ñưꢇc chn là vic kim  
tra trên các giá trca Attribute3. Các nhánh ca cây, Attribute3 = True và  
Attribute3 = False, sto các tp con ñꢛng nht ca các trưꢟng hp mà thuc  
vào cùng mt lp. Cây quyt ñꢋnh cui cùng cho CSDL T ñưꢇc biu din  
trong hình 1.5.  
29  
Hình 1.5 Cây quyt ñꢋnh cui cùng cho CSDL T ñã nêu trong bng 1.1  
Tuchn, mt cây quyt ñꢋnh cũng có thꢑ ñưꢇc biu din dng mt  
mã thc hin (hoc gimã) vi các cu trúc if-then cho vic tách nhánh thành  
mt cu trúc cây. Cây quyt ñꢋnh cui cùng trong ví dtrên ñưꢇc ñưa trong  
gicode như hình 1.6.  
Hình 1.6 Cây quyt ñꢋnh dng gicode cho CSDL T (bng 1.1)  
30  
1.2.1.3 Phân lp Bayees  
Phân lp Bayees là phương pháp phân lp thng kê dꢌ ñoán xác sut  
các thành viên thuc lp. Phân lp Bayees cho tính chính xác và tc ñꢐ cao  
khi áp dng vào các CSDL ln. Phương pháp Naive Bayees là mt phương  
pháp phân lp Bayees ñơn gin. Phương pháp này githit nh hưꢒng ca  
mt giá trthuc tính ti lp là ñꢐc lp vi các giá trthuc tính khác - gi là  
ñꢐc lp ñiu kin lp.  
Lý thuyt Bayees  
Cho X là dliu ví dca mt lp chưa bit. H là githit X thuc lp  
C. Bài toán phân lp sxác ñꢋnh P(H|X) – là xác sut githuyt H cha ví dꢍ  
X. ðó là xác sut hu nghim ca H vi ñiu kin X.  
Công thc Bayees là:  
P(H|X) = P(X|H) * P(H) / P(X)  
(1.1)  
Vi P(X|H) là xác sut hu nghim ca X vi ñiu kin H.  
P(X) là xác sut tiên nghim ca X.  
Phân lp Naive Bayees  
1. Mi dliu ví dꢍ ñưꢇc biu din bng mt vecto X=(x1, .. xn) mô tn  
ñꢐ ño ca n thuc tính A1,.., An.  
2. Giscó m lp C1,…, Cm. Cho mt trưꢟng hp X chưa bit lp, phân  
lp sdꢌ ñoán X thuc vlp Ci có xác sut ñiu kin X cao nht,  
nghĩa là  
X
Ci P(Ci|X)>P(Cj | X)  
1<=j<=m j # i  
Theo công thc Bayees có: P(Ci|X) = P(X | Ci)P(Ci)/ P(X)  
Trong ñó Ci ñưꢇc gi là githuyt hu nghim ln nht.  
3. Nu P(X) là hng chcn tìm max P(X|Ci)P(Ci). Nu xác sut tiên  
nghim chưa bit và gisP(C1)=P(C2)... thì tìm Ci có max  
P(X|Ci)P(Ci).  
(1.2)  

Tải về để xem bản đầy đủ

pdf 112 trang yennguyen 20/04/2025 90
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nghien_cuu_va_ap_dung_mot_so_ky_thuat_khai_pha_du_l.pdf