Luận văn Mô hình Maximum entropy và ứng dụng

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Trn Quang Dũng  
MÔ HÌNH MAXIMUM ENTROPY  
NG DNG  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công NghThông Tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Trn Quang Dũng  
MÔ HÌNH MAXIMUM ENTROPY  
NG DNG  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công NghThông Tin  
Cán bhướng dn: Lê Anh Cường  
HÀ NI - 2010  
TÓM TT NI DUNG  
Trong nhng năm gn đây, vi sphát trin mnh mca công nghthông tin và  
nhu cu sdng Internet ca tt cmi người trên thế gii đã làm tăng vt lượng thông  
tin giao dch trên Internet. Vì vy mà slượng văn bn xut hin trên Internet tăng  
nhanh chóng mt cvslượng và chủ đề. Vi khi lượng thông tin đồ snhư vy, để  
tìm được nhng thông tin cn thiết cho mc đích ca chúng ta smt rt nhiu thi gian  
và công sc. Mt câu hi được đặt ra, làm thế nào có thtchc và tìm kiếm thông tin  
mt cách nhanh chóng và hiu qunht? Và câu trli hp lý cho câu hi trên là phân  
loi thông tin tự động bng máy tính.  
Trong lun văn này, em tp trung tìm hiu vmô hình cc đại entropy và áp dng  
mô hình để xây dng chương trình phân loi văn bn Tiếng Vit tự động da trên tp dữ  
liu hun luyn. Từ đó hướng ti vic xây dng chương trình chn ni dung web bng  
vic phân tích ni dung web.  
Hin nay, vic kim soát truy cp Internet vn chưa đạt được hiu qutt. Nhng  
trang web vi ni dung xu vn được truy cp rt ddàng mà không có bt kskim  
soát nào. Vi chương trình chn ni dung web, em hy vng có thgiúp ngăn chn được  
nhng trang web có ni dung xu. Bên cnh đó, cũng giúp mi người có thlc ra được  
nhng trang web có ni dung phù hp vi nhu cu ca tng người trong nhng lĩnh vc  
riêng bit.  
i
LI CM ƠN  
Em xin gi li cm ơn chân thành và sâu sc nht ti Thy LÊ ANH CƯỜNG đã  
tn ty hướng dn, động viên, giúp đỡ em trong sut thi gian thc hin đề tài.  
Em xin chân thành cm ơn quý Thy Cô trong khoa Công NghThông Tin đã  
truyn đạt nhng kiến thc quý báu cho chúng em trong nhng năm hc va qua.  
Chúng con xin nói lên lòng biết ơn đối vi Ông Bà, Cha Mluôn là ngun động  
viên, chăm sóc trên bước đường hc vn ca chúng con.  
Xin chân thành cm ơn các anh chvà bn bè đã ng h, giúp đỡ động viên  
chúng em trong thi gian hc tp và nghiên cu.  
Mc dù em đã cgng hoàn thành lun văn trong phm vi và khnăng cho phép  
nhưng chc chn skhông tránh khi nhng thiếu sót. Em kính mong nhn được scm  
thông và tn tình chbo ca quý Thy Cô và các bn.  
Hà ni, 06/2010  
Sinh viên thc hin,  
Trn Quang Dũng  
ii  
Mc lc  
Chương 1: Tng quát..................................................................................................... 1  
Đặt vn đ.......................................................................................................................1  
Gii thiu mô hình cc đại entropy.................................................................................2  
Mc tiêu ca lun văn .....................................................................................................3  
Chương 2: Các phương pháp phân loi văn bn........................................................ 5  
1.1  
1.2  
1.3  
2.1 Cái nhìn tng quát vcác phương pháp phân loi văn bn ...............................................5  
2.2 Mô tbài toán phân loi văn bn........................................................................................5  
2.3 Biu din văn bn ...............................................................................................................6  
2.4 Các phương pháp phân loi văn bn...................................................................................7  
2.4.1 Naïve Bayes (NB).........................................................................................................7  
2.4.2 k-Nearest Neighbor (kNN)............................................................................................8  
2.4.3 Linear Least Square Fit (LLSF) ....................................................................................9  
2.4.4 Support Vector Machine (SVM)..................................................................................10  
Chương 3: Mô hình cc đại entropy.......................................................................... 12  
3.1 Tng quát mô hình cc đại entropy ...................................................................................12  
3.2 Mô hình cc đại entropy ....................................................................................................15  
3.2.1 Dliu hun luyn ......................................................................................................15  
3.2.2 Thng kê, đặc trưng và ràng buc ..............................................................................16  
3.2.3 Nguyên lý cc đại entropy...........................................................................................17  
3.2.4 Tham shình thc ......................................................................................................18  
3.2.5 Mi quan hvi cc đại Likelihood.............................................................................20  
3.2.6 Tính các tham s.........................................................................................................20  
3.3 La chn đặc trưng............................................................................................................22  
3.3.1 Ý nghĩa ca vic la chn đặc trưng...........................................................................22  
3.3.2 Cơ sla chn đặc trưng...........................................................................................24  
3.3.3 Giá trgn đúng...............................................................................................................26  
Chương 4: Thc nghim phân loi văn bn .............................................................. 29  
4.1 Thng kê kết quthc nghim ..........................................................................................29  
iii  
4.2 Các thành phn và chc năng ca chương trình ..............................................................33  
4.2.1 Chc năng hun luyn ................................................................................................34  
4.2.2 Chc năng kim th....................................................................................................36  
4.2.3 Chc năng gán nhãn...................................................................................................37  
4.3 ng dng chn ni dung web............................................................................................39  
4.3.1 Kthut lc web Blue Coat .........................................................................................39  
4.3.2 Chc năng ng dng chn ni dung web ...................................................................40  
Chương 5: Kết lun ...................................................................................................... 44  
5.1 Kết quả đạt được ...............................................................................................................44  
5.2 Nhng hn chế và hướng gii quyết .................................................................................45  
Tài liu tham kho......................................................................................................... 46  
Phlc........................................................................................................................... 48  
iv  
Danh sách hình  
Hình 2.1: Các đim được khoanh tròn là các vector htr....................................10  
Hình 3.1: La chn đặc trưng..................................................................................24  
Hình 3.2 log-likelihood được biu din như hàm li 2 tham s............................28  
Hình 4.1: Giao din chc năng hun luyn..............................................................34  
Hình 4.2: Giao din chc năng kim th.................................................................36  
Hình 4.3: Giao din chc năng gán nhãn.................................................................37  
Hình 4.4: Giao din gii thiu..................................................................................38  
Hình 4.5: Giao din chn ni dung web...................................................................41  
Hình 4.6: Ca ssetting...........................................................................................42  
Hình 4.7: Ca sgii thiu......................................................................................43  
v
Danh sách bng  
Bng 4.1: Slượng file ca dliu hun luyn......................................................29  
Bng 4.2: Slượng file ca dliu kim th.........................................................30  
Bng 4.3: Mô tgiao din hun luyn....................................................................35  
Bng 4.4: Kết quhun luyn.................................................................................35  
Bng 4.5: Mô tchc năng kim th......................................................................36  
Bng 4.6: Kết qukim th....................................................................................37  
Bng 4.7: Kết qugán nhãn....................................................................................38  
Bng 4.8: Chc năng giao din chn ni dung web...............................................42  
vi  
Chương 1: Tng quát  
1.1 Đặt vn đề  
Trong thi đại bùng ncông nghthông tin hin nay, các tài liu giy dn được số  
hóa thành các dng tài liu được lưu trtrên máy tính thay thế cho nhng tài liu giy  
cng knh. Tài liu svi nhng ưu đim gn nh, dbo qun, lưu trữ được lâu, dễ  
dàng chia svi bn bè, có thsa đổi... đã ngày càng trnên phbiến và tin dng. Vì  
vy mà slượng tài liu stăng nhanh đến chóng mt. Vi mt khi lượng ln các tài  
liu snhư vy, làm cách nào chúng ta có thlc ra được nhng tài liu thc scn  
thiết cho mt mc đích nào đó ca chúng ta?  
Câu trli đó là phân loi văn bn tự động! Mt chương trình có thtự động phân  
loi văn bn theo các chủ đề cth. Khi đó sgiúp chúng ta gii hn được ni dung ca  
tài liu theo đúng mc đích sdng. Vi mt khi lượng khng lcác tài liu s. Thì  
vic phân loi văn bn tự động sgiúp chúng ta tiết kim được rt nhiu thi gian và  
công sc tìm kiếm.  
Theo Yang & Xiu (1999), “Vic phân loi văn bn tự động là vic gán các nhãn  
phân loi lên mt văn bn mi da trên mc độ tương tca văn bn đó so vi các văn  
bn đã được gán nhãn trong tp hun luyn”.  
Da trên thng kê ca Yang & Xiu và các tài liu khác, mt sphương pháp phân  
loi thông dng hin nay là: Naïve Bayes [Baker & Mccallum, 2000], k-Nearest  
Neighbor [Yang, 1994], Linear Least Squares Fit [Yang & Chute, 1994], Support  
Vector Machine [Joachims, 1998] , 1998], Maximum Entropy [Berger, 1996 và Della  
Pietra, 1997]. Các phương pháp đều da vào xác sut thng kê hoc thông tin vtrng  
sca ttrong văn bn. Chi tiết vcác phương pháp sẽ được trình bày trong chương 2.  
Trong phân loi văn bn tiếng Anh, kết quphân loi là rt khquan. Còn đối vi  
tiếng Vit vn còn nhiu hn chế. Hn chế vmt ngôn ng: Tiếng Anh định nghĩa tlà  
mt tp hp các ký tcó nghĩa và chúng được tách bit vi nhau bi khong trng. Ví  
d: this, house, wonderland, pacific... Do đó vic tách từ đối vi tiếng Anh là rt đơn  
gin. Tuy nhiên, vi tiếng Vit thì vic xác định các ttrnên khó khăn hơn. Các từ  
không phi được xác định da vào khong trng mà nó phthuc vào ngcnh. Ví dụ  
1
các tsau: “thế gii”, “tin”, “chiến binh”, “quyn sách”... Hn chế vtp dliu hun  
luyn và kim thchun...  
Tuy nhiên cũng đã có nhiu nhà nghiên cu trong lĩnh vc này và đạt được nhng  
kết quban đầu như [Hunh Quyết Thng và Đinh ThPhương, 1999], [Nguyn Linh  
Giang và Nguyn Mnh Hin, 2005]. Các hướng tiếp cn bao gm: lý thuyết đồ th[Đỗ  
Bích Dip, 2004], sdng lý thuyết tp thô [Nguyn Ngc Bình, 2004], thng kê  
[Nguyn Linh Giang và Nguyn Duy Hi, 1999], hc không giám sát và đánh chmc  
[Hunh Quyết Thng và Đinh ThPhương, 1999].  
Lun văn là mt đóng góp tiếp tc trong vic nghiên cu lý thuyết và phát trin các  
hthng thc nghim cho vic phân loi văn bn tiếng Vit. Phương pháp phân loi  
được nghiên cu trong lun văn là mô hình cc đại entropy [Berger, 1996 và Della  
Pietra, 1997].  
1.2 Gii thiu mô hình cc đại entropy  
Mô hình cc đại entropy là phương pháp phân loi văn bn được sdng rng rãi  
trong nhiu lĩnh vc ca xlý ngôn ngtnhiên như: ngôn ngmô hình hóa [Chen và  
Rosenfeld, 1999], gán nhãn tloi [Ratnaparkhi, 1996], phân loi văn bn [Beeferman,  
1999].  
Mô hình cc đại entropy là kthut dùng để đánh giá phân phi xác sut ca dữ  
liu văn bn. Tư tưởng chính ca phương pháp là nhng gì chưa biết hoc không rõ ràng  
thì không có bt kgiả định gì (cc đại hóa độ hn lon). Tc là áp đặt mt phân phi  
đều lên các skin chưa biết. Dliu đã được gán nhãn được sdng để ly ra tp các  
ràng buc cho mô hình mà nó mô tả đặc đim riêng cho tng lp cthcó thể được gán  
cho văn bn cn phân lp. Cui cùng, thut toán IIS stìm ra phân phi mà nó tha mãn  
các ràng buc đã đưa ra và tha mãn cc đại entropy vi phân phi xác sut là đều nht.  
Để có tháp dng được tht toán IIS trên văn bn cn phân lp. Bước đầu tiên cn  
phi thc hin là chuyn văn bn đang dng chui các ký tthành các vector đặc  
trưng.  
Mt yếu ttrong quá trình hun luyn ca mô hình cc đại entropy chính là vic  
la chn các vector đặc trưng cho tng lp. Các vector đặc trưng này phi miêu tả được  
2
đầy đủ nht tính riêng bit ca tng lp và phi có khnăng phân loi gia các lp vi  
nhau. Mô hình cc đại entropy có được ti ưu hay không là phthuc rt nhiu vào vic  
la chn này.  
Ưu đim ln nht ca mô hình cc đại entropy là tính mm do ca mô hình: nó  
cung cp mt hthng các quy lut có tính thng kê ngu nhiên để bsung các cú pháp,  
ngnghĩa và căn cvào các vector đặc trưng. Tuy nhiên, mô hình cc đại entropy đòi  
hi mt chi phí khá ln cho vic tính toán để ước lượng chính xác các tham sca mô  
hình. Trong khi đó mô hình có hàng trăm hàng ngàn thông s. Tuy nhiên, vi khnăng  
mnh mca máy tính hin nay thì đó không hn là vn đề. Hin ti có khá nhiu các  
thut toán dùng để ước lượng các thám snhư: Generalized Iterative Scaling (GIS) và  
Improved Iterative Scaling (IIS), cũng như Igradient ascent, conjugate gradient. Trong  
lun văn này sdng thut toán IIS.  
1.3 Mc tiêu ca lun văn  
Nguyên cu mt sphương pháp phân loi văn bn tiếng Anh như: Naïve Bayes  
[Baker & Mccallum, 2000], k-Nearest Neighbor [Yang, 1994], Linear Least Squares Fit  
[Yang & Chute, 1994], Support Vector Machine [Joachims, 1998] , 1998], mô hình cc  
đại Entropy [Berger, 1996 và Della Pietra, 1997]. Tnhng phương pháp đó, la chn  
phương pháp áp dng cho phân loi văn bn tiếng Vit.  
Phương pháp phân loi văn bn tiếng Vit được sdng trong lun văn là mô hình  
cc đại Entropy [Berger, 1996 và Della Pietra, 1997]. Phn lý thuyết ca mô hình trình  
bày vcách biu din ca dliu hun luyn. Các khái nim vthng kê, đặc trưng và  
ràng buc. Nguyên lý hot động ca mô hình cc đại entropy. Tham shình thc và  
cách tính toán các tham số đó. Ý nghĩa và cơ sca vic la chn các đặc trưng sao cho  
hiu qunht. Từ đó áp dng lý thuyết vào bài toán phân loi văn bn tiếng Vit và ng  
dng chn ni dung web trên cơ sphân loi ni dung trang web (da vào bài toán phân  
loi văn bn).  
Để hiu sâu sc thut toán, lun văn đề ra mc tiêu xây dng từ đầu thut toán mô  
hình cc đại entropy (chương trình phân loi văn bn tiếng Vit) cũng như ứng dng  
chn ni dung web. Trong đó, chương trình phân loi văn bn tiếng Vit sđầy đủ  
các chc năng như: hun luyn, kim thvà gán nhãn. Vi ng dng chn ni dung  
3
web. Do gii hn vmt thi gian và điu kin nên lun văn mi chdng li mc:  
phân tích nhng địa churl mà người dùng nhp vào trình duyt Internet Explorer ri  
đưa ra quyết định nên chn hay cho phép người dùng truy cp vào trang web đó. Mc  
đích cui cùng là hướng ti xây dng chương trình có khnăng ngăn chn nhng trang  
web có ni dung xu và giúp người dùng phân loi ni dung ca các trang web vi các  
chủ đề khác nhau. Vic phân loi giúp người dùng tìm kiếm thông tin ddàng và nhanh  
chóng hơn. Và cũng giúp tránh được nhng trang web vi ni dung không phù hp.  
4
Chương 2: Các phương pháp phân loi văn bn  
2.1 Cái nhìn tng quát vcác phương pháp phân loi văn bn  
Để phân loi văn bn người ta sdng nhiu cách tiếp cn khác nhau như da trên  
tkhóa, da trên ngnghĩa các tcó tn sxut hin cao, mô hình cc đại entropy  
[Berger, 1996 và Della Pietra, 1997], tp thô.... Tiếng Anh là ngôn ngữ được nghiên cu  
sm nht và đạt được kết qutt. Rt nhiu phương pháp đã được áp dng như: mô hình  
hi quy [Fuhr, 1991], k-nearest neighbors [Dasarathy, 1991], Naïve Bayes [Joachims,  
1997], cây quyết định [Fuhr, 1991], hc lut quy np [William & Yorm, 1996], Support  
vector Machine [Vapnik, 1995], mô hình cc đại entropy [Berger, 1996 và Della Pietra,  
1997]. Hiu quca các phương pháp là rt khác nhau. Vic đánh giá gp nhiu khó  
khăn do thiếu các tp dliu hun luyn chun.  
2.2 Mô tbài toán phân loi văn bn  
Cho văn bn cn phân loi và các chủ đề, cn dự đoán văn bn đó thuc vào chủ đề  
nào trong scác chủ đề đã cho.  
Gi X là tp các văn bn cn phân loi và Y là tp các chủ đề có thể được gán cho  
các văn bn. Khi đó ta cn phi chi ra mt văn bn x X thuc vào chủ đề y Y nào.  
Trong đó, x bao gm các t, cm t, câu được dùng cho nhim vphân loi. Để rõ hơn  
ta xét ví dgm 6 lp có thể được phân loi: kinh doanh, pháp lut, ththao, văn hóa,  
vi tính, xã hi. Và chúng ta có ràng buc, nếu mt văn bn có t“bóng đá” xut hin thì  
khnăng văn bn đó thuc vào lp “ththao” là 30% và 70% là khnăng mà văn bn  
đó thược vào 5 lp còn li. Vi ví dnày thì chúng ta có thddàng tính được. Nhưng  
thc tế thì không phi chmt vài ràng buc đơn gin như vy, mà là hàng trăm hàng  
nghìn ràng buc phc tp hơn nhiu.  
Vì vy, nhim vụ đầu tiên cn phi làm là biu din văn bn dưới dng các t, cm  
tvà các câu có chn lc. Lc bnhng t, cm tvà câu không có nghĩa hay không có  
tác động tích cc ti vic phân loi.  
Bước tiếp theo là xác định các ràng buc cho bài toán phân loi. Các ràng buc này  
sẽ được ly ra ttp dliu hun luyn. Mi ràng buc thhin mt đặc trưng ca dữ  
5
liu hun luyn. Phương pháp cc đại entropy da vào các đặc trưng đó xây dng các  
mô hình có giá trkvng ca các đặc trưng ca dliu hun luyn là gn ging nht  
vi giá trlý thuyết. Mi đặc trưng scó mt trng số ưu tiên nht định gi là λ. Các  
phương pháp hun luyn mô hình tdliu hun luyn đã được gii thiu trên. Trong  
lun văn này sdng thut toán IIS để tính toán các tham s.  
2.3 Biu din văn bn  
Bước đầu tiên ca các phương pháp phân loi văn bn là chuyn vic mô tvăn  
bn dùng chui ký tthành dng mô tkhác phù hp vi các thut toán. Hu hết các  
thut toán đều sdng cách biu din theo vector đặc trưng, khác nhau chyếu vic  
la chn không gian đặc trưng. Cthvi mô hình cc đại entropy, thut toán IIS chỉ  
có thtính toán được các tham sda trên các vector đặc trưng. Vy vector đặc trưng là  
gì?  
Mi vector đặc trưng di đại din cho mt văn bn tương ng trong không gian các  
tw: di (TF(w1), TF(w2), ... , TF(wn)). Trong đó: TF(wi) là sln xut hin ca twi  
trong chính văn bn đó (di ); n là schiu ca không gian. Để không phthuc vào  
chiu dài văn bn vector đặc trưng được chun hóa như sau:  
TF (w1 )  
TF (w2 )  
TF (wn )  
di(  
,
,...,  
)
2
2
2
TF (wi ) TF (wi )  
TF (wi )  
Trong thc tế để ci thin tc độ và kết qungười ta sdng IDF(wi) hay  
TFIDF(wi) thay cho TF(wi) (trong lun văn sdng TFIDF):  
m
IDF(w ) = log(  
)
i
DF(w )  
i
TFIDF (wi ) = TF(wi ).IDF(wi )  
Trong đó:  
o m chính là svăn bn hun luyn  
o DF(wi) là svăn bn có cha twi  
6
Biu din văn bn theo các vector đặc trưng sny sinh các vn đề như: cn phi  
la chn bao nhiêu từ để biu din cho văn bn đó? Và làm thế nào để la chn được  
nhng từ đó? Ở đây xin gii thiu hướng tiếp cn sdng Information Gain [Yang &  
Petersen, 1997]. Phương pháp sdng độ đo Mutual Information(MI) để chn ra tp  
đặc trưng con f gm nhng tcó giá trMI cao nht.  
Các đặc trưng ca văn bn khi biu din dưới dng vector:  
¾ Schiu không gian đặc trưng thường rt ln  
¾ Vic kết hp nhng đặc trưng độc lp thường không mang li kết qu.  
¾ Vector di có nhiu giá tr0 do không có đặc trưng trong văn bn di.  
2.4 Các phương pháp phân loi văn bn  
2.4.1 Naïve Bayes (NB)  
2.4.1.1 Ý tưởng  
Sdng xác sut có điu kin gia các ttrong chủ đề để tính xác sut văn bn  
cn phân loi thuc vào chủ đề đó. Phương pháp giả định sxut hin ca tt ccác từ  
trong văn bn là độc lp vi nhau. Như vy skhông đánh giá được sphthuc ca  
cm tvào mt chủ đề cth. Điu đó giúp phương pháp tính toán nhanh hơn các  
phương pháp khác vi độ phc tp theo smũ.  
2.4.1.2 Công thc  
Gi Pr(cj,d) là xác sut mà văn bn d’ thuc vào chủ đề cj. Theo lut Bayes, chủ đề  
cj được gán cho văn bn d’ phi có Pr(cj,d) ln nht. Pr(cj,d) được tính như sau:  
P(d | Ci )P(Ci )  
P(Ci | d) =  
P(d)  
Do P(d)= const nên: P(Ci,d)= P(d|Ci)P(Ci)  
Phương pháp NB ưu đim cài đặt đơn gin, tc độ nhanh, ddàng cp nhp dữ  
liu hun luyn mi và có tính độc lp vi dliu hun luyn, có thkết hp nhiu tp  
7
dliu hun luyn khác nhau. Tuy nhiên NB đòi hi phi có ngưỡng và giả định độc lp  
gia các t. Các phương pháp multiclass-boosting có thgiúp ci thin hiu quca  
phương pháp NB.  
2.4.2 k-Nearest Neighbor (kNN)  
kNN được đánh giá là mt trong nhng phương pháp tt nht được sdng trong  
giai đon đầu tiên ca phân loi văn bn.  
2.4.2.1 Ý tưởng  
Khi phân loi mt văn bn, thut toán stính khong cách ca tt ccác văn bn  
trong tp hun luyn đến văn bn cn phân lp để tìm ra k văn bn gn nht, sau đó  
dùng các khong cách này đánh trng scho tt cchủ đề. Trng sca mt chủ đề  
chính là tng tt ckhong cách trên ca các văn bn trong k láng ging có cùng chủ  
đề, chủ đề nào không xut hin trong k láng ging thì trng sbng 0. Sau đó các chủ đề  
được sp xếp theo trng sgim dn và các chủ đề có trng scao sẽ được la chn  
làm chủ đề ca văn bn.  
2.4.2.2 Công thc  
Trng schủ đề cj ca văn bn x sẽ được tính như sau:  
W (x,c j ) =  
sim(x,d ).y(d ,c ) b  
i
i
j
j
di{kNN }  
Trong đó:  
o y(d i ,cj) {0,1}, vi  
y= 0: văn bn d i không thuc chủ đề cj  
y= 1: văn bn d i thuc chủ đề cj  
o sim( x ,d i ): mc độ ging nhau gia văn bn x cn phân loi và văn  
bn d i . Vi:  
sim( x , d i )= ( x . d i )/(|| x ||.||d i ||)  
8
o bj là ngưỡng phân loi ca chủ đề cj được tự động hc sdng mt  
tp văn bn hp lệ được chn ra ttp hun luyn.  
Để chn được tham sk tt nht, thut toán phi được chy thnghim trên nhiu  
giá trk khác nhau, giá trk càng ln thì thut toán càng ổ định. Giá trk tt nht được  
sdng trên bdliu Reuter và Oshumed là k= 45.  
2.4.3 Linear Least Square Fit (LLSF)  
2.4.3.1 Ý tưởng  
LLSF sdng phương pháp hi quy để hc ttp dliu hun luyn. Tp dliu  
hun luyn được biu din dưới dng mt cp vector đầu vào và đầu ra như sau:  
¾ Vector đầu vào là mt văn bn gm các tvà trng s.  
¾ Vector đầu ra gm các chủ đề cùng trng snhphân ca văn bn ng vi  
vector đầu vào.  
Gii phương trình cp vector đầu vào / đầu ra sẽ được ma trn đông hin ca hsố  
hi quy ca tvà chủ đề.  
2.4.3.2 Công thc  
FLS =argmin|| FAB||2  
F
Trong đó:  
o A, B là ma trn đại din tp dliu hun luyn (các ct tương ng  
vi vector đầu vào và vector đầu ra)  
o FLS là ma trn kết quchra ánh xtmt văn bn vào vector ca  
chủ đề đã gán trng số  
Sp xếp các chủ đề theo trng sgim dn kết hp vi ngưỡng cthstìm được  
chủ đề thích hp cho văn bn đầu vào. Các ngưỡng ti ưu cho tng chủ đề sẽ được hc  
tự động.  
9
2.4.4 Support Vector Machine (SVM)  
Là phương pháp được Vapnik gii thiu vào năm 1995 nhm gii quyết vn đề  
nhn dng mu 2 lp sdng nguyên lý cc tiu hóa ri ro có cu trúc.  
2.4.4.1 Ý tưởng  
Cho trước tp hun luyn được biu din trong không gian vector trong đó mi văn  
bn là mt đim, phương pháp tìm ra mt siêu mt phng h quyết định tt nht có thể  
chia các đim trên không gian này thành 2 lp riêng bit tương ng lp + và lp -. Hiu  
quxác định siêu mt phng này được quyết định bi khong cách ca đim gn mt  
phng nht ca mi lp. Khong cách càng ln thì mt phng quyết định càng tt đồng  
nghĩa vi vic phân loi càng chính xác và ngược li. Mc đích cui cùng ca phương  
pháp là tìm được khong cách biên ln nht.  
Hình 2.1: Các đim được khoanh tròn là các vector htrợ  
(trích dn: support-vector-machines.org)  
2.4.4.2 Công thc  
Phương trình siêu mt phng cha vector d i như sau:  
d i * w + b = 0  
Đặt  
+ 1, d i .w + b > 0  
1, d i .w + b < 0  
h(d i ) = sign (d i .w + b) =  
10  
Như vy h(d i ) biu din sphân lp ca d i vào 2 lp + và lp -. Gi yi = {±1}, yi  
= +1 văn bn d i thuc lp +, yi = -1 văn bn d i thuc lp -. Để có siêu mt phng h ta  
đi gii bài toán:  
Tính Min|| w || vi w và b thon mãn điu kin:  
i 1,n : yi (sign(d i .w + b)) 1  
Bài toán SVM có thể được gii bng toán tLagrange để biến đổi thành dng đẳng  
thc.  
Mt đim đặc bit trong phương pháp SVM là siêu mt phng h chphthuc vào  
các vector htr. Khác so vi các phương pháp khác vì các phương pháp khác có kết  
quphân loi phthuc vào toàn bdliu. Khi dliu có sthay đổi thì kết qucũng  
thay đổi.  
11  
Chương 3: Mô hình cc đại entropy  
Da trên tài liu mô hình cc đại entropy ca [Adam L. Berger & Stephen A.  
Della Pietra & Vincent J. Della Pietra, 1996] và mt sngun khác. Dưới đấy là nhng  
cơ slý thuyết cơ bn vmô hình cc đại entropy. Vcách xây dng mô hình, nguyên  
lý cc đại entropy, cách tính các phân phi xác sut và thut toán tính trng scũng như  
la chn các đặc trưng cho bài toán phân loi văn bn.  
3.1 Tng quát mô hình cc đại entropy  
Githiết rng chúng ta mun mô hình hóa mt hthng dch tự động bng vic la  
chn nhng tthích hp trong tiếng Pháp mà nó được dch vi nghĩa là “in” trong tiếng  
Anh. Xác sut mô hình (p) ca hthng dch tự động cho mi thay cm ttiếng Pháp  
f là mt ước lượng p(f) ca xác sut mà hthng sla chn f được dch vi nghĩa là  
in” trong tiếng Anh. Để ước lượng được giá trca p, chúng ta tp hp mt slượng  
ln các mu đin hình ca hthng. Mc đích cui cùng là thu được tp các skin to  
lên quyết định tnhng mu trên (nhim vụ đầu tiên), tp các skin đó sgiúp  
chúng ta xây dng mô hình cho bài toán này (nhim vthhai).  
Chúng ta có thtp hp được mt danh sách các khnăng có thể được dch tmu  
đin hình. Ví dnhư, chúng ta có thtìm ra được nhng t(cm t) mà hthng dch  
luôn luôn la chn trong s5 t(cum t) tiếng Pháp sau đây: dans, en, à, au cours de,  
pendant. Vi nhng thông tin này, chúng ta có thdùng làm ràng buc đầu tiên trong  
xác sut mô hình (p) ca chúng ta:  
p(dans) + p(en) + p(à) + p(au cours de) + p(pendant) = 1  
Phương trình này thhin tính thng kê đầu tiên trong bài toán ca chúng ta; bây  
gichúng ta đã có thxđể tìm ra mô hình phù hp mà nó tuân theo phương trình  
này. Tt nhiên, có vô scác xác sut mô hình (p) mà nó tha mãn ràng buc trên. Mt  
mô hình mà tha mãn ràng buc trên có thp(dans) = 1; nói cách khác, mô hình luôn  
luôn dự đoán đó là “dans”. Mô hình khác tuân theo ràng buc này dự đoán “pendant”  
vi xác sut là ½, và à” vi xác sut là ½. Nhưng theo cm giác ca chúng ta thì chai  
mô hình này đều không n cho lm: hthng dch luôn luôn la chn 1 trong s5 từ  
(cm t) tiếng Pháp, và làm thế nào chúng ta có thchng minh mi phân phi xác sut  
12  
đó là đúng? Mi mô hình mi chdng li mc tha nhn, mà không có schng  
minh bng thc nghim rng điu đó là đúng. Theo cách khác, có 2 mô hình cho rng có  
nhiu hơn so vi nhng gì chúng ta thc sbiết vbài toán to lên hthng dch. Tt cả  
nhng gì chúng ta biết là cái mà hhthng la chn loi trtrong s5 t(cm t)  
tiếng Pháp; vi cách này, tt cnhng mô hình mang tính trc giác là như sau:  
p(dans) = 1/5  
p(en) = 1/5  
p(à) = 1/5  
p(au cours de) = 1/5  
p(pendant) = 1/5  
Vi mô hình này, nó phân btng xác sut ngang bng nhau trong s5 t(cm t)  
có thể được la chn để dch, là mô hình đều nht phthuc vào các hiu biết ca  
chúng ta. Tuy nhiên không phi là ging nhau hoàn toàn; mà mô hình scp mt xác  
sut ngang nhau cho mi t(cm t) tiếng Pháp có thể được dch.  
Chúng ta có thhy vng rng có thtng hp được nhiu hơn nhng thông tin  
xung quanh hthng dch tmu đin hình ca chúng ta. Githiết rng chúng ta nhn  
thy hthng dch la chn mi t(cm t) “dans” hay “en” là 30% trong mi ln la  
chn. Chúng ta có thsdng thông tin này cho vic cp nhp mô hình ca chúng ta  
trong bài toán dch bng cách yêu cu xác sut mô hình (p) tha mãn 2 ràng buc sau:  
p(dans) + p(en) = 3/10  
p(dans) + p(en) + p(à) + p(au cours de) + p(pendant) = 1  
Mt ln na có nhiu phân phi xác sut phù hp vi 2 ràng buc trên. Trong  
trường hp không có shiu biết nào khác, mt sla chn hp lý cho xác sut mô  
hình (p) là ngang bng nhau nht có th, sphân phi mà nó phân bcác xác sut  
ngang bng nht có th, phthuc vào các ràng buc sau:  
p(dans) = 3/20  
p(en) = 3/20  
13  
p(à) = 7/30  
p(au cours de) = 7/30  
p(pendant) = 7/30  
Chúng ta kim tra li dliu nhiu ln, và ln này nhn thy skin sau: trong mt  
na các trường hp, hthng dch la chn chai t(cm t) “dans” hay “à”. Chúng ta  
có thkết hp thông tin này vào mô hình ca chúng ta như mt ràng buc th3:  
p(dans) + p(en) = 3/10  
p(dans) + p(en) + p(à) + p(au cours de) + p(pendant) = 1  
p(dans) + p(à) = ½  
Chúng ta có thmt ln na tìm ra các xác sut mô hình (p) ngang bng nhau hơn  
ng vi các ràng buc trên, nhưng bây givic la chn không còn là hin nhiên na.  
Khi chúng ta thêm nhng ràng buc phúc tp, chúng ta gp phi 2 khó khăn. Thnht,  
điu đó thc slà phép ly trung bình bng cách ngang bng nhau, và làm thế nào mà  
có thể đo được sngang bng nhau ca mô hình? Thhai, phi xác định được nhng  
câu trli phù hp vi nhng câu hi, làm thế nào mà tìm được mô hình ngang bng  
nhau nht phthuc vào tp các ràng buc ging như chúng ta đã miêu t?  
Phương pháp cc đại entropy trli cho c2 câu hi trên, chúng ta schng minh  
trong nhng phn sau. Bng trc giác, nguyên lý rt đơn gin: toàn bmô hình là đã  
biết và được tha nhn không có điu gì là chưa biết. Nói mt cách khác, cho mt tp  
các skin, la chn mt mô hình mà nó phù hp vi tt ccác skin, mt khác  
ngang bng nht có th. Điu này gn ging như vic chúng ta la chn các xác sut mô  
hình (p) ti mi bc như chúng ta đã làm trong ví dtrên.  
...skin mà mt phân phi xác sut nào đó làm tăng entropy phthuc vào các  
ràng buc nào đó đặc trưng cho thông tin chưa đầy đủ ca nó, là thuc tính cơ  
bn mà nó chng minh ích li ca vic phân phi cho các suy lun là đúng; nó  
phù hp vi mi thmà nó biết, nhưng tránh nhng suy lun mà nó không rõ. Nó  
là mt ssao chép thành các phép toán hc ca nhng nguyên lý cxưa mt  
cách khôn ngoan...  
14  
3.2 Mô hình cc đại entropy  
Chúng ta xem xét mt bài toán bt knó cho ra mt giá troutput y, là mt thành  
phn ca tp hu hn Y. Vi ví dvhthng dch, bài toán sinh ra mt khnăng có  
thể được dch ca tin”, và output y có thlà bt ktnào trong tp {dans, en, à, au  
cours de, pendant}. Vi vic sinh ra y, bài toán này có thbtác động bi thông tin ngữ  
cnh x, là mt thành phn ca tp hu hn X. Trong ví d, thông tin này có thbao gm  
nhng ttrong câu tiếng Anh xung quanh tin”.  
Nhim vca chúng ta là xây dng mô hình có tính ngu nhiên thng kê mà nó  
miêu tchính xác các hành vi ca bài toán bt k. Vì vy mô hình là mt phương thc  
ca vic xác định xác sut có điu kin mà trong đó, cho ngcnh x, vi output là y.  
Chúng ta sbiu din bng xác sut p(y|x) mà mô hình n định y trong ngcnh x.  
Chúng ta cũng ssdng p(y|x) để biu din cho toàn bphân phi xác sut có điu  
kin bi mô hình. Vic gii thích chính xác sẽ được làm sáng ttngcnh. Chúng ta  
ský hiu P là tp toàn bcác phân phi xác sut có điu kin. Như vy mt xác sut  
mô hình p(y|x) chính là mt thành phn ca P.  
3.2.1 Dliu hun luyn  
Để nghiên cu vbài toán, chúng ta theo rõi cách xlý ca mt bài toán bt kỳ  
trong mt vài ln, stp hp được mt slượng ln các mu (x1,y1), (x2,y2),  
(x3,y3),...., (xN,yN). Trong ví d, chúng ta đã thy rng, mi mu sgm có mt nhóm x  
cha các txung quanh “in”, cùng vi mt khnăng được dch y ca t“in” mà bài  
toán đưa ra. Bây gichúng ta có thtưởng tượng rng nhng mu hun luyn đó có thể  
được sinh ra bi mt nhà chuyên gia người đã đưa ra con sngu nhiên cho các cm từ  
cha “in” và câu trli cho la chn dch tt nht trong mi ln nghiên cu.  
Chúng ta có thtng hp mu hun luyn liên quan ti chính phân phi xác sut  
thc nghim ca nó p, được định nghĩa như sau:  
̃
1
~
p(x, y) =  
×
(slun xut hin ca cp (x,y) trong mu)  
N
Trường hp đặc bit là cp (x,y) skhông xut hin trong toàn bmu, hay sxut  
hin trong toàn bmu.  
15  
3.2.2 Thng kê, đặc trưng và ràng buc  
Mc đích ca chúng ta là xây dng mt mô hình thng kê ca bài toán mà nó phát  
sinh xác sut p(x,y) mu hun luyn. Khi kiến trúc ca mô hình này slà mt tp các  
̃
thng kê ca mu hun luyn. Trong ví d, chúng ta đã dùng mt sthng kê: tn smà  
tinđược dch thành “dans” hay “en” là 3/10; tn smà nó được dch thành “dans”  
hay “au cours de” là ½; vân vân. Nhng thng kê đặc bit là thng kê độc lp vi ngữ  
cnh, nhưng chúng ta cũng có thcoi như nhng thng kê đó là phthuc vào thông tin  
điu kin x. Ví d, chúng ta có thnhn thy rng, trong mu hun luyn, nếu “April” là  
từ đi sau “in”, thì vic dch tin” là “en” scó tn slà 9/10.  
Để biu din skin mà “inđược dch là “en” khi “April” là từ đi theo sau, chúng  
ta có thsdng hàm để biu din như sau:  
nếu y = “en” và “April” theo sau “in”  
còn li  
1
0
f (x, y) =  
Giá trkvng ca f liên quan ti phân phi thc nghim p(x,y) chính là thng kê  
̃
mà chúng ta đã nhc ti. Chúng ta biu din giá trkvng này bi:  
~
~
E(f) = p(x,y).f(x,y)  
vi mi cp (x,y) (1)  
Chúng ta có thbiu din bt kthng kê nào ca mu hun luyn như giá trkỳ  
vng ca hàm nhphân (f) thích hp. Chúng ta gi hàm đó là hàm đặc trưng hay đặc  
trưng. (Như vy vi các phân phi xác sut, chúng ta sdùng ký hiu và sdng hàm  
f(x,y) để biu din giá trca f vi mi cp (x,y) riêng bit cũng như toàn bhàm f).  
Khi chúng ta tìm hiu vthng kê sthy shu ích ca nó, chúng ta có ththy  
được tm quan trng ca nó bng cách làm cho nhng gì có trong mô hình ca chúng ta  
phù hp vi nó. Chúng ta làm điu này bng các ràng buc các giá trkvng mà mô  
hình n định cho các hàm đặc trưng (f) tương ng. Giá trkvng ca f quan hvi xác  
sut mô hình p(y|x) như sau:  
~
E(f ) = p(x).p(y| x).f (x,y)  
vi mi cp (x,y) (2)  
16  
Trong đó: p(x) là phân phi thc nghim ca x trong mu hun luyn. Chúng ta  
̃
ràng buc giá trkvng này bng vi giá trkvng ca f trong mu hun luyn:  
~
E( f ) = E( f )  
(3)  
T(1), (2) và (3) ta có:  
~
~
p(x).p(y | x). f (x, y) =  
p(x, y). f (x, y)  
x, y  
x, y  
Chúng ta gi (3) là phương trình ràng buc hay đơn gin là ràng buc. Bng cách  
thu hp schú ý ti nhng xác sut mô hình, p(y|x), như trong công thc (3), chúng ta  
loi trcác mô hình được xem xét mà nó không thích hp vi mu hun luyn da vào  
cách thông thường mà output ca bài toán sẽ đưa ra đặc trưng f.  
Tóm li, chúng ta có được giá trtrung bình cho các thng kê tương ng vi các  
hin tượng tn ti trong dliu mu, (f), và cũng là giá trtrung bình yêu cu mà mô  
hình ca bài toán đưa ra các hin tượng đó (E(f) = (f)).  
Cn phân bit rõ ràng 2 khái nim về đặc trưng và ràng buc: mt đặc trưng là mt  
hàm nhn giá trnhphân ca cp (x,y); mt ràng buc là mt phương trình gia giá trị  
kvng ca hàm đặc trưng trong mô hình và giá trkvng ca nó trong dliu hun  
luyn.  
3.2.3 Nguyên lý cc đại entropy  
Githiết rng chúng ta có n hàm đặc trưng fi, nó quyết định nhng thng kê mà  
chúng ta cm thy là quan trng trong quá trình mô hình hóa. Chúng ta mun mô hình  
ca chúng ta phù hp vi nhng thng kê đó. Vì vy, chúng ta smun p hp ltrong  
tp con C ca P được định nghĩa bi:  
C = {p € P | E(fi) = (fi) for i € {1,2,...,n}}  
(4)  
Trong scác mô hình p € C, triết lý cc đại entropy yêu cu rng chúng ta la  
chn phân phi mà ngang bng nhau nht. Nhưng hin ti chúng ta đối din vi câu hi  
rng: ngang bng nhau ở đây có nghĩa là gì?  
Trong phm vi toán hc ngang bng nhau ca phân phi có điu kin p(y|x) được  
cung cp bi entropy có điu kin:  
17  
~
H ( p) = −  
p(x).p(y | x).log( p(y | x))  
(5)  
x, y  
Entropy là bchn dưới bi 0, entropy ca mô hình không có skhông chc chn  
nào, và chn trên bi log|Y|, entropy ca phân phi ngang bng nhau trên toàn bcác  
giá trcó th|Y| ca y. Vi định nghĩa này, chúng ta đã sn sàng để biu din nguyên lý  
ca cc đại entropy:  
Để la chn mô hình tmt tp C các phân phi xác sut được chp nhn, la  
chn mô hình p* C vi cc đại entropy H(p):  
p* = arg max H ( p)  
vi p € C  
(6)  
Điu đó thhin rng p* luôn luôn xác định; vì vy, luôn luôn tn ti mt mô hình  
duy nht p* vi cc đại entropy trong bt ktp ràng buc C nào.  
3.2.4 Tham shình thc  
Nguyên lý cc đại entropy đưa ra vn đề ti ưu các ràng buc: tìm p* C mà nó  
cc đại H(p). Trường hp đơn gin, chúng ta có thtìm được gii pháp cho vn đề này  
theo phép phân tích. Điu này đúng cho ví dụ được nói đến trong phn 1 khi chúng ta áp  
dng 2 ràng buc đầu tiên lên p. Tiếc là, gii pháp này đối vi bài toán cc đại entropy  
tng quát không thviết ra được mt cách rõ ràng, và chúng ta cn nhiu phép tính gn  
đúng gián tiếp.  
Để gii quyết vn đề cho bài toán tng quát, chúng ta áp dng phương pháp ca đa  
thc Lagrange thc thuyết ti ưu hóa cưỡng chế.  
¾ Chúng ta squy vbài toán ti ưu hóa các ràng buc ban đầu,  
find p * = arg max H ( p)  
như bài toán căn bn.  
vi p € C  
¾ Vi mi đặc trưng fi chúng ta đưa ra mt tham số λi (mt đa thc Lagrange).  
Chúng ta định nghĩa Lagrangian Λ (p,λ) bi:  
~
Λ( p,λ) = H ( p) + λ (E( f ) E( f )  
(7)  
i
i
i
18  
¾ Gicho λ cố định, chúng ta tính cc đại không có ràng buc ca đang thc  
Lagrangian Λ (p,λ) trên toàn bp € P. Chúng ta biu din pλ là xác sut (p)  
trong đó Λ (p,λ) đạt được giá trcc đại và ψ(λ) là giá trcc đại đó.  
Pλ = arg max Λ( p, λ )  
Ψ (λ ) = Λ ( p, λ )  
vi p € P  
(8)  
(9)  
Chúng ta gi ψ(λ) là hàm đỗi ngu. Hàm pλ ψ(λ) có thể được tính  
toán cthsdng các phép tính đơn gin. Chúng ta tìm được:  
1
pλ (y | x) = (  
exp( λ . f (x, y)))  
i
i
(10)  
i
Zλ (x)  
~
~
Ψ(λ) = − p(x).logZ (x)+ λ E( f )  
(11)  
λ
i
i
x
i
Trong đó Zλ(x) là hng schun hóa được quyết định bi yêu cu  
Σypλ(y|x) = 1 cho toàn bx:  
Z (x) =  
exp(  
y i  
λ f (x, y))  
(12)  
λ
i
i
¾ Cui cùng, chúng ta đưa ra bài toán ti ưu hóa đối ngu không ràng buc:  
find λ* = argmaxλ Ψ(λ)  
Thoáng qua điu đó có vkhông đạt được nhng đòi hi đã đề ra ban đầu. Tuy  
nhiên, nguyên lý cơ bn trong hc thuyết đa thc Lagrange, được gi là định lý Kuhn-  
Tucker tng quát, khng định rng nhng tha nhn dưới đây, nhng bài toán nn tng  
đối ngu là có liên quan cht ch. Đây là cách trong hoàn cnh hin ti. Githiết rng  
λ* là gii pháp cho bài toán đối ngu. Khi đó pλ* là gii pháp cho bài toán nn tng; đó là  
pλ* = p*. Nói cách khác, Mô hình cc đại entropy đưa ra các ràng buc C có dng tham  
spλ* trong công thc (10), trong đó giá trị λ* có thể được tính bng cách cc đại hóa  
hàm đối ngu ψ(λ). Hquthc tế quan trng nht ca kết qunày là thut toán cho  
vic tìm cc đại λ* ca ψ(λ) có thể được dùng để tìm ra cc đại p* ca H(p) cho p € C.  
19  
3.2.5 Mi quan hvi cc đại Likelihood  
Log-likelihood Lp(p) ca phân phi thc nghim p như được dự đoán trước bi xác  
̃
̃
sut mô hình p được định nghĩa như sau:  
~
L (p)=log p(y|x)p(x,y) = x,y p(x,y).logp(y|x)  
~
~
p
(13)  
x,y  
Ddang có thkim tra được rng hàm đối ngu ψ(λ) ca phn trước chính là log-  
likelihood hàm smũ ca xác sut mô hình pλ:  
Ψ(λ) = L~ (pλ )  
(14)  
p
Vi cách gii thích này, kết quca phn trước có thể được viết li như sau:  
Mô hình p* € C vi cc đại entropy là mô hình trong đó htham spλ(y|x) mà nó  
cc đại likelihood ca xác sut mu hun luyn p.  
̃
Kết qunày giúp làm tăng thêm tính đúng đắn cho nguyên lý cc đại entropy: khi  
quan nim vic la chn xác sut mô hình p* trên cơ scc đại entropy là không đủ sc  
thuyết phc, điêu xy ra vi cùng mt xác sut p* là mt mô hình mà nó, trong stoàn  
bcác mô hình ca cùng mt dng tham s(10), có thlà smiêu ttt nht cho mu  
hun luyn.  
3.2.6 Tính các tham số  
Vi tt cnhng bài toán kcả đơn gin nht, thì λ* mà cc đại ψ(λ) là không thể  
tính toán được theo phép phân tích. Thay vào đó, chúng ta phi dùng đến mt scác  
phương thc khác. Hàm ψ(λ) được xlý tt, khi làm mn giá trị λ.Do đó, có nhiu  
phương thc khác nhau có thể được dùng để tính giá trị λ*. Mt phương thc đơn gin  
là tăng phi hp có kinh nghim, trong cách này λ* được tính bng cách lp đi lp li  
cc đại ψ(λ) mt cách phi hp ti mi ln. Khi được áp dng vào bài toán cc đại  
entropy, kthut này smang li thut toán tng quát Brown (Brown 1959). Các  
phương thc tng quát khác có thể được dùng để cc đại ψ(λ) bào gm chun gradient  
và liên hp gradient.  
Mt phương thc ti ưu hóa đặc trưng ca tailor cho bài toán cc đại entropy là  
thut toán “improved iterative scaling” ca Darroch và Ratcliff (1972).  
20  
Thut toán có tháp dng được bt ckhi nào min là các hàm đặc trưng fi(x,y)  
không âm:  
fi(x,y) >= 0  
vi mi i, x và y  
(15)  
Điu này là luôn đúng bi vì giá trca hàm đặc trưng có thnhn chlà giá trnhị  
phân (0, 1): Σifi(x,y) = 1 vi mi x,y  
Thut toán 1: Improved Iterative Scaling (IIS)  
Input: hàm đặc trưng f , f ,..., f ; phân phi thc nghim p(x,y)  
̅
1
2
n
Ouput: Giá trtham sti ưu λ*i; xác sut mô hình ti ưu pλ*  
1. Bt đầu vi λi = 0 vi mi i € {1, 2,..., n}  
2. Vi mi i € {1, 2,..., n}  
a) Sdng ∆λi để tính:  
~
#
~
x,y p(x)p(y | x) fi (x, y)exp(Δλi f (x, y)) = E( fi )  
(16)  
#
Trong đó: f ( x, y ) =  
f i ( x, y )  
(17)  
i =1  
b) Cp nhp giá trca λi: λi = λi + ∆λi  
3. Lp li bước 2 nếu tt cả λi chưa hi tụ  
Bước quan trng nht trong thut toán là bước 2.a, vic tính toán độ chênh lch ∆λi  
được sdng cho phương trình (16). Nếu f#(x,y) là hng s(f#(x,y) = M vi mi x,y) thì  
∆λi được tính như sau:  
~
p( fi )  
1
Δλi =  
log(  
)
M
pλ ( fi )  
Nếu f#(x,y) không phi là hng s, khi đó ∆λi phi được tính toán shc. Cách đơn  
gin và hiu quca trường hp này là phương thc ca Newton. Phương thc này tính  
α* ca phương trình g(α*) = 0 lp đi lp li bng phép truy hi:  
21  
g(an )  
αn+1 =αn −  
(18)  
g (an )  
vi sla chn thích hp cho α0 và chú ý ti sphù hp vi phm vi ca g.  
3.3 La chn đặc trưng  
Tnhng phn trước chúng ta đã chia bài toán mô hình hóa thng kê thành 2  
bước: bước thnht là tìm các skin thích hp vdliu; bước thhai là kết hp cht  
chcác skin vào mô hình. Tiếp theo chúng ta stìm cách để gii quyết bước thnht  
bng cách này hay cách khác. Vi ví dụ đơn gin trong phn 2, chúng ta không có phát  
biu rõ ràng vcách chúng ta la chn các ràng buc đặc trưng. Vì vy, ti sao skin  
“dans” hay “à” được chn bi hthng dch là 50% ti mi ln la chn là quan trng  
hơn sơ vi tt ccác skin khác trong dliu? Thc vy, nguyên lý ca cc đại  
entropy không trc tiếp liên quan ti vic la chn đặc trưng: nó chỉ đơn thun cung cp  
công thc cho vic kết hp các ràng buc vào mô hình. Nhưng bài toán la chn đặc  
trưng li có vn đề, khi các ràng buc có thlà các đặc trưng trong hàng nghìn hay hàng  
triu các skin. Trong phn này chúng tôi gii thiu phương thc cho vic la chn tự  
động các đặc trưng trong mô hình cc đại entropy, vic la chn đặc trưng được thc  
hin tt sgiúp gim bt gánh nng cho vic tính toán.  
3.3.1 Ý nghĩa ca vic la chn đặc trưng  
Chúng ta bt đầu bng cách chrõ bsưu tp ln F các đặc trưng ng c. Chúng ta  
không yêu cu bt ky mt ưu tiên nào đối vi các đặc trưng mà nhng đặc trưng đó đều  
được la chn như là các đặc trưng ng c. Thay vào đó, chúng ta chia thành nhng tp  
dliu có độ ln có thtính toán được. Chmt tp con ca tp các đặc trưng sẽ được  
sdng vào mô hình cui cùng ca chúng ta.  
Nếu chúng ta có mu hun luyn có kích thước vô hn, chúng ta có thquyết định  
giá trkvng thích hp cho mi đặc trưng ng cf € F bng cách tính các skin nhỏ  
trong mu mà nó có f(x,y) = 1. Trong các ng dng thc tế, chúng ta được cung cp vi  
chmt mu nhN skin, nó không thtin cy để đặc trưng cho toàn bbài toán và là  
đúng đắn. Rõ ràng, chúng ta không thmong chrng vi mi đặc trưng f € F, ước  
lượng (f) chúng ta nhn được tmu shn chế giá trca nó trong mt gii hn khi n  
22  

Tải về để xem bản đầy đủ

pdf 60 trang yennguyen 15/04/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Mô hình Maximum entropy và ứng dụng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_mo_hinh_maximum_entropy_va_ung_dung.pdf