Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Lê Hoàng Qunh  
SO SÁNH MT SPHƯƠNG PHÁP HC MÁY  
CHO BÀI TOÁN GÁN NHÃN TLOI  
TING VIT  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Lê Hoàng Qunh  
SO SÁNH MT SPHƯƠNG PHÁP HC MÁY  
CHO BÀI TOÁN GÁN NHÃN TLOI  
TING VIT  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: PGS.TS. Hà Quang Thy  
Cán bộ đồng hướng dn: ThS. Trn ThOanh  
HÀ NI - 2009  
LI CM ƠN  
Trước tiên, tôi mun bày tlòng biết ơn sâu sc nht ti Phó Giáo sư Tiến sĩ Hà  
Quang Thy và Thc Sĩ Trn ThOanh, nhng người đã tn tình chbo và hướng dn  
tôi trong sut quá trình thc hin khoá lun tt nghip.  
Thu hiu ni vt vcũng như stn ty ca nhng thy cô giáo đã ging dy và  
bi dưỡng kiến thc cho tôi trong bn năm qua, tôi xin gi li cm ơn chân thành đến  
các thy cô, nhng kiến thc mà tôi nhn được không chgiúp tôi hoàn thành khóa  
lun này mà còn là hành trang quan trng giúp tôi vng bước trong tương lai.  
Tôi cũng xin gi li cm ơn ti các thy cô, các anh chvà các bn sinh viên  
trong nhóm seminar “Khai phá dliu”, phòng thí nghim Các hthng tích hp  
thông minh (SISLAB) – trường Đại hc Công nghệ đã to mt môi trường nghiên cu  
khoa hc hiu qucũng như cho tôi nhng li khuyên bích vchuyên môn trong quá  
trình nghiên cu.  
Bên cnh đó, tp thsinh viên lp K50CA cũng đóng mt vai trò không nhgiúp  
tôi xây dng, cng ckiến thc và cùng vi tôi vượt qua nhng khó khăn trong hc  
tp.  
Và cui cùng, nhưng vô cùng quan trng, tôi xin bày tlòng chân thành và biết  
ơn vô hn ti cha m, anh chcũng như các bn bè thân thiết đã luôn bên cnh, quan  
tâm, động viên tôi trong sut quá trình hc tp và thc hin khóa lun tt nghip này.  
Sinh viên  
Lê Hoàng Qunh  
i
TÓM TT  
Gán nhãn tloi (Part-of-Speech Tagging) là mt trong hai bài toán nn tng,  
đóng vai trò quan trng trong các hthng xlý ngôn ngtnhiên. Vit Nam đã có  
mt snghiên cu vbài toán này, tuy nhiên kết quả đạt được vn còn mc khiêm  
tn so vi nhiu ngôn ngkhác. Vic tìm hiu các phương pháp gán nhãn tloi trong  
tiếng Anh cho thy hướng tiếp cn da theo phương pháp hc máy cho kết qutt hơn  
ctrong các phương pháp đã được công b.  
Ni dung khóa lun tp trung so sánh ba phương pháp hc máy cho bài toán gán  
nhãn tloi tiếng Vit, đó là mô hình cc đại hóa Entropy (MEM- Jaynes, 1957); mô  
hình min ngu nhiên điu kin (CRF- Laferty, 2001) và mô hình máy véc tơ htrợ  
(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp hc máy đã được ng  
dng thành công trong rt nhiu bài toán xlý ngôn ngtnhiên. Thc nghim áp  
dng ba mô hình hc máy này được tiến hành trên cùng môi trường phn cng và sử  
dng cùng mt tp đặc trưng để đảm bo tính khách quan. Kết quthu được trên các  
dliu thc nghim cho thy mô hình CRF có độ chính xác cao nht và thi gian gán  
nhãn tt nht, trong khi đó SVM và MEM có ưu thế hơn vthi gian hun luyn. Kết  
qunày khá tương đồng vi kết quca mt vài nghiên cu tương đương trong các  
ngôn ngkhác và đã khng định được tính khthi ca ba mô hình này cho tiếng Vit.  
ii  
Mc lc  
MỞ ĐẦU.........................................................................................................................1  
Chương 1. KHÁI QUÁT VBÀI TOÁN GÁN NHÃN TLOI...........................3  
1.1. Khái nim và vtrí ca bài toán gán nhãn tloi trong NLP ..............................3  
1.1.1. Khái nim vbài toán gán nhãn tloi ........................................................3  
1.1.2. Vtrí và ng dng ca bài toán gán nhãn tloi trong NLP........................4  
1.2. Các khó khăn ca bài toán gán nhãn tloi.........................................................6  
1.3. Tp nhãn tloi....................................................................................................7  
1.3.1. Nguyên tc xây dng tp nhãn tloi và mt stp nhãn tloi ca các  
ngôn ngtrên thế gii.............................................................................................7  
1.3.2. Mt stp nhãn tloi hin được đề xut Vit Nam..............................10  
Chương 2. CÁC HƯỚNG TIP CN BÀI TOÁN GÁN NHÃN TLOI .........13  
2.1. Gán nhãn bng phương pháp da trên hlut ...................................................13  
2.2. Các phương pháp da vào hc máy...................................................................15  
2.3. Phương pháp lai..................................................................................................19  
2.4. Các nghiên cu liên quan ti Vit Nam .............................................................21  
2.4.1. Các nghiên cu da trên phương pháp hlut ...........................................21  
2.4.2. Các nghiên cu da trên phương pháp hc máy ........................................22  
2.4.3. Các nghiên cu da trên phương pháp lai..................................................22  
Chương 3. BA MÔ HÌNH HC MÁY ÁP DNG CHO BÀI TOÁN GÁN NHÃN  
TLOI TING VIT .............................................................................................25  
3.1. Mô hình cc đại hóa Entropy.............................................................................25  
3.1.1. Khái nim MEM .........................................................................................25  
3.1.2. Nguyên lý cc đại hóa Entropy ..................................................................26  
3.1.3. Mô hình xác sut.........................................................................................26  
3.1.4. Hn chế ca mô hình MEM........................................................................27  
3.2. Mô hình trường ngu nhiên điu kin................................................................28  
3.2.1. Khái nim CRF ...........................................................................................28  
iii  
3.2.2. Hàm tim năng ca các mô hình CRF........................................................30  
3.2.3. Thut toán gán nhãn cho dliu dng chui..............................................31  
3.2.4. Ước lượng tham scho các mô hình CRF..................................................33  
3.3. Mô hình máy véc tơ htr.................................................................................33  
3.3.1. Khái nim và cơ sca phương pháp SVM...............................................33  
3.3.2. Áp dng phương pháp SVM cho bài toán gán nhãn tloi .......................36  
3.3.3. Hun luyn SVM ........................................................................................37  
Chương 4. THC NGHIM ÁP DNG BA MÔ HÌNH HC MÁY CHO BÀI  
TOÁN GÁN NHÃN TLOI TING VIT VÀ ĐÁNH GIÁ KT QU..........39  
4.1. Mô tthc nghim .............................................................................................39  
4.1.1. Phn cng....................................................................................................39  
4.1.2. Phn mm....................................................................................................39  
4.1.3. Dliu thc nghim và tp nhãn tloi.....................................................40  
4.2. Mô ttp đặc trưng da trên mc tvà mc hình v.........................................43  
4.2.1. Các đặc trưng da vào thông tin tvng và thông tin tloi....................43  
4.2.2. Mu ngcnh dng biu thc chính quy....................................................45  
4.3. Hthng gán nhãn tloi cho tiếng Vit ..........................................................45  
4.3.1. Gán nhãn tloi da vào thông tin vt....................................................47  
4.3.2. Gán nhãn tloi da vào thông tin hình v................................................47  
4.4. Phương pháp thc nghim và các tham số đánh giá thc nghim.....................48  
4.4.1. Phương pháp thc nghim..........................................................................48  
4.4.2. Các tham số đánh giá thc nghim.............................................................48  
4.5. Kết quthc nghim ..........................................................................................48  
4.5.1. Kết quca năm ln thc nghim ..............................................................48  
4.5.2. Tng hp kết qu........................................................................................51  
4.5.3. Đánh giá và tho lun .................................................................................53  
KT LUN ..................................................................................................................55  
iv  
Danh mc hình vẽ  
Hình 1. Các bước xlý ngôn ngtnhiên ............................................................4  
Hình 2. Mt stp nhãn tloi cho Tiếng Anh.....................................................8  
Hình 3. Mt sphương pháp gii quyết bài toán POS tagging cho tiếng Anh ....13  
Hình 4. Đồ thcó hướng mô tmô hình HMM....................................................17  
Hình 5. Mô hình tng quát ca phương pháp lai..................................................19  
Hình 6. Mô hình TBL cho tiếng Vit ...................................................................24  
Hình 7. Đồ thvô hướng mô tCRF ....................................................................29  
Hình 8. Mt bước trong thut toán Viterbi ci tiến ..............................................32  
Hình 9. Hai cách chia không gian véc tơ thành hai na riêng bit.......................33  
Hình 10. Mt siêu phng tách các mu dương khi các mu âm. ........................34  
Hình 11. Trường hp không thphân chia các mu âm và các mu dương bng  
mt siêu phng tuyến tính.....................................................................................35  
Hình 12. Biến đổi siêu phng không tuyến tính thành siêu phng tuyến tính sử  
dng hàm nhân......................................................................................................35  
Hình 13. Hàm nhân Basis Radial..........................................................................37  
Hình 14. Ca strượt vi kích csize=5 chuyn động dc theo dliu ............44  
Hình 15. Mt mô hình gán nhãn tloi tiếng Vit...............................................46  
Hình 16. Độ chính xác trung bình trong thc nghim vi bdliu thnht ....52  
Hình 17. Độ chính xác trung bình trong thc nghim vi bdliu thhai ......52  
v
Danh mc bng biu  
Bng 1. Mt sthut ngAnh – Vit được sdng trong khóa lun................ viii  
Bng 2. Tng kêt snhãn có thcó ca các ttrong tp tvng Brown..............7  
Bng 3. Tp nhãn tloi Penn Treebank ...............................................................8  
Bng 4. Ví dvmt slut chuyn ca TBL cho tiếng Anh.............................20  
Bng 6. Tp nhãn tloi VnPOS cho tiếng Vit..................................................42  
Bng 7. Thông tin tvng và thông tin tloi sdng cho vic la chn đặc  
trưng......................................................................................................................44  
Bng 8. Mt smu ngcnh BTCQ xác định dliu dng s..........................45  
Bng 9. Độ chính xác khi áp dng mô hình MEM mc t...............................49  
Bng 10. Độ chính xác khi áp dng mô hình MEM mc hình v.....................49  
Bng 11. Độ chính xác khi áp dng mô hình CRF mc t...............................50  
Bng 12. Độ chính xác khi áp dng mô hình CRF mc hình v.......................50  
Bng 13. Độ chính xác khi áp dng mô hình SVM mc t..............................51  
Bng 14. Độ chính xác khi áp dng mô hình SVM mc hình v......................51  
vi  
Mt sthut ngAnh – Vit  
Bng 1. Mt sthut ngAnh – Vit được sdng trong khóa lun  
STT  
Thut ngTiếng Anh  
Conditional Random Field  
Hidden Markov Model  
Viết tt  
CRF  
Nghĩa tiếng Vit  
Min ngu nhiên điu kin  
Mô hình Markov n  
1
2
HMM  
MEM,  
Mô hình cc đại hóa  
3
Maximum Entropy Model  
MaxEnt  
Entropy  
4
5
6
7
Natural Language Processing  
Part of speech tagging  
Regular expression  
NLP  
Xlý ngôn ngtnhiên  
POS tagging Gán nhãn tloi  
BTCQ  
Biu thc chính quy  
Rule-based tagger  
Bgán nhãn da trên lut  
Phương pháp hc da trên  
chuyn đổi  
8
Transformation-Based Learning TBL  
vii  
MỞ ĐẦU  
Gán nhãn tloi cho mt văn bn tc là xác định tloi chính xác cho các từ  
trong văn bn đó. Đây là vn đề rt quan trng trong lĩnh vc xlý ngôn ngtnhiên,  
là bước tin xlý ca nhiu bài toán và mt shthng thông minh khác, tuy nhiên  
các nghiên cu vbài toán này Vit Nam vn còn giai đon ban đầu nên nhu cu  
vclý thuyết và ng dng đều còn rt ln. Đối vi các văn bn tiếng Vit, vic gán  
nhãn tloi gp phi nhiu khó khăn, đặc bit là bn thân vic phân loi ttiếng Vit  
cho đến nay vn là mt vn đề còn nhiu tranh cãi, chưa có mt chun mc thng  
nht. Ý thc được tm quan trng và nhu cu thc tin cũng như nhng khó khăn ca  
bài toán gán nhãn tloi, nghiên cu trong khóa lun phc vụ đồng thi hai mc đích:  
Thnht, la chn mt tp đặc trưng phù hp vi tính cht ca tiếng Vit và có thsử  
dng cho các phương pháp hc máy khác nhau. Thhai, áp dng ba phương pháp hc  
máy cho kết qukhá tt các ngôn ngkhác vào bài toán gán nhãn tloi tiếng Vit,  
từ đó đưa ra nhn xét vkết qu, độ phù hp ca tng phương pháp vi các ng dng  
thc tế cũng như góp phn đánh giá cht lượng ca tp đặc trưng đã xây dng.  
Thc nghim trên các văn bn tiếng Vit áp dng ba mô hình hc máy đều cho  
kết qukhá khquan, tùy vào các đặc trưng riêng ca mi mô hình mà thi gian xlý  
cũng như độ chính xác có nhng chênh lch nht định. Các vn đề được gii quyết  
trong khóa lun sẽ đóng góp mt phn hu ích trong vic la chn phương pháp thích  
hp gii quyết bài toán, để từ đó phc vcho vic tiến hành các nghiên cu mc cao  
hơn như phân tích cú pháp, dch máy, tóm tt văn bn …  
Khóa lun được tchc thành bn chương chính vi ni dung cơ bn như  
sau:  
Chương 1: Khái quát vbài toán gán nhãn tloi. Chương 1 đưa ra khái  
nim, vtrí và ng dng ca bài toán gán nhãn tloi trong xlý ngôn ngtnhiên.  
Cùng vi đó, vic phân tích các vn đề cơ bn ca bài toán và vic xây dng tp nhãn  
tloi cũng là ni dung quan trng mà chương này đề cp ti.  
Chương 2: Các hướng tiếp cn bài toán gán nhãn tloi. Trình bày mt số  
hướng tiếp cn nhm gii quyết bài toán gán nhãn tloi như phương pháp thcông,  
các phương pháp hc máy mà đại din tiêu biu là HMM và các phương pháp lai. So  
vi hướng tiếp cn thcông có nhược đim là tn kém vmt thi gian, công sc và  
không khchuyn, các phương pháp hc máy thường được đánh giá cao hơn. Chương  
1
này cũng gii thiu mt snghiên cu có liên quan đến bài toán gán nhãn tloi cho  
tiếng Vit trong nhng năm gn đây.  
Chương 3. Ba mô hình hc máy áp dng cho bài toán gán nhãn tloi tiếng  
Vit. Khóa lun la chn ba phương pháp hc máy đin hình đã cho kết qukhquan  
nhiu ngôn ngvà có khnăng đạt kết qutt khi áp dng cho tiếng Vit là MEM,  
CRF và SVM. Chương 3 đặt nn tng lý thuyết cho phn thc nghim ca khóa lun.  
Chương 4: Thc nghim áp dng ba mô hình hc máy cho bài toán gán  
nhãn tloi tiếng Vit và đánh giá kết qu. Chương này trình bày các công vic  
thc nghim mà khóa lun đã tiến hành, bao gm vic la chn tp đặc trưng phù hp  
cho tiếng Vit và áp dng ba mô hình hc máy MEM, CRF và SVM để gii quyết bài  
toán gán nhãn tloi tiếng Vit. Tkết quả đạt được, tiến hành đối chiếu, so sánh và  
đưa ra mt snhn xét về ưu, nhược đim ca các mô hình cũng như độ phù hp ca  
chúng đối vi bài toán gán nhãn tloi tiếng Vit.  
Phn kết lun tóm lược các kết quả đã đạt được và đóng góp ca khóa lun,  
đồng thi định hướng mt shướng nghiên cu tiếp theo trong thi gian sp ti.  
2
Chương 1. KHÁI QUÁT VBÀI TOÁN GÁN NHÃN TỪ  
LOI  
Chương 1 gii thiu vbài toán gán nhãn tloi cùng vi vai trò, ng dng ca  
nó trong các hthng xlý ngôn ngtnhiên. Cùng vi đó, chương này cũng phân  
tích nhng khó khăn mà bài toán gán nhãn tloi cn phi gii quyết và vn đề xây  
dng tp nhãn tloi.  
1.1. Khái nim và vtrí ca bài toán gán nhãn tloi trong xlý  
ngôn ngtnhiên  
1.1.1. Khái nim vbài toán gán nhãn tloi  
Mi ttrong mt ngôn ngnói chung đôi khi có thgn vi nhiu tloi và vic  
gii thích đúng nghĩa mt tphthuc vào vic nó có được xác định đúng tloi hay  
không da trên ngcnh cho trước. Công vic gán nhãn tloi cho mt văn bn là  
xác định tloi ca mi ttrong phm vi văn bn đó, tc là phân loi các từ  
thành các lp tloi da trên thc tin hot động ngôn ng[2, 7]. Vic gán nhãn  
tloi thường được thhin bng cách gán cho mi tmt “nhãn” có sn theo tp  
nhãn cho trước.  
Bài toán có thể được mô tnhư sau:  
Input: Mt chui các tvà tp nhãn tloi (Ví dnhư chui các t“Book that  
flight.” và tp nhãn tloi Penn Treebank ca tiếng Anh.)  
Output: Mt nhãn tt nht cho tng ttrong chui từ đã được đưa ra (Ví d:,  
đối vi chui t“Book that flight.”, thì nhãn thích hp tương ng cho tng từ  
slà Book/VB that/DT flight/NN./.)  
Quá trình gán nhãn tloi thường được chia làm 3 bước [2, 3, 4]:  
Giai đon tin xlý: Phân tách xâu ký tthành chui các t. Giai đon này có  
thể đơn gin hay phc tp tutheo ngôn ngvà quan nim về đơn vtvng.  
Chng hn đối vi tiếng Anh hay tiếng Pháp, vic phân tách tphn ln là da  
vào các ký hiu trng. Tuy nhiên vn có nhng tghép hay nhng cm tgây  
tranh cãi vcách xlý. Trong khi đó vi tiếng Vit thì du trng càng không  
phi là du hiu để xác định ranh gii các đơn vtvng do tn sxut hin từ  
ghép rt cao.  
3
Khi to gán nhãn, tc là tìm cho mi ttp tt ccác nhãn tloi mà nó có  
thcó. Tp nhãn này có ththu được tcơ sdliu từ đin hoc kho ngliu  
đã gán nhãn bng tay. Đối vi mt tmi chưa xut hin trong cơ sngliu  
thì có thdùng mt nhãn ngm định hoc gn cho nó tp tt ccác nhãn. Trong  
các ngôn ngbiến đổi hình thái người ta cũng da vào hình thái từ để đoán  
nhn lp tloi tương ng ca từ đang xét.  
Quyết định kết qugán nhãn, đó là giai đon loi bnhp nhng, tc là la  
chn cho mi tmt nhãn phù hp nht vi ngcnh trong tp nhãn khi to  
nói trên. Có nhiu phương pháp để thc hin vic này, trong đó người ta phân  
bit chyếu các phương pháp da vào quy tc ngpháp (vi đại din ni bt là  
phương pháp Brill) và các phương pháp xác sut. Ngoài ra còn có các hthng  
sdng mng nơ-ron, các hthng lai sdng kết hp tính toán xác sut và  
ràng buc ngpháp, gán nhãn nhiu tng, …  
1.1.2. Vtrí và ng dng ca bài toán gán nhãn tloi trong NLP  
Morphology  
Syntax  
Semantics  
Discourse  
Pragmatics  
Knowledge  
Five man lif a piano / a chair?  
Could you pass me the salt? Yes or pass it?  
Bill was about to be impeached, and he called his lawyer  
ADDITIVE or RESULT?  
bank  
cottog bag  
river or financial?  
PART-WHOLE or PURPOSE?  
walks  
rice flies  
Noun or Verb?  
(NP (NN rice) (NNS files)) or  
(S (NP (NN rice) (VP (VBZ files)))  
Untieable Knot  
(un)tieable or untie(able)?  
Hình 1. Các bước xlý ngôn ngtnhiên  
4
Gán nhãn tloi là mt công vic quan trng và bt buc phi có đối vi hu hết  
các ng dng xlý ngôn ngtnhiên. Nếu coi quá trình xlý ngôn ngtnhiên gm  
các bước: Tin xlý văn bn, phân tích hình thái, phân tích cú pháp và phân tích ngữ  
nghĩa thì gán nhãn tloi thuc vào bước phân tích hình thái. Bước này có nhim vụ  
phân tích câu thành mt bng các t(hay cm t) riêng bit, đồng thi kèm theo tt cả  
các thông tin vtừ đó, như là: Tloi (part-of-speech), phm trù ngpháp (category),  
các biến cách ca t, tin t, hu tca t(nếu có) [5, 9]. Hình 1 trên cho ta mô tả  
trc quan vvtrí ca bài toán gán nhãn tloi trong xlý ngôn ngtnhiên.  
Như vy, gán nhãn tloi là bước tin xlý quan trng cho các phn tiếp theo  
trong quá trình xlý ngôn ngtnhiên như phân tích cú pháp, phân tích ngnghĩa.  
Có thể đim qua mt số ứng dng tiêu biu ca bài toán gán nhãn tloi như dưới đây  
[14]:  
Thành công ca vic gán nhãn tloi tiếng Vit slà cơ scho vic gii quyết  
các bài toán xlý ngôn ngtnhiên khác như tóm tt văn bn, phân cm, phân  
loi văn bn …  
Khi hthng văn bn đã được gán nhãn, hay nói cách khác là đã được chú thích  
tloi thì nó sẽ được ng dng rng rãi trong các hthng tìm kiếm thông tin,  
trong các ng dng tng hp tiếng nói, các hthng nhn dng tiếng nói cũng  
như trong các hthng dch máy …  
Mt trong nhng ng dng thường được nhc đến nhiu nht ca gán nhãn từ  
loi là trong hthng dch máy. Cho đến nay, sau hơn 50 năm phát trin, dch  
máy chng tlà mt ng dng vô cùng thiết thc, đồng thi cũng là mt bài  
toán khá hóc búa đặt ra cho các nhà khoa hc trên toàn thế gii. Từ đầu thp  
niên 1960, các nhà khoa hc đã đúc kết li ba chiến lược dch máy cơ bn, đó là  
dch trc tiếp, dch thông qua ngôn ngtrung gian và dch da trên chuyn đổi.  
Và qua thc tế, chiến lược dch da trên chuyn đổi đã khng định được tính  
hiu quvà tim năng ca nó. Trong hdch da trên schuyn đổi, khi  
chuyn đổi cây cú pháp (cu trúc) gimt vai trò quan trng, quyết định cht  
lượng hdch. Khi này phthuc rt ln vào schính xác ca quá trình phân  
tích bước trước, trong đó có bphn gán nhãn tloi, gisnhư các ttrong  
cây cú pháp bgán nhãn tloi sai dn đến cây cú pháp ca câu cũng bsai. Giả  
snhư hthng tiến hành dch câu sau đây ttiếng Anh sang tiếng Vit: “Jet  
planes fly about nine miles high”, nếu không có strgiúp ca công cgán  
5
nhãn tloi, hthng dch máy chdch ttsang tthì ta sđược kết quả  
tiếng Vit là “Phn lc các phi cơ bay khong chín dm cao”  
Jet  
planes  
fly about  
nine miles high  
Phn lc các phi cơ bay khong chín dm cao  
Trong khi đó, nếu các từ đã được gán nhãn tloi mt cách chính xác, ta scó  
khnăng cao nhn được mt câu tiếng Vit hp lý hơn rt nhiu: “Các phi cơ  
phn lc bay cao khong chín dm”  
Jet  
planes  
fly about nine  
miles high  
Các phi cơ phn lc bay cao  
khong chín dm  
…  
1.2. Các khó khăn ca bài toán gán nhãn tloi  
Nếu mi tchcó mt nhãn tloi và ta có thxây dng được mt từ đin hu  
hn các tvà nhãn tương ng ca nó thì chc chn có thgii quyết được bài toán gán  
nhãn tloi vi kết quti ưu. Tuy nhiên, trong thc tế mt từ đôi khi có thcó nhiu  
hơn mt nhãn tloi thích hp, và ta cũng không thkim soát được toàn bcác tcó  
thxut hin trong văn bn, điu này dn đến hai vn đề mà bài toán gán nhãn tloi  
phi đối mt: Nhp nhng tloi và tmi.  
Vn đề chyếu ca bài toán gán nhãn tloi thc cht là vic loi bnhp  
nhng vtloi, tc là khi mt tcó nhiu tloi, nhưng trong mt ngcnh cth,  
nó chcó thcó mt tloi đúng mà thôi [5, 18].  
Ví d:  
Trong câu “I can can a can”, bgán nhãn tloi sphi đánh du tloi  
như sau:  
I/PRO can/AUX can/V a/DET can/N.  
Trong hai câu sau đây, t“race” được gán nhãn khác nhau:  
- Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN  
6
- People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT  
race/NN for/IN outer/JJ space/NN  
Đây là mt vn đề rt phc tp và tn ti trong hu như tt cmi ngôn ngmà  
ta không thtránh được, ly ví dnhư trong tp tvng Brown và tp nhãn Brown  
ca nó trong tiếng Anh thì có 35340 tkhông có nhp nhng (tc là mt tchcó  
đúng duy nht mt nhãn trong mi trường hp), và 4100 tcha nhp nhng (tc là  
mt tcó thcó t2 đến 7 nhãn trong các ngcnh khác nhau) – Kết qunày do  
Derose tng kết năm 1988 [18], chi tiết cho bng 2 dưới đây:  
Bng 2. Tng kêt snhãn có thcó ca mt ttrong tp tvng Brown  
Snhãn  
Stừ  
1
2
3
4
5
6
2
7
1
35340  
3760  
264  
61  
12  
Nhìn chung, các nhp nhng tloi thường được gii quyết bng cách xét đến  
ngcnh mà từ đó xut hin, tuy nhiên trong mt strường hp, ngay ckhi có thông  
tin vngcnh mà mt stvn còn tim tàng nhp nhng vtloi.  
Mt vn đề khác mà bài toán gán nhãn tloi cn phi xlý là khi gp nhng từ  
mi mà bgán nhãn không thgii quyết được bng nhng cách thông thường. Trong  
trường hp này, thường thì hthng sẽ để nguyên và đánh du mt tloi đặc bit để  
chuyn sang phn xlý tên riêng (proper name) hay tmi (unknown word).  
1.3. Tp nhãn tloi  
1.3.1. Nguyên tc xây dng tp nhãn tloi và mt stp nhãn tloi  
ca các ngôn ngtrên thế gii  
Tloi là nhng lp tcó cùng bn cht ngpháp, được phân chia theo ý nghĩa  
khái quát, theo khnăng kết hp vi các tngkhác trong nglưu và thc hin  
nhng chc năng ngpháp nht định trong câu [1]. Trong thc tế, các tp nhãn sử  
dng cho vic gán nhãn tloi thường được xây dng và phát trin tcác lp cơ bn  
là các lp từ đóng (Closed word class, function word class, còn được gi là các từ  
chc năng, là mt tp cố định và không thmrng, các lp này thường chcha mt  
slượng ít các tcó liên quan. Ví d: Gii t, mo t, đại t, số đếm,...) và các lp từ  
m(Open class, là các lp tcó khnăng mrng bng cách to thêm tmi hoc  
“mượn” tcác ngôn ngkhác. Có 4 lp tmchính là danh t- nouns, động t-  
verb, tính t- adjective và mt phn ca phó t- [adverb]). Thường thì mt lp tsẽ  
được chia thành nhiu tloi theo các đặc tính riêng nào đó [21].  
7
Chxét riêng đối vi Tiếng Anh, cho đến hin nay đã có rt nhiu tp nhãn từ  
loi khác nhau được xây dng và sdng, hình 2 đim qua mt stp nhãn tloi đã  
được xây dng theo các mc thi gian [7].  
1960  
1970  
1980  
1990  
2000  
Brown  
Corplus  
LOB Corplus  
Tagged  
Brown Corplus  
Created (EN-US)  
1 Millions Words  
LOB Corplus  
Created(EN-US)  
1 Millions Words  
POS Tagging  
separated from  
other NLP  
British National  
Corpus  
(tagged by CLAWS)  
Penn Treebank  
Corpus  
(WSJ, 4.5M)  
Hình 2. Mt stp nhãn tloi cho Tiếng Anh  
Có thkể đến mt stp nhãn tloi đin hình như:  
Brown corpus: 87 nhãn.  
Penn Treebank: 45 nhãn. Các nhãn ca tp nhãn tloi Penn Treebank được  
cho trong bng 3 dưới đây.  
Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus): 61  
nhãn.  
Lancaster C7: 145 nhãn.  
Bng 3. Tp nhãn tloi Penn Treebank  
Nhãn  
CC  
Ý nghĩa  
Coordinating conjunction  
Cardinal number  
Determiner  
Nhãn  
Ý nghĩa  
SYM Symbol  
CD  
DT  
TO  
UH  
VB  
“to”  
Interjection  
EX  
Existential there  
Verb, base form  
FW Foreign word  
VBD Verb, past tense  
IN  
JJ  
Preposition/sub- conjunction VBG Verb, gerund or present participle  
Adjective  
VBN Verb, past participle  
8
Nhãn  
JJR  
JJS  
Ý nghĩa  
Adjective, comparative  
Adjective, superlative  
List item marker  
Modal  
Nhãn  
Ý nghĩa  
VBP Verb, non-3rd person singular  
VBZ present  
LS  
WTD Verb, 3rd person singular present  
MD  
NN  
WP  
Wh-determiner  
Noun, singular or mass  
WP$ Wh-pronoun  
NNS Noun, plural  
WRB Possessive wh-pronoun  
NNP Proper noun, singular  
NNPS Proper noun, plural  
PDT Predeterminer  
$
#
(
Wh-adverb  
Dollar sign  
Pound sign  
POS  
PP  
Possessive ending  
Personal pronoun  
Possessive pronoun  
Adverb  
Left quote  
Right quote  
PP$  
RB  
)
Left parenthesis  
Right parenthesis  
Comma  
,
RBR Adverb, comparative  
RBS Adverb, superlative  
.
Sentence-final punc  
Mid-sentence punc  
:
RP  
Particle  
Đối vi các ngôn ngkhác trên thế gii, để phc vcho vic gii quyết bài toán  
gán nhãn tloi, nhiu tp nhãn tloi vi độ mn khác nhau cũng đã được xây dng  
cho mi ngôn ng, ví dnhư tp nhãn Chinese Treebank gm 33 nhãn và Uppen CTB  
gm 23 nhãn cho tiếng Trung Quc, tp nhãn di SI-TAL gm 15 nhãn và tp nhãn  
Achim Stein Italian tagset gm 37 nhãn ca tiếng Ý [18], …  
Như vy, vi mi ngôn ngthường đều có nhiu tp nhãn tloi có thsdng,  
tuy nhiên, vic la chn tp nhãn nh hướng rt ln đến độ khó ca bài toán gán nhãn  
tloi. Chn tp nhãn ln slàm tăng độ khó nhưng tp nhãn nhhơn có thkhông  
đủ đáp ng cho mt mc đích nht định nào đó. Vic chn tp nhãn nào stùy thuc  
vào tng ng dng cth, nói cách khác là tùy thuc vào slượng thông tin mà ng  
dng đó đòi hi. Như vy, cn phi có mt sthohip để xây dng được mt bộ  
nhãn tloi không quá ln và có cht lượng [2, 21], tc là cn phi có scân đối gia:  
được lượng thông tin rõ ràng hơn (Tc là phm vi phân lp tloi nhhơn,  
chia thành nhiu tloi hơn da trên nhiu yếu tthhin skhác bit).  
9
Có khnăng tiến hành thc hin vic gán nhãn (Tc là slượng các tloi  
càng ít càng dtiến hành).  
1.3.2. Mt stp nhãn tloi hin được đề xut Vit Nam  
Đối vi tiếng Vit, vic thiết kế mt tp nhãn tloi còn vp phi mt vn đề  
ln, đó là ngay trong tiếng Vit thì vn đề tloi vn còn gây nhiu tranh cãi. Theo  
Dip Quang Ban [1], vic phân định tloi phi da trên các tiêu chun sau đây:  
Tiêu chun 1 - Ý nghĩa khái quát ca t. Các tloi là nhng nhóm trt to  
ln vkhi lượng mà mi nhóm có mt đặc trưng phân loi: tính vt th, phm  
cht, hành động hoc trng thái … Ví d, nhng tnhư: nhà, bàn, hc sinh,  
con, quyn, sđược phân vào lp danh t, vì ý nghĩa tvng ca chúng  
được khái quát hóa và tru tượng hóa thành ý nghĩa thc th- ý nghĩa phm  
trù ngpháp ca danh t.  
Tiêu chun 2 - Khnăng kết hp vi các tngkhác trong nglưu. Vi ý  
nghĩa khái quát, các tcó thcó khnăng tham gia vào mt kết hp có nghĩa.  
mi vtrí ca kết hp có thxut hin nhng tcó khnăng ln lượt thay thế  
nhau, trong khi đó, các vtrí khác nhau trong kết hp, các tcòn li to ra  
bi cnh cho sxut hin khnăng thay thế ca nhng tnói trên. Nhng từ  
cùng xut hin trong cùng mt bi cnh, có khnăng thay thế nhau cùng mt  
vtrí, có tình cht thường xuyên, được tp hơn vào mt lp t. Vn dng vào  
tiếng Vit, nhng t; nhà, bàn, cát, đá … có thxut hin và thay thế nhau  
trong kết hp kiu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lp  
danh t. Chúng không thxut hin và thay thế cho nhau trong kết hp kiu:  
hãy ăn, hãy mua, ăn xong, mua xong … vn là kiu kết hp ca động t.  
Tiêu chun 3 - Chc năng ngpháp. Tham gia vào cu to câu, các tcó thể  
đứng mt hay mt svtrí nht định trong câu, hoc có ththay thế nhau vị  
trí đó, và cùng biu thmt mi quan hvchc năng cú pháp vi các thành  
phn khác trong cu to câu, có thphân vào mt tloi. Ví d, các t; nhà,  
bàn, cát, đá … có thể đứng nhiu vtrí trong câu. Chúng có ththay thế nhau  
nhng vtrí đó, và có quan hvchc năng ging nhau vi các thành phn  
khác trong câu mi vtrí, nhưng thường vtrí chngtrong quan hvi vị  
ng. Chngvà vnglà hai chc năng cú pháp cơ bn, chc năng chnglà  
chc năng cú pháp chyếu để phân loi các tnói trên vào lp danh t; còn  
10  
chc năng vngli là chc năng cú pháp chyếu ca các động tvà tính từ  
Qua kho sát các nghiên cu gn đây ca tiếng Vit cho bài toán gán nhãn tloi  
[2, 3, 4, 6], có ththy có hai dng tp nhãn tloi thường được sdng cho các công  
cgán nhãn tloi tiếng Vit:  
Dng thnht, xut phát ttp gm 8 nhãn tloi tiếng Vit thông dng được  
các nhà nghiên cu ngôn nghc công nhn nhiu nht (bao gm: danh t,  
động t, tính t, đại t, pht, kết t, trt, cm t) để xây dng tp nhãn  
“mn” hơn bng cách phân nhmi tloi trên thành các tiu tloi. Vic phân  
nhnày da trên nn tng là các tiu loi từ được nêu ra trong cun Ngpháp  
tiếng Vit ca y ban khoa hc xã hi Vit Nam, xut bn năm 1993, có bổ  
sung thêm mt snhãn tloi để tránh trường hp mt tmang cùng mt lúc  
nhiu nhãn tloi (chng hn động tngoi động chcm nghĩ hay động tni  
động chcm nghĩ). Tùy thuc vào tng loi ng dng xem cn thông tin cú  
pháp và tvng mc nào mà vic xây dng, xác định tp nhãn tloi sẽ  
dng mc thô hay mn khác nhau.  
Hin nay, Vit Nam đã có mt stp nhãn tloi được xây dng, chyếu ở  
mc thô, tiêu biu có thkể đến bnhãn VnPOStag ca tác giTrn ThOanh  
gm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiu đặc bit khác; bộ  
VietTreeBank gm 16 nhãn và 01 nhãn cho tkhông phân loi được, … Bộ  
nhãn gm nhiu nhãn nht hin nay được xây dng bi nhóm tác giNguyn  
ThMinh Huyn sdng cho công cVnQtag gm 48 nhãn và 01 nhãn không  
xác định.  
Dng thhai, tp nhãn tiếng Vit được xây dng thông qua vic xây dng kho  
ngliu song ngAnh-Vit mà trong đó các câu tiếng Vit đã được gán nhãn  
tloi chính xác nhkết quliên kết tAnh-Vit và phép chiếu tloi tAnh  
sang Vit.  
Tiêu biu cho dng tp nhãn tloi này là tp nhãn được sdng trong nghiên  
cu “Gán nhãn tloi tự động cho Tiếng Vit” ca nhóm tác giả Đinh Đin [6],  
tp nhãn này được xây dng bng cách quy chiếu ttp nhãn tiếng Anh là Brown  
Corpus.  
Hin nay, bài toán gán nhãn tloi cho tiếng Anh đã được gii quyết khá tt, đạt  
độ chính xác cao (Khong hơn 97% ), bên cnh vic hoàn thin hơn na các phương  
11  
pháp gán nhãn, vic xây dng bnhãn mn hơn và có khnăng ng dng thc tế cao  
cũng đang rt được quan tâm. Có thnói rng kết quả đạt được ca bài toán gán nhãn  
tloi cho tiếng Anh đã ngày càng tiến gn ti mc ti ưu. Tuy nhiên, đối vi các  
ngôn ngkhác, đặc bit là các ngôn ngtượng hình (như tiếng Trung Quc, Nht, Hàn  
Quc …), các ngôn ngca Nga, n Độ, A Rp, Thái Lan … cũng như đối vi tiếng  
Vit thì bài toán gán nhãn tloi vn là mt thách thc ln. Các phương pháp và công  
cụ đã được xây dng gn như hoàn thin cho Tiếng Anh khi đem áp dng cho các  
ngôn ngkhác loi trên thường đưa li kết quthp hoc chưa đáp ng được nhu cu  
ng dng. Như vy, yêu cu đặt ra vi tng ngôn nglà phi kế tha, tn dng được  
các phương pháp sn có, tiến hành hiu chnh hoc đề xut ra các hướng tiếp cn mi  
sao cho phù hp vi đặc đim riêng ca tng ngôn ng.  
12  
Chương 2. CÁC HƯỚNG TIP CN BÀI TOÁN GÁN  
NHÃN TLOI  
Như đã gii thiu, bài toán gán nhãn tloi là mt trong nhng bài toán cơ bn  
trong xlý ngôn ngtnhiên và được quan tâm trt sm, cùng vi đó là sxut  
hin ca rt nhiu phương pháp gii quyết bài toán này. Cho đến nay, vic hoàn thin  
các phương pháp đã có và xây dng các phương pháp mi nhm đạt được kết qutt  
hơn vn là mc tiêu ca nhiu nghiên cu.  
Hình 3 dưới đây đim qua mt vài phương pháp cơ bn ni bt theo các mc thi  
gian [7]:  
Trigram Tagger  
(Kempe)  
Combined Methods  
98% +  
96%  
Tree-Based Statistics  
(Helmut Shmid)  
Rule Based – 96%+  
DeRose/Church  
Efficient HMM  
Sparse Data  
95% +  
Transformation  
Based Tagging  
(Eric Bill)  
Rule Based – 95%+  
Neural Network  
96% +  
HMM Tagging  
(CLAWS)  
93% - 95%  
Greene and  
Rubin  
1960  
1970  
1980  
1990  
2000  
Hình 3. Mt sphương pháp gii quyết bài toán POS tagging cho tiếng Anh  
Theo Daniel Jurafsky [9], hu hết các thut toán được sdng để gii quyết bài  
toán gán nhãn tloi thuc vào mt trong hai loi: Phương pháp thcông và phương  
pháp da trên hc máy. Ngoài ra người ta còn có thkết hp mt sphương pháp để  
cho kết qutt hơn, kthut này gi là phương pháp lai.  
2.1. Gán nhãn bng phương pháp da trên hlut  
Đây là phương pháp gán nhãn tloi ra đời sm nht, các bgán nhãn “sơ khai”  
đều thc hin theo phương pháp này. Ni dung chính ca phương pháp này là xây  
dng mt cơ sdliu ln các “lut” được viết bng tay, vì vy phương pháp này còn  
được gi là phương pháp gán nhãn thcông. Các lut được xây dng da vào ngữ  
13  
cnh cha từ đang xét nhm loi bnhp nhng nếu từ đó có thcó nhiu nhãn tloi  
thích hp, ví d, nếu mt tnhp nhng đang xét đi sau mt tchỉ định thì nó có xu  
hướng là mt danh thơn là mt động t.  
Đại din tiêu biu cho nhóm các phương pháp thcông da trên hlut này là  
ENGTWOL (Voutilainen, 1995) [21].  
Vthc cht, phương pháp này da trên kthut hai bước dưới đây:  
Bước 1: Xác định cho mi tmt danh sách các tloi có khnăng ca nó.  
Đối vi ENGTWOL, vic này được thc hin mi mt bphân tích hình thái hai  
mc độ (Máy chuyn hu hn trng thái).  
Ví d: Để gán nhãn tloi cho câu “Pavlov had shown that salivation”, bước  
này, bgán nhãn to mt danh sách tt ccác nhãn có thcho tng tnhư sau:  
Pavlov: PAVLOV N NOM SG PROPER  
had  
: HAVE V PAST VFIN SVO  
HAVE PCP2 SVOO  
shown : SHOW PCP2 SVOO SVO SG  
that : ADV  
PRON DEM SG  
DET CENTRAL DEM SG  
CS  
salivation: N NOM SG  
Bước 2: Sdng mt danh sách các ràng buc không có nhp nhng (các lut  
nếu-thì), và sdng các thông tin vngcnh để chn ra mt nhãn thích hp  
nht trong scác nhãn có th. Như vy, bước này, các ràng buc đóng vai trò  
như mt blc (Filters). Vi ENGTWOL, danh sách các ràng buc gm  
khong 1100 ràng buc.  
Trên thc tế, mi lut trên đều cha mt slượng ln các ngoi l. Thm chí  
ngay ckhi người thiết kế tìm cách gii quyết hết các ngoi lmà hnghĩ đến thì vn  
tn ti nhng trường hp chxut hin khi hthng được đưa vào thc nghim. Hơn  
na, mt hthng lut dù rt đồ scũng khó có thbao quát được hết tt ccác trường  
14  
hp ngôn ng, vì vy, hin nay các phương pháp da trên lut thường chỉ được sử  
dng bng cách kết hp bsung vi các phương pháp khác [5].  
2.2. Các phương pháp da vào hc máy  
Như vy, phương pháp da trên lut là mt phương pháp thcông còn tim tàng  
rt nhiu nhp nhng. Cùng vi đó, vic xây dng mt hthng trích chn da trên  
các lut là rt tn công sc. Thông thường để xây dng mt hthng như vy đòi hi  
công sc vài tháng tmt lp trình viên vi nhiu kinh nghim vngôn nghc. Gii  
pháp cho các gii hn này là phi xây dng mt hthng bng cách nào đó có th“tự  
hc”, điu này sgiúp gim bt stham gia ca các chuyên gia ngôn ngvà làm tăng  
tính khchuyn cho hthng, các phương pháp như vy được gi là các phương pháp  
da vào hc máy.  
Như đã nói trên, các phương pháp da vào hc máy là các phương pháp xây  
dng hthng mà bng cách nào đó có th“thc” (để ngn gn các phn dưới đây  
ta sgi là các phương pháp hc máy). Phn này sxem xét mt đại din tiêu biu ca  
phương pháp hc máy, gii quyết nhp nhng bng cách sdng mt bdliu hun  
luyn để tính toán xác sut ca mt tcho sn sẽ được gán vi mt nhãn nào đó trong  
ngcnh cho trước, vì bn cht đó, hcác phương pháp này còn được gi là các  
phương pháp xác sut.  
Xác sut cho mt t, tc là xác sut mà mt nhãn cho trước t là thích hp vi  
mt tcho trước w được tính bng công thc:  
f (t, w)  
(2.0)  
P(t | w)  
f (w)  
Để minh ha cho phương pháp xác sut, phn này sgii thiu mt bgán nhãn  
đin hình sdng mô hình Markov n (HMM) [16]. Mô hình Markov n được gii  
thiu và nghiên cu vào cui nhng năm 1960 và đầu nhng năm 1970, cho đến nay  
được ng dng nhiu trong nhn dng tiếng nói, tin sinh hc và xlý ngôn ngtự  
nhiên. HMM la chn mt chui nhãn tt nht cho toàn bcâu, thông thường người ta  
sdng thut toán Viterbi để tìm chui nhãn tt nht đó.  
Mô hình HMM có thể được xây dng bi các ô-tô-mát hu hn trng thái  
(probabilistic finite state automata) vi các tham sbiu din xác sut chuyn trng  
thái và xác sut sinh dliu quan sát ti mi trng thái. Các trng thái trong mô hình  
HMM được xem là bị ẩn đi bên dưới dliu quan sát sinh ra do mô hình. Quá trình  
15  
sinh ra chui dliu quan sát trong HMM thông qua mt lot các bước chuyn trng  
thái xut phát tmt trong các trng thái bt đầu và dng li mt trng thái kết thúc.  
Ti mi trng thái, mt thành phn ca chui quan sát được sinh ra trước khi chuyn  
sang trng thái tiếp theo. Trong bài toán gán nhãn tloi dliu, ta có thxem tương  
ng mi trng thái vi mt trong nhãn tloi: NN, NP, VB...và dliu quan sát là các  
ttrong câu. Mc dù các lp này không sinh ra các t, nhưng mi lp được gán cho  
mt tbt kì có thxem như là sinh ra tnày theo mt cách thc nào đó.  
Gis, vi câu đầu vào W (w1, w2,…, wn), ta cn tìm mt chui các nhãn tt nht  
cho toàn bcâu, trong đó mi nhãn tương ng vi mt tca câu đầu vào T (t1, t2,…,  
tn). Bgán nhãn sdng mô hình HMM stìm chui các nhãn sao cho giá trca tích  
P(T|nhãn) * P (nhãn | n nhãn trước đó) là cc đại, tc là tha mãn công thc (2.1)  
ˆ
T argmaxTP(T |W)  
(2.1)  
Sdng lut Bayes, P(T|W) được viết theo công thc (2.2)  
P(T)P(W |T)  
P(T |W )   
(2.2)  
P(W )  
Ta đang quan tâm ti vic tìm chui nhãn phù hp nht làm cc đại công thc  
(2.2) nên mu strong tt ccác trường hp là ging nhau, vì vy ta có thloi bnó.  
Do đó, bài toán trthành tìm chui các nhãn tha mãn công thc (2.3)  
ˆ
T argmaxTP(T)P(W |T)  
(2.3)  
Áp dng lut chui xác sut, ta có công thc (2.4)  
n
(2.4)  
P(T)P(W |T)   
P(w | w1t1...w t t )P(ti | w1t1...w t )  
i1 i1 i i1 i1  
i1  
i
Vn không có phương pháp hiu quả để tính xác sut ca chui này mt cách  
chính xác, vì nó yêu cu quá nhiu dliu. Ở đây ta phi áp dng các githiết độc lp  
điu kin để có mt xác sut đơn gin hơn (githiết rng mi từ đều là độc lp vi các  
tkhác và đặc tính ca mt tchphthuc vào nhãn ca nó). Sdng githiết N-  
gram để mô hình hóa xác sut chui t:  
n
P(t ,...,t )=  
P(t |t )  
i-1  
(2.5a)  
1
n
i
i=1  
Cthta dùng mô hình phbiến nht là mô hình tri-gram.  
P t ,t ,t = P t |t P t |t  
3   
1
   
2   
(2.5b)  
1
2
2
3
Đầu tiên, ta đơn gin hóa rng xác sut ca mt tthì chphthuc vào nhãn ca  
nó:  
16  
(2.6)  
Tiếp theo, ta githiết rng các nhãn phía trước có thể được xp xbi 2 nhãn  
trước và gn nó nht:  
P(w | w1t1...w t t ) P(w | ti )  
i
i1 i1 i  
i
(2.7)  
P(ti | w1t1...w t ) P(ti | ti-2ti-1)  
i1 i1  
Vì vy, công thc (2.1) được biến đổi tương đương vi công thc (2.8) dưới đây,  
ta phi la chn chui nhãn làm cc đại công thc (2.8) này  
n
n
P(t )P(t | t ) P(t | t t )[ P(w | t )]  
(2.8)  
1   
1
2
i
i-2 i-1  
i
i
i3  
i1  
Các thành phn tha strong công thc (2.8) có thể được tính toán ttp dliu  
hun luyn ca mô hình. Chú ý rng để có thtránh xác sut bng 0 ta cn sdng các  
kthut làm trơn  
Ta có thmô hình hóa HMM dưới dng mt đồ thcó hướng như hình 4.  
T1  
T2  
T3  
Tn-1  
Tn  
W1  
W 2  
W 3  
W n-1  
W n  
Hình 4. Đồ thcó hướng mô tmô hình HMM  
Như đã nói trên, thông thường trong mô hình HMM thut toán hay được sử  
dng để tìm dãy trng thái ti ưu là thut toán Viterbi [16]. Thut toán này da trên  
công thc truy hi (2.9) dưới đây:  
(t j )= max[i(tk )×P(w |t j )×P(t j |tk )]  
i+1  
i+1  
1kT  
(t j )= argmax[i(tk )× P(w |t j )×P(t j |tk )]  
(2.9)  
i+1  
i+1  
1kT  
Mt trong nhng bgán nhãn tiêu biu sdng phương pháp này là bgán nhãn  
TnT ca tác giThorsten Brants sdng phương pháp tri-gram, cho kết qu96.7% vi  
tp nhãn Penn TreeBank và bdliu WallStreet trong tiếng Anh [16]. QTAG là mt  
bgán nhãn da trên mô hình HMM do nhóm nghiên cu Corpus Research thuc  
trường đại hc tng hp Birmingham phát trin, cung cp min phí cho mc đích  
17  
nghiên cu. Mt đim ni tri ca QTAG là dù được xây dng cho tiếng Anh nhưng  
nó có thể được hun luyn để sdng cho các ngôn ngkhác [3]. Phương pháp xác  
sut còn được sdng để gán nhãn tloi trong rt nhiu ngôn ngkhác nhau, ví dụ  
vic áp dng mô hình HMM cho bài toán gán nhãn tloi tiếng Trung Quc đạt đến  
93.5 % trong nghiên cu ca các tác giGouDong Zhou và Jian Su [20]; Hai tác giả  
Fábio N.Kepler và Marcelo Finger cũng công bkết qusdng mô hình HMM để  
gán nhãn tloi cho tiếng Bồ Đào Nha vi kết qu93.48 % [18].  
Tuy nhiên, mc dù tính đến thi đim hin ti, đây là mt trong nhng phương  
pháp gán nhãn theo phương pháp xác sut thông dng nht được biết đến nhưng nó  
vn còn tim tàng nhng gii hn khó gii quyết. Adrew McCallum trong các nghiên  
cu ca mình [10] đã đưa ra hai vn đề mà các mô hình HMM truyn thng nói riêng  
và các mô hình sinh (generative models) nói chung gp phi khi gán nhãn cho dliu  
dng chui.  
Thnht, để có thtính được xác sut P(T, W) (2.1), thông thường ta phi lit  
kê hết các trường hp có thca chui T và chui W. Nếu như các chui T có  
thlit kê được vì slượng các trng thái là có hn thì trong nhiu ng dng ta  
không thnào lit kê hết được các chui W vì dliu quan sát là hết sc phong  
phú và đa dng. Để gii quyết vn đề này, HMM phi đưa ra githiết vsự độc  
lp gia các dliu quan sát, đó là dliu quan sát được ti thi đim i chphụ  
thuc trng thái ti thi đim đó. Tuy nhiên githiết này không có trong thế  
gii thc vì vy khi áp dng nó trong các hthng thc tế skhó tránh khi  
mt yếu tbt li như thiếu tính mm do, bsót thuc tính ...  
Vn đề thhai mà các mô hình sinh gp phi khi áp dng vào các bài toán phân  
lp dliu dng chui đó là chúng sdng xác sut đồng thi để mô hình hóa  
các bài toán có tính điu kin.Vi các bài toán này sthích hp hơn nếu ta dùng  
mt mô hình điu kin có thtính toán P(T|W) trc tiếp thay vì P (T,W) như  
trong công thc (2.1).  
Ngoài HMM, còn rt nhiu phương pháp xác sut khác có thsdng để gii  
quyết bài toán gán nhãn tloi nói chung và bài toán gán nhãn tloi tiếng Vit nói  
riêng, nhiu trong schúng có nhng ưu đim gii quyết được các hn chế ca mô  
hình HMM mà ta đã nói trên. Cùng vi đó, bên cnh các phương pháp hc máy xác  
sut, còn có các phương pháp hc máy khác, ví dphương pháp hc máy da trên độ  
đo, phương pháp sdng mng nơ ron nhân to, …. Các chương sau strình bày rõ  
hơn vba phương pháp hc máy tiêu biu đã đạt được kết qukhquan khi áp dng  
18  
cho bài toán gán nhãn tloi trong các ngôn ngkhác, đó là mô hình cc đại hóa  
Entropy MEM, mô hình min ngu nhiên điu kin CRF và mô hình máy véc tơ htrợ  
SVM.  
2.3. Phương pháp lai  
Đại din tiêu biu ca phương pháp lai là phương pháp da trên hc chuyn đổi  
(Transformation-Based learning TBL) [6], đây là mt phương pháp hc có giám sát,  
đòi hi mt tp ngliu đã được gán nhãn. Phương pháp này sdng đặc tính ca cả  
hai kiến trúc gán nhãn nói trên. Ging như bgán nhãn da trên lut, nó da vào lut  
để xác định khi mt tnhp nhng thì nó có khnăng là mt nhãn nào nht. Ging  
như bgán nhãn xác sut, nó có mt thành phn hc máy để to ra các lut mt cách  
tự động tmt bdliu hun luyn đã được gán nhãn trước.  
Ý tưởng chính ca thut toán này là bt đầu vi mt vài gii pháp đơn gin (hoc  
tinh vi) cho vn đề (gi là “baseline tagging”) và tng bước áp dng nhng lut biến  
đổi (lut chuyn) ti ưu (tìm ra ttp ngliu hun luyn đã được đánh du chính  
xác) để dn dn gii quyết vn đề (tc là chuyn tnhãn không chính xác sang nhãn  
chính xác). Quá trình này sdng li khi không còn lut chuyn ti ưu nào được la  
chn hoc đã hết dliu. Hình 5 cho ta mô hình tng quát ca phương pháp lai.  
Dliu chưa gán  
nhãn  
Trng thái bt  
đầu  
Dliu đã gán  
nhãn  
Stht”  
Bhc  
Các lut  
Hình 5. Mô hình tng quát ca phương pháp lai  
19  
Thut toán bao gm 5 bước [6]  
Bước 1: Gán nhãn cho tng tbng nhãn thông dng nht.  
Bước 2: Chn mt phép chuyn có tính quyết định thay thế nhãn đã gán bng  
nhãn mi mà kết quả đem li có hsố đánh giá li thp hơn (Đánh giá mt phép  
chuyn bng hsố đánh giá li thc cht là so sánh nó vi “stht”).  
Bước 3: Áp dng phép chuyn này cho ctp hun luyn.  
Bước 4: Thc hin li các bước trên  
Bước 5: Đưa ra kết qulà mt bgán nhãn mà nhãn đầu tiên sdng unigrams,  
sau đó áp dng phép chuyn đã được “hc” trên theo tht.  
Ví dvmt slut chuyn thường được áp dng cho phương pháp lai được cho  
bi bng 4 [6].  
Bng 4. Ví dvmt slut chuyn ca TBL cho tiếng Anh  
S
TT  
1
Chuyn nhãn  
Điu kin  
Ví dụ  
Cũ  
Mi  
NN  
VB  
Nhãn trước đó là TO  
To/TO race/NNVB  
2
VBP VB  
1 trong 3 nhãn trước đó là MD Might/MD vanish/VBPVB  
1 trong 2 nhãn trước đó là DT Might/MD not reply/NNVB  
1 trong 3 nhãn trước đó là VBZ  
3
NN  
VB  
VB  
NN  
4
5
VBD VBN  
Ví d: Xét t“race” trong hai câu dưới đây  
- It is expected to race tomorrow.  
- The race for outer space.  
Thut toán sthc hin như sau:  
Đầu tiên, gán nhãn tt ccác t“race” là NN (nhãn thường gp nht trong tp  
ngliu Brown corpus). Tc là:  
“It is expected to race/NN tomorrow”  
“The race/NN for outer space”  
20  
Sau đó, sdng lut biến đổi để thay thế các nhãn NN bng VB cho tt ccác  
t“race” mà đứng trước nó là từ được gán nhãn TO. Tc là:  
“It is expected to race/VB tomorrow”  
“The race/NN for outer space”  
Đại din tiêu biu cho phương pháp này là bgán nhãn tloi Brill’s (được xây  
dng bi Eric Brill) sdng cho tiếng Anh, đây là mt bgán nhãn rt thông dng vì  
các ưu đim ca nó như min phí, đem li kết qukhá khquan (Độ chính xác là  
96.6% cho tp ngliu Wall Street Journal).  
2.4. Các nghiên cu liên quan ti Vit Nam  
Bài toán gán nhãn tloi cho tiếng Vit bt đầu được quan tâm khá mun so vi  
tiếng Anh, tuy gp phi không ít khó khăn vì nhng đặc trưng phc tp riêng ca tiếng  
Vit, nhưng vic nghiên cu li có mt li thế rt ln là tiếp thu được nhng thành quả  
nghiên cu đã được áp dng cho tiếng Anh nói riêng và trên thế gii nói chung. Phn  
này sẽ đim qua mt vài nghiên cu tiêu biu liên quan đến bài toán gán nhãn tloi  
tiếng Vit.  
2.4.1. Các nghiên cu da trên phương pháp hlut  
Nhm phát huy tác dng hu ích ca phương pháp da trên hlut khi được sử  
dng bng cách kết hp bsung vi các phương pháp khác, nhóm nghiên cu gm các  
tác giNguyn Quang Châu, Phan ThTươi, Cao Hoàng Trụ đã đề xut mt phương  
pháp gán nhãn tloi cho Tiếng Vit da trên văn phong và tính toán xác sut [2].  
Nhóm tác gixây dng mt hthng kết hp bgán nhãn tri-gram và bgán nhãn da  
trên văn phong. Phương pháp gán nhãn tloi da trên văn phong thc cht là căn cứ  
vào cách thhin ca văn bn trong mt ngcnh cthể để xác định tloi cho các  
t, điu này bao hàm vic xác định phi đảm bo các lut văn phm ca các ttrong  
câu. Để xây dng hthng lut này, nhóm tác gida vào JAPE (Java Annotation  
Patterns Engine), hthng lut gm trên 270 lut để xác định cho 48 tloi (danh từ  
riêng, đại txưng hô, danh tloi th, ...) và các lut để xác định các kiu ngày tháng  
năm (date). Phương pháp da trên văn phong áp dng các lut xác định danh triêng,  
trên cơ scác danh triêng được xác định, tiếp tc áp dng các lut để xác định 48  
nhãn tloi còn li.  
21  

Tải về để xem bản đầy đủ

pdf 68 trang yennguyen 17/06/2025 520
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_so_sanh_mot_so_phuong_phap_hoc_may_cho_bai_toan_ga.pdf