Luận văn Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh - Việt

TRƯỜNG ĐẠI HC KHOA HC TNHIÊN  
KHOA CÔNG NGHTHÔNG TIN  
BMÔN CÔNG NGHTRI THC  
BÙI THANH HUY  
- 9912567  
LÊ PHƯƠNG QUANG - 9912653  
NGHIÊN CU VÀ CÀI ĐẶT  
BGÁN NHÃN TLOI  
CHO SONG NGANH-VIT  
LUN VĂN CNHÂN TIN HC  
GIÁO VIÊN HƯỚNG DN  
GS.TSKH HOÀNG KIM  
NIÊN KHÓA 1999 - 2003  
`
Nhn xét ca giáo viên hướng dn  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
TP. HChí Minh, ngày…. tháng ….năm 2003  
Giáo viên hướng dn  
GS.TSKH Hoàng Kiếm  
`
Nhn xét ca giáo viên phn bin  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
….…………………………………………………………………………………………………………  
TP. HChí Minh, ngày…. tháng ….năm 2003  
Giáo viên phn bin  
`
Li cm ơn.  
Đầu tiên, chúng em xin chân thành cm ơn thy giáo  
hướng dn, GS.TSKH Hoàng Kiếm, người đã tn tình  
hướng dn bn em trong sut quá trình làm lun văn. Đồng  
thi, chúng em xin gi li cm ơn đến các thy cô trong  
khoa Công NghThông Tin trường Đại hc Khoa Hc Tự  
Nhiên đã truyn đạt rt nhiu kiến thc quý báu cho chúng  
em.  
Chúng em cũng mun cm ơn nhng người thân  
trong gia đình đã động viên, giúp đỡ và to điu kin để  
chúng em có thhoàn thành tt lun văn này.  
Cui cùng, chúng em xin gi li cm ơn thy Đinh  
Đin và các bn trong nhóm VCL đã giúp đỡ và htrợ  
chúng em rt nhiu để hoàn thành lun văn này.  
Tp. HChí Minh, 7-2003  
Bùi Thanh Huy - Lê Phương Quang.  
`
Mc lc  
Mc lc............................................................................................ ii  
Danh sách các hình........................................................................ vi  
Li nói đầu .................................................................................... vii  
Chương 1: Tng quan .................................................................... 1  
1.1 Gii thiu ............................................................................................... 2  
1.2 Tng quan vgán nhãn tloi ............................................................ 3  
1.2.1 Gán nhãn tloi là gì?..................................................................... 3  
1.2.2 Vai trò ca gán nhãn tloi............................................................. 4  
1.3 Các vn đề gp phi và hướng gii quyết trong bài toán gán nhãn  
tloi................................................................................................................ 6  
1.3.1 Các vn đề gp phi khi gii quyết bài toán .................................... 6  
1.3.2 Hướng gii quyết.............................................................................. 7  
1.4 Bcc ..................................................................................................... 8  
Chương 2: Cơ slý thuyết............................................................. 9  
2.1 Máy hc và xlý ngôn ngtnhiên................................................. 10  
2.1.1 Hướng tiếp cn thng kê................................................................ 11  
2.1.2 Hướng tiếp cn theo biu trưng ..................................................... 12  
2.1.2.1 Cây quyết định:...................................................................................12  
2.1.2.2 Danh sách quyết định..........................................................................13  
2.1.2.3 Phương pháp hc hướng li da trên các lut biến đổi trng thái  
(TBL) 13  
2.1.3 Hướng tiếp cn thay thế biu trưng ............................................... 14  
2.1.3.1 Mng Neural .......................................................................................14  
2.1.3.2 Thut toán di truyn ( Genetic Algorithm : GA) ................................14  
2.2 Mt sgii thut áp dng cho bài toán gán nhãn tloi ............... 15  
2.2.1 Gii thut hc chuyn đi da trên lut ci biến (TBL)................ 15  
2.2.1.1 Sơ đồ ca gii thut TBL....................................................................17  
2.2.1.2 Mô thot động ca gii thut............................................................17  
2.2.1.3 Trình bày gii thut.............................................................................20  
`
2.2.1.4 Kết lun:..............................................................................................21  
2.2.2 Mô hình mng neural..................................................................... 22  
2.2.2.1 Gii thiu: ...........................................................................................22  
2.2.2.2 Mng neural:.......................................................................................22  
2.2.2.3 Gii thut gán nhãn tloi da trên mng neural...............................25  
2.2.2.4 Từ đin:...............................................................................................27  
2.2.3 Mô hình Maximum Entropy (ME): ............................................... 28  
2.2.3.1 Gii thiu: ...........................................................................................28  
2.2.3.2 Các đặc trưng ca gán nhãn tloi:....................................................29  
2.2.3.3 Mô hình kim tra:................................................................................33  
2.2.4 Mô hình TBL nhanh (FnTBL)....................................................... 34  
2.2.4.1 Gii thiu gii thut FnTBL: ..............................................................34  
2.2.4.2 Tính đim và phát sinh lut:................................................................36  
2.2.4.3 Gii thut FnTBL:...............................................................................39  
Chương 3: Mô hình ...................................................................... 41  
3.1 Mt skhái nim sdng trong mô hình: ....................................... 42  
3.1.1 Ngliu(Corpus): .......................................................................... 42  
3.1.2 Ngliu vàng(Golden Corpus)...................................................... 44  
3.1.3 Ngliu hun luyn(Training corpus): ......................................... 45  
3.2 Mt smô hình kết hp hin nay:..................................................... 46  
3.2.1 Mô hình kết hp sdng nhiu mô hình liên kết.......................... 47  
3.2.2 Phương pháp kết hp da trên tính đim cho các nhãn ng viên.. 48  
3.2.3 Phương pháp kết hp da trên gi ý ca ngcnh. ...................... 50  
3.2.4 Phương pháp kết hp da trên tính kế tha kết quca gii thut  
TBL  
51  
3.3 Mô hình gán nhãn tloi da trên song ngAnh-Vit.................. 52  
3.3.1 Sơ đồ hot động ca mô hình: ....................................................... 55  
3.3.1.1 Ngliu hun luyn:...........................................................................56  
3.3.1.2 Quá trình khi to:..............................................................................58  
3.3.1.3 Quá trình hun luyn:..........................................................................58  
3.3.1.4 Quá trình gán nhãn tloi trên cp câu song ng..............................61  
3.3.2 Thut gii ....................................................................................... 63  
3.3.3 Khung lut (Template):.................................................................. 64  
3.3.4 Ci tiến ........................................................................................... 66  
3.3.5 Chiếu sang tiếng Vit..................................................................... 67  
Chương 4: Cài đặt thnghim và đánh giá kết qu................. 70  
`
4.1 Cài đặt.................................................................................................. 71  
4.1.1 Cài đặt bgán nhãn tloi da trên mô hình kết hp FnTBL và  
ME.  
71  
4.1.2 Cài đặt bgán nhãn tloi có sdng thông tin tiếng Vit. ........ 72  
4.1.3 Cài đặt mô hình chiếu tloi ttiếng Anh sang tiếng Vit .......... 73  
4.2 Thnghim.......................................................................................... 74  
4.2.1 Thnghim vi các mô hình khi to khác nhau. ....................... 74  
4.2.1.1 Kết quthnghim dùng Unigram là gii thut gán nhãn cơ s. ......75  
4.2.1.2 Kết quthnghim vi nhãn khi to ca mô hình Markov n .......78  
4.2.1.3 Kết quthnghim dùng Maximum Entropy làm gii thut gán nhãn  
cơ s. 81  
4.2.2 Thnghim vi các khung lut khác nhau cho gii thut TBL  
nhanh 84  
4.2.3 Kết qugán nhãn tloi khi dùng thông tin tiếng Vit................. 85  
4.3 Nhn xét............................................................................................... 85  
Chương 5: Tng kết ..................................................................... 86  
5.1 Kết quả đạt được................................................................................. 87  
5.2 Hn chế ................................................................................................ 88  
5.3 Hướng phát trin: ............................................................................... 89  
Phlc A:Các tp nhãn ca Penn Tree Bank ........................... 90  
Phlc B: Bnhãn tloi tiếng Vit. ........................................ 92  
Phlc C: Bng ánh xtloi ttiếng Anh sang tiếng Vit... 93  
Phlc D: Mt slut chuyn đổi.............................................. 95  
Phlc E: Kết qugán nhãn tloi trong mô hình kết hp  
không dùng thông tin tiếng Vit.................................................. 97  
Phlc F: Kết qugán nhãn tloi trong mô hình kết hp có  
dùng thông tin tiếng Vit ............................................................. 99  
`
Tài liu tham kho................................................................... 102  
`
Danh sách các hình  
Hình 1-1: Các giai đon ca dch máy ....................................................................2  
Hình 2-1: Sơ đồ hot động ca gii thut TBL. ...................................................17  
Hình 2-2: Mô tquá trình hun luyn ca gii thut TBL.................................19  
Hình 2-3:Mng lan truyn 2 lp ............................................................................23  
Hình 2-4: Cu trúc ca mô hình gán nhãn ...........................................................25  
Hinh 2-5: Cây từ đin trong mô hình mng. .......................................................27  
Hình 3-1: Cây cú pháp trong ngliu...................................................................43  
Hình 3-2: Sơ đồ hot động ca mô hình gán nhãn tloi trên ngliu song  
ngAnh-Vit. ..................................................................................................55  
Hình 3-4: Mô hình hun luyn cho nhãn tiếng Anh ............................................60  
Hình 3-5: Mô hình gán nhãn cho tiếng Anh trong ngliu song ngAnh-Vit  
...........................................................................................................................61  
Hình 4-1: Sơ gán nhãn cho mô hình kết hp........................................................71  
Hình 4-2: Sơ đồ mô hình gán nhãn sdng thông tin tiếng Vit.......................72  
Hình 4-3: Sơ đồ mô hình chiếu tloi sang tiếng Vit........................................73  
`
Li nói đầu  
Ngày nay, khi khoa hc công nghphát trin hết sc mnh m, yêu  
cu nm bt thông tin vkhoa hc, kthut, công nghnhanh chóng và  
chính xác là hết sc cn thiết. Hin nay, đa scác tài liu đều được viết bng  
tiếng Anh. Do đó, vic chuyn các tài liu này vtiếng Vit là điu rt cn  
thiết. Nếu làm được điu này, mi người sđược nhiu cơ hi tiếp cn vi  
các thông tin tri thc mi. Nhưng công vic này tương đối khó khăn mc dù  
hin nay có khá nhiu hdch tự động ( như dch trc tiếp, dch qua ngôn  
ngtrung gian, dch da trên lut hoc dch da trên thng kê…) nhưng đa  
scác các hdch này đều chưa đạt kết qucao. Do đó, vic ci tiến cht  
lượng các hdch máy luôn được quan tâm. Hin nay, hdch máy da trên  
chuyn đổi cú pháp được đánh giá khá cao. Hdch máy này bao gm khá  
nhiu giai đon như tin xlý, gán nhãn tloi, phân tích hình thái, phân  
tích cú pháp, chuyn đổi trt tt, xlý ngnghĩa,…  
Dch máy là mt qui trình tương đối phc tp, do vy, trong lun văn  
này chúng tôi chtp trung gii quyết mt bài toán trong hdch máy này, đó  
là giai đon gán nhãn tloi. Đây là mt bước cơ s, làm nn tng cho các  
giai đon sau. Kết quca vic gán nhãn tloi sẽ ảnh hưởng ti các giai  
đon khác. Trong lun văn này, ngoài vic cgng ci tiến kết quca gán  
nhãn tloi, chúng tôi còn sdng các thông tin có được sau khi gán nhãn  
tloi để xây dng mt ngliu vtloi cho tiếng Vit. Nó sgiúp tiết  
kim rt nhiu thi gian và chi phí trong vic xây dng ngliu tiếng Vit,  
và ngliu được to ra slà ngun dliu vô cùng quý giá phc vcho các  
mc đích nghiên cu vtiếng Vit khác.  
`
Chương 1  
Tng quan  
Chương 1: Tng quan  
Trong chương này, chúng ta stìm hiu tng quan vgán nhãn tloi  
và tm quan trng ca gán nhãn tloi trong xlý ngôn ngtloi nói  
chung và dch máy nói riêng.  
1.1 Gii thiu  
Ttrước đến nay, dch máy luôn là mt bài toán rt khó do ngôn ngữ  
tnhiên rt phc tp. Mc dù cho đến nay đã có rt nhiu ci tiến nhm tăng  
cht lượng dch máy nhưng kết quả đạt được vn còn tương đối hn chế.  
Dch máy là mt quá trình khá phc tp, gm nhiu giai đon khác  
nhau như tin xlý, gán nhãn tloi, phân tích cú pháp, chuyn đổi cú pháp,  
xlý ngnghĩa… Các giai đon này đều nh hưởng rt ln đến kết quca  
quá trình dch máy.  
Gán nhãn tloi là mt giai đon khá quan trng trong dch máy. Nó  
nh hưởng to ln đến kết quca các giai đon sau nó cũng như kết quả  
dch máy. Vic gán nhãn tloi chính xác không nhng nh hưởng đến kết  
quca dch máy, nó còn nh hưởng rt ln đến kết quca các bài toán  
khác trong xlý ngôn ngtnhiên, khai khoán dliu như bài toán tìm từ  
đồng nghĩa, gn nghĩa, bài toán trích chn thông tin, bài toán phân loi, làm  
chmc…  
Vtrí ca gán nhãn tloi trong hdch máy da trên chuyn đổi cú  
pháp:  
Tin xử  
Phân tích  
hình thái  
Phân tích  
cú pháp  
Xlý ngữ  
nghĩa  
Văn bn  
nhp  
lý  
Kết quả  
dch  
Chuyn đỗi  
cú pháp  
Gán nhãn  
tloi  
Hình 1-1: Các giai đon ca dch máy  
2
Chương 1: Tng quan  
1.2 Tng quan vgán nhãn tloi  
1.2.1 Gán nhãn tloi là gì?  
Để hiu rõ hơn vgán nhãn tloi là gì thì trước tiên, chúng ta cn  
phi biết mt skhái nim vnhãn tloi. Vy nhãn tloi là gì?  
Trong mt câu, mi từ đóng mt vai trò nht định. Để thhin chc  
năng ngpháp ca mi t, người ta sdng nhãn tloi. Ví dnhư trong  
câu tiếng Anh sau:  
I want to book a book.  
T“book” có hai nhãn tloi là động tvà danh t.  
Hoc trong câu tiếng Vit sau:  
Tôi đi hc.  
thì nhãn tloi ca t“tôi” là đại t, “đi hc” là động từ  
Trong lun văn này, chúng tôi chtp trung vào vic gán nhãn cho câu  
tiếng Anh. Do đó, trong phn này chúng tôi schỉ đề cp các nhãn tloi  
cho tiếng Anh.  
Hin nay trên thế gii có khá nhiu bnhãn tloi. Trong lun văn  
này, chúng tôi sdng bnhãn ca Pen Tree Bank, môt bnhãn khá phổ  
biến hin nay. Dưới đây là mt snhãn trong bnhãn này :  
IN  
JJ  
Gii t(Preposition or subordinating conjunction)  
Tính t(Adjective)  
NN Danh t, sít hay không đếm được(Noun, singular or mass)  
NP Danh triêng sít(Proper noun, singular)  
RB  
VB  
Trng t(Adverb)  
Động tdng nguyên thkhông “to”(Verb, base form)  
VBP Động tkhông phi ngôi 3 sít hin t(Verb, non-3rd person  
singular present )  
(Tham kho thêm phn phlc A ).  
Trong mt câu, mi từ đóng mt vai trò ngpháp khác nhau, do đó  
tutheo ngcnh trong câu mà mi tcó mt loi nhãn thích hp. Nhưng để  
3
Chương 1: Tng quan  
xác định được nhãn tloi ca các ttrong mt câu không đơn gin, do đa  
scác từ đều có nhiu tloi khác nhau, tuvào ngcnh mà chúng ta có  
thchn nhãn tloi thích hp cho t. Đây chính là công vic chyếu ca  
gán nhãn tloi, tìm nhãn tloi chính xác cho các ttrong mt câu.  
1.2.2 Vai trò ca gán nhãn tloi  
Gán nhãn tloi là mt giai đon trong quá trình dch máy. Kết quả  
ca gán nhãn tloi sẽ ảnh hưởng rt ln đến các giai đon khác.  
Chng hn như đối vi vic chuyn đổi trt ttttiếng Anh sang  
tiếng Vit ( đây là mt công vic hết sc quan trng trong quá trình dch  
máy), nếu tloi ca các ttrong câu được đánh chính xác thì vic chuyn  
trt ttstt hơn. Ví dnhư trong cm danh tsau:  
Tiếng Anh: A good book  
Câu dch : Mt hay cun sách.  
Tiếng Vit: Mt cun sách hay.  
Trong ví dtrên, t“good” nm trước t“book” nhưng khi dch ra  
tiếng Vit, ta phi đảo trt thai tnày thì câu tiếng Vit mi có ý nghĩa.  
Chính vì skhác nhau vtrt ttnày nên khi dch ttiếng Anh sang tiếng  
Vit, cn phi có sthay đổi trt ttcho thích hp. Công vic chuyn đổi  
này da trên nhãn tloi và cây cú pháp ca tiếng Anh. Nếu gii quyết tt  
vn đề gán nhãn tloi thì vic chuyn đổi sgp ít khó khăn hơn và kết quả  
đạt được stt hơn.  
Hoc đối vi vn đề xlý ngnghĩa ( chn nghĩa đúng cho mt ttuỳ  
theo ngcnh), tloi ca tnh hưởng rt ln. Ta thxét ví dsau:  
I want to book two books.  
Trong câu trên, mc dù hai t“book” ging nhau nhưng chúng có vai  
trò ngpháp và ngnghĩa khác nhau. Do đó, mun chn nghĩa chính xác  
cho tng tthì ta phi biết tloi ca từ đó. Nếu nhãn tloi bị đánh sai thì  
sdn đến vic chn nghĩa cho tsai hoàn toàn.  
4
Chương 1: Tng quan  
Ngoài ra, mt ng dng khác ca gán nhãn tloi là sdng các  
thông tin đã có bên tiếng Anh để gán nhãn tloi cho câu tiếng Vit. Đây  
cũng là mt phn ca lun văn này.  
Hin nay, khi công nghthông tin phát trin và các công trình nghiên  
cu vngôn ng, đặc bit là tiếng Vit, ngày càng phát trin thì vic xây  
dng mt kho ngliu bao gm các thông tin vtiếng Vit hết sc cn thiết.  
Vi mc đích đó, chương trình gán nhãn ngoài vic gán nhãn tloi cho  
tiếng Anh còn sdng các thông tin vnhãn tloi tiếng Anh đã có được  
kết hp vi các thông tin ca tiếng Vit để gán nhãn tloi cho câu tiếng  
Vit.  
Mun thc hin được điu này thì dliu đầu vào ca ta cn có mt  
câu tiếng Anh đã được gán nhãn và mt câu tiếng Vit đã được dch tương  
ng vi câu tiếng Anh trên. Nhãn tloi trên câu tiếng Anh sẽ được ly từ  
kết quca chương trình. Như ví dsau:  
Câu tiếng Anh: I draw a picture.  
Câu tiếng Anh đã được gán nhãn tloi: I/PRP draw/VBP a/DT  
picture/NN1  
Câu tiếng Vit: Tôi vmt bc tranh.  
Mc đích cn đạt được chính là câu tiếng Vit được gán nhãn tnhư  
sau:  
Tôi/P v/V mt/DT bc_tranh/N  
Trong đó P là đại t, V là động t, DT là mo t, N là danh t. Các  
nghiên cu ca các nhà ngôn nghc đã cho thy gia các ngôn ngluôn có  
mt liên quan ln nhau vcu trúc, tloi, ... Do đó, vic chuyn đổi có thể  
thc hin được nếu áp dng mt squy tc ánh xvstương ng gia các  
ngôn ng.  
Bên cnh đó, để thc hin được vic này thì các ttiếng Anh phi  
được liên kết vi các ttiếng Vit thông qua mi liên kết t. Ví dnhư câu  
trên là:  
1 Các nhãn sdng trong câu thuc bnhãn tloi ca Penn Tree Bank, tham khao thêm phlc A  
5
Chương 1: Tng quan  
I --- > Tôi  
Draw--------- >vẽ  
A ----------- > mt  
Picture ----------- > bc tranh.  
Công vic này được thc hin qua vic sdng mô hình tìm liên kết  
tcho song ngAnh-Vit, cthể ở đây là mô hình thng kê.  
Bên cnh đó, gán nhãn tloi còn được áp dng trên nhiu lĩnh vc  
khác. Trong các ng dng trích chn thông tin, vic gán nhãn tloi giúp  
cho quá trình tìm kiếm thông tin tt hơn. Ngoài ra chúng ta còn có tháp  
dng gán nhãn tloi vào các bài toán phân loi trong khai khoáng dliu,  
bài toán tìm từ đồng nghĩa, tgn nghĩa shiu quhơn.  
Trong mc độ ca mt lun văn, do thi gian có hn nên chúng tôi chỉ  
tp trung vào vic gán nhãn tloi cho các câu tiếng Anh. Sau đó, da trên  
mi liên kết tgia tiếng Anh và tiếng Vit để ánh xtloi ca ttiếng  
Anh sang cho ttiếng Vit. Từ đó, chúng ta có thxây dng mt ngliu về  
tloi cho tiếng Vit.  
1.3 Các vn đề gp phi và hướng gii quyết trong bài  
toán gán nhãn tloi  
1.3.1 Các vn đề gp phi khi gii quyết bài toán  
Khi thc hin bài toán gán nhãn tloi, ta gp phi mt skhó khăn.  
Khó khăn này chyếu là do các tthường có nhiu hơn mt tloi.  
Ta hãy xét câu sau:  
I can can a can.  
Trong câu này, ta thy để xác định chính xác nhãn ca t“can” là mt  
vic khá khó khăn. T“can” ở đây có ba tloi là trợ động t(MD), động từ  
(VB), danh t(NN) tương ng vi các vtrí trong câu. Do đó, câu được gán  
nhãn tloi đúng như sau:  
I/PRP can/MD can/VB a/DT can/DT.  
6
Chương 1: Tng quan  
Vn đề đặt ra ca gán nhãn tloi ở đây là gii quyết nhp nhng đối  
vi các tcó nhiu tloi, làm thế nào xác định chính xác nhãn ca từ đó  
trong câu.  
1.3.2 Hướng gii quyết  
Hin nay, trên thế gii đã có rt nhiu hướng tiếp cn cho vn đề này  
như Unigram, N-gram, mô hình Markov n, Maximum-Entropy, TBL… Mi  
gii thut đều có nhng ưu khuyết đim riêng. Đồng thi, kết quca các  
gii thut này tương đối cao. Do đó, nếu chúng ta làm li tt ctừ đầu thì sẽ  
tn rt nhiu thi gian và công sc. Ngoài ra, do được phát trin tlâu nên  
các hướng tiếp cn ca này đã khai thác toàn bcác thông tin có trong tiếng  
Anh để htrcho vic gán nhãn tloi. Nếu làm li, chúng ta skhó đạt kết  
qucao hơn các mô hình trước đã làm được. Do đó, trong lun văn này,  
hướng gii quyết ca chúng tôi là kế tha các kết quả đã đạt được. Đồng  
thi, chúng ta stn dng ưu đim ca các gii thut đó để to ra mt mô  
hình mi, mt mô hình kết hp các gii thut khác nhau vi nhau. Mô hình  
kết hp này skhai thác trit để các ưu đim ca mi gii thut có trong mô  
hình. Bên cnh đó, chúng tôi còn sdng thêm các thông tin ca tiếng Vit  
để ci tiến cht lượng ca bgán nhãn tloi. Đó là các thông tin vtvà từ  
loi ca ttiếng Vit tương ng vi ttiếng Anh đang xét. Các thông tin này  
được rút ra ttừ đin và thông qua mi liên kết tgia tiếng Anh và tiếng  
Vit.  
Sau mt thi gian nghiên cu vcác hướng kết hp đã có. Chúng tôi  
quyết định sdng mô hình được kết hp bi hai gii thut Maximum  
Entropy (mt mô hình tiếp cn theo hướng xác sut thng kê) ca Adwait  
Ratnaparkhi và TBL nhanh2 (mt mô hình tiếp cn theo hướng biu trưng)  
ca hai nhà khoa hc Radu Florian and Grace Ngai. Bên cnh đó, chúng tôi  
có kết hp sdng các thông tin ca tiếng Vit như tloi, ngnghĩa để làm  
2 Các gii thut này sẽ được trình bày cthể ở chương 2  
7
Chương 1: Tng quan  
tăng kết quchương trình. Sau khi chúng ta có được kết qugán nhãn tloi  
chính xác trên tiếng Anh chúng tôi sthông qua mi lin kết tgia tiếng  
Anh và tiếng Vit để chn nhãn tloi cho ttiếng Vit để to nên mt ngữ  
liu chính xác vtloi ca tiếng Vit.  
1.4 Bcc  
Lun văn được chia làm 5 phn.  
Chương 1: Tng quan. Trình bày khái quát vdch máy và khái quát  
công vic cn làm. Các vn đề gp phi trong bài toán gán nhãn tloi và  
gii hn vn đề.  
Chương 2: Cơ slý thuyết. Trình bày cơ slý thuyết ca chương  
trình. Chương này sgii thiu mt shướng tiếp cn cho bài toán này.  
Đồng thi sphân tích ưu khuyết đim ca chúng.  
Chương 3: Mô hình. Đây chính là trng tâm ca lun văn. Chương  
này strình bày vmô hình được sdng trong chương trình, bao gm thut  
gii, các khung lut và các ci tiến ca mô hình.  
Chương 4: Cài đặt thc tin. Trình bày các kết quthc tin đạt được  
ca chương trình. Đồng thi, đánh giá, phân tích các kết quả đạt được.  
Chương 5: Kết lun. Chương này stóm tt li nhng gì đã làm được  
trong và nhng hn chế ca chương trình. Bên cnh đó sẽ đưa ra hướng phát  
trin cho chương trình.  
8
Chương 2  
Cơ slý thuyết  
Chương 2:Cơ slý thuyết  
Trong chương này, chúng tôi strình bày các cơ slý thuyết và các  
hướng tiếp cn trước đây ca mô hình gán nhãn tloi.  
2.1 Máy hc và xlý ngôn ngtnhiên  
Trong nhng năm gn đây, xlý ngôn ngtnhiên đã có mt sự  
chuyn biến đột ngt tvic xây dng cơ stri thc vngôn ngmt cách  
thcông sang tự động hóa tng phn hoc toàn phn bng cách sdng các  
phương pháp hc, thng kê trên các tp ngliu ln. Schuyn biến này bt  
ngun tcác nguyên nhân sau:  
¾ Sxut hin ngày càng nhiu các tp ngliu hc ln cho máy  
tính tnhiu ngun và trên nhiu ngôn ngkhác nhau, ví dụ  
như Penn Tree Bank, Susanne, Brown, …  
¾ Sphát trin mnh phn cng máy tính, cho phép xlý vi  
mt slượng ln thông tin và vi các thut toán có chi phí  
(thi gian, bnh) cao.  
¾ Sthành công bước đầu ca các mô hình thng kê trong vic  
gii quyết mt svn đề ngôn ngnhư nhn dng tiếng nói,  
gán nhãn tloi, phân tích cú pháp, dch tự động song ngữ  
Anh-Vit, liên kết t...  
¾ Sxut hin và phát trin ca mt slượng ln các gii thut  
trong xlý ngôn ngtnhiên, cùng vi skhó khăn trong vic  
xây dng cơ stri thc cho các phương pháp trước đây, đã làm  
cho các phương pháp trước đây không còn phù hp vi yêu cu  
hin nay na.  
Các thng kê trong thi gian gn đây cho thy xu hướng phát trin  
trong lĩnh vc xlý ngôn ngtnhiên: vào năm 1990 chcó 12,8% các công  
trình công bố ở hi nghhng năm ca tchc ngôn nghc máy tính  
(Proceedings of Annnual Meeting of the Association for Computational  
Linguistics) và 15,4% công trình đăng trên tp chí Ngôn nghc máy tính  
10  
Chương 2:Cơ slý thuyết  
(Computational Linguistics) liên quan dến hướng nghiên cu sdng tp dữ  
liu, các con snày vào năm 1997 ln lượt là 63,5% và 47,7%.  
Vsau, các phương pháp thng kê áp dng cho vic xlý ngôn ngữ  
tnhiên ngày càng phát trin. Các phương pháp này đặc bit phù hp cho  
vic rút trích tri thc tvng và khnhp nhng, bên cnh đó là các nghiên  
cu ng dng cho vic suy din ngpháp, phân tích thô, xlý ngnghĩa,  
chuyn đổi cú pháp...  
Các phương pháp máy hc được áp dng trong lĩnh vc xlý ngôn  
ngtnhiên được phân loi như sau:  
¾ Hướng tiếp cn theo thng kê (stochastic approach).  
¾ Hướng tiếp cn theo biu trưng (symbolic approach): hc theo ví dụ  
(instance – based learning), cây quyết định (decision tree), logic quy  
np (inductive logic), phân tách tuyến tính theo ngưỡng (threshold  
linear separator)... Trong các phương pháp này, đáng chú ý nht ; là  
phương pháp hc da trên các lut chuyn đổi (TBL – Transformation  
Based Learning). Phương pháp này cho phép đưa ra tp các khung  
lut tng quát có thgii quyết các vn đề nhp nhng tương tnhau  
(như trong bài toán gán nhãn tloi).  
¾ Hướng tiếp cn theo biu trưng thay thế (sybsymbolic approach):  
mng nơ-ron (neural network), thut toán di tuyn (genetic  
algorithm), ...  
¾ Các hướng khác: hc không giám sát (unsupervised approach) và  
hướng các tiếp cn kết hp.  
2.1.1 Hướng tiếp cn thng kê  
Hướng tiếp cn thng kê được xem là mt hướng tiếp cn mô tquá  
trình thế gii thc to ra dliu quan sát được. Các mô hình trong hướng  
tiếp cn thng kê thường được thhin dưới dng mt mng thng kê các  
mi quan hphthuc gia các biến ngu nhiên. Mi nút ca mng có mt  
11  
Chương 2:Cơ slý thuyết  
phân phi, và tnhng phân phi này chúng ta cgng tìm ra các phân phi  
chung ca dliu quan sát. Các hướng tiếp cn khác nhau ca phương pháp  
này xut phát tcách to ra mng thng kê và cách kết hp các phân phi  
ca mi nút.  
Có khá nhiu mô hình trong hướng tiếp cn này được áp dng trong  
lĩnh vc xlý ngôn ngtnhiên. Ví dnhư mô hình phân loi Bayes ngây  
thơ (Naïve Bayes classifier), nguyên lý hn lon cc đại (Maximum Entropy  
Principle), mô hình Markov n (Hidden Markov model). Các mô hình này  
được áp dng để gii quyết nhiu bài toán trong xlý ngôn ngtnhiên  
như : sa li chính ttheo ngcnh, gán nhãn tloi, nhn dng mnh đề,  
nhn dng tiếng nói …  
Hin nay trong bài toán gán nhãn tloi thì hướng tiếp cn thng kê  
được xem là mt trong nhng hương tiếp cn có kết qucao. Trong lun văn  
chúng tôi có sdng mt trong các hướng tiếp cn này là Maximum Entropy  
2.1.2 Hướng tiếp cn theo biu trưng  
Tiếp cn theo biu trưng gm mt shướng sau đây  
2.1.2.1 Cây quyết định:  
Các phương pháp da trên cây quyết định được áp dng vào vic hc  
giám sát các mu là mt trong nhng cách tiếp cn thông dng ca trí tuệ  
nhân to để gii quyết các bài toàn vphân lp. Phương pháp cây quyết định  
hc da trên vic xp xhàm đích có giá trri rc mà trong đó hàm hc  
được biu din bng cây quyết định. Phương pháp này hc trên mt tp thc  
thể đã được phân lp ttrước và kết qunhn được là mt tp các câu hi  
dùng để phân loi các thc thmi. Nó scgng la chn các câu hi sao  
cho sphân loi các thc ththành các tp con mà trong đó các tp con  
thun nht nht. Quá trình phân chia các thc thli tiếp tc trên các tp con  
chưa thun nht cho đến khi tt ccác tp con đều thun nht. Các cây quyết  
định được dùng để lưu trcác lut được rút ra trong quá trình hc dưới dng  
12  
Chương 2:Cơ slý thuyết  
các cu trúc phân cp tun t, qua đó phân hoch dliu mt cách đệ quy.  
Cây quyết định đã được áp dng tlâu trong các ng dng trong các lĩnh vc  
như : thng kê, nhn dng dng mu, lý thuyết quyết định và xlý tín hiu  
s. Trong các ng dng này, cây quyết định được dùng để thao tác trên dữ  
liu vi mc đích mô tphân loi và tng quát hoá.  
Trong lĩnh vc xlý ngôn ngtnhiên, ng dng ca cây quyết định  
cũng rt đáng chú ý trong vic xlý nhp nhng trong các bài toán gán nhãn  
tloi, phân tích cú pháp, phân loi tài liu …  
2.1.2.2 Danh sách quyết định  
Danh sách quyết định bao gm mt danh sách các lut kết hp có thứ  
t, các lut kết hp này sẽ được áp dng vào dliu bng cách kim tra xem  
trong danh sách các lut, lut phù hp đầu tiên sẽ được chn. phương pháp  
này phù hp cho các lĩnh vc cn tránh sphân mnh dliu.  
Trong xlý ngôn ngư tnhiên, phương pháp này được áp dng để  
gii quyết các nhp nhng vmt tvng  
2.1.2.3 Phương pháp hc hướng li da trên các lut biến đổi trng thái  
(TBL)  
Phương pháp TBL được gii thiu bi Eric Brill, thuc đại hc  
Pennsylvania, vào năm 1993. Hin nay phương pháp này là mt trong nhng  
phương pháp được áp dng rng rãi trong các lĩnh vc ca xlý ngôn ngtự  
nhiên. Trong quá trình hun luyn, phương pháp này stiến hành to ra các  
lut ng viên da trên các mu lut cho trước, các lut úng viên này sẽ được  
tính đim da trên strường hp lut chnh ngliu tsai thành đúng và từ  
đúng thành sai. Các lut có đim cao sẽ được gili cho vic gán nhãn. Đây  
là mt trong nhng phương pháp rt trc quan và linh động. Chúng ta có thể  
can thip vào quá trình hc ca thut toán bng cách qun lý mu lut.  
13  
Chương 2:Cơ slý thuyết  
2.1.3 Hướng tiếp cn thay thế biu trưng  
2.1.3.1 Mng Neural  
Mng Neural là mt trong nhng phương pháp phbiến trong lĩnh  
vc máy hc. Mng Neural hc da trên sbng cách xác định mt hàm sao  
cho càng khp vi đường cong đi qua các đim không gian gian ca các mu  
hun luyn càng tt. Các yếu tngcnh nh hưởng đến quyết định nào đó  
được biu din bng các giá trị đã được lượng hoá, nhân vi trng svà gán  
cho các nút ca tng nhp. Chính vic lượng hoá các các yếu tngcnh đã  
làm cho phương pháp này không còn trc quan vmt ngôn nghc. Ngoài  
ra, không phi yếu tngôn ngnào cũng có thlượng hoá ddàng, điu này  
làm cho phương pháp mng Nueral không tháp dng trong hu hết các bài  
toán trong xlý ngôn ngtnhiên. Ngoài ra, phương pháp mng Neural có  
độ rng ngcnh chính là snút ca tng nhp nên phương pháp này không  
có tính linh động trong trường hp ngcnh thay đổi. Trong xlý ngôn ngữ  
tnhiên mng Neural được áp dng trong các bài toán nhn dng ký t(  
OCR ), gán nhãn tloi, nhn dng và tng hp tiếng nói. Các mô hình xlý  
cơ bn sdng các mng Neural feed-forward đa tng được hun luyn  
bng gii thut lan truyn ngược, bên cnh đó cũng xut hin kiu mng hi  
quy và kết hp các mng Neural đơn l.  
2.1.3.2 Thut toán di truyn ( Genetic Algorithm : GA)  
Gii thut di truyn đã được dùng để rút ra loi tvà cu trúc cú pháp  
tngun thông tin duy nht là tp dliu không được chú thích và không sử  
dng thêm tri thc nào. Hướng tiếp cn này cũng được kết hp vi phương  
pháp hc không giám sát cho bài toán phân vùng.  
Bài toán gán nhãn tloi là mt trong nhng bài toán xut hin tương  
đối sm trong lĩnh vc xlý ngôn ngtnhiên,và nó cũng là mt bài toán  
14  
Chương 2:Cơ slý thuyết  
làm tin đề cho các bài toán khác ( chng hn như bài toán phân tích cú pháp,  
chuyn đổi cây cú pháp, xlý ngnghĩa … ). Kết quca nó sẽ ảnh hưởng  
ti các giai đon sau. Chng hn như trong bài toán phân tích cú pháp : nếu  
như kết quvic gán nhãn tloi sai thì sdn ti vic chn cây cú pháp và  
cu trúc cây sai. Mt cu trúc câu có thbthay đổi nếu như tloi ca mt  
tnào đó trong câu bthay đổi. Trong bài toán xlý ngnghĩa, mt trong  
nhng yếu tquan trng nht đó là tloi. Mt tcó tloi sai thì dn đến  
vic chn nghĩa cho tssai. Ví dtrong câu “I can can a can” c3 t“can”  
trong câu đều có ý nghĩa khác nhau. T“can” đầu tiên là trợ động tnó có  
nghĩa là “có th”, t“can” th2 là động tchính ca câu nó có ý nghĩa là  
đóng” ( hay “đóng hp” ) còn t“can” cui cùng là mt danh tcó nghĩa là  
“cái hp”. Nếu như mt trong 3 t“can” này bgán sai nhãn tloi thì vic  
chn nghĩa cho câu trên chc chn sai.  
Vì bài toán gán nhãn tloi là mt trong nhng bài toán quan trng  
làm tin đề cho các bài toán khác trong xlý ngôn ngtnhiên nên bài toán  
này đã được rt nhiu người quan tâm. Cho đến hin nay đã có nhiu gii  
thut cho kết quđộ chính xác khá cao, chúng tôi xin gii thiu mt số  
phương pháp cho kết qukhá cao trong vn đề này.  
2.2 Mt sgii thut áp dng cho bài toán gán nhãn từ  
loi  
2.2.1 Gii thut hc chuyn đổi da trên lut ci biến (TBL)  
Gii thut TBL (Transformation-Based Learning)là mt gii thut hc  
giám sát được Eric Brill đưa ra trong lut văn tiến sĩ ca ông năm 1993. Gii  
thut TBL được áp dng rng rãi trong xlý ngôn ngtnhiên và được  
đánh giá là mt trong nhng gii thut cho kết qukhquan nht đối vi các  
bài toán xlý ngôn ngtnhiên như : các bài toán tách t, tách câu, gán  
nhãn tloi, phân tích cú pháp khnhp nhng ngnghĩa…  
15  
Chương 2:Cơ slý thuyết  
Trong các bài toán trên, kết qunhn đuc khi sdng gii thut TBL  
là khá cao, có thso sánh vi nhiu gii thut tiên tiến khác. Sdĩ gii thut  
TBL có được nhng kết qucao như vy là do nó có được nhng ưu đim  
mà nhiu gii thut khác không có, đó là tính trc quan, dhiu, dkim  
soát. Chúng ta có thquan sát, theo dõi và can thip vào quá trình hc cũng  
như quá trình thc thi ca gii thut. Mt đặc đim ni bt khác ca gii  
thut TBL là tính kế tha, gii thut khã năng phát trin lên tkết qutrung  
gian, kết quả đầu ra ca mt gii thut khác.  
16  
Chương 2:Cơ slý thuyết  
2.2.1.1 Sơ đồ ca gii thut TBL  
Ngliu thô  
(Ngliu chưa  
được gán nhãn_  
Gán nhãn cơ sở  
(baseline)  
Ngliu đã được  
Ngliu chính  
xác(Golden Corpus)  
gán nhãn  
Tp lut  
Bhc  
Hình 2-1: Sơ đồ hot động ca gii thut TBL.  
2.2.1.2 Mô thot động ca gii thut  
™ Quá trình hun luyn  
Quá trình hc ca gii thut được bt đầu vi mt ngliu thô  
(ngliu chưa được gán nhãn). Sau đó, ngliu này được tiến hành gán  
nhãn cơ s, hay còn gi là gán nhãn ban đầu(initial state). Vic gán nhãn  
cơ schlà gán cho ngliu mt giá trban đầu. Vic gán nhãn có scó  
thkhông chính xác, chng hn gán nhãn tloi cho các ttrong câu là  
danh t, hoc cũng có rt chính xác, chúng ta có thchn kết quca mt  
17  
Chương 2:Cơ slý thuyết  
gii thut nào đó làm nhãn cơ s. Nhãn này có thchính xác hoc không  
chính xác. Sau khi dliu đã nhn trng thái khi to, dliu này được  
so sánh vi các trng thái đúng ca chúng (ngliu vàng). Qua vic so  
sánh này, các li ca dliu hin hành được xác định. Thông qua các li  
này chúng xác định được các lut chuyn đổi nhm biến đổi ngliu từ  
trng thái ngây thơ (trong quá quá trình khi to) hay trng thái hin hành  
(đã có áp dng qua lut chuyn đổi) thành dng ging hơn so vi các  
trng thái đúng. Mt tp hp các khung lut lúc này được sdng để to  
ra các lut ng viên. Các khung lut được xác định trước như quy tc xác  
định trng thái "ngây thơ" giai đon khi to. Mi khung lut cha các  
biến điu kin chưa xác định giá tr. Ví dmu lut sau:  
"Nếu nhãn đứng trước X là Z thì đổi nhãn X thành Y". X, Y, và Z là  
các biến. Vi mi bgiá trca X, Y, Z ta được mt lut phát sinh từ  
mu lut này. Trong khung lut trên X và Y là các biến, nó có thnhn  
bt kì mt giá trnào trong bnhãn mà chúng ta đề ra.  
Thut toán sinh ra các lut ng viên bng cách thay các giá trcó thể  
vào cho các biến trong khung lut. Lut ng viên sau khi được to ra nó  
sẽ được áp dng vào trong ngliu đang được gán nhãn hin hành để to  
ra ngliu được gán nhãn khi áp dng lut ng viên này. Ngliu được  
gán nhãn theo lut ng viên va to ra sẽ được so sánh đối chiếu vi ngữ  
liu đúng ( hay ngliu vàng ). Khi so sánh vi ngliu chính xác chúng  
ta sbiết được lut ng viên va to ra chnh ngliu từ đúng thành sai  
bao nhiêu trường hp và tsai thành đúng bao nhiêu trường hp. Từ đó  
ta tính ra được đim cho lut ng viên này. Đim ca lut ng viên này  
chính là hiu sgia strường hp lut chnh ngliu tsai thành đúng  
và strường hp lut chnh ngliu từ đúng thành sai. Sau khi tt ccác  
lut ng viên được to ra chúng ta sbiết được lut ng viên nào có đim  
cao nht, lut ng viên có đim cao nht sẽ được gili cho các ln gán  
nhãn sau nếu như lut này thomãn điu kin nó có đim ln hơn mt  
18  
Chương 2:Cơ slý thuyết  
mc ngưỡng mà chúng ta cho trước. Lut này sẽ được áp dng để chuyn  
ngliu trng thái thk sang trng thái mi trng thái thk+1. Ngữ  
liu trng thái mi này li ln lượt thtrên các lut ng viên để chn ra  
lut ti ưu mi. Quá trình này sẽ được lp đi lp li cho đến khi không  
còn có lut ti ưu nào có đim ln hơn mc ngưỡng.  
Ngliu  
Ngliu  
T1-2  
T1-1  
Sli: 220  
Sli:250  
Ngliu  
T2-1  
Sli: 435  
Ngliu  
T1-2  
Sli: 60  
Ngliu ban  
đầu  
Sli: 500  
Ngliu  
T3-1  
Ngliu  
T1-2  
Sli: 350  
Sli: 150  
Hình 2-2: Sơ đồ quá trình hun luyn ca gii thut TBL.  
Kết thúc giai đon hun luyn chúng ta sthu được mt danh sách các  
lut ti ưu. Các lut ti ưu này sẽ được sdng vào quá trình thc thi ca  
gii thut theo thư tcác lut có đim cao được áp dng trước các lut thp  
được áp dng sau.  
™ Quá trình thc thi  
Cũng tương tnhư quá trình hun luyn, dliu mun gán nhãn phi  
được gán nhãn cơ s. Quá trình gán nhãn cơ snày ging như quá trình gán  
nhãn cơ sca quá trình hc. Nhãn cơ snày có thlà nhãn ngây thơ cũng  
có thlà nhãn chính xác hay đầu ra ca mt mô hình gán nhãn khác.  
Chúng ta ln lượt áp dng các lut ti ưu mà chúng ta nhn được  
trong quá trình hc vào ngliu. các lut có số đim cao trong quá trình  
hun luyn sẽ được áp dng trước các lut có đim thp được áp dng sau.  
19  
Chương 2:Cơ slý thuyết  
Sau quá trình áp dng tt ccác lut chúng ta snhn được mt kết quvi  
nhãn chính xác cho tng t.  
2.2.1.3 Trình bày gii thut  
Trong bài toán gán nhãn tloi chúng ta có mt squy ước sau:  
T : tp hp các nhãn tloi ví dT= {PRP,VB,NN,… }  
µ : vtừ được định nghĩa trên không gian C+, C+ thường là mt dãy các  
trng thái, ví d(word_-1,PRP) (word_1,NN) hay dãy các mu như :  
(word_-1=a) v (word_-1=the). Các vtlà các thhin ca khung lut  
Mt lut l được định nghĩa như mt cp (µ , t) gm mt vtµ và  
mt nhãn tloi t. Lut l sẽ được biu din dưới dng là µ => t nghĩa là lut  
l sẽ được áp dng trên mu x nếu vtvtµ thomãn, khi đó mu x sẽ  
được gán nhãn mi t.  
Cho mt trng thái c=(x,t) và lut l=(µ,t’), thì trng thái kết quca  
vic áp dng lut l trên trng thái c được định nghĩa :  
Nếu µ(c) = Sai  
Nếu µ(c) = Đúng  
c
l (c ) =  
( x, t ' )  
D : tp các mu hun luyn đã được gán nhãn đúng.  
Đim được tính cho mi lut l chính là hiu skhác bit gia kết quả  
thc hin ca lut l so vi tình trng ban đầu theo công thc :  
Diem(l) =  
diem(l(c)) diem(c)  
cD  
cD  
trong đó :  
Nếu t = True (x)  
Nếu t True(x)  
1
0
diem (( x , t )) =  
20  

Tải về để xem bản đầy đủ

pdf 113 trang yennguyen 23/07/2025 720
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nghiên cứu và cài đặt bộ gán nhãn từ loại cho song ngữ Anh - Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nghien_cuu_va_cai_dat_bo_gan_nhan_tu_loai_cho_song.pdf