Khóa luận Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt

LI CM ƠN  
Trước tiên, em mun gi li cm ơn sâu sc đến Tiến Sĩ Nguyn Trí Thành, người  
đã tn tình hướng dn em trong sut quá trình thc hin khóa lun.  
Em xin gi li cm ơn chân thành và sâu sc ti các thy, cô ti trường Đại hc  
Công Nghệ đã dy dvà tn tình chbo cho tôi trong sut quá trình hc tp ti trường.  
Nhng kiến thc mà thy cô truyn đạt slà vn quý báu cho chúng em bước vào tương  
lai.  
Mình xin cm ơn tp thsinh viên K50C Trường Đại hc Công Nghệ đã ng hvà  
khuyến khích tôi trong quá trình nghiên cu và thc hin khóa lun này.  
Cui cùng, con xin cm ơn chân thành và biết ơn vô hn ti gia đình, nhng người  
có công sinh thành, nuôi dưỡng, nhng người luôn kp thi động viên và giúp đỡ vượt qua  
nhng khó khăn trong cuc sng.  
Mc dù đã cgng hoàn thành lun văn trong phm vi và khnăng cho phép nhưng  
chc chn skhông tránh khi nhng thiếu sót. Chúng em kính mong nhn được sthông  
cm ca quý Thy Cô và các bn  
Hà Ni, ngày 12 tháng 5 năm 2009  
Sinh viên  
Nguyn ThLoan  
iii  
TÓM TT  
Ni dung ca khóa lun là tìm hiu mô hình CRF, và ng dng ca mô hình này  
trong trích chn thông tin trong tiếng Vit. Trước hết khóa lun trình bày nhng khái  
nim chung vtrích chn thông thông tin. Đồng thi nêu đến hai hướng tiếp cn để xây  
dng mt hthng trích chn thông tin cũng như ưu nhược đim ca tng hướng tiếp cn,  
Đồng thi cũng nêu ra được ng dng ca trích chn thông tin trong tiếng Vit như thế  
nào. Cthể ở đây là bài toán trích chn thông tin nhà đất.  
Để ứng dng trích chn trong tiếng Vit lun văn đã nêu ra được ba mô hình hc  
máy trong đó tp trung chyếu vào mô hình Conditional Random Field –CRF. Bt kmô  
hình nào cũng có ưu nhược đim trong lun văn này trình bày hai vn đề ln ca mô hình  
CRF đó là vn đề gán nhãn và ước lượng tham s. Đồng thi cũng trình bày vcông cụ  
hu ích CRF++.  
Lun văn cũng trình bày được vic ng dng mô hình CRF làm nn tng lý thuyết  
và cơ sthc hành là công cCRF vào bài toán trích chn thông tin nhà đất. Mt bài toán  
nhtrong bài toán xlý ngôn ngtnhiên.  
iv  
MC LC  
LI CM ƠN ................................................................................................................... iii  
TÓM TT ..........................................................................................................................iv  
MC LC ...........................................................................................................................v  
DANH MC CÁC HÌNH V..........................................................................................vii  
BNG CÁC KÍ HIU VIT TT................................................................................ viii  
LI MỞ ĐẦU .....................................................................................................................1  
Chương 1.TNG QUAN....................................................................................................3  
1.1. TRÍCH CHN THÔNG TIN ................................................................................................ 3  
1.2. CÁC CÁCH TIP CN TRÍCH CHN THÔNG TIN........................................................ 5  
1.2.1. Hướng tiếp cn da trên tri thc.......................................................................5  
1.2.2. Hướng tiếp cn xây dng các mô hình hc máy...............................................5  
1.3. KIN TRÚC HTHNG IE................................................................................................ 7  
1.4. BÀI TOÁN TRÍCH CHN THÔNG TIN NHÀ ĐẤT..............................................8  
1.5. Ý NGHĨA CA BÀI TOÁN TRÍCH CHN THÔNG TIN NHÀ ĐẤT.............................. 9  
1.6. TNG KT CHƯƠNG....................................................................................................... 10  
Chương 2. CONDITIONAL RANDOM FIELDS.........................................................11  
2.1. MÔ HÌNH MARKOV N- HMM...................................................................................... 11  
2.2. MÔ HÌNH CC ĐẠI HÓA ENTROPY-MEMM............................................................... 13  
2.3. MÔ HÌNH CONDITIONAL RANDOM FIELDS.............................................................. 15  
2.3.1.Vic gán nhãn cho dliu tun t....................................................................15  
2.3.2. Định nghĩa CRF...............................................................................................16  
2.3.3. Nguyên lý cc đại hóa Entropy.......................................................................18  
2.3.3.1. Độ đo Entropy điu kin .................................................................................. 18  
2.3.3.2. Các ràng buc đối vi phân phi mô hình..................................................... 19  
2.3.3.3. Nguyên lý cc đại hóa Entropy....................................................................... 20  
2.3.4. Hàm tim năng ca các mô hình CRF.............................................................20  
2.3.5. Conditional Random Fields.............................................................................21  
2.3.6. So sánh vi các mô hình khác .........................................................................22  
2.4. TNG KT CHƯƠNG....................................................................................................... 23  
Chương 3. THUT TOÁN GÁN NHÃN VÀ ƯỚC LƯỢNG THAM SCA MÔ  
HÌNH CRF VÀ CÔNG CCRF ++..............................................................................24  
3.1. THUT TOÁN GÁN NHÃN CHO DLIU DNG CHUI......................................... 24  
v
3.2. XÁC SUT CRF ĐƯỢC TÍNH NHƯ MT MA TRN.................................................. 25  
3.3. ƯỚC LƯỢNG THAM SCHO MÔ HÌNH CRF............................................................ 26  
3.3.1. Thut toán S..................................................................................................28  
3.3.2. Thut toán T .................................................................................................29  
3.4. CÔNG CCRF++ TOOLKIT............................................................................................ 30  
3.4.1. Gii thiu.......................................................................................................30  
3.4.2. Tính năng.......................................................................................................31  
3.4.3. Cài đặt và cách sdng.................................................................................31  
3.4.3.1 Cài đặt.......................................................................................................31  
3.4.3.2. File định dng hun luyn và test ................................................................ 31  
3.4.3.3. Template type................................................................................................. 32  
3.4.4. Hun luyn và kim tra...................................................................................34  
3.5. TNG KT CHƯƠNG....................................................................................................... 36  
Chương 4. NG DNG CRF VÀO BÀI TOÁN TRÍCH CHN THÔNG TIN NHÀ  
ĐẤT....................................................................................................................................37  
4.1. MÔ HÌNH HÓA BÀI TOÁN TRÍCH CHN THÔNG TIN NHÀ ĐẤT ........................... 37  
4.1.1. Xlý dliu đầu vào .....................................................................................38  
4.2. MÔI TRƯỜNG THC NGHIM ...................................................................................... 39  
4.2.1. Phn cng ......................................................................................................39  
4.2.2. Phn Mm......................................................................................................39  
4.2.3. Dliu thc nghim......................................................................................39  
4.2.3.1. Ln thnghim thnht ................................................................................... 40  
4.2.3.2. Ln thnghim thhai ..................................................................................... 40  
4.2.3.3. Kết quđánh giá ........................................................................................... 42  
4.3. HN CHVÀ HƯỚNG ĐI CHO TƯƠNG LAI................................................................ 44  
4.4. TNG KT CHƯƠNG....................................................................................................... 45  
KT LUN .......................................................................................................................46  
TÀI LIU THAM KHO................................................................................................47  
vi  
DANH MC CÁC HÌNH VẼ  
Hình 1. Mt hthng trích chn thông tin..........................................................................4  
Hình 2. Mô hình xây dng IE theo hướng tiếp cn da trên tri thc...................................5  
Hình 3. Mô hình xây dng IE theo mô hình hc máy..........................................................6  
Hình 4. Modules chính ca hthng IE..............................................................................7  
Hình 5. HMM .....................................................................................................................12  
Hình 6. Đồ thvô hướng HMM..........................................................................................12  
Hình 7. Đồ thcó hướng mô tcho mô hinh MEMM........................................................13  
Hình 8. Label alias..............................................................................................................14  
Hình 9. Mt trường ngu nhiên..........................................................................................17  
Hình 10. Đồ thvô hướng mô tcho CRF .........................................................................17  
Hình 11. Mô tcác hàm tim năng....................................................................................18  
Hình 12. Tlli ca CRF so vi các mô hình hc máy khác..........................................23  
Hình 13. Mô hình hot động ca CRF++...........................................................................31  
Hình 14. Mô hình xlý dliu ca bài toán trích chn nhà đất........................................38  
Hình 15. Biu đồ thhin stương quan gia hai ln kim tra.........................................44  
vii  
BNG CÁC KÍ HIU VIT TT  
STT  
Kí hiu  
IE  
Chú gii cho kí hiu sdng  
Trích chn thông tin  
1
2
3
4
5
HMM  
MEMM  
CRF  
Mô hình Markov n  
Mô hình cc đại hóa Entropy  
Trường ngu nhiên có điu kin  
Tìm kiếm thông tin  
IR  
viii  
LI MỞ ĐẦU  
Trong thi đại bùng ncông nghthông tin như hin nay thì vic ng dng công  
nghthông tin trong các lĩnh vc ca đời sng ngày càng đa dng và phong phú. Toàn  
bcác ng dng đều thc hin trên các thông tin đầu vào tdng đơn gin đến phc  
tp. Tdng văn bn dng ký tthông thường cho đến nhng thông tin đầu vào phc  
tp như hình nh, âm thanh.  
Vic ng dng công nghxlý ngôn ngcũng hết sc phong phú. Có thkti  
trong nhng năm gn đây có mt scông nghrt ni tiếng như [1]: Hãng  
SAMSUNG đưa ra thtrường đin thoi di động P207 có thnhn biết được các câu  
nói đơn gin ví d“tôi sgi li” ri chuyn chúng vdng tin nhn. Bên cnh đó có  
rt nhiu nhng công nghdch tự động trên web như Language Tool dch nhiu thứ  
tiếng trong google. Có thphân loi các bài toán như xlý tiếng nói hay xlý hình  
nh (speech and image processing), xlý văn bn (text processing), khai phá văn bn  
hoc web (text and web mining). Tt ccác bài toán đều được thc hin bng máy, tuy  
nhiên vn đề đặt ra là làm thế để máy có thxlý mt cách tự động li là mt bài  
toán khó. Cái khó chlàm sao cho máy hiu được ngôn ngữ đa dng ca con người.  
Đối vi tiếng Vit đã có mt scác sn phm liên quan đến tiếng Vit như: Bộ  
gõ chtiếng Vit, chương trình nhn dng chtiếng Vit như VnDOCR ca vin  
Công NghThông Tin, các phn mm như EVTRAN, gn đây tiêu biu là kết quca  
vic Vit hóa Windows và Office.  
Là người đi sau trong lĩnh vc xlí ngôn ngtnhiên, vic hiu các công nghệ  
ngôn nglà rt cn thiết. Trong lun văn này đề cp ti ng dng ca CNTT trong  
vic trích chn thông tin trong tiếng Vit. Có rt nhiu phương pháp, trong lun văn  
này gii thiu mô hình Conditional Random Field là cơ slý thuyết để thc hin công  
vic và công cCRF++ để thc hành trích chn thông tin trong tiếng Vit và cthlà  
bài toán trích chn thông tin nhà đất.  
Trong khuôn khca khóa lun tt nghip vi đề tài “Tìm hiu mô hình CRF và  
ng dng trong trích chn thông tin trong tiếng Vit” em xin trình bày mt công nghệ  
ng dng trong vic xlý ngôn ngtiếng Vit. Ni dung khóa lun gm 4 chương:  
¾
Chương 1: Tng quan: Gii thiu tng quan vtrích chn thông tin, và  
các cách tiếp cn để xây dng hthng trích chn thông tin nhng ng  
dng ca trích chn thông tin, và ng dng trong xlý tiếng Vit, đồng  
1
thi cũng mô hình hóa và nêu được ý nghĩa ca bài toán trích chn thông  
tin nhà đất.  
¾
Chương 2: Conditional Random Fields: Chương này gii thiu mt số  
mô hình hc máy như HMM, MEMM và tp trung vào mô hình  
Conditional Random Field – CRF. Đưa ra được khái nim trường ngu  
nhiên, trường ngu nhiên có điu kin. Đồng thi cũng chra được rng  
mô hình CRF hiu quhơn so vi các mô hình hc máy khác.  
¾ Chương 3: Thut toán gán nhãn và ước lượng tham scho mô hình  
CRF và công cCRF++: Chương này đưa ra hai vn đề cơ bn ca mô  
hình CRF và hướng gii quyết hiu qunht. Ở đây thut toán gán nhãn sử  
dng thut toán Viterbi mt thut toán trong quy hoch động. Và hai thut  
toán T và thut toán S gii quyết vn đề ước lượng tham scho mô hình  
CRF. Đồng thi cũng gii thiu được công cCRF++ toolkit, mt công cụ  
cài đặt mô hình CRF được sdng trong bài toán trích chn thông tin nhà  
đất.  
¾ Chương 4: ng dng CRF vào bài toán trích chn thông tin nhà đất:  
Chương này nói vvic ng dng ca mô hình CRF đã nói các chương  
trước vào bài toán trích chn thông tin nhà đất. Mt hướng đi mi trong  
bài toán xlý ngôn ngtnhiên.  
2
Chương 1.  
TNG QUAN  
Chủ đề chính ca khóa lun là tìm hiu mô hình Conditional Random Field và  
ng dng trong trích chn thông tin trong tiếng Vit. Chương này sgii thiu tng  
quan vtrích chn thông tin và các hướng tiếp cn trích chn thông tin. Đồng thi  
cũng nêu được ý nghĩa ca vic trích chn thông tin trong tiếng Vit.  
1.1. TRÍCH CHN THÔNG TIN  
Khi tìm kiếm mt thư mc có cha rt nhiu thư mc con hoc rt nhiu file vi  
nhiu định dng khác nhau. Thc cht là chúng ta đang làm vic vi các ký t[10]  
[11]. Do vy có rt nhiu hướng để xlý như:  
¾ Lc, đếm t: Tp tin như mt chui các ký tASCII. Ví dtrong Linux có thể  
tìm kiếm file hoc các ký tbng lnh grep vi điu kin là đưa ra mt chui  
mô ta cho nó.  
¾ Tìm kiếm thông tin hoc tài liu: Tp tin là nhng tcó thlà mt chui các  
đơn vtmang mt ý nghĩa nào đó.  
¾ Trích chn thông tin: Cũng như “tìm thông tin tài liu” nhưng nó có thlà mt  
thoc mt cm tcó nghĩa và liên quan đến mt chủ đề cthnào đó.  
¾ Hiu toàn văn bn (text understanding). Tp tin như câu truyn, tiu thuyết. Vi  
dliu đầu vào rt ln. Và nhim vca mình phi “hiu toàn văn bn” mi  
đưa ra được ni dung cn quan tâm.  
Không ging như vic hiu toàn văn bn (tt ccác câu chữ đều liên quan đến  
nhau), các hthng trích chn thông tin chcgng nhn biết mt sni dung thông  
tin đáng quan tâm. Có thkti các mc độ trích chn thông tin tvăn bn sau: Trích  
chn các thc th(Entity Extraction), trích chn quan hgia các thc th(Relation  
Extraction), xác định đồng tham chiếu (Co-reference Resolution). Cũng phi lưu ý  
rng trích chn không đơn thun là trích chn trong mt văn bn vi các ký tASCII  
hoc Unicode. Trích chn ở đây có thlà trích chn âm thanh, trích chn hình nh.  
Tuy nhiên trong lun văn này chtp chung gii thiu trích chn thông tin liên quan  
ti văn bn.  
3
Các kthut sdng trong trích chn thông tin gm: Phân đon, phân lp, kết  
hp và phân cm.  
October 14, 2002, 4:00 a.m. PT  
For years, Microsoft Corporation CEO Bill  
Gates railed against the economic philosophy  
of open-source software with Orwellian fervor,  
denouncing its communal licensing as a  
"cancer" that stifled technological innovation.  
Microsoft Corporation  
CEO  
Bill Gates  
*
Microsoft  
Gates  
Microsoft  
Bill Veghte  
Microsoft  
*
*
*
Today, Microsoft claims to "love" the open-  
source concept, by which software code is  
made public to encourage improvement and  
development by outside programmers. Gates  
himself says Microsoft will gladly disclose its  
crown jewels--the coveted code behind the  
Windows operating system--to select  
customers.  
VP  
Richard Stallman  
founder  
Free Software Foundation  
"We can be open source. We love the concept  
of shared source," said Bill Veghte, a  
Microsoft VP. "That's a super-important shift  
for us in terms of code access.“  
Richard Stallman, founder of the Free  
Software Foundation, countered saying…  
Hình 1. Mt hthng trích chn thông tin  
Trích chn thông tin như mt nhim vlp đầy các trường (slots) trong cơ sdữ  
liu bng nhng đon text nhhơn (hay nói cách khác kết quca mt hthng trích  
chn thông tin thường là các mu cha mt slượng xác định các trường đã được đin  
thông tin). Ví dnhư ở hình 1 ta có mt hthng trích chn nhng tên riêng xut hin  
trong văn bn, trích chn các tchc liên quan, tìm các sliên kết gia các tchc và  
tên người, vtrí ca người đó trong tchc và cui cùng là đưa vào trong cơ sdữ  
liu.  
4
1.2. CÁC CÁCH TIP CN TRÍCH CHN THÔNG TIN  
1.2.1. Hướng tiếp cn da trên tri thc  
Đặc đim ca vic xây dng hthng trích chn thông tin theo hướng này là hệ  
thng lut được xây dng bng tay hoàn toàn phthuc vào kinh nghim riêng ca  
tng người trong tng lĩnh vc ca IE, các mu hay các lut được to ra và được kim  
duyt mt cách klưỡng có quy mô bi các “knowlegde engineer” [10]. Nhng quy  
tc luôn được kim định nhiu ln. Có thmô hình hóa vic xây dng này theo hình 2  
như sau:  
Kim duyt  
Sa cha  
Kho tài  
liu  
Lut cũ  
knowlegde  
engineer  
Cp nht  
Lut mi  
Hình 2. Mô hình xây dng IE theo hướng tiếp cn da trên tri thc  
Vi cách tiếp cn này thì hthng hot động theo mt chu trình. Để xây dng  
mt hthng hot động tt phi luôn luôn có stương tác gia người viết lut và hệ  
thng cùng vi kho ngliu hun luyn (hình 2) và tp lut luôn luôn được cp nht  
để cho hthng có thhot động tt nht.  
1.2.2. Hướng tiếp cn xây dng các mô hình hc máy  
Vi hthng IE được xây dng theo hướng tiếp cn da trên tri thc thì chu  
trình kim tra và sa li gp rt nhiu khó khăn và phthuc vào nhiu yếu tnhư:  
Loi ngôn ng, thi gian và khnăng viết lut. Chmt vài thay đổi trong đặc tcũng  
gây khó khăn trong sự điu chnh.  
Câu trli cho các gii hn này là phi xây dng mt mô hình bng cách nào đó  
có th“thc”. Điu này sgiúp làm gim bt stham gia ca các chuyên gia ngôn  
ngvà làm tăng tính linh hot cho hthng. Có rt nhiu phương pháp hc máy như  
mô hình markov n (Hidden Markov Models-HMM), các mô hình Markov cc đại hóa  
Entropy (Maximum Markov Models – MEMM) và mô hình các trường ngu nhiên có  
5
điu kin ( Conditional Random Fields – CRF)… Các mô hình này sẽ được đề cp chi  
tiết trong chương sau.  
Các đặc đim phi kể đến ca vic xây dng hthng IE theo hướng hthng có  
thtự đào to (automatic training approach) là không cn mt người nào đó hiu biết  
vcách hot động ca hthng IE và viết lut cho nó như thế nào [10]. Điu cn thiết  
ở đây là mt người nào đó biết được min ng dng ca nó và hiu được nhng thông  
tin cn rút trích. Mt khi dliu hun luyn được chú thích, thut toán hun luyn  
chy và sinh ra nhng thông tin hc được hay còn gi là model để phc vcho quá  
trình trích chn tự động sau này. Mô hình vi hướng tiếp cn này được mô tqua hình  
3 như sau: Các thut hc sda trên dliu để thc và thu được mt model, da trên  
model này nó strích chn các thông tin trên dliu mi.  
Thut toán hc  
Dliu  
Hun  
luyn  
Model  
file  
Hình 3. Mô hình xây dng IE theo mô hình hc máy  
Khi xây dng hthng IE theo hướng này phi tp trung vào vic to ra dliu  
hun luyn. Hthng có ththc mà không cn scan thip ca bt kcác chuyên  
viên nào. Tuy vy vic xây dng và lưu trtp dliu hun luyn rt khó và đắt vì để  
hthng có ththc hin tt thì yêu cu dliu phi nhiu đó cũng là hqudn đến  
vic khó sa đổi. Vì chcn thêm hoc xóa các thuc tính thì cn phi thay đổi trên  
toàn tp hun luyn ca nó.  
Tùy vào công vic và nhng điu kin đã có mà ta có thxây dng hthng IE  
theo hướng các mô hình hc máy hoc theo hướng tiếp cn da tri thc. Ví dnhư khi  
ngun văn bn và người viết lut đáp ng được yêu cu thì nên xây dng hthng IE  
theo hướng tiếp cn da tri thc, hoc khi các mô tvthông tin trích chn luôn có sự  
thay đổi thì cũng lên làm theo hướng thnht. Còn vi dliu ln thì nên xây dng hệ  
thng IE theo mô hình hc máy.  
6
1.3. KIN TRÚC HTHNG IE  
Mc dù hthng IE được xây dng theo các ng dng và công vic khác nhau,  
theo nhng cách khác nhau. Nhưng vcơ bn thì mt hthng IE nói chung có nhng  
phn tchính được mô ttrong hình sau:  
Phân đon từ  
Phân tích ttố  
Gán nhãn tloi  
Xlý hình thái, và  
tvng  
Phân tích cú pháp  
hoàn chnh  
Phân tích cú pháp  
Đồng tham chiếu  
Trn các kết quả  
Phân tích min  
Hình 4. Modules chính ca hthng IE  
Vi mô hình trên thì tùy thuc vào tng ngôn ngmà có các bài toán cthvà  
có nhng phương pháp xlý cho phù hp. Vi rt nhiu ngôn ngữ đa dng do vy hệ  
thng ttca mi quc gia skhác nhau: Ví dnhư ngôn ngTrung Quc và Nht  
Bn khác hn so vi chun ngôn ngEuropean. Nhưng chúng ta quan tâm là đối vi  
tiếng Vit thì có nhng khó khăn gì trong quá trình xlý. Vmt ngpháp và ngữ  
nghĩa gp rt nhiu khó khăn. Vì các công cụ để xlý trong các bước trên là hu như  
chưa có sn, hơn na đối vi tiếng Vit là mt ngôn ngữ đơn âm và đa âm phc tp do  
vy vic xlý cũng gp khó khăn.  
7
1.4. BÀI TOÁN TRÍCH CHN THÔNG TIN NHÀ ĐẤT  
Các bài toán đin hình trong xlý tiếng Vit đó là: nhn biết các loi thc th,  
phân nhóm các cm ttiếng Vit, phân loi văn bn tiếng Vit. Đây là nhng bài toán  
cơ bn nhưng đóng vai trò quan trng để giúp xlý các bài toàn phc tp trong lĩnh  
vc này. Trong lun văn này trình bày bài toán trích chn thông tin nhà đất.  
Ở đây chúng ta phi phân bit rõ gia tìm kiếm thông tin (Information Retrival -  
IR) và trích chn thông tin (Information Extraction -IE). IR có thhiu đơn gin là từ  
mt ngun rt nhiu tp văn bn hay tiếng nói tìm ra nhng tp có ni dung liên quan  
đến mt câu hi hay mt điu cn biết. Đin hình ca công nghnày là Google, mt hệ  
tìm kiếm trên web. Cn nói thêm rng mc dù rt hu hiu, nhưng google chcho  
chúng ta tìm theo nhng tkhóa và đôi khi tìm nhng kết qukhông hliên quan,  
hoc tìm ra nhng văn bn vn đã tn ti trên Web.  
Vi Information Extraction tmt ngun rt nhiu tp văn bn hay li nói tìm ra  
nhng đon bên trong mt stp liên quan đến mt vn đề cn quan tâm. Ví dxét  
mt bn tin nhà đất sau:  
“Cn bán chung cư TT9 Văn Phú mt đường Lê Trng Tn, din tích 90m2, mt  
tin 4,5m. Giá bán: 1 tLiên h: 0988830999”  
Vi bn tin nhà đất trên ta chcn quan tâm đến địa ch, din tích, giá bán, loi  
nhà và đin thoi liên h. Do vy không nht thiết phi hiu toàn văn bn, mc đích  
ca bài toán trích chn thông tin nhà đất là làm sao đưa ra được các thông tin liên quan  
đến địa ch, din tích, giá bán, loi nhà… tmt khi dliu rt ln. Vi mc đích đó  
văn bn trên có thể được mô phng bng cách gán nhãn như sau:  
Cn bán chung<B-LN> cư<I-LN> TT9<B-DC> Văn <I-DC> Phú<I-DC> mt  
đường Lê <B-DC> Trng <I-DC>Tn <I-DC>, din tích 90m2<I-DT>, mt tin 4,5m.  
Giá bán: 1<B-GB> t<I-GB>. Liên h: 0988830999 <B-DD>.  
Vi các quy ước các nhãn cho các tttrong đon tin trên như sau:  
9 DC: Địa chtrong đó B-DC là tbt đầu ca địa chvà I-DC là các từ  
tiếp theo ca địa chỉ  
9 GB: Giá bán trong đó B-GB là tbt đầu ca giá bán và I-GB là các từ  
tiếp theo ca giá bán  
9 DT: Din tích trong đó B-DT là tbt đầu ca din tích và I-DT ttiếp  
theo ca din tích  
8
9 DD:Di động trong đó B-DD là tbt đầu ca sdi động và I-DD là các từ  
tiếp theo ca sdi động  
9 LN: loi nhà có thlà chung cư hoc căn h, trong đó B-LN là tbt đầu  
loi nhà, I-LN là ttiếp theo ca loi nhà.  
Cũng như các bài toán trích chn khác như: trích chn thc th, nhn dng tên,  
trích chn thông tin nhà đất cũng có các hướng tiếp cn khác nhau, trong lun văn này  
tp trung vào bài toán trích chn thông tin nhà đất theo phương pháp hc máy bng  
cách sdng mô hình CRF. Mt mô hình được đánh giá là có cht lượng cao đối vi  
bài toán trích chn thông tin.  
1.5. Ý NGHĨA CA BÀI TOÁN TRÍCH CHN THÔNG TIN NĐẤT  
Trong bt cmt ngôn ngnào thì vic thì vic tìm ra nhng thông tin liên quan  
điu rt quan trng mà không cn phi đọc hiu toàn bvăn bn. Chính vì vy vic  
trích chn thông tin có mt nghĩa rt ln trong vic xlý ngôn ngtnhiên.  
¾ Tiết kim thi gian. Như chúng ta đã biết thì mi mt bn tin đăng trên nhng  
website khác nhau thì có nhng định dng rt khác nhau: Có thđịnh dng  
văn bn thông thường, cũng có thlà dng bng biu, hoc các đường liên  
kết… Vi nhng cách thhin văn bn như vy thì vic tìm ra nhng thông tin  
như din tích ca ngôi nhà, địa ch… Là mt vic tương đối khó khăn. Vi bài  
toán trích chn thông tin nhà đất thì stiết kim thi gian rt nhiu cho người  
bán và người mua.  
¾ Có thtìm kiếm thông tin chính xác hơn rt nhiu. Vn đề ở đây là trong mt  
bn tin có snhp nhng gia thông tin địa chca mnh đất và địa chca  
người ch. Vic trích chn có thgim bt snhp nhng trong thông tin này.  
Nói rng hơn na bài toán trích chn thông tin nhà đất chlà bài toán nh. Tbài  
toán này ta cũng thy được ý nghĩa ca vic trích chn thông tin trong tiếng Vit.  
¾ Giúp cho vic tóm tt văn bn chính xác nếu như chủ đề ca văn bn được chỉ  
rõ  
¾ Tto ra các trường liên quan mt cách tự động trong cơ sdliu được ly  
tvăn bn.  
¾ Mt số ứng dng đin hình ca trích chn thông tin: sdng trích chn thông  
tin trong thư vin s- DL (Digital Libraries) - thư vin scó thhiu là các văn  
9
bn hoc hình nh…. Rút trích thông tin tthư đin t. Trích chn tiu sử  
người (có thlà chân dung, vtrí, email, địa ch, số đin thoi, sfax…)  
1.6. TNG KT CHƯƠNG  
Chương này gii thiu tng quan vtrích chn thông tin. Vi hai hướng tiếp cn  
ca xây dng hthng trích chn thông tin theo hướng máy tri thc và theo hướng hệ  
thng tự đào to giúp mi người có thhình dung ra được các cách tiếp cn vi trích  
chn thông tin. Đồng thi cũng nêu ra được nhim vca khóa lun.  
10  
Chương 2.  
CONDITIONAL RANDOM FIELDS  
Như gii thiu trong chương trước, chương này gii thiu vào mt smô hình  
hc máy, trong đó tp trung vào mô hình Conditional Random Fields (CRF) [11] [13]  
[8] [17], phn đầu nêu lên hai mô hình hc máy HMM, và MEMM và nhng vn đề  
gp phi từ đó nêu lên mô hình hc máy CRF có thgii quyết được các vn đề đó  
như thế nào. Đồng thi cũng gii thiu được chi tiết vmô hình CRF như: Đưa ra  
được định nghĩa CRF, xác định các hàm tim năng ca CRF thông qua nguyên lý cc  
đại hóa Entropy, xác định được các ràng buc ca mô hình.  
Mt squi ước ký hiu:  
¾ Chviết hoa X, Y, Z.. kí hiu cho các biến ngu nhiên.  
r
¾ Chữ đậm x ví d: x = (x1,...,xn), y, t .. ký hiu các vector vector  
biu din chui dliu quan sát , vector biu din chui các nhãn.  
¾ xi , yi biu din các thành phn trong mt vector.  
¾ chviết thường x, y, z…. là ký hiu cho mt giá trị đơn như mt  
dliu quan sát hay mt trng thái.  
¾ S là tp các hu hn trng thái.  
¾ O là tp dliu quan sát được.  
2.1. MÔ HÌNH MARKOV N- HMM  
Mô hình Markov được gii thiu vào cui nhng năm 1960 [12]. Cho đến hin  
nay nó có mt ng dng khá rng như trong nhn dng ging nói, tính toán sinh hc  
(Computational Biology ), và xlý ngôn ngtnhiên.  
HMM là mô hình máy hu hn trng thái vi các tham sbiu din xác sut  
chuyn trng thái và xác sut sinh dliu quan sát ti mi trng thái.  
Mô hình Markov n là mô hình thng kê trong đó hthng được mô hình hóa  
được cho là mt quá trình Markov vi các tham skhông biết trước, nhim vlà xác  
định các tham số ẩn tcác tham squan sát được. Các tham sca mô hình được rút  
ra sau đó có thsdng để thc hin các phân tích kế tiếp. Trong bài toán trích chn  
thông tin nhà đất thì các tham squan sát được đó chính là các ttrong câu, còn các  
trng thái chính là các nhãn B-DC, I-DC, B-DT, I-DT..  
11  
Trong mt mô hình Markov đin hình, trng thái được quan sát trc tiếp bi  
người quan sát [21], và vì vy các xác sut chuyn tiếp trng thái là các tham sduy  
nht (hình 5 có thmô trõ cho điu này).  
Hình 5. HMM  
- xi — Các trng thái trong mô hình Markov  
- aij — Các xác sut chuyn tiếp  
- bij — Các xác sut đầu ra  
- yi — Các dliu quan sát  
Mô hình Markov n thêm vào các đầu ra: mi trng thái có xác sut phân btrên  
các biu hin đầu ra có th. Vì vy, nhìn vào dãy ca các biu hin được sinh ra bi  
HMM không trc tiếp chra dãy các trng thái. Ta có tìm ra được chui các trng thái  
mô ttt nht cho chui dliu quan sát được bng cách tính.  
P(Y | X ) = P(Y | X )/ P(X )  
(2.1)  
Y1  
X1  
Y2  
X2  
Yn  
Xn  
Hình 6. Đồ thvô hướng HMM  
Ở đó Yn là trng thái ti thi đim tht=n trong chui trng thái Y, Xn là dliu  
quan sát được ti thi đim tht=n trong chui X. Do trng thái hin ti chphthuc  
vào trng thái ngay trước đó vi githiết rng dliu quan sát được ti thi đim t chỉ  
phthuc và trng thái t. Ta có thtính P(Y, X).  
n
P(Y, X ) = P(Y1 )P(X1 | Y1 ) P(Yt | Yt1 )* P(Xt | Yt )  
(2.2)  
t2  
12  
Mt shn chế ca mô hình Markov để tính được xác sut P(Y,X) thông thường  
ta phi lit kê hết các trường hp có thca chui Y và chui X. Thc tế thì chui Y là  
hu hn có thlit kê được, còn X (các dliu quan sát) là rt phong phú. Để gii  
quyết các vn đề này HMM đưa ra githiết vsự độc lp gia các dliu quan sát:  
Dliu quan sát được ti thi đim t chphthuc vào trng thái ti thi đim đó.  
Hn chế thhai gp phi là vic sdng xác sut đồng thi P(Y, X) đôi khi không  
chính xác vì vi mt sbài toán thì vic sdng xác sut điu kin P(Y | X) cho kết  
qutt hơn rt nhiu.  
2.2. MÔ HÌNH CC ĐẠI HÓA ENTROPY-MEMM  
Mô hình MEMM [4] thay thế các xác sut chuyn trng thái và các xác sut  
sinh quan sát trong HMM bi mt hàm xác sut duy nht P(Si | Si-1, Oi) (xác sut dch  
chuyn ttrng thái hin ti là Si-1 ti trng thái trước đó là Si vi dliu quan sát  
hin ti là Oi) thay vì sdng P(Si | Si-1) và P(Oi | Si). Mô hình MEMM quan nim rng  
các quan sát đã được cho trước và chúng ta không cn quan tâm đến xác sut sinh ra  
chúng mà chquan tâm vào xác sut chuyn trng thái.  
Dưới đây là đồ thcó hướng mô tcho mô hình MEMM.  
S1  
S2  
Sn  
S1:n  
Hình 7. Đồ thcó hướng mô tcho mô hinh MEMM  
Qua đồ thta nhn thy rng quan sát hin ti không chphthuc vào trng thái  
hin ti mà còn có thphthuc vào trng thái trước đó.  
Xác sut P(S | O) có thtính như sau:  
n
P(S | O) = P(S,O)*  
P(St | St1,Ot )  
(2.3)  
t=1  
MEMM coi dliu quan sát là các điu kin cho trước thay vì coi chúng là các  
thành phn được sinh bi mô hình như trong HMM vì thế xác sut chuyn trng thái  
có thphthuc vào các thuc tính đa dng ca chui dliu quan sát.  
13  
Vi mô hình này ta chia P(St | St1,Ot ) thành các hàm dch chuyn được hun  
luyn mt cách riêng bit trong |S| tp hp trng thái. Như  
-
P (S |O ) =P(S | S ,O )  
sau:  
St1  
t
t
t
t1  
t
McCallum xác định phân phi cho xác sut chuyn trng thái có dng hàm mũ  
sau:  
1
PS (St | Ot ) =  
exp  
λ f (O , S )  
(2.4)  
a
a
t
t
t 1  
Z (Ot , St1  
)
a
Ở đây λa là các tham scn được hun luyn; Z(Ot, St) là tha schun hóa để  
tng xác sut chuyn ttrng St-1 sang St kvi nó đều bng 1; fa(Ot, St) là hàm thuc  
tính ti vtrí thi trong chui dliu quan sát và trong chui trng thái. Ở đây ta định  
nghĩa mi mt thuc tính fa có hai đối s: Dliu quan sát hin ti và trng thái hin  
ti. McCallum cũng đinh nghĩa a=<b, St> trong đó b chphthuc vào dliu quan sát  
hin ti.  
1 nếu dliu quan sát hin ti là “1t”  
b(Ot)=  
0 nếu ngược li  
Hàm thuc tính fa xác định nếu b(Ot) nhn mt giá trxác định:  
1 nếu b(Ot)=1 và St=St-1  
f<b,St>(Ot,St)=  
0 nếu ngược li  
Vn đề “label alias” gp phi trong mô hình MEMM  
Vn đề gp phi mô hình MEMM [14] “lable alias”. Xét mt ví dụ đơn gin  
sau:  
Hình 8. label alias  
14  
Gista cn xác định chui trng thái khi xut hin chui quan sát là “rob” do  
vy chui trng thái đúng là 0345 vì vy ta mong đợi xác sut.  
P( 0345|rob ) > P( 0125|rob)  
Li có P(0125|rob) = P(0)*P(1|0, r)*P(2|1,o )*P(5|2, b).  
Do xác sut chuyn trng thái ca 2 trng thái knhau là l. Do vy:  
P(0125 | rob)=P(0)*P(1 | 0, r).  
Tương tta cũng có P(0345 | rob)=P(0)*P(3 | 0, r). Nếu trong tp hun luyn  
“rib”xut hin nhiu hơn “rob” thì chui trng thái S=0125 luôn được chn dù chui  
quan sát là rib hay rob. Đây là hn chế gp phi trong mô hình MEMM, hn chế này  
nh hưởng rt ln đến quá trình gán nhãn ca MEMM.  
Để gii quyết vn đề alias Léon Bottou (1991) [4] đưa ra mt scách sau: Thứ  
nht như mô hình trên ta có thgp trng thái 1 và 4 và trì hoãn vic phân nhánh cho  
đến khi gp mt quan sát xác định ( Discriminating Observation ). Nhưng đối vi máy  
hu hn trng thái thì điu này không thvì xy ra sbùng nthp. gii pháp thứ  
hai là ta có thluôn thay đổi cu trúc trng thái ca mô hình điu này có nghĩa xác sut  
ca toàn bchui trng thái skhông được bo tn mà có thbthay đổi trong mt vài  
bước chuyn tùy thuc vào quan sát đó.  
Trên đây là nhng vn đề hn chế ca HMM và MEMM từ đó cho thy nhu cu  
cn thiết ca mô hình CRF có thgii quyết nhng hn chế trên.  
2.3. MÔ HÌNH CONDITIONAL RANDOM FIELDS  
CRF được gii thiu vào nhng năm 2001 bi Lafferty và các đồng nghip [14]  
[11]. CRF là mô hình da trên xác xut điu kin, thường được sdng trong gán  
nhãn và phân tích dliu tun tví dký t, ngôn ngtnhiên. Khác vi mô hình  
MEMM, CRF là mô hình đồ thvô hướng. Điu này cho phép CRF có thể định nghĩa  
phân phi xác sut ca toàn bchui trng thái vi điu kin biết chui quan sát cho  
trước thay vì phân phi trên mi trng thái vi điu kin biết trng thái trước đó và  
quan sát hin ti như trong mô hình MEMM. Chính nhng tính cht này ca CRF mà  
mô hình này gii quyết được vn đề “label bias”.  
2.3.1. Vic gán nhãn cho dliu tun tự  
Nhim vca gán nhãn tun t[13] để thiết lp chui quan sát được xut hin  
trong nhiu trường. Mt trong nhng phương thc phbiến để thc hin gán nhãn và  
15  
phân đon là sdng quy tc HMM hoc mô hình máy hu hn trng thái để định  
nghĩa chui các nhãn có thxy ra nht cho nhng tca bt ccâu nào.  
Theo nhng nghiên cu vmô hình Markov n và mô hình cc đại hóa Entropy  
trên. Thì CRF đã gii quyết được toàn bnhng vn đề mà hai mô hình trên mc  
phi như “ label alias ”[11].  
Conditional random fields là mt probabilistic framework (theo xác sut) cho  
vic gán nhãn và phân đon dliu tun t. Thay vì sdng xác sut độc lp trên  
chui nhãn và chui quan sát, ta sdng xác sut có điu kin P(Y | X) trên toàn bộ  
chui nhãn được đưa bi chui mi chui quan sát X. CRF là mt mô hình đồ thvô  
hướng định nghĩa mt phân btuyến tính đơn trên các chui nhãn (trình tnhãn) được  
đưa ra bi các chui quan sát được. CRFs thun li hơn các mô hình Markov và  
MEMM. Nó làm tt hơn cca MEMM và HMM trên slượng chui gán nhãn ln.Ví  
d: xét ngôn ngtnhiên, vic gán nhãn cho các ttrong câu stương ng vi loi từ  
vng. Ở đây các câu slà dliu tun tcòn nhãn cn gán chính là các tloi  
[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to  
] [NP only # 1.8 billion ] [PP in ] [NP September ]  
Trong đó ý nghĩa ca các nhãn là: NP: nounse phrase, VP: verb phrase…  
Trong bài toán trích chn thông tin nhà đất ca mình thì dliu tun tự ở đây  
chính là các bn tin nhà đất, còn các nhãn cn gán đó là các thông tin về địa ch(B-  
DC, I-DC) hoc din tích (B-DT,I-DT)…  
2.3.2. Đnh nghĩa CRF  
Trước khi xem định nghĩa trường ngu nhiên điu kin ta xem định nghĩa thế nào  
là mt trường ngu nhiên [9]  
Cho mt đồ thvô hướng không có chu trình G(V,E), ở đây V là tp các đỉnh ca  
đồ thvà E là tp các cnh vô hướng ni các đỉnh ca đồ thnếu tha mãn:  
P(v | v ,v v ) = P(v | v ,v v ) thì V gi là trường ngu nhiên  
(2.5)  
Υ
Υ
i
j
i
j
i
k
k
i
16  
Y1  
Y4  
Y2  
Y3  
Y5  
Y6  
Hình 9. Mt trường ngu nhiên  
P(Y5| Υ Yi)=P(Y5|Y4,Y6) . Vy Y={Y5, Y4,Y6} là trường ngu nhiên.  
Tiếp đến chúng ta định nghĩa trường ngu nhiên có điu kin như sau: X là biến  
ngu nhiên nhn giá trlà chui dliu cn phi gán nhãn.Y là biến ngu nhiên nhn  
giá trlà chui nhãn tương ng. Mi thành phn Yi ca Y là mt biến ngu nhiên nhn  
giá trtrong tp hu hn các trng thái S. Các đỉnh V biu din các thành phn ca  
biến ngu nhiên Y sao cho tn ti ánh xmt – mt gia các đỉnh và mt thành phn Yv  
ca Y. Ta nói:  
CRF được định nghĩa: (Y | X) là mt trường ngu nhiên điu kin (Conditional  
Random Field) vi điu kin X khi ta chtính được xác xut có điu kin P(Yi | Xi) vi  
Yi Y Xi X và vi mi Xi ta chn được argmaxYiP(Yi | Xi).  
Trong bài toán dliu dng chui, G có thể được biu din như sau:  
G = ( V={1,2,3,…m}, E={i,i+1}i=1…m-1).  
Kí hiu X=(X1, X2…Xn), Y=(Y1, Y2,…Yn). Ta có mô hình đồ thvô hướng ca CRF  
có dng sau:  
Hình 10. Đồ thvô hướng mô tcho CRF  
17  
Gi C là tp hp tt ccác đồ thcon đầy đủ ca đồ thG (đồ thbiu din cu  
trúc ca mt CRF). Theo kết quca Hammerly-Clifford cho các trường Markov, ta  
tha shóa được p(y | x) – xác sut ca chui nhãn vi điu kin biết chui dliu  
quan sát – thành tích các hàm tim năng:  
P(y|x)=  
ψ
( A | x )  
(2.6)  
A
A C  
Có thmô phng như hình sau:  
Yt+3  
Yt+1  
Y t  
Yt+2  
Ψ2  
Ψ3  
Ψ
1  
X1:n  
Hình 11. Mô tcác hàm tim năng  
Tính cht ca trường ngu nhiên có điu kin là:  
¾ Mô hình phân bit (discriminative models)  
¾ Mô hình chui (sequential models)  
¾ Mô hình đồ thvô hướng (Undirected graphical models)  
2.3.3. Nguyên lý cc đại hóa Entropy  
Laferty xác định các hàm tim năng cho các mô hình CRF da trên nguyên lý  
cc đại hóa Entropy [7]. Nguyên lý này cho phép đánh giá các phân phi xác sut từ  
mt tp các dliu hun luyn.  
2.3.3.1. Độ đo Entropy điu kin  
Entropy là độ đo tính đồng đều hay tính không chc chn ca mt phân phi xác  
sut [7]. Độ đo Entropy điu kin ca mt phân phi mô hình trên “mt chui trng  
thái vi điu kin biết chui dliu quan sát ” p(y | x) có dng sau:  
H(y | x) = -  
p(x, y)*log p(y | x)  
(2.7)  
x,y  
= -  
p^(x)*p(y | x)*log p(y | x)  
x,y  
18  
2.3.3.2. Các ràng buc đối vi phân phi mô hình  
Vn đề chính là phi tìm ra chui p*(y|x) sao cho tha mãn hàm mc tiêu sau:  
p* (y|x) = argmaxH(y|x)  
(2.8)  
Các ràng buc đối vi mô hình được thiết lp bng cách thng kê các thuc tính  
được rút ra ttp dliu hun luyn. Ví dvmt thuc tính  
1 nếu y=name, x=Mister  
fi(x,y)=  
0 nếu ngược li  
Tp các thuc tính là tp hp các thông tin quan trng trong dliu hun luyn.  
Ký hiu kì vng ca thuc tính f theo phân phi xác sut thc nghim :  
ˆ
ˆ
E[ f ] =  
(2.9)  
p(x,y) f i(x,y)  
x,y  
Ở đây p^(x,y) là phân phi thc nghim trong dliu hun luyn. Dliu hun  
luyn gm N cp, mi cp gm mt chui dliu quan sát và mt chui nhãn  
D={(xi,yi)}, khi đó phân phi thc nghim trong dliu hun luyn được tính như sau:  
ˆ
p(x, y)= 1/N * sln xut hin đồng thi ca x,y trong tp hun luyn  
Kvng ca thuc tính f theo phân phi xác sut trong mô hình  
Ep[f] =  
(2.10)  
p(x) *p(y|x)*f (x,y)  
i
x,y  
Phân phi mô hình thng nht vi phân phi thc nghim chkhi kvng ca  
mi thuc tính theo phân phi xác sut phi xp xbng kì vng ca thuc tính đó theo  
phân phi mô hình :  
Epˆ (x,y)[ f ] = Ep [ f ]  
(2.11)  
Tcông thc (2.11) có ththy rõ các ràng buc ca mô hình.  
19  
2.3.3.3. Nguyên lý cc đại hóa Entropy  
Gi P là không gian ca tt ccác phân phi xác sut điu kin, và n là scác  
thuc tính rút ra tdliu hun luyn. P’ là tp con ca P, P’ được xác định như sau:  
P’={ pP | Epˆ [ f ] = Ep [ f ] i {1,2,3...n}}  
(2.12)  
Tư tưởng chính ca nguyên lý cc đại hóa Entropy là ta phi xác định mt phân  
phi mô hình sao cho: phân phi mô hình phi tha mãn mi ràng buc được rút ra từ  
thc nghim, và phi gn nht vi phân phi đều. Có nghĩa là ta phi tìm phân phi  
mô hình p( y | x ) tha mãn hai điu kin thnht phi thuc tp P’ thhai là nó phi  
làm cc đại hóa Entropy điu kin (2.7)  
Hay nói cách khác khi E ˆ [ f ] = E [ f ] và p(y | x)0 x, y p(y | x) = 1x ta  
p
p
yY  
scó (2.7)  
Vi mi mt thuc tính fi ta đưa vào mt tha slangrange λi, ta định nghĩa hàm  
Lagrange L(p, λ) như sau:  
(
)
λ * Eˆ [f ] - E [f ]  
L(p, λ) = H(p)+  
(2.13)  
i
p
i
p
i
i
Phân phi p(y | x) làm cc đại hóa độ đo Entropy H(p) và tha mãn n ràng buc  
(2.11) cũng slàm cc đại hàm L(p, λ). T(2.13) suy ra  
1
P(y | x) =  
exp( λ f )  
(2.14)  
i
i
Z
λ(x)  
i
Ở đây Zλ(x) là tha schun hóa để đảm bo  
p(y | x) =1 vi mi x:  
y
Zλ(x)= exp  
λ f  
(2.15)  
∑ ∑  
i
i
y
i
2.3.4. Hàm tim năng ca các mô hình CRF  
Bng cách áp dng nguyên lý cc đại hóa Entropy, Lafferty xác định hàm tim  
năng ca mt CRF có dng hàm smũ.  
yκ fκ ( A | x )  
Ψ (A|x)=exp  
A
(2.16)  
k
Trong đó:  
fk là mt thuc tính ca chui dliu quan sát  
20  
yk là trng schmc độ biu đạt thông tin ca thuc tính fk  
A đồ thcon ca đồ thvô hướng G  
2.3.5. Conditional Random Fields  
Mô hình CRFs cho phép các quan sát trên toàn bX, nhờ đó chúng ta có thsử  
dng nhiu thuc tính hơn phương pháp Hidden Markov Model. Mt cách hình thc  
chúng ta có thxác định được quan hgia mt dãy các nhãn y và mt câu đầu vào x  
qua công thc sau.  
1
P(y | x) =  
exp  
λ t (y , y , x) +  
μ s (y , x)  
(2.17)  
∑∑  
∑∑  
k
k
i1  
i
k
k
i
Z(x)  
t
k
t
k
Ở đây x,y là chui dliu quan sát và chui trng thái tương ng; tk(yi-1,yi,x,i): là  
thuc tính ca toàn bchui quan sát và các trng thái ti vtrí i-1, i trong chui trng  
thái; sk(yi,x,i): là thuc tính ca toàn bchui quan sát và trng thái ti vtrí i trong  
chui trng thái; λj, μk: là các tham số được thiết lp tdliu hun luyn.  
Khi định nghĩa các thuc tính , chúng ta xây dng 1 chui các thuc tính b(x,i)  
ca chui dliu quan sát để din tvài đặc trưng nào đó ca phân phi thc nghim  
ca dliu hun luyn.  
Ví d:  
1 nếu quan sát vtrí i và tlà = “Đình”  
b(x,i) =  
0 nếu khác  
Mi mt hàm mô tsnhn mt giá trca mt trong scác giá trthc b(x,i)  
là trng thái hin ti( nếu trong trường hp hàm trng thái ) hoc là trng thái trước và  
trng thái hin ti (trong trường hp là hàm dch chuyn) nhn giá trriêng. Do đó toàn  
bhàm mô tcó giá trthc.  
Hàm trng thái sk(yi,x,i) dùng để xác định định danh ca trng thái  
Trong bài toán trích chn thông tin nhà đất thì ví dmt hàm trng thái như sau:  
1 nếu xi= “chui các s” và yi =B-DD  
si =  
0 nếu ngược li  
Hàm dch chuyn giúp thêm vào mi quan hgia mt nhãn và các nhãn lin kệ  
vi nó.  
21  
1 nếu xi-1= “M”, xi= “ Đình” và yi-1=B_DC, yi=I_DC  
0 nếu ngược li.  
ti=  
Ở đó Z(x) là tha schun hóa. Và được tính theo công thc sau:  
exp  
λ t  
(
y , yi, x) +  
μ s ( y , x)  
Z(x)=  
(2.18)  
∑ ∑ ∑  
∑ ∑  
k
k
i1  
k
k
i
y
t
k
i
k
θ(λ1 ,λ2…..,μ1, μ2) là các véctơ tham sca mô hình . θ sẽ được ước lượng giá trị  
trong phn tiếp theo.  
Chú ý rng đối vi các công thc (2.17) và (2.18) ta có thviết mt cách đơn  
gin như sau:  
n
sk(yi,x,i)= sk(yi-1, yi,x,i) và Fj(y,x)=  
fi(y , y , x,i) .  
i1  
i
i=1  
Ở đó fj(yi-1,yi,x,i) là hàm trng thái sk(yi-1, yi,x,i) hoc hàm dich chuyn tk(yi-1,  
yi,x,i). Điu này cho ta tính được xác sut ca nhãn y khi biết chui quan sát x:  
1
P(y|x,λ) =  
exp( λ F (y, x) )  
(2.19)  
j
j
Z(x)  
j
2.3.6. So sánh vi các mô hình khác  
Bn cht ca phân phi toàn cc ca CRF giúp cho các mô hình này tránh được  
vn đề label alias .  
Qua quá trình thc nghim cho thy tlli ca CRF là thp hơn cso vi  
MEMM và HMM  
Vi 2000 mu dliu hun luyn và 500 mu test kết qulà tlli ca CRF là  
4.6%, ca MEMM tlli là 42% [14].  
22  

Tải về để xem bản đầy đủ

pdf 56 trang yennguyen 29/04/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_tim_hieu_mo_hinh_crf_va_ung_dung_trong_trich_chon.pdf