Khóa luận Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyn Đạo Thái  
PHÂN BIT NHP NHNG TÊN NGƯỜI TRONG HỆ  
THNG TÌM KIM THC THỂ  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyn Đạo Thái  
PHÂN BIT NHP NHNG TÊN NGƯỜI TRONG HỆ  
THNG TÌM KIM THC THỂ  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: PSG.TS Hà Quang Thy  
Cán bộ đồng hướng dn: ThS Trn Mai Vũ  
HÀ NI - 2010  
Li cm ơn  
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư  
Tiến sĩ Hà Quang Thy và Thc sTrn Mai Vũ, người đã tn tình chbo và hướng  
dn tôi trong sut quá trình thc hin khoá lun tt nghip.  
Tôi chân thành cm ơn các thy, cô đã to nhng điu kin thun li cho tôi hc  
tp và nghiên cu ti trường Đại Hc Công Ngh.  
Tôi cũng xin gi li cm ơn ti các anh chvà các bn sinh viên trong nhóm “Khai  
phá dliu” phòng thí nghim KT-Sislab đã giúp tôi rt nhiu trong vic htrkiến  
thc chuyên môn để hoàn thành tt khoá lun.  
Cui cùng, tôi mun gi li cm vô hn ti gia đình và bn bè, nhng người thân  
yêu luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt nghip.  
Tôi xin chân thành cm ơn !  
Sinh viên  
Nguyn Đạo Thái  
Tóm tt ni dung  
Mt trong nhng lĩnh vc tìm kiếm Internet được người dùng quan tâm nht đó  
chính là tìm kiếm thông tin vthc thngười. Thc thngười là mt trong nhng loi  
thc thđộ nhp nhng cao nht, mt tên có thể ứng vi các thc thngười khác  
nhau, và nhng tên khác nhau có thể ứng vi mt thc thngười. Tuy nhiên các máy  
tìm kiếm hin nay vn thao thác các văn bn cha tên người ging như các văn bn  
bình thường khác dn đến các kết qutìm kiếm không được như người dùng mong  
đợi.  
Khóa lun tp trung nghiên cu phương pháp gii quyết nhp nhng tên người  
trên tp văn bn trên min dliu báo đin ttiếng Vit da trên đặc trưng vtvng  
và mng xã hi và đề xut áp dng xây dng mt hthng tìm kiếm thc thngười.  
Thc nghim ban đầu vi tp tên người có độ nhp nhng cao cho thy mô hình  
phân bit nhp nhng tên người trên tp văn bn có độ chính xác khá cao và đạt độ đo  
F mc tt (F0.5 = 0.791 và F0.2 = 0.773). Kết qutrên cho thy phương pháp phân  
bit nhp nhng tên người đã đề xut và trin khai là khquan cho ngôn ngtiếng  
Vit.  
Mc lc  
Chương 1. Bài toán phân bit nhp nhng tên người trong hthng tìm kiếm  
thc th. ..........................................................................................................................3  
1.1. Hthng tìm kiếm thc th..................................................................................3  
1.1.1. Nhng thun li và khó khăn trong vic khai thác thông tin trên WWW.....3  
1.1.2. Hthng tìm kiếm thc th............................................................................4  
1.1.3. Vn đề gii quyết nhp nhng tên trong hthng tìm kiếm thc thngười..7  
1.2. Bài toán phân bit nhp nhng tên người trên tp văn bn...................................9  
1.2.1. Phát biu bài toán...........................................................................................9  
1.2.3. Mi quan hvi bài toán phân bit nhp nhng nghĩa ca t. ......................9  
1.2.3. Phương pháp đánh giá..................................................................................10  
Tóm tt chương mt ................................................................................................11  
Chương 2. Phương pháp gii quyết bài toán nhp nhng tên người trên tp văn  
bn.................................................................................................................................12  
2.1. Tiếp cn da trên thc thể định danh .................................................................12  
2.2. Tiếp cn da trên tkhóa ...................................................................................14  
2.3. Tiếp cn da trên kthut trích xut thông tin...................................................18  
2.4. Mt scách tiếp cn khác...................................................................................20  
Tóm tt chương hai..................................................................................................21  
Chương 3: Mô hình hthng phân bit nhp nhng tên người..............................22  
3.1. Cơ sthc tin....................................................................................................22  
3.2. Cơ slý thuyết....................................................................................................24  
3.2.1. Mô hình không gian vector ..........................................................................24  
3.2.2. Thut toán phân cm HAC ..........................................................................26  
3.3. Mô hình hthng phân bit nhp nhng tên người trên tp văn bn .................31  
3.4. Áp dng bài toán phân bit nhp nhng tên người trong hthng tìm kiếm thc  
thngười ....................................................................................................................33  
Tóm tt chương ba...................................................................................................34  
Chương 4. Thc nghim và đánh giá.........................................................................35  
4.1. Môi trường và các công csdng thc nghim. .............................................35  
4.2. Xây dng tp dliu...........................................................................................36  
4.3. Thc nghim.......................................................................................................37  
Thc nghim phân bit nhp nhng tên người trên tp văn bn...........................37  
Kết lun ........................................................................................................................41  
Tài liu tham kho.......................................................................................................42  
Danh sách hình vẽ  
Hình 1 - Kết qutìm kiếm tGoogle vi truy vn “nokia 6030”...................................5  
Hình 2 - Đồ thgia các trang Web dưới góc nhìn thc th...........................................5  
Hình 3 - Kiến trúc hthng tìm kiếm thc thtiêu biu da trên kthut trích xut  
thông tin...........................................................................................................................6  
Hình 4 - Hthng tìm kiếm nơi nghmát ca Cazoodle................................................7  
Hình 5 - Danh sách top 10 tkhóa được tìm kiếm trong Google, Bing và Yahoo năm  
2009 .................................................................................................................................8  
Hình 7 - Các mu trích xut sinh tự động cho ngày sinh ..............................................19  
Hình 8 - Đon trích tbài báo “Năm 2010: ĐH Quc gia Hà Ni tuyn sinh 5.500 chỉ  
tiêu” ...............................................................................................................................22  
Hình 9 - Đon trích tbài báo “Cá ngừ độc là do cha histamin tdo......................23  
Hình 10 - Trích tbài báo “11 giám đốc bưu đin đồng lot hu tòa” ttrang  
vnexpress.net .................................................................................................................23  
Hình 11 - Trích tbài báo “Siêu la Nguyn Lâm Thái có du hiu tâm thn” ttrang  
vnexpress.net .................................................................................................................24  
Hình 13 - Quy trình phân cm.......................................................................................26  
Hình 14 - Ví dvthut toán K-means.........................................................................27  
Hình 15 - Hình vminh ha cho phân cm dliu da trên mt độ............................27  
Hình 16 - Sơ đồ các phân ttrước khi phân cm..........................................................28  
Hình 17 - Sơ đồ các phn tsau khi phân cm phân cp .............................................28  
Hình 18 - Phân cm vi Single-linkage ........................................................................30  
Hình 19 - Phân cm vi Complete-linkage...................................................................30  
Hình 20 - Trung bình các khong cách trong GAAC....................................................31  
Hình 22 - Trích tbài viết “Lê ThThanh Nhàn – nPGS toán hc trnht VN” -báo  
dantri.com.vn.................................................................................................................39  
Hình 23 - Trích tbài viết “Kch tính vòng chung kho Nhân tài đất Vit CNTT  
2008!” – báo dantri.com.vn...........................................................................................39  
Danh sách các tviết tt  
HAC  
Hierarchical agglomerative clustering  
GAAC  
Group-average agglomerative clustering  
WSD  
Word Sense Disambiguation  
World Wide Web  
WWW  
Mở đầu  
Sra đời ca các máy tìm kiếm đã giúp ích cho con người rt nhiu trong các  
hot động khai thác thông tin. Tuy nhiên, cht lượng tìm kiếm thông tin vn còn nhiu  
hn chế, đặc bit là tìm kiếm thông tin vngười, mt trong nhng lĩnh vc có truy vn  
ln nht trong các máy tìm kiếm. Mt khác, thc thngười là mt trong nhng loi  
thc thđộ nhp nhng cao nht, vì vy mà các kết qutrvbi máy tìm kiếm sẽ  
bao gm tt cnhng người có tên ging nhau và người dùng cn phi đọc ln lượt để  
tìm ra kết qumong mun. Vì vy mà cn thiết phi có mt hthng có khnăng gom  
cm kết qusao cho nhng trang Web thuc cùng mt cm nói vmt người, và  
nhng trang Web thuc các cm khác nhau nói vnhng người khác nhau.  
Bài toán ct lõi cho vn đề này là bài toán gii quyết nhp nhng tên người trên  
tp văn bn. Bài toán này đã nhn được squan tâm tcác nhà nghiên cu trong các  
hi nghln trong nhng năm gn đây như Colling, ACL, Senseval…Đặc bit là hi  
nghWebPS1, hi nghdành riêng cho các vn đề gii quyết nhp nhng tên người  
trong kết qutìm kiếm Web. Trong nhng năm gn đây, có rt nhiu nghiên cu và ý  
tưởng được đề xut trên thế gii để gii quyết bài toán này,  
Tuy nhiên, đối vi tiếng Vit thi các nghiên cu vbài toán này vn còn rt hn  
chế. Các nghiên cu tp trung chyếu vào vic thhin tt nht các ngcnh riêng  
bit cho tng người, tìm các độ đo tương đồng ngcnh phù hp và phân cm ngữ  
cnh, hay phân cm văn bn cha ngcnh. Và các phương pháp thường chthao tác  
trên mt min dliu tương đối đặc thù, chkhông có mt phương pháp khthi trên  
nhiu min dliu. Vic tìm ra mt phương pháp tt cho tiếng Vit vn là mt vn đề  
khó khăn, mc dù tiếng Vit đã gii quyết được mt sbài toán cơ s(thuc đề tài KC  
01.01/06-10), tuy nhiên so vi nhu cu ca bài toán gii quyết nhp nhng tên người  
thì vn chưa đủ.  
Mc tiêu ca khóa lun là kho sát, nghiên cu để đưa ra mt phương pháp đủ  
tt gii quyết bài toán phân bit nhp nhng tên người trên min dliu báo đin tử  
tiếng Vit. Để đạt được mc tiêu này, khóa lun kho sát mt sphương pháp tiêu  
biu nht gii quyết bài toán này trên thế gii. Từ đó, khóa lun đưa ra phương pháp  
gii quyết bài toán phân bit nhp nhng tên người trên tp văn bn tiếng Vit. Đầu  
tiên, kho sát min dliu báo đin tử để tìm ra nhng đặc trưng tt (da trên tvng  
đặc đim mng xã hi) thhin riêng bit cho mt người, phân bit người đó vi  
nhng người khác cùng tên. Tiếp đó, thc hin vic gom cm các văn bn cha tên  
1 http://nlp.uned.es/weps/  
1
người này bng thut toán HAC. Khóa lun đã thc nghim vi kết quả độ đo F đạt  
mc tt so vi kết quca thế gii (F0.5 = 0.791 và F0.2 = 0.773); đồng thi, đề xut  
mt mô hình hthng tìm kiếm thc thngười da trên kết qubài toán này.  
Ni dung ca khóa lun được chia thành các chương như sau:  
Chương 1: Khóa lun gii thiu khái quát vhthng tìm kiếm thc thvà bài  
toán gii quyết nhp nhng tên người trên tp tài liu, vai trò ca bài toán đối vi hệ  
thng tìm kiếm thc thngười. Khóa lun cũng trình bày mi liên hca bài toán vi  
bài toán phân bit nhp nhng nghĩa ca t, và phương pháp đánh giá cho bài toán  
phân bit nhp nhng tên người trên tp văn bn.  
Chương 2: Khóa lun gii thiu chi tiết các phương pháp tiêu biu để gii  
quyết vn đề phân bit nhp nhng tên người trên tp văn bn.  
Chương 3: Khoá lun đã gii thiu các đặc trưng ca min dliu báo đin tử  
để từ đó đề xut ra mô hình gii quyết bài toán nhp nhng tên người trên tp văn bn  
ng dng bài toán đó trong vic đề xut mô hình hthng tìm kiếm thc thngười.  
Chương 4: Thc nghim, kết quđánh giá. Tiến hành thc nghim vic vic  
phân bit nhp nhng trên min dliu báo đin ttiếng Vit vi tp dliu kim thử  
là nhng tên người có độ nhp nhng cao.  
Phn kết lun: Tóm lược kết quả đạt được ca khóa lun và định hướng phát  
trin tương lai.  
2
Chương 1. Bài toán phân bit nhp nhng tên người trong hệ  
thng tìm kiếm thc th.  
Tìm kiếm thông tin là nhu cu thiết yếu trong cuc sng con người. Con người  
được thông tin mong mun trt nhiu các ngun tài liu khác nhau như sách v,  
tp chí, và đặc bit là Internet. Internet là mt kho dliu đồ s, tuy nhiên khai thác nó  
là mt thách thc ln vì dliu trên Internet quá đa dng và không có cu trúc. Con  
người mong mun có nhng thông tin dng thc th, bn ghi (thông tin có cu trúc)  
hơn là vic phi đọc ln lượt tng trang Web để tìm ra thông tin mình mong mun.  
Mt trong nhng đối tượng tìm kiếm được quan tâm nht là tìm kiếm người. Tuy  
nhiên, khi thc hin thu thp thông tin vmt người, chúng ta vp phi thách thc là  
nhng người khác nhau có cùng tên nhưng người chúng ta mong mun tìm kiếm chlà  
mt trong sh. Vì vy đối vi các hthng tìm kiếm thc thngười, gii quyết bài  
toán nhp nhng tên có mt ý nghĩa rt quan trng. Chương này sgii thiu mt số  
khái nim và các vn đề liên quan đến bài toán phân bit nhp nhng tên người trong  
máy tìm kiếm thc th.  
1.1. Hthng tìm kiếm thc thể  
1.1.1. Nhng thun li và khó khăn trong vic khai thác thông tin trên WWW  
Khi lượng dliu khng ltrên WWW là ngun tài quyên quý giá cho người  
dùng trong vic khai thác và tìm kiếm thông tin phc vcho nhu cu hiu biết ca  
mình. Người dùng có thtruy cp ngun tài nguyên này mi lúc, mi nơi mt cách  
thun tin; hcó nhiu cơ hi tìm kiếm, tng hp các tri thc để to ra nhng giá trị  
mi. Tuy nhiên, khai khác ngun tri thc này thế nào cho hiu qulà mt vn đề ln.  
Đặc bit là khi lượng thông tin trên WWW ngày càng nhiu, và luôn thay đổi hàng  
ngày hàng gitiêu biu là các tbáo đin ttin tc cp nht trang tin, các website về  
thtrường chng khoán. Hình thc thông tin ngày càng đa dng tvăn bn đến âm  
thanh, hình nh làm cho con người cm giác ngp trong tri thc, khó khăn trong vic  
tìm ra tri thc mình cn. Do đó, cn phi có mt cách thc tchc, qun lý, điu hành,  
cp nht thông tin tWWW phù hp để thun li cho vic khai thác  
Máy tìm kiếm ra đời như mt công chu ích trgiúp trong vic khai thác thông  
tin trên WWW, và phn nào đáp ng được nhu cu người dùng. Máy tìm kiếm có mt  
cách tchc tương đối phc tp nhm mc tiêu ci thin cht lượng khai thác thông  
tin, bao gm các thành phn chính [10]:  
3
Crawler: Thành phn này chu trách nhim đi dc theo các siêu liên kết trên  
WWW để thu thp các trang web để đảm bo tính đầy đủ, và tươi mi ca ca  
thông tin.  
Indexer: Thành phn này thc hin vic lưu trni dung các trang Web theo  
cu trúc chmc ngược đảm bo vic truy sut nhanh thông tin.  
Query Engine: Thành phn này thc hin xlý vi các truy vn ca người dùng  
ri chuyn vdng phù hp thc hin cho vic tìm kiếm.  
Ranking: Thành phn này thc hin vic xếp hng li kết qucác trang theo độ  
phù hp vi câu truy vn trước đi khi trình bày ti người dùng.  
Mc dù đã có rt nhiu ci tiến đối vi các thut toán xếp hng máy tìm kiếm để  
thông tin trình bày ti người dùng là phù hp nht, nhưng kết qutrvvn là nhng  
trang web bao gm cvùng thông tin người dùng quan tâm và các thông tin khác họ  
không quan tâm. Do đó, người dùng mt thi gian để duyt tng trang web tìm ra ni  
dung mà hmong mun.  
Mt bt li na là người dùng rt khó mô tả được trc tiếp nhng điu htruy  
vn ngay tnhng truy vn đầu tiên. Vì vy mà hcn bsung, thay đổi truy vn theo  
mt cách nào đó có thda trên các kết qutìm kiếm ln trước để được nhng  
thông tin phù hp vi nhu cu.  
Các hthng tìm kiếm hin ti vn chyếu da trên mc tvng, chưa có nhiu  
đặc trưng vtính hiu ngnghĩa ca ngôn ng, kết qutìm kiếm không ging như  
người dùng kì vng đặc bit là trong các trường hp từ đồng nghĩa và từ đa nghĩa.  
Tìm kiếm hướng thc thlà mt trong nhng hướng đi được quan tâm gn đây  
để gii quyết nhng hn chế ca các hthng tìm kiếm thông tin hin ti, nhm đem  
li cht lượng khai thác thông tin tt hơn ti người dùng. Xu hướng này sẽ được trình  
bày phn tiếp theo ca khóa lun.  
1.1.2. Hthng tìm kiếm thc thể  
Rõ ràng vi đối tượng trvlà trang Web, mc độ chn lc thông tin phù hp  
vi yêu cu người dùng ca các máy tìm kiếm vn còn mc độ chưa cao, và điu  
người dùng cn là thông tin vcác thc thchkhông phi là các trang Web.  
Ví d: bn Cá mun tìm kiếm giá, thuc tính và hình nh ca đin thoi Nokia  
6030, khi đưa truy vn “Nokia 6030” vào http://google.com snhn được kết qunhư  
sau:  
4
Hình 1 Kết qutìm kiếm tGoogle vi truy vn “nokia 6030”  
-
Trong 10 kết quả đầu trvbi máy tìm kiếm Google, thm chí có trang không  
cha thông tin vcác thuc tính ca đin thoi “Nokia 6030”, điu này tht skhông  
đáp ng được kì vng người dùng.  
Các thc thrt đa dng tcác tchc, người, các sn phm, trường hc, công  
ty....và chúng cũng được phân tán nhiu loi trang Web khác nhau như trang tin tc,  
trang bán hàng, trang cá nhân, blog….  
Khác vi các hthng tìm kiếm thông thường có đối tượng tìm kiếm là các trang  
Web, các hthng tìm kiếm thc thđối tượng tìm kiếm là các thc thể được trích  
chn ra tni dung ca mt hay nhiu trang Web liên quan. Hthng tìm kiếm thc  
thscung cp cho người dùng mt mc lc thông tin mc cao hơn. Và khi đó đồ  
thWeb được nhìn nhn li dưới dng đồ thcác thc th[18]:  
Hình 2 - Đồ thgia các trang Web dưới góc nhìn thc thể  
Sau đây là kiến trúc mt hthng tìm kiếm thc thtiêu biu da trên kthut  
trích xut thông tin [3]  
5
Hình 3 - Kiến trúc hthng tìm kiếm thc thtiêu biu da trên kthut trích xut thông tin.  
Mô hình hthng tìm kiếm thc thbao gm các bphn chính sau:  
Trích xut thông tin vthc th: Công vic ca bphn này là trích xut ra các  
thông tin liên quan đến thc thnày ttt ccác trang Web cha loi thc th.  
Ví dvi thc thể đin thoi thì cn phi trích xut được giá, nhà sn xut, hình  
nh, bn mô t… ca chiếc đin thoi đó. Đây là bài toán không đơn gin vì các  
miêu ttheo ngôn ngtnhiên không theo mt mu nht định đối vi dliu  
phi cu trúc, và bcc trang Web cũng không ging nhau đối vi dliu bán  
cu trúc. Mt gii pháp đặt ra là xây dng bphn trích xuât thông tin cho tng  
loi trang Web cho dliu bán cu trúc. Tuy nhiên điu này là rt khó khăn khi  
thc hin bóc tách thông tin trên mt slượng ln các trang Web.  
Tng hp thông tin vthc th: Sau khi có thông tin vtng thc th, bphn  
này phi chu trách nhim tng hp li các thông tin thu thp được nhng ln  
khác nhau vcùng thc thể đó. Ví d: Vi cùng mt sn phm, trong mt trang  
Web có giá ca nó và trong các trang Web có các chc năng, nếu ta có thtng  
hp thông tin vthc ththì ta scó cái nhìn đầy đủ thông tin vthc th. Tuy  
nhiên điu này gp phi mt skhó khăn như: vn đề nhng thc thkhác nhau  
dùng cùng mt tên và nhng tên khác nhau cùng trvmt thc th, đặc bit là  
trong vn đề tìm kiếm người. Phn tiếp theo ca khóa lun strình bày chi tiết  
6
các vn đề liên quan đến bài toán phân bit nhp nhng tên người trong tìm  
kiếm thc thngười.  
Mt shthng tìm kiếm thc thtiêu biu:  
Hthng Cazoodle2 do nhóm nghiên cu ca Kevin Chen-Chuan Chang (thuc  
phòng thí nghim Cơ sdliu và Hthng thông tin DAIS thuc trường đại hc  
Illinois) là mt hthng tìm kiếm thc thể đin hình, bao gm các lĩnh vc tìm kiếm  
nơi nghmát (Vacation Rental), tìm kiếm căn h(Apartment Rentals), và giá csn  
phm (Electronics Shopping)  
Hình 4 - Hthng tìm kiếm nơi nghmát ca Cazoodle  
1.1.3. Vn đề gii quyết nhp nhng tên trong hthng tìm kiếm thc thể  
người  
Các truy vn tìm kiếm người chiếm mt tlcao ( khong 10%) trong tìm kiếm  
thông tin trên Internet. Theo thng kê nhng tkhóa được tìm kiếm nhiu nht năm  
2009, thì c3 máy tìm kiếm là Google, Bing và Yahoo đứng đầu đều là “Michael  
JackSon”, và trong top 10 có rt nhiu tkhóa tìm kiếm tên người.  
2 http://www.cazoodle.com/  
7
Hình 5 - Danh sách top 10 tkhóa được tìm kiếm trong Google, Bing và Yahoo năm  
2009  
Nhưng tên người li là mt trong nhng loi thc thđộ nhp nhng cao nht.  
d: khi tìm kiếm tên “Michael JackSon” trong hàng trăm kết qutrvbi máy tìm  
kiếm Google, bên cnh ca sni tiếng còn có mt chuyên gia vbia và mt người  
buôn súng. Vic phi duyt tng trang Web để tìm ra người cn là mt quá trình tn  
thi gian. Trong mt hthng lý tưởng, người dùng chcn đưa vào tên người, và kết  
qusẽ được phân cm, trong đó mi cm bao gm các tài liu vcùng mt người kèm  
theo nhng mô tcho cm đó, điu này giúp cho người dùng tiết kim được rt nhiu  
thi gian và công sc. Các hthng thc thtìm kiếm hin ti đang chyếu vào tp  
trung vào vn đề trích xut thuc tính thc th, nhưng vi tìm kiếm thc thngười thì  
vn đề phân bit nhp nhng có ý nghĩa đặc bit quan trng. Nếu ta gii quyết được  
bài toán này, ta có khnăng tng hp, “hàn gn” các thông tin khác nhau vcùng mt  
người trong nhng ln xut hin khác nhau, cho ta mt cái nhìn đầy đủ toàn din về  
người đó.  
Ví dnếu người A tham gia skin B,C trang P1, A li tham gia skiên D,E  
trang P2, ta có thxây dng được lung skin hoàn chnh nếu 2 tên A đều trti  
mt người  
8
B
C
D
E
A
A
P1  
P2  
D
E
A
B
C
Hình 6 - Tng hp thông tin vngười A t2 trang P1 và P2  
Tnhng phân tích trên ta thy rng, bài toán gii quyết nhp nhng tên người  
trong hthng tìm kiếm thc thquy vvn đề gii quyết nhp nhng tên người trên  
tp văn bn. Phn tiếp theo ca chương này strình bày chi tiết vbài toán phân bit  
nhp nhng tên người trên tp văn bn.  
1.2. Bài toán phân bit nhp nhng tên người trên tp văn bn.  
1.2.1. Phát biu bài toán  
Theo Bagga [6], bài toán phân bit nhp nhng tên người trên tp văn bn có mc  
tiêu là vi mi tên người cho trước cn phi phân chia tp văn bn cha tên đó thành  
các nhóm, sao cho các văn bn trong cùng mt nhóm cùng chỉ đến mt người và các  
văn bn thuc các nhóm khác nhau thì chỉ đến nhng người khác nhau.  
Min dliu ca bài toán: Tp các trang Web tin tc tcác tbáo đin tca  
Vit Nam.  
1.2.3. Mi quan hvi bài toán phân bit nhp nhng nghĩa ca t.  
Bài toán phân bit nhp nhng nghĩa ca t(Word Sense Disambiguation -  
WSD) là bài toán có ý nghĩa quan trng trong lĩnh vc xlý ngôn ngtnhiên, dành  
được squan tâm nghiên cu ca các nhà khoa hc trt lâu. Vi hu hết các ngôn  
ng, luôn tn ti mt tp các tcó nhiu hơn mt nghĩa, mà nghĩa ca tchcó thể  
9
xác định da trên ngcnh xut hin ca nó. Mc tiêu ca bài toán là xác định nghĩa  
ca mt ttrong mt văn bn cho trước, kết quca bài toán này đóng vai trò quan  
trng để thc hin các bài toán quan trng tiếp theo trong lĩnh vc xlý ngôn ngtự  
nhiên như dch máy, tóm tt văn bn…Các hướng nghiên cu gii quyết vn đề này rt  
đa dng bao gm hc giám sát (supervised learning), hc bán giám sát (semi-  
supervised learning) và hc không giám sát (unsupervised learning)...  
Bài toán phân bit nhp nhng tên và nhp nhng nghĩa đều có mc đích là gii  
quyết nhp nhng trong xlý ngôn ngtnhiên. Tuy nhiên bài toán WSD gii quyết  
vi mt lp rng các t: danh t, tính t, động t, trng t…Khác bit đầu tiên là sự  
khác bit nghĩa ca tlà khá tinh tế, có nhng nghĩa rt gn nhau nhiu khi vi chính  
con người điu này rt khó khăn để nhn biết. Trái li, vi vn đề tên người, sphân  
bit rt rõ ràng. Khác bit thhai là WSD thường làm vic vi từ đin cha mt số  
lượng nhcác nghĩa ng vi mt t. Nhưng vi bài toán phân bit tên người thì số  
lượng người khác nhau li không được biết trước và slượng trung bình cho mi tên  
cao hơn nhiu so vi slượng nghĩa cho mi t( Có khong 90000 tên được chia sẻ  
bi 100 triu người theo US Census Bureau)  
Chính vì slượng tên người không biết trước nên vic xây dng tp đặc trưng  
cho tng người là mt điu vô cùng khó khăn. Do đó hu hết các các tiếp cn gii  
quyết vn đề này chyếu da trên phương pháp hc không giám sát.  
1.2.3. Phương pháp đánh giá  
Trong khóa lun này, chúng tôi sdng phương pháp đánh giá ca hi nghị  
WePS-1 2007 (Hi nghln nht vcác vn đề trong tìm kiếm thc thngười. Đến  
thi đim này hi nghị đã tchc đến WebPS-3 tp trung vào hai nhim vtrng tâm  
là trích xut thuc tính vngười và phân bit nhp nhng tên người và tên các tchc)  
da trên độ tinh khiết (purity), độ nghch đảo tinh khiết (inverse purity) và độ đo F.  
Các độ đo được định nghĩa như sau:  
Gi C là tp các cm cn đánh giá, L là tp hp các mc (categories) được gán  
nhãn bng tay (các mc ng vi nhng người khác nhau) và n là slượng các văn bn  
được phân cm. Độ tinh khiết được tính da trên vic ly trung bình có trng số độ  
chính xác:  
(1.1)  
10  
Độ nghch đảo tinh khiết tp được tính bi công thc :  
(1.2)  
được định nghĩa như sau:  
Trong đó:  
Độ chính xác ng vi cm Ci vi mi mc L  
Precision (Ci , L ) = | Ci | / | Ci |  
Độ đo F được tính theo công thc:  
j
j
L
j
(1.3)  
(1.4)  
Hthng thường sdng  
Tóm tt chương mt  
α
= 0.5 và  
α
= 0.2.  
Trong chương này, khóa lun gii thiu khái quát vhthng tìm kiếm thc thể  
và bài toán gii quyết nhp nhng tên người trên tp tài liu, vai trò ca bài toán đối  
vi hthng tìm kiếm thc thngười. Khóa lun cũng trình bày mi liên hca bài  
toán vi bài toán phân bit nhp nhng nghĩa ca t, và phương pháp đánh giá cho bài  
toán. Trong chương tiếp theo, khóa lun nêu ra mt sphương pháp gii quyết được  
áp dng thành công trong lĩnh vc này.  
11  
Chương 2. Phương pháp gii quyết bài toán nhp nhng tên  
người trên tp văn bn  
Trong chương này, khóa lun trình bày mt snghiên cu trên thế gii vgii  
quyết nhp nhng tên người trên tp văn bn. Vn đề này được thc hin trên nhiu  
min lĩnh vc khác nhau tphân bit các tác gitrong các công trình khoa hc, tên  
người được đề cp đến trong các nht báo, và nhng người ni tiếng trên môi trường  
WWW…Và mi min ng dng khác nhau, các cách tiếp cn khác nhau được đề xut  
nhm ly ra nhng đặc trưng được coi là tiêu biu nht cho ngcnh. hu hết các  
công trình đều sdng githiết rng, tt ccác tên ging nhau được đề cp trong mt  
văn bn đều chnói ti mt người duy nht. Vì vy công vic phân bit nhp nhng  
tên người chuyn vbài toán phân cm ngcnh, trong đó nhng văn bn đề cp ti  
mt người được nhóm vào mt cm, văn bn đề cp đến nhng người khác thì thuc  
cm khác và mi văn bn chỉ được thuc vmt cm duy nht.  
2.1. Tiếp cn da trên thc thể định danh  
Vào năm 1998, Bagga và Breck Baldwin [6] gii thiu phương pháp gii quyết  
bài toán phân bit nhp nhng tên người bng cách xây dng ngcnh da trên tp  
thc thể định danh xut hin trong câu cha tên người bng mô hình không gian  
vector. Phương pháp này được thc nghim trên tp dliu gm 197 bài báo tnăm  
1996 đến 1997 ca tp chí New York Times.  
Mô tphương pháp ca Bagga như sau:  
Bước 1 : Đầu tiên vi mi bài báo được đưa vào, phn mm CAMP sxlý  
nhng bài báo này. Kết quca quá trình xlý là mt chui các thc thvà các tham  
chiếu ca nó trong văn bn.(Hthng CAMP ca trường đại hc Pennsylvania gii  
quyết bài toán đồng tham chiếu trong mt văn bn cho các lp khác nhau như đại t,  
danh triêng [8]. Kết quca hthng CAMP là mt chui các thc thcó tên xut  
hin trong văn bn và các tham chiếu ti nó tương ng trong văn bn đó)  
Ví d:  
Vi văn bn đầu vào:  
Văn bn doc.36  
John Parry, of Weston Golf Club, announced his regination yesterday. He  
was President of Massachusetts Golf Association. During his two years, Perry  
guided the MGA into a closer relationship with Woment’s Golf Association of  
Massachusetts.  
12  
Văn bn doc.38  
Oliver “Biff” Kelly of Weymonth succeeds John Perry as President of  
Massachusetts Golf Association. “We will haved continues growth in the future”  
said Kelly, who will serve for two years. “There’s been a lot of changes and there  
will be continued change as we head into the year 2000”  
Kết quca bước này đối vi văn bn doc.36 là mt chui như sau:  
John Parry  
Weston Golf  
Club  
Massachusetts  
Golf Association  
Woment’s  
Golf  
Association  
He  
Perry  
Hình 2.1 – Kết quphân tích đồng tham chiếu văn bn doc.36  
Kết quca bước này đối vi văn bn doc.38:  
John Parry  
Massachusetts  
Golf  
Association  
Oliver “Biff”  
Kelly  
Kelly  
Hình 2.2 – Kết quphân tích đồng tham chiếu văn bn doc.38  
Bước 2 : Vi mi chui đồng tham chiếu cn được quan tâm ( ví dchui đồng  
tham chiếu ng vi “Jonh Perry” ) , module “Sentence Extractor” strích xut ra tt  
cnhng câu cha cm danh ttrong chui đồng tham chiếu trong văn bn. Hay nói  
cách khác, module này sthc hin công vic to ra mt bn tóm tt biu din chui  
thc thca mi bài báo hướng vthc thể được quan tâm. Do đó vi văn bn doc.36,  
vì ít nht mt trong 3 cm danh ttrong chui đồng tham chiếu ( “John Parry”, ”He”,  
13  
”Perry” ) đều xut hin trong các câu ca văn bn , nên phn tóm tt được sinh bi  
module “Sentence Extractor” chính là phn trích xut được. Còn vi văn bn doc.38  
phn tóm tt chlà câu đầu tiên ca phn trích xut được bi vì chcó duy nht 1  
thành phn duy nht “John Parry” xut hin câu này.  
Bước 3 : Vi mi bài báo, hthng sdng mô hình biu din không gian  
vector (Vector Space Model) tính độ tương đồng gia các bài báo này. Vi mi bn  
tóm tt có được tbước trước, các tdng được lc b, các tkhác được phân tích  
hình thái để đưa vdng ban đầu, và được biu din bng mô hình vector. Độ tương  
đồng vượt trên mt ngưỡng thì 2 bài báo được coi là cùng nói vmt người.  
Cthnhư sau:  
S1 S2 là 2 vector cho 2 bn tóm tt được trích xut tcác bài báo D1 D2  
độ tương đồng ca chúng được tính như sau:  
,
w * w  
Sim( S1  
,
S2 ) =  
(2.1)  
1 j  
2 j  
t j  
Trong đó t j là thành phn chung ca 2 vector S1  
,
S2  
.
w1 j là trng sca t j trong S1 w2 j là trng sca t j trong S2  
Trng st j ca vector Si được tính như sau:  
.
N
tf * log  
df  
w ij  
=
(2.2)  
s i21 + s i22 + .. + s i2n  
Trong đó tf là tn sca t j trong phn tóm tt.  
N là slượng văn bn.  
2.2. Tiếp cn da trên tkhóa  
Trong bài báo năm 2006, Danushka Bollengala [9] trình bày mt thut toán hc  
không giám sát to ra nhng cm tkhóa duy nht để phân bit nhng người khác  
nhau có cùng tên. Thut toán nhn đầu vào là tên mt người và cho ra kết qulà tp  
các cm tkhóa duy nht thhin cho nhng người khác nhau. Các cm tnày sau  
đó có thể được bsung vào truy vn để làm hp min tìm kiếm do đó tăng độ chính  
xác cho các kết qutìm kiếm. Phương pháp được áp dng cho min dliu các tên  
nhà khoa hc trên dliu Web.  
Lược đồ hthng được mô tnhư sau  
14  
Hình 2.3 - Lược đồ hthng phân bit nhp nhng tên người da trên tkhóa  
Nhng module chính ca hthng:  
Bước 1: Thu thp web cha tên cn phân bit nhp nhng (Download Web Pages)  
Bước này hthng sdng máy tìm kiếm Google, các truy vn sẽ được đưa vào  
máy tìm kiếm và ly ra 100 kết quả đầu tiên cho mi tên cn phân bit nhp nhng.  
Bước này có thbqua nếu như đã có sn mt tp tài liu cha tên nhp nhng.  
Bước 2: Trích xut các “term” quan trng (Extract Terms)  
bước này mô hình da trên githuyết là: Nếu sxut hin ca các tên nói về  
cùng mt người thì ngcnh xung quanh chúng là ging nhau. Và điu này dn đến là  
nếu 2 tên có ngcnh xut hin ging nhau thì khnăng cao là chúng đề cp đến cùng  
mt người. Do đó, hthng cn phi chn được nhng đặc trưng mang thông tin tt  
nht cho ngcnh tên người xut hin.  
Mô hình “Term” (Term Model) được đề xut cho vic thhin ngcnh ca mi  
tên.  
Mô hình T(A) = t1 , t2 ,… t N ca mt tên A được định nghĩa như mt tp hp các  
“term” được trích xut tngcnh ca tên. Các “term” được trích xut tự động sử  
dng thut toán C-Value.  
Thut toán C-Value kết hp thông tin vngôn ngvà thông tin vthng kê.  
Thông tin vngôn ngbao gm vic gán nhãn tloi, lc btdng, và sdng mt  
smu vngôn ngữ để thành lp các cm danh t. Ví dnhư: có mu mt stính từ  
đứng trước danh tthì chúng và danh từ đó to thành cm danh t. Các thông tin về  
thng kê cho phép loi bcác cm tít mang li thông tin cho ngcnh ca tên. Khái  
nim “termhood” (mc độ mt cm danh ttrthành “term”) được đánh giá da trên  
C-value[14,15]. Giá trca C-value được tính như sau:  
15  
log 2 |a|*f(a)  
log|a|(f(a) -  
nếu a nm trong “term” khác  
C-value(a) =  
1
f (b)  
) trường hp ngược li  
P(Ta ) bT  
a
(2.3)  
Trong đó:  
a là ng viên.  
f(a) là tn sca ng viên trong văn bn.  
|a| là độ dài ca a.  
T a là tp các cm tcha a.  
P(T a ) là slượng cm tTa .  
Bước 3 : Thu thp snippet (Download snippets).  
Vic phân bit nhp nhng tên da vào độ tương đồng ngcnh. Vic tính độ  
tương đồng da trên so khp “term” là rt khó, vì các “term” có slp li rt ít. Ví d:  
“term” “George Bush” và “term” “The president of the United States” dù gn nhau về  
mt ý nghĩa nhưng li không có tnào lp li trong nhau. Vì vy hthng tính toán độ  
tương đồng gia 2 “term” sdng “snippet” được trvbi máy tìm kiếm.( “Snippet”  
là mt mu văn bn nh, cha 2 hay 3 câu được trích xut tvăn bn cho câu truy  
vn, và thường đi kèm vi các kết qutìm kiếm ca các máy tìm kiếm)  
Ví d: vi trường hp ca “George Bush” và “The president of the United States”,  
trong s5 “snippet” được trvbi máy tìm kiếm Google, có nhiu tchung như  
“President”, “White House”, “Official” , “and”, “site”. Đối vi mi “term” ta xây  
dng phân b(distribution) ca các ttrong các “snippet” ca “term”. Tn sut xut  
hin mi từ được chia cho tng sttrong các “snippet”. Sau đó hthng tính toán độ  
phân k(divergence) KullBack-Liebler (KL), như độ đo tương tgia 2 “term”.  
Vi 2 phân bxác sut p(x) và q(x) ca biến xác sut ngu nhiên x  
X độ phân kỳ  
KullBack-Liebler được định nghĩa như sau:  
p(x)  
D(p||q) =  
p(x)log  
(2.4)  
q(x)  
xX  
Trong đó X là tp tvng. KL-divergence strnên không xác định khi có  
nhng tcó xác sut bng 0. “Skew divergence” Sα (p,q)được dùng để gii quyết vn  
đề này  
Sα (p,q) = D(q||  
α
p + (1 -  
α
)q )  
(2.5)  
16  
Trong đó α [0,1] là mc độ thiên lch gia hai phân bp và q. Để chuyn từ  
“Skew divergence” bt đối xng sang độ đo đối xng sim(p,q) ta sly giá trphân tán  
trung bình (average diverge):  
1
sim(p,q) = exp(- (Sα (p,q) + Sα (q,p))  
(2.6)  
= 0.9  
2
Trong phn cài đặt hthng ly 100 “snippets” tGoogle và  
Bước 4: Tính toán độ tương đồng (Calculate similarity)  
α
Ly T(A) = {a1 , a 2 , a3 ,…, an } là mô hình “term” cho văn bn A và T(B) = { b1 ,  
b2 , b3 ,…, b m } là mô hình “term” cho văn bn B. Ở đây a1 , a 2 , a3 ,…, a n là các term  
trích xut tvăn bn A, và b1 , b2 , b3 ,…, b m là các term trích xut tvăn bn B.  
Chúng ta định nghĩa độ tương đồng DocSim(A,B) gia A và B sdng mô hình T(A)  
và T(B) như sau:  
1
sim (a ,b )  
i
j
DocSim(A,B) =  
(2.7)  
mn  
ai ;b j  
ai  
A , bj  
B.  
Ở đây sim(ai , bj) được tính công thc (2.6)  
Bước 5 : Phân cm văn bn :  
Hthng sdng phương pháp phân cm trung bình nhóm (Group-average  
agglomerative clustering (GAAC)) để phân cm các văn bn cha tên xut hin. Đây  
là phương pháp phân cm phân cp tdưới lên. Ban đầu mi văn bn được gán là mt  
cm riêng r. GAAC ti mi vòng lp trn 2 cm mi tha mãn cc đại hóa giá trC  
(2.8)  
Trong đó |  
Γ
| là svăn bn trong cm và u, v là 2 văn bn trong cm  
Γ
.
Bước 5: La chn scm.  
Trong trường hp tt nht, chn được scm bng chính sngười có trùng tên.  
Tuy nhiên, sngười là không biết trước nên bài toán tìm scm chuyn vbài toán ti  
ưu hóa:  
Cc đại hóa độ tương đồng các văn bn trong cm.  
Cc tiu hóa độ tương đồng văn bn các cm khác nhau.  
Trong bài báo này tác gicgng tìm scm để tha mãn 2 điu kin trên bng  
độ đo liên kết trong cm và độ tương tác ngoài.  
Bước 6: La chn các “term” đại din cho các cm.  
Thun toán GAAC to ra mt tp các cm đại din cho nhng người khác nhau.  
Để la chn tkhóa giúp nhn dng mt cách duy nht cho mi người, đầu tiên hệ  
thng sly ra tt cnhng “terms” trong mô hình “term” như là nhng tkhóa giúp  
nhn din duy nht mt người. Sau đó trong nhng “term” này ly ra nhng “term” có  
tính phân bit cao nht cho mi người. Quá trình được thc hin qua 2 bước. Bước đầu  
17  
tiên sgim bt s“term” trong môt cm bng cách bnhng “term” mà nó cũng xut  
hin trong cm khác. Bước thhai, la chn các term trong mi cm da vào độ  
tương đồng vi tên được đưa vào tìm kiếm ban đầu, và la chn nhng “term” có độ  
tương đồng cao nht.  
2.3. Tiếp cn da trên kthut trích xut thông tin  
Năm 2003, S.Mann và David Yarowsky [13] gii thiu mt thut toán không  
giám sát hiu quả để phân bit nhp nhng tên người. Phương pháp này da trên kỹ  
thut trích xut thông tin sdng thut toán không giám sát để sinh tự động mu trích  
xut ca Ravichan và Hovy [11] và thut toán phân cm phân cp. Vic sdng kỹ  
thut trích xut thông tin giúp làm giàu đặc trưng cho người bng các thuc tính cá  
nhân như : ngày sinh, nghnghip, nơi làm vic, quc tch, nơi . Tác giả đã kết hp  
và so sánh kết quca vic kết hp các thuc tính cá nhân và các đặc trưng khác như:  
các ttrong văn bn, danh triêng, đặc trưng mrng.  
Mô hình tác giả đưa ra gm 2 pha chính:  
™ Pha 1: Sdng kthut trích xut thông tin để trích xut các thuc tính đặc  
trưng mnh cho người cn phân bit.  
Trong pha 1 chia làm 2 bước nh:  
Bước 1: Sinh mu trích xut đặc trưng.  
Hthng sdng và mrng phương pháp ca Ravichan và Hovy [11]. Phương  
pháp này da trên kthut boot-trapping, tự động sinh mu ttp nhân mi ban đầu.  
Nó có li thế là không phthuc vào ngôn ng(independent language) , vì vy mà nó  
rt khchuyn có thsinh mu cho các ngôn ngkhác nhau vi độ chính xác cao.  
Ví dvi tp nhân ban đầu là (‘Mozart’,1756)  
Hthng ssinh ra mt truy vn đưa vào máy tìm kiếm để tìm ra nhng câu  
cha cp nhân trên. Ví dvi máy tìm kiếm Altavista truy vn là “Mozart”+ “1976.  
Sau đó chgili nhưng câu cha đủ ccp nhân.  
Tt các các sâu con cha cp nhân này trong mi câu được ly ra. Nhng sâu con  
này được đơn gin hóa bng cách thay các nhân bng nhãn ca nó. Trong trường hp  
này ta thay ‘Mozart’ bng <name> và 1976 bng <birth year>. Tt cnhng chsố  
khác được thay bng du #.  
Ttt ccác chui này ta xây dng nên cây hu t(suffix-tree), và chgili  
nhng chui con có tn xut xut hin cao.  
Vi mi chui con có tn scao này li lc ra chchn nhng chui cha đủ tp  
nhân ban đầu là ‘Mozart’ và 1756, khi đó chúng strthành nhng mu tim năm.  
18  
Nhng mu tim năng được kim tra xem nó có thc sự đáng tin cy hay không,  
bng cách áp dng nó vi các tp nhân khác, nếu kết quvượt trên mt ngưỡng nào đó  
thì có thcoi là tin cy.  
Khi áp dng mô hình trên hthng thu được các mu vi quan htên và ngày  
ngày sinh:  
Hình 7 - Các mu trích xut sinh tự động cho ngày sinh  
Hthng sdng phương pháp trên cho vic sinh mu tự động cho năm sinh và  
nghnghip và sinh mu bng tay cho thông tin vnơi sinh, ngày sinh, quc tch, gia  
đình, đồng nghip.  
Bước 2: Áp dng mu có được bước 1 để trích ra các đặc trưng quan trng cho  
người.  
™ Pha 2: Sdng kthut phân cm phân cp da trên các đặc trưng có tpha 1  
chia các tài liu thành các cm, các tài liu trong mt cm nói vmt người duy  
nht.  
Hthng sdng thut toán phân cm phân cp tdưới lên. Trong thut toán  
này, mi văn bn sẽ được coi như mt vector ca các đặc trưng trích chn được tvăn  
bn. Ti mi giai đon ca quá trình phân cm, 2 vector tương đồng nht sẽ được trn  
19  
li vi nhau to ra mt cm mi, và vector mi cho cm đó tương đương vi trung  
bình ca các vector trong cm. Quá trình này tiếp tc cho đến khi chcòn 1 cm duy  
nht. Vector đặc trưng cho mi văn bn được sinh ra theo nhng phương pháp sau:  
Baseline: Tt ccác thoc chdanh triêng.  
Most Relevant words : Nhng tliên quan nht.  
Biographical features: Các thông tin đặc trưng hsơ người dùng.  
Extend Biographical features: Các thông tin đặc trưng mrng hsơ  
người dùng.  
- Vi phương pháp Baseline, hthng sdng tt ccác ttrong văn bn (loi  
btdng), hoc chdanh triêng. Sau đó biu din dưới dng mô hình vector và độ  
đo cosin để tính độ tương đồng.  
- Vi phương pháp dùng nhng tliên quan nht, hthng thnghim cvic  
đánh trng sca ttrong mô hình vector theo cả độ đo tf-idf và độ đo tương tác  
thông tin (mutual information)  
p
(
w
|
c
)
I(w;c) =  
(2.9)  
p
(
w
)
Trong đó c là tp hơn văn bn và w là tcn đánh trng số  
Trng sca ttrong mô hình vector là log(I(w;c))  
- Vi phương pháp dùng các thông tin đặc trưng hsơ người dùng, hthng  
dùng phương pháp sinh mu trích xut không giám sát để trích ra.  
- Vi phương pháp dùng thông tin đặc trưng mrng hsơ người dùng: đối vi  
nhng ttha mãn mu trích xut sẽ được gán trng scao hơn, ví dnăm 1756 tha  
mãn mu trích xut vngày sinh thì vi các sxut hin khác ca 1976 sẽ được đánh  
trng srt cao.  
Khi phân cm, hthng sdng nhng thông tin vngười dùng như nhng ht  
ging để chia các cm thành các nhóm. Tiếp theo da trên các đặc trưng còn li, để  
thc hin phân cm phân cp tdưới lên.  
2.4. Mt scách tiếp cn khác  
Năm 2005, Malin [16] đưa ra mt cách gii quyết bài toán phân bit nhp nhng  
tên người da trên lý thuyết đồ th. Bài toán này áp dng vi cơ sdliu phim  
Internet (Internet Movie Database – IMDB). Trong đó, tên ca din viên được biu  
din bi mt đỉnh, và cp ni gia 2 đỉnh hay gia 2 din viên biu thcho mi quan  
hlà họ đóng trong cùng mt phim. Sau đó đồ thnày được sdng phân bit các đỉnh  
có cùng tên bng cách phân tích nhng đỉnh hàng xóm ca chúng.  
20  
Trong các bài báo ca tác giElmacioglu [12] và Reema [17] các tác gibsung  
thêm nhng đặc trưng vliên kết cho vic tính tương đồng gia ngcnh nơi tên  
người xut hin. Reema cho rng nếu 2 trang Web cha tên người thuc cùng vmt  
domain thì khnăng cao là 2 tên đó cùng chvmt người, và loi trnhng trang  
web thuc vmng xã hi vì chúng nm ngoài giả định này. Elmacioglu biu din các  
liên kết bng mô hình vector, trong đó mi liên kết là mt chiu và trng số được đánh  
stheo phương pháp tf-idf. Trong hthng PNUS, Elmacioglu còn khai thác thêm  
tính giàu thông tin ca địa churl theo phương pháp ca hthng MeURL[17]. Ví dụ  
địa churl có dng: “http://www.cs.ualberta.ca/~lindek/” tnó gi ý rng đây là trang  
chca tác giLindek ti ngành khoa hc máy tính, đại hc Alberta, Canada.  
Tóm tt chương hai  
Trong chương hai, khóa lun gii thiu chi tiết các phương pháp tiêu biu trên  
thế gii để gii quyết vn đề phân bit nhp nhng tên người trên tp văn bn. Các  
phương pháp tp trung vào vic thhin ngcnh nơi mà tên người và xut hin và đo  
độ tương đồng gia các ngcnh này và cui cùng là phân cm ngcnh hay phân  
cm văn bn cha ngcnh. Mt điu dnhn thy là các phương pháp này đều phụ  
thuc rt nhiu vào min dliu để được kết quchính xác. Trong chương tiếp  
theo, khóa lun stp trung vào vic khai thác nhng đặc trưng ca min dliu khóa  
lun thc hin là các trang Web tin tc ca các báo đin tVit Nam để xây dng nên  
ngcnh tên người và đề xut mô hình cho vic gii quyết nhp nhng tên người trên  
tp văn bn, ng dng ca nó trong hthng tìm kiếm thc thngười.  
21  
Chương 3: Mô hình hthng phân bit nhp nhng tên người  
3.1. Cơ sthc tin  
Như đã trình bày phn trên, mi phương pháp được đưa ra chkhthi trên mt  
min dliu nht định và phn ln là trong ngôn ngtiếng Anh, chưa có mt phương  
pháp nào áp dng trên nhiu min dliu. Vì vy, vic nghiên cu min dliu rt  
quan trng để đưa ra mt phương pháp đúng đắn trên min đó. Khóa lun này thc  
hin công vic phân bit nhp nhng tên người trên min dliu báo đin tVit  
Nam, nên cn vic phân tích nhng đặc trưng vngôn ngvà hình thc ca báo đin  
tlà rt cn thiết. Ví dmt bn tin vgiáo sư “Nguyn Hu Đức”-Phó giám đốc đại  
hc Quc Gia Hà Ni.  
Hình 8 - Đon trích tbài báo “Năm 2010: ĐH Quc gia Hà Ni tuyn sinh 5.500 chtiêu”  
Phương pháp ca S.Mann và David Yarowsky [13] sdng vic sinh mu trích  
xut không giám sát để trích ra các thông tin quan trng liên quan đến thc thngười  
như ngày sinh, nơi sinh, nghnghip…Rõ ràng là vi min dliu báo đin tVit  
Nam nhng thông tin như vy là rt hiếm và vic sinh mu bt được thông tin là không  
hề đơn gin vì tính đa dng cu trúc ca tiếng Vit. Phương pháp ca Bagga và Breck  
Baldwin [6], sdng khử đồng tham chiếu và xây dng vector thc thbiu din ngữ  
cnh ca tên người, tuy nhiên có mt svn đề là khi thc hin trên min dliu báo  
đin tVit Nam: thnht là ngôn ngtiếng Vit chưa có mt công cngun mnào  
cho vic thc hin khử đồng tham chiếu, thhai là khi mt người tham gia vào nhng  
hot động khác nhau thì tp thc định danh thbiu din ngcnh ca người đó cũng  
rt khác nhau do đó nếu biu din bng mô hình vector thì vector sbthưa vi nhiu  
phn tbng 0 và độ tương đồng thp, gây sai lch kết qu.  
Min dliu báo đin tVit Nam có mt số đặc đim phc vcho vic phân  
bit nhp nhng tên người như sau:  
22  
Đặc trưng thnht: Trong bài báo,thường có có mt câu gii thiu chi tiết đầy đủ  
vthông tin mt người phn đầu bài báo. Đây là nhng thông tin mang tính định  
danh mnh nht cho mt người nào đó, chúng rt có ý nghĩa trong vic phân bit tên  
người.  
Hình 9 - Đon trích tbài báo “Cá ngừ độc là do cha histamin tdo”  
Như ví dụ ở trên, chc danh và địa chcông tác ca mt người có tên là “Nguyn  
Hu Đức” xut hin đầy đủ trên câu đầu tiên ca bài báo.  
Qua kho sát 1000 trang Web, chúng tôi thy đặc trưng trên xut hin rt phổ  
biến trên min dliu báo chí đin t.  
Đặc trưng thhai: Mt đặc trưng vmng xã hi. Nếu hai bài báo cha tên nhp  
nhng, mà có t2 tên người chung nhau (khác vi tên nhp nhng) trlên thì khả  
năng rt ln là hai bài báo đó cùng nói vmt người. Nó có thhiu như mt dng  
quan hxã hi.  
Hình 10 - Trích tbài báo “11 giám đốc bưu đin đồng lot hu tòa” ttrang vnexpress.net  
23  

Tải về để xem bản đầy đủ

pdf 50 trang yennguyen 04/01/2025 160
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_phan_biet_nhap_nhang_ten_nguoi_trong_he_thong_tim.pdf