Khóa luận Trích chọn thông tin y tế tiếng Việt cho bài toán tìm kiếm ngữ nghĩa

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Trn ThNgân  
TRÍCH CHN THÔNG TIN Y TTING VIT CHO  
BÀI TOÁN TÌM KIM NGNGHĨA  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Trn ThNgân  
TRÍCH CHN THÔNG TIN Y TTING VIT CHO  
BÀI TOÁN TÌM KIM NGNGHĨA  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: PGS. TS. Hà Quang Thy  
Cán bộ đồng hướng dn: Th.S Nguyn Cm Tú  
HÀ NI - 2009  
LI CM ƠN  
Đầu tiên cho em gi li cm ơn sâu sc nht đến PGS. TS. Hà Quang Thy,  
Th.S Nguyn Cm Tú đã tn tình chbo cho em trong sut thi gian thc hin  
khóa lun. Trong quá trình nghiên cu em đã gp phi nhiu khó khăn nhưng nhờ  
shướng dn tn tình ca thy và chem đã dn vượt qua và hoàn thành được khóa  
lun.  
Em xin bày tlòng biết ơn đến các thy cô trong trường Đại Hc Công  
Nghệ đã ging dy và cho em nhng kiến thc quý báu, làm nn tng để hoàn thành  
khóa lun cũng như thành công trong nghiên cu, làm vic trong tương lai.  
Em xin gi li cm ơn ti các anh chtrong phòng Lab đã cho em nhng li  
khuyên quý báu, bích trong quá trình thc hin quá lun.  
Và em cũng xin li cm ơn ti nhng người bn thân yêu, đặc bit là các bn  
trong phòng ký túc xá đã bên cnh động viên trong để giúp em hoàn thành khóa  
lun cũng như vượt qua nhiu khó khăn trong cuc sng.  
Cui cùng, cho con gi li cm ơn sâu sc ti gia đình, b, m, chvà em đã  
cho con nhiu tình thương cũng như sự động viên kp thi để con vượt qua nhng  
khó khăn trong cuc sng và hoàn thành được khóa lun.  
i
TÓM TT  
Trích chn thông tin y tế nhm xây dng được mt tp dliu tt, đầy đủ để  
htrvic tìm kiếm ngnghĩa đang là nhu cu thiết yếu, nhn được squan tâm  
đặc bit trong thi gian gn đây. Ontology là cách biu din khái nim, thuc tính,  
quan htrong min ng dng đảm bo tính nht quán và đủ phong phú. Xây dng  
hthng trích chn thông tin da trên mt Ontology y tế Tiếng Vit cho phép tìm  
kiếm và khai phá loi dliu thuc min ng dng hiu quhơn là mt nhu cu  
thiết yếu.  
Khóa lun này đề cp ti vic xây dng mt hê thng trích chn thông tin  
da trên mt ontology trong lĩnh vc y tế tiếng Vit. Khóa lun đã phân tích mt số  
phương pháp, công cxây dng Ontology để la chn mt mô hình và xây dng  
được mt Ontology y tế tiếng Vit vi 21 lp thc th,13 mi quan hvà trên 500  
thhin ca các lp thc th. Khóa lun đã tiến hành chú thích cho 96 file dliu  
vi trên 1500 thhin. Hthng nhn din thc ththc nghim ca khóa lun đã  
hot động có tính khthi vi độ đo F1 trung bình qua 10 ln thc nghim đạt  
khong 64%.  
ii  
MC LC  
Li mở đầu ...........................................................................................................................1  
Chương 1..............................................................................................................................3  
TNG QUAN VTÌM KIM NGNGHĨA.....................................................................3  
1.1. Nhu cu vtìm kiếm ngnghĩa..........................................................................3  
1.2. Nn tng tìm kiếm ngnghĩa..................................................................................4  
1.2.1.Web ngnghĩa.....................................................................................................4  
1.2.2. Ontology .............................................................................................................5  
1.3. Kiến trúc ca mt máy tìm kiếm ngnghĩa............................................................5  
1.4.Trích chn thông tin .................................................................................................6  
Chương 2..............................................................................................................................9  
XÂY DNG ONTOLOGY Y TTING VIT ................................................................9  
2.1. Gii thiu Ontology.................................................................................................9  
2.1.1. Khái nim Ontology ...........................................................................................9  
2.1.2. Các thành phn ca Ontology...........................................................................10  
2.1.3 Mt scông trình liên quan ti xây dng Ontology..........................................11  
2.2. Lý thuyết xây dng Ontology ...............................................................................12  
2.1.1. Phương pháp xây dng Ontology.....................................................................12  
2.1.2. Công cxây dng Ontology.............................................................................13  
2.1.3. Ngôn ngxây dng Ontology ..........................................................................15  
2.3. Xây dng Ontology y tế tiếng Vit .......................................................................16  
Chương 3............................................................................................................................17  
NHN DNG THC TH...............................................................................................17  
3.1. Gii thiu bài toán nhn dng thc th.................................................................17  
3.1.1. Gii thiu chung vnhn dng thc th...........................................................17  
3.1.2. Mt skết qunghiên cu vnhn dng thc th...........................................18  
3.2. Đặc đim dliu tiếng Vit ..................................................................................19  
3.2.1. Đặc đim ngâm..............................................................................................19  
3.2.2. Đặc đim tvng .............................................................................................20  
3.2.3. Đặc đim ngpháp...........................................................................................20  
3.3. Mt sphương pháp nhn dng thc th..............................................................21  
3.3.1. Phương pháp da trên lut, bán giám sát.........................................................23  
3.3.2. Các phương pháp máy trng thái hu hn........................................................23  
iii  
3.3.3. Phương pháp sdng Gazetteer.......................................................................24  
3.4. Nhn dng thc thy tế tiếng Vit........................................................................25  
3.4.1. Nhn dng thc thtiếng Vit..........................................................................25  
3.4.2. Nhn dng thc thy tế tiếng Vit ...................................................................26  
Chương 4............................................................................................................................30  
XÁC ĐỊNH QUAN HNGNGHĨA..............................................................................30  
4.1. Tng quan vxác định quan hngnghĩa............................................................30  
4.1.1. Khái quát vquan hngnghĩa .......................................................................30  
4.1.2. Trích chn quan hngnghĩa ..........................................................................31  
4.1.3. Mt snghiên cu liên quan đến xác định quan hngnghĩa ........................35  
4.2. Gán nhãn ngnghĩa cho câu.................................................................................37  
4.3.1. Phân lp vi xác định quan h, nhn dng thc th.........................................39  
4.3.2. Thut toán SVM (Support Vector Machine) ....................................................41  
4.3.3 Phân lp đa lp vi SVM ..................................................................................41  
4.3.4. Áp dng SVM vào phân loi quan hngnghĩa trong lĩnh vc  
y tế tiếng Vit..............................................................................................................42  
Chương 5............................................................................................................................43  
THC NGHIM................................................................................................................43  
5.1. Môi trường thc nghim .......................................................................................43  
5.1.1. Phn cng .........................................................................................................43  
5.1.2 Phn mm ..........................................................................................................43  
5.1.3 Dliu thnghim............................................................................................44  
5.2 Xây dng Ontology................................................................................................44  
5.2.1. Phân cp lp thc th........................................................................................44  
5.2.2. Các mi quan hgia các lp thc th.............................................................47  
5.3. Chú thích dliu..................................................................................................48  
5.4. Nhn dng thc th................................................................................................50  
5.4.1. Xây dng tp gazetteer .....................................................................................50  
5.4.2.Đánh giá hthng nhn dng thc th..............................................................51  
5.4.3. Kết quả đạt được...............................................................................................52  
5.4.4. Nhn xét và đánh giá ........................................................................................52  
5.5. Gán nhãn ngnghĩa cho câu.................................................................................53  
PHLC - MT STHUT NGANH VIT ............................................................54  
KT LUN ........................................................................................................................55  
iv  
DANH MC BNG BIU  
Bng 1: Gii thích các mi quan hngnghĩa...................................................................35  
Bng 2: Slượng các thhin ca các lp thc thtrong tp dliu gazetteer. ................50  
Bng 3: Các giá trị đánh gía mt hthng nhn din loi thc th.....................................51  
Bng 4: Kết qusau 10 ln thc nghim nhn dng thc th..............................................52  
Bng 5: Ví dmt scâu được gán nhãn quan h. .............................................................53  
v
DANH MC HÌNH VẼ  
Hình 1: Ví dvWeb ngnghĩa ................................................................................ 4  
Hình 2: Kiến trúc mt máy tìm kiếm ngnghĩa......................................................... 6  
Hình 3: Minh ha mt hthng trích chn thông tin.................................................. 7  
Hình 4: Mô tý nghĩa ca Ontology........................................................................... 9  
Hình 5: Minh ha cu trúc phân cp ca Ontology BioCaster ................................. 10  
Hình 6: Mt sfile Gazetteer được xây dng phc vbài toán nhn dng thc th25  
Hình 7: Minh ha mt quan hngnghĩa cho thc thcar...................................... 30  
Hình 8: Minh ha vtrích chn quan hngnghĩa.................................................. 31  
Hình 9: Vtrí ca khai phá quan hngnghĩa trong xlý ngôn ngtnhiên........ 32  
Hình 10: Minh ha các quan hngnghĩa được chra trong WordNet................... 33  
Hình 11: Mt squan hngnghĩa đã xây dng được............................................ 34  
Hình 12: Nhim vchung ca bài toán xác định quan h........................................ 36  
Hình 13: Mô tcác bphn trong bphân tích ngnghĩa SR [24]......................... 37  
Hình 14: Minh ha Framework gii quyết bài toán xác định tên riêng gia các tài  
liu............................................................................................................................. 38  
Hình 15: Mt snhãn ngnghĩa được gán cho câu [30].......................................... 39  
Hình 16: Gán nhãn ngnghĩa cho các câu mô ttng thng Bill Clinton [30]. ...... 39  
Hình 17: Mô tcác giai đon trong quá trình phân lp ............................................ 40  
Hình 18: Mô tsphân chia tài liu theo du ca hàm f(d)..................................... 41  
Hình 19: Mô tquá trình hc ca phân lp câu cha quan h[2]............................ 42  
Hình 20: Minh ha các lp trong Ontology đã xây dng. ........................................ 46  
Hình 21: Minh ha cu trúc phân tng ca Ontology xây dng được...................... 46  
Hình 22: Minh ha các thhin ca lp thc thvà mi quan hgia các thhin48  
Hình 23: Minh ha mt dliu được chú thích bng Ontology............................... 49  
Hình 24: Minh ha các file cha thc thtrong tp Gazetteer xây dng được........ 51  
Hình 25: Kết qu10 ln thc nghim nhn dng thc th....................................... 52  
vi  
Li mở đầu  
Chăm sóc sc khe luôn là mt nhu cu thiết yếu ca con người, vì thế tìm  
kiếm các thông tin vlĩnh vc y tế trên Internet luôn là mt nhu cu thiết yếu. Vn  
đề này càng cn phi được quan tâm thích đáng khi con người đang phi đối mt  
vi nhiu dch bnh truyn nhim, ví dụ đin hình có thkti dch bnh cúm A  
H1N1 đang phát trin và có chiu hướng gia tăng trong thi gian gn đây. Cùng vi  
sra đời và phát trin không ngng ca các tài nguyên trc truyến, vic khai thác  
hiu qungun tài nguyên này để đưa ti ngun tri thc hu ích cho người dùng sẽ  
góp phn vào vic tuyên truyn và nâng cao sc khe cng đồng.  
Sbùng ncác tài nguyên y tế, đặc bit là các thông tin trc tuyến liên quan  
đến lĩnh vc sc khe; nhiu trang web và thông tin tha cũng như vic tchc  
thông tin mt cách tdo (không hoc bán cu trúc) … làm cho người dùng khó có  
ththeo dõi cũng như nm bt nhng thông tin cp nht nht. Bên cnh đó, công  
nghtìm kiếm thông tin truyn thng hoc trvkết quít do sphong phú, phc  
tp ca vic din đạt ngôn ngtnhiên; hoc quá nhiu theo nghĩa người tìm tin  
chmun tìm kiếm nhng tri thc n chkhông chlà các văn bn cha tkhóa  
tìm kiếm. Do đó vic khai thác ti ưu ngun tài nguyên phong phú này trthành  
mt đề tài quan trng, thu hút nhiu nhà khoa hc tham gia nghiên cu trong hai  
thp niên gn đây, có nhiu công trình nhm trích rút các thông tin có cu trúc từ  
nhng tài nguyên này nhm xây dng các cơ stri thc cho vic tchc thông tin,  
tìm kiếm, truy vn, qun lý và phân tích thông tin.  
Nhiu bài toán đã được đặt ra trong lĩnh vc trích chn thông tin y tế như  
BioCreative-I (nhn din các tên genes và protein trong văn bn) [32], LLL05 (trích  
chn thông tin vgene) [33], BioCreative-II (trích chn quan htương tác gia các  
protein) [49], …Nhng bài toán được đưa ra nhm đánh giá các chiến lược khai  
phá dliu y tế đặc bit tp trung vào hai bài toán con: nhn din thc thvà  
trích chn quan h. Nhn din thc thể đòi hi nhn biết các thành phn cơ bn như  
tên thuc, tên bnh, triu chng, gene, protein, … trong văn bn. Xác định quan hệ  
vi mt mu cho trước là nhn biết mt trường hp ca quan hnày trong văn bn.  
Ví d, xác định quan h<gây_ra> gia mt bnh xác định và mt virus xác định.  
Ontology là mt trong nhng cách biu din mu cho các khái nim, quan hệ đó  
mt cách nht quán và phong phú nht. Vic xây dng mt Ontology cho y tế trong  
1
tiếng Vit slà cơ scho phép tìm kiếm, khai phá loi thông tin này mt cách hiu  
qu.  
Theo kho sát dliu cho thy Vit Nam hin nay các Ontology cho y tế  
tiếng Vit thì hu như chưa có; tuy nhiên cũng có đã có mt snhóm nghiên cu  
tp trung xây dng Ontology vi các min cthkhác để phc vcho nhiu mc  
đích khác nhau. Đơn ccó thkế ti Ontology VN–KIM [34] đựợc phát trin ti  
Đại hc Bách khoa, Đại Hc Quc gia TP.HChí Minh. Ontology này bao gm  
347 lp thc thvà 114 quan hvà thuc tính. VN-KIM Ontology bao gm các lp  
thc thcó tên phbiến như Con _người, T_chc, tnh, Thành_ph,…, các quan  
hgia các lp thc thvà các thuc tính ca mi lp thc th.  
Tn ti nhiu phương pháp được đưa ra để xây dng mt hthng trích chn  
thông tin cũnug như xây dng mng ngnghĩa và từ đó áp dng cho bài toán tìm  
kiếm ngnghĩa. Khóa lun trình bày cách biu din da trên Ontology - mt  
trong snhng phương pháp đang được sdng khá rng rãi hin nay. Khóa lun  
trình bày mt sphương pháp xây dng Ontology, mrng ontology mt cách tự  
động, gii thiu bài toán nhn dng thc thcũng như phân loi quan hda trên  
mt sphương pháp khác nhau. Khóa lun cũng đã xây dng được mt dliu  
cho y tế phc vcho vic nhn dng thc thvà quan hệ được hiu quhơn.  
2
Chương 1  
TNG QUAN VTÌM KIM NGNGHĨA  
1.1. Nhu cu vtìm kiếm ngnghĩa  
Sbùng ncác thông tin trc tuyến trên Internet và World Wide Web to ra  
mt lượng thông tin khng lồ đưa ra thách thc là làm thế nào để có thkhai phá  
hết được lượng thông tin này mt cách hiu qunhm phc vụ đời sng con người.  
Các máy tìm kiếm như Google, Yahoo… ra đời nhm htrngười dùng trong quá  
trình tìm kiếm và sdng thông tin. Tuy kết qutrvca các máy tìm kiếm này  
ngày càng được ci thin vcht và lượng nhưng vn đơn thun là danh sách các  
tài liu cha nhng txut hin trong câu truy vn. Nhng thông tin tcác kết quả  
trvnày chỉ được hiu bi con người, máy tính không th“hiu” được, điu này  
gây nhng khó khăn cho quá trình tiếp theo xlý thông tin tìm kiếm được. Thế hệ  
các máy tìm kiếm thc thra đời (hthng Cazoodle ti trang web  
hệ  
thng  
Arnetminer  
ti  
trang  
web  
http://www.arnetminer.org/ ...) đánh du mt bước phát trin mi ca các máy tìm  
kiếm. Thêm vào đó, vi sra đời ca máy tìm kiếm ngnghĩa Wolfram, được xây  
dng và phát trin bi dán Wolfram Research, Inc. Marketed do Stephen  
Wolfram đề xut [35], thì vn đề tìm kiếm tri thc càng được quan tâm hơn na.  
Sra đời ca Web ngnghĩa (hay Semantic Web) do W3C (The World  
Wide Web Consortium) khi xướng đã mra mt bước tiến ca công nghWeb,  
nhng thông tin trong Web ngnghĩa có cu trúc hoàn chnh và mang ngnghĩa  
mà máy tính có th“hiu” được. Nhng thông tin này, có thể được sdng li mà  
không cn qua các bước tin xlý. Khi sdng các máy tìm kiếm thông thường  
(Google, Yahoo…), tìm kiếm thông tin trên Web ngnghĩa skhông tn dng  
được nhng ưu đim vượt tri ca Web ngnghĩa, kết qutrvkhông có sci  
tiến. Nói theo mt cách khác thì vi các máy tìm kiếm hin ti thì Web ngnghĩa  
hay Web thông thường chlà mt. Do vy, cn thiết có mt hthng tìm kiếm ngữ  
nghĩa (Semantic Search) tìm kiếm trên Web ngnghĩa hay trên mt mng tri thc  
mang ngnghĩa, kết qutrvlà các thông tin có cu trúc hoàn chnh mà máy tính  
có th“hiu” được, nhờ đó vic sdng hay xlý thông tin trnên ddàng hơn  
[6][26][2]. Ngoài ra, vic xây dng được mt hthng tìm kiếm ngnghĩa cthể  
sto tin đề cho vic mrng xây dng các hthng hi đáp tự động trên tng  
lĩnh vc cthnhư : y tế, văn hóa … điu này mang mt ý nghĩa thiết thc trong  
đời sng.  
3
1.2. Nn tng tìm kiếm ngnghĩa  
1.2.1.Web ngnghĩa  
Web ngnghĩa hay còn gi là Semantic Web theo Tim Berners-Lee là bước  
phát trin mrng ca công nghWord Wide Web hin ti, cha các thông tin  
được định nghĩa rõ ràng để con người và máy tính làm vic vi nhau hiu quhơn.  
Mc tiêu ca Web ngnghĩa là phát trin da trên nhng chun và công nghệ  
chung, cho phép máy tính có thhiu thông tin cha trong các trang Web nhiu  
hơn nhm htrtt con người trong khai phá dliu, tng hp thông tin, hay  
trong vic xây dng các hthng tự động khác… Không ging như công nghệ  
Web thông thường, ni dung chbao hàm các tài nguyên văn bn, liên kết, hình  
nh, video mà Web ngnghĩa có thbao gm nhng tài nguyên thông tin tru  
tượng hơn như: địa đim, con người, tchc… thm chí là mt skin trong cuc  
sng. Ngoài ra, liên kết trong Web ngnghĩa không chỉ đơn thun là các siêu liên  
kết (hyperlink) gia các tài nguyên mà còn cha nhiu loi liên kết, quan hkhác.  
Nhng đặc đim này khiến ni dung ca Web ngnghĩa đa dng hơn, chi tiết và  
đầy đủ hơn. Đồng thi, nhng thông tin cha trong Web ngnghĩa có mt mi  
liên hcht chvi nhau. Vi scht chnày, người dùng ddàng hơn trong vic  
sdng, và tìm kiếm thông tin. Đây cũng là ưu đim ln nht ca Web ngnghĩa  
so vi công nghWeb thông thường [2].  
Hình 1. Ví dvWeb ngnghĩa [6]  
Hình 1 là mt ví dmô tvmt trang Web ngnghĩa cha thông tin ca  
mt người tên là Yo-Yo Ma. Trang Web có cu trúc như mt đồ thcó hướng mang  
trng s, trong đó mi đỉnh ca đồ thmô tmt kiu tài nguyên cha trong trang  
Web. Các cnh ca đồ ththhin mt kiu liên kết (hay còn gi là thuc tính ca tài  
nguyên) gia các tài nguyên, trng sca các liên kết đó thhin tên ca liên kết  
[tên ca thuc tính] đó. Cthta thy Yo-Yo Ma có thuc tính ngày sinh là  
“10/07/55” có nơi sinh “Paris, France”, “Paris, France” có nhit độ “62 F” …  
4
Như vy, mi tài nguyên được mô ttrong Web ngnghĩa là mt đối tượng.  
Đối tượng này có tên gi, thuc tính, giá trca thuc tính (giá trcó thlà mt đối  
tượng khác) và liên kết vi các tài nguyên (đối tượng) khác (nếu có). Để xây dng  
được mt trang Web ngnghĩa cn phi có tp dliu đầy đủ, hay nói mt cách  
khác là cn phi xây dng mt tp các đối tượng mô ttài nguyên cho Web ngữ  
nghĩa. Các đối có quan hvi nhau hình thành mt mng liên kết rng, được gi là  
mng ngnghĩa.  
Mng ngnghĩa được chia srng khp do vy các đối tượng trong mt  
mng ngnghĩa cn phi mô ttheo mt chun chung nht. Ontology được sử  
dng để mô tvề đối tượng, tài nguyên cho Web ngnghĩa [2].  
1.2.2. Ontology  
Có thhiu mt cách đơn gin ontology là mt mô hình dliu trình bày  
mt tp các khái nim trong mt min và mi quan hgia các khái nim đó. Nó  
được sdng để lp lun (suy lun) vcác đối tượng trong min đó [12].  
Ontology là mt trong nhng cách biu din mu cho các khái nim, quan hệ  
đó mt cách nht quán và phong phú nht, chính vì thế được sdng để xây  
dng mng ngnghĩa ttp dliu thô (không hoc bán cu trúc) to nn tng xây  
dng mt máy tìm kiếm ngnghĩa mt cách hiu qu. Ontology sẽ được gii thiu  
mt cách cth, klưỡng hơn trong chương 2 ca khóa lun.  
1.3. Kiến trúc ca mt máy tìm kiếm ngnghĩa  
Xét vcơ bn, mt máy tìm kiếm ngnghĩa có cu trúc tương tvi mt  
máy tìm kiếm thông thường cũng bao gm hai thành phn chính [2]:  
Phn giao din người dùng (front end) có hai chc năng chính:  
Giao din truy vn: cho phép người dùng nhp câu hi, truy vn.  
Hin thcâu trli, kết qu.  
Phn kiến trúc bên trong (back end) là phn ht nhân ca máy tìm kiếm bao  
gm ba thành phn chính đó là:  
Phân tích câu hi  
Tìm kiếm kết qucho truy vn hay câu hi  
Tp tài liu, dliu tìm kiếm, mng ngnghĩa.  
Mô hình kiến trúc mt máy tìm kiếm ngnghĩa được mô tnhư Hình 2.  
5
Search Services  
2.Phân lp  
câu hi  
1.
6.  
Nhp  
Kết  
truy  
qutrả  
về  
vn  
3.Bin đổi  
dng câu hi  
Semantic  
Web/Ontology  
5.Tìm kiếm  
Mng ngữ  
nghĩa  
4. Trích chn  
thông tin  
Hình 2. Kiến trúc mt máy tìm kiếm ngnghĩa [2]  
Có ththy rng skhác bit trong cu trúc ca máy tìm kiếm ngnghĩa so  
vi máy tìm kiếm thông thường nm phn kiến trúc bên trong, cthể ở hai thành  
phn: phân tích câu hi và tp dliu tìm kiếm.  
Phân tích câu hi đã được đề cp chi tiết trong [2]. Tp dliu tìm kiếm  
chính là web ngnghĩa và mng ngnghĩa được xây dng da trên ontology và hệ  
thng trích chn thông tin. Khóa lun này tp trung nghiên cu kvxây dng  
ontology, mrng tự động ontology nhtrích chn thông tin mà cthlà nhn  
dng thc th. Khóa lun cũng đề cp ti nhn dng quan hngnghĩa, phân loi  
câu cha quan hnhm mc đích như đã trình bày trên, đó là xây dng được mt  
tp dliu tìm kiếm đầy đủ cho máy tím kiếm ngnghĩa trong tương lai.  
1.4.Trích chn thông tin  
Trích chn thông tin là mt lĩnh vc quan trng trong khai phá dliu văn  
bn, thc hin vic trích rút các thông tin có cu trúc tcác văn bn không có cu  
trúc. Nói cách khác, mt hthng trích chn thông tin rút ra nhng thông tin đã  
được định nghĩa trước vcác thc thvà mi quan hgia các thc thtmt văn  
bn dưới dng ngôn ngtnhiên và đin nhng thông tin này vào mt văn bn ghi  
dliu có cu trúc hoc mt dng mu được định nghĩa trước đó. Có nhiu mc độ  
trích chn thông tin tvăn bn như xác định các thc th(Element Extraction), xác  
định quan hgia các thc th(Relation Extraction), xác định và theo dõi các sự  
6
kin và các kch bn (Event and Scenario Extraction and Tracking), xác định đồng  
tham chiếu (Co-reference Resolution)... Các kĩ thut được sdng trong trích chn  
thông tin gm có: phân đon, phân lp, kết hp và phân cm [1].  
Bnh phi cp tính là mt  
trong nhng nguyên nhân tử  
vong chính ca người già,  
nguy him hơn cbnh phi  
do cúm. Triu chng thường  
Bnh  
Triu chng  
Thuc  
gp là người mt mi, đôi khi  
lú ln, st tht thường, ho  
khan nhiu và nng nhc, có  
khi khó th. Các thuc an  
thn, chng ho phi được sử  
dng mt cách thn trng, nếu  
có biu hin thrít cn phi  
phân bit do hen phế qun thì  
phi dùng corticoid và thuc  
giãn phế qun.  
Phi cp  
tính  
Mt mi  
Lú ln  
St tht  
thường  
Ho khan  
Khó thở  
An thn  
IE  
Chng ho  
Corticoid  
Thuc giãn  
phế qun  
Hình 3. Minh ha mt hthng trích chn thông tin  
Để có mt hthng trích chn thông tin đầu tiên chúng ta phi có mt hệ  
thng nhn dng thc thvà tiếp sau mi tính đến phân loi quan h. Bài toán nhn  
biết các loi thc thlà bài toán đơn gin nht trong scác bài toán trích chn  
thông tin, tuy vy nó li là bước cơ bn nht trước khi tính đến vic gii quyết các  
bài toán phc tp hơn trong lĩnh vc này. Ngoài ng dng trong hthng trích chn  
thông tin, nó còn có thể được áp dng trong tìm kiếm thông tin (Information  
Retrieval), dch máy (machine translation) và hthng hi đáp (question  
answering).  
Đã có rt nhiu bài toán được đặt ra trong lĩnh vc trích chn thông tin y tế  
như BioCreative-I (nhn din các tên genes và protein trong văn bn) [32], LLL05  
(trích chn thông tin vgene) [33], BioCreative-II (trích chn quan htương tác  
gia các protein) [49], …Nhng bài toán được đưa ra nhm đánh giá các chiến lược  
khai phá dliu y tế đặc bit tp trung vào hai bài toán con: nhn din thc thể  
và trích chn quan h. Nhn din thc thể đòi hi nhn biết các thành phn cơ bn  
như tên thuc, tên bnh, triu chng, gene, protein, … trong văn bn. Xác định  
quan hvi mt mu cho trước là nhn biết mt trường hp ca quan hnày trong  
văn bn. Ví d: xác định quan h<gây_ra> gia mt bnh xác định và mt virus  
7
xác định. Ontology là mt trong nhng cách biu din mu cho các khái nim, quan  
hệ đó mt cách nht quán và phong phú nht. Vic xây dng mt ontology cho y tế  
trong tiếng Vit slà cơ scho phép tìm kiếm, khai phá loi thông tin này mt cách  
hiu qu. Sau khi xây dng ontology, công vic tiếp theo cũng rt quan trng đó là  
mrng ontology mt cách tự động. Vic có mt hthng trích chn thông tin  
(bao gm nhn dng thc thvà trích chn quan h, …) là bước tin để có thmở  
rng ontology mt cách tự động.  
8
Chương 2  
XÂY DNG ONTOLOGY Y TTING VIT  
2.1. Gii thiu Ontology  
2.1.1. Khái nim Ontology  
Trong nhng năm gn đây, thut ng“Ontology” không chỉ được sdng ở  
trong các phòng thì nghim trên lĩnh vc trí tunhân to mà đã trnên phbiến đối  
vi nhiu min lĩnh vc trong đời sng . Đứng trên quan đim ca ngành trí tuệ  
nhân to, mt Ontology là smôt tvnhng khái nim và nhng quan hca các  
khái nim đó nhm mc đích thhin mt góc nhìn vthế gii. Trên min ng  
dng khác ca khoa hc, mt Ontology bao gm tp các tvng cơ bn hay mt tài  
nguyên trên mt min lĩnh vc cth, nhờ đó nhng nhà nghiên cu có thlưu tr,  
qun lý và trao đổi tri thc cho nhau theo mt cách tin li nht [2].  
Hin nay tn ti nhiu khái nim vOntology, trong đó có nhiu khái nim  
mâu thun vi các khác nim khác, khóa lun này chgii thiu mt định nghĩa  
mang tính khái quát và được sdng khá phbiến được Kincho H. Law đưa ra:  
“Ontology là biu hin mt tp các khái nim (đối tượng), trong mt min cthể  
và nhng mi quan hgia các khái nim này”. Ontology chính là stng hp ca  
mt tp tvng chia svà các miêu tý nghĩa ca từ đó theo cách mà máy tính  
hiu được.  
a formal characterization  
of its meaning  
a shared  
vocabulary  
Ontology  
Hình 4. Mô tý nghĩa ca Ontology  
Hình 4 mô tý nghĩa ca Ontology, trong đó tp tvng dùng chung  
(Vocabulary) chính là thhin ca các lp, quan h. Ví d, có thcó Vocabulary  
(...), Categories (Cat, White, Leg, Fish, Animal,…), Relations (Is-a, Part-of,  
9
hasMother,…), Characterization (...) và các thhin quan h"A cat is an animal",  
"A cat has four legs"...  
Hình 5. Minh ha cu trúc phân cp ca Ontology BioCaster [11]  
2.1.2. Các thành phn ca Ontology  
Các thành phn chính ca Ontology là: Lp (Class), thuc tính (Property),  
thc th(Individual).  
Lp (class) là mt bnhng thc th, các thc thể được mô tlogic đề định  
nghĩa các đối tượng ca lp; lp được xây dng theo cu trúc phân cp cha con như  
là mt sphân loi các đối tượng. Thc thể được xem là thhin ca mt lp, làm  
rõ hơn vlp đó và có thể được hiu là mt đối tương nào đó trong tnhiên  
(England, Manchester United, bnh si, thy đậu…).  
Thuc tính (Property) thhin quan hnhphân ca các thc th(quan hệ  
gia hai thc th) như liên kết hai thc thvi nhau. Ví dthuc tính ‘do_virus’  
liên kết hai thc th‘bnh’ và ‘virus’ vi nhau.  
Thuc tính (property) có 4 loi (1) Functional: Mt thc thchliên quan  
nhiu nht đến mt thc thkhác, ví dthuc tính “có hương vđối vi các thc  
thlp “thc_ăn”; (2) Inverse Functional: Thuc tính đảo ngược ca Functional,  
10  
thuc tính “là hương vca”; (3) Transitive: Thc tha quan hvi thc thb, thc  
thb quan hvi thc thc Æ thc tha quan hvi thc thc; (4) Symmetric:  
Thc tha quan hvi thc thb Æ thc thb quan hvi thc tha.  
Thuc tính có 3 kiu thhin (1) Object Property: Liên kết thc thnày vi  
thc thkhác; (2) DataType Property: Liên kết thc thvi kiu dliu XML  
Schema, RDF literal; (3) Annotation Property: Thêm các thông tin metadata vlp,  
thuc tính hay thc thkhác thuc 2 kiu trên.  
Để làm vic vi ontology Web cn sdng ngôn ngontology Web (The  
Web Ontology Language: OWL). OWL có thcó mt kiu thtư là Annotation  
propertie. Kiu thuc tính được sdng để thêm các thông tin (metadata – dliu  
ca dliu) đối vi các lp, các thc thhay các thuc tính Object/ Datatype.  
2.1.3 Mt scông trình liên quan ti xây dng Ontology  
Ngày nay, Ontology được sdng rt nhiu trong các lĩnh vc liên quan đến  
ngnghĩa như trí tunhân to (AI), semantic web, kĩ nghphn mm, v.v… Vì  
nhng ng dng ca Ontology nên không chriêng Vit Nam, trên thế gii đã có  
nhiu dán tp trung xây dng Ontology đối vi tng min dliu khác nhau và  
phc vcho nhiu mc đích đa dng khác nhau. Đối vi min dliu y tế có thkể  
ti rt nhiu Ontology trong lĩnh vc y tế, sinh hc đã được đưa ra bi tchc The  
National Center for Biomedical Ontology [52]. Dán này đã đưa ra được rt nhiu  
Ontology trong y tế cũng như trong sinh hc, ví dnhư Ontology vcell type,  
Gene, FMA, Human disease…danh sách các Ontology đưa ra được hin thtrong  
[41].  
Ngoài ra có thkti Disease Ontology [42] là mt tp tvy khoa được  
phát trin ti Bioinformatics Core Facility cùng vi scng tác ca dán NuGene  
Project ti trung tâm Center for Genetic Medicine. Ontology này được thiết kế vi  
mc đích sp xếp các bnh và các điu kin tương ng đối vi nhng code vy tế  
cthnhư là ICD9CM, SNOMED và nhng cái khác….Disease Ontology cũng  
được sdng để liên kết nhng kiu hình sinh vt mu đối vi các bnh ca con  
người cũng như trong vic khai phá dliu y hc. Disease Ontology được thc  
hin như là mt đồ thxon có hướng và sdng UMLS (Unified Medical  
Language System) là tp tvng để truy cp các Ontology vy tế khác như  
ICD9CM.  
Mt ontology tiếng Anh được đề cp rt nhiu trong lĩnh vc y tế trong thi  
gian gn đây đó là GENIA [43]. Mc đích chính mà ontology này hướng ti đó là  
11  
sphn ng li ca tế bào trong não người. Ontology này chyếu tp trung trong  
các lĩnh vc y tế và cũng được sdng trong các bài toán xlý ngôn ngtnhiên:  
truy hi thông tin (Information Retrieval – IR), trích chn thông tin, phân lp và  
tóm tt văn bn …Hình vsau mô tcu trúc phân cp ca ontology GENIA.  
Tn ti nhiu Ontology vy tế hin nay đã được xây dng trên thế gii. Tuy  
nhiên Vit Nam hin nay mc du vic tìm kiếm ngnghĩa đang được tp trung  
nghiên cu, nhưng các Ontology vy tế thì hu như chưa có, cho nên vic tìm kiếm  
các trang web vthuc, bnh … ca người dùng chưa trvcác kết quả đầy đủ và  
đạt được hiu qu. Tn ti mt Ontology đề cp đến các thut ngy tế trong tiếng  
Vit, đó là Ontology Biocaster [44]. Đây là Ontology được nghiên cu theo dán  
Biocaster được phát trin ti Vin Tin hc Quc gia Nht Bn vi scng tác ca  
trường các trường đại hc ti Nht Bn, Thái Lan, Vit Nam... Đây là ontology viết  
cho nhiu ngôn ngnhư Nht, Anh, Thái, Vit…  
Ontology BioCaster [11] có các thut ngca nhiu thtiếng trong đó có  
371 thut ngtiếng Vit, các thut ngliên quan đến bnh, virus, các triu chng  
ca Vit Nam. Mc dù Ontology này có xlý trích chn trong tiếng Vit, nhưng từ  
đó li đưa ra các bài báo vy tế Vit Nam bng tiếng Anh. Vì vy, các thut ng,  
thc th, các bnh hay virus được viết bng tiếng Vit còn các quan hệ được mô tả  
bng tiếng Anh. Ví d, thut ngVietnamese_103, gán nhãn: vi rút gây bnh thy  
đậu, có hasLanguage: vi (Vietnamese), hasRootTerm : VIRUS_124…  
2.2. Lý thuyết xây dng Ontology  
2.1.1. Phương pháp xây dng Ontology  
Ngày nay, vic nghiên cu quá trình xây dng ontology ngày càng được  
quan tâm nhiu hơn. Có rt nhiu nhóm sau quá trình nghiên cu đã đưa ra các  
phương pháp khác nhau nhm xây dng Ontology.  
Phương pháp Ushold & King được xây dng da trên vic phát trin  
Enterprise Ontology. Phương pháp này chyếu tp trung vào vic giúp người phát  
trin tmc đích ca ontology có thcó nhng hướng phát trin như thế nào, sau  
đó đánh giá và viết tài liu cho ontology. Trong quá trình xây dng, người dùng có  
thtích hp các ontology có sn vào ontology đang xây dng. Ba cách tiếp cn sau  
được đưa ra nhm định nghĩa các khái nim chính trong ontology: cách tiếp cn  
top-down, bottom-up và middle-out. Phương pháp lun này được xây dng không  
phthuc vào ng dng, nghĩa là mc đích xây dng ontology độc lp vi quá  
12  
trình xây dng chúng, không phthuc vào nhau. Vi bt kì ng dng nào, chúng  
ta đều có thsdng chung phương pháp này [17].  
Phương pháp lun tiếp theo được phát trin bi Gruninger và Fox [16], được  
phát trin thông qua dán ontology Toronto Virtual Enterprise (TOVE). Hthng  
này được xây dng bt ngun ttư tưởng vsphát trin hthng da trên tri  
thc, sdng first order logic. Trong phương pháp này, các khái nim ni bt nht  
được định nghĩa trước tiên, sau đó làm chi tiết và tng quát hóa các khái nim đó  
theo các hướng thích hp. Như vy, phương pháp này bt đầu tmt scác khái  
nim mc cao, đi ri đến các khái nim mc thp và tng quát các mc cao  
hơn. Phương pháp này sdng cách tiếp cn middle-out để định nghĩa các khái  
nim và mt phn phthuc vào ng dng sau này ca ontology, nghĩa là trước khi  
xây dng ontology, người dùng cn quyết định mc đích sdng và tích hp  
ontology vào ng dng gì.  
METHONTOLOGY là mt phương pháp xây dng Ontology được phát  
trin tphòng nghiên cu trí tunhân to ca trường ĐH Polytechnic Madrid.  
Phương pháp này cho phép người sdng có thxây dng mt ontology mi da  
trên bn mu thiết kế mi hoc có thsdng nhng ontology có sn. Bộ  
framework ca METHONTOLOGY có thgiúp người dùng xây dng cu trúc  
ontology mc độ tri thc và bao gm: định nghĩa quy trình phát trin ontology,  
mt skthut trong quá trình xây dng quy trình trên (ví dqun lý và lp lch,  
qun lý cht lượng, thu thp dliu và tri thc, qun lý cu hình, v.v.). Phương  
pháp lun này sdng chiến lược middle-out và không phthuc vào ng dng.  
2.1.2. Công cxây dng Ontology  
Bcông cxây dng và phát trin Ontology bao gm các tool htrvà môi  
trường giúp người dùng có thxây dng mt Ontology mi tbn thiết kế mi  
hoc sdng li nhng Ontology mi có sn. Mt smôi trường phát trin được  
xây dng ttrước như Ontosaurus, Ontolingua và WebOnto. Nhng bcông cụ  
mi được sdng nhiu gn đây bao gm OntoEdit, OilED,WebODE, Chimera  
DAG-Edit và Protégé.  
Ontoligua server [45] là bcông cxây dng ontology được phát trin từ  
nhng năm 1990 ti Phòng Thí nghim Hthng tri thc (Knowledge Systems  
Laboratory -KSL) ca Trường ĐH Stanford (M). Các module chính ca bcông  
cbao gm bbiên tp ontology (ontology editor) và các module khác như  
Webster, OKBC (Open knowledge Based Connectivity) server.  
13  
Ontosaurus [46] được phát trin cùng trong khong thi gian đó bi Vin  
Khoa hc Thông tin ISI ca Trường ĐH South Calfornia (M). OntoSaurus bao  
gm 2 module chính: ontology server (sdng Loom) và mt web browser cho  
Loom ontology. Ngoài ra, bcông ccòn htrKIF, KRSS và C++, đồng thi  
OntoSaurus ontology cũng có thể được truy cp da trên protocol OKBC ca  
Ontoligua server.  
WebOnto là mt ontology editor cho các Ontology OCML (Operational  
Conceptual Modelling Language), được phát trin bi Vin Truyn thông Tri thc  
(KMI) ti Trường ĐH m(Open University). Bcông cnày là sdng Java vi  
webserver, cho phép người dùng có thduyt và thay đổi các mô hình tri thc  
thông qua Internet. Đim mnh chính ca bcông cnày là có thcho phép cng  
tác gia nhiu người nhm thay đổi và hoàn thin ontology [26].  
Các bcông ctrên (Ontolingua server, Ontosaurus và WebOnto) được xây  
dng đơn thun nhm htrduyt và biên tp các Ontology được viết bng nhng  
ngôn ngriêng (Ontolingua, LOOM và OCML). Nhng bcông cbiên tp này  
hin nay không còn đáp ng đủ nhu cu ca người sdng. Thế hmi các bộ  
công cxây dng Ontology có nhiu ưu vit cũng như tính năng hơn hn các bộ  
công cnày, ví dnhư khnăng mrng, hthng kiến trúc các thành phn – giúp  
người dùng có thcung cp thêm các tính năng cho môi trường phát trin mt cách  
ddàng.  
WebODE [47] là mt bcông ccó khnăng mrng được phát trin bi  
nhóm Ontology ca trường ĐH Technical Madrid (UPM), được xem như mt thành  
công ca ODE (Ontology Design Environment). WebODE được sdng như mt  
Web server vi giao din web. Phn lõi chính ca môi trường này là mt dch vụ  
(service) ontology, trong đó tt ccác dch vng dng khác đều có thsdng  
dch vnày. Phn son tho Ontology cũng đồng thi cung cp công ckim tra  
ràng buc, to các lut tiên đề (axiom rule creation) và phân tích vi WebODE  
Axiom Builder (WAB), tài liu trong HTML, kết hp ontology vi các định dng  
khác nhau [XML\RDF[s], OIL, DAML+OIL, CARIN, Flogic, Java và Jess].  
OilED [48] là mt bcông cson tho ontology cho phép người dùng có  
thxây dng Ontology bng OIL và DAML+OIL, được xây dng bi Trường ĐH  
Manchester, Đại hc Amsterdam và Interprice GmbH.  
Protégé 2000 [51] là mt trong nhng bcông cụ được sdng rng rãi nht  
hin nay, được phát trin bi Trường ĐH Stanford. Bcông cnày được phát trin  
14  
da trên hai mc tiêu: có thtương thích vi các hthng khác, ddàng sdng và  
htrcác công ctrích chn thông tin. Phn chính ca môi trường này là mt biên  
tp ontology. Bên cnh đó, Protégé còn bao gm rt nhiu các plugin nhm htrợ  
chc năng như qun lý nhiu ontology, dch vsuy lun (inference service), htrợ  
vvn đề ngôn ngontology (language importation/exportation).  
2.1.3. Ngôn ngxây dng Ontology  
Hin ti, các ngôn ngxây dng ontology (ngôn ngontology) đin hình  
bao gm LOOM, LISP, Ontolingua, XML, SHOE, OIL, DAML+OIL và OWL.  
Ngôn ngontology được chia làm ba loi: định ngtp tvng sdng  
ngôn ngtnhiên (object based-knowledge representation languages) như UML,  
và ngôn ngda trên lôgic vtbc mt (first order predicate logic) như logic mô  
t(Description Logics). Ngôn ngontology cn phi tương thích vi nhng công  
ckhác, tnhiên và dhc, tương thích vi các chun hin ti ca web như XML,  
XML Schema, RDF và UML. Dưới đây là mt scác ngôn ngweb-based.  
EXtensible Markup Language [XML] là mt chun mdùng để biu din dữ  
liu tW3C, có tính mm do và mnh hơn so vi HTML. RDF (Resource  
Description Framework) được phát trin như mt khung giúp mô tvà trao đổi các  
metadata [12].  
SHOE (Simple HTML Ontology Extensions) được xây dng vào năm 1996  
ti Trường ĐH Maryland, như mt mrng ca HTML để có thhp nht các tri  
thc ngnghĩa trên các văn bn web hin ti thông qua vic chú thích các trang  
HTML [27].  
OIL (Ontology Inference Layer) là mrng ca RDF, được phát trin bi dự  
án ON-To_Knowledge, là ngôn ngmô tvà trao đổi cho ontology. Ngôn ngnày  
được kết hp bi ngôn ngdng da trên frame (frame-based) vi ngnghĩa hình  
thc (formal sematics) và dch vsuy lun tlogic mô t(description logics). Ngôn  
ngữ được chia làm ba mc đối tượng lp (các thc thcth), mc đầu tiên (first-  
meta, định nghĩa theo ontology) và mc thhai (second-meta, các mi quan h)  
[8].  
DAML+OIL được phát trin da trên dán DARPA năm 2000. COIL và  
DAML+OIL đều cho phép mô tcác khái nim, các phân cp (taxonomy), các  
quan hnhphân, chc năng và thc th[9].  
15  
OWL là mt ngôn ngontology được sdng phbiến hin nay, được ti  
ưu hoá cho vic trao đổi dliu và chia stri thc. Ngôn ngnày được sdng khi  
thông tin cha trong văn bn cn được xlý bi các ng dng. OWL l có thể được  
sdng để biu din ngnghĩa các thut ngtrong tp tvng và mi quan hệ  
gia nhng thut ngnày. OWL bao gm OWL Lite, OWL DL [RDF] và OWL  
FULL.  
2.3. Xây dng Ontology y tế tiếng Vit  
Vic thiết kế và xây dng mt ontology bao gm các bước sau:  
Định nghĩa các lp trong ontology.  
Sp xếp các lp trong mt kiến trúc phân cp (taxonomic hierarchy).  
Định nghĩa các thuc tính (slot) và mô tcác giá trcho phép cho  
nhng thuc tính này.  
Đin giá trca các thhin [instance] vào các slot.  
Sau đó, cơ stri thc được to ra bng cách định nghĩa các thhin  
(instance) ca nhng lp này cùng vi nhng giá trca chúng.  
Không có mt phương pháp nào được gi là phương pháp chun xác cho  
vic xây dng tt ccác Ontology [18]. Vic la chn phương pháp xây dng phù  
hp nào được da trên mc đích và tính cht ca tng Ontology. Qua quá trình  
kho sát các dliu vy tế và mt scác phương pháp phát trin Ontology, chúng  
tôi la chn môi trường Protégé OWL xây dng mt Ontology y tế bng Tiếng Vit  
thnghim.  
Sau khi thu thp và kho sát dliu, chúng tôi lit kê các thut ngquan  
trng nhm có thnêu định nghĩa cho người dùng vi hướng nghiên cu tiếp theo  
là tự động liên kết đến các định nghĩa có sn trên trang wikipedia. Tcác thut ngữ  
trên, tiếp theo sẽ định nghĩa các thuc tính ca chúng. Vic xây dng Ontology là  
mt quá trình lp li được bt đầu bng vic định nghĩa các khái nim trong hệ  
thng lp và mô tthuc tính ca các khái nim đó.  
16  
Chương 3  
NHN DNG THC THỂ  
3.1. Gii thiu bài toán nhn dng thc thể  
3.1.1. Gii thiu chung vnhn dng thc thể  
Nhn dng thc thcó thhiu mt cách đơn gin là phân loai các ttrong  
mt văn bn thành các lp thc thể đã được định nghĩa trước như người (PER), tổ  
chc (ORG), vtrí (LOC), bnh (BENH), triu chng (TCHUNG), thuc  
(THUOC). Nhn dng thc thcho chúng ta được mt phân tích bmt, các thc  
thstrli các câu hi quan trng (có thể ứng dng trong hthng hi đáp…).  
Có rt nhiu phương pháp đã được dùng để gii quyết bài toán nhn dng  
thc th, tcác phương pháp thcông đến các phương pháp hc máy (như các mô  
hình markov n (Hidden Markov Models – HMM), các mô hình Markov cc đại  
hóa Entropy (Maximum Entropy Markov Models- MEMM), các mô hình min phụ  
thuc điu kin (Conditional Random Field (CRF), phương pháp máy vector htrợ  
(Support Vector Machine).  
Tiêu biu cho hướng tiếp cn thcông là hthng nhn biết loi thc thể  
Proteus ca đại hc New York tham gia MUC-6. Hthng được viết bng Lisp và  
được htrbi mt slượng ln các lut, tuy nhiên hu hết các lut đều còn tn ti  
mt slượng ln các trường hp ngoi l, trong đó có nhng ngoi lchxut hin  
khi hthng đưa vào sdng, mà ta khó có thgii quyết hết. Dưới đây là mt số  
ví dvcác lut được sdng bi Proteus cùng vi các trường hp ngoi lca  
chúng [1]:  
Lut: Title Capitalized_Word => Title Person Name  
ÆTrường hp đúng : Mr. Johns, Gen. Schwarzkopf  
ÆTrường hp ngoi l: Mrs. Field’s Cookies (mt công ty).  
Lut: Month_name number_less_than_32 => Date  
ÆTrường hp đúng: February 28, July 15  
ÆTrường hp ngoi l: Long March 3 ( tên mt tên la ca Trung Quc).  
So vi các phương pháp thcông va tn thi gian, công sc, mà kết quả  
đạt được li không được như mong mun, các phương pháp hc máy hin đang  
17  
được tp trung nghiên cu nhiu hơn. Hu hết các phương pháp đều có nhng ưu  
thế riêng đồng thi vn còn tn ti mt shn chế do đặc thù ca mi mô hình.  
Tiêu biu có thkể đến các mô hình Markov n HMM và các mô hình ci tiến ca  
nó như MEMM, CRF; vi các mô hình này ta có thxem tương ng mi trng thái  
vi mt trong nhãn các nhãn thc thvà dliu quan sát là các ttrong câu đang  
xét. Máy vector htr(SVM) cũng là mt trong nhng phương pháp hc máy cho  
kết qurt khquan.  
3.1.2. Mt skết qunghiên cu vnhn dng thc thể  
Trên thế gii bài toán nhn biết thc thể đã được quan tâm nghiên cu tlâu  
đạt được nhng kết qukhá n tượng. Có rt nhiu phương pháp (tcác phương  
pháp thcông đến các phương pháp hc máy) đã được dùng để gii quyết bài toán  
này. Trong công trình nghiên cu vào năm 2007 [5], David Nadeau đã đánh giá  
mt snghiên cu tiêu biu trước đó có liên quan đến bài toán nhn dng thc th.  
Ni dung các đánh giá ca David Nadeau được trình bày như dưới đây.  
Tiêu biu cho hướng tiếp cn thcông là hthng nhn biết loi thc thể  
Proteus ca đại hc New York tham gia MUC-6. Hthng được viết bng Lisp và  
được htrbi mt slượng ln các lut. Năm 1998, Radev công nghiên cu nhn  
dng nhng đon mô tvthc thể được đưa ra, chng hn như Bill Clinton sẽ  
được mô tlà “the President of the U.S.”, “the democratic presidential candidate”  
hay “an Arkansas native”… Hthng ca Fung 1995 (và Huang 2005) gii quyết  
bài toán dch các thc thtngôn ngnày sang ngôn ngkhác (ví dnhư bn dch  
tiếng Vit ca thc th“College of Technology” slà “Trường Đại hc Công  
ngh”). Hthng này được đánh giá là gp phi ít hơn 10% li dch. Tiếp theo đó,  
năm 2001, Charniak và cng scông bkết qunghiên cu nhn dng cu trúc các  
phn trong tên người, ví dnhư cm “Doctor Paul R. Smith” sẽ được chia thành cá  
thành phn chc danh, h, đệm và tên). Nghiên cu này là mt bước tin xlý  
quan trng trong bnhn dng thc th, để có thxác định nhng trường hp như  
“John F. Kennedy” và “President Kennedy” là cùng mt người. Cũng trong năm  
2001, hthng “Record linkage” ca Cohen và Richman được xây dng vi mc  
đích tìm ra tt ccác dng ca cùng mt thc thtrên toàn bcơ sdliu. Vào  
năm 2002, Dimitrov và cng sự đã gii quyết vn đề sdng các đại tthay thế, ví  
dtrong câu “Rabi finished reading the book and he replaced it in the library” đại  
t“he” là đại tthay thế cho “Rabi”. Nghiên cu này có rt nhiu ng dng thc  
tế, ví dnhư trong hthng hi đáp tự động. Năm 2003, Mann và Yarowski xây  
dng mt hthng xóa bcác nhp nhng vtên người, kthut này được sdng  
18  
để xây dng tiu s- nn tng ca mt smáy tìm kiếm như Zoominfo.com hay  
Spock.com. Năm 2005, Nadeau và Turney công bkết qunghiên cu nhn dng  
từ đầy đủ ca các tviết tt trong mt văn bn đang xét nào đó, ví dnhư “IBM”  
viết tt ca “International Business Machines” trong nhiu văn bn. Mt nghiên  
cu vào năm 2006 ca Agbago nhm xây dng mt hthng có khnăng phc hi  
li định dng đúng ca tbao gm vic bo đảm cho ký tự đầu câu và đầu thc thể  
luôn được viết hoa là rt có ích trong dch máy.  
Cũng trong công trình nghiên cu ca mình [5], David Nadeau đã sdng  
tp nhãn thc thENAMEX theo mu ca hi nghMUC – 7 (Message  
Understanding Conference 7) và tiến hành hun luyn - kim thtrên tp ngliu  
Medstract Gold Standard Evaluation Corpus (Tp ngliu này được xây dng bi  
Pustejovsky vào năm 2001). Tác gisdng bcông cWeka Machine Learning  
để kim thnhiu thut toán hc có giám sát và đưa ra kết lun độ “tt” ca hệ  
thng phthuc rt nhiu vào thut toán được sdng và phương pháp hc bán  
giám sát ca mình cho kết qukhquan nht.  
Tính đến nay, có khá nhiu hi nghkhoa hc quc tế ln trao đổi vbài  
toán nhn dng thc thcũng như đánh giá đánh giá các hthng nhn dng thc  
thể đã được xây dng. Tiêu biu có thkể đến MUC (Message Understanding  
Conference, 1987-1997), MET (Multilingual Entity Task Conference, 1998), ACE  
(Automatic Content Extraction Program, 2000), HAREM (Evaluation contest for  
named entity recognizers in Portuguese, 2004-2006), IREX (Information Retrieval  
and Extraction Exercise, 1998-1999) …  
3.2. Đặc đim dliu tiếng Vit  
Tiếng Vit thuc ngôn ngữ đơn lp, tc là mi mt tiếng (âm tiết) được phát  
âm tách ri nhau và được thhin bng mt chviết. Đặc đim này thhin rõ rt ở  
tt ccác mt ngâm, tvng, ngpháp. Dưới đây trình bày mt số đặc đim ca  
tiếng Vit theo các tác giả ở Trung tâm ngôn nghc Vit Nam đã trình bày. Vic  
nghiên cu các đặc đim dliu tiếng Vit sgiúp em có cái nhìn tng quan vcác  
đặc trưng dliu tiếng Vit. Hiu rõ ràng hơn vdliu sgiúp vic xây dng  
Ontology và trích chn thông tin được hiu quhơn.  
3.2.1. Đặc đim ngâm  
Tiếng Vit có mt loi đơn vị đặc bit gi là "tiếng" mà vmt ngâm thì  
mi tiếng là mt âm tiết. Hthng âm vtiếng Vit phong phú và có tính cân đối,  
19  
to ra tim năng ca ngâm tiếng Vit trong vic thhin các đơn vcó nghĩa.  
Nhiu ttượng hình, tượng thanh có giá trgi tả đặc sc. Khi to câu, to li,  
người Vit rt chú ý đến shài hoà vngâm, đến nhc điu ca câu văn.  
3.2.2. Đặc đim tvng  
Nói chung, mi tiếng là mt yếu tcó nghĩa. Tiếng là đơn vcơ sca hệ  
thng các đơn vcó nghĩa ca tiếng Vit. Ttiếng, người ta to ra các đơn vtừ  
vng khác để định danh svt, hin tượng..., chyếu nhphương thc ghép và  
phương thc láy.  
Vic to ra các đơn vtvng phương thc ghép luôn chu schi phi ca  
quy lut kết hp ngnghĩa, ví d: đất nước, máy bay, nhà lu xe hơi, nhà tan ca  
nát... Hin nay, đây là phương thc chyếu để sn sinh ra các đơn vtvng. Theo  
phương thc này, tiếng Vit trit để sdng các yếu tcu to tthun Vit hay  
vay mượn tcác ngôn ngkhác để to ra các t, ngmi, ví dnhư tiếp th,  
karaoke, thư đin t(e-mail), thư thoi (voice mail), phiên bn (version), xa lộ  
thông tin, siêu liên kết văn bn, truy cp ngu nhiên, v.v.  
Vic to ra các đơn vtvng phương thc láy thì quy lut phi hp ngữ  
âm chi phi chyếu vic to ra các đơn vtvng, chng hn như chôm cha,  
chng chơ, đỏng đa đỏng đảnh, thơ thn, lúng lá lúng liếng, v.v.  
Vn tvng ti thiu ca tiếng Vit phn ln là các từ đơn tiết [mt âm tiết,  
mt tiếng]. Slinh hot trong sdng, vic to ra các tngmi mt cách ddàng  
đã to điu kin thun li cho sphát trin vn t, va phong phú vslượng, va  
đa dng trong hot động. Cùng mt svt, hin tượng, mt hot động hay mt đặc  
trưng, có thcó nhiu tngkhác nhau biu th. Tim năng ca vn tngtiếng  
Vit được phát huy cao độ trong các phong cách chc năng ngôn ng, đặc bit là  
trong phong cách ngôn ngnghthut. Hin nay, do sphát trin vượt bc ca  
khoa hc-kĩ thut, đặc bit là công nghthông tin, thì tim năng đó còn được phát  
huy mnh mhơn.  
3.2.3. Đặc đim ngpháp  
Ttiếng Vit không biến đổi hình thái. Đặc đim này schi phi các đặc  
đim ngpháp khác. Khi tkết hp tthành các kết cu như ng, câu, tiếng Vit  
rt coi trng phương thc trt ttvà hư t.  
Vic sp xếp các ttheo mt trt tnht định là cách chyếu để biu thcác  
quan hcú pháp. Trong tiếng Vit khi nói “Anh ta li đến” là khác vi “Li đến anh  
20  
ta”. Khi các tcùng loi kết hp vi nhau theo quan hchính phthì từ đứng trước  
givai trò chính, từ đứng sau givai trò ph. Nhtrt tkết hp ca tmà "củ  
ci" khác vi "ci c", "tình cm" khác vi "cm tình". Trt tchngữ đứng trước,  
vngữ đứng sau là trt tphbiến ca kết cu câu tiếng Vit.  
Phương thc hư tcũng là phương thc ngpháp chyếu ca tiếng Vit.  
Nhhư tmà thp “anh ca em” khác vi thp “anh và em”, “anh vì em”. Hư  
tcùng vi trt ttcho phép tiếng Vit to ra nhiu câu cùng có ni dung thông  
báo cơ bn như nhau nhưng khác nhau vsc thái biu cm. Ví d, so sánh các câu  
sau đây:  
- Ông y không hút thuc.  
- Thuc, ông y không hút.  
- Thuc, ông y cũng không hút.  
Ngoài trt ttvà hư t, tiếng Vit còn sdng phương thc ngữ điu. Ngữ  
điu givai trò trong vic biu hin quan hcú pháp ca các yếu ttrong câu, nhờ  
đó nhm đưa ra ni dung mun thông báo. Trên văn bn, ngữ điu thường được  
biu hin bng du câu. Skhác nhau trong ni dung thông báo được nhn bit khi  
so sánh hai câu sau:  
- Đêm hôm qua, cu gãy.  
- Đêm hôm, qua cu gãy.  
Qua mt số đặc đim ni bt va nêu trên đây, chúng ta có thhình dung  
được phn nào bn sc và tim năng ca tiếng Vit cũng như khó khăn gp phi  
trong vic nhn dng thc thcũng như trích chn thông tin trong tiếng Vit.  
3.3. Mt sphương pháp nhn dng thc thể  
Tn ti nhiu phương pháp được đề cp ti trong bài toán nhn dng thc th.  
Tuy nhiên có thtng kết li mt sgiai đon chính trong bài toán này như sau:  
Tin xlý: Loi bHTML, tách câu, tách t.  
La chn thuc tính: La chn các nhãn th(tag), mu ngcnh  
(feature: viết hoa, viết thường, …).  
Giai đon hun luyn, thc: Sdng HMM, CRF, MEMM,  
SVM…  
Gán nhãn, khôi phc.  
21  
Tùy thuc vào tng min ca bài toán nhn dng thc ththì sla chn các  
nhãn thlà khác nhau. Có thể đề cp ti by nhãn dng cơ bn tng quát nht được  
la chn đầu tiên: 7 dng nhãn đầu tiên (theo Ralph & Beth, [5]): ORG (tchc),  
LOC (vtrí), PER (người), DATE,TIME,CUR (Biu din tin t), PCT (Phn  
trăm). Tp nhãn có thể được thay đổi, mrng tùy thuc vào tng dán. Dán  
Biocaster [11] xây dng 22 nhãn cho lĩnh vc y tế.  
Mi mt nhãn được gán bao gm ba phn:  
Phn biên (boundary category): Xác định vtrí ca thin ti trong  
mt thc th.  
Phn thc th(Entity category): Xác định kiu thc th.  
Tp đặc trưng (Feature set) : Xác định thông tin ngcnh (mu ngữ  
cnh).  
Có nhiu cách để biu din phn biên ca các t, trong đó cách biu din  
thường được đề cp và dùng nhiu nht có thkti đó là: biu din mi mt nhãn  
gm mt tiếp đầu chB_ (bt đầu mt thc th), I_ (bên trong mt thc th), nhãn  
O (không phi thc th). Ly ví d: bnh “viêm não nht bn” có thể được gán  
nhãn như sau “B_DIS I_DIS I_DIS I_DIS”.  
La chn mu ngcnh là bài toán quan trng quyết định độ chính xác ca  
nhn dng thc th. Mu ngcnh ti vtrí quan sát bt kcho ta thông tin ngữ  
cnh. Bt kmt hthng nhn dng thc thhoàn thin nào đều phi xây dng  
được mt tp các mu ngcnh mt cách chính xác và mô tả được tng lĩnh vc  
ca bài toán nhn dng. Bài toán nhn dng thc thchung: viết hoa, viết thường,  
ký t% , chs, du chm, phy…Bài toán tương ttrong y tế, đó là la chn mu  
ngcnh trong nhn dng protein, gene, thuc, tế bào .  
Các loi mu ngcnh [6]:  
Mu tin định cơ bn (viết hoa, thường, chm, phy): comma, dot,  
oneDigit, AllDigits  
Mu hình thái hc: tin t, hu t(~virus, ~lipid, ~vitamin,…),  
Mu ngpháp: cm động t, cm danh t…  
Mu trigger ngnghĩa:  
22  

Tải về để xem bản đầy đủ

pdf 67 trang yennguyen 24/06/2025 280
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Trích chọn thông tin y tế tiếng Việt cho bài toán tìm kiếm ngữ nghĩa", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_trich_chon_thong_tin_y_te_tieng_viet_cho_bai_toan.pdf