Đề tài Phát triển một hệ thống S.E hỗ trợ tìm kiếm thông tin, thuộc lãnh vực công nghệ thông tin trên Internet qua từ khóa bằng tiếng Việt

Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Nhóm Nghiên cu Đề tài  
Đỗ Phúc  
Tiến sĩ Tin hc ĐH Công nghThông tin, ĐHQG  
Thc sĩ Tin hc Khoa CNTT, ĐHKHTN, ĐHQG  
Thc sĩ Tin hc Selab, ĐHKHTN, ĐHQG  
Đỗ Hoàng Cường  
Nguyn Tri Tun  
Hunh Thy Bo Trân  
Nguyn Văn Khiết  
Nguyn Vit Hoàng  
Nguyn Vit Thành  
Phm Phú Hi  
Thc sĩ Tin hc Khoa CNTT, ĐHKHTN, ĐHQG  
Thc sĩ Tin hc Khoa CNTT, ĐHKHTN, ĐHQG  
Cao hc Tin hc Khoa CNTT, ĐHKHTN, ĐHQG  
Cao hc Tin hc Khoa CNTT, ĐHKHTN, ĐHQG  
Cao hc Tin hc ĐH Công nghThông tin, ĐHQG  
Cao hc Tin hc Selab, ĐHKHTN, ĐHQG  
Dương Ngc Long Nam  
Nguyn Phước Thanh Hi Cao hc Tin hc Selab, ĐHKHTN, ĐHQG  
Trang 1  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Ni dung  
MỞ ĐẦU............................................................................................................. 5  
PH N I: ..................................................................................................... 6  
1
TÌM HIU VÀ SO SÁNH MT SS.E THÔNG DNG HIN NAY ........... 6  
1.1 MT SS. E NƯỚC NGOÀI THÔNG DNG HIN NAY (xem  
Bng Tng hp chi tiết trong Phlc 1, 2,3).................................................. 6  
1.1.1  
1.1.2  
1.1.3  
GOOGLE...................................................................................... 6  
LYCOS ......................................................................................... 9  
ALTA VISTA............................................................................. 10  
1.2 MT SS. E TING VIT THÔNG DNG HIN NAY (xem  
Bng tng hp chi tiết trong Phlc 4)........................................................ 12  
1.2.1  
1.2.2  
NETNAM ................................................................................... 12  
VINASEEK ................................................................................ 16  
1.3 NHN XÉT – SO SÁNH VMT SS.E. .................................. 17  
1.3.1  
1.3.2  
SO SÁNH. .................................................................................. 17  
NHN XÉT................................................................................ 19  
2
PHN 2:.................................................................................................... 23  
XÂY DNG TỪ ĐIN NGNGHĨA THUT NGTIN HC................... 23  
2.1 TÌM KIM THEO NGNGHĨA...................................................... 23  
2.2 BIU DIN NGNGHĨA ................................................................ 24  
2.2.1  
2.2.2  
ĐỒNG HIN (CO-OCCURRENCE)......................................... 24  
HTHNG QUAN HỆ ĐỒNG NGHĨA ĐƠN GIN.................... 25  
2.3 ONTOLOGY...................................................................................... 42  
2.3.1  
2.3.2  
2.3.3  
2.3.4  
XÂY DNG ONTOLOGY........................................................ 42  
TRAO ĐỔI ONTOLOGY .......................................................... 44  
XÂY DNG ONTOLOGY TVĂN BN.............................. 45  
XÂY DNG ONTOLOGY CHUYÊN NGÀNH TIN HC ..... 51  
Trang 2  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
2.3.5  
BIU DIN ONTOLOGY TRONG CƠ SDLIU ............. 55  
2.4 BIU DIN CU TRÚC PHÂN CP CA ONTOLOGY TRONG  
CƠ SDLIU QUAN H....................................................................... 62  
2.4.1  
CÁC NHƯỢC ĐIM CA CÁCH BIU DIN BNG CON  
TR. 62  
2.4.2  
2.4.3  
BIU DIN CU TRÚC CÂY TRONG ORACLE.................. 63  
NHN XÉT............................................................................... 71  
KT LUN................................................................................. 72  
2.5.  
3
PHN III:.................................................................................................. 73  
THIT KHTHNG S.E VÀ KT QUTHNGHIM........................ 73  
3.1 THIT KHTHNG..................................................................... 73  
3.1.1  
3.1.2  
3.1.3  
Đặt tHthng:.......................................................................... 73  
Thiết kế các Chc năng ca Hthng........................................ 73  
Thut gii nhn dng bng mã.................................................... 83  
3.2 CÀI ĐẶT HTHNG. ..................................................................... 86  
3.2.1 Tchc Các Giao dinModule WebRobot. ............................... 86  
3.3 Kết quthnghim............................................................................ 95  
4. KT LUN……………………………………………………………….100  
PH L C...................................................................................................... 101  
PHLC 1. BNG TÓM TT ĐẶC TRƯNG CA MT SS.E NƯỚC  
NGOÀI............................................................................................................ 101  
PHLC 2. BNG TÓM TT ĐẶC TRƯNG MT SMETA-S E NƯỚC  
NGOÀI............................................................................................................ 103  
PHLC 3. BNG TÓM TT MT SHTHNG DANH MC  
(SUBJECT DIRECTORIES).......................................................................... 104  
PHLC 4.  
BNG TÓM TT ĐẶC TRƯNG CA MT SS.E  
TRONG NƯỚC. ............................................................................................. 105  
PHLC 5. QUAN HGIA ĐỘ CHÍNH XÁC & ĐỘ GI LI........... 106  
PHLC 6. THNG KÊ VPHÂN HNG CA CÁC DOMAIN .......... 107  
PHLC 7. SƠ ĐỒ QUAN HS.E........................................................... 110  
Trang 3  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
PHLC 8: CÁC MÃ NGNGHĨA CA LDOCE .................................. 111  
PHLC 9. TNG QUAN VCÔNG NGHORACLE TEXT ĐỂ PHÁT  
TRIN S.E. ..................................................................................................... 112  
PHLC 10. SƠ LƯỢC VTHƯ VIN VNCONVERT:...................... 116  
TÀI LIU THAM KHO. ............................................................................. 118  
CÁC TRANG WEB....................................................................................... 119  
Trang 4  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
MỞ ĐẦU  
Hin nay, InterNET đã trthành mt Siêu Xa lThông tin, cung cp  
thông tin cho mi người, mi nơi, trong mi ngành, mi lãnh vc. Hin nay  
trên thế gii có rt nhiu SEARCH ENGINE chng hn như GOOGLE (xem  
[2], [3], [5]), YAHOO, ALLTHEWEB, ALTA VISTA (xem [4]), … có khả  
năng tìm kiếm trên nhiu ngôn ngkhác nhau, nhưng vi Tiếng VIÊT vn có  
hn chế. Và trong nước cũng có vài SEARCH ENGINE chng hn như  
NETNAM (xem [7]), VINASEEK (xem [8]),… ]),… Mc dù đã có rt nhiu  
SEARCH ENGINE, nhưng vn rt cn thiết có mt snghiên cu đầy đủ để  
phát trin mt Hthng SEARCH ENGINE trên tiếng VIT có chú ý đến từ  
khóa là TGHÉP và NGNGHĨA trong lãnh vc Công nghthông tin  
(CNTT). Trên cơ snày, có thphát trin mt Hthng SEARCH ENGINE  
tiếng VIT tng quát cho mi lãnh vc.  
Thi gian thc hin Đề tài là 18 tháng ttháng 01/2003 đến 07/2004.  
Bn báo cáo này nhm trình bày mt skết qubước đầu:  
PHN I. Thu thp và nghiên cu tính năng ca mt sSEARCH ENGINE  
thông dng. So sánh và đánh giá các SEARCH ENGINE (S.E) này.  
PHN II. Xây dng Từ đin ngnghĩa Thut ngTin hc.  
PH N III. Thiết kế Hthng & kết quthnghim.  
Trang 5  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
1 PHN I:  
TÌM HIU VÀ SO SÁNH MT SS.E THÔNG  
DNG HIN NAY  
Phn này nhm tìm hiu phương thc hot động và tóm tt các đặc trưng  
chính ca mt ssearch engine tiếng Anh, tiếng Vit thông dng hin nay. Đưa  
ra nhng so sánh vsging nhau, khác nhau và nhng nhn xét vxu hướng  
hot động, xlý thông tin ca chúng. Đồng thi đánh giá hiu năng hot động  
và thng kê vài sliu xlý ca mt sS.E cth.  
1.1 MT SS. E NƯỚC NGOÀI THÔNG DNG HIN NAY (xem  
Bng Tng hp chi tiết trong Phlc 1, 2,3).  
1.1.1 GOOGLE  
Hin nay, GOOGLE là mt trong các S.E được ưa chung nht. Để đạt  
được kết qutìm kiếm vi độ chính xác cao thì cn phi nhc đến hai đặc trưng  
quan trng ca Google, đó là vic sdng cu trúc ca các siêu liên kết để tính  
độ phbiến (pageRank) (phân hng) cho mi trang web. Đặc trưng thhai là  
tn dng li nhng siêu liên kết để ci tiến kết qutìm kiếm.  
GOOGLE được cài đặt bng C hay C++, có thhot động trên cả  
Solaris và Linux Vic dò tìm các trang web thc hin bi các bdò tìm (web  
crawler) được đặt phân tán. Mt Máy ch(Server) sẽ đảm nhn vic gi danh  
sách các URL cn tìm đến cho các bdò tìm. Các trang web tìm vsẽ được lưu  
trvào kho ca các server dưới dng nén. Khi phân tích mt URL mi, mi  
trang web sẽ được gán mt shiu nhn dng, gi là DocID. Vic lp chmc  
thc hin bi blp chmc (Indexer) và bsp xếp (Sorter). Blp chmc  
thc hin các chc năng như đọc kho dliu, gin nén và phân tích các tài liu.  
Mi tài liu được chuyn đổi thành tp tn sxut hin ca các t, gi là các  
hit.  
Trang 6  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Các hit ghi nhn t, vtrí trong tài liu, kích thước font xp x, và chữ  
hoa hay chthường. Bchmc phân phi các hit này vào trong mt tp các  
barrels (thùng), to mt chmc thun đã sp xếp theo tng phn. Ngoài ra, bộ  
chmc còn phân tích tt cliên kết trong mi trang web và lưu thông tin quan  
trng vchúng trong mt anchor file. Tp tin này cha đủ thông tin để xác định  
liên kết này từ đâu, chỉ đến đâu và cha đon văn bn liên kết. Trình phân gii  
URL đọc tp tin các neo tm thi (anchor) và chuyn các URL tương đối  
thành các URL tuyt đối và trvcác docID. Đặt văn bn neo vào chmc  
forward có liên quan đến docID mà neo chỉ đến và to mt cơ sdliu  
tương ng gia các liên kết vi các docID. Cơ sdliu này được dùng để tính  
các PageRank cho tt ccác tài liu.  
Bsp xếp ly các barrel, đã được sp xếp cc b, và sp xếp li chúng  
theo docID để sinh ra mt chmc nghch đảo. Công vic này được thc hin  
ngay ti chnên không mt nhiu bộ đệm. Bsp xếp cũng đồng thi sinh ra  
mt danh sách WordID và bù li cho chmc nghch đảo. Mt chương trình gi  
là DumpLexicon ly danh sách này và tvng (lexicon) được sinh bi blp  
chmc và to mt tvng mi được dùng cho btìm kiếm (searcher). Btìm  
kiếm được chy bi mt web server và sdng tvng đã được DumpLexicon  
xây dng cùng vi chmc nghch đảo và các PageRank để trli các truy vn.  
Tc độ tìm kiếm ca Google phthuc và hai yếu t: hiu quca thut  
toán tìm kiếm và sliên kết xlý ca hàng ngàn hàng ngàn máy tính cp thp  
để to nên mt S.E siêu tc.  
Google sp thtcác kết qumt cách tự động nhvào hơn 100 bxử  
lý, sdng thut toán tính độ phbiến PageRank.  
Phn mm quan trng nht là PageRank, mt hthng phân loi các  
trang web được phát trin bi Larry Page và Sergey Brin ở đại hc Stanford.  
PageRank sdng cu trúc liên kết ca các trang web như mt giá trchbáo  
ban đầu cho trang riêng lẻ đó. Thc cht, Google xem các liên kết ttrang A  
đến trang B như mt lá phiếu ttrang A cho trang B. Google còn xem xét mt  
khi lượng ln các lá phiếu khác, hay phân tích liên kết trong các trang nhn  
Trang 7  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
được để thu thp lá phiếu. Vic thu thp các lá phiếu nhm xác định trng số  
hay độ quan trng ca trang web. Nhng site cht lượng cao snhn được độ  
phbiến cao, đây chính là giá trị được xem xét đến trong quá trình tìm kiếm.  
Dĩ nhiên, mt trang quan trng skhông có giá trnếu nó không phù hp vi  
câu truy vn. Google kết hp pagerank vi mt kthut so khp tkhoá tinh vi  
để tìm ra các trang mà nó va quan trng li va phù hp vi ni dung tìm  
kiếm. Để tìm được kết quphù hp nht cho câu truy vn Google không chỉ  
da trên sln ttìm kiếm xut hin mà còn xem xét đến ni dung ca trang  
và ni dung ca các trang liên kết đến nó.  
Hthng chmc ca Google được cp nht hàng tháng. Mi khi cơ sở  
dliu các trang web cp nht thì có nhng thay đổi: thêm site mi, mt site cũ  
và phân hng ca mt ssite có ththay đổi. Sphân hng ban đầu ca mt  
site có thbị ảnh hưởng bi sphân hng li ca các site khác. Không mt ai  
có can thip để nâng kết quphân hng cho mt site, nhng kết qutrvề đều  
được xác định hoàn toàn tự động.  
Mc dù chc năng tìm kiếm trên Yahoo được htrbi Google, nhưng  
cách xlý các truy vn ca hai site này không hoàn toàn ging nhau. Vì vy  
kết quca chai cũng không thnào ging nhau mt cách hoàn toàn. Điu  
này không phi là li ca mt S.E nào cmà chỉ đơn thun phn ánh skhác  
nhau trong tun sut mà mi site dùng để cp nht thông tin hay slượng các  
trang thông tin mà hthng đã xlý. Thut toán tìm kiếm cơ bn ca hai hệ  
thng ging nhau hoàn toàn. Tính năng bnhớ đệm (lưu trtm thi ni dung  
ca trang web để tăng tc độ truy cp hoc tìm kiếm) ca GOOGLE, được gii  
thiu vào năm 1997, là mt tính năng độc đáo so vi các công ctìm kiếm  
khác, nhưng không ging các site lưu trtrên web lưu trli bn sao ca các  
trang web. Tính năng này cho phép mi người truy cp vào mt bn sao ca  
hu như bt kwebsite nào, dng mà ln cui cùng Google phân loi và lp  
chmc. Có thtrang web cache này được truy cp có tui đời chvài phút  
hoc vài tháng, điu này tùy thuc vào ln cui cùng mà Google tìm đến lp  
chmc. Không như nhng dán lưu trweb khác, tính năng cache ca  
Trang 8  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Google không cgng to ra mt bn sao lưu trcố định ca trang web mà  
thc hin tìm kiếm liên tc các đường link chết để xóa b, khi nào trang web  
không còn tn ti thì công ctìm kiếm sthanh lc các cache có liên quan đến  
link đó trong thi gian sm nht có th. Tuy nhiên tính năng cache này cũng  
làm cho Google phi đụng chm đến vn đề bn quyn vì người tìm kiếm đôi  
khi có thxem được các thông tin, bài viết chdành riêng cho các thuê bao có  
đăng ký.  
Hin nay GOOGLE đã xlý hơn 8 ttrang tài liu, đang thnghim mt  
phiên bn mi ti đại chhttp://www.scholar.google.com/  
Tuy nhiên, GOOGLE vn còn hn chế trong tìm kiếm tiếng Vit  
1.1.2 LYCOS  
Thế gii ca Lycos là gia đình nhn Lycosidae, nó liên tc duyt các  
trang web để tìm thông tin. Kết qutìm kiếm sau đó được trn vào catalog theo  
chu khàng tun. Lycos giúp người dùng tìm các tài liu Web cha các từ  
khóa đặc bit do người dùng cung cp. Lycos nhanh chóng trnên rt phbiến  
đối vi nhng người dùng Web có nhu cu tìm kiếm toàn bni dung (full-  
content) trong không gian các tài liu.  
Lycos định nghĩa không gian Web là bt ktài liu nào trong các không  
gian HTTP, FTP, Gopher. Lycos có thly các tài liu mà nó chưa tng tìm  
kiếm bng cách dùng text trong tài liu mnhư là mt mô tcho các kết ni  
chưa được khám phá (anchor text). Tuy nhiên, Lycos không tìm kiếm và index  
các không gian o vô hn, hay biến đổi. Do đó, Lycos bqua các không gian  
sau:các CSDL WAIS, Usenet news, không gian Mailto, các dch vTelnet,  
không gian tp tin cc b.  
Nhm gim lượng thông tin cn lưu tr, tnhng tài liu thu được  
Lycos chlưu các thông tin sau: ta đề, heading và sub-heading, 100 tquan  
trng nht, 20 dòng đầu tiên, kích thước tính theo bytes, st. La chn 100 từ  
quan trng, được thc hin theo thut toán định lượng, da trên vic xem xét vị  
trí và tn sca t. Các từ được cho đim theo mc độ nhúng sâu vào tài liu.  
Trang 9  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Do đó, các txut hin trong ta đề đon đầu tiên sẽ được tính đim cao  
hơn.  
Lycos sdng phương pháp thng kê để lướt qua các server trong không  
gian Web, nhm tránh làm quá ti mt server vi hàng lot các yêu cu và cũng  
cho phép Lycos tăng độ ưu tiên đối vi các Url nhiu thông tin hơn. Các bước  
cơ bn ca thut toán như sau:  
1. Khi mt tìm thy mt Url, Lycos quét qua ni dung ca nó, tìm các tham  
chiếu đến các Url mi và đưa vào mt hàng đợi ni b.  
2. Để chn Url kế tiếp, Lycos la ngu nhiên mt tham chiếu trong hàng đợi  
trên theo độ ưu tiên.  
Lycos thường tìm kiếm các tài liu phbiến, đó là các tài liu có nhiu kết  
ni, Lycos cũng ưu tiên cho các Url ngn gn, chính là các thư mc mc cao  
nht (top-level) và các tài liu gn gc hơn.  
1.1.3 ALTA VISTA  
Vào cui năm 2002, Alta Vista đã thc hin nâng cp hthng tìm kiếm  
và hin nay trang web này đã có hơn 65 triu lượt người truy cp mi tháng.  
Hin nay Alta Vista có 250 nhân viên và công ctìm kiếm này được thhin  
vi 25 thtiếng.  
Alta Vista là mt S.E rt mnh vtìm kiếm theo tkhóa. Cho phép tìm  
kiếm theo nhiu cm tbng cách đặt nhng cm tcn tìm vào trong hai du  
nháy kép. Ví d: "search engine" or "information retrieval". Ngoài ra, Alta  
Vista còn cung cp nhiu la chn để ci tiến vic tìm kiếm. Ging như nhng  
S.E khác, Alta Vista cũng tchc dliu thành tng nhánh thư mc, như: tin  
tc, du lch, ththao, sc khe. …. Bên cnh đó, AltaVista còn có nhng tính  
năng đặt bit, ví dnhư người dùng nhp vào mt truy vn, bên cnh kết quả  
tìm được, AltaVista còn đưa ra mt scâu hi liên quan đến vn đề tìm kiếm  
để gi ý. Chng hn, nếu tìm mc "dog"( con chó), AltaVista sẽ đưa ra câu hi  
"Hot dog (xúc xích nóng) làm như thế nào?" cùng vi nút Answer để kết ni  
ti các site liên quan.  
Trang 10  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Trên biu mu tìm kiếm cơ bn ca AltaVista, người dùng có thchỉ  
định kết qukhai báo bng mt trong 25 thtiếng; tính năng này chcó trong  
các biu mu tìm kiếm nâng cao đối vi các site khác. Ngoài ra, Alta Vista còn  
htrnhiu tin ích, đặc bit là công cBabelfish( babelfish.altavista.com)  
cho phép dch tng câu hay ctrang web gia các tiếng Anh, Pháp, Ý, Tây Ban  
Nha …  
Alta Vista có nhng web crawler thường xuyên đi dò và ly vnhng  
dliu text, sau đó chuyn cho blp chmc. Crawler chính tên là Scooter,  
và nó có thêm nhng hthng con đảm nhn vic kim tra và duy trì các kết  
qutrong hthng index hin hành, như là kim tra các siêu liên kết nào không  
hot động (dead link), đã di chuyn sang nơi khác hay không còn tn ti, để có  
nhng xlý thích hp như sloi nhng trang này khi hthng chmc.  
Scooter phát đi cùng mt lúc hàng ngàn các tiến trình. Trong 24 gimt ngày,  
7 ngày mt tun, scooter và các hthng con ca nó truy cp đến hàng ngàn  
trang web trong cùng mt thi đim, như hàng ngàn người mù bt ly các dữ  
liu text, kéo vhthng và chuyn cho hthng lp chmc và đến ngày hôm  
sau thì nhng dliu đó đã được lp chmc. Trong lúc duyt nhng trang  
web thì tt ccác siêu liên kết tìm thy trong đó sẽ được đưa vào mt danh  
sách để duyt vào ln kế tiếp. Trong mt ngày thường Scooter và nhng hệ  
thng con ca nó sduyt qua trên 10 triu trang web.  
Hot động ca Alta Vista không ging như nhng S.E khác. Không chỉ  
quan tâm đến dliu metatag (nhng câu lnh đặc bit được nhúng vào trong  
header ca trang web) mà nó còn quan tâm đến tt cmi ttrong trang web.  
Chúng ta thường nghĩ rng nhng gì có thtcũng tt hơn nhng gì không  
được sp tht, nhưng điu này thì không đúng đối vi Alta Vista, nó thc  
hin lp chmc trên toàn bvăn bn (full-text indexing). Và mt quan nim  
chung cho rng: nếu có quá nhiu dliu và cn phi tìm kiếm, rút trích thông  
tin trong đó thì chcó cách duy nht là qun lý bng mt hqun trcơ sdữ  
liu. Có nghĩa là cn phi xác định các trường dliu, phân loi các thông tin  
…. Như vy, có rt nhiu vic phi thc hin khi xác lp hthng và bo trì nó.  
Trang 11  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Đối vi Alta Vista thì ngược li, dliu không phân hng và cũng không cn  
bo trì. Tt ccác tp tin đều không có cu trúc và cũng không có tht.  
1.2 MT SS. E TING VIT THÔNG DNG HIN NAY (xem  
Bng tng hp chi tiết trong Phlc 4).  
1.2.1 NETNAM  
NetNam là mt trong sít i các S.E dành cho tiếng Vit. NetNam chú  
trng đến vic thiết kế hthng phù hp vi điu kin cơ svt cht, htng  
ca Vit Nam Vì thế nên hthng được thiết kế theo kiến trúc xlí song song,  
vi các khi chc năng được minh honhư Hình1. Kiến trúc này cho phép hệ  
thng có thhot động phân tán tmt đến hàng trăm máy tính, cho phép các  
máy tính cnhthay thế cho các hmáy chcao cp. Khi nhu cu phc vụ  
tăng lên thì chcn thêm máy tính vào hthng mà không cn bsung thêm  
bt cthành phn nào. Vmt vt lí các máy tính trong hthng có thkết ni  
vi nhau bng hthng mng Ethernet 10/100/1000Mbps. Hthng cho phép  
thay đổi nóng (hotswap) mt hoc vài máy tính khi hthng gp scmà  
không nh hưởng gì đến hot động tng th.  
Hthng chia thành ba tng chính theo như Hình1: thu thp thông tin,  
nhn dng và chuyn đổi thông tin thành dng text, lp cơ sdliu cho các  
thông tin text.  
Mi tng chia thành nhiu đơn vị độc lp, hot động theo kiu chia sẻ  
tính toán hoc dtr. Đơn vkhai thác dliu được tích hp cùng vi phn lp  
chmc cơ sdliu, cho phép người dùng sdng giao thc TCP/IP khai  
thác trên bt chthng nào (Windows, Unix…)  
Trang 12  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Hình I.1. Sơ đồ hthng S.E ca NetNam  
Bng vic chia hthng thành các khi chc năng phi hp nhau thông qua Bộ  
điu phi, hthng có thphân tán xlí trên nhiu máy tính nh. Nhờ đó mà  
lượng dliu hthng có thxlí lên rt cao.  
Trang 13  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Phương thc lp chmc ca S.E NetNam  
NetNam lp chmc tt ccác ttrong tài liu, và khi trkết qutìm kiếm,  
NetNam search engine tìm ra tt ccác ttrong mt trang tài iu đó, và hin thị  
mt stừ đầu tiên như mt bng tóm tt ngn. Khi tìm kiếm có thdùng thẻ  
Meta để tăng cơ hi tìm kiếm; đưa ra các miêu triêng để hin thkết qutìm  
kiếm.  
Cú pháp tìm kiếm ca S.E NetNam  
Tvà cm t: S.E NetNam định nghĩa mt tnhư mt chui nhng chcái  
và con số được tách ri nhau.  
Phn mm tìm kiếm schra tt ccác tmà nó tìm được trong mt trang tài  
liu web mà không quan tâm đến vic từ đó có trong từ đin hay đánh vn sai  
hay không.  
Tìm kiếm cm t: Để tìm được mt cm t, dùng ngoc kép ở đầu và cui  
cm t. Cm từ đảm bo rng S.E NetNam stìm được các từ đúng như thế (vị  
trí, tht, không có tchen gia...), chkhông phi là tìm được riêng tng từ  
mt.  
Hthng chm câu S.E NetNam sbqua mi chm câu trtrường hp chm  
câu đó là mt du chia cách gia các t. Đặt hthng chm câu hoc các ký tự  
đặc bit gia các t, và gia chúng không có du cách, cũng là mt cách để tìm  
mt cm t. Mt ví dcho thy hthng chm câu rt hu dng trong vic tìm  
mt cm từ đó là trường hp tìm số đin thoi. Ví dụ để tìm được mt số đin  
thoi 0903401357, gõ 09-0340-1357 thì sdtìm hơn là gõ theo kiu "09 0340  
1357", mc dù đây cũng là mt cú pháp có thchp nhn được nhưng ít phổ  
biến. Các tcó du ni gia như CD-ROM, cũng tự động làm thành mt cm  
tdo có du gch ni gia. Tuy nhiên, thông thường, sdng du ngoc kép  
để tìm mt cm tlà cách được khuyến khích dùng hơn là sdng hthng  
chm câu, vì mt stự đặc bit còn có nghĩa ph:  
Trang 14  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Du + và - là nhng toán tgiúp lc kết quca mt tìm kiếm đơn gin.  
&, |, ~ và ! là nhng toán tgiúp lc kết quca mt tìm kiếm nâng cao  
Phân bit chthường/hoa Phân bit dng chlà mt loi tìm kiếm da vào  
loi chmà do người dùng gõ vào.  
Mt yêu cu bng chthường scó kết qutìm kiếm không theo dng chữ  
gõ vào. Ví d, nếu gõ chyết kiêu vào ô yêu cu, S.E NetNam stìm tt cả  
các biến thca tyết kiêu, gm có yết kiêu, Yết Kiêu, YếT KIÊU, v.v...  
Nếu yêu cu có cchhoa, thì kết qutìm kiếm slà tìm kiếm theo dng  
ch. Ví d, nếu quý vị đin Yết Kiêu vào ô yêu cu, S.E NetNam stìm tt  
ccác biến thca Yết Kiêu chvi chữ đầu tiên là chhoa. Nó skhông  
trvcác văn bn có chYếT KIÊU hay yết kiêu.  
Sdng tkhoá để lc các tìm kiếm  
Cgiao din ca search engine đơn gin và nâng cao đều htrvic sdng  
các tkhoá để hn chế tìm kiếm ti các trang đáp ng tiêu chun được định rõ  
vni dung và cu trúc ca mt trang web. Sdng tkhoá, có thtìm kiếm  
da vào URL hoc mt phn ca mt URL, hoc da vào các liên kết, hình  
nh, văn bn, mã hoá ca mt trang web. Các tkhoá srt có ích trong trường  
hp:  
Tìm các trang trên mt máy chnào đó hoc trong mt tên min chỉ định  
Tìm các trang có cha các liên kết trti trang web chỉ định  
Tìm các trang có cha mt lp Java applets.  
Tìm kiếm da vào tkhoá, gõ mt yêu cu bng tkhoá lnh tìm kiếm  
Gõ tkhoá bng chthường, sau đó là du hai chm. Quy ước để tìm mt cm  
ttrong lnh tìm kiếm sging vi quy ước để tìm mt cm ttrong mt yêu  
cu bình thường: phương pháp thường được sdng nht là cho cm tvào  
trong ngoc kép. title:"thi trang"  
Trang 15  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Các tkhoá có thsdng trong vic tìm kiếm ca NetNam: anchor:link;  
applet:class; domain:domainname; host:name; image:filename; link:URLtex;  
title: cm t; url: cm từ  
Các tkhoá url, host, domain, đều có mt mc đích là tìm kiếm các URL da  
vào mt phn URL, hoc da vào tên máy chhoc tên min nơi có các trang  
web cn tìm.  
Các tkhoá link và anchor cũng tương tnhư khi chúng tìm kiếm thông tin về  
liên kết. Tkhóa link tìm các văn bn trong mt URL là đích ca mt liên kết  
(ví d, http://www.abc.org.vn/help.htm), trong khi tkhoá anchor li tìm các  
văn bn hin ti ca mt siêu liên kết khi người dùng nhìn thy nó trên mt  
trang web  
Thtitle stìm kiếm ni dung tiêu đề ca mt tài liu. Tkhoá tiêu đề sgii  
hn vic tìm kiếm ti văn bn mà tác gica tài liu đã mã hoá như mt phn  
ca th<title>. Tiêu đề là cm tsxut hin trong đầu đề ca strong trình  
duyt web. Tkhoá tiêu đề có thslà mt cách tt để gii hn tìm kiếm chỉ  
ti các trang vmt chủ đề, gm các trang được đặt tiêu đề mt cách thông  
minh. Tuy nhiên vi các trang mà người lp nên không quan tâm đến tiêu đề  
trang web hoc đặt tên kém thì cách tìm này không dùng được. Hơn na, hệ  
thng tìm kiếm ca NetNam có thcu hình để nhn biết các thuc tính phụ  
khác ca tài liu có các thHTML META do người dùng quy định.  
1.2.2 VINASEEK  
VinaSeek là mt S.E cho các web site tiếng Vit ca Công ty Công nghệ  
Tin hc Tinh Vân, cho phép tìm kiếm và hin ththeo bt kbng mã nào.  
Cùng vi khnăng xlý tiếng Vit, VinaSeek còn có đầy đủ các tính năng ca  
mt công ctìm kiếm trên Internet như tính chính xác, đầy đủ, tính cp nht  
cũng như tc độ tìm kiếm. Các web site khác có thdùng VinaSeek làm công  
Trang 16  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
ctìm kiếm riêng cho mình. Chu kto chmc ca VinaSeek là 5 ngày, thi  
gian tìm kiếm trung bình là 0.3 giây.  
Hin nay VinaSeek đổi tên thành UniVIS và đã được đóng gói nhm mc  
tiêu phc vcác hthng dliu sdng tiếng Vit. UniVIS là ht nhân ca  
dch vVinaSeek, nên có toàn bnhng tính năng ưu vit ca dch vụ  
VinaSeek. UniVIS có khnăng to chmc cho hàng triu văn bn các loi  
(HTML, XML, MS Word, PDF, RTF…) và các cơ sdliu ln trên Oracle,  
MS SQL và DB2. Đặc bit, UniVIS còn có khnăng tùy biến giao din, dễ  
dàng cài đặt và qun tr. Qun trmng smt không đến 30 phút để cài đặt và  
cu hình uniVIS to chmc và tìm kiếm được mi văn bn trên các website đã  
cài uniVIS.  
1.3 NHN XÉT – SO SÁNH VMT SS.E.  
1.3.1 SO SÁNH.  
1.3.1.1 GING NHAU  
Các S.E đều dùng mt quy trình gm ba giai đon: thu thp thông tin,  
to chmc trên thông tin, tìm kiếm trên chmc và tìm kiếm, sp xếp kết qu.  
Nhưng mi search engine có gii pháp xlý khác nhau nên có thcho kết quả  
khác nhau.  
Hin nay ngày càng nhiu các S.E kết hp dch vthư mc web vào  
trong web site ca h. Nhng thư mc này tương tác vi search engine chính  
(primary search engine) theo nhiu cách khác nhau. Ví du: như Excite, Terra  
Lycos, Alta Vista… không chlà mt search engine. Đặc đim chính ca chúng  
có thmô tnhư là nhng cng truy cp Web (web portal) hay nhng trung  
tâm truy cp, là nơi mà người dùng đi vào để ly thông tin cho mi lĩnh vc, kể  
ctán gu, gi thư đin t, …..  
Trong vic phân tích tkhóa và tính độ phbiến cũng có nhiu trường  
hp đặc bit cn xem xét, ví dnhư trong trường hp chui cn xlý và tìm  
kiếm là “to be or not to be”, nhng S.E không tt scho rng chui trên toàn là  
Trang 17  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
nhng tthông dng không quan trng để tính toán, và quá phbiến. Để gii  
quyết nhng trường hp như trên thì các S.E cung cp gii pháp là dùng hai  
du nháy đôi để cha chui cn tìm, bt buc S.E tìm kiếm mi cm ttrong  
hai nháy kép.  
Hin nay các S.E cung cp cơ chế tự động thêm toán t“AND” vào  
gia hai ttruy vn. Kết qutìm kiếm slà nhng tài liu phù hp vi toàn  
cm ttìm kiếm và sau đó là nhng kết quphù hp vi tng ttrong cm t.  
1.3.1.2 KHÁC NHAU  
Yahoo lp chmc tt nht. S.E dùng phn mm con nhn này bò khp  
nơi trên mng, nhm đến nhiu site khác nhau và theo mi siêu liên kết trên  
tng trang để to chmc. Cht lượng các chmc thay đổi tùy theo chúng có  
thường xuyên được cp nht hay không, bao lâu thì các trang web đã bxóa  
khi site cũng bxóa khi chmc đó. Kết qutruy tìm có đúng là thta cn  
hay không cũng còn tùy bi lp chmc bng con nhn có thể đưa vào nhng  
metatag do các webmaster thêm vào, tiêu đề, tkhoá ngữ đon ly tcác trang  
đó. Nhng yếu tnày đều có thdn ti kết qusai lc, đặc bit là do nhiu  
Webmaster lm dng chúng để dn thông tin vweb site ca h. Chính vì vy  
mà yahoo, vi din đàn site được to bi con người và khnăng truy tìm mnh  
theo tkhóa, thường tìm ra đúng nhng thngười dùng tìm hơn.  
Mt đim khác bit ln gia các S.E là vic sp xếp li các kết qutìm kiếm  
được. Các S.E sau khi tìm được nhng kết qusthc hin tác vlc bt  
nhng kết qutrùng hay nhng kết quđộ chính xác kém. Sp xếp các kết  
qunày theo mt trt tnào đó, như theo độ chính xác ca tài liu…. Mi S.E  
có mt cơ sdliu khác nhau và chiến lược xlý kết qukhác nhau nên kết  
qutrvcho người sdng cũng rt khác nhau.  
Trang 18  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
1.3.2 NHN XÉT.  
Mc tiêu ca người dùng khi tìm kiếm là:  
Tìm ra tt ccác thông tin có liên quan: gi là Perfect recall (độ gi li cao  
nht), sao cho chúng không bquá ti.  
Không nhn bt ktài liu nào không có liên quan: gi là High Precision  
(độ chính xác cao nht)  
Hai độ đo trên mâu thun vi nhau. Perfect Recall có thcho kết qutìm  
kiếm là tt cnhng gì có trên web. Nhưng còn pricision thì là ti thiu. Mt  
trình duyt phi dùng nhng phương thc nào đó để cc đại hoá độ chính xác  
ca các kết qutrv(bng cách phân hng kết qu) (Xem Chi tiết trong  
Phlc 5, 6,7)  
Hu hết các S.E lp chmc “bng tay” đều mang li kết qutt hơn so vi  
lp chmc tự động. Nhìn chung, độ đo quan trng nht để đánh giá hiu quả  
hot động ca mt S.E là cht lượng ca kết qutìm kiếm. Các kết quhp lý  
là các trang cht lượng cao, không có các liên kết bgãy. Chi tiết xem Bng  
sau:  
Trang 19  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Bng I.1. Mt Thí dvKết qutìm kiếm ca Google  
Query: bill clinton  
100.00%  
(no date) (0K)  
Office of the President  
99.67%  
(Dec 23 1996) (2K)  
Welcome To The White House  
99.98%  
(Nov 09 1997) (5K)  
Send Electronic Mail to the President  
99.86%  
(Jul 14 1997) (5K)  
mailto:president@whitehouse.gov  
99.98%  
mailto:President@whitehouse.gov  
99.27%  
The "Unofficial" Bill Clinton  
94.06%  
(Nov 11 1997) (14K)  
Bill Clinton Meets The Shrinks  
86.27%  
(Jun 29 1997) (63K)  
President Bill Clinton - The Dark Side  
97.27%  
(Nov 10 1997) (15K)  
$3 Bill Clinton  
94.73%  
(no date) (4K)  
Trang 20  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Ngoài cht lượng tìm kiếm, mt khía cnh ca yêu cu lưu trcn quan  
tâm là phi sdng hiu qubnh. Bng 2. trình bày mt sthng kê và  
mt syêu cu lưu trca Google.  
Bng 2. Thng kê vdung lượng lưu trữ  
Tng dung lượng các trang web tìm được  
Kho dliu nén  
147.8 GB  
53.5 GB  
4.1 GB  
Chmc nghch đảo có thtự  
Chmc nghch đảo ban đầu  
Từ đin  
37.2 GB  
293 MB  
6.6 GB  
Dliu neo (anchor) tm thi  
Document Index Inc1. Variable Width  
Data  
9.7 GB  
Cơ sdliu các liên kết  
Tng dung lượng không kkho lưu trữ  
Tng dung lượng kckho lưu trữ  
3.9 GB  
55.2 GB  
108.7 GB  
Điu quan trng nht ca mt S.E là hiu qudò tìm và lp chmc.  
Các thông tin này có thlưu giữ đến mt hn (date) và các thay đổi chyếu  
đến hthng có thể được kim tra mt cách tương đối nhanh chóng. Trong  
Google, hot động chính là dò tìm, lp chmc và sp xếp. Tht khó để biết  
bao lâu thì dò tìm hoàn thc hin hoàn tt, vì nếu đĩa bị đầy, hay các scố  
khác thì hthng sbngng hot động. Trong 9 ngày, ly được 26 triu trang  
web (gm cli). Tuy nhiên, nếu hthng hot động êm xuôi thì nó chy  
nhanh hơn và download khong 11 triu trang chtrong 63 gi, trung bình chỉ  
hơn 4 triu trang mi ngày hay 48,5 trang mi giây. Google có thchy blp  
chmc và bdò tìm đồng thi. Blp chmc có thchy nhanh hơn các bộ  
dò tìm, điu này có được là do blp chmc có đủ thi gian để ti ưu và  
không btình trng tht cchai. Các ti ưu này nhvic cp nht rt ln cho  
Trang 21  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
chmc tài liu và vic thay thế các cu trúc dliu quan trng trên đĩa cc b.  
Blp chmc thc hin khong 54 trang trên mi giây. Các bsp xếp có thể  
thc hin hoàn tt đồng thi; sdng 4 máy, thc hin xlý sp xếp mt  
khong 24 gi.  
Bng 0. Phân tích slượng các trang Web  
Các trang web tìm được  
Các URL tìm thy  
24 million  
76.5 million  
1.7 million  
1.6 million  
Các địa chmail tìm thy  
Slượng các li 404's  
Phiên bn hin nay ca Google trli hu hết các truy vn t1 đến 10  
giây. Thi gian này hu như bchi phi bi vào/ra đĩa trên NFS (vì các đĩa  
được tri trên nhiu máy). Ngoài ra, Google không có bt ksti ưu vcache  
truy vn, phân nhlp chmc trên các thut ngchung, và các ti ưu hoá  
chung khác. Để nâng cao tc độ ca Google người ta đang xem xét vic phân  
tán phn cng và phn mm và ci tiến thut toán. Mc đích cui cùng là có  
thể đáp ng hàng trăm các truy vn khác nhau trong mt giây. Bng 4. nói  
lên thi gian truy vn trên phiên bn hin nay ca Google.  
Bng 4. Thng kê thi gian tìm kiếm  
Same Query Repeated (IO mostly  
1.3.2.1.1.1.1.1 Initial  
cached)  
Query  
Query  
CPU  
Total  
CPU Time(s)  
Total Time(s)  
Time(s)  
Time(s)  
al gore  
0.09  
2.13  
0.06  
1.66  
0.20  
1.16  
0.06  
1.80  
0.24  
1.16  
vice president  
hard disks  
1.77  
0.25  
1.31  
3.84  
4.86  
9.63  
search engine  
Trang 22  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
2 PHN 2:  
XÂY DNG TỪ ĐIN NGNGHĨA THUT  
NGTIN HC  
2.1 TÌM KIM THEO NGNGHĨA  
Tìm kiếm theo ngnghĩa là tìm đúng theo nghĩa mình mong mun trong số  
nhng nghĩa ca tmình mun truy vn.  
Ví d:  
vi tkhóa tìm kiếm là: “cò” (theo nghĩa: con cò) thì kết qutìm kiếm  
có thlà: “Min Tây Nam bcó mt svườn cò rt ln.”.  
Tuy nhiên không phi lúc nào t“cò” cũng có nghĩa con cò cho nên nhng  
trường hp sau skhông là kết quca quá trình tìm kiếm trên:  
“Khu súng đã cướp cò khi anh y sa cha.”  
“Nhng tay cò mi có rt nhiu mánh khoé trong làm ăn kinh tế.”  
Bên cnh đó tìm kiếm theo ngnghĩa còn là tìm nhng tcó ngnghĩa liên  
quan chkhông đơn thun là tìm chính xác nghĩa. Trong mt strường hp  
tìm đúng nghĩa ca tscó kết quhn chế và không có tính ng dng cao.  
Ví d:  
Sau đây là mt kết qucó thcó ca quá trình tìm kiếm trên: “Sếu cổ  
đỏ là mt loài chim quý”.  
Vì lý do sếu là mt tcó cùng ngun gc vi cò (theo nghĩa con cò).  
Biu din ngnghĩa có thxem như mt bài toán con ca biu din tri  
thc. Trong nhng phn sau, chúng tôi đề cp đến các dng quan hngnghĩa  
khác nhau (2), cũng như cách chúng được tchc thành hthng trong các hệ  
biu din ngnghĩa hin có (3), phn (4) trình bày vWordNet, mt từ đin  
ngnghĩa hoàn chnh nht hin nay, phn (5) trình bày sơ lược vontology, lý  
Trang 23  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
thuyết chung cho các hthng biu din ngnghĩa. Tiếp theo là các chi tiết kỹ  
thut ca quá trình thc hin đề án và báo cáo kết quca đề án (6).  
2.2 BIU DIN NGNGHĨA  
2.2.1 ĐỒNG HIN (CO-OCCURRENCE)  
Trong văn bn, sxut hin ca các từ đều có quan hmt thiết vi  
nhau theo mt ngnghĩa nào đó nhm để din tmt ngcnh xác định. Do đó  
có nhng tluôn đi cùng vi nhau (đồng hin) và mang mt nghĩa xác định và  
ngược li.  
Ví d:  
trong văn bn có cha t“plant”, “factory”, “worker” thì nói chung từ  
“plant” có nghĩa là nhà máy nhưng nếu văn bn có cha các t“plant”, tree”,  
“orange” thì khi đó t“plant” có nghĩa là thc vt.  
Vic xác định các quan hệ đồng hin này da trên vic thng kê trên  
mt tp ngliu ln nhm bao quát được các ngcnh khác nhau ca các từ để  
đảm bo các quan hệ đồng hin này luôn đúng trong mi trường hp.  
Đây là hthng quan hệ được phát sinh qua phân tích ngliu.  
network ----- network protocol  
network ----- node  
LAN server ----- central mass storage  
LAN server ----- network server  
LAN server ----- server  
LAN server ----- workstation  
License ----- Copyright  
License ----- Portions Copyright  
License ----- software licence  
Trang 24  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
2.2.2 HTHNG QUAN HỆ ĐỒNG NGHĨA ĐƠN GIN  
Từ đin LDOCE và LLOCE (Longman Dictionary of Contemporary  
English và Longman Lexicon of Contemporary English) đã được sdng rng  
rãi để rút trích tvng cho xlý ngôn ngtnhiên và được sdng như là  
mt dng từ đin máy tính có thể đọc được (machine-readable dictionary –  
MRD). Tchc và to dng chúng da trên phương pháp truyn thng để to  
ra từ đin. Nhưng mt số đặc đim đã làm cho chúng đặc bit phù hp cho vic  
tìm kiếm tvng cho xlý ngôn ngtnhiên.  
LDOCE  
LDOCE(Longman Dictionary of Contemporary English) là mt từ đin  
mà máy có thể đọc được có kích thước trung bình khong 45.000 mc tvà  
75.000 nghĩa. Các mc từ được phân bit da trên ngun gc ca tvà tloi  
ca chúng mà mi mc tcó thcó mt hoc nhiu mc nghĩa. Nghĩa ca từ  
được phân bit da trên tloi ca chúng.  
LDOCE được tchc theo ngnghĩa dng phân cp. Gm 32 mã ngữ  
nghĩa khác nhau được sdng trong LDOCE: Mt sphân bit được to ra  
gia 19 mã cơ bn và 13 mã ni kết ca nhng mã căn bn đó.  
A (animal): thú vt  
B( female animal): thú vt ging cái  
C(concrete): cthể  
D( male animal): thú vt ging đực  
E (cht rn hay cht lng (không phi thế khí))  
F ( female human): phái nữ  
H ( human): con người  
…….  
Nhng mã cơ bn này được tchc thành cây phân cp:  
Trang 25  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Hình II.1: cây phân cp ca LDOCE  
Hu hết các nghĩa ca danh tcó mt mã ngnghĩa. Đối vi mt sdanh tcó  
nhiu mã thì các mã này là cơ sở để phân loi nghĩa. Tuy nhiên đối vi mt số  
động tvà tính t, nhng mã này cho biết gii hn sdng ca đối s.  
LLOCE  
LLOCE (Longman Lexicon of Contemporary English) là mt từ đin  
LDOCE và được tchc li da trên nguyên tc ngnghĩa. Sphân lp trong  
LLOCE được được phân thành 3 cp theo mc độ cthca khái nim tăng  
dn: 14 phân lp Æ 127 nhóm Æ 2441 tp hp. Các tp hp gm các tcó  
liên quan mà không cn phi đồng nghĩa. Mi quan hliên quan ở đây được xét  
trên mt ngnghĩa.  
Ví d:  
<MAJOR: A>  
Life and living things  
Animals/Mammals  
|
|
<GROUP: A50-61>  
|
|
<SET: A53>  
The cat and similar animals: cat, leopard, lion, tiger,…  
Trang 26  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
Mi mc trong từ đin được gn kết vi mt tp hp các mã, ví dnhư sau:  
<SET: A53> nouns The cat and similar animals  
--------------------------------------------  
cat 1 a small domestic [=> A36] animal ...  
2 any animal of a group ...  
...  
panther [Wn1] 1 a leopard ...  
2 AmE cougar.  
...  
<SET: A53> nouns The dog and similar animals  
--------------------------------------------  
dog a domestic animal with a coat of hair ...  
Mt phn từ đin LLOCE  
A1#tn ti,sng,hin có,hin hu,to ra,sáng to,to nên,to  
thành,làm sng động,cvũ,to ssng,làm sinh động,làm sôi  
ni,làm phn khi,đầy sc sng,có sinh khí,nhn nhp,náo  
nhit,sôi ni,hot hình,làm ny sinh ra,tích cc,ng h,động  
viên,làm vui lên,làm hăng lên,làm náo nhit,làm nhn nhp,  
A10#thtiêu,giết chết,cho vchu,kh,khử đi,giết,huhoi,kết  
liu,h,đánh qu,làm chết,dit,tiêu dit,  
A100#cá thuc hcá tr,cá nheo,cá êfin,cá vược,cá tuyết,cá  
moruy,cs tuyết to đàu,cá chình,lươn,cá trích,cá b,cá thu,cá  
rutilut,cá dy,cá đui,cá cơm,cá cơm bin,cá chim,cá bơn vĩ,cá  
chép,cá đối,cá phèn,cá chó,cá dưa răng nhn,cá bơn sao,cá  
bơn,cá hi,cá sac-đin,cá bơn cát,cá bin nhmàu xám bc,cá hét,  
A101#ging cá hcá mp,cá đui,cá nhám,cá mp,  
A102#cua,c mượn hn,tôm ký cư,tôm hùm,tôm sông,tôm,tôm  
càng,tôm panđan,tôm he,  
A103#hàu,sò,trai,vm,c buxin,c tù và,c hương,c mút,bch  
tuc,mc ph,mc ng,  
A104#sa,sao bin,nhím bin,bt bin,miếng bt bin,san hô,  
A11#chết người,chí t,gây chết người,như chết ri,tai hi,gây  
chết,giết chết người,nguy đến tính mng,phi chết,làm chết  
người,như chết,đã chết,trí mng,gây tai ho,  
Trang 27  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
A110#ong,ong bp cày,bcánh cng,bsng  
hươu,gián,mui,kiến,châu chu,châu chu voi,bướm đêm,sâu  
bướm,ngài,chun chun,rui,rui nhà,xâu tai,bxâu tai,bọ  
chét,ong ngh,ong vò v,dế,ve su,ve,mòng,rui trâu,rp rng,sâu  
cây,rn,chy,rp,  
A111#trng,u trùng,sâu bướm,nhng,sâu,rui,rui  
nhà,bướm,giòi,  
A112#nhn,bcp,  
A113#giun đất,c sên,sên trn,giun,sâu,trùng,đỉa,  
A12#bt t,bt tn,vô hn,bt dit,sbt t,trường sinh bt t,sự  
bt h,slưu danh,đặc bit,vô cùng,hết sc,rng ln,bt h,sng  
mãi,mãi mãi,không chết,vĩnh cu,sng mãi đời đời,không thtiêu  
dit được,  
A120#đầu,c,mt,tai,chng,  
A121#sng,gc,bm,mào,chm lông mào,mào gà,tóc  
mai,râu,ria,xúc tu,râu s,tua,anten,lông,  
A122#mũi,ming,mm,mõm,vòi,vòi voi,rmõm,mt,đầu,mỏ  
chim,m,diu,hàm dưới,càng,vòi con voi,mang,mang cá,yếm,cổ  
hng,  
A123#răng,răng nanh,răng nc,ngà,ngà voi,  
A124#chân,cng,bàn chân,ngón chân,móng guc,chân có  
vuc,gang bàn chân,vut,càng,móng,màng da chân,giác,xương  
ng chân,  
A125#cánh,đuôi,đuôi chn,đuôi cáo,vây cá,chân chèo,  
A126#da,bda lông,da sng,da động vt,tm da sng,blông  
mao,lông tóc,tóc,lông,blông tóc,lông cng,lông tóc cng,bda  
lông con vt,blông cu,lông cu,lông vũ,blông,blông  
chim,v,bao,mai,vy,vy,lông gai,ngnh,gai,ng lông,lông gai  
cng,túi,ng,màng bc,  
A127#vết,đốm,chm,đốm tròn,sc,vn,du,vin,đim,lth,đường  
khía,  
A128#bu vú,đầu vú,núm vú,vú,  
…………….  
B1#thxác,thân th,thân xác,vt th,thhình,vóc người,dáng  
người,tm vóc,khngười,thtrng,thcht,thân hình,ngoi  
hình,thân,tng người,  
Trang 28  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
B10#đầu,vòm hng,vòm ming,khu cái,li,răng,ming,môi,lưỡi  
gà,lưỡi,hng,cung hng,trái c,tóc,lông,thái dương,lông  
mày,lông mi,sng mũi,ltai,lmũi,hàm,quai hàm,đỉnh  
đầu,trán,mt,mũi,má,cm,c,tay,cánh tay,vai,nách,cánh tay  
trên,cơ hai đầu,nhượng tay,chtay gp,khuu tay,cng tay,cổ  
tay,nm tay,chân cng,mông đít,đùi,bp đùi,đầu gi,bp  
chân,cng chân,mt cá chân,gót chân,gáy,thân,ngc,vú,núm  
vú,đầu vú,ddày,bng,rn,sườn,eo,hông,háng,cơ quan sinh dc,bộ  
lông,cái kp,hu,chng,m,đĩa,  
B100#béo,mp,mp mp,béo ln,tròn trĩnh,phúng phính,béo  
tròn,mũm mĩm,múp mích,múp,múp máp,bu nhũn,nhão,nho  
nhèo,béo ph,béo ph,ph,quá béo,quá nng cân,mp tròn,giết tht  
được ri,béo phì,phc phch,phinh phính,mm,nhũn,bbm,đầy  
đặn,quá nng,  
B101#mnh khnh,gy,gy còm,chc người,thon th,không  
béo,mnh d,nhbé,nhcân,gy nhom,da bc xương,gy mòn,hc  
hác,rt gy,không có nhiu tht,mnh mai,thon,mng mnh,yết  
t,không to dày,mng manh,dv,hp dn,  
B102#tăng cân,mp ra,béo ra,làm béo ra,vbéo,tròn ra,lên  
cân,nng lên,  
B103#st cân,gy đi,nhcân đi,ăn kiêng,trnên thon nh,gim  
cân,thon gn đi nhiu,gy mòn,m đi,sút cân,sút cân dn dn,trở  
nên mnh khnh,bt nng đi,  
B104#đẫy đà,béo tt,múp máp,trông đẫy đà,có bngc to,có vú  
to,béo,bv,  
B105#chc nch,vm v,to kho,mp,chc,chc mp,béo lùn,lùn,  
B106#gy nhom,cao lêu nghêu,có cng dài,xương xu,khng khiu,  
B11#s,hp s,đầu lâu,xương hàm dưới,xương bvai,xương cánh  
tay,xương sng,xương ct sng,xương quay,xương tr,xương cổ  
tay,xương đốt ngón tay,xương đốt ngón chân,xương bánh  
chè,xương chày,xương cchân,xương quay xanh,xương c,đốt  
xương sng,khung chu,xương ct,xương lòng bàn tay,xương  
đùi,xương mác,xương bàn chân,bxương,mô hình bxương,hình  
đầu lâu,hình hp s,xương sườn,khp xương,ct sng,  
B110#khe mnh,mnh khe,sung sc,khe,khe hơn,dchu  
hơn,khomnh,tt,không làm sao,cường tráng,tt cho sc khe,có  
li cho sc khe,được,mnh m,tráng kin,không bnh tt,dư sc,  
Trang 29  
Đề tài: ”Phát trin mt Hthng S.E HtrTìm kiếm Thông tin, thuc  
lãnh vc CNTT trên Internet qua tkhóa bng tiếng Vit”  
B111#đau yếu,m,bnh,không được khe,hay m đau,có thkhông  
có li cho sc khe,không lành mnh,có vẻ ốm yếu,không  
khe,không đủ sc khe,sc khe ti,m yếu,đau,luôn đau  
yếu,thường xuyên m đau,đau m,bbnh,hơi bị đau,yếu,không  
khe mnh,khó ,m đau,kit sc,có liên quan đến bnh,cho thy  
là có bnh,choáng váng,hơi mt,hay mt trí,cm thy không  
kho,mt rã ri,không kho,khó chu,sp chết,suy nhược,làm sa  
sút,làm suy nhược,làm kit sc,làm mt l,mt l,bnh tt,  
B112#sc khe,tình trng sc khe,trng thái khe mnh,tình  
trng sung sc,trng thái khott,hnh phúc,  
B113#sự đau yếu,trình trng đau m,loi bnh,bnh,sc khe  
kém,m yếu,ri lon,bnh tt,các bnh nói chung,bnh hon,tình  
trng ri lon,sự ốm đau bnh tt,skhó ,se mình,sự ốm yếu tàn  
tt,ssuy nhược thn kinh,stàn tt,điu cn tr,điu bt li,có  
vn đề,khó ,tình trng,không kho,khó chu,hơi mt,cm thy  
không kho,cm thy chán nn,  
B114#đau đớn bi,bị ốm,mc bnh,bị ốm đột xut,bnh,m,có  
triu chng m,khó chu trong người,bt đầu m,cm thy m,  
B115#ngt,choáng,bt bình tĩnh,ngt đi,ngsay,lm đi,  
B116#slên cơn bnh,lên cơn bnh,cơn bnh bt ng,cơn bnh,cú  
sc,sc,đột qu,  
B117#hn hn,thgp,va nói,va thhn hn,hành động thhn  
hn,tiếng nói thhn hn,đập thình thình,hơi thphù,hành động  
thphì phò,tiếng thphì phò,kht mũi,hành động kht mũi,tiếng  
kht mũi,ho,ht hơi,hành động hát hơi,tiếng ht hơi,kht kht,ngi  
ngi,đánh hơi,st st,nc cc,hành động nc cc,tiếng nc cc,,sự  
,phun,huýt sáo,động tác huýt sáo,khò khè,hành động thkhò  
khè,tiếng thkhò khè,thdài,sthdài,tiếng thdài,ngáy,sự  
ngáy,tiếng ngáy,đánh rm,sự đánh rm,tiếng đánh rm,địt,va  
ho,ho mà khc ra,hít,kht kht,smũi,  
B118#nght th,tc th,nghn,làm ngt th,chết ngt,làm chết  
ngt,gây ngt,quá trình gây ngt,sgây ngt,tht c,bóp ngt,  
B119#nôn,ma,bun nôn,nôn ma,nôn ra,ma ra,nôn khan,e,e  
ra,ói,ói ra,thra,tng,phun ra,pht ra,a,ra,  
B120#sbun nôn,trng thái gây nôn,cm thy bun nôn,chng  
say sóng,chng say xe,bun nôn khi đi máy bay,  
Trang 30  

Tải về để xem bản đầy đủ

pdf 119 trang yennguyen 09/01/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Đề tài Phát triển một hệ thống S.E hỗ trợ tìm kiếm thông tin, thuộc lãnh vực công nghệ thông tin trên Internet qua từ khóa bằng tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfde_tai_phat_trien_mot_he_thong_s_e_ho_tro_tim_kiem_thong_tin.pdf