Khóa luận Tìm hiểu về trình thu thập web và xây dựng trang web và xây dựng trang tổng tổng hợp thông tin

Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
TRƯỜNG ………………….  
KHOA……………………….  
-----[\ [\----  
Báo cáo tt nghip  
Đề tài:  
TÌM HIU VTRÌNH THU THP WEB VÀ XÂY DNG TRANG WEB VÀ  
XÂY DNG TRANG TNG TNG HP THÔNG TIN  
I
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
LI CM ƠN  
Tôi xin bày tlòng biết ơn sâu sc ca mình đến thy Hoàng Xuân Hun, thuc  
bmôn Khoa hc máy tính, khoa Công nghthông tin, trường Đại hc Công Ngh,  
ĐHQGHN. Trong quá trình thc hin khóa lun, thy đã nhit tình giúp đỡ, gii đáp  
các thc mc to động lc giúp tôi hoàn thành khóa lun tt nghip này.  
Tôi cũng xin được bày tli cm ơn ti các thy cô trong bmôn nói riêng và  
trong khoa Công nghthông tin nói chung đã nhit tình ging dy để giúp chúng tôi có  
được như ngày hôm nay.  
Cui cùng là li cm ơn ti gia đình, bn bè nhng người luôn sát cánh bên tôi  
nhng lúc khó khăn, luôn ng hgiúp đỡ để tôi hoàn thành khóa lun này.  
II  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
TÓM TT NI DUNG  
Do nhu cu thu thp thông tin ca con người ngày càng tăng, lượng thông tin trên  
internet ngày càng phong phú nên vn đề tng hp thông tin ngày càng trnên bc  
thiết. Vi mt lượng dliu ln vic thu thp bng tay tn rt nhiu công sc, và  
không đạt hiu qucao, chính vì thế cn mt công nghcó thtng hp thông tin mt  
cách tự động và trình thu thp web đã ra đời.  
Đề tài khóa lun đặt ra vn đề tìm hiu vtrình thu thp thông tin trên web và  
bước đầu sxây dng mt ng dng có khnăng tng hp thông tin tự động ttrang  
báo đin tln là trang Dân trí (http://dantri.com.vn). ng dng được viết bng ngôn  
nglp trình PHP tương tác vi cơ sdliu mySQL và được xây dng da trên các  
tiêu chí: tc độ thu thp nhanh, cơ sdliu gn nh, đảm bo tính toàn vn ca tài  
liu gc.  
III  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
MC LC  
MỞ ĐẦU ............................................................................................................1  
CHƯƠNG 1. TÌM HIU VTRÌNH THU THP WEB.................................3  
1.1. GII THIU VTRÌNH THU THP WEB..............................................3  
1.2. CÁCH XÂY DNG MT HTNG THU THP...................................4  
1.2.1. Frontier .................................................................................................6  
1.2.2. Lược svà kho lưu trtrang.................................................................7  
1.2.3. Cách ly trang........................................................................................8  
1.2.3.1. Tiêu chun loi trrobot ................................................................9  
1.2.4. Bóc tách trang......................................................................................10  
1.2.4.1. Tiêu chun trích xut URL...........................................................11  
1.2.4.2. Mô hình thHTML dng cây.......................................................12  
1.2.5. Trình thu thp đa lung .......................................................................13  
1.3. CÁC CHIN LƯỢC THU THP DLIU ............................................15  
1.3.1. Chiến lược thu thp dliu theo chiu sâu.........................................16  
1.3.2. Chiến lược thu thp dliu theo chiu rng.......................................16  
1.3.3. Chiến lược thu thp dliu theo ngu nhiên ......................................17  
1.3.4. Chiến lược thu thp dliu theo la chn tt nht ngây thơ..............17  
1.4. ĐÁNH GIÁ CA TRÌNH THU THP.....................................................19  
1.4.1. Độ quan trng ca trang web ..............................................................20  
1.4.2. Phân tích tng quát..............................................................................21  
1.4.2.1. Thước đo độ chính xác .................................................................22  
1.4.2.2. Thước đo độ hoàn chnh...............................................................22  
CHƯƠNG 2. XÂY DNG WEBSITE TNG HP THÔNG TIN ...............25  
2.1. CÁC KIN THC NN TNG ...............................................................25  
IV  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
2.1.1. Mng toàn cu .....................................................................................25  
2.1.2. Giao thc truyn ti siêu văn bn........................................................28  
2.1.3. Ngôn ngữ đánh du siêu văn bn ........................................................28  
2.2. CÁC CÔNG NGHLIÊN QUAN ...........................................................30  
2.2.1. Ngôn nglp trình PHP......................................................................30  
2.2.1.1. Biu thc chính quy......................................................................31  
2.2.1.2. Các hàm xlý chui.....................................................................34  
2.2.1.2.1. Tìm kiếm chui trong chui...................................................34  
2.2.1.2.2. Tìm vtrí ca chui con.........................................................34  
2.2.1.2.3. Hàm so sánh chui.................................................................34  
2.2.1.2.4. Kim tra chiu dài ca chui .................................................35  
2.2.2. MySQL................................................................................................35  
2.2.3. Mt scông nghvà tin ích khác......................................................37  
2.2.3.1. Add-ons firebug ca firefox .........................................................37  
2.2.3.2. Ajax...............................................................................................37  
2.3. PHÂN TÍCH ..............................................................................................38  
2.3.1. Cu trúc bài viết trong trang báo đin t.............................................38  
2.3.2. Các cách thu thp bài viết ...................................................................42  
2.3.2.1. Cách làm truyn thng..................................................................42  
2.3.2.1.1. Các bước thc hin ................................................................42  
2.3.2.1.2. Nhn xét.................................................................................44  
2.3.2.2. Cách làm mi................................................................................45  
2.3.2.2.1. Các bước thc hin ................................................................45  
2.3.2.2.2. Nhn xét.................................................................................46  
2.4. THIT K..................................................................................................47  
2.4.1. Cu trúc cơ sdliu..........................................................................47  
V
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
2.4.1.1. Danh sách các bng ......................................................................47  
2.4.1.2. Chi tiết các bng ...........................................................................47  
2.4.2. Phn qun trcơ sdliu..................................................................49  
2.4.3. Phn giao din chính trang web ..........................................................50  
CHƯƠNG 3: KT LUN.................................................................................50  
3.1. CÁC KT QUẢ ĐÃ ĐẠT ĐƯỢC ............................................................51  
3.2. HƯỚNG PHÁT TRIN CA ĐỀ TÀI .....................................................51  
TÀI LIU THAM KHO..................................................................................53  
VI  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
BNG DANH MC CÁC HÌNH MINH HA  
Hình 1: Mt vòng thu thp web cơ bn ..................................................................5  
Hình 2: Mô hinh cây tương ng vi mt mã ngun HTML.................................12  
Hình 3: Mt mô hình trình thu thp đa lung.......................................................14  
Hình 4: Hình minh ha về độ hoàn chnh và độ chính xác ..................................21  
Hình 5: Hình mình ha thu hi mc tiêu..............................................................23  
Hình 6: So sánh gia thut toán breadth-first và naive best-first .........................24  
Hình 7: World wide web.......................................................................................26  
Hình 8. Tương tác client và server .......................................................................28  
Hình 9: Add-ons firebug ca trình duyt firefox..................................................37  
Hình 10: Cu trúc phn bài viết............................................................................39  
Hình 11: Cu trúc phn chuyên mc ....................................................................40  
Hình 12: Cu trúc phn trang ch.........................................................................41  
Hình 13: Giao din phn qun trcơ sdliu....................................................49  
Hình 14: Giao din ca trang web tng hp thông tin .........................................50  
VII  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
MỞ ĐẦU  
Ngày nay nhsbùng nca công nghthông tin, lch snhân loi đã bước  
sang mt trang mi. Nhng thành tu ca ngành công nghthông tin là vô cùng to ln,  
đã chi phi và làm thay đổi mi mt ca đời sng xã hi, làm cho cuc sng ca  
con người văn minh, hin đại hơn. Sra đời ca internet chính là bước tiến vĩ đại ca  
nhân loi, là yếu tquan trng bc nht chi phi cuc sng ca chúng ta ngày nay.  
Nhcó internet thế gii trnên ‘phng’ hơn, mi nơi trên trái đất chúng ta đều có  
thhc tp và tìm kiếm thông tin.  
Theo gung quay ca cuc sng, thế gii internet ngày càng rng ln và phong  
phú hơn. Cmi phút trôi qua có thêm hàng triu trang web được sinh ra để làm giàu  
cho vn tài nguyên tri thc ca nhân loi. Nhưng cũng chính vì thế mà vic chn lc,  
tìm kiếm thông tin li trnên khó khăn hơn. Vi kho dliu đồ snhư internet, vn  
đề trích xut và tng hp thông tin đã trthành vn đề thc scp thiết hin nay. Nếu  
gii quyết được vn đề này chúng ta sloi bỏ được mt chướng ngi ln trên con  
đường tng hp thông tin ca nhân loi.  
Đề tài khóa lun đặt ra vn đề tìm hiu vtrình thu thp thông tin trên web và  
bước đầu sxây dng mt ng dng có khnăng tng hp thông tin tự động tcác  
trang báo đin tln. Đề tài nếu thành công slà bước đi không nhgiúp cho vic  
tng hp thông tin trnên đơn gin hơn, gim được nhiu chi phí công sc so vi vic  
tng hp thcông, và là tin đề để xây dng nên mt hthng máy tìm kiếm, ging  
như google, cho người Vit Nam.  
Ni dung ca khóa lun stp trung vào các mc tiêu chính sau:  
- Đưa ra được mt cái nhìn tng quát vtrình thu thp web (web crawler)  
- Xây dng mt ng dng website tng hp thông tin có khnăng thu thp các  
bn tin tcác trang báo ln như Dân trí.  
Để gii quyết được các mc tiêu này, khóa lun được chia thành ba chương ln:  
Chương 1: Tìm hiu vtrình thu thp web  
Trong chương này, chúng ta sln lượt tìm hiu các khái nim cơ bn trong trình  
thu thp web. Phn ln ni dung trong chương này sẽ đi sâu vào vic tìm hiu các  
thành phn cu thành nên mt trình thu thp, các chiến lược thu thp dliu, vic đánh  
giá ca trình thu thp đối vi trang web. Qua đó chúng ta scó mt bc tranh chung  
1
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
vtrình thu thp web, và có thhiu hơn vcác giá trthc tin mà nó mang li trong  
đời sng ca con người.  
Chương 2: Xây dng ng dng website tng hp thông tin  
Phn đầu chương strình bày vcác kiến thc nn tng và các công nghliên  
quan, phn tiếp theo là các đánh giá phân tích và các gii pháp nhm nâng cao hiu  
sut ca trình thu thp, phn cui chương là vic hin thc hóa ng dng thông qua  
vic xây dng hthng cơ sdliu và thiết kế giao din website. Cũng trong phn  
này tôi snêu ra hai cách thu thp thông tin. Mt là cách làm phbiến hin nay tôi gi  
là cách làm truyn thng, mt là cách làm mi tôi tìm ra. Cách làm mi này ti ưu hơn  
và có thgii quyết được các hn chế trong cách làm truyn thng.  
Chương 3: Kết lun  
Phn kết lun cũng là phn cui ca khóa lun snhìn li nhng điu đã làm  
được trong khóa lun này, nêu lên nhng vn đề còn vướng mc, từ đó đề ra hướng  
phát trin tiếp theo cho đề tài.  
2
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
CHƯƠNG 1. TÌM HIU VTRÌNH THU THP WEB  
1.1. GII THIU VTRÌNH THU THP WEB  
Trình thu thp web (Web crawler) là mt chương trình khai thác cu trúc đồ thị  
ca web di chuyn ttrang này qua trang khác. Thi kỳ đầu nó có nhng tên khá  
tượng hình như bweb, rô-bt, nhn và sâu, nhưng ngày nay tên gi phbiến nht là  
vn là trình thu thp web [1]. Mc dù vy cm t‘thu thp’ không lt tả được hết tc  
độ ca nhng chương trình này, vì chúng có tc độ làm vic đáng kinh ngc, có ththu  
thp dliu lên đến hàng chc ngàn trang trong vòng mt vài phút.  
Tthi kỳ đầu, mt động lc quan trng thúc đẩy quá trình phát trin ca vic  
thiết kế trình thu thp web là ly được ni dung các trang web và thêm chúng hoc  
đường dn ca chúng vào mt kho lưu trtrang – mt kiu kho lưu trcó thdùng để  
phc vcho các ng dng cthtrong công ctìm kiếm web (search engine).  
Các trình thu thp thường bt đầu bng cách chn mt scác đường dn (URL)  
ng vi các trang web sghé thăm đầu tiên, các trang này được gi là các trang ht  
ging. Khi ghé thăm mt trang ht ging, trình thu thp sẽ đọc ni dung trang web, lc  
ra tt ccác siêu liên kết (hyperlink) có trong trang web đó và đưa các URL tương ng  
vi chúng vào mt danh sách gi là biên gii (frontier). Da vào danh sách này, trình  
thu thp tiếp tc quá trình duyt đệ quy để ghé thăm tt ccác URL chưa được duyt.  
Quá trình này chdng li khi trình thu thp đã thu thp đủ strang yêu cu hoc  
frontier là rng, tc là không còn URL để duyt. Tuy mô tnày có vẻ đơn gin nhưng  
đằng sau chúng là khá nhiu vn đề hóc búa liên quan đến kết ni mng, by nhn, tiêu  
chun trích xut URL, chun hóa các trang HTML, bóc tách ni dung trang HTML  
vv... phn sau ca khóa lun tôi sln lượt trình bày đến các vn đề này và hướng  
gii quyết ca chúng.  
Sau khi đã có được mt danh sách các URL dùng cho vic thu thp, ta sthc  
hin quá trình ly trang. Tt ccác trang được ly mt ln và được lưu vào mt kho  
lưu trging như cơ sdliu ca công ctìm kiếm, đến đây không cn thu thp  
thêm. Tuy nhiên web là mt thc thnăng động vi các không gian con liên tc phát  
trin và thay đổi nhanh mt cách chóng mt, vì thế thông tin phi liên tc được thu  
thp để giúp các ng dng luôn cp nht, ví dnhư bsung các trang mi loi bcác  
trang đã bxóa, di chuyn hoc cp nht các trang bsa đổi.  
3
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Các trang web chyếu được viết bng các ngôn ngữ đánh du như HTML,  
XHTML và được nhm đến đối tượng sdng là con người chkhông phi máy tính.  
Các trang web li cha đựng nhiu thông tin có ích mà con người có thmun thu  
thp và lưu trli, chính vì thế mà cn phi có nhng kthut bóc tách và trích xut  
thông tin theo mt cơ chế tự động. Các kthut bóc tách dliu (parsing) có thể ở  
mc đơn gin như vic bóc tách các siêu liên kết, hoc mc phc tp hơn mt chút  
là bóc tách bt kphn ni dung nào trong mt trang web.  
Vbn cht, quá trình thu thp web chính là quá trình duyt đệ quy mt đồ th.  
Các web được xem như mt đồ thvi các trang là các đỉnh (node) và các siêu liên kết  
là các cnh. Quá trình ly trang và trích xut các liên kết bên trong nó tương tnhư  
vic mrng tìm kiếm mt đỉnh trong đồ th. Vic tìm kiếm này là khác nhau trong  
các trình thu thp sdng chiến lược tìm kiếm khác nhau. Phn sau ca khóa lun tôi  
strình bày sâu hơn vcác chiến lược tìm kiếm và đưa ra các sliu thng kê để so  
sánh hiu sut ca các chiến lược tìm kiếm này từ đó rút ra đánh giá vhiu sut ca  
các trình thu thp.  
Trình thu thp web là thành phn đầu tiên trong toàn bhthng search engine.  
Mc đích chung ca các hthng search engine là slượng trang web đầu vào đạt giá  
trcao nht có th, trong đó trình thu thp web làm công vic chính là duy trì cơ sdữ  
liu được đánh chmc, trvgiá trca bthu thp và blp chmc cho hàng triu  
truy vn nhn được tngười dùng. Các trang được đánh chmc da trên các thut  
toán ưu tiên hoc da vào các phương pháp da trên kinh nghim (heuristic). Ngoài ra,  
chúng ta có thsdng trình thu thp web để xây dng các phn mm tp trung thông  
tin, các trang web tng hp thông tin, da trên cơ chế tự động tìm và phát hin tài  
nguyên.  
1.2. CÁCH XÂY DNG MT HTNG THU THP  
Hình 1 cho ta thy mt chu trình ca mt trình thu thp web cơ bn [1]  
4
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Hình 1 : Mt vòng thu thp web cơ bn  
Trình thu thp cha mt danh sách các URL chưa được thăm gi là biên gii  
(frontier). Danh sách được khi to bi mt scác URL ht ging – các URL này  
được cung cp bi mt người dùng hoc mt chương trình khác. Mi vòng lp là mt  
quá trình gm các bước :  
- Ly mt URL tiếp theo tfrontier ra để thu thp.  
- Ly trang tương ng vi URL thông qua HTTP.  
- Bóc tách trang va ly để trích xut ra các URL và các ni dung thông tin cụ  
th.  
- Cui cùng là thêm các URL chưa thăm vào frontier.  
5
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Trước khi các URL được thêm vào frontier chúng có thể được đánh chmc da  
trên slượng truy cp vào trang web ng vi URL. Quá trình thu thp schm dt  
ngay khi trình thu thp đạt đủ slượng trang nht định hoc frontier rng, đây được  
gi là trng thái kết thúc (dead-end) ca trình thu thp.  
1.2.1. Frontier  
Frontier là mt danh sách cha các URL ca các trang chưa thăm. Trong thut  
ngtìm kiếm đồ th, frontier là mt danh sách mcác đỉnh chưa được mrng. Đối  
vi mt trình thu thp ln frontier có thcha hàng chc ngàn đến hàng trăm ngàn  
trang và phi lưu trtrong cng. Tuy vy frontier nào cũng có mt min gii hn  
nht định, min gii hn này ln hay nhphthuc vào bnhca máy tính. Khi số  
lượng URL thu thp được vượt quá gii hn này chúng ta scn mt cơ chế để loi bỏ  
các URL ng vi các trang ít quan trng và gili các URL ng vi các trang quan  
trng. Lưu ý rng tc độ thêm các URL vào frontier nhanh gn bng tc độ thu thp  
thông tin. Nó có ththêm ti 60000 URL ngay khi trình thu thp thu thp dliu ca  
10000 trang, giả định trung bình mi trang có khong 7 liên kết.  
Frontier có thcoi như mt hàng đợi làm vic theo cơ chế FIFO (viết tt ca First  
In First Out, [6]) nghĩa là vào trước ra trước trong trường hp chúng ta sdng thut  
toán tìm kiếm theo chiu rng để thu thp thông tin. Trình thu thp sdng chiến thut  
tìm kiếm này gi là trình thu thp theo chiu rng [5]. Các URL được ly ra thu thp  
được chn ttrên xung dưới trong danh sách và các URL mi được thêm vào đuôi  
ca danh sách. Do min gii hn ca frontier, ta phi đảm bo các URL chỉ được ly  
mt ln. Để tìm kiếm xem mt URL mi được trích xut đã có trong danh sách chưa là  
khá phc tp vì slượng trang là rt ln mi ln tìm kiếm là mt ln chy vòng for  
điu này là khá bt cp. Vì vy có mt gii pháp là sdng mt phn bnhớ để duy trì  
mt hàm băm vi URL là khóa [8]. Hàm băm này ssinh ra các giá trbăm tương ng  
vi mi URL. Sdĩ sdng hàm băm stìm kiếm nhanh hơn vì vic so sánh các giá  
trbăm nhanh hơn nhiu vic so sánh mt giá trvi mt khi dliu ln.  
Hin nay do bnhmáy tính là rt ln nên vn đề vbnhlà không my quan  
trng so vi vn đề vtc độ. Do vy, cách sdng hàm băm được sdng rng rãi vì  
tuy là tn bnhhơn nhưng tc độ tìm kiếm li được ci thin đáng k.  
Khi frontier đạt đến min gii hn, thì các trình thu thp theo chiu rng slàm  
vic theo cơ chế sau : sau khi đưa mt URL ra khi frontier để tiến hành quá trình thu  
6
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
thp trang tương ng thay vì vic ly tt cURL trong trang này trình thu thp schỉ  
ly URL chưa thăm đầu tiên và thêm vào frontier.  
Frontier có thcoi như mt hàng đợi ưu tiên trong trường hp chúng ta sdng  
thut toán tìm kiếm theo la chn tt nht [5]. Trình thu thp sdng chiến thut tìm  
kiếm này gi là trình thu thp ưu tiên. Hàng đợi ưu tiên là mt mng vi các phn tlà  
các URL được sp xếp theo đim đánh giá. Đim đánh giá này được xác định da trên  
mt scác phương pháp da trên kinh nghim (heuristic). Trình thu thp ưu tiên sẽ  
làm vic theo cơ chế sau: URL được ly ra khi frontier để tiến hành thu thp luôn là  
URL tt nht. Sau khi thu thp trang tương ng, các URL được trích xut ra được đưa  
vào frontier và các danh sách URL được sp xếp li theo đim đánh giá. Để tránh vic  
trùng lp URL chúng ta cũng duy trì mt hàm băm vi các khóa là URL để tra cu.  
Khi frontier đạt đến min gii hn, cơ chế làm vic ca trình thu thp ti ưu cũng  
ging vi trình thu thp theo chiu rng chkhác là các URL được ly là các URL tt  
nht (tc là URL có đim đánh giá cao nht).  
Trong trường hp trình thu thp nhn thy frontier là danh sách rng (không thể  
ly ra các URL tiếp theo để thu thp) thì quá trình thu thp skết thúc. Tuy vy trường  
hp rt hiếm xy ra vì vi mt sURL ht ging và min gii hn khá ln frontier  
hiếm khi đạt trng thái rng.  
Nhiu khi mt trình thu thp có thbt gp mt by nhn (spider trap, [3]) dn  
đến mt lượng ln các URL khác nhau nhưng trỏ đến cùng mt trang web. Mt  
cách để gim bt vn đề này là hn chế slượng trang mà các trình thu thp truy cp  
tmt tên min nht định. Các mã liên kết vi frontier có thể đảm bo rng trong mt  
chui liên tiếp các URL (khong 100 URL) trong frontier schcha mt URL tmt  
tên min máy ch(ví dnhư www.cnn.com). Như vy trình thu thp stt hơn bi  
không truy cp vào cùng mt trang quá thường xuyên và các trang được thu thp cũng  
có xu hướng đa dng hơn.  
1.2.2. Lược svà kho lưu trtrang  
Lược sthu thp dliu [1] là mt danh sách đánh du theo thi gian các URL  
được ly bi trình thu thp. Mt URL được đưa vào lược schsau khi đã trvcác  
URL bên trong nó. Lược scó thsdng để phân tích và đánh giá thông tin. Lược sử  
được lưu trnhm cung cp cho mt tra cu nhanh để kim tra xem mt trang đã được  
thăm hay chưa. Kim tra này là khá quan trng nhm tránh các trang bthăm li và  
7
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
tránh thêm vic thu thp li các trang này. Do kích thước ca frontier có hn và bnhớ  
ca máy tính hin nay là vô cùng ln nên vic duy trì mt lược scn thiết nhm nâng  
cao hiu quhot động ca trình thu thp. Mt điu cn chú ý là phi chun hóa URL  
trước khi đưa vào lược s.  
Khi mt trang được ly nó phi được lưu trvà lp chmc nhm mc đích phc  
vcho các ng dng sau này (chng hn như công ctìm kiếm). Đây là công vic mà  
mt kho lưu trtrang phi làm. Mt kho lưu trtrang dng đơn gin scha các  
trang thu thp theo tng file riêng bit. Trong trường hp đó, mi trang phi đặt trong  
mt tp tin duy nht. Mt cách để làm điu này là đặt mi trang URL tương ng vi  
mt chui sau đó sdng mt vài dng ca hàm băm vi xác sut xung đột thp để mã  
hóa. Giá trkết quca hàm băm được sdng làm tên ca tp tin. Ví dta có thsử  
dng hàm băm MD5 [8] cung cp mt mã băm 128 bit cho mi URL. Giá trbăm 128  
bit sau đó được chuyn đổi sang hthp lc phân (hecxa) 32 ký tự để ly ra tên file. Ví  
dni dung ca http://coltech.vnu.edu.vn được lưu trtrong mt tp tin tên là  
160766577426e1d01fcb7735091ec584. Bng cách này chúng ta có độ dài tên tp tin  
luôn cố định cho dù có bao nhiu URL đi na. Tt nhiên nếu chcn lưu trvài nghìn  
trang thì ta có thsdng mt hàm băm đơn gin hơn. Trong mt strường hp các  
kho lưu trtrang cũng có thdùng để kim tra xem mt URL đã được thu thp hay  
chưa trước khi chuyn đổi sang tên tp tin 32 ký t. Trong nhng trường hp này có  
thbỏ đi cu trúc dliu lược s.  
1.2.3. Cách ly trang  
Để ly mt trang web, chúng ta cn mt máy khách HTTP (HTTP client) gi mt  
yêu cu HTTP (HTTP request) cho trang đó và đọc các phn hi [4]. Client cn có thi  
gian trễ để đảm bo rng không bmt thi gian không cn thiết vào các máy chủ  
chm hoc đọc các trang ln. Trong thc tế chúng ta thường hn chế vn đề này bng  
cách cho client ti vkhong 10-20 KB đầu tiên ca trang. Client cn bóc tách được  
tiêu đề phn hi cho các mã trng thái và chuyn hướng. Kim tra li và xlý ngoài  
lung là rt quan trng trong quá trình ly trang vì chúng ta phi đối phó vi hàng triu  
máy ch. Trong quá trình ly trang, trình thu thp không thtquyết định tài liu nào  
được lp chmc và tài liu nào không, do đó nó ly tt cnhng gì có th. Thm chí  
dù xác định được tài liu vô ích thì nó cũng đã bra mt chi phí đáng kcho hot  
động thu thp. Tiêu chun loi trrobot (Robot Exclusion Protocol, [13]) ra đời.  
8
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
1.2.3.1. Tiêu chun loi trrobot  
Tiêu chun này cung cp cho người qun trWeb (Webmaster) mt cơ chế xác  
định các tp tin mà không cn truy cp bng trình thu thp. Để làm được điu này,  
trình thu thp (robot) duy trì mt tp tin có tên là robot.txt [13] trong thư mc gc ca  
các máy chweb (ví dnhư http://coltech.vnu.edu.vn/robot.txt) . Tp tin này cha  
hoàn toàn ni dung văn bn text (không phi HTML). Robot.txt cho phép Webmaster  
định ra các thành phn vi quyn hn riêng bit cho tng robot. Nói cách khác thông  
qua tp tin này, Webmaster sgiao tiếp vi robot để điu khin tác vca các robot  
này. Nó gm 2 trường là trường User-agent và trường Disallow:  
- Trường User-agent: cho biết robot nào sbkim soát.  
- Trường Disallow: cho biết robot có được phép kết ni vào URL hay không.  
Sau đây là các ví dminh ha vic sdng file robot.txt [13]:  
Cú pháp  
Ghi chú cho Webmaster  
User-agent:*  
Du (*) có nghĩa là áp dng cho mi robot.  
Nhưng vì không có tài nguyên nào bcm nên tt cả  
mi thư mc đều được cho phép.  
Disallow:  
User-agent:*  
Tt cmi robot đều có quyn truy cp tt ccác  
thư mc trba thư mc được trích dn phía sau.  
Disallow: /cgi-bin/  
Disallow:  
/tmp/  
Disallow: /private/  
User-agent:  
SpamBot  
Trường hp này robot SpamBot bcm truy cp  
tt cthư mc. Du gch chéo “/” có nghĩa là tt cả  
các thư mc. User-Agent có thlà ký tự đơn và các  
robot không phn bit chhoa và chthường.  
Disallow: /  
User-agent:  
SpamBot  
SpamBot bcm truy cp tt ctài nguyên.  
Trong khi các robot khác được được truy cp tt ctrừ  
thư mc “private”.  
Disallow:/  
User-agent:*  
9
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Disallow: /private/  
User-agent:  
SpamBot  
Disallow:  
Không cho phép SpamBot dò các thư mc được  
lit kê phía sau : thư mc “tmp”, “private” và tp tin  
“canhan.html” trong thư mc “tailieu”.  
/tmp/  
Disallow: /private/  
Disallow:  
Các robot tìm kiếm khác được dò mi thtrhai thư  
mc “tmp” và “private”.  
/tailieu/canhan.html  
User-agent:  
Disallow:  
*
/tmp/  
Disallow: /private/  
Nhược đim ca file robot.txt :  
Người ta cho rng vic lit kê các trang hoc các thư mc trong file robot.txt sẽ  
là nguyên nhân thu hút schú ý và trthành mc tiêu cho các hacker. Thc ra chun  
loi trrobot chlà du hiu cnh báo, không phi là bin pháp cm robot cho nên  
vic tuân theo hay không hoàn toàn là vn đề tnguyn. Tuy nhiên vn có cách khc  
phc:  
To mt thư mc cha tt ccác file quan trng.  
- Trường Disallow chlit kê tên thư mc va to.  
- Cu hình server sao cho các trang không cha đường dn đến thư mc này.  
Đáng bun trên thc tế cách này không đạt được kết qumong đợi do mt trong  
các nguyên nhân sau :  
- Các server có robot không bcm có thdn đường các robot bcm khác  
đến nhng file này.  
- Các file quan trng có thnm trong log file (file được tdo truy xut).  
- Khi cu hình li server, admin có th‘quên‘ các thư mc này phi cm  
robot!  
1.2.4. Bóc tách trang  
Khi mt trang đã được ly, chúng ta cn phân tích ni dung ca nó để trích xut  
thông tin, ly ra các URL để mra hướng đi tiếp theo ca các trình thu thp. Phân tích  
10  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
ni dung có thlà quá trình khai thác hyperlink/URL đơn gin hoc nó có thbao gm  
quá trình phc tp hơn như lc ni dung HTML để phân tích thành mô hình thẻ  
HTML dng cây (HTML tag tree). Phân tích ni dung cũng có thbao gm các bước  
chuyn đổi URL được trích xut thành dng tiêu chun, loi bnhng từ ở phn đầu  
ni dung ca trang và ly các tcòn li phn thân.  
1.2.4.1. Tiêu chun trích xut URL  
Hàm bóc tách HTML có sn cho nhiu ngôn ngkhác nhau. Chúng cung cp  
các chc năng để ddàng xác định các tag HTML và cp các giá trthuc tính liên  
quan trong mt tài liu HTML. Để trích xut siêu liên kết URL tmt Trang Web,  
chúng ta có thsdng các hàm bóc tách để tìm thanchor (th<a>) và ly các giá trị  
các thuc tính href liên quan. Trước tiên chúng ta phi chuyn đổi tt ccác đường  
dn URL sang đường dn URL tuyt đối vì có nhiu đường dn URL viết không đúng  
quy chun có thcùng dn ti mt trang. Điu này là quan trng để tránh ly mt trang  
nhiu ln. Đây là mt sbước đin hình được sdng trong thtc chun hóa URL:  
Chuyn đổi giao thc và tên máy chthành dng chthường.  
Ví d, HTTP://www.COLTECH.vnu.edu.vn chuyn đổi thành  
Loi bphn ‘tham kho’ trong URL.  
Thc hin mã hóa URL cho mt vài nhng ký tthường sdng như ’~’  
Điu này stránh được vic thu thp li 1 trang.  
%7Epant/ là 2 URL cùng dn đến mt trang.  
Đối vi mt vài URL, thêm ký t‘/’. Ví d, http://dollar.biz.uiowa.edu và  
http://dollar.biz.uiowa.edu/ cùng ni ti mt dng chun. Quyết định thêm  
‘/’ scn heuristic trong nhiu trường hp.  
Sdng các heuristic để nhn ra các trang web mc định. Nhng tên file như  
index.html hoc index.htm có thể được loi btrong đường dn URL vi tha  
nhn rng đó là nhng trang mc định.  
Loi b’..’ và đường dn trước nó trong phn URL.  
Ví d, đường dn /%7Epant/BizIntel/Seeds/../ODPSeeds.dat được chuyn  
thành  
11  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
/%7Epant/BizIntel/ODPSeeds.dat.  
Điu quan trng là đảm bo tính nht quán trong khi áp dng các lut chun hóa.  
Có thhai lut khác nhau li cho kết qutt như nhau min là ta áp dng các lut  
chun hóa URL mt cách nht quán. Trước đây có mt vn đề hóc búa đặt ra cho các  
trình thu thp là by nhn. Kthut phbiến ca by nhn là to ra các cu trúc đường  
dn sau vô hn.Ví d, http://foo.com/bar/foo/bar/foo/bar/foo/bar.....  
Các URL gito ra bi by nhn tăng lên cc nhanh. Có mt cách để ngăn chn  
là gii hn kích thước URL c128 hoc 256 ký t.  
1.2.4.2. Mô hình thHTML dng cây  
Các trình thu thp có thly ra giá trca các URL hoc mt ni dung bt kỳ  
trong mt trang web bng cách kim tra phm vi thtag HTML cha chúng. Để làm  
được điu này, trình thu thp có thsdng mô hình thHTML dng cây và phân tích  
cu trúc DOM (Document Oject Model, [8]) ca mô hình này. Phân tích cu trúc  
DOM giúp trình thu thp có thduyt các node trên cây này và chly ra phn ni  
dung mà nó cn. Hình 2 cho ta thy mt mô hình cây tương ng vi mt mã ngun  
URL [1]  
Hình 2: Mô hình cây tương ng vi mt mã ngun HTML  
12  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Có ththy th<html> là gc ca cây, các thbên trong nó là các node mrng,  
và dliu text là lá ca cây.  
Trên thc tế, không phi văn bn HTML nào cũng được viết đúng quy chun như  
ví dtrên. HTML là ngôn ngkhông phân bit chhoa hay chthường (hai th<tr>  
<TR>đều là mt). Các phn tHTML cn có mt thmvà mt thẻ đóng, tuy  
nhiên điu này không luôn luôn đúng, có nhiu phn tkhông cn thẻ đóng, ví dcác  
th<br>, <hr> và <li>. Ngoài ra khi lng nhau, các phn tHTML cũng không cn  
thiết phi lng nhau theo đúng tht(tc là thnào mtrước thì phi đóng sau). Ví  
dsau là hp ltrong HTML:  
<p> Cng hòa xã hi chnghĩa Vit Nam <i><br>Độc lp tdo hnh  
phúc</p></i>  
Vì vy trước khi lp mô hình cây cho mt mã ngun HTML chúng ta cn mt  
quá trình chuyn đổi các tài liu HTML ti thành các tài liu HTML tiêu chun, quá  
trình này gi là chun hóa các trang HTML. Quá trình này bao gm vic chuyn đổi  
các thsang dng chthường, chèn thêm các thbvà sp xếp li thtcác thtrong  
tài liu HTML [10]. Chun hóa trang HTML là rt cn thiết để vic lp mô hình cây  
được chính xác. Nếu như trình thu thp chcn ly các liên kết hoc văn bn hoc mt  
phn văn bn thì có thta không cn sdng ti mô hình cây mà chcn sdng kỹ  
thut bóc tách HTML đơn gin. Trình bóc tách như vy cũng được htrtrong nhiu  
ngôn nglp trinh.  
1.2.5. Trình thu thp đa lung  
Mi vòng thu thp tun tchiếm mt lượng ln thi gian, trong khi đó mt  
trong hai cái là CPU hoc mng li nhàn ri: CPU nhàn ri (trong khi truy cp mng)  
hoc mng nhàn ri (trong các hot động ca CPU). Vic xđa lung vi mi  
lung là mt vòng thu thp, có thgiúp cho vic tăng tc độ hp lý và sdng hiu  
qubăng thông sn có. Hình 3 chra mt phiên bn đa lung [1] ca trình thu thp cơ  
bn trong hình 1:  
13  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Hình 3: Mt mô hình trình thu thp đa lung  
Mô hình đa lung là mô hình làm vic gm nhiu lung trên cùng mt frontier  
vi mi lung là mt vòng thu thp. Chính vì thế cn mt cơ chế đồng bộ để tránh vic  
xung đột khi các lung cùng tiến hành quá trình thu thp trên mt frontier. Cơ chế này  
như sau:  
- Lung đầu tiên bt đầu bng cách khóa frontier để chn URL tiếp theo cho  
quá trình thu thp dliu.  
- Sau khi ly ra mt URL, nó smkhóa frontier cho phép các lung tiếp  
theo truy cp vào frontier.  
- Frontier li bkhóa li để nhng URL mi được thêm vào.  
Các bước khóa này là cn thiết để đồng bhóa vic sdng frontier khi mà  
frontier bchia sbi nhiu vòng thu thp. Chú ý rng mt trình thu thp thông thường  
sduy trì mt cu trúc dliu lược sphc vcho vic tra cu nhanh các URL đã  
14  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
được thu thp. Do đó ngoài các frontier thì vic đồng bhóa các truy cp vào lược sử  
điu cn thiết.  
Các mô hình trình thu thp đa lung cũng cn phi đối phó vi các frontier rng  
ging như mt trình thu thp theo tun t. Tuy nhiên đây là vn đề không đơn gin.  
Nếu mt lung phát hin ra frontier rng, nó không tự động hiu là toàn btrình thu  
thp đã đến trng thái kết thúc. Nó có thcho rng các lung khác đang ly trang và có  
ththêm các URL mi trong tương lai gn. Mt cách để gii quyết vi tình trng này  
đặt mt lung mt trng thái chkhi frontier bkhóa. Khi hết thi gian chnó sẽ  
kim tra li frontier. Scó mt bkim tra chu trách nhim theo dõi slung đang ở  
trng thái chti thi đim hin ti. Chkhi tt ccác lung đều trong trng thái chờ  
thì khi đó trình thu thp sdng li.  
1.3. CÁC CHIN LƯỢC THU THP DLIU  
Trong phn này chúng ta stho lun vmt schiến lược thu thp dliu [5]  
bao gm :  
- Chiến lược thu thp dliu theo chiu sâu.  
- Chiến lược thu thp dliu theo chiu rng.  
- Chiến lược thu thp dliu theo ngu nhiên.  
- Chiến lược thu thp dliu theo la chn tt nht ngây thơ.  
Như đã nói phn trước vbn cht, quá trình thu thp web chính là quá trình  
duyt đệ quy mt đồ th. Các web được xem như mt đồ thvi các trang là các đỉnh  
(node) và các siêu liên kết là các cnh. Chính vì thế các chiến thut thu thp dliu  
cũng được xây dng da trên các thut toán tìm kiếm trên đồ th. Các thut toán tìm  
kiếm trên đồ thbao gm:  
- Tìm kiếm theo chiu sâu (Depth-First Search): Là thut toán tìm kiếm bng  
cách mrng nút đồ ththeo chiu sâu.  
- Tìm kiếm theo chiu rng (Breath-First Search): Là thut toán tìm kiếm  
bng cách mrng nút đồ ththeo chiu rng.  
- Tìm kiếm theo la chn tt nht (Best-First Search): Là mt thut toán tìm  
kiếm ti ưu bng cách mrng nút ha hn nht theo mt quy tc nào đó.  
15  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
1.3.1. Chiến lược thu thp dliu theo chiu sâu  
Quá trình thc hin:  
Bước 1: Ly URL đầu tiên trong danh sách (frontier) để thu thp.  
- Nếu có qua bước 2.  
- Nếu không qua bước 5.  
Bước 2: Ly trang tương ng vi URL qua HTTP.  
- Nếu có qua bước 3.  
- Nếu không quay li bước 1.  
Bước 3: Kim tra xem trang này đã được được thăm chưa?  
- Nếu chưa qua bước 4.  
- Nếu ri quay li bước 1.  
Bước 4: Đánh du trang này đã được thăm. Bóc tách trang và tìm các liên kết có  
trong trang này.  
- Nếu có, thêm các liên kết vào đầu danh sách. Quay li bước 3.  
- Nếu không, quay li bước 1.  
Bước 5: Kết thúc.  
1.3.2. Chiến lược thu thp dliu theo chiu rng  
Quá trình thc hin:  
Bước 1: Ly URL đầu tiên trong danh sách để thu thp.  
- Nếu có qua bước 2.  
- Nếu không qua bước 5.  
Bước 2: Ly trang tương ng vi URL qua HTTP.  
- Nếu có qua bước 3.  
- Nếu không quay li bước 1.  
Bước 3: Kim tra xem trang này đã được được thăm chưa?  
- Nếu chưa qua bước 4.  
- Nếu ri quay li bước 1.  
16  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Bước 4: Đánh du trang này đã được thăm. Bóc tách trang và tìm các liên kết có  
trong trang này.  
- Nếu có, thêm các liên kết vào cui danh sách. Quay li bước 3.  
- Nếu không, quay li bước 1.  
Bước 5: Kết thúc.  
1.3.3. Chiến lược thu thp dliu theo ngu nhiên  
Quá trình thc hin:  
Bước 1: Ly URL ngu nhiên trong danh sách để thu thp.  
- Nếu có qua bước 2.  
- Nếu không qua bước 5.  
Bước 2: Ly trang tương ng vi URL qua HTTP.  
- Nếu có qua bước 3.  
- Nếu không quay li bước 1.  
Bước 3: Kim tra xem trang này đã được được thăm chưa?  
- Nếu chưa qua bước 4.  
- Nếu ri quay li bước 1.  
Bước 4: Đánh du trang này đã được thăm. Bóc tách trang và tìm các liên kết có  
trong trang này.  
- Nếu có, thêm các liên kết vào cui danh sách. Quay li bước 3.  
- Nếu không, quay li bước 1.  
Bước 5: Kết thúc.  
1.3.4. Chiến lược thu thp dliu theo la chn tt nht ngây thơ.  
Chiến lược thu thp dliu theo la chn tt nht ngây thơ (Naive Best-First,  
[1]) sdng thut toán tìm kiếm theo la chn tt nht theo quy tc tính đim scho  
các URL. Đim sca mt URL được tính bng phương pháp độ tương đồng cosin  
(cosine similarity, [6]) ca trang web tương ng và truy vn mà người dùng đưa ra. Độ  
tương đồng cosin là phương pháp tính giá trtương đồng gia 2 vectơ n chiu bng  
cách tìm cosin góc gia chúng, phương pháp độ tương đồng cosin thường được dùng  
17  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
để so sánh mt truy vn vi mt trang văn bn. Độ tương đồng cosin ca trang p và  
truy vn q được tính bng công thc:  
vp*vq  
||vp||*||vq||  
Độ tương đồng (p,q) = cos(vp,vq) =  
Trong đó vp,vq là các vecto đại din được tính da trên tn sphát sinh (term  
frequency, [6]). Tn sphát sinh có thhiu là sln xut hin ca các ttruy vn q  
trong trang p.  
vp*vq là tích vô hướng ca 2 vectơ; ||v|| là giá trị độ dài Euclid ca vectơ v.  
Nếu độ tương đồng (p,q) = -1 tc là khác nhau tuyt đối  
Nếu độ tương đồng (p,q)= 0 tc là độc lp vi nhau  
Nếu độ tương đồng (p,q)= 1 tc là chính xác tuyt đối  
0 < độ tương đồng (p,q) < 1 tc là trang p có liên quan đến truy vn q  
-1< độ tương đồng (p,q) < 0 tc là trang p không có liên quan đến truy vn q  
Quá trình thu thp dliu dùng trong trình thu thp tun tự được thc hin như  
sau :  
Bước 1: Sp xếp các URL theo thtgim dn đim s. Ly ra URL đầu tiên  
trong danh sách.  
- Nếu có qua bước 2.  
- Nếu không qua bước 5.  
Bước 2: Ly trang tương ng vi URL qua HTTP.  
- Nếu có qua bước 3.  
- Nếu không quay li bước 1.  
Bước 3: Kim tra xem trang này đã được được thăm chưa?  
- Nếu chưa qua bước 4.  
- Nếu ri quay li bước 1.  
Bước 4: Đánh du trang này đã được thăm. Bóc tách trang và tìm các liên kết có  
trong trang này.  
- Nếu có, thêm các liên kết vào cui danh sách. Quay li bước 3.  
- Nếu không, quay li bước 1.  
18  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Bước 5: Kết thúc.  
Ngoài ra chiến lược thu thp dliu theo la chn tt nht ngây thơ cũng có thể  
dùng cho trình thu thp đa lung nhưng độ ưu tiên được tính theo N trong đó N là hàm  
ca slượng các lung đang chy đồng thi. Các bước trong quá trình thu thp dliu  
cũng ging như trên chkhác là URL được sp xếp theo giá trN gim dn.  
Ngoài chiến lược thu thp dliu theo la chn tt nht ngây thơ còn có nhiu  
cách thu thp dliu khác sdng thut toán theo la chn tt nht. Chúng khác nhau  
quy tc tính đim scho URL. Có thkể đến mt strình thu thp như tìm kiếm  
tham ăn (Shark Search), nhn thông tin (InfoSpiders) [1].  
1.4. ĐÁNH GIÁ CA TRÌNH THU THP  
Theo mt ý nghĩa chung, mt trình thu thp có thda vào các đánh giá ca  
mình để ly các trang ‘tt’. Tuy nhiên, mt trngi chính là vn đề trong vic công  
nhn nhng trang ‘tt’ này. Trên thc tế người dùng có thể đưa ra đánh giá sthích  
hp ca các trang được thu thp cho phép chúng ta xác định được vic thu thp dliu  
có thành công hay không. Tht không may, nhng cuc thnghim liên quan đến  
người dùng thc tế để đánh giá các trang web thu thp thường cc kkhó thc hin.  
Ví dquy mô cc ln ca web cho thy rng để được mt khái nim hp lý ca  
mt trình thu thp thông tin hiu qucn phi tiến hành mt lượng ln thu thp, nghĩa  
là liên quan đến mt slượng ln người sdng.  
Thhai là, thu thp nhng trang web ‘sng’ stn nhiu thi gian. Do đó vic  
thu thp các trang web có thi gian sng ngn slãng phí thi gian cho người dùng.  
Chúng ta có thla chn để tránh thi gian ti bng cách chtrvcho người dùng kết  
qutiêu đề và phn mô tca tt ccác thu thp nhưng điu này li gii hn mc độ  
thu thp thông tin.  
Bin pháp để gii quyết vn đề này là xây dng các tiêu chí đánh giá cho các  
trình thu thp. Đầu tiên là phi có nhng tiêu chí đánh giá được độ quan trng ca mt  
trang web. Khi đã xác định được nhng trang web quan trng và có giá tr, trình thu  
thp sviếng thăm thường xuyên hơn và sâu hơn. Thhai là phi có cơ chế phân tích  
tng quát để đánh giá các mc độ chính xác và hoàn chnh ca các trang đã thu thp  
vi truy vn ca người dùng . Nhiu khi các trang mà trình thu thp cho là quan trng  
và có giá trli chưa chc mang thông tin mà người dùng cn tìm kiếm. Nguyên do  
ca điu này là vic các trang web chuyên vtiếp thhay qung cáo luôn luôn tìm cách  
19  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
lt vào danh sách các trang tuyn chn ca trình thu thp, và qua đó hcó thgii  
thiu sn phm ca họ đến người dùng. Ngược li, trong đa scác trường hp, người  
dùng không mun tìm các qung cáo tiếp thmà chmun tìm thông tin mà hquan  
tâm.  
1.4.1. Độ quan trng ca trang web  
Độ quan trng ca trang web có thể được đánh giá theo mt stiêu chí chung  
như ([1],[8]):  
+ Tkhóa trong tài liu : Mt trang được xem là có liên quan nếu nó cha mt  
phn hoc tt ctkhóa trong truy vn  
+ Tn sphát sinh : được hiu là tng sln xut hin ca mt chhay mt  
cm tca tkhoá trong ni dung mt trang Web nào đó. Theo sự đánh giá ca các  
chuyên gia, thì tn sphát sinh ca mt trang Web càng cao schng tni dung ca  
trang Web đó càng liên quan hay càng đề cp nhiu đến nhng gì nêu trong tkhoá.  
Do đó, mt độ tkhóa đóng vai trò quan trng trong vic đánh giá độ quan trng ca  
mt trang Web.  
+ Thmeta và câu lnh title: Trong nhiu trình thu thp, người thiết kế còn cho  
rng sxut hin các chi tiết hay toàn bni dung ca tkhoá càng sm trong mt  
trang mã HTML thì điu đó chng ttrang đó có thcó chủ đề liên quan càng nhiu  
đến tkhoá. Hu qulà mt trang Web có thể được đánh giá quan trng hơn nếu các  
phn hay toàn btkhoá có mt sm hơn trong phn mã HTML. Như vy, trong mt  
sthmeta, trình thu thp sẽ đọc ni dung và đánh giá độ quan trng. Các thmeta  
có nhiu hiu lc cho vic đánh giá là:  
<META name="description" content="(miêu tngn ni dung trang Web)">  
<META name="keywords" content="(danh sách tkhoá)">  
Vi lý do tương t, nếu câu lnh <title>(ta đề ca trang Web)</title> không bị  
btrng thì độ quan trng ca nó có thể được nâng cao hơn.  
+ Stương đồng vi các trang ht ging: Các trang tương ng vi các URL  
ht ging thường là đơn vị đo cho độ liên quan ca các trang đã thu thp. Các trang ht  
ging được liên kết vi li thành mt tài liu duy nht. Độ quan trng ca mt trang  
web được thu thp được đánh giá bng độ tương đồng cosin ca nó và btài liu này  
20  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
+ Tính phbiến ca liên kết : Mt trình thu thp có thsdng kết quxếp  
hng các liên kết ca các trang như alecxa, Google Page Rank để đưa ra đánh giá về  
độ quan trng ca trang. Các trang web phân hng có thxếp hng liên kết da trên rt  
nhiu tiêu chí. Ví dnhư, alecxa là slượng truy cp còn google là ni dung, mã  
ngun, tên min vv...  
+ Slượng liên kết ngoài: Theo sự đánh giá ca nhiu chuyên gia thì nếu mt  
trang Web được nhiu nơi khác đề cp ti hay mliên kết ti địa chca nó thì rõ ràng  
giá trca trang Web này cao hơn là các trang Web cùng kiu nhưng li không có hay  
ít được liên kết hay đề cp tcác trang khác. Như vy, các trang Web nào được nhiu  
trang Web khác liên kết ti (hay đề cp ti) thì cht lượng ca nó có thcao hơn và  
quan trng hơn.  
1.4.2. Phân tích tng quát  
Sau khi đã tính toán được độ quan trng ca trang người ta sda vào đó để  
phân tích xem thông tin trên nhng tài liu thu thp được có thc shoàn chnh  
(recall) và chính xác (precision) vi truy vn người dùng yêu cu không. Hình dưới  
đây minh ha cho độ hoàn chnh và độ chính xác ca thông tin thu được:  
Hình 4: Hình minh ha về độ hoàn chnh và độ chính xác  
Độ chính xác (precision, [6]) và độ hoàn chnh (recall, [6]) trong thu thp thông  
tin phthuc vào kết quca mt truy vn (hình oval) đối vi các tài liu liên quan  
(na bên trái) và các tài liu không liên quan (na bên phi).  
Độ chính xác được định nghĩa là tlgia slượng các tài liu liên quan trong  
các tài liu thu được (phn bên trái trong hình oval) trên tng stài liu thu được (hình  
oval). Độ chính xác ng vi mũi tên ngang.  
21  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Độ hoàn chnh được định nghĩa là tlgia slượng các tài liu liên quan trong  
các tài liu thu được (phn bên trái trong hình oval) trên tng stài liu liên quan hin  
ti (phn bên trái). Độ hoàn chnh ng vi mũi tên chéo.  
Càng nhiu kết quả đúng (phn phn bên trái trong hình oval càng ln) thì kết  
qucàng chính xác và càng hoàn chnh.  
1.4.2.1. Thước đo độ chính xác  
Chúng ta stho lun mt sthước đo độ chính xác [1] :  
+ Tlthu được : Trong trường hp chúng ta có đim sliên quan chúng ta có  
thể đo được tlrõ ràng ca nhng trang tt tìm thy. Do đó, nếu có 50 trang liên quan  
được tìm thy trong 500 trang được thu thp đầu tiên, chúng ta scó tlthu được hay  
tlthu hoch là 10% ca 500 trang.  
+ Độ liên quan trung bình: Nếu như đim sliên quan là liên tc thì chúng có thể  
được tính trung bình trên các trang đã thu thp. Đây là mt dng tng quát hơn tlthu  
hoch. Đim scó thể được cung cp thông qua độ tương đồng cosin đơn gin hoc bộ  
phân loi hun luyn. Như vy độ trung bình có thể được tính qua stiến bca thu  
thp dliu (100 trang đầu, 200 trang đầu ...). Đôi khi độ trung bình được tính trên  
mt ca sca mt vài trang web (ví d50 trang mi nht tmt đim thu thp thông  
tin)  
1.4.2.2. Thước đo độ hoàn chnh  
Do các thước đo độ hoàn chnh là rt khó tính toán cho nên tôi đã sdng mt số  
cách gián tiếp để ước lượng độ hoàn chnh. Mt scách có thkể đến như :  
+ Thu hi mc tiêu : Mt tp hp các URL liên quan được chia thành 2 blà ht  
ging và mc tiêu. Trình thu thp bt đầu tcác trang ht ging và thu hi các trang  
mc tiêu. Vic thu hi mc tiêu được tính như sau:  
22  
Tìm hiu vtrình thu thp web và xây dng trang web tng hp thông tin 2010  
Trong đó Pt là tp các trang mc tiêu , Pc là tp các trang được thu thp. Lưu ý  
rng giả định ban đầu là các mc tiêu là tp hp ngu nhiên ca các trang liên quan.  
Hình 5: Hình mình ha thu hi mc tiêu  
+ Độ mnh m: Các URL ht ging được chia thành hai btách ri là Sa và Sb.  
Mi bthường khi to mt trường hp ca cùng mt trình thu thp. Schng chéo  
trong các trang thu thp bt ngun thai bnày là không tránh khi. Mt lượng ln sự  
chng chéo được gii quyết bi độ mnh mca trình thu thp.  
Độ mnh mlà mt sliu dùng để đo hiu sut ca trình thu thp trong mt  
cách mà kết hp cả độ chính xác và độ hoàn chnh. Ví d, cách tìm kiếm độ dài ca  
mt scác trang được thu thp trước khi mt tlnht định ca các trang liên quan  
được ly.  
Hình 6 là mt ví dvbiu đồ hiu sut cho hai trình thu thp khác nhau. Hiu  
sut ca trình thu thp được mô tnhư là mt quỹ đạo theo thi gian (được xp xỉ  
bng slượng các trang đã thu thp ). Trình thu thp ti ưu ngây thơ được so sánh vi  
trình thu thp theo chiu rng da trên đánh giá trên 159 chủ đề vi 10000 trang đã thu  
thp bi mi trình thu thp trên mi chủ đề (vì thế vic đánh giá liên quan đến hàng  
triu trang)  
23  

Tải về để xem bản đầy đủ

pdf 60 trang yennguyen 22/06/2025 280
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Tìm hiểu về trình thu thập web và xây dựng trang web và xây dựng trang tổng tổng hợp thông tin", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_tim_hieu_ve_trinh_thu_thap_web_va_xay_dung_trang_w.pdf