Khóa luận Một số thuật toán phân hạng ảnh phổ biến và áp dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Lê ThKim Dung  
MT STHUT TOÁN PHÂN HNG NH  
PHBIN VÀ ÁP DNG TRONG HTHNG  
TÌM KIM NH LP TRÊN THNGHIM  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Lê ThKim Dung  
MT STHUT TOÁN PHÂN HNG NH  
PHBIN VÀ ÁP DNG TRONG HTHNG  
TÌM KIM NH LP TRÊN THNGHIM  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: PGS.TS Hà Quang Thy  
Cán bộ đồng hướng dn: ThS Nguyn Cm Tú  
HÀ NI - 2010  
Li cm ơn  
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư  
Tiến sĩ Hà Quang Thy và Thc sĩ Nguyn Cm Tú, người đã tn tình chbo và  
hướng dn tôi trong sut quá trình thc hin khoá lun tt nghip.  
Tôi chân thành cm ơn các thy, cô đã to nhng điu kin thun li cho tôi hc  
tp và nghiên cu ti trường Đại hc Công ngh.  
Tôi cũng xin gi li cm ơn ti các anh chvà các bn sinh viên trong nhóm  
“Khai phá dliu” đã giúp tôi rt nhiu trong vic htrkiến thc chuyên môn để  
hoàn thành tt khoá lun.  
Cui cùng, tôi mun gi li cm vô hn ti gia đình và bn bè, nhng người thân  
yêu luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt nghip.  
Tôi xin chân thành cm ơn!  
Sinh viên  
Lê ThKim Dung  
Tóm tt  
Stăng không ngng vlượng nh trên Web to ngun nh phong phú đáp ng  
được ngun cung nh cho nhu cu ca con người. Mc dù mt smáy tìm kiếm nh đã  
ra đời đáp ng phn nào nhu cu tìm kiếm nh, song nâng cao cht lượng tìm kiếm  
luôn là vn đề được đặt ra. Bài toán xếp hng nh là bài toán ct lõi ca các máy tìm  
kiếm nh, và nâng cao cht lượng xếp hng nh đã và đang nhn được squan tâm  
đặc bit.  
Đầu tiên, khóa lun kho sát các thut toán tính hng nh, đặc bit là VisualRank  
[39] theo độ đo tương đồng gia các nh được tính theo các đặc trưng ni dung văn  
bn và ni dung hin th. Sau đó, khóa lun đề xut mt mô hình hthng tìm kiếm  
nh lp trên (image meta-search engine [18] [11]), trong đó sdng thut toán nói trên  
làm thành phn xếp hng nh. Hthng tìm kiếm nh này sdng mt cơ sdliu  
lưu trcác câu truy vn và các nh tương ng vi chúng như mt gii pháp nhm rút  
ngn thi gian đáp ng yêu cu truy vn. Đồng thi, hthng sdng mt btừ đin  
dùng trong vic htrcác truy vn dng tiếng Vit.  
Thc nghim do khóa lun tiến hành bước đầu đã thu được nhng kết qutương  
đối khquan, độ chính xác ca hthng khi áp dng thut toán vi đặc trưng văn bn  
đặc trưng hin thị đạt 81.2%. Trong phm vi các thnghim ca khóa lun, kết quả  
này là tt hơn so vi hai máy tìm kiếm nh ln là Google và Yahoo và đã khng định  
được tính khthi ca mô hình.  
Mc lc  
Mở đầu............................................................................................................................1  
Chương 1. Khái quát vcác thut toán tính hng .....................................................3  
1.1. Gii thiu vbài toán tính hng.........................................................................3  
1.2. Tính hng trang Web .........................................................................................4  
1.2.1. Tính hng theo liên kết................................................................................4  
1.2.2. Tính hng định hướng ngcnh ...............................................................15  
1.3. Tính hng thc th...........................................................................................17  
1.4. Sơ bvtính hng nh.....................................................................................18  
1.5. Mt scông trình nghiên cu liên quan ..........................................................20  
Tóm tt chương mt.....................................................................................................22  
Chương 2. Mt sthut toán tính hng nh phbiến .............................................23  
2.1. Gii thiu .........................................................................................................23  
2.2. VisualRank.......................................................................................................23  
2.3. Multiclass VisualRank.....................................................................................26  
2.4. Visual contextRank..........................................................................................28  
2.5. Nhn xét...........................................................................................................32  
Tóm tt chương hai......................................................................................................32  
Chương 3. Mô hình máy tìm kiếm nh lp trên.......................................................34  
3.1. Kiến trúc chung ca máy tìm kiếm lp trên ....................................................34  
3.1.1. Giao din người dùng................................................................................35  
3.1.2. Bộ điu vn ...............................................................................................35  
3.1.3. Bxlý kết qu........................................................................................36  
3.1.4. Mô đun tính hng ......................................................................................36  
3.2. Mô hình máy tìm kiếm nh lp trên MetaSEEk..............................................37  
3.2.1. Truy vn trc quan da trên ni dung.......................................................38  
3.2.2. Giao din truy vn.....................................................................................38  
3.2.3. Bộ điu vn ...............................................................................................40  
3.2.4. Thành phn hin th...................................................................................42  
3.2.5. Đánh giá ....................................................................................................43  
3.3. Xếp hng nh trong máy tìm kiếm nh lp trên ..............................................43  
Tóm tt chương ba.......................................................................................................45  
Chương 4. Thnghim ...............................................................................................46  
4.1. Mô hình thnghim.........................................................................................46  
4.1.1. Cách tiếp cn.............................................................................................46  
4.1.2. Mô hình đề xut và các thành phn trong mô hình...................................47  
4.2. Môi trường và các thành phn trong hthng phn mm ...............................50  
4.2.1. Cu hình phn cng...................................................................................50  
4.2.2. Các thành phn trong hthng phn mm................................................50  
4.3. Xây dng tp dliu........................................................................................52  
4.3.1. Tp truy vn ..............................................................................................52  
4.3.2. Tp máy tìm kiếm ngun ..........................................................................53  
4.3.3. Từ đin ......................................................................................................53  
4.4. Quy trình, các phương án thnghim .............................................................53  
4.5. Kết quthnghim và đánh giá ......................................................................54  
Kết lun ........................................................................................................................60  
Tài liu tham kho.......................................................................................................62  
Danh sách các bng  
Bng 1. Ví dvbn ghi ca mt nh trong cơ sdliu ...........................................42  
Bng 2. Cu hình phn cng sdng trong thc nghim.............................................50  
Bng 3. Mt sphn mm sdng...............................................................................50  
Bng 4. Mt sthư vin sdng...................................................................................50  
Bng 5. Độ chính xác trung bình trên 35 truy vn ........................................................56  
Danh sách hình vẽ  
Hình 1. Mô ttính cht authority và hub.......................................................................13  
Hình 2. Mrng tp cơ sT ttp nhân S...................................................................14  
Hình 3. Mt mô hình hc xếp hng trong máy tìm kiếm thc th................................18  
Hình 4. Mt minh ha về đồ thị độ tương đồng ca nh...............................................24  
Hình 5. Biến đổi ma trn k...........................................................................................27  
Hình 6. Kết quxếp hng ca 3 phương pháp vi truy vn “Notre Dame”..................28  
Hình 7. Mô hình xếp hng nh sdng thut toán ContextRank .................................29  
Hình 8. Mt ví dvbiu din visual words ................................................................32  
Hình 9. Kiến trúc ca mt máy tìm kiếm lp trên đin hình ........................................34  
Hình 10. Mt thiết kế ca bộ điu vn .........................................................................35  
Hình 11. Kiến trúc tng thca MetaSEEk .................................................................37  
Hình 12. Giao din hin thca MetaSEEk ..................................................................39  
Hình 13. Cu trúc phân cp ca cơ sdliu...............................................................42  
Hình 14. Mô hình đề xut..............................................................................................48  
Hình 15. Giao din ca chương trình ............................................................................52  
Hình 16. Biu đồ so sánh độ chính xác trung bình gia các hthng ..........................57  
Hình 17. Biu đồ độ chính xác mc K ca mt struy vn tiếng Vit.........................58  
Hình 18. 10 kết quả đầu tiên ca truy vn “sun” trong các máy tìm kiếm....................59  
Danh sách các tviết tt  
CSDL  
AP  
Cơ sdliu  
Average Precision  
Google CSE  
HIST  
Google Custom Search Engine  
Hypertext Induced Topic Search  
Mean Average Precision  
MAP  
SIFT  
Scale Invariant Feature Transform  
Danh sách các thut ngữ  
STT  
Thut ngtiếng Anh  
Nghĩa tiếng Vit  
1
Content-based Image Ranking  
Content-based visual query  
Xếp hng nh da trên ni dung hin thị  
Truy vn trc quan da trên ni dung  
hin thị  
2
3
Display interface  
Edge  
Thành phn hin thị  
Cnh  
4
5
Image tag  
Thẻ ảnh  
6
Inter-image Context Modeling  
Intra-mage Context Modeling  
Local features  
Mô hình ngcnh ngoi nh  
Mô hình ngcnh ni nh  
Các thuc tính cc bộ  
Ngoi tuyến  
7
8
9
Offline  
10  
11  
12  
13  
14  
15  
16  
17  
18  
19  
20  
21  
22  
23  
Online  
Trc tuyến  
Performance database  
Performance score  
Query dispatcher  
Query translator  
Random surfer model  
Re-rank  
Cơ sdliu hiu sut  
Đim shiu sut  
Bộ điu vn truy vn  
Bdch truy vn  
Mô hình duyt ngu nhiên  
Xếp hng li  
Scoring module  
Text-based Image Ranking  
Texture  
đun tính hng  
Xếp hng nh da trên văn bn  
Kết cu  
Title  
Tiêu đề  
Topic Sensitive PageRank  
Visual hyperlink  
Visual vocabulary  
PageRank theo chủ đề  
Siêu liên kết trc quan  
Tp tvng trc quan  
Mở đầu  
Tính hng các đối tượng trên Web (trang Web, thc th... nói chung và tính hng  
nh nói riêng) là bài toán có ý nghĩa quan trng trong lĩnh vc tìm kiếm. Shình thành và  
phát trin không ngng ca máy tìm kiếm gn hai thp kqua đã kéo theo mt slượng  
không nhcác công trình nghiên cu vtính hng trang Web được công b, trong đó  
thut toán PageRank đã trthành mt trong mười thut toán khai phá dliu đin hình  
nht. Thi gian gn đây, các công bcông trình nghiên cu vtính hng thc thcũng  
như tính hng nh có xu thế tăng nhanh.  
Thut toán tính hng nh thường được phát trin trên cơ scác thut toán tính hng  
trang Web, bao gm ccác gii pháp hướng ngcnh, hướng người dùng hoc chda  
trên đồ thliên kết. Chúng tôi cũng đã tiến hành mt snghiên cu liên quan trong công  
trình nghiên cu khoa hc sinh viên.  
Khóa lun tt nghip vi đề tài Mt sthut toán phân hng nh phbiến và áp  
dng trong hthng tìm kiếm nh lp trên thnghim nhm kho sát, phân tích các gii  
pháp phân hng nh, đồng thi trình bày mt mô hình máy tìm kiếm nh lp trên và thi  
hành gii pháp phân hng nh trong máy tìm kiếm nh lp trên thnghim.  
Khóa lun gm nhng ni dung chính cơ bn như sau:  
Chương 1: Khái quát vcác thut toán tính hng trình bày mt sthut toán tính  
hng trang đin hình đã và đang được sdng rng rãi trong các máy tìm kiếm. Cùng vi  
đó, chương này cũng nêu lên mt snét cơ bn vbài toán xếp hng thc thvà xếp hng  
nh. Đồng thi, chương 1 cũng đề cp đến mt scông trình nghiên cu liên quan trong  
nước và trên thế gii.  
Chương 2: Gii thiu mt sthut toán tính hng nh phbiến tp trung trình  
bày mt sthut toán tính hng nh da trên ni dung hin thca nh. Mi thut toán đều  
được phân tích, đánh giá, đưa ra các ưu nhược đim. Từ đó, khóa lun đề xut thut toán  
tính hng nh áp dng VisualRank cho các đặc trưng hin thđặc trưng văn bn ca  
nh.  
Chương 3: Mô hình máy tìm kiếm nh lp trên trình bày mô hình tng quan ca  
mt máy tìm kiếm lp trên. Đồng thi, chương 3 đi chi tiết vào mt mô hình tìm kiếm nh  
lp trên MetaSEEk để tìm hiu các thành phn cn thiết trong hthng máy tìm kiếm nh  
1
lp trên. Từ đó, định hình ra nhng thành phn cn phi xây dng mô hình máy tìm kiếm  
nh lp trên định xây dng.  
Chương 4: Thc nghim đưa ra mô hình máy tìm kiếm nh lp trên áp dng thử  
nghim thut toán đã được đề xut chương 2. Chương này trình bày các thành phn ca  
mô hình và các công vic thc nghim mà khóa lun đã tiến hành. Tnhng kết quả đạt  
được, tiến hành đánh giá, so sánh vi các hthng khác.  
Phn kết lun tóm lược các kết quả đã đạt được và nêu rõ đóng góp ca khóa lun,  
đồng thi định hướng mt shướng nghiên cu tiếp theo trong thi gian sp ti.  
2
Chương 1. Khái quát vcác thut toán tính hng  
Xếp hng là mt bài toán phbiến, có ý nghĩa quan trng và có nhiu ng dng  
trong thc tế. Chương này tp trung làm rõ khái nim vbài toán tính hng tng quát,  
đồng thi trình bày mt sthut toán tính hng trang đin hình và gii thiu sơ bvbài  
toán tính hng nh.  
1.1. Gii thiu vbài toán tính hng  
Xếp hng các đối tượng theo tiêu chí nào đó (đơn gin như xếp hng các hc sinh  
trong mt lp theo đim trung bình, xếp hng các trường đại hc…) là công vic hết sc  
cn thiết trong nhiu ng dng, đặc bit là vic xếp hng các kết qutrvca máy tìm  
kiếm. Xếp hng các đối tượng là sp xếp các đối tượng theo độ phù hp vi tiêu chí tùy  
vào tng ng dng cth. Do đó cn phi xác định phép đo về độ phù hp ca mt đối  
tượng tìm được vi yêu cu ca người dùng theo các tiêu chí đã đặt ra [1] [2] [3] [4].  
Mt đin hình ca bài toán xếp hng đối tượng là vic xếp hng các đối tượng trvề  
ca máy tìm kiếm. Trong các máy tìm kiếm thông thường (như Google, Yahoo) độ quan  
trng hay còn gi hng trang (PageRank) là đại lượng cơ sở để xếp hng. Giá trcơ sca  
hng trang được tính toán da trên vic phân tích mi liên kết gia các trang Web. Xếp  
hng là công vic cui cùng trong mt máy tìm kiếm nhưng cũng không kém phn quan  
trng. Vi tp các tài liu ꢀ ꢁ ꢂ, … ꢂvà truy vn ca người dùng, máy tìm kiếm cn  
tìm nhng tài liu trong phù hp vi . Quá trình xếp hng là quá trình sp xếp các tài  
liu mà máy tìm kiếm đã tìm được theo độ phù hp vi truy vn và độ quan trng gim  
dn. Vic xác định hàm tính hng đóng vai trò quan trng và quyết định đối vi cht  
lượng ca máy tìm kiếm. Liên quan ti vic xác định hàm tính hng, người ta quan tâm ti  
hai hướng gii quyết:  
Hướng thnht sdng hng trang ca trang Web làm độ phù hp vi yêu cu  
người dùng. Hu hết các nghiên cu đều tha nhn mt githiết là nếu mt trang  
Web mà có nhiu trang Web khác liên kết ti thì trang Web đó là trang Web quan  
trng. Trong trường hp này, hng trang được tính toán chda trên mi liên kết  
gia các trang Web vi nhau. Mt sthut toán đin hình theo hướng này là  
PageRank, Modified Adaptive PageRank.  
Hướng thhai coi độ phù hp ca trang Web vi câu truy vn ca người dùng  
không chda trên giá trhng trang Web mà còn phi tính đến mi liên quan  
3
gia ni dung trang Web đó vi ni dung truy vn theo yêu cu ca người dùng.  
Khi đó, hàm tính hng là hàm kết hp ca giá trị độ tương tgia tài liu vi truy  
vn ꢆꢇꢈꢇꢉꢊꢋꢇꢌꢍꢎꢅ, ꢂvà hng trang. Các thut toán xếp hng theo hướng này  
được gi là các thut toán xếp hng định hướng ngcnh. Mt thut toán xếp  
hng định hướng ngcnh đin hình là PageRank theo chủ đề (Topic Sensitive  
PageRank).  
Vi các ng dng mà kết qutrvlà mt danh sách các đối tượng cn được sp  
xếp, xếp hng giúp người dùng nhanh chóng tiếp cn vi kết qugn vi yêu cu ca  
mình nht có th. Điu đó cho thy, xếp hng là mt bài toán quan trng và có ý nghĩa.  
Sau đây, chúng ta snghiên cu mt sphương pháp tính hng trang Web, các phương  
pháp này hoc là phương pháp cơ bn đầu tiên, hoc là đang được áp dng trên mt số  
máy tìm kiếm đin hình trên Internet như Google, Yahoo!  
1.2. Tính hng trang Web  
Như đã nói trên, liên quan ti vn đề xác định độ đo quan trng ca mt trang  
Web vi yêu cu người dùng người ta quan tâm ti hai hướng gii quyết: hướng gii  
quyết thnht không quan tâm ti vai trò ca câu hi trong xếp hng, ngược li hướng  
gii quyết thhai liên quan trc tiếp vi câu hi ca người dùng. Tương ng vi hai  
hướng gii quyết trên là các thut toán xếp hng da theo liên kết gia các trang Web và  
các thut toán xếp hng định hướng ngcnh. Phn này strình bày mt sthut toán  
đin hình ca chai hướng trên.  
1.2.1. Tính hng theo liên kết  
1.2.1.1. PageRank  
PageRank [30] là mt thut toán phân tích liên kết (link) được Lary Page và cng  
sphát trin ti trường đại hc Stanford (M) và được sdng cho máy tìm kiếm  
Google. Mt cách trc giác, chúng ta có ththy rng trang chca Yahoo! thì quan  
trng hơn trang chca mt cá nhân A nào đó. Điu này được phn ánh qua slượng  
các trang có liên kết đến trang chca Yahoo! nhiu hơn strang có liên kết ti trang  
chca cá nhân A. Do đó, ta có thdùng slượng các liên kết đến mt trang để tính  
độ quan trng ca trang đó. Tuy nhiên, cách này skhông hot động tt khi người ta  
có thddàng to ra các trang Web có liên kết đến mt trang Web nào đó và như vy  
hng ca trang này strnên cao hơn.  
PageRank phát trin thêm vào ý tưởng cũ bng cách chú ý đến độ quan trng ca  
các trang Web liên kết đến trang Web mà ta đang xét. Phương pháp này tha nhn nếu  
4
có liên kết ttrang A ti trang B thì độ quan trng ca trang A cũng nh hưởng (được  
san s) ti độ quan trng ca trang B.  
PageRank đơn gin  
Gi là mt đồ thcác trang Web. Đặt ꢑ ꢁ ꢎꢒ, ꢓꢐ vi ꢒ ꢁ ꢔ1, 2, … ꢕꢖ là tp n  
đỉnh ca đồ th(mi đỉnh là mt trang Web cn tính hng trang) còn là tp các  
cnh, E = {(i, j) / nếu có siêu liên kết ttrang i ti trang j}. Chúng ta githiết rng đồ  
thtrang Web là liên thông, nghĩa là tmt trang bt kì có thđường liên kết ti  
mt trang Web khác trong đồ thị đó.  
Cho mt đồ thtrang Web như trên. Vi mi trang Web , ký hiu ꢗꢎꢇꢐ là số  
liên kết đi ra ttrang Web thꢘꢎꢇꢐ là scác trang Web có liên kết đến trang .  
Khi đó hng trang ꢋꢎꢇꢐ ca trang Web được định nghĩa như sau:  
ꢎ ꢐ  
ꢋ ꢚ  
ꢎ ꢐ  
ꢎ ꢐ ꢗ ꢚ  
ꢎ ꢐ  
ꢋ ꢇ ꢁ ꢙ  
ꢎ1.1ꢐ  
ꢛꢜꢝ ꢏ  
Vic ta chia cho ꢗꢎꢚꢐ cho thy rng nhng trang có liên kết ti trang sphân  
phi hng ca chúng cho các trang Web mà chúng liên kết ti.  
Các phương trình này được viết li dưới dng ma trn ꢋ ꢁ ꢋꢞ trong đó:  
ƒ ꢋ ꢁ ꢟꢋ , , … , ꢋ là vector PageRank, vi là hng ca trang Web  
trong đồ thtrang Web.  
ƒ
là ma trn chuyn ꢕ ꢢ ꢕ vi giá trcác phn tử được xác định:  
1/ꢗ ꢕếꢤ ꢥó ꢉꢇêꢕ ꢦếꢌ ꢌꢇ đếꢕ ꢚ  
ꢏꢛ ꢁ ꢣ  
0
ꢕꢧượꢥ ꢉꢇ  
Từ đó công thc PageRank được viết li:  
ꢋ ꢁ ꢋꢞ  
ꢎ1.2ꢐ  
Phương trình trên cho thy vector PageRank chính là vector riêng ca ma trn  
chuyn P tương ng vi giá trriêng = 1. Trong đại stuyến tính có mt sphương  
pháp tính vector riêng ca ma trn, tuy nhiên do kích thước quá ln ca ma trn đang xét,  
khi thi hành các tác gi[30] đã sdng phương pháp lp để tính toán vector PageRank  
Tính toán PageRank  
Như đã nói trên, mt trong nhng cách thc đơn gin nht để tính vector riêng ca  
ma trn có thể được thc hin thông qua vic lp phép nhân mt vector bt kvi ma trn  
đã cho đến khi nào vector đó hi t. Đầu tiên, chúng ta sgán cho vector PageRank mt  
5
giá trkhi to bt k. Sau đó, ta thc hin phép nhân vector này vi ma trn đã cho mt  
cách liên tc cho ti khi nó đạt ti điu kin hi tthì dng li. Vector thu được chính là  
vector PageRank cn tính.  
Quy trình tính toán được din tnhư sau:  
1. ꢆ ꢩ vector bt kì  
2. ꢋ ꢩ ꢆꢞ  
3. nếu ꢋ ꢫ  ꢬ ꢭ thì kết thúc(là sdương rt bé, được gi là sai slp). là  
vector PageRank  
nếu không ꢆ ꢩ ꢋ, quay li bước 2.  
Giá trhi tca ma trn đối vi vòng lp tùy thuc vào “khong cách” ca hai giá  
trriêng có giá trln nht (nói cách khác là hiu ca hai giá trriêng ln nht). Page và  
Brin đã khng định rng vòng lp hi tkhá nhanh, trong khong 100 vòng lp.  
Mô hình duyt ngu nhiên  
Quá trình tính toán PageRank có thể được xem như hành động ca mt người đang  
duyt Web. Ta tưởng tượng rng có mt người dùng duyt Web bng cách đi theo các liên  
kết trên các trang Web mà hviếng thăm mt cách ngu nhiên. Cách duyt ngu nhiên  
này tương đương vi vic di chuyn ngu nhiên trên mt đồ thcó hướng. Nó thhin  
rng vector PageRank tlvi phân phi xác sut dng ca mt quá trình ngu nhiên.  
PageRank ca mt trang Web chính là xác sut để mt người ngu nhiên duyt trang Web  
đó.  
PageRank trong thc tế  
Trên thc tế có nhiu trang Web không có liên kết đến hoc không có liên kết ra.  
Các trang Web này có thlà các trang chcha mt bc nh, mt file pdf, mt bng dữ  
liu … hay có thlà mt trang mà các trang liên kết ca nó chưa được máy tìm kiếm kéo  
v. Các trang độc lp như vy được gi là các “dangling nodes” [9]. Trong trường hp đó,  
khi gii phương trình (1.2) các “dangling nodes” sphi chu mt hng bng 0, và ta  
không thtính được độ quan trng ca trang Web đó. Điu này là không phù hp vi thc  
tế, vì bt ktrang Web nào được xây dng cũng mang mt ngnghĩa nào đó, tc là có độ  
quan trng dương.  
6
đồ thWeb trên thc tế là không liên thông nên trong ma trn P vn tn ti hàng  
chtoàn s0, do đó không tn ti mt phân phi xác sut dng n định ca P hay chính là  
vector hng trang.  
Page và cng s[30] đề xut xlý các vn đề này bng cách thay thế các hàng chỉ  
toàn s0 trong P bi mt vector xác định xác sut phân phi , vi là xác sut trang  
Web i được gi đến ln duyt đầu tiên. Khi không xét đến ngcnh, có thể được chn  
giá trꢮ ꢁ ꢯꢰ  
.
ꢄꢢꢃ  
Gi a là vector ꢕ ꢢ 1 vi:  
ꢎ ꢐ  
1 ꢕêꢤ ꢗ ꢇ ꢁ 0  
ꢁ ꢣ  
0
ꢕꢧươꢥꢉꢊꢇ  
Ma trn P được biến đổi thành ma trn :  
ꢁ ꢞ ꢴ ꢊꢮ  
ꢎ1.3ꢐ  
Để đảm bo phân phi dng n định (duy nht), công thc tính PageRank được  
điu chnh bng vic thêm vào mt hshãm cho phù hp, snhn giá trtrong  
khong [0,1]. Vi định nghĩa mi này, chmt phn nhtrong giá trhng ca trang  
Web được phân phi gia các nút có liên kết ti nó. Giá trcòn li trong hng trang sẽ  
được phân bố đều gia các trang trên Web. Công thc PageRank được sa đổi có dng:  
ꢎ ꢐ  
ꢋ ꢚ  
ꢎ ꢐ  
ꢗ ꢚ  
1 ꢫ ꢂ  
ꢎ ꢐ  
ꢋ ꢇ ꢁ ꢂ ꢵ ꢙ  
ꢎ1.4ꢐ  
ꢛꢶꢝ  
Ma trn Markov được xác định li như sau:  
ꢳꢳ  
ꢞ ꢁ ꢂꢞ ꢴ 1 ꢫ ꢂ ꢮ  
ꢎ1.5ꢐ  
Vic thêm “hshãm” (theo thc nghim thường được chn ꢂ ꢁ 0.85) có ý  
nghĩa như vic bsung thêm giá trhng trang cho nhóm các trang không có liên kết ra  
ngoài. Công thc PageRank nguyên thy chính là trường hp đặc bit ca giá trị  
PageRank va nêu khi ꢂ ꢁ 1.  
Reodering PageRank  
Langville và Meyer [9] chra rng, vic bỏ đi các “dangling nodes” trong quá trình  
tính hng có thlàm cho kết qutính hng không còn chính xác na. Bi vì mt số  
“dangling nodes” có thcó PageRank cao. Ví dnhư mt file pdf có ni dung tt có thể  
có nhiu liên kết trti tcác ngun và do đó nó có thnhn được thhng cao.  
7
Langville và Meyer đã đề xut mt gii pháp khác gii pháp ca Page và cng s[30] để  
gii quyết vn đề trên gi là thut toán Reodering PageRank [8] [9]. Phương pháp ca  
Langville và Meyer đưa ra là sdng mt hthng tuyến tính trong vic khai thác các  
“dangling nodes” để gim stính toán, và do đó to ra mt ma trn có các phn tử được  
sp xếp li mt cách thích hp.  
Theo [9], vector PageRank được tính theo công thc sau:  
ꢋ ꢸ ꢫ ꢂꢞ ꢁ ꢮ  
ꢎ1.6ꢐ  
Trong đó I là ma trn đơn v, ꢎꢸ ꢫ ꢂꢞꢐ là mt ma trn hs, các tính cht ca  
ꢎꢸ ꢫ ꢂꢞꢐ được trình bày chi tiết trong [8]. Chúng ta cn chú ý tính cht cui cùng được  
phát biu như sau:  
- Mt hàng ca ma trn nghch đảo ꢎꢸ ꢫ ꢂꢞꢐꢹꢃ ng vi “dangling node” i là mt  
vector chuyn v, vi ct thi ca ma trn đơn vI.  
Tính cht này làm cho các tính toán ca vector PageRank đặc bit hiu qu. Chúng  
ta gisrng các hàng và ct ca ma trn P được biến đổi sao cho các hàng ng vi các  
“dangling nodes” nm ở đáy ca ma trn. Khi đó ma trn P có dng:  
ꢗꢀ  
ꢃꢃ  
0
ꢗꢀ  
ꢞ ꢁ  
ꢃꢠꢽ  
0
Vi ND là tp các nút không phi là “dangling nodes” và D là tp các “dangling  
nodes”. Từ đó, vector hng trang PageRank có thể đưc tính bi công thc:  
ꢹꢃ  
ꢂꢮꢎꢸ ꢫ ꢂꢞ ꢹꢃꢞ ꢴ ꢐ  
|
ꢎ1.7ꢐ  
ꢋ ꢁ ꢸ ꢫ ꢂꢞ  
ꢃꢃ  
ꢃꢃ  
ꢃꢠ  
Vi vector được tách thành hai phn: vector “nondangling” và vector  
“dangling” . Chúng ta tiếp tc thc hin vic biến đổi để đưa các hàng bng 0 về đáy  
ca ma trn đối vi các ma trn con và tiếp tc chia nhcác ma trn này ging  
ꢃꢃ  
ꢃꢠ  
như đã làm vi ma trn P. Vic biến đổi này được thc hin lp đi lp li đối vi các ma  
trn con nhhơn cho đến khi gp các ma trn con không có hàng bng 0. Khi vic biến  
đổi các ma trn đã kết thúc, vector hng trang PageRank được tính mt cách đệ quy như  
sau:  
ꢃꢃ  
1. Tính trong phương trình ꢋ ꢸ ꢫ ꢂꢞ ꢁ ꢮꢃ  
2. Tính ꢁ ꢂꢋ ꢞ ꢴ ꢮ.  
ꢃꢠ  
3. Tính ꢁ ꢂꢋ ꢞ ꢴ ꢂꢠꢾ ꢴ ꢮ.  
ꢃꢾ  
8
4. Tính ꢁ ꢂꢋ ꢞ ꢴ ꢂꢠꣀ ꢴ ꣁ ꢴ ꢂꣀꢹꢃꣀꢹꢃ,ꣀ ꢴ ꢮ.  
ꢃꣀ  
ꢡ⁄ꢪ  
ꢋ ꢋ ꣀ  
5. Tng hp ꢋ ꢁ ꢋ ꢋ ꣀ  
.
ꢃ ꢠ  
ꢃ ꢠ  
Phương pháp sp xếp li ma trn PageRank do Langville và Meyer đề xut sdng  
các phép biến đổi đại số để chia ma trn P thành các ma trn con nhhơn, và sau đó tính  
vector hng trang cho tng ma trn con nên có thi gian tính toán khá nhanh, và do đó có  
tháp dng tt cho mt đồ thWeb rt ln. Qua thc nghim cho thy, phương pháp này  
có tc độ hi tnhanh hơn hoc bng so vi tc độ hi tca phương pháp PageRank  
nguyên thy.  
Đánh giá PageRank  
Theo [9] PageRank là mt phương pháp tính hng khá tt và có quá trình tính toán  
độc lp vi người dùng nên có ththc hin độc lp và không nh hưởng đến tc độ tìm  
kiếm. Phương pháp PageRank được cài đặt trên máy tìm kiếm Google đã mang li kết quả  
rt khquan. Tuy nhiên, vì thut toán chquan tâm đến các liên kết gia các trang Web  
mà không quan tâm đến ni dung trang Web nên có thdbị đánh la bi các công nghệ  
spam. Do vy, yêu cu đặt ra là cn phi ci tiến tc độ tính toán PageRank và quan tâm  
hơn na ti ni dung ca các trang Web đối vi truy vn ca người dùng.  
1.2.1.2. Modify Adaptive PageRank  
PageRank là mt phương pháp tt và hiu qunhm đánh giá hng các trang thông  
qua vic phân tích các liên kết gia các trang Web. Vic tính toán giá trPageRank cho  
toàn bcác trang Web được thc hin thông qua vic tính vector riêng ca ma trn kbiu  
din cho liên kết gia các trang Web. Tuy nhiên, vi kích ckhng lca WWW, công  
vic tính toán này có thtn thi gian nhiu ngày. Vì vy, yêu cu đặt ra là cn phi tăng  
tc độ tính toán hng trang. Yêu cu này là vì hai lí do:  
Cn sm có được kết qutính toán để đưa nhng thông tin hng trang sang các  
thành phn khác ca máy tìm kiếm, vic tính toán nhanh vector PageRank có thể  
giúp tn dng được thi gian ri ca nhng bphn đó.  
Hin nay, các phương pháp nghiên cu mi đều tp trung vào vic đánh giá da trên  
nhng tiêu chí có tính đến squan tâm ca người dùng, do vy cn phi tính toán  
nhiu vector PageRank, mi vector hướng ti mt tiêu đề khác nhau. Vic tính toán  
nhiu vector này cũng đòi hi mi vector thành phn cn được tính toán nhanh  
chóng.  
Mt sphương pháp tăng hiu năng tính toán ca thut toán PageRank đã được đề  
xut. Mt trong các phương pháp tăng tc độ tính toán phbiến hin nay là Modified  
9
Adaptive PageRank đã được gii thiu bi Sepandar Kamvar và cng s[32]. Ý tưởng  
ca đề xut này da trên nhn xét: trong quá trình chy chương trình, độ quan trng các  
trang Web có tc độ hi tkhông ging nhau, có nhng trang Web có tc độ hi tnhanh,  
có trang li có tc độ hi tchm. Vì vy ta có thtn dng nhng trang hi tsm, và  
kết quả độ quan trng ca nhng trang đã hi tụ đó có thkhông cn phi tính tiếp na.  
Điu này cho phép gim được nhng tính toán dư tha, và do đó làm tăng được hiu sut  
tính toán ca hthng. Như vy, phương pháp này thc cht là mt ci tiến ca phương  
pháp PageRank, phương pháp này có thlàm tăng tc độ tính toán bng cách gim đi  
nhng tính toán dư tha.  
Phương pháp Adaptive PageRank  
Như đã gii thiu trên, vic tính toán vector toàn cc PageRank cho các trang Web  
được thc hin bng phương pháp lp. Ta gisrng vic tính toán vector PageRank đã  
được thc hin đến vòng lp thk và bước tính toán tiếp theo:  
ꢎꣃ꣄ꢃꢐ ꢁ ꣅꣂꢎꣃꢐ  
(1.8)  
Gi C là tp hp các trang Web có giá trhng trang đã hi tụ đến mc nào đó và  
là tp hp các trang Web có giá trhng trang chưa hi t. Khi đó, ta chia ma trn ra  
làm hai ma trn con, cꢈ ꢢ ꢕ là ma trn kề đại din cho nhng liên kết ca m trang  
chưa hi t, còn cꢎꢕ ꢫ ꢈꢐ ꢢ  là ma trn kề đại din cho nhng liên kết ca  
ꢎꢕ ꢫ ꢈꢐ trang đã hi t.  
Tương t, ta cũng chia vector ꢎꣃꢐ ti vòng lp thk ra thành 2 vector: ꢎꣃꢐ tương  
ng vi nhng thành phn ca ꢎꣃꢐ đã hi t, còn ꢎꣃꢐ tương ng vi nhng thành phn  
ca ꢎꣃꢐ chưa hi t. Ma trn và vector ꢎꣃꢐ được viết li dưới dng sau:  
ꢎꣃꢐ  
ꢎꣃꢐ ꢁ ꣉  
ꢎꣃꢐ  
꣇  
và  
ꣅ ꢁ ꣋ ꣌  
Và phương trình (1.8) được viết li như sau:  
ꢎꣃꢐ  
ꢎꣃꢐ  
ꢎꣃ꣄ꢃꢐ  
ꢎꣃ꣄ꢃꢐ  
꣇  
꣊ ꢁ ꣋ ꣌ • ꣍  
ꢎ1.9ꢐ  
Do nhng thành phn ca ꢎꣃꢐ đã hi t, do vy ta không cn tính ꢎꣃ꣄ꢃꢐ na và  
như vy vic tính toán sẽ được gim đi đáng kdo không phi tính toán ꢎꣃꢐ na mà  
chcn tính:  
ꢎꣃ꣄ꢃꢐ ꢁ ꣅ• ꣈ꢎꣃꢐ  
ꢎ1.10ꢐ  
ꢎ1.11ꢐ  
ꢎꣃ꣄ꢃꢐ ꢁ ꣈ꢎꣃꢐ  
10  
Ci tiến Adaptive PageRank  
Vì kích thước ca WWW rt ln nên vic sp xếp li ma trn A để to ma trn con  
skhó có ththc hin được trong mi vòng lp. Hơn na, không có cách hiu quả để  
pht lờ đi nhng đầu vào không cn thiết (chính là nhng liên kết ti các trang đã hi t),  
do vy trong thc tế vic cài đặt thut toán có thể được thc hin như sau:  
Định nghĩa ma trn ꣅ꣏ như sau:  
0
ếꢤ ꢇ ꢜ ꣐  
ꣅ꣏ ꢁ ꢣ  
ꢏꢛ ꢕꢧượꢥ ꢉꢇ  
ꢎꣃꢐ  
0
ếꢤ ꢇ ꢜ ꣐  
ꢕꢧượꢥ ꢉꢇ  
ꢎ꣈꣏ꣃꢐꢁ ꣑  
Nghĩa là ta snhn được ma trn ꣅ꣏ khi thay hàng thi ca ma trn bi 0 nếu  
ꢇ ꢜ ꣐. Điu này có ý nghĩa như chúng ta slc đi nhng phn tca vì chúng không  
còn cn thiết cho công vic tính toán na.  
Phương trình (1.8) được viết li như sau:  
ꢎ ꢐ  
ꢎ ꢐ  
ꢎꣃ꣄ꢃꢐ ꢁ ꣅ꣏꣈ ꢴ ꣈ꢳ  
ꢎ1.12ꢐ  
Ma trn ꣅ꣏ mà chúng ta nhn được có schiu ging như ma trn , tuy nhiên ma  
trn ꣅ꣏ thưa hơn rt nhiu so vi ma trn A (có nhiu phn t0 hơn mà công vic tính toán  
vi s0 rt đơn gin) nên thi gian tính toán strnên nhanh hơn so vi vic sp xếp li  
ma trn đại din cho các liên kết gia các trang Web để được ma trn con ꣇  
Ý tưởng chính ca Adaptive PageRank là làm gim nhng tính toán dư tha bng  
vic tính toán li PageRank theo các phương trình (1.10) và (1.11). Tuy nhiên trong [32]  
đã gii thiu chi tiết hơn vvic tăng tc độ tính toán bng cách chia nhma trn thành  
bn ma trn con.  
Ma trn được viết li như sau:  
꣆꣆  
꣇꣆ ꣇꣇  
ꣅ ꢁ ꣋  
꣌  
ꢎ1.13ꢐ  
Vi ꣆꣆ là ma trn kề đại din cho nhng liên kết ca các trang có giá trPageRank  
chưa hi tti nhng trang có giá trPageRank chưa hi t, ꣇꣆ là ma trn kề đại din  
cho nhng liên kết ca các trang có giá trPageRank đã hi tti nhng trang có giá trị  
PageRank chưa hi t, và tương tcho các thành phn khác , ꣅ.  
không thay đổi sau vòng lp thk do chúng đã hi t, nên phương  
trình (1.8) có thể được viết li như sau:  
ꢎꣃ꣄ꢃꢐ ꢁ ꣅꢎꣃꢐ ꢴ ꣅ꣇꣆ꢎꣃꢐ  
ꢎ1.14ꢐ  
11  
Ma trn đã được chia nhra, đồng thi không phi tính li giá trmt sma trn  
con, do vy công vic tính toán có thể được gim đi đáng k. Hơn na vic tính toán ꣇꣆  
cũng không cn phi tiến hành thường xuyên mà có thxem xét chúng mt cách định kì.  
Đánh giá  
Vic chia nhvà lc ma trn không nhng gim đi được nhng tính toán dư tha  
không cn thiết, mà còn gim đi vic đọc các đầu vào và ghi các giá trị đầu ra không cn  
thiết, giúp nâng cao hơn hiu sut tính toán. Hơn na phương pháp này còn giúp gim  
được chi phí tn kém vbnhkhi thc hin công vic tính toán. Nhng kết quthc  
nghim trong [32] cho thy thi gian tính hng có thể được gim đi ti hơn 20% so vi  
thut toán PageRank nguyên thy.  
1.2.1.3. HITS  
Phương pháp HITS (Hypertext Induced Topic Search), do Kleinberg đề xut [23],  
tính hng ca mt trang Web không chda trên mt giá trị độ quan trng như  
PageRank mà mi trang Web được xác định hai trng skhác nhau: authority hub.  
Authority pages: Là nhng trang được xem là phù hp nht đối vi mi câu truy  
vn cthnào đó. Ví d, trang chca Yahoo chính là trang “authority” ca câu truy  
vn “yahoo”.  
Hub pages: Là nhng trang không cn có đặc tính “authority” nhưng li trti  
nhiu trang có đặc tính “authority”. Ví dnhư trang “Searchenginewatch.com” là mt  
trang “hub” vì nó liên kết ti nhiu trang chca máy tìm kiếm. Trang “hub” có ý  
nghĩa khá quan trng, thnht bi vì nó có nhng thông tin có thể được sdng trong  
vic tìm kiếm nhng thông tin hu ích, thhai bi vì nó được sdng trong thut toán  
HIST để tính toán “authority”. Vì trang “hub” mang ý nghĩa là trang trti nhiu trang  
“authority” nên nếu mt trang “authority” tt có thể được coi là trang có nhiu “hub”  
chti.  
Gii thut HITS  
Thut toán HITS không làm vic trên toàn bộ đồ thWeb mà chlàm vic trên  
mt tp nhcác trang Web và kết hp chúng thành mt đồ thcác trang Web (gi là  
đồ thcon). Thut toán không hoàn toàn độc lp vi người dùng như phương pháp  
PageRank mà tùy thuc vào câu truy vn ca người dùng, vi mi câu truy vn khác  
nhau công vic tính toán phi được thc hin li. Tuy nhiên, câu truy vn chcó vai trò  
trong vic to đồ thcon chkhông nh hưởng ti phương pháp tính toán. Vì vy,  
trước tiên phi xây dng đồ thcon các trang tùy theo truy vn và sau đó phân tích các  
12  
liên kết gia các trang trong đồ thị để xác định các giá tr“authority” và “hub” ca các  
trang.  
Hình 1. Mô ttính cht authority và hub  
Xác định đồ thcon:  
Đồ thcon các trang Web hay còn gi là tp cơ scó thể được xây dng theo  
gii thut sau:  
1. ꣓ ꢩ tp t trang Web có cha xâu truy vn (tp nhân)  
2. ꣒ ꢩ ꣓  
3. Vi mi trang p thuc R  
(a) Thêm các trang được liên kết đến bi p vào S  
(b) Thêm các trang Web có liên kết đến p vào S (ti đa là d trang)  
4. Đồ thto bi S chính là đồ thcon cn tìm.  
Vic tìm tp nhân liên quan đến truy vn có thxác định da vào kết qutìm  
kiếm ca các máy tìm kiếm khác như Google. Ví d, tp nhân có thể được ly tcác  
trang đầu tiên, có thlà 10 địa chtrang Web đầu tiên được trvtương ng vi truy  
vn. Hoc là các trang có địa chcha ni dung truy vn, ví dvi truy vn “java” thì  
trang chhttp://java.sun.com. Các trang Web trong đồ thcon cũng được đánh chỉ  
st1 đến n và đồ thị được biu din bi ma trn k.  
13  
Hình 2. Mrng tp cơ sT ttp nhân S  
Tính authority và hub:  
Các trng sauthority và hub ca mi trang Web được khi to bng 1 và  
sau đó sẽ được tính da theo công thc:  
ꢛꢜꢝꢎꢏꢛꢜ꣆ꢎꢏꢛ  
(1.15)  
Gi là ma trn kbiu din liên kết gia các trang Web vi:  
1 ꢕếꢤ ꢥó ꢉꢇêꢕ ꢦếꢌ ꢌꢌꢋꢊꢕꢧ ꢇ đếꢕ ꢌꢋꢊꢕꢧ ꢚ  
ꢏꢛ ꢁ ꢣ  
0
ꢕꢧượꢥ ꢉꢇ  
Biu din 1.15 theo ma trn ta có:  
꣖꣕  
꣖꣕  
꣔ ꢁ ꣅ꣕  
꣕ ꢁ ꣅ ꣔  
và  
(1.16)  
꣖꣕  
Trong đó: ꣕ ꢁ ꢎꢊ, ꢊ, … ꢊ, ꣔ ꢁ ꢎ꣔, ꣔, … ꣔ln lượt là vector trng số  
“authority” và “hub” ca các trang trong tp .  
T1.16 ta biến đổi được:  
꣕ ꢁ ꣅꣅ꣕  
và  
꣔ ꢁ ꣅ ꣅ꣔  
꣖꣕  
꣖꣕  
Vy cũng tương tnhư phương pháp PageRank, vector ꢊ, ꣔ ln lượt là vector riêng  
ca các ma trn ꣅꣅ. Do vy, tương tphương pháp tính PageRank, có tháp  
dng tính cht hi tụ để tính vector ꢊ, ꣔. Vector ꢊ, ꣔ thường được chun hóa: ꢊ ꢁ  
꣔ ꢁ 1.  
14  
Kleinberg [23] đã chra shi tca các trng s“authority” và “hub” tc thut  
toán tha mãn tính dng nhưng chưa đưa ra được gii hn svòng lp cn tính. Tuy  
nhiên, thc nghim đã cho thy thut toán nhanh chóng hi t.  
Đánh giá  
Theo [9], thut toán HITS có phn hướng người dùng do sdng thông tin truy vn  
cht lc nhng trang Web có ni dung liên quan đến xâu truy vn để xây dng tp con ꣒  
các trang Web. Thut toán đã thhin mi quan hcht chgia các trang mang tính chủ  
(authority) và trang trung tâm (hub).  
Tuy nhiên, thut toán HITS li gp phi vn đề khá khó khăn là cn tính toán trc  
tuyến (online), nghĩa là chkhi máy tìm kiếm nhn được câu truy vn ri đồ thcon mi  
được xây dng và sau đó các trng s“authority”, “hub” mi được tính. Điu này làm  
chm thi gian trkết quvcho người dùng. Nhưng chúng ta có thể ứng dng thut toán  
HITS trong các phương pháp có xác định link spam sau này nhm tính độ ảnh hưởng ca  
các trang xu ti các trang khác khi đã xác định được tp nhân các trang xu.  
1.2.2. Tính hng định hướng ngcnh  
1.2.2.1. PageRank theo chủ đề  
PageRank là phương pháp xếp hng hiu quvà hin đang được áp dng trên máy  
tìm kiếm Google. Tuy nhiên, phương pháp này chquan tâm đến các liên kết mà không  
quan tâm đến ni dung ca trang Web có cha liên kết đó, do vy có thdn ti nhng sai  
lc trong thông tin tìm kiếm được. Yêu cu đặt ra là cn phi tìm kiếm mt phương pháp  
có tc độ nhanh như phương pháp PageRank và li có quan tâm đến ni dung ca trang  
Web có cha nhng liên kết cn thiết. Hơn na, nếu khai thác được mi quan tâm ca  
người dùng đối vi các trang Web trong vic tính độ phù hp ca trang Web vi câu hi  
người dùng thì vic đó càng có ý nghĩa. Nhm đáp ng nhng yêu cu trên, Taher H.  
Haveliwala [35] đã đề xut phương pháp PageRank theo chủ đề (Topic sensitive  
PageRank) sdng khái nim “phm vi ngcnh” để biu thmi quan tâm ca người  
dùng. Phương pháp nm được độ quan trng ca các trang Web, cho phép tìm kiếm theo  
ngcnh, và điu quan trng là có thtìm kiếm nhng trang phù hp vi ni dung truy  
vn ca người dùng vi tc độ cho phép.  
Thut toán gm hai bước được mô tsơ bnhư sau.  
o Bước đầu tiên được thc hin ngoi tuyến (offline) trong sut quá trình tin xlí  
ca btìm duyt và hoàn toàn độc lp đối vi nhng truy vn như phương pháp  
15  
PageRank thông thường. Ti bước này, các trang Web trong cơ sdliu được  
phân thành các lp theo các chủ đề , ꢥ, … , ; gi là tp hp nhng trang  
Web theo chủ đề ca . Mi lp tương ng vi mt vector PageRank ca mi  
trang trong lp. Vector PageRank ca chủ đề được tính bng ꣕ ꢁ trong đó  
1
ếꢤ ꢇ ꢜ ꣗  
ꢮ ꢁ ꣙  
ꢛꢏ  
ꢎ1.17ꢐ  
꣚꣗ ꣚  
0
ꢕꢧượꢥ ꢉꢇ  
꣖꣖꣖꣕  
Gi là vector các tkhóa, gm tt ccác tkhóa trong các tài liu ca các chủ  
đề; sln xut hin ca tkhóa t trong tt ccác tài liu ca chủ đề .  
ꢛ꣛  
o Bước thhai ca thut toán được thc hin trong thi gian truy vn, nghĩa là khi  
máy tìm kiếm nhn được câu truy vn ca người dùng thì mi thc hin công  
vic tính toán độ quan trng cho các trang. Gischúng ta có truy vn , gi ꢳ  
là phm vi ngcnh ca . Phm vi ngcnh nghĩa là nếu truy vn được yêu  
cu bng cách tô sáng tkhóa trong trang Web u nào đó thì scha các từ  
khóa trong u bao gm c. Vi truy vn bình thường không tìm theo ngcnh  
thì ꢁ ꢅ. Sau đó ta tính xác sut để thuc vcác chủ đề khác nhau. Bước này  
có thcoi như là bước phân lp xem xét thuc vlp nào trong các lp chủ đề.  
Sdng thut toán phân lp Bayes vi:  
ƒ Tp hun luyn: gm nhng trang được lit kê trong các chủ đề.  
ƒ Đầu vào: câu truy vn hoc phm vi ngcnh ca câu truy vn.  
ƒ Đầu ra: xác sut để đầu vào thuc mi chủ đề.  
Gi là tkhóa thi trong ngcnh . Vi mi lp , xác sut để ꢜ ꢥ là:  
ꢞ꣜ꢥ ꣝. ꢞꢎꢅ|ꢥ ꢐ  
ꢞ꣜ꢥ ꣚ꢅ꣝ ꢁ  
꣞ ꢞ꣜ꢥ ꣝. ꣟ ꢞ꣜ꢅ꣚ꢥ ꣝  
ꢎ1.18ꢐ  
ꢞꢎꢅꢐ  
꣖꣖꣖꣕  
Trong đó ꢞ꣜ꢅ ꣚ꢥ ꣝ được tính tvector các tkhóa được định nghĩa trên.  
Giá trꢞ꣜ꢥ ꣝ được xác định hoc là các giá trbng nhau cho mi chủ đề hoc có  
thlàm như sau: chúng ta gisrng có k người dùng, ta sbiết được sln mà  
người dùng này có câu truy vn liên quan đến chủ đề nào, từ đó có thtính được  
ꢎꢥ ꢐ; ri thp các giá trnày thì nhn được ꢞ꣜ꢥ ꣝.  
Gi ꢋꢊꢕꢛ꣠ là hng ca văn bn d cho bi vector ꢞ꣓ꢎꢂ,  – vector PageRank  
ca chủ đề thì độ quan trng ꣡꣠ da theo câu truy vn được tính như sau:  
16  
꣡꣠ ꢁ ꢙ ꢞꢎꢥ |ꢅꢐ . ꢋꢊꢕꢦꢛ꣠  
ꢎ1.19ꢐ  
Phương pháp PageRank theo chủ đề có thcho nhng kết qutính toán chính xác  
hơn vì nó da trên cnhng liên kết và ni dung trang Web. Tuy nhiên, phương pháp này  
cũng gp phi nhng trngi là: vic phân chia các chủ đề có thkhông đầy đủ, không  
bao hàm được tt ccác chủ đề; vn đề này có thgii quyết bng cách tăng thêm các chủ  
đề nhưng vic tăng thêm các chủ đề chc chn slàm tăng thi gian tính toán...  
1.3. Tính hng thc thể  
Tìm kiếm thc thtrên Web là mt hướng đi mi da trên tìm kiếm văn bn thông  
thường. Cùng vi sphát trin ca các kthut trích rút thông tin, các máy tìm kiếm thc  
thngày càng nhn được nhiu squan tâm nghiên cu ca các nhà khoa hc. Vi máy  
tìm kiếm thc th, người dùng có thddàng tìm được thông tin vmt đối tượng nào đó.  
Ví d, đối vi truy vn “các trường đại hc Vit Nam”, máy tìm kiếm thc thstrvề  
danh sách tên các trường đại hc Vit Nam đúng như mong mun ca người dùng.  
Trong khi đó, các máy tìm kiếm thông thường strvdanh sách các trang Web có cha  
tkhóa trong truy vn. Do vy, người dùng sphi duyt qua ni dung nhiu trang Web  
mà không chc chn sđược thông tin mong mun nhng kết quả đầu tiên. Kết quả  
trvca máy tìm kiếm thc thlà các thc thca đối tượng cn tìm, mi thc thể được  
xác định không chxét trên mt trang độc lp mà có thể được tng hp qua nhiu trang  
Web. Vì thế, vn đề đưa các thc thphù hp vi truy vn nht lên đầu tiên trong danh  
sách trvcho người dùng là rt quan trng. Hay nói cách khác, xếp hng thc thlà vn  
đề ct lõi ca máy tìm kiếm thc th.  
Bài toán xếp hng thc thể được phát biu như sau:  
Gi ꢓ ꢁ ꢔꢺ, ꢺ, … , ꢺlà tp các thc thể được trích ra tcác trang Web. Mi thc  
thđược biu din bi các cp (<thuc tính>,<giá tr>). Định nghĩa ꢂꢎꢺꢐ ꢁ ꢔꢸꢀ, ꢞꢖ  
là mt mô tca thc th, trong đó ꢸꢀđịnh danh thc th: ꢸꢀꢁ ꢇꢂꢎvà tp các  
đặc tính ꢁ ꢔꢎꢊ, ꢮꢐ … ꢎꢊ, ꢮꢐꢖ là tp các cp (<thuc tính>,<giá tr>). Ví d, trường  
đại hc Công NghID DHCN và các đặc tính như là (tên, đại hc Công Ngh),  
(năm_thành_lp, 2005)…  
Truy vn ꢅ ꢁ ꢔꢎꢊ, ꢮꢐ … ꢎꢊ, ꢮꢐꢖ là mt tp các cp (<thuc tính>,<giá tr>) thể  
hin yêu cu ca người dùng tìm kiếm các thc thcó các giá trị ứng vi các thuc tính  
, … , ꢊ.  
17  
Vi đầu vào là mt tp các mô tthc thꢀ ꢁ ꢔꢂꢎꢺꢐ … ꢂꢎꢺꢐꢖ và mt truy vn q,  
đầu ra ca mt hthng xếp hng thc thlà mt danh sách các thc thể đã được xếp  
hng ꢓ ꢁ ꢔꢺ… ꢺ. Độ phù hp ca thc thđối vi truy vn q được xác định bi  
ꢆꢥ꣣ꢋꢇꢕꢧ_꣤ꢤꢕꢥꢌꢇ꣣ꢕ꣥ꢎꢅ, ꢂꢎꢺꢐꢐ.  
Giá trca ꣥ꢎꢅ, ꢂꢎꢺꢐꢐ được dùng để xếp hng các kết qutrv, do đó vic xác  
định hàm ꣥ꢎꢅ, ꢂꢎꢺꢐꢐ là vn đề quan trng. Vi mi bài toán xếp hng thc thcho mi  
loi đối tượng scó mt sthut toán xếp hng thc thphù hp vi bài toán đó tùy thuc  
vào các thuc tính ca đối tượng cn tìm.  
Hình 3. Mt mô hình hc xếp hng trong máy tìm kiếm thc th[4]  
1.4. Sơ bvtính hng nh  
Cùng vi sbùng nthông tin trên Web và sphát trin ca công nghkthut  
s, lượng nh lưu trtrên Web cũng tăng mt cách nhanh chóng. Mi ngày, có hàng  
triu bc nh được đăng ti trên các trang nh trc tuyến như: Flickr1, Photobucket2,  
Facebook3…. Theo thng kê, có 10 tỉ ảnh trên Facebook (tính đến tháng 10/2008), 3 tỉ  
nh trên Flickr (tính đến tháng 11/2008), 6.2 tỉ ảnh trên Photobucket (tính đến tháng  
10/2008) [19]  
Bên cnh nhu cu tìm kiếm thông tin thì tìm kiếm nh cũng là mt nhu cu đang  
nhn được squan tâm ln ca người sdng. Tuy nhiên, vi mt lượng nh trên  
18  
Internet quá ln công vic tìm kiếm strnên vô cùng khó khăn. Để gii quyết vn đề  
này, đã có các hthng tìm kiếm nh ra đời như: Yahoo, MSN, Google Image Search,  
Bing…. Cũng như đối vi các hthng tìm kiếm thông thường và các hthng tìm  
kiếm thc thkhác, mô đun xếp hng là mt phn quan trng ct lõi trong máy tìm  
kiếm nh. Hin nay, bài toán xếp hng nh đã trthành mt trong nhng bài toán đin  
hình ca lĩnh vc khai phá dliu nói chung và lĩnh vc xếp hng thc thnói riêng.  
Để tìm kiếm và xếp hng nh trên Web, các máy tìm kiếm thường da vào các thuc  
tính sn có ca nh. Các nh trên Web được nhn biết qua các thuc tính được nhóm  
thành hai loi: văn bn và ni dung hin th. Các thuc tính văn bn có thlà: tên nh, thẻ  
nh (tags1), vùng văn bn xung quanh nh, tên trang Web cha nh, …. Ni dung hin thị  
ca nh có thlà: màu sc, hình dng, kết cu, các thuc tính cc b(local features), …  
hay bt cthông tin nào bt ngun tchính ni dung ca bc nh. Da vào hai loi đặc  
trưng này ca các nh trên Web, các thut toán xếp hng nh cũng phân thành hai hướng  
là: xếp hng nh da theo ni dung hin thvà xếp hng nh da theo văn bn. Các máy  
tìm kiếm nh thông dng hin nay như: Google Image Search, Yahoo! Image Search,  
MSN, AltaVista, … xếp hng các nh trvda trên vùng văn bn đi kèm vi nh. Các  
hthng này cho phép người sdng nhp các chui truy vn vchủ đề ảnh mà họ  
cn tìm kiếm, thông qua vic phân tích các vùng văn bn đi kèm vi các bc nh, hệ  
thng gi trli các nh có nhãn tương ng vi chủ đề ảnh mà người sdng yêu cu.  
Phương pháp này cho kết qukhquan cũng như đáp ng nhanh nhu cu ca người sử  
dng. Tuy nhiên, đối vi các câu truy vn mang ý nghĩa nhp nhng có thscó các  
kết qutrvkhông đúng vi yêu cu đặt ra bi vì vùng văn bn đi kèm nh không thể  
din tả được hết ni dung nh. Mt hướng nghiên cu khác là phân tích các đặc trưng  
hin thca nh và tiến hành xếp hng theo các đặc trưng này. Mt scông ctìm kiếm  
nh da trên ni dung đin hình như: Google Image Swirl, Tiltomo, Byo Image Search  
…. Các công cnày nhn đầu vào là mt chui truy vn dưới dng văn bn hoc mt bc  
nh và cho phép người dùng tùy chnh la chn tìm nh theo mt số đặc trưng nào đó.  
Tuy nhiên, các máy tìm kiếm này thường chtp trung khai thác vào mt phn ni  
dung ca nh và thường tn khá nhiu thi gian do phi phân tích ni dung các bc  
nh.  
1 Tags: là là các từ để đánh du mt vùng trong nh mà khi di chut qua vùng đó thì các từ đó shin thlên để  
chú thích cho bc nh.  
19  
Mt trong các hướng nghiên cu nhm gii quyết và khc phc vn đề trên là kết  
hp cvic phân tích các đặc trưng ca nh vi các đặc trưng ca chui truy vn vào  
quá trình tìm kiếm nh. Đây là mt hướng nghiên cu mi được squan tâm ca  
nhiu hi nghquc tế như: International Journal of Computer Vision, IEEE  
conference…  
1.5. Mt scông trình nghiên cu liên quan  
Các nghiên cu vtìm kiếm Web đã bt đầu tnhng năm 1990. Cùng vi sci  
tiến không ngng ca các công ctìm kiếm Web, các thut toán tính hng trang cũng  
nhn được squan tâm sâu sc ti các hi nghquc tế. Sra đời ca thut toán  
PageRank [30] đã đánh du mt bước phát trin nhy vt ca các máy tìm kiếm Web  
đin hình ca nó là Google, mt trong scác máy tìm kiếm hàng đầu hin nay.  
Kéo theo đó là sra đời ca mt lot các thut toán tính hng trang khác [9] [23] [32]  
[35] nhm ci tiến thut toán PageRank.  
Phn ln các nghiên cu tìm kiếm Web là tp trung vào tìm kiếm các trang Web  
(tài liu dng văn bn) và chmt sít trong đó là vtìm kiếm các thông tin đa  
phương tin trên Web (nh, video, MP3…). Tuy nhiên, trong nhng năm gn đây, vn  
đề tìm kiếm và xếp hng các đối tượng đa phương tin trên Web (đặc bit là vn đề  
tìm kiếm và xếp hng nh) đang trthành mt vn đề thu hút được rt nhiu squan  
tâm ca các nhà khoa hc trên thế gii. Bng chng là ngày càng có nhiu các công  
trình nghiên cu vcác thut toán tính hng nh được công b[17] [29] [30] [34] [36]  
[38] [39][40]. Bên cnh đó là sra đời ca các máy tìm kiếm nh và các máy tìm kiếm  
thông thường cũng có xu hướng tích hp thêm dch vtìm kiếm nh.  
Mt hướng phát trin mi cho các máy tìm kiếm Web đang rt được chú ý đó là  
các máy tìm kiếm lp trên (Meta-search engine). Đã có mt scông trình nghiên cu  
vmáy tìm kiếm lp trên [11] [14] [18] [28] được công bcũng như đã có mt smáy  
tìm kiếm lp trên (Dogpile, Clussty, KartOO, Google CSE…) được mang vào sdng  
trong thc tin. Tuy nhiên, nhng công ctìm kiếm này vn chưa mang li được thành  
tu ni bt và chưa cnh tranh được vi Google.  
Vit Nam, nghiên cu và ng dng tìm kiếm và xếp hng Web cũng đang  
nhn được nhiu squan tâm. Hin ti, cũng có mt scông ty làm vmáy tìm kiếm  
như Bamboo, Zing, Xalo, Socbay…. Thtrưởng BTT-TT Nguyn Minh Hng1 cho  
rng, các máy tìm kiếm trc tuyến ra đời là sự đóng góp ln cho nn công nghip  
20  

Tải về để xem bản đầy đủ

pdf 75 trang yennguyen 02/01/2025 150
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Một số thuật toán phân hạng ảnh phổ biến và áp dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_mot_so_thuat_toan_phan_hang_anh_pho_bien_va_ap_dun.pdf