Khóa luận Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học

ĐẠI HC QUC GIA THÀNH PHHCHÍ MINH  
ĐẠI HC CÔNG NGHTHÔNG TIN  
KHOA HTHNG THÔNG TIN  
------------  
KHOÁ LUN TT NGHIP  
Đề tài:  
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CU CA  
CÁ NHÂN, TCHC DA TRÊN PHÂN TÍCH,  
TÍNH TOÁN CÁC CHSKHOA HC  
Giảng viên hướng dn:  
TH.S HUNH NGC TÍN  
Cơ quan công tác:  
Cơ quan công tác:  
Sinh viên thc hin:  
ĐẠI HC CÔNG NGHTHÔNG TIN  
T.S LƯƠNG PHÚC HIỆP  
ĐẠI HC ARKANSAS, HOA KỲ  
TRẦN HƯNG NGHIỆP  
07520245  
MSSV:  
Lp:  
HTTT02  
Khóa:  
2007 2012  
Tp. HCM, tháng 12 năm 2011  
ĐẠI HC QUC GIA THÀNH PHHCHÍ MINH  
ĐẠI HC CÔNG NGHTHÔNG TIN  
KHOA HTHNG THÔNG TIN  
------------  
KHOÁ LUN TT NGHIP  
Đề tài:  
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CU CA  
CÁ NHÂN, TCHC DA TRÊN PHÂN TÍCH,  
TÍNH TOÁN CÁC CHSKHOA HC  
Giảng viên hướng dn:  
TH.S HUNH NGC TÍN  
Cơ quan công tác:  
Cơ quan công tác:  
Sinh viên thc hin:  
ĐẠI HC CÔNG NGHTHÔNG TIN  
T.S LƯƠNG PHÚC HIP  
ĐẠI HC ARKANSAS, HOA KỲ  
TRẦN HƯNG NGHIỆP  
07520245  
MSSV:  
Lp:  
HTTT02  
Khóa:  
2007 2012  
Tp. HCM, tháng 12 năm 2011  
MỞ ĐẦU  
Khoa hc hiện nay đang phát triển rt mnh, cùng với đó là số lượng bài  
báo khoa học ngày càng tăng lên. Việc qun lý và khai thác các bài báo khoa  
hc này mt cách hiu qulà mt nhu cu tt yếu cho sphát trin bn vng  
ca khoa hc vi tinh thần “đứng trên vai những người khng lồ”.  
Hin nay trên thế gii đã có nhiều hthng được xây dựng để thc hin  
vic này, chức năng chính ca chúng là lưu trữ và tìm kiếm các bài báo phù  
hp vi các tiêu chí nhất định.  
Ở đề tài này chúng tôi kho sát các hthng có sn này khía cnh ni  
dung, tính năng, cùng với các gii thut tìm kiếm, xếp hng của chúng, sau đó  
xây dng mô hình ng dng các chsxếp hng trong việc đánh giá các cá  
nhân, tchc và bước đầu tiến hành thnghim trên các cá nhân, tchc làm  
việc trong lĩnh vực công nghthông tin Tp. HChí Minh. Từ đó đề xut xây  
dng mt hthng thư viện điện tthc tế có các đặc trưng cần thiết để ứng  
dng các chsnày phc vụ người dùng Vit Nam.  
 
LI CẢM ƠN  
Lời đầu tiên em xin gi lòng biết ơn chân thành đến thy Hunh Ngc Tín  
thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dn,  
góp ý, động viên em rt nhiu trong quá trình làm luận văn. Qua đó, em đã thật  
shc hỏi được rt nhiều và trưởng thành hơn trong tư duy và nhận thc.  
Em xin gi li cm ơn tất ccác thầy cô đã giảng dy, truyền đạt kiến thc  
và nhng kinh nghim quý báu cho em sut những năm học va qua.  
Em cm ơn khoa Hệ thng Thông tin trường Đại hc Công nghThông tin  
đã tạo điều kin cho em thc hiện đề tài này.  
Em cũng xin cm ơn các bạn đã nhiệt tình giúp đỡ em trong sut quá trình  
thc hiện đề tài này.  
Cui cùng, em xin gi li cảm ơn đến gia đình đã tạo mọi điều kin thun  
li vvt cht và tinh thn, giúp em hoàn thành luận văn một cách tt nht.  
Mc dù em đã cố gng để hoàn thành tốt đề tài, nhưng chắc chn không  
tránh khi nhng thiếu sót, em rất mong được stn tình chbo ca quý thy  
cô.  
Tp. HChí Minh, tháng 12 năm 2011  
Sinh viên thc hin  
Trần Hưng Nghiệp  
 
NHN XÉT  
(Ca giảng viên hướng dn)  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
NHN XÉT  
(Ca ging viên phn bin)  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
NHN XÉT  
(Ca hội đồng)  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
...........................................................................................................  
MC LC  
 
DANH MC CÁC BNG  
 
DANH MC CÁC HÌNH  
 
Khóa lun tt nghip  
CHƯƠNG 1:  
TNG QUAN VỀ ĐỀ TÀI  
1.1 Đánh giá hiện trng  
Theo mt nghiên cu ca tác giArif Jinha [Jin2010], tng số lượng bài  
báo khoa hc đã xuất bn trên thế gii trong tt cả các lĩnh vực đến thời điểm  
đầu năm 2010 là vào khong hơn 50 triệu, và ước lượng hin nay vào tháng 12  
năm 2011 là vào khong 54 triu. Số lượng bài báo khoa hc đang ngày càng  
tăng, và tốc độ tăng cũng ngày càng nhanh. Vào năm 2008, có khoảng 1434352  
bài báo khoa học được xut bn, con snày vào năm 2009 là 1477383 bài. Tỉ  
lệ tăng hằng năm số lượng công trình nghiên cu trên toàn thế gii vào khong  
3%. Scopus1, một cơ sở dliu cha các bài báo khoa hc trên mọi lĩnh vực,  
cho biết mình có khong 46 triu chmc (7/2011). ISI - Web of Knowledge2,  
một cơ sở dliu khác, cha khong 49,4 triu bài báo khoa hc (2011).  
Microsoft Academic Research (MAS)3 cha khong 36,7 triu bài báo khoa  
hc với hơn 18,8 triu tác gi(12/2011).  
Trước sự tăng trưởng đáng kể vsố lượng, việc lưu trữ và htrtìm kiếm  
bài báo khoa hc trthành mt nhu cu thiết yếu. Nhiu thư viện điện tử đã  
được phát triển để phc vnhu cu này. Mt số thư viện lớn thương mi hóa có  
thkể đến như Institute of Electrical and Electronics Engineers (IEEE)4,  
Association for Computing Machinery (ACM)5, SpringerLink6… Những thư  
vin min phí gm có Microsoft Academic Research (MAS), Google Scholar7,  
1 http://www.scopus.com/home.url  
2 http://wokinfo.com/realfacts/qualityandquantity  
3 http://academic.research.microsoft.com  
4 http://ieeexplore.ieee.org  
5 http://dl.acm.org  
6 http://www.springerlink.com  
7 http://scholar.google.com  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 1  
Trn Hưng Nghip  
   
Khóa lun tt nghip  
CiteSeer8Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng  
như các tính năng và sự hiu qukhi sdng.  
Sự đa dạng của các thư viện điện tcung cp nhiu khả năng lựa chn cho  
người dùng. Tuy nhiên, khi có quá nhiu la chọn, người dùng có thbi ri và  
khó đưa ra quyết định [Sch2003]. Quyết định la chọn thư viện điện tnào  
quan trng vì nó ảnh hưởng đến thói quen làm vic của người dùng, cũng như  
chất lượng công vic ca h. Vic sdng nhiều thư viện điện tmt lúc có  
thlà mt ý kiến hay, tuy nhiên nó skhiến người dùng phi lp li các thao  
tác vi kết quphn ln ging nhau, và phi ttng hp các kết qunày. Sự  
la chọn còn có ý nghĩa kinh tế khi người dùng sdụng các thư vin có trphí.  
1.2 Phát biu bài toán  
Sla chn thư viện điện tnào phù hp nht phi da trên cơ sở so sánh  
vnội dung và tính năng của chúng, mt hthống thư viện điện tmuốn được  
đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm  
người dùng nhất định. Mục đích của đề tài là thiết kế các tính năng cho mt hệ  
thống thư viện điện tphc vụ ngưi dùng Vit Nam.  
Mi hthng đều xây dựng tính năng của nó da trên các nn tng khác  
nhau vdliu, các thuật toán, các tiêu chí đánh giá và các chsxếp hng. Vì  
vy, vic la chọn hay cao hơn là xây dựng, hiu chnh các chsxếp hng này  
là mt vấn đề hay và vẫn đang được quan tâm nghiên cu.  
Ở đề tài này chúng tôi skho sát các hthng có sn này khía cnh ni  
dung, tính năng, cùng với các gii thut tìm kiếm, xếp hng của chúng. Sau đó  
chúng tôi sthu thp một lượng ln dliu chmục trong lĩnh vực công nghệ  
thông tin, đồng thi xây dng mô hình ng dng và tính toán các chsxếp  
hng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử  
nghim trên các cá nhân, tchc làm việc trong lĩnh vực công nghthông tin ở  
8 http://citeseerx.ist.psu.edu  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 2  
Trn Hưng Nghip  
 
Khóa lun tt nghip  
Tp. HChí Minh. Từ đó đề xut xây dng mt hthống thư viện điện tthc  
tế có các đặc trưng cần thiết để ứng dng các chsnày phc vụ người dùng ở  
Vit Nam.  
1.3 Mục tiêu đề tài  
Da trên ngcnh bài toán, mc tiêu chính đề tài ca chúng tôi là thu thp  
và tchc một lượng ln dliu chmục trong lĩnh vực công nghthông tin.  
Đồng thi xây dng mô hình ng dng và tính toán các chsố đánh giá xếp  
hng. Sau đó đề xut xây dng mt hthng thư viện điện tthc tế có các đặc  
trưng cần thiết để phc vụ môi trường nghiên cu Vit Nam.  
Đề tài cũng sẽ tiến hành thc nghim các chstrên dliu chmc vcác  
tchc làm việc trong lĩnh vc công nghthông tin Tp. HChí Minh.  
1.4 Cu trúc báo cáo  
Cấu trúc báo cáo được mô ttheo trình tsau. Ở chương I, chúng tôi gii  
thiu tng quan vngcảnh bài toán cũng như mục tiêu đề tài. Chương II,  
chúng tôi kho sát các nghiên cu liên quan. Chương III nêu cách tiếp cn ca  
đề tài. Chương IV, chúng tôi trình bày về các chương trình được hin thc và  
đề xut xây dng hthống thư viện điện tử. Chương V sẽ trình bày mt case  
study vvic thc nghiệm đánh giá các tổ chc làm việc trong lĩnh vực công  
nghthông tin Tp. HChí Minh và nêu mt số đánh giá, đề xut ci tiến.  
Phn kết lun và mt số hướng phát triển được trình bày trong chương V.  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 3  
Trn Hưng Nghip  
   
Khóa lun tt nghip  
CHƯƠNG 2:  
CÁC NGHIÊN CU VÀ NG DNG LIÊN QUAN  
2.1 Gii thiu  
Trên thế gii hin nay có khá nhiều thư viện điện tphc vụ người dùng.  
Nn tng ca vic tìm kiếm hiu quả ở các thư viện điện tnày chính là các chỉ  
sxếp hng và các phương pháp xếp hng. Các chsnày có thể là thô sơ như  
số lượng các bài báo ca mt tác gi, strích dn ca một bài báo. Nó cũng có  
thphc tạp hơn một chút như H-Index, G-Index khi nó tính toán tng thcác  
sliu thành phn ca mt tác gihay mt tchức để có mt chsố đánh giá  
tng hp. Các phương pháp xếp hng phbiến có thkể đến như PageRank,  
PopRank. Chương này tiến hành kho sát đánh giá các phương pháp xếp hng  
và các chstừ đơn giản đến phc tp. Chương này cũng skho sát mt số  
thư viện điện tcthtrên các khía cnh nội dung, tính năng, công nghệ, nn  
tng thut toán, tiêu chí xếp hng tìm kiếm bài báo khoa hc. Để phc vcho  
vic xây dng dliu chmục, web crawler cũng sẽ được gii thiu.  
2.2 Web crawler  
Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant,  
automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương  
trình hoặc đoạn mã có khả năng tự động duyt các trang Web theo một phương  
thc tự động được cài đặt trước. Web Crawler thường được sdụng để thu  
thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cp  
nht [TC2011].  
Quá trình thc hin ca Web Crawler là Web Crawling hay Web Spidering.  
Hu hết các công ctìm kiếm online hiện nay đều sdụng quá trình này để thu  
thp và cp nhp kho dliu phc vnhu cu tìm kiếm của người dùng. Web  
Crawler bắt đầu từ danh sách các địa chURL được cung cấp trước gi là ht  
ging (seeds), đây là những địa chỉ Web mà người dùng mun thu thp thông  
tin. Hthng sẽ vào địa chnày, lc thông tin rồi tìm ra các địa chURL khác  
theo một phương thức nhất định nào đó (da vào nhng liên kết có bên trong  
các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyt qua gi  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 4  
Trn Hưng Nghip  
     
Khóa lun tt nghip  
là Crawl frontier. Hthng slp lại quá trình trước đó để duyt qua nhng  
URL mi. Quá trình Crawling trên internet có thsqua rt nhiều địa chỉ  
Website và thu thp rt nhiu ni dung khác nhau từ các địa chỉ đó. Hình sau  
mô tkiến trúc ca mt web crawler chun [WikiWC]:  
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn.  
Trong đề tài này, Web Crawler được xây dựng để thu thp dliu các bài  
báo từ thư viện sMicrosoft Academic Search (MAS), sau đó xây dựng cơ sở  
dliệu để xây dng hthng thnghim. Hthng crawler srút trích thông  
tin chmc ca bài báo bng cách sdng các trình phân tích kết hp vi các  
luật đã được định nghĩa trước.  
2.3 Các phương pháp xếp hng phbiến  
2.3.1 Gii thiu  
Trong số các phương pháp xếp hng da trên vic phân tích mng thì ni  
tiếng nht có llà thut toán PageRank ca Google vi ng dng trong máy  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 5  
Trn Hưng Nghip  
     
Khóa lun tt nghip  
tìm kiếm Google Search. Chính PageRank đã giúp Google Search đánh bại các  
đối thca nó trên thị trường tìm kiếm trên internet ngay khi mi ra đời và  
giúp Google ln mạnh như ngày nay. Sau này có một sthut toán khác tương  
tự PageRank được đề xuất và cũng khá thành công khi ứng dng thc tế. Tuy  
nhiên các thut toán thuc nhóm PageRank có mt số nhược điểm nhất định  
khi xếp hạng các đối tượng, sau này nhiu thuật toán khác đã ra đời để khc  
phục các điểm yếu này, ni bật trong đó có PopRank. Phần này skho sát hai  
thut toán là PageRank và PopRank.  
2.3.2 PageRank  
a) Gii thiu thut toán PageRank  
PageRank là một phương pháp rất ni tiếng để xếp hng các đối tượng  
trong một đồ thị các đối tượng liên kết vi nhau. PageRank là mt thut toán  
phân tích liên kết (link) được Lary Page và cng sphát trin tại trường đại  
hc Stanford (Mỹ) và được sdng lần đầu cho máy tìm kiếm Google để xếp  
hng các trang web. PageRank cũng có thể dùng để xếp hạng các đối tượng  
khác như các bài báo khoa học (sẽ trình bày rõ hơn ở phn c) mc 2.2.1 này).  
Mt cách trc giác, chúng ta có ththy rng trang chca Yahoo! thì quan  
trọng hơn trang chủ ca mt cá nhân A nào đó. Điều này được phn ánh qua số  
lượng các trang có liên kết đến trang chca Yahoo! nhiều hơn số trang có liên  
kết ti trang chcủa cá nhân A. Do đó, ta có thể dùng số lượng các liên kết đến  
một trang để tính độ quan trng của trang đó. Tuy nhiên, cách này skhông  
hoạt động tốt khi người ta có thddàng to ra các trang Web có liên kết đến  
một trang Web nào đó và như vậy hng ca trang này strở nên cao hơn.  
PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan  
trng ca các trang Web liên kết đến trang Web mà ta đang xét. Phương pháp  
này tha nhn nếu có liên kết ttrang A tới trang B thì độ quan trng ca trang  
A cũng ảnh hưởng tới độ quan trng ca trang B hay độ quan trng ca trang A  
được san scho các trang mà nó liên kết ti. Theo đó, một trang có hng cao  
nếu tng hng ca các liên kết ti nó cao [BP+1998].  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 6  
Trn Hưng Nghip  
 
Khóa lun tt nghip  
Hình sau mô tnguyên lý ca thuật toán PageRank, các trang web “bỏ  
phiếu” cho các trang khác thông qua các siêu liên kết [WikiPR].  
Hình 2.2 Mô phng nguyên lý PageRank.  
b) Định nghĩa  
a. PageRank đơn giản  
Gi   là một đồ thị các trang Web. Đặt            vi                  là  
tp   đỉnh của đồ th  (mỗi đỉnh là mt trang Web cn tính hng trang) còn   
là tp các cnh,                                                           .  
Để đơn giản hóa vấn đề, chúng ta githiết rằng đồ thtrang Web là liên thông,  
nghĩa là từ mt trang bt kì có thể có đường liên kết ti mt trang Web khác  
trong đồ thị đó.  
Cho một đồ thtrang Web   như trên. Với mi trang Web  , ký hiu   là  
 
sliên kết đi ra từ trang Web th    là scác trang Web có liên kết đến  
 
trang  .  
Khi đó hạng trang   ca trang Web   được định nghĩa như sau:  
 
 
 
    
 
(1)  
    
 
 
 
Hng trang   ca mt trang web là con số tương đối để so sánh độ quan  
 
trng ca nó vi các trang web khác. Tng hng trang   ca tt ccác trang  
 
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 7  
Trn Hưng Nghip  
 
Khóa lun tt nghip  
web trong đồ thG bng mt. Vi vic chia hng ca trang   cho   , ta phân  
 
phi hng ca nó cho các trang mà nó chtới, thông qua các link đi ra tnó.  
Phương trình trên có tính đệ quy, để thun tin cho vic tính toán  
PageRank, phương trình này có thể được viết lại dưới dng:  
          
Vi:  
(2)  
[ ]  
      là vector PageRank, vi   là hng ca trang web   trong đồ  
 
 
thG.  
    [  ] là ma trn k      vi giá trcác phn tử được xác đnh  
   
như sau:  
o       nếu không có liên kết ttrang   đến trang  .  
   
 
o   được chuẩn hóa đvi mi   thì  
      
   
   
    
Trong đồ thị G đang xét, ta có thể chn giá trsau:  
 
                           
              
 
    {  
 
   
 
Lưu ý rằng ma trn P có các phn tử đều không âm và tng các phn tử  
thuc cùng mt ct ca ma trn P bng một, do đó P là một ma trn ngu nhiên.  
Vì vy, thut toán PageRank cũng chính là một biến thcủa phương pháp độ  
đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng  
phbiến trong phân tích mng. Phương trình trên cho thấy vector PageRank   
chính là vector riêng ca ma trn   tương ứng vi trriêng       [Aus2006].  
Ta thấy phương trình trên có tính đệ quy, tuy nhiên nó có thể được tính vi  
vector hng trang bt kì, và lp lại cho đến khi hi t, Page và các cng sự đã  
chra vic hi tnày là khá nhanh trong khoảng dưới 100 vòng lp [BP+1998].  
b. Tính toán vector PageRank đơn giản  
Có nhiều phương pháp để tìm vector riêng ca ma trận như phương pháp  
lặp, phương pháp đại số, phương pháp lũy thừa… [WikiPR]. Tuy nhiên do kích  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 8  
Trn Hưng Nghip  
Khóa lun tt nghip  
thước quá ln của đồ thweb, ma trn   cũng có kích thước rt ln, hàng chc  
tdòng [Aus2006], vì vy vic tính toán có thrất khó khăn. Tuy nhiên, ta cũng  
lưu ý rằng hu hết các phn tca ma trn P bng không, vì mi trang web  
trung bình thường chliên kết đến 10 trang khác. Vì vy ta chọn phương pháp  
lũy thừa đtìm vector  .  
Phương pháp lũy thừa  
 
Ta bắt đầu bng vic chn vector   ng viên cho vector hng trang  ,  
 
sau đó ta tạo ra chui vector   vi:  
    
 
 
        
(3)  
 
Chui vector   shi tvvector riêng  .  
Thut toán tính   theo phương pháp lũy thừa  
1. Chn vector  .  
2.          .  
3. Nếu          , dng li,   là vector riêng cn tính.  
4. Nếu không,      , quay lại bước 2.  
c. PageRank trong thc tế  
PageRank đơn giản không thể dùng trong đồ thweb thc tế, vì khi đó  
 
 
chui vector   có thkhông hi t,   có thphthuc vào   , và   có thể  
không phản ánh được hng trang web thc tế. Ta sxét cthtừng trường hp  
và chnh sa li PageRank cho phù hp.  
Để thun tiện, ta định nghĩa mô hình người duyt web ngu nhiên:  
Quá trình tính toán PageRank có thể được xem như hành động ca mt  
người đang duyệt Web ngu nhiên. Ta tưởng tượng rng có một người dùng  
duyt Web bằng cách đi theo các liên kết trên các trang Web mà hviếng thăm  
mt cách ngu nhiên. Cách duyt ngẫu nhiên này tương đương với vic di  
chuyn ngu nhiên trên một đồ thị có hướng. Nó thhin rng vector  
PageRank tlvi phân phi xác sut dng ca mt quá trình ngu nhiên. Nó  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 9  
Trn Hưng Nghip  
Khóa lun tt nghip  
có thhiu là một xích Markov, trong đó những trng thái là nhng trang web,  
những bước biến đổi trng thái là nhng liên kết gia các trang web. PageRank  
ca mt trang Web chính là xác suất để một người ngu nhiên duyt trang Web  
đó [BP+1998].  
Bây gita xét từng trường hp:  
Trường hp 1  
Trên thc tế có nhiu trang Web không có liên kết đi ra. Các trang Web này  
có thlà các trang chcha mt bc nh, mt file pdf, mt bng dliệu… hay  
có thlà mt trang mà các trang liên kết của nó chưa được kéo v. Các trang  
độc lập như vậy được gọi là các “dangling nodes” hay “dangling links”  
[BP+1998]. Những “dangling node” nhận hng trang ththng các trang web  
nhưng không trả hng trang li cho hthng. Vì vy tng hng trang ca hệ  
thng btiêu hao. Vector hng trang   tính được trong trường hp này skhông  
phản ánh đúng hạng trang. Để gii quyết trường hợp này, ta xét khi người  
duyt web ngu nhiên gặp “dangling node”, người đó sẽ chn mt trang bt kì  
để tiếp tục. Như vậy ta coi như “dangling node” có liên kết đến tt ccác trang  
web khác [Aus2006]. Ta schnh sa P bng cách thay ct ng với “dangling  
 
node” bằng ct gm toàn các phn tcó giá trị . Để đơn giản tính toán, ta có  
 
thsdng ma trn:  
          
(4)  
Vi   là ma trn vuông cp  , các phn tcó giá trbng không ngoi trừ  
 
các phn tnm trên các ct ng với các “dangling node” scó giá trbng .  
 
Trường hp 2  
Ta có hai trường hp nh: Có nhng nhóm các trang web chcó liên kết  
đến nhau mà không có liên kết ra ngoài nhóm, cũng không có liên kết vào  
 
nhóm tbên ngoài. Chui vector hng trang   trong trường hp này skhông  
hi t[Aus2006]. Cũng có những nhóm các trang web khác chcó liên kết đến  
nhau mà không có liên kết ra ngoài nhóm, trong khi đó vẫn có liên kết vào  
trong nhóm. Các nhóm trang này to thành mt by vòng lp các liên kết ni  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 10  
Trn Hưng Nghip  
Khóa lun tt nghip  
bộ và được gọi là “rank sink” [BP+1998] [Aus2006]. “Rank sink” nhận chia sẻ  
hng ththống nhưng không cung cấp hng cho hthng (bi vì chúng  
không có liên kết ra ngoài), vì vy sau mt số bước lp tính toán, hng trang sẽ  
được tập trung vào “rank sink” và làm giảm PageRank ca phn còn li ca hệ  
thống. Để gii quyết trường hợp này, ta xét khi người duyt web ngu nhiên có  
thgp một “rank sink”, hay người đó có thể chán và ngưng không tiếp tc  
duyt nữa. Khi đó ta coi như người đó sẽ bắt đầu duyt li vi mt trang bt kì.  
Xác suất để người đó tiếp tc duyt là mt hs  gi là hssuy gim. Hsố  
  ng vi trriêng thhai ca ma trn k, tha          . Hs  nh  
hưởng [HK2003] [HK+2003] đến độ chính xác ca PageRank và tốc độ hi tụ  
 
ca chui   . Nhiu nghiên cu khác nhau [BP1998] [Aus2006] đã thử nghim  
nhiu giá trca  . Tuy nhiên hu hết đều cho rng   scó giá trquanh     .  
Lúc này ta thay ma trn   bng ma trn:  
 
 
                      
(5)  
Vi   là ma trn vuông cp  ,   được gi là ngun hng trang [BP+1998].  
 
Trường hp tng quát, các phn tca   thường có giá tr. Ta có thviết:  
 
 
        
(6)  
 
Vi   là ma trn vuông cp   gm toàn phn tcó giá trbng mt.  
Lưu ý rằng,   là mt ma trn ngu nhiên thhin xác sut một người sẽ  
chn ngẫu nhiên trang nào để tiếp tc duyt mi sau khi chán vic duyt theo  
liên kết đi ra. Vì vậy   có thể được sdụng để cá nhân hóa hng trang, chnh  
sa hng trang theo chủ đề… [BP+1998] [HK+2003].  
Sau khi gii quyết hai trường hp trên ta có thviết li ma trn k  là:  
 
 
    
    
                    
(7)  
(8)  
 
Và phương trình tính vector PageRank sẽ được viết li thành:  
          
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 11  
Trn Hưng Nghip  
Khóa lun tt nghip  
Vic tính PageRank thc tế tương tự như PageRank đơn giản, ta cũng áp  
dụng phương pháp lũy thừa với phương trình:  
 
 
    
    
 
 
 
 
 
                                
(9)  
 
Trli dạng đại sca công thc tính PageRank, ta có giá trPageRank ca  
trang web   là:  
 
    
 
    
 
    
(10)  
    
 
 
 
 
Qua công thc trên ta thy, PageRank ca mt trang web phn lớn được dn  
xut tcác trang liên kết đến nó, hssuy gim   sẽ điều chnh PageRank dn  
xut này gim xung.  
Trong bài viết đầu tiên vPageRank, Page và cng sự đã đưa ra công thức  
tính PageRank như sau, và hơi gây khó hiểu:  
 
 
              
 
(11)  
    
 
 
 
Skhác bit gia hai công thc (3) và (4) là công thức đầu, tng các giá  
trPageRank bng mt. công thc sau, giá trPageRank ca mi trang bị  
nhân   và do đó tổng các giá trPageRank bng  . Page và cng stha nhn  
tng các giá trPageRank mà hsdng bng mt [BP1998]. Tuy nhiên hai  
công thức trên có ý nghĩa tương đương nhau.  
c) Nhn xét vPageRank  
Thut toán PageRank khai thác li thế ca cu trúc siêu liên kết ca các  
trang web. PageRank là mt ví dụ điển hình vthut toán phân tích liên kết xếp  
hng dạng “eigenvector centrality measure”. Nó là biu din toán hc ca mô  
hình người duyt web ngu nhiên, do đó có thdựa trên PageRank để đánh giá  
trang web một cách khách quan và đáp ứng nhu cu của người dùng tìm kiếm.  
Có mt svấn đề cn gii quyết để hin thc mt máy tìm kiếm hiu quả  
trong thc tế. Đó là vấn đề gian ln liên kết hay “spam link”, và việc kết hp  
gia hng PageRank và mức độ phù hp vi truy vn của người dùng. Google  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 12  
Trn Hưng Nghip  
Khóa lun tt nghip  
Search cho thy họ đã làm khá tốt điều này trong những năm qua và đã rất  
thành công.  
Trước khi PageRank ra đời đã có một snghiên cứu theo hướng phân tích  
liên kết mà hu hết là trong lĩnh vực phân tích trích dẫn các văn bản khoa hc.  
Tuy nhiên, văn bản khoa hc có mt skhác bit quan trng:  
Ni dung văn bản khoa hc được kim duyt, thường có cu trúc hay  
bán cu trúc.  
Vic trích dẫn thường là có ý nghĩa, ít khi được thc hin mt cách gian  
lận để qua mt hthng xếp hng.  
Để áp dng thut toán PageRank cho vic xếp hng, ta cần định nghĩa một  
đồ thị các đối tượng có liên kết đến nhau. Xét trường hp xếp hng các bài báo  
khoa hc, ta xây dựng đồ thtrích dn bài báo khoa học. Đồ thị này có các đỉnh  
là các bài báo khoa hc, mi cnh biu thcho mt trích dn tbài báo này ti  
bài báo khác. Sau khi đã có đồ thị này, ta tính toán PageRank hoàn toàn tương  
tự như khi làm với đồ thweb. Khác với đồ thweb chcác cạnh trong đthị  
trích dn hu hết đều đáng tin cậy.  
Tuy nhiên, PageRank có nhược điểm là đồ thmà nó sdng chcó mt  
loại đối tượng và mt loi cnh. Trong thc tế, các bài báo khoa hc phải được  
đánh giá trong một tng thbao gm nhiều đối tượng khác như tác giả, hi  
nghkhoa hc, tbáo khoa học… vì vậy có nhiu mi liên hphải xét đến hơn  
là chcó liên htrích dn, khi đó áp dng PageRank skhông tht shiu qu.  
Sau này có nhiu thuật toán được đề xuất theo hướng tính đến nhiu loại đối  
tượng và nhiu loi cạnh trong đồ th, ni bt trong số đó là thut toán  
PopRank.  
2.3.3 PopRank  
a) Gii thiu thut toán PopRank  
Như đã nói ở trên, mô hình PageRank ban đầu được xây dựng để xếp hng  
các trang web, đây là dạng xếp hng mc tài liu, vi chmt loi liên kết  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 13  
Trn Hưng Nghip  
 
Khóa lun tt nghip  
duy nht. PageRank không hp lệ để xếp hạng các đối tượng nm trong các tài  
liu, vì các đối tượng này có nhiu loi mi quan hệ khác nhau. Xét trường hp  
xếp hạng đối tượng bài báo khoa hc, mt bài báo có thể được trích dn bi  
mt số bài báo khác, được viết bi mt stác giả, được xut bn trong mt tờ  
báo khoa hc hay mt hi nghị nào đó. Như vậy, trường hp này có ba loi liên  
kết: “được trích dn bởi” ký hiệu   , “được viết bởi” ký hiu   , “được xut  
 
 
bn bởi” ký hiu   . Hình sau minh ha các loi liên kết này [NZ+2005]:  
 
Hình 2.3 – Các loại liên kết với bài báo khoa học.  
Thuật toán PopRank được xây dng nhm khc phục các điểm yếu ca  
PageRank để xếp hạng các đối tượng hiu quả hơn. Thuật toán PopRank được  
phát trin bi Nie và các cng sti phòng nghiên cu Châu Á ca Microsoft.  
Nó được sdụng đầu tiên cho mục đích xếp hng các bài báo khoa hc trong  
dán Libra, tuy nhiên nó có thsdụng để xếp hng nhiều đối tượng khác  
nhau như hình ảnh, bn nhc, bộ phim… [NZ+2005]  
PopRank là mt thut toán phân tích liên kết độc lập lĩnh vực cấp độ đối  
tượng. Nó quan tâm ti nhiu loi liên kết khác nhau bng cách gán tự động  
các hstruyn khác nhau cho mi loi liên kết. Vic gán các hsố này được  
thc hin nháp dng thut toán simulated annealingvi mt tp mu là các  
đối tượng đã được xếp hng sn bởi các chuyên gia trong lĩnh vực. Để gim  
thiu thi gian hc các hs, chmt phần các đối tượng được sdng trong  
quá trình hc. Nhng vấn đề này sẽ được trình bày chi tiết phn tiếp theo.  
b) Định nghĩa  
a. Mô hình PopRank  
Ta xét một mô hình các đối tượng thuc nhiu loi khác nhau nm trên  
nhiều trang web. Người dùng các thể đi đến một đối tượng nào đó thông qua  
Th.S Hunh Ngc Tín  
T.S Lương Phúc Hiệp  
Trang 14  
Trn Hưng Nghip  
 

Tải về để xem bản đầy đủ

pdf 167 trang yennguyen 09/01/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_danh_gia_nang_luc_nghien_cuu_cua_ca_nhan_to_chuc_d.pdf