Khóa luận Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác:
Cơ quan công tác:
Sinh viên thực hiện:
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
ĐẠI HỌC ARKANSAS, HOA KỲ
TRẦN HƯNG NGHIỆP
07520245
MSSV:
Lớp:
HTTT02
Khóa:
2007 – 2012
Tp. HCM, tháng 12 năm 2011
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác:
Cơ quan công tác:
Sinh viên thực hiện:
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
ĐẠI HỌC ARKANSAS, HOA KỲ
TRẦN HƯNG NGHIỆP
07520245
MSSV:
Lớp:
HTTT02
Khóa:
2007 – 2012
Tp. HCM, tháng 12 năm 2011
MỞ ĐẦU
Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài
báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa
học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững
của khoa học với tinh thần “đứng trên vai những người khổng lồ”.
Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện
việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù
hợp với các tiêu chí nhất định.
Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội
dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó
xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá
nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm
việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây
dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng
dụng các chỉ số này phục vụ người dùng ở Việt Nam.
LỜI CẢM ƠN
Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín
và thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dẫn,
góp ý, động viên em rất nhiều trong quá trình làm luận văn. Qua đó, em đã thật
sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức.
Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức
và những kinh nghiệm quý báu cho em suốt những năm học vừa qua.
Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin
đã tạo điều kiện cho em thực hiện đề tài này.
Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình
thực hiện đề tài này.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận
lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất.
Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không
tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy
cô.
Tp. Hồ Chí Minh, tháng 12 năm 2011
Sinh viên thực hiện
Trần Hưng Nghiệp
NHẬN XÉT
(Của giảng viên hướng dẫn)
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
NHẬN XÉT
(Của giảng viên phản biện)
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
NHẬN XÉT
(Của hội đồng)
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
MỤC LỤC
MỞ ĐẦU ......................................................................................................i
LỜI CẢM ƠN............................................................................................... ii
MỤC LỤC ....................................................................................................vi
1.1 Đánh giá hiện trạng...............................................................................1
1.2 Phát biểu bài toán..................................................................................2
1.3 Mục tiêu đề tài .......................................................................................3
1.4 Cấu trúc báo cáo....................................................................................3
2.1 Giới thiệu................................................................................................4
2.2 Web crawler...........................................................................................4
Giới thiệu.........................................................................................5
2.5 Các hệ thống liên quan........................................................................33
3.1 Mở đầu..................................................................................................56
3.5 Cách tiếp cận của đề tài ......................................................................60
4.1 Mở đầu..................................................................................................62
Cài đặt............................................................................................82
Kết quả...........................................................................................86
Cài đặt............................................................................................96
Cài đặt..........................................................................................104
5.1 Mở đầu................................................................................................110
Cài đặt..........................................................................................122
5.5 Kiểm tra dữ liệu.................................................................................125
Cài đặt..........................................................................................131
5.7 Đánh giá kết quả................................................................................131
DANH MỤC CÁC BẢNG
Bảng 2.2 – Thông tin chi tiết ACM................................................................. 36
Bảng 2.4 – Thông tin chi tiết về MAS............................................................. 43
Bảng 4.10 – Cấu hình phần cứng 1 ................................................................. 98
Bảng 4.11 – Cấu hình phần cứng 2 ................................................................. 99
ứng. .............................................................................................. 111
Khóa luận tốt nghiệp
CHƯƠNG 1:
TỔNG QUAN VỀ ĐỀ TÀI
1.1 Đánh giá hiện trạng
Theo một nghiên cứu của tác giả Arif Jinha [Jin2010], tổng số lượng bài
báo khoa học đã xuất bản trên thế giới trong tất cả các lĩnh vực đến thời điểm
đầu năm 2010 là vào khoảng hơn 50 triệu, và ước lượng hiện nay vào tháng 12
năm 2011 là vào khoảng 54 triệu. Số lượng bài báo khoa học đang ngày càng
tăng, và tốc độ tăng cũng ngày càng nhanh. Vào năm 2008, có khoảng 1434352
bài báo khoa học được xuất bản, con số này vào năm 2009 là 1477383 bài. Tỉ
lệ tăng hằng năm số lượng công trình nghiên cứu trên toàn thế giới vào khoảng
3%. Scopus1, một cơ sở dữ liệu chứa các bài báo khoa học trên mọi lĩnh vực,
cho biết mình có khoảng 46 triệu chỉ mục (7/2011). ISI - Web of Knowledge2,
một cơ sở dữ liệu khác, chứa khoảng 49,4 triệu bài báo khoa học (2011).
Microsoft Academic Research (MAS)3 chứa khoảng 36,7 triệu bài báo khoa
học với hơn 18,8 triệu tác giả (12/2011).
Trước sự tăng trưởng đáng kể về số lượng, việc lưu trữ và hỗ trợ tìm kiếm
bài báo khoa học trở thành một nhu cầu thiết yếu. Nhiều thư viện điện tử đã
được phát triển để phục vụ nhu cầu này. Một số thư viện lớn thương mại hóa có
thể kể đến như Institute of Electrical and Electronics Engineers (IEEE)4,
Association for Computing Machinery (ACM)5, SpringerLink6… Những thư
viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar7,
1 http://www.scopus.com/home.url
2 http://wokinfo.com/realfacts/qualityandquantity
3 http://academic.research.microsoft.com
4 http://ieeexplore.ieee.org
5 http://dl.acm.org
6 http://www.springerlink.com
7 http://scholar.google.com
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 1
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
CiteSeer8… Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng
như các tính năng và sự hiệu quả khi sử dụng.
Sự đa dạng của các thư viện điện tử cung cấp nhiều khả năng lựa chọn cho
người dùng. Tuy nhiên, khi có quá nhiều lựa chọn, người dùng có thể bối rối và
khó đưa ra quyết định [Sch2003]. Quyết định lựa chọn thư viện điện tử nào
quan trọng vì nó ảnh hưởng đến thói quen làm việc của người dùng, cũng như
chất lượng công việc của họ. Việc sử dụng nhiều thư viện điện tử một lúc có
thể là một ý kiến hay, tuy nhiên nó sẽ khiến người dùng phải lặp lại các thao
tác với kết quả phần lớn giống nhau, và phải tự tổng hợp các kết quả này. Sự
lựa chọn còn có ý nghĩa kinh tế khi người dùng sử dụng các thư viện có trả phí.
1.2 Phát biểu bài toán
Sự lựa chọn thư viện điện tử nào phù hợp nhất phải dựa trên cơ sở so sánh
về nội dung và tính năng của chúng, một hệ thống thư viện điện tử muốn được
đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm
người dùng nhất định. Mục đích của đề tài là thiết kế các tính năng cho một hệ
thống thư viện điện tử phục vụ người dùng Việt Nam.
Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác
nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp hạng. Vì
vậy, việc lựa chọn hay cao hơn là xây dựng, hiệu chỉnh các chỉ số xếp hạng này
là một vấn đề hay và vẫn đang được quan tâm nghiên cứu.
Ở đề tài này chúng tôi sẽ khảo sát các hệ thống có sẵn này ở khía cạnh nội
dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng. Sau đó
chúng tôi sẽ thu thập một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ
thông tin, đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số xếp
hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử
nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở
8 http://citeseerx.ist.psu.edu
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 2
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực
tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở
Việt Nam.
1.3 Mục tiêu đề tài
Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập
và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin.
Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp
hạng. Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc
trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam.
Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các
tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh.
1.4 Cấu trúc báo cáo
Cấu trúc báo cáo được mô tả theo trình tự sau. Ở chương I, chúng tôi giới
thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài. Chương II,
chúng tôi khảo sát các nghiên cứu liên quan. Chương III nêu cách tiếp cận của
đề tài. Chương IV, chúng tôi trình bày về các chương trình được hiện thực và
đề xuất xây dựng hệ thống thư viện điện tử. Chương V sẽ trình bày một case
study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công
nghệ thông tin ở Tp. Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến.
Phần kết luận và một số hướng phát triển được trình bày trong chương V.
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 3
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
CHƯƠNG 2:
CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN
2.1 Giới thiệu
Trên thế giới hiện nay có khá nhiều thư viện điện tử phục vụ người dùng.
Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ
số xếp hạng và các phương pháp xếp hạng. Các chỉ số này có thể là thô sơ như
số lượng các bài báo của một tác giả, số trích dẫn của một bài báo. Nó cũng có
thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các
số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá
tổng hợp. Các phương pháp xếp hạng phổ biến có thể kể đến như PageRank,
PopRank. Chương này tiến hành khảo sát đánh giá các phương pháp xếp hạng
và các chỉ số từ đơn giản đến phức tạp. Chương này cũng sẽ khảo sát một số
thư viện điện tử cụ thể trên các khía cạnh nội dung, tính năng, công nghệ, nền
tảng thuật toán, tiêu chí xếp hạng tìm kiếm bài báo khoa học. Để phục vụ cho
việc xây dựng dữ liệu chỉ mục, web crawler cũng sẽ được giới thiệu.
2.2 Web crawler
Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant,
automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương
trình hoặc đoạn mã có khả năng tự động duyệt các trang Web theo một phương
thức tự động được cài đặt trước. Web Crawler thường được sử dụng để thu
thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cập
nhật [TC2011].
Quá trình thực hiện của Web Crawler là Web Crawling hay Web Spidering.
Hầu hết các công cụ tìm kiếm online hiện nay đều sử dụng quá trình này để thu
thập và cập nhập kho dữ liệu phục vụ nhu cầu tìm kiếm của người dùng. Web
Crawler bắt đầu từ danh sách các địa chỉ URL được cung cấp trước gọi là hạt
giống (seeds), đây là những địa chỉ Web mà người dùng muốn thu thập thông
tin. Hệ thống sẽ vào địa chỉ này, lọc thông tin rồi tìm ra các địa chỉ URL khác
theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong
các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 4
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
là Crawl frontier. Hệ thống sẽ lặp lại quá trình trước đó để duyệt qua những
URL mới. Quá trình Crawling trên internet có thể sẽ qua rất nhiều địa chỉ
Website và thu thập rất nhiều nội dung khác nhau từ các địa chỉ đó. Hình sau
mô tả kiến trúc của một web crawler chuẩn [WikiWC]:
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn.
Trong đề tài này, Web Crawler được xây dựng để thu thập dữ liệu các bài
báo từ thư viện số Microsoft Academic Search (MAS), sau đó xây dựng cơ sở
dữ liệu để xây dựng hệ thống thử nghiệm. Hệ thống crawler sẽ rút trích thông
tin chỉ mục của bài báo bằng cách sử dụng các trình phân tích kết hợp với các
luật đã được định nghĩa trước.
2.3 Các phương pháp xếp hạng phổ biến
2.3.1 Giới thiệu
Trong số các phương pháp xếp hạng dựa trên việc phân tích mạng thì nổi
tiếng nhất có lẽ là thuật toán PageRank của Google với ứng dụng trong máy
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 5
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
tìm kiếm Google Search. Chính PageRank đã giúp Google Search đánh bại các
đối thủ của nó trên thị trường tìm kiếm trên internet ngay khi mới ra đời và
giúp Google lớn mạnh như ngày nay. Sau này có một số thuật toán khác tương
tự PageRank được đề xuất và cũng khá thành công khi ứng dụng thực tế. Tuy
nhiên các thuật toán thuộc nhóm PageRank có một số nhược điểm nhất định
khi xếp hạng các đối tượng, sau này nhiều thuật toán khác đã ra đời để khắc
phục các điểm yếu này, nổi bật trong đó có PopRank. Phần này sẽ khảo sát hai
thuật toán là PageRank và PopRank.
2.3.2 PageRank
a) Giới thiệu thuật toán PageRank
PageRank là một phương pháp rất nổi tiếng để xếp hạng các đối tượng
trong một đồ thị các đối tượng liên kết với nhau. PageRank là một thuật toán
phân tích liên kết (link) được Lary Page và cộng sự phát triển tại trường đại
học Stanford (Mỹ) và được sử dụng lần đầu cho máy tìm kiếm Google để xếp
hạng các trang web. PageRank cũng có thể dùng để xếp hạng các đối tượng
khác như các bài báo khoa học (sẽ trình bày rõ hơn ở phần c) mục 2.2.1 này).
Một cách trực giác, chúng ta có thể thấy rằng trang chủ của Yahoo! thì quan
trọng hơn trang chủ của một cá nhân A nào đó. Điều này được phản ánh qua số
lượng các trang có liên kết đến trang chủ của Yahoo! nhiều hơn số trang có liên
kết tới trang chủ của cá nhân A. Do đó, ta có thể dùng số lượng các liên kết đến
một trang để tính độ quan trọng của trang đó. Tuy nhiên, cách này sẽ không
hoạt động tốt khi người ta có thể dễ dàng tạo ra các trang Web có liên kết đến
một trang Web nào đó và như vậy hạng của trang này sẽ trở nên cao hơn.
PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan
trọng của các trang Web liên kết đến trang Web mà ta đang xét. Phương pháp
này thừa nhận nếu có liên kết từ trang A tới trang B thì độ quan trọng của trang
A cũng ảnh hưởng tới độ quan trọng của trang B hay độ quan trọng của trang A
được san sẻ cho các trang mà nó liên kết tới. Theo đó, một trang có hạng cao
nếu tổng hạng của các liên kết tới nó cao [BP+1998].
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 6
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
Hình sau mô tả nguyên lý của thuật toán PageRank, các trang web “bỏ
phiếu” cho các trang khác thông qua các siêu liên kết [WikiPR].
Hình 2.2 – Mô phỏng nguyên lý PageRank.
b) Định nghĩa
a. PageRank đơn giản
Gọi là một đồ thị các trang Web. Đặt với là
tập đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn
là tập các cạnh, .
Để đơn giản hóa vấn đề, chúng ta giả thiết rằng đồ thị trang Web là liên thông,
nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác
trong đồ thị đó.
Cho một đồ thị trang Web như trên. Với mỗi trang Web , ký hiệu là
số liên kết đi ra từ trang Web thứ và là số các trang Web có liên kết đến
trang .
Khi đó hạng trang của trang Web được định nghĩa như sau:
∑
(1)
Hạng trang của một trang web là con số tương đối để so sánh độ quan
trọng của nó với các trang web khác. Tổng hạng trang của tất cả các trang
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 7
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
web trong đồ thị G bằng một. Với việc chia hạng của trang cho , ta phân
phối hạng của nó cho các trang mà nó chỉ tới, thông qua các link đi ra từ nó.
Phương trình trên có tính đệ quy, để thuận tiện cho việc tính toán
PageRank, phương trình này có thể được viết lại dưới dạng:
Với:
(2)
[ ]
là vector PageRank, với là hạng của trang web trong đồ
thị G.
[ ] là ma trận kề với giá trị các phần tử được xác định
như sau:
o nếu không có liên kết từ trang đến trang .
∑
o Và được chuẩn hóa để với mỗi thì
Trong đồ thị G đang xét, ta có thể chọn giá trị sau:
{
Lưu ý rằng ma trận P có các phần tử đều không âm và tổng các phần tử
thuộc cùng một cột của ma trận P bằng một, do đó P là một ma trận ngẫu nhiên.
Vì vậy, thuật toán PageRank cũng chính là một biến thể của phương pháp độ
đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng
phổ biến trong phân tích mạng. Phương trình trên cho thấy vector PageRank
chính là vector riêng của ma trận tương ứng với trị riêng [Aus2006].
Ta thấy phương trình trên có tính đệ quy, tuy nhiên nó có thể được tính với
vector hạng trang bất kì, và lặp lại cho đến khi hội tụ, Page và các cộng sự đã
chỉ ra việc hội tụ này là khá nhanh trong khoảng dưới 100 vòng lặp [BP+1998].
b. Tính toán vector PageRank đơn giản
Có nhiều phương pháp để tìm vector riêng của ma trận như phương pháp
lặp, phương pháp đại số, phương pháp lũy thừa… [WikiPR]. Tuy nhiên do kích
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 8
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
thước quá lớn của đồ thị web, ma trận cũng có kích thước rất lớn, hàng chục
tỉ dòng [Aus2006], vì vậy việc tính toán có thể rất khó khăn. Tuy nhiên, ta cũng
lưu ý rằng hầu hết các phần tử của ma trận P bằng không, vì mỗi trang web
trung bình thường chỉ liên kết đến 10 trang khác. Vì vậy ta chọn phương pháp
lũy thừa để tìm vector .
Phương pháp lũy thừa
Ta bắt đầu bằng việc chọn vector là ứng viên cho vector hạng trang ,
sau đó ta tạo ra chuỗi vector với:
(3)
Chuỗi vector sẽ hội tụ về vector riêng .
Thuật toán tính theo phương pháp lũy thừa
1. Chọn vector .
2. .
‖
‖
3. Nếu , dừng lại, là vector riêng cần tính.
4. Nếu không, , quay lại bước 2.
c. PageRank trong thực tế
PageRank đơn giản không thể dùng trong đồ thị web thực tế, vì khi đó
chuỗi vector có thể không hội tụ, có thể phụ thuộc vào , và có thể
không phản ánh được hạng trang web thực tế. Ta sẽ xét cụ thể từng trường hợp
và chỉnh sửa lại PageRank cho phù hợp.
Để thuận tiện, ta định nghĩa mô hình người duyệt web ngẫu nhiên:
Quá trình tính toán PageRank có thể được xem như hành động của một
người đang duyệt Web ngẫu nhiên. Ta tưởng tượng rằng có một người dùng
duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm
một cách ngẫu nhiên. Cách duyệt ngẫu nhiên này tương đương với việc di
chuyển ngẫu nhiên trên một đồ thị có hướng. Nó thể hiện rằng vector
PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên. Nó
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 9
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
có thể hiểu là một xích Markov, trong đó những trạng thái là những trang web,
những bước biến đổi trạng thái là những liên kết giữa các trang web. PageRank
của một trang Web chính là xác suất để một người ngẫu nhiên duyệt trang Web
đó [BP+1998].
Bây giờ ta xét từng trường hợp:
Trường hợp 1
Trên thực tế có nhiều trang Web không có liên kết đi ra. Các trang Web này
có thể là các trang chỉ chứa một bức ảnh, một file pdf, một bảng dữ liệu… hay
có thể là một trang mà các trang liên kết của nó chưa được kéo về. Các trang
độc lập như vậy được gọi là các “dangling nodes” hay “dangling links”
[BP+1998]. Những “dangling node” nhận hạng trang từ hệ thống các trang web
nhưng không trả hạng trang lại cho hệ thống. Vì vậy tổng hạng trang của hệ
thống bị tiêu hao. Vector hạng trang tính được trong trường hợp này sẽ không
phản ánh đúng hạng trang. Để giải quyết trường hợp này, ta xét khi người
duyệt web ngẫu nhiên gặp “dangling node”, người đó sẽ chọn một trang bất kì
để tiếp tục. Như vậy ta coi như “dangling node” có liên kết đến tất cả các trang
web khác [Aus2006]. Ta sẽ chỉnh sửa P bằng cách thay cột ứng với “dangling
node” bằng cột gồm toàn các phần tử có giá trị . Để đơn giản tính toán, ta có
thể sử dụng ma trận:
(4)
Với là ma trận vuông cấp , các phần tử có giá trị bằng không ngoại trừ
các phần tử nằm trên các cột ứng với các “dangling node” sẽ có giá trị bằng .
Trường hợp 2
Ta có hai trường hợp nhỏ: Có những nhóm các trang web chỉ có liên kết
đến nhau mà không có liên kết ra ngoài nhóm, cũng không có liên kết vào
nhóm từ bên ngoài. Chuỗi vector hạng trang trong trường hợp này sẽ không
hội tụ [Aus2006]. Cũng có những nhóm các trang web khác chỉ có liên kết đến
nhau mà không có liên kết ra ngoài nhóm, trong khi đó vẫn có liên kết vào
trong nhóm. Các nhóm trang này tạo thành một bẫy vòng lặp các liên kết nội
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 10
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
bộ và được gọi là “rank sink” [BP+1998] [Aus2006]. “Rank sink” nhận chia sẻ
hạng từ hệ thống nhưng không cung cấp hạng cho hệ thống (bởi vì chúng
không có liên kết ra ngoài), vì vậy sau một số bước lặp tính toán, hạng trang sẽ
được tập trung vào “rank sink” và làm giảm PageRank của phần còn lại của hệ
thống. Để giải quyết trường hợp này, ta xét khi người duyệt web ngẫu nhiên có
thể gặp một “rank sink”, hay người đó có thể chán và ngưng không tiếp tục
duyệt nữa. Khi đó ta coi như người đó sẽ bắt đầu duyệt lại với một trang bất kì.
Xác suất để người đó tiếp tục duyệt là một hệ số gọi là hệ số suy giảm. Hệ số
ứng với trị riêng thứ hai của ma trận kề, thỏa . Hệ số có ảnh
hưởng [HK2003] [HK+2003] đến độ chính xác của PageRank và tốc độ hội tụ
của chuỗi . Nhiều nghiên cứu khác nhau [BP1998] [Aus2006] đã thử nghiệm
nhiều giá trị của . Tuy nhiên hầu hết đều cho rằng sẽ có giá trị quanh .
Lúc này ta thay ma trận bằng ma trận:
(5)
Với là ma trận vuông cấp , được gọi là nguồn hạng trang [BP+1998].
Trường hợp tổng quát, các phần tử của thường có giá trị . Ta có thể viết:
(6)
Với là ma trận vuông cấp gồm toàn phần tử có giá trị bằng một.
Lưu ý rằng, là một ma trận ngẫu nhiên thể hiện xác suất một người sẽ
chọn ngẫu nhiên trang nào để tiếp tục duyệt mới sau khi chán việc duyệt theo
liên kết đi ra. Vì vậy có thể được sử dụng để cá nhân hóa hạng trang, chỉnh
sửa hạng trang theo chủ đề… [BP+1998] [HK+2003].
Sau khi giải quyết hai trường hợp trên ta có thể viết lại ma trận kề là:
(7)
(8)
Và phương trình tính vector PageRank sẽ được viết lại thành:
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 11
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
Việc tính PageRank thực tế tương tự như PageRank đơn giản, ta cũng áp
dụng phương pháp lũy thừa với phương trình:
(9)
Trở lại dạng đại số của công thức tính PageRank, ta có giá trị PageRank của
trang web là:
∑
(10)
Qua công thức trên ta thấy, PageRank của một trang web phần lớn được dẫn
xuất từ các trang liên kết đến nó, hệ số suy giảm sẽ điều chỉnh PageRank dẫn
xuất này giảm xuống.
Trong bài viết đầu tiên về PageRank, Page và cộng sự đã đưa ra công thức
tính PageRank như sau, và hơi gây khó hiểu:
∑
(11)
Sự khác biệt giữa hai công thức (3) và (4) là ở công thức đầu, tổng các giá
trị PageRank bằng một. Ở công thức sau, giá trị PageRank của mỗi trang bị
nhân và do đó tổng các giá trị PageRank bằng . Page và cộng sự thừa nhận
tổng các giá trị PageRank mà họ sử dụng bằng một [BP1998]. Tuy nhiên hai
công thức trên có ý nghĩa tương đương nhau.
c) Nhận xét về PageRank
Thuật toán PageRank khai thác lợi thế của cấu trúc siêu liên kết của các
trang web. PageRank là một ví dụ điển hình về thuật toán phân tích liên kết xếp
hạng dạng “eigenvector centrality measure”. Nó là biểu diễn toán học của mô
hình người duyệt web ngẫu nhiên, do đó có thể dựa trên PageRank để đánh giá
trang web một cách khách quan và đáp ứng nhu cầu của người dùng tìm kiếm.
Có một số vấn đề cần giải quyết để hiện thực một máy tìm kiếm hiệu quả
trong thực tế. Đó là vấn đề gian lận liên kết hay “spam link”, và việc kết hợp
giữa hạng PageRank và mức độ phù hợp với truy vấn của người dùng. Google
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 12
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
Search cho thấy họ đã làm khá tốt điều này trong những năm qua và đã rất
thành công.
Trước khi PageRank ra đời đã có một số nghiên cứu theo hướng phân tích
liên kết mà hầu hết là trong lĩnh vực phân tích trích dẫn các văn bản khoa học.
Tuy nhiên, văn bản khoa học có một số khác biệt quan trọng:
Nội dung văn bản khoa học được kiểm duyệt, thường có cấu trúc hay
bán cấu trúc.
Việc trích dẫn thường là có ý nghĩa, ít khi được thực hiện một cách gian
lận để qua mặt hệ thống xếp hạng.
Để áp dụng thuật toán PageRank cho việc xếp hạng, ta cần định nghĩa một
đồ thị các đối tượng có liên kết đến nhau. Xét trường hợp xếp hạng các bài báo
khoa học, ta xây dựng đồ thị trích dẫn bài báo khoa học. Đồ thị này có các đỉnh
là các bài báo khoa học, mỗi cạnh biểu thị cho một trích dẫn từ bài báo này tới
bài báo khác. Sau khi đã có đồ thị này, ta tính toán PageRank hoàn toàn tương
tự như khi làm với đồ thị web. Khác với đồ thị web ở chỗ các cạnh trong đồ thị
trích dẫn hầu hết đều đáng tin cậy.
Tuy nhiên, PageRank có nhược điểm là đồ thị mà nó sử dụng chỉ có một
loại đối tượng và một loại cạnh. Trong thực tế, các bài báo khoa học phải được
đánh giá trong một tổng thể bao gồm nhiều đối tượng khác như tác giả, hội
nghị khoa học, tờ báo khoa học… vì vậy có nhiều mối liên hệ phải xét đến hơn
là chỉ có liên hệ trích dẫn, khi đó áp dụng PageRank sẽ không thật sự hiệu quả.
Sau này có nhiều thuật toán được đề xuất theo hướng tính đến nhiều loại đối
tượng và nhiều loại cạnh trong đồ thị, nổi bật trong số đó là thuật toán
PopRank.
2.3.3 PopRank
a) Giới thiệu thuật toán PopRank
Như đã nói ở trên, mô hình PageRank ban đầu được xây dựng để xếp hạng
các trang web, đây là dạng xếp hạng ở mức tài liệu, với chỉ một loại liên kết
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 13
Trần Hưng Nghiệp
Khóa luận tốt nghiệp
duy nhất. PageRank không hợp lệ để xếp hạng các đối tượng nằm trong các tài
liệu, vì các đối tượng này có nhiều loại mối quan hệ khác nhau. Xét trường hợp
xếp hạng đối tượng bài báo khoa học, một bài báo có thể được trích dẫn bởi
một số bài báo khác, được viết bởi một số tác giả, được xuất bản trong một tờ
báo khoa học hay một hội nghị nào đó. Như vậy, trường hợp này có ba loại liên
kết: “được trích dẫn bởi” ký hiệu , “được viết bởi” ký hiệu , “được xuất
bản bởi” ký hiệu . Hình sau minh họa các loại liên kết này [NZ+2005]:
Hình 2.3 – Các loại liên kết với bài báo khoa học.
Thuật toán PopRank được xây dựng nhằm khắc phục các điểm yếu của
PageRank để xếp hạng các đối tượng hiệu quả hơn. Thuật toán PopRank được
phát triển bởi Nie và các cộng sự tại phòng nghiên cứu Châu Á của Microsoft.
Nó được sử dụng đầu tiên cho mục đích xếp hạng các bài báo khoa học trong
dự án Libra, tuy nhiên nó có thể sử dụng để xếp hạng nhiều đối tượng khác
nhau như hình ảnh, bản nhạc, bộ phim… [NZ+2005]
PopRank là một thuật toán phân tích liên kết độc lập lĩnh vực ở cấp độ đối
tượng. Nó quan tâm tới nhiều loại liên kết khác nhau bằng cách gán tự động
các hệ số truyền khác nhau cho mỗi loại liên kết. Việc gán các hệ số này được
thực hiện nhờ áp dụng thuật toán “simulated annealing” với một tập mẫu là các
đối tượng đã được xếp hạng sẵn bởi các chuyên gia trong lĩnh vực. Để giảm
thiểu thời gian học các hệ số, chỉ một phần các đối tượng được sử dụng trong
quá trình học. Những vấn đề này sẽ được trình bày chi tiết ở phần tiếp theo.
b) Định nghĩa
a. Mô hình PopRank
Ta xét một mô hình các đối tượng thuộc nhiều loại khác nhau nằm trên
nhiều trang web. Người dùng các thể đi đến một đối tượng nào đó thông qua
Th.S Huỳnh Ngọc Tín
T.S Lương Phúc Hiệp
Trang 14
Trần Hưng Nghiệp
Tải về để xem bản đầy đủ
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- khoa_luan_danh_gia_nang_luc_nghien_cuu_cua_ca_nhan_to_chuc_d.pdf