Đề tài Xây dựng và làm giàu dữ liệu chỉ mục với Web Crawler

Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
MỤC LỤC  
Th.s Hunh Ngc Tín  
Đỗ Văn Tiến Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Th.s Hunh Ngc Tín  
Đỗ Văn Tiến Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Th.s Hunh Ngc Tín  
Đỗ Văn Tiến Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
DANH MC HÌNH NH  
Hình 2.1- Kiến trúc Web Crawler (Wikipedia) .............................................7  
Hình 2.2 Lung xlý quá trình Crawling (trích tài liu [6]).....................7  
Hình 2.3- Ví dcu trúc ca file BibteX (ngun Wikipedia) ......................11  
Hình 2.4- Hthng xây dựng cơ sdliu DBLP .....................................17  
Hình 2.5 - Hthng Complete Search.........................................................18  
Hình 2.6 - Hthng FacetedDBLP .............................................................19  
Hình 2.7 - Duyt bài báo trong FacetedDBLP............................................19  
Hình 2.8 - Chương trình DBL Brower.........................................................20  
Hình 2.9 Kiến trúc LFDL .........................................................................22  
Hình 2.10 – Đặc tả cho thư vin sACM portal (Trích tài liu [16])........24  
Hình 2.11 – Đặc tả cho thư vin sCogprints (Trích tài liu [16]) ...........24  
Hình 2.12 Ví dni dung Citations ca cùng 1 tài liu...........................26  
Hình 2.13 – Thư viện sACM .....................................................................27  
Hình 2.14 – Thư viện sCiteSeer................................................................28  
Hình 2.15 – Thư viện sIEEEXplore..........................................................29  
Hình 3.1 – Các bước thu thp trên ACM ....................................................30  
Hình 3.2 – Các bước thu thp trên IEEEXplore .........................................34  
Hình 3.3 Kết qutìm kiếm từ thư viện sIEEEXplore.............................36  
Hình 3.4 – Các bước thu thập trên thư vin sCiteSeer.............................38  
Hình 3.5 - Cu trúc file XML ca dliu trvtCiteSeer ......................39  
Hình 3.6 Ví dcu trúc ca BibTex dng Article ....................................41  
Hình 3.7 - Xlý dliu trùng lp ...............................................................42  
Th.s Hunh Ngc Tín  
Đỗ Văn Tiến Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Hình 3.8- Các lung xlý chính của chương trình.....................................44  
Hình 3.9 Lung xlý thu thp thông tin Metadata..................................45  
Hình 3.10- Lung xlý rút trích thông tin Metadata..................................46  
Hình 3.11 Lung xlý kết quthu thập được ..........................................47  
Hình 3.12 Lung xlý quản lý cơ sdliu hthng ............................48  
Hình 4.1 Kiến trúc hthng .....................................................................49  
Hình 4.2 Mô hình dliu ca DBLP........................................................51  
Hình 4.3 Mô hình dliu hthng...........................................................56  
Hình 4.4 - Kiến trúc phân tng ca hthng..............................................56  
Hình 4.5 Giao din chính ca hthng....................................................59  
Hình 4.6Kết quthu thp ththng ......................................................60  
Hình 4.7 Cài đặt tự động cp nht bài báo mi.......................................60  
Hình 4.8 Chức năng cp nht dliu DBLP ...........................................60  
Th.s Hunh Ngc Tín  
Đỗ Văn Tiến Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
DANH MC BNG  
Th.s Hunh Ngc Tín  
Đỗ Văn Tiến Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
CHƢƠNG 1: TNG QUAN  
1.1 Đặt vấn đề.  
Cùng vi sphát trin ca Internet, số lượng các bài báo khoa hc được công bố  
trên các Web ngày càng tăng, điều này gây ra mt số khó khăn khi người dùng  
mun tìm kiếm các bài báo vvấn đề mà mình nghiên cu, cũng như gây ra một  
thách thc ln đối vi các hthống đánh dấu, lưu trữ dliu chmc htrtìm  
kiếm trong việc đảm bo thông tin các bài báo được cp nht đẩy đủ, nhanh chóng  
và chính xác.  
Hiện nay khi người nghiên cu cn tìm kiếm mt bài báo khoa hc, thì hcó thể  
tìm kiếm trên các Search Engine như Google Scholar1, và mt số thư viện sphổ  
biến như: ACM2 (thư viện sca tchc “Association for Computing Machinery”),  
IEEEXplore3 (thư viện sca tchc “Institute of Electrical and Electronics  
Engineers”), thư viện mCiteSeer4 … hoặc từ cơ sở dliu chmc có sẵn như  
DBLP5. Vấn đề đặt ra ở đây là: đối vi mỗi thư viện sthì vic cp nht bài báo  
mi được thc hin ngay khi có các cuc hi tho hay tp chí mà tchc xut bn,  
nhưng thư viện skhông cp nhật ngay được nhng bài báo mi ttchc khác -  
hay việc trao đổi dliu giữa các thư viện sca các tchc khác nhau hin nay  
còn rt hn chế. Bên cạnh đó, nhng hthống đi đánh dấu, lưu trữ dliu chmc  
hiện nay như DBLP, hay hthống đi thu thp dliu chmc như ACI [3] của thư  
vin sCiteSeer chưa đảm bảo được tính cp nht các bài báo mi, vì các ngun ly  
dliu ca các hthng phthuc vào các thư viện s. Nhưng hiện nay, vic  
download tài liu từ thư viện sbgii hn, cũng như các thut toán sdụng để rút  
1 http://scholar.google.com.vn/  
2 http://portal.acm.org  
3 http://ieeexplore.ieee.org  
4 http://citeseerx.ist.psu.edu/  
5 http://dblp.uni-trier.de/  
Th.s Hunh Ngc Tín  
1
Đỗ Văn Tiến - Nguyễn Phước Cường  
   
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
trích thông tin chmc tcác tài liệu download được chưa đạt được độ chính xác  
cao.  
Xut phát tvấn đề trên cùng vi sự định hướng của giáo viên hướng dn,  
chúng tôi phát trin mt hthống dùng để xây dng tích hp làm giàu dliu chỉ  
mc các bài báo khoa hc, bng cách rút trích thông tin bài báo trc tiếp từ các thư  
vin s, kết hp vi vic sdng dliu chmc có sn, để xây dng lên dliu  
chmc các bài báo khoa hc đảm bo tính chính xác đầy đủ và cp nht.  
Hthng sdng Web Crawler để tìm kiếm và thu thp các bài báo khoa  
học được công bố trên các thư viện s(ACM, IEEEXplore, CiteSeer) sau đó sử  
dng các luật cũng như các trình phân tích để rút trích thông tin chmc - điều này  
đảm bo dliu thu thp có tính chính xác và cp nht. Tnhng thông tin chmc  
thu thập được, hthng skết hp vi dliu chmc có sn trong DBLP để xây  
dng lên một cơ sở dliu chmc các bài báo khoa hc đảm bảo tính đầy đủ,  
chính xác và cp nht.  
Vic xây dng dliu chmc các bài báo khoa hc là rt cn thiết, thông  
qua dliu chmc xây dng được, ta có thphát trin các công ctìm kiếm bài  
báo khoa hc đảm bo nhu cu tìm kiếm của người dùng.  
1.2 Mc tiêu và phm vi khóa lun.  
1.2.1 Mục tiêu khóa luận.  
- Mc tiêu ca khóa lun là hướng ti xây dng mt hthng thu thp dữ  
liu chmc các bài báo khoa học đảm bảo được tính chất đầy đủ, chính xác và cp  
nht ca dliu.  
- Xây dng mt hthng có khả năng tự động cp nht thông tin nhng bài  
báo mi nht từ các thư viện s.  
- Thông qua vic xây dng hthng, các thành viên trong nhóm svn dng  
nhng kiến thc ca mình đã được hc, cùng với đó trau di thêm các kỹ năng như:  
kỹ năng lp trình, kỹ năng làm việc nhóm …  
Th.s Hunh Ngc Tín  
2
Đỗ Văn Tiến - Nguyễn Phước Cường  
   
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
1.2.2 Phạm vi khóa luận.  
- Hthng sdụng Web Crawler để thu thp thông tin chmc các bài báo  
khoa hc trên ba thư viện sACM, CiteSeer, IEEEXplore.  
- Hthng kết hp dliu thu thập được vi dliu có sn ca DBLP, giúp  
thông tin thu thập được đảm bảo tính đầy đvà cp nht.  
1.3 Kết qudkiến.  
Có được cái nhìn tng quan về các phương pháp xây dựng dliu chmc  
các bài báo khoa hc hin nay và kiến thc cthvmt số ứng dng đã được xây  
dng, để htrcho vic xây dng hthng cho riêng mình.  
Xây dng thành công hthống lưu trữ dliu chmc các bài báo khoa hc  
bng cách sdng Web Crawler trên các thư viện s, đồng thi kết hp vi vic sử  
dng cơ sở dliu chmc có sn, để dliu chmc xây dng được đảm bo tính  
đầy đủ, chính xác và cp nht.  
1.4 Cu trúc khóa lun  
Chương 1 trình bày khái quát động cơ, mc tiêu và phm vi của đề tài.  
Chương 2 trình bày những nghiên cu và hthống liên quan đến vic xây  
dng dliu chmc các bài báo khoa hc. Mc 2.2 trình bày sơ lược vcác khái  
nim liên quan, Mc 2.3 trình bày các nghiên cu và các ng dng liên quan cùng  
vi phn khảo sát các thư viện smà hthng xây dng trong khóa lun có sử  
dng.  
Chương 3 trình bày cách tiếp cn vấn đề xây dng và làm giàu dliu chỉ  
mc các bài báo khoa hc sdng Web Crawler. Mc 3.2 trình bày phương pháp  
thu thp thông tin trên các thư viện s, Mc 3.3 trình bày cách thc phân tích dữ  
liệu để ly thông tin bài báo khoa hc. Cách kim tra trùng lp dliệu được trình  
bày ti Mc 3.4. Trong mc 3.5 sgii thiu các lung xlý chính ca hthng  
Chương 4 Trình bày vic hin thc hthng. Mc 4.2 trình bày kiến trúc hệ  
thng, Mc 4.3 trình bày thiết kế database, Mc 4.4 trình bày sơ đồ lp của chương  
trình. Trong Mc 4.5 gii thiu hthng mà khóa lun xây dựng được.  
Chương 5 trình bày các thnghiệm và đánh giá khi chạy hthng.  
Chương 6 đưa ra kết luận và hướng phát trin hthng trong tương lai.  
Phn phlc gii thiệu cách cài đặt hthống và hướng dn sdụng chương  
trình và các chủ đề trong lĩnh vực khoa học máy tính được tham kho tWikipedia.  
Th.s Hunh Ngc Tín  
3
Đỗ Văn Tiến - Nguyễn Phước Cường  
     
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
CHƢƠNG 2: CÁC NGHIÊN CU VÀ HTHNG LIÊN QUAN  
2.1 Mở đầu.  
Trong chương 2, chúng tôi sẽ trình bày mt snghiên cu và ng dng liên  
quan đến vấn đề thu thp, rút trích và xây dng dliu chmc các bài báo khoa  
hc. Phần đầu chúng tôi sgii thiu tng quát vmt skhái nim trong vấn đề  
thu thp, rút trích dliu, phn sau chúng tôi sgii thiu chi tiết vmt snghiên  
cu, ng dng liên quan và những thư viện scó sdng trong hthng.  
2.2 Mt skhái niệm cơ bản.  
2.2.1 Trích xuất thông tin (IE) và truy vấn thông tin (IR)  
Trích xut thông tin (Information Extraction6)  
Theo tài liu [19], trích xut thông tin có nhiu định nghĩa được dùng phbiến  
trên Internet:  
Theo (Jim Cowie and Yorick Wilks) [11]: IE là tên được đặt cho quá trình  
cu trúc và kết hp mt cách có chn lc dliệu được tìm thấy, được phát  
biu rõ ràng trong mt hay nhiu tài liệu văn bản.  
Theo Line Eikvil [13]: IE là lĩnh vực nghiên cu hp ca xlý ngôn ngtự  
nhiên và xut phát tviệc xác định nhng thông tin cthtmt tài liu  
ngôn ngtnhiên. Mục đích của trích xut thông tin là chuyển văn bản về  
dng có cấu trúc. Thông tin được trích xut tnhng ngun tài liu khác  
nhau và được biu diễn dưới mt hình thc thng nht. Nhng hthng trích  
xuất thông tin văn bản không nhm mc tiêu hiểu văn bản đưa vào, mà  
nhim vchính ca nó là tìm kiếm các thông tin cn thiết liên quan, mà  
chúng ta mong muốn được tìm thy.  
Cũng theo Line Eikvil [13], thành phn ct lõi ca các hthng trích xut  
thông tin là mt tp hp các lut và mẫu dùng để xác định nhng thông tin  
liên quan cn trích xut.  
6 http://en.wikipedia.org/wiki/Information_extraction  
Th.s Hunh Ngc Tín  
4
Đỗ Văn Tiến - Nguyễn Phước Cường  
       
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Theo Tiến sĩ Alexander Yates ở trường đại hc Washington [1] thì trích xut  
thông tin là quá trình truy vn nhng thông tin cu trúc tnhững văn bn  
không cu trúc.  
Theo nhng chuyên gia vtrích xut thông tin ca GATE7 thì nhng hệ  
thng trích xut thông tin stiến hành phân tích văn bản nhm trích ra nhng  
thông tin cn thiết theo các dạng được định nghĩa trước, chng hạn như  
nhng skin, các thc thvà các mi quan h.  
Tóm li, chúng ta có thhiu trích xut thông tin (Information Extraction) là  
mt kthuật, lĩnh vực nghiên cứu có liên quan đến truy vn thông tin (Information  
Retrieval), khai thác dliệu (Data mining), cũng như xử lý ngôn ngtnhiên  
(Natural Language Processing). Mc tiêu chính ca trích xut thông tin là tìm ra  
nhng thông tin cu trúc từ văn bản không cấu trúc hoăc bán cấu trúc. Trích xut  
thông tin stìm cách chuyển thông tin trong văn bản không hay bán cu trúc về  
dng có cu trúc và có thbiu din hay thhin chúng mt cách hình thức dưới  
dng mt tp tin cu trúc XML hay mt bng cấu trúc (như bảng trong cơ sở dliu  
chng hn).  
Mt khi dliu, thông tin tcác ngun khác nhau, tInternet có thbiu din  
mt cách hình thc, có cu trúc. Từ đó chúng ta có thể sdng các kthut phân  
tích, khai thác dliệu (data mining) để khám phá ra các mu thông tin hu ích.  
Chng hn, vic cu trúc li các mu tin qung cáo, mu tin bán hàng trên internet  
có thgiúp htrợ tư vấn, định hướng người dùng khi mua sm. Vic trích xut và  
cu trúc li các mẫu tin tìm người, tìm vic sgiúp cho quá trình phân tích thông tin  
nghnghiệp, xu hướng công việc, … hỗ trợ cho các người tìm việc, cũng như nhà  
tuyn dng.  
Rút trích thông tin không đòi hỏi hthng phải đọc hiu ni dung ca tài liu  
văn bản, nhưng hệ thng phi có khả năng phân tích tài liệu và tìm kiếm các thông  
tin liên quan mà hthng mong muốn được tìm thy. Các kthut rút trích thông  
7 http://gate.ac.uk/ie/  
Th.s Hunh Ngc Tín  
5
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
tin có tháp dng cho bt ktp tài liu nào mà chúng ta cn rút ra nhng thông tin  
chính yếu, cn thiết cũng như các sự kin liên quan. Các kho dliệu văn bản vmt  
lĩnh vực trên Internet là ví dụ điển hình, thông tin trên đó có thể tn ti nhiều nơi  
khác nhau, dưới nhiều định dng khác nhau. Srt hu ích cho các kho sát, ng  
dụng liên quan đến một lĩnh vực nếu như những thông tin lĩnh vực liên quan được  
rút trích và tích hp li thành mt hình thc thng nht và biu din mt cách có  
cấu trúc. Khi đó thông tin trên Internet sẽ được chuyn vào một cơ sở dliu có cu  
trúc phc vcho các ng phân tích và khai thác khác nhau.  
Truy vn thông tin (Information Retrieval8)  
Theo [19], trích xut thông tin là tìm ra các thông tin cu trúc, thông tin cn thiết  
tmt tài liu, trong khi truy vn thông tin là tìm ra các tài liu liên quan, hoc mt  
phn tài liu liên quan tkho dliu cc bộ như thư viện shoc tInternet để  
phn hồi cho người dùng tùy vào mt truy vn cth.  
Truy vấn văn bản thông minh hướng ti tối ưu hay tìm kiếm các phương pháp  
nhm cho kết quphn hi tốt hơn, gần đúng hoặc đúng với nhu cầu người dùng.  
Chng hn tùy vào mt truy vn của người dùng, hthng có thtìm ra nhng  
thành phần nào đó trong tài liệu phù hp vi câu truy vn (chng hn mt đoạn, mt  
câu trong tài liệu), thông minh hơn hệ thng có thtrli chính xác thông tin tcâu  
truy vn hay câu hi của người dùng.  
2.2.2 Web Crawler.  
9
Theo định nghĩa trên Wikipedia , thì Web Crawler - Web Spider hay Web  
robot là mt chương trình hoặc các đoạn mã có khả năng tự động duyt các trang  
Web khác theo mt phương thức tự động. Web Crawler thường được sdụng để  
thu thp tài nguyên (như tin tc, hình nh, video ) trên Internet.  
Quá trình thc hin ca Web Crawler là Web Crawling hay Web Spidering.  
Hu hết các công ctìm kiếm online hiện nay đều sdụng quá trình này để thu thp  
và cp nhp kho dliu phc vnhu cu tìm kiếm ca ngưi dùng.  
8 http://en.wikipedia.org/wiki/Information_retrieval  
9 http://en.wikipedia.org/wiki/Webcrawler  
Th.s Hunh Ngc Tín  
6
Đỗ Văn Tiến - Nguyễn Phước Cường  
 
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Hình 2.1- Kiến trúc Web Crawler (Wikipedia)  
Web Crawler bắt đầu từ danh sách các địa chỉ URL được gi là ht ging  
(seeds), seeds được người dùng nhp vào - đây là những địa chWeb mà người  
dùng mun thu thp thông tin. Hthng svào địa chnày, lc thông tin ri tìm ra  
các địa chURL khác (da vào nhng liên kết có bên trong các seeds). Sau đó thêm  
chúng vào danh sách các địa chỉ đã được duyt qua gi là Crawl frontier. Hthng  
slp lại quá trình trước đó để duyt qua nhng URL mi. Quá trình Crawling sẽ  
qua rt nhiều địa chWebsite và thu thp rt nhiu ni dung khác nhau từ địa chỉ  
thu thập đươc.  
Hình 2.2 Lung xlý quá trình Crawling (trích tài liu [6])  
Th.s Hunh Ngc Tín  
7
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Trong hthng ca chúng tôi, Web Crawler được sdụng để thu thp các  
đường dn cha các bài báo phù hp vi nội dung đang thu thp từ các thư viện s.  
Tnhững địa chthu thập được hthng srút trích thông tin chmc ca bài báo  
bng cách sdng các trình phân tích kết hp vi lut đã được định nghĩa trước.  
2.2.3 Metadata.  
Khái nim Metadata  
Theo [19], Metadata (siêu dliệu) dùng để mô ttài nguyên thông tin. Thut  
ngữ “meta” xuất xlà mt tHy Lạp đùng để chmột cái gì đó có bản chất cơ bản  
hơn hoặc cao hơn. Một định nghĩa chung nhất và được dùng phbiến trong cng  
đồng những người làm công nghthông tin: “Metadata là dliu vdliệu khác”  
(Metadata is data about other data) hay có thnói ngn gn là dliu vdliu.  
Trong các phm vi cth, những chuyên gia đưa ra các quan điểm khác nhau  
vMetadata:  
- Theo Chris.Taylor giám đốc dch vtruy cp thông tin thư viện thuộc trường  
đại hc Queensland10 thì Metadata là dliu có cấu trúc được dùng để mô tả  
những đặc điểm ca tài nguyên. Mt mu tin Metadata bao gm mt số  
lượng nhng phn tử được định nghĩa trước gi là elements dùng mô tả đặc  
tính, thông tin tài nguyên. Mi elements có thcó 1 hay nhiu giá tr.  
- Theo tiến sĩ Warwick Cathro thuộc thư viện quc gia Australia11 thì mt  
phn tMetadata hay còn gi là Metadata elements mô ttài nguyên thông  
tin, hay htrtruy cập đến mt tài nguyên thông tin.  
Tóm li, ta có thhiu Metadata là thông tin dùng để mô ttài nguyên thông  
tin.  
Chun Dublin Core Metadata  
Dublin Core Metadata12 là mt chun Metadata được nhiều người biết đến và  
được dùng rng rãi trong cộng đồng các nhà nghiên cu, chuyên gia về thư viện s.  
10 http://www.library.uq.edu.au/iad/ctmeta4.html  
11 http://www.nla.gov.au/nla/staffpaper/cathro3.html  
12 http://dublincore.org/  
Th.s Hunh Ngc Tín  
8
Đỗ Văn Tiến - Nguyễn Phước Cường  
 
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Dublin Core Metadata lần đầu tiên được đề xuất năm 1995 bởi Dublin Core  
Metadata Element Initiative. Dublin là tên một địa danh Dublin, Ohio Mỹ nơi đã  
tchc hi thảo OCLC/NCSA Metadata Workshop năm 1995. Core có nghĩa là  
mt danh sách các thành phn ct lõi dùng mô ttài nguyên (Element metadata),  
nhng thành phn này có thmrng thêm.  
Theo [20], tháng 9/2001 byếu tsiêu dliu Dublin Core Metadata được  
ban hành thành tiêu chun M, gi là tiêu chuẩn “The Dublin Core Metadata  
Element Set” ANSI/NISO Z39.85-2001.  
Dublin Core Metadata bao gm 15 yếu tố cơ bản (theo tài liu [20]), được  
mô tchi tiết trong bng 2.1.  
STT  
Yếu tố  
Title  
Mô tả  
1
2
Nhan đề hay tiêu đề ca tài liu  
Creator  
Tác gica tài liu, bao gm ctác gicá nhân và tác giả  
tp thể  
3
Subject  
Chủ đề tài liệu đcập dùng để phân loi tài liu. Có ththể  
hin bng t, cm t/(Khung chủ đề), hoc chsphân  
loi/ (Khung phân loi).  
4
5
6
Description  
Publisher  
Tóm tt, mô tni dung tài liu. Có thbao gm tóm tt,  
chú thích, mc lục, đoạn văn bản để làm rõ ni dung  
Nhà xut bản, nơi ban hành tài liệu có thlà tên cá nhân,  
tên cơ quan, tổ chc, dch v...  
Contributor  
Tên những người cùng tham gia cộng tác đóng góp vào nội  
dung tài liu, có thlà cá nhân, tchc..  
7
8
Date  
Type  
Ngày, tháng ban hành tài liu.  
Mô tbn cht ca tài liu. Dùng các thut ngmô tphm  
trù kiu: trang ch, bài báo, báo cáo, từ điển...  
Mô tstrình bày vt lý ca tài liu, có thbao gm; vt  
mang tin, kích cỡ độ dài, kiu dliu (.doc, .html, .jpg, xls,  
phn mm....)  
9
Format  
Th.s Hunh Ngc Tín  
9
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
10  
Identifier  
Các thông tin về định danh tài liu, các ngun tham chiếu  
đến, hoc chui ký tự để định vtài nguyên: URL (Uniform  
Resource Locators) (bắt đầu bng http://), URN (Uniform  
Resource Name), ISBN (International Standard Book  
Number), ISSN (International Standard Serial Number),  
SICI (Serial Item & Contribution Identifier), ...  
Các thông tin vxut xca tài liu, tham chiếu đến ngun  
mà tài liu hin mô tả được trích ra/to ra, nguồn cũng có  
thể là: đưng dn (URL), URN, ISBN, ISSN...  
11  
Source  
12  
13  
14  
Language  
Relation  
Coverage  
Các thông tin vngôn ng, mô tngôn ngchính ca tài  
liu  
Mô tả các thông tin liên quan đến tài liu khác. Có thdùng  
đường dn (URL), URN, ISBN, ISSN...  
Các thông tin liên quan đến phm vi, quy mô hoc mức độ  
bao quát ca tài liu. Phạm vi đó có thể là địa điểm, không  
gian hoc thi gian, tọa độ...  
15  
Rights  
Các thông tin liên quan đến bn quyn ca tài liu  
Bảng 2.1 - Các yếu tố cơ bản của chuẩn Dublin Core Metadata  
Trong hthng ca chúng tôi, nhng thông tin Metadata sau được rút ra từ  
tài liu (hay được gi là nhng thông tin chmc ca bài báo):  
- Creator (Author): thông tin tên ca các tác gitài liu.  
- Title: tựa đề tài liu.  
- Description (Abstract): tóm tt ni dung ca tài liu.  
- Publisher: nơi công bố, xut bn tài liu.  
- Source (DOI): nơi download tài liệu hoặc địa chcha thông tin bài báo.  
- Date (Year): năm công bố, xut bn tài liu.  
2.2.4 Bibtex.  
BibTeX13 là một định dạng văn bản thô (text) cho các danh sách tài liu tham  
kho là sách, bài tp chí khoa hc, luận án, … do Oren Patashnik và Leslie Lamport  
13 http://en.wikipedia.org/wiki/BibTeX  
Th.s Hunh Ngc Tín  
10  
Đỗ Văn Tiến - Nguyễn Phước Cường  
   
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
đề xut ra năm 1985. BibTeX cho phép tchc các thông tin vngun tài liu (biu  
ghi tài liu) tham kho một cách đồng bổn định (trích tài liu [21]).  
@INPROCEEDINGS {author:06,  
title  
= {Some publication title},  
author = {First Author and Second Author},  
crossref = {conference:06},  
pages  
= {330331},  
}
@PROCEEDINGS {conference:06,  
editor  
title  
= {First Editor and Second Editor},  
= {Proceedings of the Xth Conference  
on XYZ},  
booktitle = {Proceedings of the Xth Conference  
on XYZ},  
year  
moth  
= {2006},  
=oct,  
}
Hình 2.3- Ví dcu trúc ca file BibteX (ngun Wikipedia)  
Các tập tin BibTeX thường có đuôi .bib, cu trúc ca một file bibtex như sau:  
- Từ khóa xác định loi tài liu bao gồm: @article, @book, @thesis, …  
- Ni dung ca một trường trong file Bibtex được ghi trong hai dấu {…}.  
- Các ni dung mô tbiu ghi là nhng cp [tkhóa mô tả = “ni dung mô  
tả”], được tách nhau bi dấu “,”.  
Vì file Bibtex cha thông tin ca tài liệu (như bài báo, luận văn, …) do đó đối  
vi mi tài liu thì BibTex có kiểu lưu cấu trúc khác nhau nhn biết file BibTex này  
đang chứa ni dung ca tài liu nào.  
Sau đây là các dạng file Bibtex ca các loi tài liu khác nhau (bng 2.2), trong  
đó bao gồm các trường thông tin (field) yêu cu mà file Bibtex đó bắt buc phải lưu  
tr, ngoài ra có thcó thêm nhng trường bsung:  
Kiu tài liu  
Gii thích  
Các trường yêu cu có Các trường có thể  
(Entry Types)  
(Required fields)  
thêm (Optional  
fields)  
article  
book  
Mt bài báo tmt author, title, journal,  
volume, number,  
pages, month, note,  
key  
volume, series,  
address, edition,  
month, note, key  
tp chí.  
year  
Cun sách tmt  
nhà xut bn.  
author/editor, title,  
publisher, year  
Th.s Hunh Ngc Tín  
11  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
booklet  
Mt n phẩm đã  
title  
author,  
được in ấn nhưng  
không có nhà xut  
bản hay cơ quan tài  
tr.  
owpublished,  
address, month,  
year, note, key  
inbook  
Mt phn ca cun author/editor, title,  
sách nhưng không chapter/pages,  
có tựa đề, có thlà publisher, year  
một chương.  
volume, series,  
address, edition,  
month, note, key  
incollection  
Mt phn ca cun author, title, booktitle, editor, pages,  
sách có tiêu đề  
year  
organization,  
riêng ca mình.  
publisher, address,  
month, note, key  
inproceedings Bài báo trong kỷ  
yếu ca hi ngh.  
author, title, booktitle, editor, series, pages,  
year  
organization,  
publisher, address,  
month, note, key  
conference  
manual  
Giống như  
author, title, booktitle, editor, pages,  
inproceedings, bao year  
gm thông tin  
organization,  
publisher, address,  
month, note, key  
author,  
Scribe14  
Tài liu kthut.  
title  
organization,  
address, edition,  
month, year, note,  
key  
mastersthesis  
misc  
Luận văn thạc sĩ  
author, title, school,  
year  
address, month,  
note, key  
Sdng khi tài liu none  
không xác định  
được loi.  
author, title,  
howpublished,  
month, year, note,  
key  
phdthesis  
Luận văn tiến sĩ  
author, title, school,  
year  
address, month,  
note, key  
proceedings  
Kyếu ca hi  
nghị  
title, year  
editor, ublisher,  
organization,  
address, month,  
note, key  
14 http://en.wikipedia.org/wiki/Scribe  
Th.s Hunh Ngc Tín  
12  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
techreport  
Một báo cáo được  
author, title,  
institution, year  
type, number,  
ddress, month, note,  
key  
xut bn bi mt  
trường hc, hay cơ  
quan khác, thông  
thường được xut  
bn theo s.  
unpublished  
Mt tài liu cha  
tựa đề và tên tác  
gi, nhưng chưa  
xut bn.  
author, title, note  
month, year, key  
Bảng 2.2 - Những kiểu file Bibtex (được tham khảo từ Wikipedia)  
Trên các thư viện sACM và IEEEXplore và CiteSeer, thông tin bài báo khoa  
học được xut ra các file Bibtex, hthng sphân tích nội dung trong đường dn trả  
về sau khi Crawl trên thư viện số để ly file Bibtex, sau đó dùng trình phân tích file  
Bibtex để rút trích thông tin Metadata ca bài báo. Trong phần 3.3 chương 3, chúng  
tôi strình bày chi tiết vcách thc sdụng trình phân tích file Bibtex để ly thông  
tin chmc các bài báo.  
2.3 Các nghiên cu và ng dng liên quan.  
2.3.1 Các nghiên cứu liên quan.  
Xây dng dliu chmc các bài báo khoa hc hay vic rút trích thông tin  
Metadata ca bài báo khoa hc là mt phn nghiên cứu trong lĩnh vực trích xut  
thông tin (Information Extraction). Theo kho sát được gii thiu trong các bài báo  
[4][10] cũng như tìm hiu ca nhóm, hin nay trong lĩnh vực trích xut thông tin từ  
bài báo khoa hc để xây dng dliu chmc thì có mt sngun dliu thu thp  
và phương pháp tiếp cn mà từ đó có thể xây dng dliu như sau:  
Ngun dliu thu thp.  
- Xây dng dliu chmc các bài báo từ các file đề mc (tables of contents  
TOCs) ca các kyếu hi tho, tp chí như hệ thng DBLP đã làm [14]. File  
TOCs chứa danh sách các bài báo được trình bày trong các hi nghị, cũng như danh  
Th.s Hunh Ngc Tín  
13  
Đỗ Văn Tiến - Nguyễn Phước Cường  
     
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
sách các bài viết được đăng trong các lần xut bn ca các tp chí. Các hthng sử  
dng các trình phân tích để thu thp thông tin chmc các bài báo có trong file  
TOCs từ đó xây dng lên cơ sở dliu chmc.  
Như vậy: đối với các cơ sở chmc có ngun dliu thu thp tcác file  
TOCs thì chúng ta thy: ngun dliu này phthuc vào khả năng thu thp nhng  
file TOCs tcác hi ngh, tp chí. Hin nay, vi số lượng các cuc hi nghị cũng  
như các tp chí vkhoa học máy tính ngày càng tăng, cùng với đó là vấn đề vbn  
quyn thì vic thu thập đầy đủ các file TOCs ca tt ccác hi ngh, tp chí là rt  
khó khăn. Từ đó dữ liu thu thập được cũng khó đảm bo được tính đầy đủ.  
- Rút trích tthông tin bài báo ttài liệu dưi dạng file điện t(sdng các  
file postscript hoc file PDF), như các hthống được gii thiu trong các bài báo  
[3][15]. Bng vic phân tích nội dung các bài báo dưới dạng file điện tthông qua  
vic sdng các lut, các thut toán, kết hp sdng máy hc, các hthng sthu  
được các thông tin chmc tni dung ca các bài báo.  
Như vậy: vi ngun dliu từ các bài báo dưới dạng file điện tthì các  
hthng này đã tận dụng được ngun dliu có sn trong ni dung các bài báo.  
Nhưng việc sdng các lut, các thuật toán cũng như máy học trong vic trích xut  
thông tin chmc chưa đạt được độ chính xác cao và vn là một lĩnh vực đang  
nghiên cu trong data mining, cùng với đó là những khó khăn trong việc thu thp  
tài liệu điện tử dưới dạng file điện thin nay bgii hn trong vic download, do  
đó tính đúng đắn, đầy đủ ca dliu thu thập chưa được đảm bo.  
- Xây dng dliu chmc bng cách rút trích thông tin bài báo khoa hc  
được công btrên Internet. Nhng thông tin chmc ca bài báo có thtn ti trên  
các trang Website chia stài liu, trên trang Website cá nhân ca tác gi, hay thông  
tin chmc có sẵn trên các thư viện s. Các hthng sdng các Search Engine  
hoc Web Crawler tìm kiếm các bài báo trên Website sau đó sdng các lut, các  
thut toán để rút ra thông tin bài báo như các hệ thống được gii thiu trong các bài  
báo [5][17][20].  
Th.s Hunh Ngc Tín  
14  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Vi ngun dliu tcác bài báo được công btrên Internet, thì các hệ  
thống đã tận dụng được ngun dliu khng l. Nhưng các ứng dụng đã được xây  
dng chưa tận dụng được nhng dliu chmc có sn.  
Phƣơng pháp tiếp cn rút trích thông tin chmc.  
Theo [19], thì rút trích thông tin chmc bài báo (hay rút trích thông tin  
Metadata) là lĩnh vực nghiên cu thu hp thuộc lĩnh vực rút trích thông tin. Hu hết  
các phương pháp rút trích Metadata hin nay có thchia làm 2 cách tiếp cn chính  
đó là: các phương pháp dựa trên học máy và phương pháp dựa trên lut kết hp vi  
sdng các từ điển, Ontologies.  
Phương pháp rút trích thông tin da trên hc máy (Machine Learning).  
Bng cách hc ttp hun luyn (quan sát các đặc trưng của tp dliệu đã  
được xác định bi chuyên gia), hthng sphân tích ni dung dliu mà người  
dùng đưa vào (thường là dng text), để rút ra thông tin Metadata ca tài liu.  
Theo [8], nhng phương pháp học máy để rút trích Metadata điển hình có thkể  
đến như: lập trình logic, mô hình Markov n (Hidden Markov Models), Support  
Vector Machince, và các phương pháp học thng kê khác. Trong [8], nhóm tác giả  
đã dùng SVM để rút trích metadata tcác bài báo khoa hc. Quá trình rút trích ca  
hgm hai bước: bước thnht họ dùng SVM để phân lp các dòng (lines) thuc  
phn heading ca các tài liu (tphn gii thiu trở lên); bước thhai hrút trích  
Metadata từ các dòng đã phân lớp trong bước thnht dùng các lut du câu, ký tự  
viết hoa kết hp vi các từ điển.  
Phương pháp rút trích thông tin dựa vào lut.  
Các luật được các chuyên gia có kinh nghiệm đặt ra trước (ví dda vào từ  
khóa, font chữ để xác định vùng đặc bit cha dliu). Da vào các lut, hthng  
srút ra thông tin Metadata ở vùng tương ứng.  
Trong tài liu [12], nhóm tác giả đã đề xut một phương pháp rút trích cấu  
trúc logic (tiêu đề, các tác giả, các đề mục, các định nghĩa, định lý, …) từ các bài  
báo trong lĩnh vực toán hc. Từ đó họ xây dng đã xây dựng mt trình duyt giúp  
người dùng có thdễ dàng đọc các bài báo toán hc. Thut toán học đề xut gm 2  
Th.s Hunh Ngc Tín  
15  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
bước: thnhất xác định những vùng đặc bit trong tài liu (số trang, đề mc, phn  
footnote cuối trang, tiêu đề ca các bng biu và hình nh) dùng các tkhóa, kiu  
dáng font ch, khong cách không gian trình bày trong tài liệu; sau đó thông tin chi  
tiết sẽ được xác định tcác vùng này da vào kiu dáng, vtrí và trình bày ca tng  
vùng.  
Như vậy: Mi cách tiếp cận đều có những ưu, nhược điểm riêng. Đối vi các  
phương pháp máy học thì chúng ta cn phi tn nhiu thi gian cho vic chn mu,  
gán nhãn và để có kết qutt cn rt nhiu dliu hc. Bên cạnh đó các phương  
pháp da trên lut hay mu thì đơn giản và ddàng thc hiện hơn, nhưng để có kết  
qutốt cũng tốn rt nhiu công sc cho vic khảo sát, định nghĩa luật ca chuyên  
gia. Các luật cũng cần phải thay đổi khi xut hin các loi dliu mi mà nhng  
lut hin có không thgii quyết được. Thông thường đối vi tng bài toán cthể  
người ta sẽ đưa ra một cách tiếp cận và phương pháp giải quyết vấn đề tương ứng  
phù hp với bài toán đặt ra.  
2.3.2 Các ứng dụng liên quan  
Trong phn này, chúng tôi strình bày mt shthng dliu chmục đã  
tn ti, các hthng sdng mt trong các ngun dliu và phương pháp rút trích  
được gii thiu phn 2.3.1. Cùng với đó chúng tôi sẽ trình bày kho sát về các thư  
vin smà hthng xây dng trong khóa lun sdựa trên đó để ly thông tin chỉ  
mc các bài báo.  
2.3.2.1 Digital Bibliography & Library Project (DBLP).  
DBLP là một cơ sở dliu cung cp thông tin vchmc các bài báo trong  
lĩnh vực khoa hc máy tính, hthống được phát trin bởi trường đại hc Universität  
Trier của Đức. Theo công btrên trang Website chính ca DBLP, thì tính đến tháng  
1/2011 DBLP cha thông tin chmc ca 1,5 triệu bài báo trong lĩnh vực khoa hc  
máy tính được thu thp từ các thư viện s, các hi nghvà các tp chí. Dliu ca  
DBLP được xut ra các dạng CDF, XML và SQL, người phát trin có thdownload  
các file này ttrên Website ca hthng.  
Th.s Hunh Ngc Tín  
16  
Đỗ Văn Tiến - Nguyễn Phước Cường  
   
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
DBLP được xây dng lên da vào vic phân tích và rút trích thông tin tcác  
file đề mc mc lc (TOCs). Các file TOCs được tác giả sưu tầm tcác hi ngh,  
tp chí.  
List Name of  
Authors  
Author  
Page  
In DBLP  
xmosaic  
Parser  
xhHTML  
Parser  
TOCs  
TOC - OUT  
Author Page  
Hình 2.4- Hthng xây dựng cơ sở dliu DBLP  
Các file TOCs được nhp vào bi tác gi, hthng ssdụng các đoạn  
script và các parser để phân tích và rút trích thông tin các bài báo. Đồng thi vi  
vic sdng các dliu có sn ca hthng như danh sách tên của tác gi, thông  
tin các bài báo đã có, hthng sxây dng lên trang thông tin ca tác gi(Author  
Page). Author Page cha thông tin vtác giả cũng như thông tin về các bài báo mà  
tác giviết hoặc đồng tác gi, hình 2.4 là kiến trúc hthng ca DBLP.  
Hin nay, có mt số ứng dụng được xây dng trên ngun dliu ca DBLP,  
các ng dng này cung cp chức năng cho phép người dùng tìm kiếm bài báo, như  
các hthng: Complete Search DBLP, Faceted search và DBL Browser.  
Th.s Hunh Ngc Tín  
17  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
CompleteSearch DBLP15.  
Đây là hệ thng cho phép người dùng tìm kiếm thông tin bài báo trên dliu  
ca DBLP, cách thc thi hthống được gii thiu trong [7]. Bài báo trong hthng  
có thể được tìm kiếm theo các trường thông tin sau:  
+Tìm kiếm theo tkhóa xut hin trong bài báo.  
+Tìm kiếm theo tên tác gi.  
+Tìm kiếm theo tên tchc công bbài báo.  
+Tìm kiếm theo năm xuất bn ca bài báo.  
Hình 2.5 - Hthng Complete Search  
15 http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php  
Th.s Hunh Ngc Tín  
18  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Faceted Search16.  
Đây là hthng tìm kiếm bài báo trên dliu ca DBLP được gii thiu  
trong [9], hthng cho phép ngưi dùng tìm kiếm thông tin bài báo da trên các  
trường sau:  
+Tìm kiếm da vào thông tin Metadata bài báo.  
+Tìm kiếm theo tên tác gi.  
+Tìm kiếm theo nơi công bố bài báo.  
Hình 2.6 - Hthng FacetedDBLP  
Ngoài ra hthng FaceTedDBLP còn cho phép người dùng duyt tài liu,  
bài báo trong DBLP theo danh sách da trên tên tác gi, tên hi ngh, tên tp chí  
hay từ khóa mà người dùng tìm kiếm nhiu nht trong hthng.  
Hình 2.7 - Duyt bài báo trong FacetedDBLP  
16 http://dblp.l3s.de/?q=&newQuery=yes&resTableName=query_resultmQ9GIx  
Th.s Hunh Ngc Tín  
19  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
DBL Browser  
DBL Browser, là chương trình sử dụng để tìm kiếm bài báo trên dliu  
DBLP mà không cn kết ni Internet (dliu của DBLP được ti vmáy cc b).  
Chương trình cho phép hin ththông tin ca bài báo mt cách trc quan.  
Hình 2.8 - Chương trình DBL Brower  
Như vậy: dliu chmc DBLP được thu thp bng cách rút trích thông  
tin chmc tnhng file TOCs ca kyếu hi ngh, tạp chí được các tchc gi về  
hoc tác giả DBLP sưu tầm được. Vấn đề đặt ra ở đây là việc lấy được các file  
TOCs tcác hi nghsẽ khó đảm bo thông tin thu thập được sẽ đầy đủ và cp nht  
nhất đối vi các bài báo, để chng minh cho điều này chúng tôi tiến hành kho sát  
bng cách tìm kiếm các bài báo trên các thư viện svi tkhóa là chủ đề trong lĩnh  
vc khoa học máy tính, sau đó kim tra tính tn ti ca thông tin bài báo trong  
DBLP.  
Th.s Hunh Ngc Tín  
20  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Trong bng 2.3 là kết quả được tính trung bình của 100 bài báo đầu tiên trên  
ba thư viện sACM, Citeseer, IEEEXplore sau khi tìm kiếm vi 2 tkhóa  
“Database” và “Data mining”.  
Tkhóa tìm  
kiếm  
Phần trăm dữ  
liu không tn  
Phần trăm Dữ  
liệu trước năm  
Phần trăm dữ liu trong  
năm 2010 không tồn ti  
trong DBLP  
ti trong DBLP 2010 không tn  
(%)  
ti trong DBLP  
(%)  
(%)  
Database  
28,33  
43,67  
86,26  
10,71  
14,51  
Data mining  
77,45  
Bảng 2.3 - Khảo sát tính cập nhật dữ liệu của DBLP  
Trong đó kết quả đưc tính theo công thc sau:  
+ Phần trăm dữ liu không tn ti trong DBLP: được tính bng scác bài  
báo trong 100 bài báo tn tại trên thư viện s(ACM, IEEEXplore, CiteSeer) nhưng  
không có trong DBLP.  
+ Phần trăm dữ liệu trước năm 2010 không tồn ti trong DBLP: được tính  
bng sbài báo trong 100 bài báo thu thập trên thư viện số có năm xuất bản trước  
năm 2010 tồn tại trong thư viện s(ACM, IEEEXplore, CiteSeer) nhưng không có  
trong DBLP.  
+ Phần trăm dữ liệu trong năm 2010 không tồn tại trong DBLP: được tính  
bng sbài báo trong 100 bài báo thu thập trên thư viện số có năm xuất bn trong  
năm 2010 không có trong DBLP.  
Da vào bng 2.3 ta thy dliu của DBLP chưa đảm bảo được tính đầy đủ  
và cp nht dliu mi mt cách nhanh chóng.  
Mặt khác như khảo sát trên, phn ln các hthng phát trin trên ngun dữ  
liu ca DBLP là sdng dliu chmc ca DBLP chứ chưa có hệ thống nào đưa  
ra phương pháp bổ sung dliu còn thiếu cho DBLP ngoài cách cp nht dliu  
ca tác giDBLP.  
Th.s Hunh Ngc Tín  
21  
Đỗ Văn Tiến - Nguyễn Phước Cường  
 
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
2.3.2.2 Lightweight Federated Digital Library (LFDL)  
Đây là một hthng tìm kiếm và thu thp dliu chmc các bài báo khoa  
hc từ thư viện s. Hthống được gii thiu trong bài báo [16], tác gibài báo chỉ  
ra rng hin nay thông tin các bài báo trong các thư viện số đều không tuân theo  
mt chuẩn lưu trữ thông tin Metadata nhất định, mà mỗi thư viện số có cách lưu  
khác nhau, từ đó tác giả đề xut cách xây dng mt hthống có khà năng tổng hp  
thông tin từ các thư viện sthành mt khi dliu có cu trúc đồng nht. Trong  
hình 2.9 gii thiu kiến trúc ca hthng LFDL (Lightweight Federated Digital  
Library), ng vi mỗi thư viện shthng sẽ có các đặc tđưa ra các luật để rút  
thông tin Metadata khác nhau (các lut này có cu trúc XML), nhng thông tin rút  
được từ các thư viện ssẽ được lưu xuống Database.  
Hình 2.9 Kiến trúc LFDL  
Các lung dliệu và tương tác giữa các thành phn ca hthng LFDL như  
sau:  
- Đầu tiên khi khi to, hthng sẽ đọc tt cả các đặc t(như ở hình 2.10,  
2.11) của thư viện s(DL 1, DL 2, DL 3) bao gm: lut liên kết truy vn và  
Th.s Hunh Ngc Tín  
22  
Đỗ Văn Tiến - Nguyễn Phước Cường  
 
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
lut rút trích Metadata (phn rules Engine trên hình 2.9). Các đặc tả ở đây  
được hthng rút ra trên thư viện sthông qua quá trình phân tích cu trúc  
hin thị thông tin bài báo cho người dùng (phân tích ni dung HTML hin thị  
kết qutìm kiếm cho người dùng).  
- Khi người dùng tương tác với hthng và yêu cu tìm kiếm thông tin bài báo  
(yêu cầu được gi thông qua Seach Interface), hthng sdng bxlý  
trung tâm để tối ưu câu tìm kiếm sau đó chuyn sang công ctìm kiếm.  
- Công ctìm kiếm sdựa vào các đặc tả đầu vào (phn phân tích ở trên) đồng  
thi sdng các lut liên kết to câu truy vấn. Sau đó gửi câu truy vn lên  
thư viện số để ly kết quphù hp v.  
- Sau khi nhn kết qutrvtừ thư viện shthng sxử lý để rút ra thông  
tin Metadata ca bài báo da vào các lut trong phần đặc tả tương ứng mi  
thư viện s(phn data Processing Layer trong kiến trúc hình 2.9). Thông tin  
Metadata đã rút ra sẽ được lưu vào cơ sở dliu (Local Repositiry) máy  
cc b.  
- Để hin ththông tin bài báo thu thập được cho người dùng, hthống còn lưu  
thông tin bài báo dưới dng XML (file results.xml). Khi cn hin th, hệ  
thng ssdng bxlý XSLT17 để chuyn ni dung XML sang HTML  
hoc XHTML.  
Đây là một hthng thu thp dliu chmc các bài báo từ các thư viện số  
bng cách phân tích nội dung trong thư viện skết hp vi vic sdng các luật để  
rút trích thông tin. Theo thông tin ca tác giả được công btrong [16], hin hệ  
thng mi thu thập được tựa đề (title) và đường dn (hyperlink) ca bài báo trong  
các thư viện sACM, NEEDS, NACA, COGPRINTS, CSTC, LTRS, và WCR. Hệ  
thng LFDL mi chỉ được gii thiu trong nội dung bài báo, chưa có ứng dng chy  
trc tuyến (online) cùng với đó hệ thng chưa tận dụng được nhng cơ sở dliu  
chmc có sn, cũng như thông tin chỉ mc ca các bài báo có sẵn trên thư viện s,  
để dliu chmc thu thập được đảm bảo tính đầy đủ và chính xác.  
17 http://en.wikipedia.org/wiki/XSLT  
Th.s Hunh Ngc Tín  
23  
Đỗ Văn Tiến - Nguyễn Phước Cường  
Đại Hc Công NghThông Tin  
Khoa Công NghPhn Mm  
Hình 2.10 – Đặc tả cho thư vin sACM portal (Trích tài liu [16])  
Hình 2.11 – Đặc tả cho thư viện sCogprints (Trích tài liu [16])  
Th.s Hunh Ngc Tín  
24  
Đỗ Văn Tiến - Nguyễn Phước Cường  

Tải về để xem bản đầy đủ

pdf 88 trang yennguyen 07/01/2025 160
Bạn đang xem 30 trang mẫu của tài liệu "Đề tài Xây dựng và làm giàu dữ liệu chỉ mục với Web Crawler", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfde_tai_xay_dung_va_lam_giau_du_lieu_chi_muc_voi_web_crawler.pdf