Đề tài Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp thông tin trong thư viện số

Đề tài: Xây dựng một số công cụ hổ trợ  
tra cứu và tổng hợp thông tin  
trong thư viện số  
CHƯƠNG 1  
TNG QUAN  
1.1. Thư vin số  
Thư vin slà thư vin phc vthông tin đin t( được shóa) - được đọc  
vi strgiúp ca máy vi tính. Thông tin đin tcó thể được cha trong nhng Tư  
liu đin tnm trong và ngoài thư vin. Tư liu đin tbao gm:  
CD-ROM và băng t- CD-ROM thường cha nhng CSDL chuyên ngành,  
được phc vriêng lhay trên mng máy tính.  
Tp chí đin t- n hành trên mng Internet. Thư vin có thể đặt mua như  
tp chí in và sẽ được cp quyn login vào để truy cp.  
Cơ sdliu trc tuyến - có rt nhiu trên mng Internet do nhng trường  
đại hc, nhng cơ sthông tin, và nhng công ty tư nhân như LEXIX-  
NEXIX, DIALOG, vv... - Cũng như tp chí đin t, thư vin có thể đặt mua  
quyn sdng.  
Tài liu khác trên Internet - tài liu trong nhng web site ca nhng cơ sở  
chính quyn, trường đại hc, công ty, hi đoàn, vv... Vic truy cp thường là  
min phí.  
Thông tin đin tử đôi khi còn bao gm tư liu được shóa, tp hp dưới hình  
thc Thư vin s. Tư liu được shóa trước tiên là tranh nh, tài liu quý hiếm,  
vv... Ngày nay nhiu thư vin có khuynh hướng shóa đại bphn tư liu trong thư  
vin để phc vdưới dng đin t.  
1.2. Nghiên cu vthư vin sti Mỹ  
Vn đề nghiên cu vthư vin slà mt trong 5 hướng nghiên cu chyếu về  
CNTT ca Mhin nay. Nhng tiến bcc knhanh chóng ca kthut tính toán  
và mng máy tính làm cho mt tư liu chtrong nháy mt đã có th“nhân bn” và  
chuyn ti hành trăm triu người trên khp thế gii.  
Năm 1994, người ta đưa ra mt vn đề gi là SÁNG KIN THƯ VIN SỐ  
(SKTVS) mà ngày nay gi là DLI pha 1. SKTVS pha 1 tp trung làm sáng ttng  
1-1  
bước các vn đề vmô hình quan nim, cu trúc, nhng thách thc vtính toán  
nhm to ra các các kho tri thc nhân loi dng đin t. Trong 5 năm, SKTVS pha 1  
đã có nhng thành công bước đầu mà chúng ta đang chng kiến, chng hn đó là  
các công ctìm kiếm ni tiếng trên Internet.  
SKTVS pha 2 – DLI pha 2 bt đầu t1999 và đã thu hút rt nhiu nhà khoa  
hc và ksư CNTT, các nhà nghiên cu ca nhiu ngành KHXH, nghthut, sinh  
hc…Mc tiêu là phát trin các ngun tư liu s, thnghim liên kết gia các  
ngun tư liu phân tán, thiết lp nguyên tc, phn mm và cu trúc mng có khả  
năng liên hp các tư liu đa phương tin thành các bn ghi nht th, gii quyết vn  
đề ngnghĩa hin đang cn trvic tích hp tư liu stcác tư liu tcác sưu tp  
phân tán và rt khác nhau vcu trúc. Pha 2 ca SKTVS tp trung vào 3 hướng  
nghiên cu ln sau:  
Human-centered research-nghiên cu htrvic to ra thông tin và sdng  
thông tin.  
Content and collections-to lp thư vin scha đựng các dng tri thc.  
System-centered research-các vn đề kthut, phn mm, phân loi khi tổ  
chc và liên kết các bdliu sdng thc khác nhau thông qua Internet.  
Để hình dung rõ hơn v3 hướng nghiên cu trên, chúng ta slược qua các dự  
án chính, các vn đề quan trng nht ca 3 hướng nghiên cu và trin khai này.  
1.2.1.Human-centered research (nghiên cu hướng ngui dùng)  
Trong hướng này, có các dán và chương trình ln:  
Personalized Retrieval and Summarization of Image, Video, and  
Language Resources (PERSIVAL). Trong dán PERSIVAL, các nhà nghiên cu  
ở Đại hc Columbia đang thnghim thiết kế hthng giúp cho các bnh nhân truy  
cp ddàng và nhanh chóng đến các ngun thông tin y hc trc tuyến thích hp cho  
Digital resource designed for children. Các nhà nghiên cu ở Đại hc  
Maryland phát trin các công cthích hp cho phép nghe, xem, tìm kiếm, hi đáp  
1-2  
và tchc thông tin nghe, nhìn, văn bn…cho trem.  
Technologies and tools for students. Nhiu đại hc và cơ quan nghiên cu  
như Đại Hc Quc Gia Georgia, Hip Hi Máy Tính (Association for Computing  
Machinery-ACM), Ủỵ Ban Giáo Dc ca SIGGRAPH (SIGGRAPH Education  
Committee) đang phát trin các kthut và công ccho sinh viên để vic truy cp  
thông tin trc tuyến phc vhc tp ở đại hc được hiu qu.  
Video information college. Dán được trin khai ti Đại Hc Carnegie  
Mellon nhm thiết lp môi trường làm vic vi các tư liu video, văn bn, nh và  
Alexandria Digital Earth prototype (ADEPT). Đây là mt bphn ca  
chương trình hp tác vthư vin sgia Đại hc Berkeley, Đại hc Santa Barbara  
(UCSB), Đại hc Stanford, Trung tâm Siêu Máy Tính San Diego và Thư Vin Số  
California, liên quan chyếu đến vic sdng các loi thông tin không gian, thư  
mc  
hóa  
chúng,  
nhng  
vn  
đề  
tìm  
kiếm  
trên  
Web…  
1.2.2. Content and collections (Ni dung và các bsưu tp)  
Hướng này tp trung nghiên cu vic tchc các kho thông tin vmi lĩnh  
vc tri thc. Mt sdán ln có thkể đến như:  
Digital Library for the humanity. Đại Hc Tuffs hp tác vi vin Max  
Planck Berlin, Hi Ngôn NgHin Đại (the Modern Language Association), Bo  
Tàng NghThut Boston (the Boston Museum of Fine Arts) và THp Xut Bn  
Đin TStoa (the Stoa electronic pubishing consortium) phát trin mt thư vin  
đin tcha các tư liu tthi Ai Cp cổ đại đến thế k19.  
National Gallery of Spoken Word (NGSW). Đại Hc Quc Gia Michigan  
đang thc hin mt thư vin các bài nói lch ssut thế k20 vi các công cxlý  
1-3  
National digital library for science, mathematics, engineering, ang  
technology education (SMETE). Đại Hc Berkeley California phát trin mt thư  
vin stp hp các ngành khoa hc, toán hc và công nghhtrvic hc tp ở  
bc phthông trung hc. http://www.needs.org  
Digital Atheneum. Đại Hc Kentucky được QuKhoa Hc Quc Gia tài trợ  
phi hp vi Thư Vin Anh và Chương Trình Shared University Research ca IBM  
đang làm vic vi kho tư liu ca Thư Vin Anh cha đựng các tư liu cca Hi  
Lp, Do Thái tthế k17. http://www.digitalatheneum.org.  
Digital workflow management. Hơn 29.000 ngàn bn nhc Mt1790 đến  
1960 đang được Đại Hc Hopkins chuyn thành mt thư vin s.  
Data provenance. Các nghiên cu ti Đại Hc Pennsylvania hướng ti vn đề  
nan gii bc nht ca các tp hp dliu trc tuyến. Đó là độ trung thc ca mt  
bn tin svà nhng vn đề liên quan, có thxếp vào nhóm các vn đề hthng  
được trình bày dưói đây. http://db.cis.upenn.edu/Research/ptovenance.html  
1.2.3.System-centered research (nghiên cu hướng hthng )  
Phát trin các thư vin số đòi hi phi gii quyết rt nhiu vn đề vhthng.  
Có thnêu vài cái trong scác vn đề quan trng mà các nhà khoa hc Mỹ đang tp  
trung gii quyết:  
New model for scholarly publishing. Bn cht vn đề là vic xut bn bây  
gikhác xa cách in n truyn thng. Xut bn tc thi, phân tán, liên tc… Mi  
quy trình đều phi thay đổi thích hp để thc hin vic “xut bn” trên các hthng  
tính toán phân tán. Vn đề đang được Đại Hc Berkeley California nghiên cu.  
Classification systems. Mt trong nhng vn đề kthut phc tp nht ca  
thư vin là phân loi tư liu. Mi công clưu tr, tìm kiếm đều rt phthuc vào  
kthut phân loi. Vi các thư vin scha đựng, tích hp mi dng thc thông  
tin, tri thc thì vn đề càng phc tp. Rt nhiu đại hc và các vin nghin cu đang  
1-4  
tp trung cho vn đề này. Có thxem trong Web site:  
Security, quality, access, and reliability. Vi thư vin sthì an toàn, bo  
mt, chng sao chép bt hp pháp, kthut tìm kiếm… còn cha đựng rt nhiu  
vn đề m. Chng hn ở Đại Hc Cornell, các nhà nghiên cu đang tp trung cho  
tính toàn vn ca mt thư vin s. http://www.prism.cornell.edu  
1.3. Nghiên cu vthư vin sti Vit nam  
Vit nam, các nghiên cu vthư vin smi chỉ ở các buc khi đầu. Trong  
nhng năm qua nhiêphn mn qun lý thư vin và htrợ đọc sách trên Internet đã  
được đầu tư phát trin. Bng 1.1 là đặc tính ca mt sphn mm qun lý thư vin  
do các nhà sn xut phn mm trong nước phát trin.  
Bng 1.1. Danh sách mt sphn mn qun lý thư vin do các nhà sn xut phn mm  
Vit nam phát trin  
Tên thuc  
tính  
LIBOL (Tinh Vân)  
ILIB (CMC Soft)  
VEBRARY (Lc Vit)  
Mô t  
Phát trin vì nhu cu trong nước  
(1997) và sau đó được thay đổi  
theo các chun quc tế  
Có giao din dng Web và được  
thiết kế theo mô hình m3 lp.  
Đây là hthng qun lý thư vin đin  
t, được dùng đầu tiên ti Trung Tâm  
Thông Tin Tư Liu Đại Hc Đà Nng  
Hệ điu hành  
WinNT, Unix, Linux  
Cơ sdữ  
liu  
NA  
Oracle 8i đối vi phiên bn ln  
SQL-Server đối vi phiên bn  
nhSmiLib  
NA  
Htrtiếng  
Vit  
Htrtiếng Vit mà mt số  
ngôn ngkhác như Anh, Nga,  
Nht, Hoa, htrUnicode  
Htrợ đa ngôn ng, trong đó  
tiêng Vit theo bng mã Unicode  
và TVCN  
Htrtìm  
kiếm  
Tìm kiếm tra cu mnh, htrợ  
tt ccác khung phân loi  
Htrtìm kiếm tra cu theo nhiu  
tiêu chí khác nhau  
Các chc  
năng chuyên  
môn  
Môi trường hin th: Web  
Chun giao tiếp dliu ISO2709 vitheo các chun (MARC,  
Htrtra cu liên thư vin qua  
chun Z39.50  
Có khnăng tùy biến giao din  
Có 8 phân hnhgip vchuyên  
môn: tra cu (Z39.50), , biên  
mc, n phm đin t, n phm  
định k, phân hbsung, phân  
hqun lý, phân hbn đọc và  
phân hmượn tr.  
Htrtôi đa khnăng liên thư  
Mi thao tác trên thư vin đều qua  
trình duyt Web  
USMARC, UNIMARC  
Cho phép tra cu liên thư vin  
theo chun Z39.50  
Có chc năng htrmã vch  
Cho phép thay đổi các module  
khác nhau qua các thông số  
Lưu trvà lp chmc vi slượng  
ln các dng tài liu SGML, XML,  
MARC, RTF, các dng tài liu đa  
phương tin theo chun open-ebook  
ca W3C  
Htrcác tiêu chun vsách đin tử  
và thư vin như Z39.50, Unicode…  
Biên mc theo chun MARC,  
ÚMARC (ngm định là MARC21)  
Có nhiu tính năng khác như bsung  
tài liu, lưu thông tài liu, qun lý  
xut bn phm nhiu k, mượn liên  
thư vin, báo cáo thng kê. Tính năng  
bo mt đáng lưu ý.  
Nhn xét  
Có khnăng đáp ng hu hết  
Có tính mvà linh hot  
Tuân thnhng tiêu chun mvhệ  
các nhu cu chun hóa vnghip Đã được ng dng ti mt snơi thng thư vin và được xây dng trên  
vụ  
như Hc Vin Quan hQuc  
nn công nghhin đại, qun lý thư  
vin hiu qu, có khnăng liên thông  
vi các thư vin khác trên thế gii.  
Thân thin vi người dùng, chc tế…  
năng tìm kiếm nhanh chóng,  
chính xác trên nhiu ngôn ngữ  
và nhiu tiêu chí  
1-5  
Thông tin  
liên lc  
Cty Công nghTin hc Tinh  
Vân  
371 Kim Mã, Hà NI  
ĐT: (4) 771 5737  
Cty CMC Soft  
777 GiI Phóng, Hà NI  
ĐT: (4) 664 1595  
Cty Cphn Tin hc Lc VIt  
191A Hoàng Văn TH, q. Phú Nhun,  
tp. HChí Minh  
ĐT: (8) 842 3333  
Fax: (8) 842 2370  
1.4. Mc tiêu nghiên cu ca đề tài  
Các nghiên cu-ng dng CNTT vào qun lý và khai thác thông tin trong các  
thư vin đã và đang được quan tâm. Sphát trin nhanh chóng ca CNTT và  
Internet vào nhng thp niên sau ca thế k20 đã to ra lượng thông tin khng l.  
Các thư vin shóa đã được hình thành và hin đang lưu trmt lượng ln thông  
tin, ddàng truy cp qua Internet. Do đó cn phi xây dng các công chtrtổ  
chc, tìm, đọc, tng hp thông tin.  
Nhng năm qua, nhiu thư vin và các trung tâm lưu trtrong nước đã có  
nhng bước phát trin đáng ktrong vic sdng các công cCNTT để qun lý tư  
liu, độc givà htrcông tác tra cu thông tin. Tuy nhiên hướng nghiên cu phát  
trin các công chtrtìm kiến, phân tích, tng hp thông tin vn đang còn chưa  
được đầu tư phát trin.  
Ngoài nuc, nhóm nghiên cu vthư vin sthuc Đại hc Arizona ở địa chỉ  
trang web là http://ai.bpa.arizona.edu/go/dl/ là mt trong các nhóm thc đẩy các  
1-6  
nghiên cu nhm phát trin các kthut phân loi tư liu htrtìm đọc và tng hp  
thông tin. Đề tài “Xây dng mt scông chtrtra cu và tng hp thông  
tin trong thư viên s“ tp trung vào các ni dung sau:  
Nghiên cu nhu cu khai thác thông tin ca độc gitrong mt sthư vin số  
hóa tiêu biu như thư vin cao hc trường ĐHKHTN; thư vin sách đin tử  
thuc chương trình đào to txa ĐHQG-HCM làm cơ scho vic áp dng  
trong các thư vin khác.  
Nghiên cu đề xut qui trình tchc thông tin htrtiến trình sưu tm, tổ  
chc và khai thác thông tin trong các thư vin shóa và xây dng hthng  
phn mm htrqui trình.  
Nghiên cu và xây dng các công cphn mm htrtìm kiếm, phân tích  
tng hp thông tin trong các thư vin shóa.  
Giai đon 1: ttháng 12/2001 đến 7/2002  
Nghiên cu các nhu cu khai thác thông tin trong thư vin số  
Nghiên cu đặc trưng ca thông tin tư liu  
Nghiên cu các công nghsưu tm, tchc thông tin theo tiếp cn tác nhân  
thông minh, phân lp gom cm  
Thiết kế hthng và cài đặt mt sphn mm phân lp gom cm  
Giai đon 2: T08/2002 đến 3/2003  
Nghiên cu công nghtìm kiếm thông tin theo tiếp cn tác nhân thông minh  
Cài đặt mt sphn mm phân lp, gom cm, htrtra cu thông tin  
1.5. Các kết quả đạt được ca đề tài  
Xây dng khung tiêu đề đề mc Vit, Anh , từ đin từ đồng hin CNTT  
Xây dng công cSearch và Download  
Xây dng công ctìm các dãy tphbiến để đặc trưng văn bn  
Xây dng công ctng hp văn qua gom cm bng mng Kohonen  
Xây dng thư vin strên Web vi hàng ngàn bài báo khoa hc. Phát trin  
truy vn thư vin qua tkhóa, qua tiêu đề đề mc, qua từ đồng hin, qua lp  
ra Kohonen trên giao din Web.  
1-7  
CHƯƠNG 2  
TCHC KHAI THÁC THÔNG TIN THƯ VIN  
2.1. Tchc phc vkhai thác thông tin  
Bước qua giai đon qun lý tư liu đã tn ti nhiu thế h, đến giai đon qun  
lý thông tin đã đặt ra cho nghthư vin vn đề trao đổi và chia sthông tin. Đây là  
bước ngot quan trng trong nghthư vin, đồng thi vic ng dng trit để thành  
tu CNTT đã đặt ra mt thách thc cho nghthư vin là phi nhanh chóng thay đổi  
quan nim ngành nghề đề đối phó vi vi sphát trin như vũ bo ca CNTT.  
Ngày nay lượng thông tin di dào trnên quá ti, CNTT li giúp người ta chn lc  
thông tin có ích và có ý nghĩa được gi là tri thc và CNTT đồng thi cũng giúp  
người ta thình thành tri thc – Đây là giai đon qun lý tri thc.  
Ngày nay để đánh giá mt thư vin, người ta cho rng: “Giá trthư vin không  
phi chthư vin có bao nhiêu ngun thông tin mà là thư vin đáp ng nhu cu  
thông tin mt cách có hiu qunhư thế nào trt nhiu ngun thông qua công nghệ  
mi”; Trong mt quan nim mi khác vthư vin, người ta cho rng “Chuyên môn  
ct lõi ca nghthư vin là đim giao nhau ca ba mt: thông tin, công nghthông  
tin và người sdng”.  
Hiu biết vngun thông tin và cách tchc thông tin là năng lc quan trng  
ca cán bthư vin. Nghip vthư vin cho chúng ta biết cách thu thp thông tin –  
biu thqua công tác qun lý và phương thc truy hi thông tin; biết cách tchc  
thông tin – biu thqua công tác phân loi, biên mc, chmc và thiết lp cơ sdữ  
liu; biết cách lưu trthông tin – biu thqua công tác qun lý vt lý ngun thông  
tin và các hot động tìm kiếm. Nói chung, người cán bthư vin phi biết cách to  
điu kin để người sdng truy cp được thông tin.  
Công nghthông tin và truyn thông đã có nh hưởng trong 20 năm qua và ngày  
nay đang có khnăng thay đổi cuc sng ca chúng ta vmi mt. Động lc thay  
đổi quan trng nht chính là thông tin. Công nghthông tin mrng bn bc tường  
ca thư vin nhm cung cp ngun thông tin trong thư vin ra ngoài, đồng thi cung  
2-1  
cp ngun tư liu ngoài phm vi thư vin cho người sdng trong thư vin. CNTT  
đã đưa ngành thông tin thư vin đạt đến đỉnh cao ca qun lý thông tin.  
Trong giai đon này – người cán bthư vin đã thay đổi vai trò ca mình từ  
người gisách thụ động sang vai trò chủ động ca người cung cp thông tin – là đã  
bt đầu quan tâm đến người sdng. Ngày nay trong công tác phc vthông tin, áp  
lc thường trc đối vi người cán bthư vin là phi thc hin:  
- Cung cp lượng thông tin đúng,  
- Thi đim đúng,  
- Hình thc trình bày đúng,  
- Nhm sdng đúng mc đích,  
- Chi phí hp lý.  
Mun hoàn thành tt công vic trên thì người cán bthư vin phi quan tâm đến  
người sdng vi vic sdng thông tin:  
- Hiu nhu cu người sdng,  
- Phương thc sdng thông tin,  
- Khnăng đáp ng nhu cu  
Giá trchuyên nghip ca nghthư vin sẽ được nâng cao mt khi chúng ta  
không phi chtp trung vào vic mua và cho mượn sách và nhng tài liu khác mà  
là phi biết nhn định nhu cu và tìm ra gii pháp thông tin cho người sdng,  
đồng thi bng cách sdng CNTT để qun lý thông tin mt cách hp lý nhm đưa  
thông tin đến vi người sdng mt cách nhanh nht.  
Bước qua giai đon qun lý tri thc, yêu cu đặt ra cho người cán bthư vin  
là phi qun lý lượng thông tin đin tkhng lnhm đáp ng nhu cu tìm kiếm  
ca người sdng ngày càng gia tăng.  
Biên mc tự động là mt trong nhng vn đề then cht trong giai đon này để  
qun lý thư vin kthut s. Sdng hthng ngôn ngtiêu đề đề mc để giúp  
người sdng tìm kiếm và tp trung thông tin theo chủ đề là mt công vic biên  
mc mang tính nghip vcao nht - đòi hi chai tính cht đặc thù là kthut và  
nghthut. Vic biên mc tự động do đó đòi hi chuyên gia tin hc và cán bthư  
vin phi có mt sphi hp đồng bộ để to nên mt hthng tiêu đề đề mc phn  
2-2  
ánh đúng ni dung ca kho tin. Đồng thi htrvic tìm kiếm thông tin cho người  
sdng thông qua hthng tiêu đề đề mc hoàn chnh đó.  
Tiêu đề đề mc hay đề mc là mt danh thay cm từ được hình thành theo  
nhng nguyên tc định sn vi mt cu trúc nht định hay ngpháp ngôn ngtiêu  
đề đề mc. Mt tiêu đề đề mc phn ánh mt ni dung ca tài liu. Mt danh sách  
tiêu đề đề mc được biên son trước và đưa vào trong CSDL được xem như là mt  
tp tin có thm quyn (authority file) dùng để kim soát tính nht quán (authority  
control) ca tiêu đề đề mc. Đồng thi được dùng để ấn định tiêu đề đề mc cho  
tng tài liu đin tmt cách tự động.  
Ngôn ngtiêu đề đề mc không quá máy móc và đơn gin như tkhóa, và  
cũng không dài dòng như ngôn ngthường. Tiêu đề đề mc có mt cu trúc nht  
định gm đề mc mc chính vi nhng phân mc phn ánh tính khoa hc và đại  
chúng strnên gn gũi vi nhng tìm tin phc vcông tác nghiên cu; bn thân  
danh sách tiêu đề đề mc cũng đã đóng góp mt phn trong công tác nghiên cu  
cho nhng ai theo đui mt đề tài theo mt chủ đề nào đó.  
Để ấn định mt tiêu đề đề mc cho mt cun sách hay mt tài liu, người cán  
bbiên mc phi mt nhiu thi gian trước khi đưa vào CSDL mt biu ghi có cha  
tiêu đề đề mc đó, đây là công vic tin kết hp (pre-coordinating). Tin kết hp  
theo cách này skhông thc hin được khi khi lượng thông tin cn xlý trnên  
quá ln. Tuy nhiên vi gii pháp htrca CNTT được trình bày trong đề tài  
nghiên cu khoa hc này, công vic biên mc trnên tự động. Ngoài ra vi các  
nghiên cu gom cm thông tin scung cp gii pháp đề xut tp các tkhóa đặc  
trưng cho nhóm thông tin cn kho sát to điu kin cho vic xây dng các khung  
tiêu đề đề mc.  
2-3  
2.2. Mt ví dụ đin hình vthư vin đin ttrc tuyến  
(www.webcrawler.com)  
Webcrawler là mt trong nhng thí dụ đin hình vthư vin đin tonline.  
Trên trang chca Webcrawler, trên cùng bên góc trái là Ô hi thoi để tìm theo  
Tkhóa. Phía dưới là 18 chanels cho các chủ đề khác nhau (Gii trí, Giáo dc, Máy  
tính và Internet, Tin tc, Sc khe, Mua sm,vv…).  
2-4  
Ví dkhi nhp chut vào chanel Giáo dc (Education), ta sẽ đi đến mt trang web  
mà trên đó, trong phn Thư mc (Directory) sbao gm 14 lãnh vc thuc Giáo  
dc (Ái hu, Nghthut và Nhân văn, Htrtài chánh, Lut hc, Thư vin, Tham  
kho, Khoa hc & Tnhiên, Khoa hc Xã hi, Các Vin và Trường đại hc, ...).  
Nếu ta thnhp chut vào mc Khoa hc và Tnhiên, ta sli đi đến mt  
webpage gm 17 ngành Khoa hc tnhiên (Hóa hc, Vt lý, vv…). Nếu cn tìm  
các thông tin vHóa hc, ta li nhp chut vào mc Hóa hc, dưới đề mc Hóa hc  
này li gm 15 chuyên ngành nhvà các vn đề liên quan đến Hóa hc (Hóa phân  
tích, Hóa đại cương,v.v…). Webcrawler sẽ đề nghnhng website tt nht vnhng  
vn đề này mi khi ta nhp chut vào các đề mc trong Directory.  
Stchc ca mt thư vin đin tonline vbn cht không khác vi mt  
thư vin truyn thng: mt chủ đề ln bao gm nhng chủ đề nh, ri đến lượt các  
chủ đề nhnày bao gm các chủ đề nhhơn, và cthế tiếp tc cho đến tn ngun  
thông tin cui cùng là mt trang web hay mt bài viết. Điu làm cho các ngun  
thông tin trong mt thư vin đin tonline như trong phn Directory ca  
Webcrawler khác vi các ngun thông tin truyn thng là khi lượng khng lca  
khnăng ni kết to ln gia các thông tin trên mng. Ví dkhi tìm các thông tin về  
Hóa hc, tnhng web site tt nht được đề nghtrong phn Directory Matches ca  
Webcrawler, chúng ta sẽ được dn đến rt nhiu web site ln khác như web site ca  
Hip hi Hóa hc Hoa K, và nhiu web site khác mà chính bn thân chúng cũng có  
2-5  
thcoi như nhng thư vin vhóa hc vì khi lượng thông tin to ln được ni kết  
trong mi web site này.  
2-6  
CHƯƠNG 3  
TIÊU ĐỀ ĐỀ MC  
3.1 TIÊU ĐỀ ĐỀ MC  
Tiêu đề đề mc được dch tSubject Heading (Subject = Đề mc và Heading  
= Tiêu đề) đôi khi được gi là Đề mc như ta đã biết, cùng vi Tác giNhan  
đề là nhng đim truy cp quan trng nht trong Hthng tra cu thư vin. Tác  
giNhan đềø được mô tda vào dliu có sn ca tư liu, trong khi đó Tiêu  
đề đề mc do cán bbiên mc xác định da vào ni dung tư liu ri đưa vào hệ  
thng như mt dliu mi, tiến trình này được gi là Phân tích Đề mc hay  
Phân tích Chủ đề (Subject Analysis) phi được thc hin vi nghthut và kỹ  
thut biên mc. Tng tư liu được xác định đúng tiêu đề đề mc hay hthng tiêu  
đề đề mc ca mt thư vin được xlý tt thì ni dung kho tư liu ca thư vin đó  
được phn ánh mt cách đầy đủ. Do đó Tiêu đề đề mc được dùng rng rãi trong  
Biên mc sách (Cataloging).  
Thư vin ca mt quc gia sdng ngôn ngnào thì Tiêu đề đề mc được thể  
hin bng ngôn ngữ đó. Tng quc gia do đó thiết lp mt Hthng Tiêu đề Đề  
mc bng ngôn ngca riêng mình, nhưng phi tuân theo nhng cu trúc và  
nguyên tc thiết lp chung để dn dn tiến đến mt ngôn ngchung "Ngôn ngữ  
tiêu đề đề mc = Subject Heading Language".  
Mt vài minh ha phô hin thông tin trên biu ghi vtư liu vi Đề mc.  
sdng Tiếng Vit cho Hthng Tiêu đề đề mc ca Thư vin mình như minh  
ha trong Hình 3.1 - Hai Đề mc được đánh sthtự Ả Rp dòng cui cùng ca  
ThThư mc.  
3-1  
Hình 3.1: Thông tin vsách (Hthng Online Catalog ca Thư vin ĐH Khoa  
hc TNhiên)  
Độc gicó thnhp chut vào các Đề mc sau để tìm tài liu có ni dung tương  
ng:  
C++ (NGÔN NGLP TRÌNH MÁY TÍNH) ĐỒ HA MÁY TÍNH  
Thư vin Quc hi Hoa ksdng Khung Đề mc LC (Library of Congress  
Subject Headings) để định Tiêu đề đề mc. Ví dụ ở Hình 3.2 cho ta thy thông tin  
vmt cun sách xut bn bng Tiếng Vit có hai Đề mc bng Tiếng Anh được  
dch như sau:  
BỘ ĐỘI--GIÁO DC NGOI KHÓA--VIT NAM  
VIT NAM--LC LƯỢNG VŨ TRANG--SINH HOT CHÍNH TRỊ  
3-2  
Hình 3.2: Thông tin vsách (Hthng Online Catalog ca Thư vin Quc hi  
Hoa k)  
Ví dHình 3.3 là mt biu ghi thư mc mt tác phm Tiếng Ba Lan ca Thư  
vin Quc gia Anh gm 4 Tiêu đề mc bng Tiếng Anh. Đề mc ở đây được chn  
tKhung LCSH (Library of Congress Subject Headings). Nhng đề mc được  
dch như sau:  
KINH TDBÁO--BA LAN  
BA LAN--ĐIU KIN KINH T--1990-  
BA LAN--CHÍNH SÁCH KINH T--1990-  
3-3  
Hình 3.3: Thông tin vsách (Hthng Online Catalog ca Thư vin Quc gia  
Anh)  
Hình 3.4 trình bày mt biu ghi thư mc ca mt bài tp chí trong Cơ sdliu  
CD-ROM "General Science" ca EBSCO. Bài tp chí này được phân tích thành  
hai Đề mc mang ni dung khác nhau, được dch như sau:  
Y T, CHĂM SÓC--VIT NAM  
VIT NAM--CHÍNH SÁCH KINH TẾ  
3-4  
Search/Subjects/Find  
GENERAL SCIENCE (FEB'91 - MAR'96)  
+--------------------------Detailed Display - 1 of 1---------------------------+  
Subject: MEDICAL care -- Vietnam; VIETNAM -- Economic policy  
Title: The influence of market economics on primary health care in  
Vietnam.  
Author: Gellert, George A.  
Summary: Analyzes the impact of economic reforms introduced in  
Vietnam in 1986 on health care in the country. Information on Vietnam's  
health care system; Abolishing the subsidy system; Details of factors  
affecting primary health care; Disease prevention and health promotion  
programs;Conclusions.  
Source: (Journal of the American Medical Association, 5/17/95, Vol. 273  
Issue 19,p1498,5p)  
ISSN: 0098-7484  
Item No: 9506043952  
Hình 3.4: Thông tin vbài tp chí (CSDL CD-ROM EBSCO)  
Qua các minh ha trên ta thy Tiêu đề đề mc đóng vai trò quan trng trong  
vic gii thiu ni dung ca mt tư liu (sách hoc bài tp chí...). Tiêu đề đề mc  
là mt trường độc lp trong mt biu ghi.  
3.2. TKHÓA  
Tkhóa là từ được dùng để định vthông tin trong mt Cơ sdliu. Thông  
tin có thlà mt biu ghi thư mc (bibligographic record), bn tóm tc (abstract),  
hay toàn văn (full text) mà Tkhóa hin din trong đó.  
Có hai loi Tkhóa:  
3-5  
Tkhóa tdo (Free Style Keyword) là tnm sn trong tư liu hay  
CSDL. Tkhóa này không có riêng mt trường độc lp.  
Tkhóa có kim soát (Controlled Style Keyword) là từ được chn lc  
đưa vào CSDL. Tkhóa loi này có riêng mt trường độc lp.  
Khác vi Tiêu đề đề mc đã có tlâu, Tkhóa chmi xut hin khi computer  
được áp dng trong ngành Thông tin Thư vin.  
Tkhóa giúp ta tìm nhanh tài liu có cha tkhóa đó. Nhcác Phép toán  
Boolean giúp ta kết hp nhiu ni dung tìm hay hn chế slượng kết qutìm. Do  
đo Tkhóa được dùng để định vvà chỉ đim (pointing) thông tin cn tìm trong  
CSDL. Tkhóa được dùng rng rãi trong công tác Chmc tp chí (Indexing).  
3.3. SO SÁNH TIÊU ĐỀ ĐỀ MC VI TKHÓA.  
Tiêu đề đề mc vi Tkhóa tdo: Được dùng trong Biên mc sách  
Tiêu đề đề mc là do Cán bbiên mc đưa vào Cơ sdliu để phn ánh  
ni dung tư liu.  
Tkhóa tdo có thTkhóa trong Nhan đề, Tkhóa trong Tác gi,  
Tkhóa trong Đề mc.  
Vài minh ha cách sdng Tkhóa tdo trong Hthng tra cu Online  
Catalog. So sánh vi cách sdng Tiêu đề đề mc.  
Hình 3.5 Hình 3.6 cho ta thy hai cách tìm theo Tiêu đề (Heading) Từ  
khóa tdo (Keyword) trong Hthng Online Catalog ca Thư vin Baker, Đại  
hc Harvard, Hoa k.  
3-6  
Hình 3.5  
Khi ta chn BASIC SEARCH màn hình shin ra như Hình 3.5 cho ta phương  
thc tìm theo Tiêu đề gm: Tiêu đề Tác gi, Tiêu đề Nhan đề, Tiêu đề Tên Tp  
chí, Tiêu đề đề mc, và Tiêu đề ký hiu Phân loi (Xếp giá). Mi Tiêu đề là mt  
Trường trong CSDL. Ta phi gõ đầy đủ thông tin vTiêu đề. Chng hn như đối  
vi Tiêu đề đề mc thì ta phi gõ đầy đủ Đề mc chính, Tiu phân mc, du phân  
cách,v.v... Ví d:  
VIETNAM--HISTORY--1954-1975  
Nếu ta chn KEYWORD SEARCH Màn hình như Hình3.6 cho ta phương thc  
tìm theo Tkhóa tdo kèm theo gii thích cách tìm theo nhng Toán tlogic:  
thêm AND/OR vào ô hi thoi  
dùng ngoc kép để thhin Tkhóa nhóm t: "venture capital"  
dùng + để đánh du nhng tthiết yếu: +management  
3-7  
dùng * để đánh đấu nhng tquan trng: *technology  
dùng ? để cht ct t: industr?  
dùng ! để ngăn chn t: !computer  
Hình 3.6  
Màn hình như Hình 3.7 minh ha cách tìm Tkhóa trong Nhan đề và Tkhóa  
trong Đề mc trong Hthng Online Catalog ca Thư vin Quc gia Anh.  
3-8  
Hình 3.7  
Nếu ta chn Tkhóa trong Đề mc thì vào ô hi thoi Subject (Đề mc). Ví dụ  
ta chn Tkhóa economic. Nhng cun sách có Đề mc mang Tkhóa trên được  
phô hin; giã sta chn cun sách có biu ghi như Hình 3.3 có ta đề "Polonia  
quo vadis?..." và có nhng Đề mc mang Tkhóa economic như sau:  
ECONOMIC FORECASTING--POLAND  
POLAND--ECONOMIC CONDITIONS--1990-  
POLAND--ECONOMIC POLICY--1990-  
Nếu ta chn Tkhóa trong Nhan đề thì vào ô hi thoi Title (Nhan đề). Ví dta  
chn Tkhóa Vietnam. Màn hình như Hình 3.8 phô hin nhng nhan đề sách có  
cha Tkhóa Vietnam.  
3-9  
Hình 3.8  
Hình 3.9  
Hthng Online ca Thư vin ĐH Simmons, Hoa knhư trong Hình 3.9 cho ta  
thy độc gicó thtìm tư liu theo Tác gi(Author), Nhan đề (Title), Đề mc  
3-10  
(Subject), TKhóa tdo (Keyword), Ký hiu xếp giá theo sPhân loi LC, Ký  
hiu xếp giá không theo sPhân loi LC, sISSN/ISBD.  
Tiêu đề đề mc vi Tkhóa có kim soát: Chai đều là Thut ngø có kim  
soát (Controlled vocabulary) được to thành Trường độc lp trong Hthng  
Online Catalog.  
Tiêu đề đề mc được dùng để mô tni dung tư liu. Danh sách Tiêu đề  
đề mc (Subject heading list) chng hn như "Library of Congress  
Subject Headings" và "Sear List of Subject Headings" được dùng trong  
Biên mc sách đôi khi được dùng trong Chmc Tp chí.  
Tkhóa có kim soát tp hp nhng tphn ánh mt phn ni dung tư  
liu, được kim soát để đồng nht. Tkhóa nói chung không chú trng đến  
cu trúc và mô tdliu. Chchú trng đến vic kết hp để to nên nhng  
biu thc tìm nhm định vnhanh và chỉ đim đúng thông tin trong CSDL.  
Danh sách nhng Tkhóa có kim soát được gi là Thesaurus được dùng  
trong Chmc tp chí.  
3.4 KT LUN  
Tiêu đề đề mc Tkhóa là bphn không ththiếu trong Bmáy tra cu  
tư liu. Trong đó Tiêu đề đề mc là bphn chyếu nht trong Biên mc hc  
(Cataloging), hin din trong giáo trình Khoa hc Thông tin và Thư vin ktkhi  
NghThư vin ra đời cách đây rt lâu và càng tra hu hiu trong Hthng Mc  
lc trc tuyến (Online catalog) ngày nay. Do vy cn khuyến khích sdng và  
thành lp "Danh sách Tiêu đề đề mc Tiếng Vit" theo chun quc tế để htrợ  
phát trin công tác biên mc thư vin đặc bit là các thư vin đin tnhm htrợ  
tiến trình tra cu thông tin.  
3-11  
CHƯƠNG 4  
XÂY DNG CÔNG CTÌM KIM VÀ DOWNLOAD  
DA TRÊN TÁC NHÂN  
4.1.TÁC NHÂN” PHN MM (SOFTWARE AGENT):  
4.1.1. Các định nghĩa v“tác nhân”  
Stan Franklin và Art Graesser Vin các hthng thông minh ở đại hc  
Memphis lit kê ra mt số định nghĩa vtác nhân như sau:  
The MuBot Agent (http://www.crystaliz.com/logicware/mubot.html) "Từ  
tác nhân được dùng cho hai nghĩa. Thnht là khnăng tự động thi hành  
Thhai là khnăng định hướng hot động theo lĩnh vc"  
The Hayes - Roth Agent (Hayes -Poth 1995) Các tác nhân thông minh biu  
hin 3 chc năng: cm nhn vnhng trng thái trong môi trường, hành  
động để tác động lên trng thái trong môi trường đó.  
nhân thông minh hoàn toàn là mt phn mm thc hin mt tp các hành  
động da trên cư xca người sdng hay chương trình khác vi môt vài  
mc độ độc lp hay thot động, và trong quá trình làm như thế, dùng mt  
stri thc vmc đích và mong mun ca người sdng  
The Brustoloni Agent (Brustoloni 9991, Frankin 1995, trang 265) "Các tác  
nhân là các hthng có khnăng thot động, hành động có mc đích  
trong thế gii thc." . Theo nhng định nghĩa trên có thlàm chúng ta thy  
rõ rng các tác nhân phi có tính thot động (độc lp), tìm kiếm mc tiêu,  
kiên định, suy lun và khnăng giao tiếp.  
4.1.2. Các thuc tính ca tác nhân  
Tác nhân vcơ bn hoàn toàn khác vi các chương trình phn mm và các  
chương trình, chúng phi có các đặc tính và thuc tính đặc bit. Mt tác nhân phi  
có các đặc tính sau:  
4-1  

Tải về để xem bản đầy đủ

pdf 128 trang yennguyen 10/01/2025 90
Bạn đang xem 30 trang mẫu của tài liệu "Đề tài Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp thông tin trong thư viện số", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfde_tai_xay_dung_mot_so_cong_cu_ho_tro_tra_cuu_va_tong_hop_th.pdf