Luận văn Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản

Luận văn  
Phát trin chương trình  
thnghim áp dng kỹ  
thut chmc và kthut  
tìm kiếm văn bn  
LỜI CẢM ƠN  
Em xin gi lời cảm ơn chân thành nhất đến PGS.TS Đặng Văn Đức, người  
đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực hiện luận văn này.  
Con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyến khích,  
động viên con trong những lúc khó khăn, tạo mọi điều kiện cho chúng con nghiên  
cứu học tập.  
Em cảm ơn các thầy, cô trong Viện Công Nghệ Thông Tin Hà Nội cùng các  
thầy cô trong Khoa Công nghthông tin – ĐH Thái Nguyên đã dìu dắt, giảng dạy  
em, giúp em có những kiến thức quý báu trong những năm học qua.  
Cảm ơn các bạn đã tận tình động viên đóng góp ý kiến cho luận văn của tôi.  
Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn  
song do trìnhđộ còn hạn chế, nội dung đề tài còn mới mẻ nên Luận văn khó tránh  
khỏi những thiếu sót. Em rất mong nhận được sự thông cảm và góp ý của thầy cô và  
các bạn.  
Thái Nguyên, tháng 11/2008  
Học viên  
Phạm ThNgc  
- 1 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
MỤC LỤC  
- 2 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
- 3 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
- 4 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT  
Từ gốc Giải nghĩa  
Cluster-based  
CSDL  
Cơ sở cụm  
Cơ sdliệu  
DBMS (Database Management System) Hệ quản trị cơ sở dữ liệu  
MDBMS (Multimedia Database  
Management System)  
Hquản trcơ sdliệu đa phương tiện  
Doc  
Tài liệu  
Docs  
Nhiều tài liệu  
DSS (Decision Support Systems)  
Exact match  
Hệ hỗ trợ ra quyết định  
Đối sánh chính xác  
IMS (Information Management System) Hệ quản lý thông tin  
Index  
Chỉ mục  
IR (Information Retrieval)  
IRS (Information Retrieval System)  
LSI (Latent Semantic Indexing)  
MultiMedia  
Truy tìm thông tin  
Hệ truy tìm thông tin  
Chmục ngnghĩa tiềm ẩn  
Truyền thông da phương tiện  
Độ chính xác  
Precision  
QAS (Question Anser System)  
Query  
Hệ trả lời câu hỏi  
Truy vấn  
Term  
Thuật ng(t)  
Ranking  
Sắp xếp  
Record  
Bản ghi  
Recall  
Khả năng tìm thấy  
Độ tương quan  
SC (Similarity Coeficient)  
SVD (Singular Value Decomposition)  
Text-partern  
Kthuật tách giá trị đơn  
Mẫu văn bản  
The Term Discrimination Value  
The Signal – Noise Ratio  
Giá trị phân biệt từ  
Độ nhiễu tín hiệu  
- 5 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
DANH MỤC CÁC BẢNG  
Bảng 2.5: Danh sách từ dừng của tiếng Anh........................................................49  
DANH MỤC CÁC HÌNH, ĐỒ THỊ  
- 6 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
MỞ ĐẦU  
Cùng với sự phát triển nhanh chóng của công nghệ tin học thì khối lượng dữ  
liệu đa phương tiện (Multimedia) được thu thập và lưu trữ dưới dạng sngày càng  
nhiều dẫn tới việc tìm kiếm dliệu đa phương tiện trở nên khó khăn vì vậy cần có  
các hệ thống tìm kiếm thông tin (Information Retrieval) hỗ trợ người dùng tìm kiếm  
một cách chính xác và nhanh chóng các thông tin mà họ cần trên kho tư liệu khổng  
lồ này.  
Hiện nay có một số hệ thống tìm kiếm như GoogleDesktop, DTSearch,  
Lucene, tuy nhiên các hệ thống này sử dung các kỹ thuật tìm kiếm đơn giản nên  
hiệu quả còn chưa cao. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ  
thuật nâng cao tìm kiếm thông tin, cụ thể ở đây là tìm kiếm văn bản theo nội dung  
trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết của thời đại  
bùng nổ thông tin điện tử hiện nay.  
Bố cục của luận văn gồm các phần sau:  
+ CHƯƠNG 1: TỔNG QUAN VỀ HỆ QUẢN TRỊ CSDL ĐA PHƯƠNG TIỆN:  
Phần này sẽ giới thiệu tổng quan vhquản trCSDL đa phương tiện.  
+ CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIM VĂN BẢN  
- Trình bày các v ấn đềvhtìm kiếm thông tin.  
- Trình bày kỹ thuật cơ sở chỉ mục văn bản trên cơ sở mô hình Bool và mô  
hình vector.  
+ CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM  
VĂN  
- Trình bày cơ slý thuyết vmột skthuật chỉ mục nâng cao.  
- Giới thiệu kthut chmục nâng cao LSI.  
+ CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THNGHIỆM: Chương này  
phát triển chương trình thnghiệm áp dụng kthuật chmục và kthuật tìm kiếm  
văn bản theo nội dung trong cơ sdliệu đa phương tiện.  
+ KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày các kết quả đạt được trong  
luận văn và nêu phương hướng phát triển của đề tài trong tương lai.  
+ TÀI LIỆU THAM KHẢO và PHỤ LỤC: Trình bày các thông tin liên quan đến  
luận văn.  
- 7 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA  
PHƯƠNG TIỆN (MDBMS)  
Trung tâm ca mt hthống thông tin đa phương tiện (MULTIMEDIA)  
chính là hqun trCSDL MULTIMEDIA (MDBMS - Multimedia Database  
Management System). Theo truyn thống, một CSDL bao gồm mt bcác dliệu  
có liên quan vmt thc thcho trước hoặc mt hqun trCSDL (DBMS) là mt  
bcác dliu có liên quan đến nhau vi mt tp hp các chương trình được dùng  
để khai báo, to lp, lưu trữ, truy cp và truy vn CSDL. Tương tự như vy,  
chúng ta có thxem một CSDL MULTIMEDIA là mt tập các loại dliệu  
Multimedia như văn bn, hình nh, video, âm thanh, các đối tượng đồ hoạ…. Mt  
hqun trCSDL MULTIMEDIA cung cp htrcho các loại dliu  
MULTIMEDIA trong việc to lp, lưu trữ, truy cp, truy vn và kiểm soát.  
Skhác nhau ca các kiu dliu trong CSDL MULTIMEDIA có thể  
đòi hi các phương thức đặc bit để tối ưu hoá việc lưu trữ, truy cập, chsố  
hoá và khai thác. MDBMS cn phi cung cp các yêu cu đặc bit này bng  
cách cung cấp các cơ chế tóm tắt bậc cao để qun lý các kiu dữ liu khác nhau  
cũng như các giao din thích hợp để thhin chúng.  
1.1 Mục đích của MDBMS  
Một MDBMS cung cp mt môi trường thích hợp để sdụng và qun lý  
các thông tin CSDL MULTIMEDIA. Vì vy, nó phải htrcác kiu dliu  
MULTIMEDIA khác nhau bên cnh vic phi cung cp đầy đủ các chc năng ca  
một DBMS truyn thống như khai báo và to lp CSDL, khai thác dliu, truy  
cp và tchc dliu, độc lp dliu, tính riêng, toàn vn dữ liu, kim soát  
phiên bn. Các chc năng của MDBMS cơ bn tương tự như các chc năng của  
DBMS, tuy nhiên, bn chất của thông tin MULTIMEDIA tạo ra các đòi hi  
mi. Bng cách sdng các chc năng tổng quát của DBMS chúng ta có thể  
trình bày mục đích của MDBMS như sau:  
- 8 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Sthống nht: bo đảm rng mt dliu không phải to lại khi các  
chương trình khác nhau đòi hi dliệu đó.  
Độc lập dữ liệu: Đảm bảo sự tách rời giữa CSDL và các chức năng quản trị  
tcác chương trình ứng dụng.  
Điều khiển nhất quán: đảm bảo sự toàn vẹn của CSDL MULTIMEDIA  
thông qua các quy tắc được áp dụng trên các giao dịch đồng thời.  
Sự tồn tại: bảo đảm các đối tượng dữ liệu tồn tại qua các giao dịch khác  
nhau cũng như các yêu cầu của chương trình.  
Tính riêng: ngăn chn các truy cập và sửa chữa các dữ liệu được lưu trữ  
một cách trái phép.  
Kiểm soát sự toàn vẹn: bảo đảm sự toàn vẹn của CSDL tmột giao dịch  
này sang một giao dịch khác thông qua việc áp đặt các ràng buộc.  
Khả năng phục hồi: phải có các phương thức cần thiết để đảm bảo rằng kết  
quả của các giao dịch thất bại không làm ảnh hưởng đến dữ liệu lưu trữ.  
Hỗ trợ truy vấn: bảo đảm các cơ chế truy vấn phù hợp với dữ liệu  
MULTIMEDIA.  
Kiểm soát phiên bản: tổ chức và quản lý các phiên bản khác nhau của các  
đối tượng lưu trữ có thể được yêu cầu bởi các ứng dụng.  
- 9 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Hình1.1. Kiến trúc bậc cao cho một MDBMS đáp ứng các yêu cầu cho dữ liệu  
MULTIMEDI  
Đối với vic điu khin nht quán, mt giao dịch là mt chui các hướng  
dn được thc thi một cách hoàn toàn hoc không hoàn toàn, đối vi trường  
hợp không hoàn toàn CSDL sẽ được khôi phc lại trng thái trước đó, vic đưa  
ra được mt cơ chế tương ứng đm bo cho vic nht quán là mt vn đề  
khó khăn đối với CSDL MULTIMEDIA. Các CSDL quan htruyn thống sử  
dụng mt bn ghi hoặc mt bng duy nht như là một đơn vnht quán. CSDL  
MULTIMEDIA thường sdụng một đối tượng đơn l(hoc đối tượng ghép) như  
là một đơn vlogic của truy cp. Như vy mt đối tượng MULTIMEDIA đơn lẻ có  
thể tạo thành đơn vnht quán.  
Đối vi vn đề lưu tr, một phương thức đơn gin là lưu trcác tp  
MULTIMEDIA trong các tp tương ứng ca hệ điu hành. Tuy nhiên với đc thù là  
dung lượng ln, các dliu MULTIMEDIA là cho chi phí trin khai theo cách  
thức này trnên tốn kém. Hơn na, hthng cũng cn phải lưu trữ các metadata  
MULTIMEDIA và có thccác đối tượng MULTIMEDIA tổng hợp. Vì vy, hu  
hết các MDBMS phân loi thành 2 phn là cố định và tạm thi và chlưu trữ  
các dliu cố định sau khi các giao dịch đưc cp nhật. Các dliu tạm thi  
- 10 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
chỉ được dùng trong các chương trình hoặc các giao dch khi chúng được thc thi  
và được loại bỏ sau đó.  
Thông thường, mt câu hi sla chọn mt tp con ca các đối tượng dữ  
liu da trên các mô tả của người dùng (thường là thông qua các ngôn ngtruy  
vn) vtruy nhp dliu nào. Mt câu hi thường có nhiu thuộc tính khác nhau,  
có thlà da trên tkhoá hoặc hướng theo nội dung và thường là tác động ln  
nhau. Vì vậy, các chc năng cho phn hồi có liên quan, công thc ca câu hi,  
các kết qutương t, và cơ chế thhin kết quả rõ ràng là rất quan trọng trong  
MDBMS.  
Khi các ứng dụng cn truy cp đến các trng thái khác nhau ca một đối  
tượng thì vấn đề kiểm soát phiên bn đối với đối tượng MULTIMEDIA khi  
chúng được truy cp hoăc sa cha trnên rt quan trọng. Một DBMS cung cp  
các khnăng truy cp như vậy thông qua các phiên bn ca các đối tượng lưu trữ,  
đối MDBMS khi mà phải lưu trmột khi lượng dliu khổng lthì vn đề kiểm  
soát phiên bn càng trnên quan trọng. Mt khác, vic qun lý phiên bn không  
cháp dụng cho một đối tượng riêng lmà nó còn được áp dụng để qun lý các đối  
tượng phức tp to nên CSDL MULTIMEDIA.  
Các tính cht đặc biệt ca dliu MULTIMEDIA cũng đòi hỏi phải có các  
tính năng đặc biệt mới để htrcho nó như kết hợp và phân rã các đối tượng,  
qun trdung lượng khổng ldliu MULTIMEDIA, lưu trữ và khai thác hiu  
qu, có khnăng làm việc được vi các đối tượng dliu tạm thời hoặc một phn  
của chúng.  
1.2 Các yêu cầu của một MDBMS  
Để được một MDBMS đáp ứng được các yêu cu đã nêu ra trên,  
chúng ta cn phải có được mt scác yêu cu cthcho nó, các yêu cu ở đây bao  
gm:  
Đầy đủ các khnăng ca một DBMS truyn thống.  
Có khả năng lưu trữ lớn.  
- 11 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Có khả năng khai thác dữ liệu thuận tiện.  
Có khả năng tích hợp, tổng hợp và thể hiện.  
Hỗ trợ truy vấn Multimedia.  
Có giao diện Multimedia và tương tác.  
Bên cnh các yêu cu va nêu, để cho hệ thống hoạt động có thhot động  
tốt chúng ta cũng cn phi gii quyết các vấn đề sau:  
Hệ thống CSDL MULTIMEDIA sẽ được xây dựng như thế nào để có  
thể bao gồm các lĩnh vực ứng dụng khác nhau.  
Xây dựng phần hạt nhân cho việc phân rã, lưu trữ và quản lý thông tin  
ở mức độ nào? Các công nghệ, cấu trúc nền tảng được sắp xếp và sử dụng như thế  
nào?  
Các kiến thức về tổng hợp dữ liệu đối với CSDL MULTIMEDIA, làm  
thế nào để có thể phát triển được một ngôn ngữ truy vấn đáng tin cậy và có hiệu quả  
để hỗ trợ cho vô số phương thức truy nhập và các kiểu đối tượng khác nhau. Làm  
thế nào để ngôn ngữ truy vấn hỗ trợ được các đặc tính và hình thái khác nhau của dữ  
liệu MULTIMEDIA.  
Xác định được hạ tầng thể hiện nào mà một hệ thống MULTIMEDIA  
phải có để đạt được các yêu cầu và cách thức thể hiện khác nhau. Làm cách nào để  
hỗ trợ việc đồng bộ hoá việc thể hiện các dữ liệu tạm thời cũng như các dữ liệu bộ  
phận của các dữ liệu MULTIMEDIA khác nhau.  
Giả sử các kiểu media khác nhau có các yêu cầu cập nhật và sửa đổi  
thông tin khác nhau thì hệ thống sẽ cập nhật các thành phần này như thế nào?  
Như hình 1.1 chúng ta đã thy kiến trúc bc cao dành cho một MDBMS  
đã chra được mt scác yêu cu cn phi đạt được. Kiến trúc này bao gm hu  
hết các khi chc năng vqun lý đi kèm với DBMS truyn thống. Ngoài ra, nó  
cũng bao gm mt smodul đặc bit phc vcho vic qun trdliu  
MULTIMEDIA như tích hp các phương tin và qun lý các đối tượng. Tuy  
- 12 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
nhiên hu hết các chc năng thêm vào DBMS truyn thống đều nằm ngoài phn  
lõi của MDBMS bao gm thhin, giao din, và qun lý cu hình.  
1.2.1 Khả năng quản trị lưu trữ lớn  
Hình 1.2. Mô hình khả năng lưu trữ của các hệ thống Multimedia  
Các yêu cu vkhnăng lưu trca các hthống MULTIMEDIA có thể  
được đặc trưng bởi khnăng lưu trlớn và cách thc tchc theo thbậc (dng  
kim ttháp) ca hthống lưu trữ. Việc lưu trtheo thbc đặt các đối  
tượng dliu MULTIMEDIA trong mt hthống phân bậc bao gm các thiết bị  
khác nhau, có thể là trực tuyến (online), không trc tuyến (offline). Mt cách tổng  
quát, mức cao nhất ca hthống scho ta hiu sut cao nht, khnăng lưu trnhỏ  
nht, chi phí cao nhất và scố định ít nhất. Các lớp cao trong hthống phân cp  
này có thsdụng để lưu trcác đối tượng tóm tt nhỏ hơn ca mt dliu  
MULTIMEDIA hoàn chnh vi mục đích cung cp khnăng duyệt và xem trước  
nhanh đối vi nội dung ca dliu. Chi phí và hiu sut (tính vmặt thi gian) sẽ  
giảm dn nếu ta đi xuống các lớp phía dưới ca hthống phân cp, cùng với điu  
này là sự tăng của khnăng lưu trvà tính cố định. Thông thường trong hu hết  
- 13 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
các hthống lưu trMULTIMEDIA, mức cao nhất ca lưu trthường là RAM,  
tiếp theo đó đĩa t, các thiết bnày cung cấp các dch vtrc tuyến (online  
services). Các thiết blưu trquang học cung cp mc lưu trtiếp theo, khái niệm  
trc tuyến ở đây có thhiu là gn như, tiêu biu cho các thiết blưu trkiu này  
là các jukebox (CD-DVD jukebox). Mc thp nht trong hthống lưu trữ phân cp  
có thlà các thiết bị như băng từ, đĩa quang hoặc các thiết btương t, các thiết bị  
này cung cp khnăng lưu troffline và có thkhông cn kết ni trc tiếp vi máy  
tính. Chúng cung cp khnăng lưu trvà tính cố định cao hơn nhưng cũng có  
hiu sut kém nhất vthời gian truy nhp. Vì những lý do trên, một MDBMS  
phải qun lý và tchức việc lưu trữ đối vi bất kmức nào ca hthống phân cp,  
nó phải có cơ chế tự động để chuyển các đối tượng dliu MULTIMEDIA từ  
mt mức này ca hthống lưu trphân cp sang mức khác, vic chuyn cp này  
phải da trên tn suất sdụng ca dliu MULTIMEDIA. Trong trường hợp dữ  
liu MULTIMEDIA được lưu trữ ở các thiết boffline thì MDBMS cũng phải có  
được các thông tin trgiúp cho việc ddàng xác định các thiết bị cụ thể có cha các  
thông tin cn truy xuất.  
1.2.2 Hỗ trợ truy vấn và khai thác dữ liệu.  
Truy vn đối vi dliu MULTIMEDIA bao gm các kiu dliu khác  
nhau, các từ khoá, thuc tính, nội dung vv…Do người dùng có thcó các cách suy  
nghĩ khác nhau vdliu MULTIMEDIA vì vy kết quả thu được tvic truy  
vn dliu MULTIMEDIA có thkhông hoàn toàn chính xác và có thchlà các  
kết qutương tự hoặc là một phn ca kết quả hơn là các kết quchun xác. Do  
việc có thkết qulà không chính xác nên chúng ta phi có khnăng phân hng  
các kết quthu được sao cho chúng gn với yêu cu truy vn nhất, tương tự như  
vy chúng ta cũng phải có các phương thức để loại bbớt những kết qukhông  
thomãn yêu cu truy vn. Việc làm này sgiảm thiểu các sai sót về mặt tính toán  
trong quá trình tìm kiếm.  
1.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện  
Gistính đa dng ca các kiu dliu đã được htr, một MDBMS cũng  
- 14 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
phi cung cp khnăng để tích hp các loại dliu này để to nên các  
kiu dliu MULTIMEDIA mi và thhiện các dliu này khi có yêu cu trong  
một khung thi gian yêu cu. Độ phc tp của việc tích hợp, tng hợp và thhin  
bị tăng thêm bi các đặc tính cơ bn ca dliu MULTIMEDIA như tính liên  
tc (tạm thi) ca dliu MULTIMEDIA đặc biệt là vi các kiu dliu như  
video, hot hình hoặc âm thanh. Hơn na, mt vài ứng dụng cthể như các hệ  
thống thông tin địa lý có thể đòi hi MDBMS cung cp các thông tin bphn (về  
một vùng, min nào đó). Tất ccác yếu tố này kết hợp với nhau làm cho việc tổng  
hợp và thhin MULTIMEDIA trthành mt quy trình phc tp mà MDBMS  
phi cung cp để đáp ứng các yêu cu mà người dùng đòi hi.  
Các vn đề vtích hợp có thể được cải thin trong mt strường hợp, đặc  
biệt là khi các hthống CSDL MULTIMEDIA được xây dựng nhằm phc vcho  
các cộng đồng người dùng xác định trước. Trong các trường hợp đặc bit này,  
MDBMS có thhtrmt stính năng mà các ứng dụng khác không cần đến.  
1.2.4 Giao diện và tương tác.  
Skhác nhau vbn chất ca các dữ liu MULTIMEDIA đòi hỏi phải có các  
giao din khác nhau để tương tác vi dliu. Thông thường, mi loại dliu có các  
phương thc truy nhp và thhin riêng của mình, ví dụ như dliu video và âm  
thanh sẽ đòi hi các giao din người dùng khác nhau để thhin và truy vn. Đối  
vi mt vài ứng dụng Multimedia, đặc biệt là scó mặt ca các loại dliu có  
tính liên tục người dùng thường đòi hỏi phải có các khnăng tương tác vi dữ  
liệu ( chng hn như đối vi dliu VCR thì người dùng thường mong muốn có  
chc năng như tua lên (fast forward) hoặc tua ngược lại (reverse)). Khi mà mt hệ  
thống Multimedia cung cấp các dch vụ như vy thì nó phi được liên kết vào  
CSDL đặc biệt là việc khai thác các đối tượng, tổng hợp và đồng bchúng.  
1.2.5 Hiệu suất.  
Hiu suất là mt vn đề quan trọng cn được xem xét đối vi mt  
MDBMS. Các hthống CSDL MULTIMEDIA to ra hiu suất da trên stối ưu  
- 15 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
hoá vic truy nhp ti các media, lưu tr, chỉ số hoá, khai thác và truy vn . Scó  
tham gia của nhiu kiu dliu khác nhau trong CSDL MULTIMEDIA có thể đòi  
hi mt số phương thức đặc biệt để tối ưu hoá vic truy cp, lưu tr, chshoá và  
khai thác. Các yêu cu này bao gm hiu qu, tính ổn định, đảm bo và đồng bộ  
việc trao đổi dliệu, chất lượng ca dch v(QoS).  
1.3 Các vấn đề của MDBMS  
Để đáp ứng được các yêu cu đã nêu ra phn trên, MDBMS cn phải xác  
định được mt svấn đề quan trọng bao gm:  
Mô hình hoá dliu Multimedia.  
Lưu trữ đối tượng Multimedia.  
Tích hợp, trình diễn, chất lượng dịch vMultimedia.  
Chỉ số hoá, khai thác và duyệt.  
Htrtruy vấn Multimedia.  
Qun trdliu Multimedia phân tán.  
Htrca hệ thống.  
1.3.1 Mô hình hoá dữ liệu MULTIMEDIA  
Mô hình dliu là đơn vtrung tâm ca mt hthống CSDL  
MULTIMEDIA. Mt mô hình dliu cn phải tách rời người dùng ra khi chi  
tiết của vic qun lý các thiết blưu trvà cu trúc lưu trữ. Điu này đòi hỏi phải  
phát trin các mô hình dliu tương ứng để tchc các kiu dliu khác  
nhau tường gp trong các hthống CSDL MULTIMEDIA.  
Các mô hình dliu MULTIMEDIA (cũng giống như các mô hình dữ  
liu truyn thống khác) nắm bắt các đặc tính cố định cũng như động ca nội dung  
CSDL và vì vy nó cung cp các khuôn mu cơ bản cho việc phát trin các công cụ  
cn thiết để sử dụng dữ liu MULTIMEDIA. Các thuộc tính cố định có thbao  
gm các đối tượng to nên dliu MULTIMEDIA, mi liên hgia các đối  
tượng, thuộc tính ca các đối tượng…Các đặc tính động bao gm stương tác  
- 16 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
gia các đối tượng, shot động trên đối tượng, các tương tác của người dùng.  
Tuy nhiên, do các tính cht đặc biệt của mình, dliu MULTIMEDIA đòi  
hỏi phải có các quan tâm mi khi chọn lựa mô hình dliu. Ví d, một  
vài kiu dliu MULTIMEDIA (chng hn video) hoặc một nhóm các kiu  
(video và hình nh) có thể đòi hi các mô hình dliu đăc bit để cải thin hiu  
quvà tính mềm do. Hơn na, do tầm quan trọng của việc tương tác trong các  
hthống MULTIMEDIA nên vic nó được htrbi các mô hình dliu trnên  
quan trọng.  
Rât nhiu các mô hình dliu khác nhau như là mng lưới, liên h, ngữ  
nghĩa, hướng đối tượng đang tồn tại và mt vài strong chúng đã được xem  
xét để thiết lp CSDL MULTIMEDIA. Có hai cách tiếp cn cơ bn trong vic  
mô hình hoá dliu MULTIMEDIA là:  
Phương pháp thnht: xây dựng một mô hình dliu  
MULTIMEDIA trên nn tng của mô hình dliu ca một CSDL truyn thống  
(thường là CSDL quan hhoc CSDL hướng đối tượng) bng cách sdụng các  
giao din tương ứng đối vi dliu MULTIMEDIA. Các vn đề ny sinh vi  
cách tiếp cn này là các cu trúc bên dưới (của CSDL truyn thống) không được  
thiết kế dành cho dliu MULTIMEDIA, hơn na skhác biệt cơ bn các  
yêu cu ca mt CSDL truyn thống đối với CSDL MULTIMEDIA khiến  
cho giao din trở thành nơi nghn cchai trong toàn bhthống. Các vn đề  
này dn ti cách tiếp cn thhai.  
Phương pháp thhai: phát trin các mô hình dliu thc thdành  
cho dliu MULTIMEDIA từ đầu chkhông xây dựng trên cơ scủa các  
CSDL truyn thống, tuy nhiên mọi người đều nhất trí rng các nlực như vy  
đều phải da trên kthuật hướng đối tượng.  
1.3.2 Lưu trữ đối tượng MULTIMEDIA  
Lưu trvật lý các dliệu Multimedia đòi hi các phương thức để chuyn  
đổi, qun lý, trao đổi và phân phi mt slượng dliu khổng l, các hthống  
- 17 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Multimedia thông thường sdụng phương thức phân cp đối vi các thiết blưu  
tr. Các thiết blưu trữ online có tốc độ cao như RAM, HDD lưu trcác dliu  
đang được xlý trong khi đó các thiết blưu troffline (có tốc độ chậm) dùng để  
lưu trcác dliu có tính chất dài hn, cố định. Khi đó, hiu suất sphthuộc  
vào khnăng ca cơ chế chuyn đổi các dliệu Multimedia tương ứng vi mc  
tối ưu hoá trong hệ thống lưu trphân cp.  
Các cơ chế nén dliu kết hợp vi các cơ chế chuyn đổi dliu giúp  
phn làm giảm các yêu cu khổng lvmặt lưu trữ, phương thc cơ bn được  
sdụng ở đây là chuyn đổi dliệu Multimedia sang mt svùng chuyn đổi để  
loại bsự dư tha ca dliu gốc, các quá trình gii nén slàm nhiệm vchuyn  
đổi ngược các dliu này vdng gc của nó. Quá trình này sdn đến việc mất  
mát dliu, tuy nhiên việc mất mát này đươc hu hết các ứng dụng Multimedia  
cho phép.  
Phthuộc vào mức độ ca ht nhân mà một đối tượng Multimedia có thể  
thhin toàn bhoặc một phn đoạn video, mt frame, một hình nh riêng lẻ  
thậm chí ctừng đối tượng cá thtrong một ảnh hoặc một đoạn video. Vn đề  
chính đặt ra ở đây là khả năng lưu trcó hn, băng thông hn chế ca hthống  
lưu trcác kênh truyn thông, tlsn sàng ca các loại dliệu Multimedia. Tỷ  
lsn sàng ca dliu chra slượng dữ liu ti thiu cn thiết đối vi mỗi đơn  
vthi gian cn đáp ứng đối vi các đòi hi vyêu cu chất lượng trong quá trình  
thhiện c đi tượng Multimedia. Đứng từ quan điểm này, các yêu cu vlưu  
trca dliệu Multimedia được gii quyết bng cách phân chia dliu thành  
các đối tượng Multimedia nhỏ hơn để có thlưu trtrong các đơn vị lưu trnhỏ  
hơn.  
Với việc sp xếp lưu trphân cấp, các đối tượng Multimedia có thể được  
lưu trữ ở các mức độ khác nhau, khi mà tlsử dụng các đối tượng d ữ liu  
Multimedia thay đổi các đối tượng này cn phi được phân phi lại có thđược  
lưu trtrên các thiết bkhác, tại các mức khác nhau ca hthống lưu tr. Vn đề  
cn gii quyết lúc này chlà tìm ra gii pháp tối ưu cho vic phân rã, phân phối và  
- 18 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
tái phân phi các đối tượng Multimedia.  
1.3.3 Tích hợp Multimedia, thể hiện và chất lượng của dịch vụ (QoS)  
Khác vi các dliu truyn thống, dliệu Multimedia đòi hỏi các ràng  
buc vsthể hin điu này bt nguồn từ đặc tính liên tc ca mt skiu dữ  
liệu Multimedia mà chúng đòi hi thhin mt slượng nht định dliu trong  
một khong thời gian nhất định mà kết quả đem lai cho người dùng vn phải đảm  
bảo được đặc trưng ca các kiu dliu đó. Khi mà dliệu Multimedia được btrí  
phân tán và truyn đi trên mng thì các vn đề vthhin càng trnên cp thiết  
hơn, chúng ta đã bắt gp điu này trong trường hợp băng thông hn chế. Các dữ  
liu liên tục được định nghĩa là phc thuộc vào thi gian, vì vy thi gian trthành  
mt yếu tquan trọng trong vic phân phát và thể hin chúng. Vì vy trong  
MDBMS, thi gian hồi đáp đối vi mt câu hi thường được đánh giá bi ctính  
chính xác và chất lượng đối vi các kết quả khai thác.  
Đứng tquan điểm của người dùng, chất lượng, mức độ chp nhn được  
vhiu suất của các loại dch vkhác nhau được cung cp bi hthng  
Multimedia và có thể ảnh hưng đến kết qucủa việc thhiện Multimedia. Vì  
vy, để htrcho việc thhin Multimedia trong điu kin người dùng có thxác  
định các mức độ QoS khác nhau đối vi các dch vụ khác nhau, MDBMS cn phải  
hỗ trợ các mức QoS và mt dịch vqun lý QoS, chúng thông thường được thực  
hin bng cách cung cp một ánh xtương ứng tQoS của người dùng sang QoS  
ca hệ thống ngưc lại.  
Khi thhiện các loại dliệu Multimedia khác nhau chng hn video và âm  
thanh cùng vi nhau các vn đề vtích hợp đồng bcác loi phương tin trở  
nên hết sức quan trọng. MDBMS cn phi cung cp mt cơ chế để đảm bo sự  
đồng btrong việc thể hin cũng như đáp ứng được các yêu cu khác như tlệ  
sn sàng ca dliu và QoS. Trong mt vài trường hợp, MDBMS có thphải dựa  
vào mt cơ chế qun lý đồng bộ hoá để đảm bo được sự đồng bộ với một kiu dữ  
liu cho trước hoặc gia các kiu dliu khác nhau.  
- 19 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
1.3.4 Chỉ số hoá Multimedia  
Cũng như trong các CSDL truyn thng, các dliệu Multimedia có thể  
được khai thác thông qua các định danh, các thuc tính, các tkhoá và sliên kết  
giữa chúng. Các từ khoá là phương thc chiếm ưu thế trong việc sử dụng để chsố  
hoá dliu Multimedia. Con người thường chọn các từ khoá tmt tập các từ  
vựng nhất định, điu này to ra mt skhó khăn khi áp dụng đối vi dliu  
Multimedia vì chúng thường được làm mt cách thcông và rất tốn thi gian và  
các kết quthường là chquan và rất hn chế phthuộc vào tvựng.  
Một phương thc khác được sdụng dựa trên vic truy cp nội dung, nó  
xem xét đến nội dung thc sca dliệu Multimedia hoc xuất phát tngữ  
cnh của thông tin. Trong thi gian gn đây, vic nghiên cứu chshoá da  
trên nội dung đã được tiến hành hết sc mnh mvi mục đích là chshoá dữ  
liệu Multimedia da trên các đặc trưng xác định thu được trc tiếp tdliệu.  
Các đặc trưng khác nhau như mu sắc, hình dng, kết cu bmặt, các chuỗi đặc  
trưng và các đặc trưng khác đã được dùng để chỉ số hoá các nh.  
Để thu được các đặc trưng này đòi hỏi phi phân tích tự động dliệu  
Multimedia, các phương thức chính được sdụng đối vi dliu nh và dliu  
video là xảnh, đoán nhn nh và phân tích chuỗi video. Đối vi dliu  
video, chuỗi video trước tiên được phân tách thành các chui hợp thành, sau đó  
các đặc trưng tóm tắt (thường là các frame khoá) sẽ được la chọn để đặc trưng cho  
mi chui. Việc chshoá tiếp theo đối vi dliu video cũng da trên các frame  
khoá cũng giống như đối vi dliu nh  
Đối vi dliu âm thanh, việc chshoá da trên nội dung có thcó sự  
tham gia ca vic phân tích tín hiu, tự động nhn biết lời nói cùng với việc chỉ  
shoá da trên từ khoá. Mt khác, việc chshoá có thdựa trên các thông tin  
khác phthuộc vào kiu ca dliu âm thanh, ví dmt vài nhà phát trin đã sử  
dụng các đặc trưng vnhịp điu, hợp âm và giai điu cho việc chshoá da  
trên nội dung đối vi dliu âm thanh. Tương tự như vy, việc tìm kiếm và  
khai thác dliu âm thanh da trên ni dung đã được đề xuất da trên các đặc  
- 20 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
tính ca dliu âm thanh như đã được chra qua các đăc trưng về âm hc và giác  
quan..  
Việc chshoá da trên nội dung cũng gi ra mt vài vn đề cn quan tâm.  
Trước hết, cũng vi mt dliệu Multimedia nhưng mỗi người có thhiu theo  
mt cách khác nhau. Thhai, người dùng thường cn các thông tin thay đổi khác  
nhau, vì vy một đặc trưng duy nhất có thkhông đđchỉ số hoá hoàn toàn  
một kiu dliệu Multimedia cho trước. Mt vn đề khác cn phải xem xét là vn  
đề hiu qu, việc chshoá phải nhanh và các chsnày phi được lưu trmột  
cách hiu quả để phc vcho vic truy cp ddàng khi mà slượng các dliệu  
Multimedia được lưu trlà rất lớn. Bi vì đặc tính vốn có ca dliệu Multimedia  
là rt khác nhau nên việc chshoá không thtiến hành một cách hoàn toàn tự  
động, đơn cử như máy tính có thphân tích ddàng mt bức ảnh có cha các tác  
phẩm nghthut, nhưng nó gn như không thtự động xác định đưc ý nghĩa  
ca tác phm đó, điều đó chcó con ngưi làm được.  
1.3.5 Hỗ trợ truy vấn Multimedia, khai thác và duyệt qua.  
Các câu hi của người dùng thường được xlý sdng các chscó sn,  
tuy nhiên khác với CSDL truyn thống tính chính xác trong tìm kiếm đối vi dữ  
liệu Multimedia không phi là chính xác tuyt đối. Thông thường khi so sánh hai  
dữ liu Multimedia thì kết quthu được thường là gn đúng hoặc tương tự, giả  
strong trường hp các dliu này có cùng dliu đầu vào thì kết quthu được  
tmt câu hi có thsinh ra rất nhiu giá tr. Đã có rt nhiu các nghiên cứu đi  
sâu vào việc tìm ra một phương thc thích hợp trgiúp cho người dùng có được  
một khnăng hiu quả để khai thác các dliệu Multimedia, chng hn thông qua  
vic cung cp các giao din thích hợp để người dùng có thduyệt mt cách thun  
li các kết quđược tquá trình tìm kiếm. Việc htrduyệt mt cách trc  
tiếp cho phép người sdụng có thkhai thác bất kthông tin nào có khnăng liên  
quan đến kết quhin thi bng cách la chn các mc dliu tương ứng cn quan  
tâm sâu hơn.  
Truy vn bng ví d(Query-by-Example) là một phương thức chính được  
- 21 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
sdụng để nhập các câu hỏi đối vi CSDL Multimedia, đặc biệt đối vi dữ  
liu nh. Ở đây người dùng đưa ra các yêu cu bng cách sdụng mt mu có  
sn (ví dụ như một ảnh tương t), vì vy giao din được sdụng để nhp câu hỏi  
vào hthống trthành mt vn đề cn phi quan tâm. Do tính cht đa dng ca  
các kiu dliu Multimedia nên mỗi kiu dliệu Multimedia có thphải có các  
giao din truy vn khác nhau, vn đề cn được xem xét ở đây là làm thế nào để  
tích hợp được các giao din khác nhau vào mt hthống tích hp CSDL  
Multimedia. Mt vn đề khác cũng cn phi gii quyết là vic bao gm truy vấn  
các dliu không gian hoc truy vấn các dliu tạm thời đòi hỏi phi có các  
thông tin không gian hoặc tạm thi.  
1.3.6 Quản trị CSDL Multimedia phân tán  
MDBMS phân tán có thể được hiu là mt bcác MDBMS độc lp (các  
MDBMS này có thrt khác nhau) nằm tại các vtrí khác nhau mà có thgiao  
tiếp hoặc trao đổi dliệu Multimedia với nhau thông qua mng. Các hthng  
Multimedia thường được phân tán với quan niệm mt stương tác Multimedia  
đơn lthường liên quan đến việc dliu thu được tcác nguồn thông tin phân  
tán khác nhau. Điu này thường thy trong các môi trường Multimedia cng tác  
khi mà các người dùng có thtcác địa điểm vật lý khác nhau thao tác và là người  
to ra cùng mt tài liệu Multimedia. Ngoài ra, các vấ n đề vlưu trvà phát sinh  
dliu bt buc các nhà thiết kế hthống Multimedia phải btrí dliệu  
Multimedia các địa điểm khác nhau.  
Để htrcho vic truy vn trong môi trường phân tán và cộng tác này ,  
một MDBMS phân tán phải xác định được các vn đề tổng quát của CSDL phân  
tán như xlý truy vn phân tán và song song, qun trcác giao dch phân tán ,  
strong sut dliu, an toàn dliu.. Ngoài ra các vn đề vhthống mng như  
băng thông hoc độ trcũng là các vn đề quan trọng cn phải lưu tâm nht là khi  
chúng có xu hướng bất lợi đối vi việc htrQoS.  
Không giống như DBMS truyn thống, việc tái to dliu thường không  
được khuyến khích trong MDBMS phân tán do slượng dliu khổng lồ.  
- 22 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Mô hình tính toán Khách-Ch(client-server), trong đó các dch vụ ứng dụng  
ca máy chphc vcho nhiu ứng dụng khách khác nhau (các dch vca  
server và các ứng dụng client có thể nằm các máy khác nhau) đã được chứng  
minh là thích hợp nhất cho các các hthống Multimedia trong cả trường hợp tổng  
quát cũng như đối với MDBMS phân tán.  
1.3.7 Sự hỗ trợ của hệ thống  
Các ứng dng Multimedia và các hthống CSDL Multimedia phân tán  
đặt ra các yêu cu mới đối vi tất ccác khía cnh ca hthống máy tính, tcác  
yêu cu vhệ điu hành, hthống mng cũng như các yêu cu vphn cứng.  
Hu hết các hệ điu hành hin tại ca htrcác xlý mang tính thi gian  
thc. Mt vài dliệu Multimedia chng hn như các dliu có tính liên tc có  
thể đòi hi các tính năng phân phát và thể hin thời gian thực mc dù các yêu cu  
vthời gian thực này có thể không nghiêm ngặt như đối vi các yêu cu vthi  
gian thc thường bắt gp đối với phn cứng. Vì vy, các hthống CSDL  
Multimedia không thcung cp đầy đủ các tính năng cn thiết theo yêu cu trkhi  
các htrthi gian thc cho các thiết bMultimedia trthành mt phn không  
thể thiếu ca hệ điu hành.  
Các đặc tính khác ca Multimedia chng hn như slượng lớn dliu cn  
phải lưu trcó thể đòi hi mt sràng buộc đặc bit đi vi hthống vmt qun  
lý bnhớ, hiu suất ca CPU. Các vn đề khác cũng cn phải xem xét đến ở đây  
bao gm vic qun lý cơ chế vào/ra (I/O) của phn cứng nhằm mục đích htrợ  
cho các kiu khác nhau có mặt trong CSDL Multimedia, hthống mng vin  
thông cũng phi đảm bo cho việc truyn tải dữ liệu cho các môi trường  
Multimedia phân tán đáp ứng các đòi hỏi nghiêm ngặt của QoS đi vi các ứng  
dụng cthể.  
1.4 Kết luận  
CSDL multimedia và các vấn để khác có liên quan đến nó như việc tổ chức,  
khai thác nội dung thông tin vv.. đã và đang là những vấn đề mang tính thời sự của  
- 23 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
CNTT. Trong chương này của bản luận văn đã đề cập được một số vấn đề mang  
tính chất cơ sở của cơ sở dữ liệu đa phương tiện như cách thức và mô hình lưu trữ  
dữ liệu, cách thức chỉ số hoá cũng như các yêu cầu và các vấn đề cần được giải  
quyết đối với một hệ thống quản trị cơ sở dữ liệu đa phương tiện (MDBMS). Tuy  
nhiên, với mục đích và yêu cầu của chủ đề nghiên cứu là trình bày các vấn đề liên  
quan đến việc tìm kiếm dữ liệu văn bản theo nội dung trong c ơ sở dữ liệu đa  
phương tiện nên trong chương tiếp theo của luận văn này sẽ trình bày một số kỹ  
thuật chỉ mục và tìm kiếm tài liệu văn bản.  
- 24 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN  
BẢN THEO NỘI DUNG  
2.1 Giới thiệu htìm kiếm thông tin  
2.1.1 Kỹ thuật tìm kiếm thông tin  
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật tìm kiếm thông  
tin (IR – Information Retrieval). Kỹ thuật IR trong hệ thống đa phương tiện rất quan  
trọng vì hai lý do chính sau đây:  
Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Mà văn bản  
là tài nguyên rất quan trọng đối với các cơ quan tổ chức. Do đó cần có IR đủ tốt để  
sử dụng có hiệu quả các thông tin lưu trữ trong các tài liệu.  
Văn bản được sử dụng để mô tả các media khác như video, audio, ảnh để  
có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa phương  
tiện.  
Hai nhiệm vụ chính của thiết kế hệ thống IR nhằm giải quyết vấn đề sau:  
Trình diễn và truy vấn tài liệu như thế nào?  
So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao?  
Các mô hình truy vấn sẽ xác định hai khía cạnh này. Có bốn mô hình truy vấn hay  
được sử dụng, đó là:  
Đối sánh chính xác (exact match),  
Không gian vector,  
Xác suất  
Trên cơ sở cụm (cluster-based).  
Trong kỹ thuật đối sánh chính xác (hoàn toàn), mô hình Boolean hay được sử  
dụng nhất.  
- 25 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
     
Mặc dù các mô hình truy vấn khác nhau, sử dụng sự trình diễn và chỉ mục tài  
liệu khác nhau, nhưng nói chung tiến trình chỉ mục được sử dụng trong chúng là  
tương tự nhau. Để nâng cao hiệu năng truy vấn, việc xử lý ngôn ngữ tự nhiên và các  
kỹ thuật trí tuệ nhân tạo được áp dụng.  
Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, cho nên  
hầu như không thể truy vấn mọi tài liệu (items) liên quan hay loại đi mọi tài liệu  
không liên quan. Do vậy, thước đo hiệu năng IR là rất quan trọng.  
Các kỹ thuật IR rất phổ biến vì nó được sử dụng trong các môtơ tìm kiếm của  
WWW.  
2.1.2 Một số vấn đề trong tìm kiếm thông tin  
Kể từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm  
thông tin đã thu hút sự chú ý rất lớn. Với một lượng thông tin khổng lồ thì việc tìm  
kiếm chính xác và nhanh chóng càng trở nên khó khăn hơn. Với sự ra đời của máy  
tính, rất nhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông  
minh và chính xác. Tuy nhiên, vấn đề tìm kiếm sao cho hiệu quả vẫn chưa được giải  
quyết.  
Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản. Giả  
sử có một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến  
yêu cầu của mình. Người đó có thể đọc tất cả các tài liệu trong kho, giữ lại các tài  
liệu liên quan và bỏ đi các tài liệu không liên quan. Rõ ràng giải pháp này không  
thực tế bởi vì tốn rất nhiều thời gian.  
Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho con  
người để trích ra các tài liệu có liên quan trong toàn bộ tập dữ liệu. Tuy nhiên vấn  
đề lúc này là làm sao để xác định được tài liệu nào liên quan đến yêu cầu của người  
sdụng. Do đó, mục tiêu của một hệ thống tìm kiếm thông tin tự động là truy tìm  
được tất cả các tài liệu có liên quan đến yêu cầu của người sdụng.  
- 26 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
2.1.3 Hệ thống tìm kiếm thông tin – IRS  
Các hệ thống tự động tìm kiếm thông tin (IR - Information Retrieval) đã  
được phát triển để quản lý khối lượng lớn tài liệu từ những năm 40 của thế kỷ XX.  
Chức năng chính của hệ thống IR là lưu trữ và quản trị khối lượng văn bản lớn theo  
cách sao cho dễ dàng truy vấn ( query) tài liệu mà người sử dụng quan tâm. Chú ý  
rằng đồng nghĩa với IR là text IR dù rằng ý nghĩa đầy đủ của khái niệm IR là đề cập  
đến tìm kiếm bất kỳ loại thông tin nào.  
Sau đây là định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả:  
Salton (1989):  
“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu về thông  
tin, xác đnh và tìm từ các tập tin những thông tin phù hợp với những yêu cầu về  
thông tin. Việc tìm kiếm những thông tin đặc thù phụ thuộc vào sự tương tự giữa  
các thông tin đưc lưu trữ và các yêu cầu, được đánh giá bằng cách so sánh các giá  
trị của các thuộc tính đối với thông tin được lưu trữ và các yêu cầu về thông tin.”  
Kowalski (1997) :  
“Hệ thống tìm kiếm thông tin là một hệ thống có khả năng lưu trữ, tìm kiếm và duy  
trì thông tin. Thông tin trong những trường hợp này c ó thể bao gồm văn bản, hình  
ảnh, âm thanh, video và những đối tượng đa phương tiện khác.”  
Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp người sử  
dụng có thể tìm thấy các thông tin mình cần trong một khối lượng lớn dữ liệu.  
Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự như nhiệm vụ tổ chức phân  
loại tài liệu và phục vụ việc tra cứu của một thư viện. Một hệ thống tìm kiếm thông  
tin có hai chức năng chính: lập chỉ mục (indexing) và tra cứu (interrogation). Lập  
chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục  
(term/index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào  
một cấu trúc phân lớp có sẵn (control vocabulary) như cách làm của các nhân viên  
thư viện, phân loại tài liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách  
làm này là tồn tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút  
- 27 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
trích các chỉ mục từ chính nội dung của tài liệu (free text). Trong luận văn này tác  
gichỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các tài  
liệu có trong kho tài liệu (corpus) được biểu diễn bằng tập các chỉ mục.  
Mô hình tổng quát tìm kiếm thông tin:  
Phù hợp  
người sử dụng  
Người sử dụng  
Tài liệu  
Truy cập  
Thế giới thực  
Phù hợp hệ  
thng  
Hệ thống cụ thể  
Các yêu cầu  
CSDL tài liệu  
Mô hình  
Mô hình  
Đối sánh  
tài liệu  
yêu cầu  
Mô hình tìm  
Tri thức  
kiếm thông tin  
Hình 2.1 Mô hình tổng quát tìm kiếm thông tin  
Mô hình 2.1 gm 4 thành phần:  
Mô hình yêu cầu: Sdụng đbiểu diễn yêu cầu của người sdụng.  
Mô hình tài liệu: Biểu diễn trừu tượng tài liệu thực và nội dung của chúng.  
Hàm ánh xạ (đối sánh) : Xác đnh sự phù hợp của hệ thống đối với yêu  
cầu.  
Tri thức: Biểu diễn các tri thức để mô tả ngữ nghĩa thuộc lĩnh vực tài liệu.  
Biểu diễn hình thức:  
D – Biểu diễn các tài liệu Docs  
Q – Biểu diễn câu truy vấn Query (yêu cầu)  
- 28 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
F- Khung mô hình hóa của D, Q và quan hệ giữa chúng  
R(q, di) – Hàm đối sánh hay xếp hạng  
Quy trình của hệ thống tìm kiếm thông tin như sau:  
+ Người sdụng muốn xem tài liệu liên quan đến một chủ đề nào đó.  
+ Người sdụng cung cấp mô tả về tài liệu muốn xem dưới dạng câu truy vấn.  
+ Từ câu truy vấn này hệ thống lọc ra những cụm từ và chỉ mục của tài liệu đã được  
xlý trước đó.  
+ Những tài liệu nào liên quan cao nhất với mô tả sẽ được trả về cho người sdụng.  
Mục đích của IR là hiển thị một tập thông tin thỏa mãn nhu cầu của người sử  
dng. Chúng ta đnh nghĩa thông tin yêu cầu là câu truy vấn (Query), thông tin tìm  
được là tài liệu (Document). Mục đích của hệ thống IR là tự động tìm kiếm các tài  
liệu bằng cách kiểm tra độ tương quan giữa câu truy vấn và đặc trưng của tài liệu.  
Kết quả thành công khi kết quả trả về của hệ thống phù hợp với yêu cầu của câu  
truy vấn.  
Hthống IR gồm các bản ghi không có cấu trúc. Chúng không chứa các  
thuộc tính cố định. Nó chỉ đơn thuần là tài liệu văn bản. Các tài liệu này có thể chỉ  
mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục. Mỗi  
thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh  
nào đó, không đy đủ và không rõ ràng cho toàn bộ nội dung văn bản. Nhiều thuật  
ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể. Bởi vì các thao tác truy vấn  
văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu  
trữ, do vậy cần phải có nhiều cố gắng để tập trung vào phân tích nội dung của các  
tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục.  
Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh chính xác  
giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết quả. Thay vì, truy  
vấn các mục liên quan với đủ mức độ tương đồng giữa tập thuật ngữ gắn theo câu  
truy vấn và tài liệu, được sinh ra bởi phương pháp xấp xỉ hay đối sánh từng phần.  
Hơn nữa cùng thuật ngữ có thể có nhiều ý nghĩa khác nhau.  
- 29 -  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  

Tải về để xem bản đầy đủ

pdf 87 trang yennguyen 25/04/2025 20
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_phat_trien_chuong_trinh_thu_nghiem_ap_dung_ky_thuat.pdf