Luận văn Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

2
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
NGUYỄN THỊ THU TRANG  
KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG  
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN  
LUẬN VĂN THẠC SỸ  
Nội - 2010  
3
MỤC LỤC  
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT  
DANH MỤC CÁC BẢNG  
5
6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ  
MỞ ĐẦU  
7
8
CHƯƠNG 1- TỔNG QUAN  
11  
11  
11  
13  
13  
14  
15  
16  
17  
17  
17  
18  
20  
21  
25  
25  
25  
26  
27  
28  
29  
31  
33  
36  
37  
38  
39  
40  
40  
42  
1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12]  
1.1.1 Giới thiệu  
1.1.2 Mục tiêu chính  
1.1.3 Mô hình dữ liệu đa phương tiện  
1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1]  
1.2.1 Trích chọn đặc trưng  
1.2.2 Chỉ số hóa cấu trúc  
1.2.3 Đo tính tương tự  
1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13]  
1.3.1 Khái quát  
1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval)  
1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System)  
1.4 xếp hạng tài liệu (Ranking) [1] [8]  
CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM  
2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11]  
2.1.1 Truy vấn Boolean  
2.1.2 Cấu trúc tệp  
2.1.3 Các từ dừng và từ gốc  
2.1.4 Chỉ số hoá và bổ sung  
2.1.5 Kthut nén chs(index compression)  
2.1.6 Chỉ mục tự động  
2.2 Thước đo hiệu năng [1] [5] [8]  
2.3 Mô hình truy tìm không gian vectơ [1] [11]  
2.4 Mô hình truy tìm theo xác suất [1] [6]  
2.5 Mô hình truy tìm trên cơ sở cụm [1] [6]  
2.6 Kỹ thuật phản hồi phù hợp [1] [11]  
2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9]  
2.7.1 Ý tưởng cơ bản của LSI  
2.7.2 Một số khái niệm cơ bản  
4
2.7.3 Kỹ thuật SVD (singular value decomposition)  
CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI  
3.1 Bài toán  
43  
54  
54  
55  
56  
60  
61  
3.2 Chức năng của chương trình  
3.3 Hoạt động cơ bản trong chương trình  
KẾT LUẬN  
TÀI LIỆU THAM KHẢO  
5
DANH MỤC CÁC KÝ HIỆU, CÁC CHVIẾT TẮT  
Ký hiệu viết tắt  
Tiếng Anh  
Tiếng Việt  
CSDL  
DBMS  
IDF  
DataBase  
Cơ sở dữ liệu  
DataBase Manager System  
Inverse Document Frequency  
Information retrieval  
Hệ quản trị Cơ sở dữ liệu  
Tần số xuất hiện tài liệu  
Truy tìm thông tin  
IR  
LSI  
Latent Semantic Indexing  
Chỉ số hóa ngữ nghĩa ẩn  
MIRS  
Multimedia Information Retrieval Hệ thống truy tìm thông tin đa  
System  
phương tiện  
SVD  
TF  
Singular Value Decomposition  
Term Frequency  
Tách giá trị riêng  
Tần số xuất hiện thuật ngữ  
6
DANH MỤC CÁC BẢNG  
Bảng 1.1 Ma trận tài liệu - thuật ngữ..............................................................................23  
Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF ....................................................24  
Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu..........................................24  
Bảng 2.1 Kết quả recall và precision ..............................................................................35  
Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liu.............................................44  
7
DANH MỤC CÁC HÌNH V, ĐỒ THỊ  
Hinh 1.1 Mô hình dữ liệu đa phương tiện .......................................................................14  
Hình 1.2 Hệ thống IR tiêu biểu .......................................................................................19  
Hình 1.3 Tiến trình truy vấn tài liệu................................................................................21  
Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động .....................................................29  
Hình 2.2 Mô tả recall......................................................................................................33  
Hình 2.3 Mô tả Precision................................................................................................34  
Hình 2.4 Đồ thị so sánh hiệu năng..................................................................................35  
Hình 2.5 Sử dụng các khái niệm cho truy vấn .................................................................41  
Hình 2.6 Biểu đồ 2-D của 12 thuật ngữ và 9 tài liệu từ tập mẫu......................................45  
Hình 2.7 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liu..........................46  
Hình 2.8 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu .................47  
Hình 2.9 Đồ thị Recall – Precision của thuật toán LSI....................................................53  
Hình 3.1 Sơ đồ chức năng...............................................................................................55  
Hình 3.2 Chức năng thêm tài liệu ...................................................................................56  
Hình 3.3 Chức năng xóa tài liệu .....................................................................................56  
Hình 3.4 Chức năng phân tích và tìm kiếm tại bước 1.....................................................57  
Hình 3.5 Chức năng phân tích và tìm kiếm tại bước 2.....................................................57  
Hình 3.6 Chức năng phân tích và tìm kiếm tại bước 3.....................................................58  
Hình 3.7 Chức năng phân tích và tìm kiếm ở những bước cuối cùng...............................59  
Hình 3.8 Đồ thị biểu diễn các vecto tài liệu và vecto truy vn.........................................59  
8
MỞ ĐẦU  
Hàng nghìn năm trước con người đã nhận thức được tầm quan trọng của việc  
lưu trữ và tìm kiếm thông tin. Với sự phát triển của máy tính, việc máy tính có khả  
năng lưu trữ thông tin với số lượng lớn và tìm kiếm thông tin có ích từ các tập hợp trở  
nên cần thiết. Lĩnh vực truy tìm thông tin (Information Retrieval - IR) ra đời vào  
những năm 1950 vì nhu cầu thiết yếu này. Hơn 40 năm sau, lĩnh vực đó trưởng thành  
đáng kể, nhiều hệ thống IR được sử dụng phổ biến với sự đa dạng trạng thái của người  
sử dụng. Sự phát triển của lĩnh vực này trong những năm 1970 đến những năm 1980  
dựa trên nền tảng của những năm trước đó, nhiều mô hình thực hiện truy tìm tài liệu  
khác nhau được phát triển và tiến bộ theo mọi khía cạnh của quá trình truy tìm. Những  
mô hình kỹ thuật mới được chứng minh qua thực nghiệm, có hiệu quả trong những tập  
hợp văn bản nhỏ, có thể dùng cho các nhà nghiên cứu ở thời gian đó. Tuy nhiên, vì  
không có hiệu quả đối với những tập hợp văn bản lớn, câu hỏi có hay không những mô  
hình và những kỹ thuật có thể đáp ứng được với thể lớn hơn vẫn chưa được trả lời. Sự  
thay đổi lớn vào năm 1992, với sự khởi đầu bằng cuộc thảo luận về truy tìm văn bản,  
sau đó một loạt thảo luận kiểm định đứng đầu bởi nhiều hãng khác nhau của Mỹ dưới  
sự bảo hộ của Vin Tiêu chuẩn và Công nghquốc gia (NIST), nhằm vào việc khuyến  
khích nghiên cứu về hệ thống IR với những tập hợp văn bản lớn. Những thuật toán IR  
đã phát triển trong những năm từ năm 1996 đến năm 1998, là những kỹ thuật đầu tiên  
được dùng cho việc tìm kiếm trên mạng toàn cầu.  
Ngày nay, sự phát triển nhanh chóng của lĩnh vực thông tin và Internet đã tạo ra  
một khối lượng thông tin vô cùng lớn với sự phong phú, đa dạng và phức tạp của loại  
hình thông tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện… Tương  
ứng với khối lượng dữ liệu khổng lồ đó, người ta quan tâm nhiều đến cơ sở dữ liệu đa  
phương tiện (Mutimedia Database) trong khoa học công nghệ và trong thực tiễn. Với  
hệ thống cơ sở dữ liệu đa phương tiện, bao gồm dữ liệu dạng hình ảnh, video, audio và  
văn bản (text) đang có xu thế thâm nhập vào rất nhiều lĩnh vực và đang dần trở thành  
hệ cơ sở dữ liệu được quan tâm từ người sử dụng và các chuyên gia trong vấn đề lưu  
trữ, xử lý và ứng dụng.  
Cho đến nay, vấn đề tìm kiếm thông tin đa phương tiện vẫn được các chuyên  
gia nghiên cứu, trong việc truy tìm thông tin phù hợp với yêu cầu của một truy vấn đưa  
ra tngười sdụng. Người sử dụng có xu hướng tìm kiếm chủ yếu trong hệ cơ sở dữ  
liệu đa phương tiện, ví dụ như tìm kiếm một loạt hình ảnh cổ vật liên quan đến nền văn  
hoá cổ Việt Nam, tìm kiếm dữ liệu âm thanh có bản text kèm theo, tìm kiếm video bài  
giảng cho học sinh ôn thi đại học... Để thực hiện được việc tìm kiếm đó trong cơ sở dữ  
liệu đa phương tiện thì những người làm khoa học đã nghiên cứu ra các công cụ,  
9
phương pháp, kỹ thuật tìm kiếm sao cho thuận tiện, chính xác và nhanh chóng đem lại  
được thông tin phù hợp với yêu cầu của người sử dụng.  
Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được quan tâm  
từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ, điển hình như bảng nội  
dung của một cuốn sách. Ngày nay, slớn mạnh của thông tin với phần lớn là dạng  
văn bản, hơn nữa nó xuất phát từ nhu cầu thực tế sử dụng của con người. Tài liệu văn  
bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện và còn được sử  
dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh.  
Số lượng tài liệu văn bản ngày càng lớn và có vai trò vô cùng quan trọng, vì thế việc  
việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thể thực hiện  
được. Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng ngày càng  
hoàn thiện dựa trên những kỹ thuật hiện đại phục vụ cho nhu cầu đó.  
Các mô hình truy tìm hay được sử dụng trong phạm vi này, đó là: Đối sánh  
chính xác, không gian vectơ, xác suất và trên cơ sở cụm. Song, nhược điểm cơ bản của  
các mô hình truy tìm thông tin hiện nay là những từ mà người tìm kiếm sử dụng,  
thường không giống với những từ đã được đánh chỉ mục trong thông tin tìm kiếm. Vấn  
đề này liên quan nhiều đến hai khía cạnh thực tế, đó là tính đồng nghĩa (synonymy)-  
cùng một thông tin nhưng được miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ  
cảnh hay mức độ cần thiết, ví dụ như: nhìn, xem, trông, thấy có cùng ý nghĩa; và tính  
đa nghĩa (polysemy) – cùng một từ có nhiều ý nghĩa khác nhau trong ngữ cành khác  
nhau, ví dụ như: đi (có thể là chỉ chuyển động hay chỉ sự mất mát). Kết quả truy tìm có  
thể gồm những tài liệu không liên quan, đơn giản vì những thuật ngữ xuất hiện ngẫu  
nhiên trong nó giống với thuật ngữ trong truy vấn và mặt khác, những tài liệu liên  
quan có thể bị bỏ qua bởi không chứa các thuật ngữ xuất hiện trong truy vấn (do tính  
đồng nghĩa). Một ý tưởng thú vị xem liệu việc truy tìm có thể dựa vào các khái niệm  
có hiệu quả hơn so với truy tìm trực tiếp trên các thuật ngữ. Mô hình LSI (Latent  
Semantic Indexing) ra đời, là một giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa  
trên cơ sở nội dung tài liệu văn bản, tìm kiếm trên cơ sở những khái niệm (không phải  
trên các thuật ngữ đơn).  
Trước khi truy tìm, các tài liệu được coi như danh sách các từ và chúng phải  
được đánh chỉ mục. Có một thực tế là không phải tất cả các từ đều có ý nghĩa, vì vậy  
việc loại đi danh sách các từ không có nghĩa vô cùng quan trọng và các từ không có ý  
nghĩa sẽ không được đánh chỉ mục. Từ thông tin tóm lược của người sử dụng biểu thị  
qua truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập các tài  
liệu trong câu trả lời luôn ưu tiên cho những thông tin có ích và phù hợp với truy vấn  
người sử dụng đưa ra. Hơn thế nữa, một kỹ thuật được đánh giá là tốt phải dựa trên  
việc xếp hạng các tài liệu này, tức là những tài liệu phù hợp và được coi là “gần” với  
10  
câu truy vấn nhất sẽ được xếp lên trên các tài liệu ít phù hợp hơn trong danh sách tài  
liệu trlời. Đánh giá chất lượng IR còn phụ thuộc vào thước đo hiệu năng thực hiện  
của kỹ thuật đó dựa vào các tham số chủ yếu độ chính xác (precison) và stài liệu  
được gọi lại (recall).  
Trên cơ sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo  
và phần nội dung gồm ba chương và được trình bày theo thứ tự sau:  
Chương 1. Giới thiệu tổng quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài  
liệu và các yếu tố cơ bản phục vụ cho việc tìm kiếm thông tin. Khái quát về một hệ  
thống truy tìm thông tin (IR) tiêu biểu và cụ thể là truy tìm tài liệu văn bản.  
Chương 2. Đề cập đến vấn đề chỉ mục tài liệu và thước đo hiệu năng. Nghiên  
cứu một số mô hình tìm kiếm như: Boolean, không gian vectơ, phân cụm, dựa trên xác  
suất, phản hồi phù hợp và LSI.  
Chương 3. Cài đặt thực nghiệm mô hình LSI.  
Nội dung luận văn đi từ tổng quan về cơ sở dữ liệu đa phương tiện, hệ thống  
tìm kiếm đa phương tiện đến kỹ thuật chỉ mục, xử lý tài liệu, trích lọc thông tin đến chi  
tiết vấn đề tìm kiếm trên tài liệu văn bản. Đặc biệt, nghiên cứu các mô hình tìm kiếm  
và đi sâu nghiên cứu mô hình LSI- tìm kiếm văn bản trên cơ sở nội dung.  
11  
CHƯƠNG 1 - TNG QUAN  
1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12]  
1.1.1 Giới thiệu  
Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi, internet,  
qua phương tiện truyền thông hay có được từ nhiều phương tiện khác nhau như máy  
quay (video) kỹ thuật số... Các dòng dữ liệu số càng ngày càng tăng, các loại dữ liệu  
đa phương tiện kết hợp của dữ liệu hình ảnh, âm thanh, văn bản…  
Hiện nay, chúng ta đều biết internet đang được phát trin như thế nào, rõ ràng  
trong quá trình tương tác và trao đổi thông tin, người sử dụng có xu hướng chủ yếu xử  
lý trên kiểu dữ liệu đa phương tiện và chúng ta thấy được sphát triển của kiểu dữ liệu  
này trong cuộc sống hiện đại. Tầm quan trọng của việc sử dụng thông tin sẽ dần dần  
thay đổi từ thông tin dạng số và rõ tới thông tin ở dạng đa phương tiện: dữ liệu hình  
ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương tiện là thông điệp cho xã hội  
thông tin ngày nay.  
Sự tương tác của người sử dụng tự nhiên hơn với thông tin và các thiết bị  
truyền thông, trong phạm vi rộng sẽ tạo ra một xã hội có giá trị vmọi mặt. Vì thế, có  
thể dự đoán được đa phương tiện sẽ thâm nhập vào tất cả các hệ thống thông tin, từ  
công việc hàng ngày tới thương mại, công việc văn phòng chuyên nghiệp, giao tiếp với  
khách hàng, giáo dục, khoa học, trong nghệ thuật và được truyền đi rộng rãi qua  
internet.  
Đa phương tiện có thể trở thành dng giao tiếp tự nhiên, nhưng nó không hoàn  
toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và xác thực hơn là dòng  
bit của hình ảnh và âm thanh. Trong đó, tín hiệu hình ảnh biểu thị cái gì, ý nghĩa của  
văn bản và nói gì về âm thanh là không dễ dàng lập luận với một máy tính. Những  
điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ liệu thô bằng việc tổ chức, chuyển  
đổi, phân tích và phân lớp.  
Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh  
ảnh, âm thanh và ngôn ngữ. Nó bao gồm sự tương tác của máy với dạng đa phương  
thức. Thêm vào đó, kiến thức và sự hiểu biết về các dạng đa phương tiện sẽ có được  
hiểu biết vbản chất của các dòng thông tin đa phương tiện. Các hệ thống thông tin đa  
phương tiện sẽ lưu và cung cấp truy cập đến các dòng dữ liệu, hệ thống ứng dụng  
thông tin trên tất cả các dạng. Trong phạm vi vấn đề này, đa phương tiện có thể được  
mô tả như mọi ứng dụng của dữ liệu thông tin trên một máy tính qua các dạng như  
hình ảnh, ngôn ngữ tự nhiên và âm thanh.  
Một số mô hình ứng dụng đa phương tiện như các thiết bị điện tử, hệ thống lưu  
trữ các kho chứa đa phương tiện lớn, sử dụng các tài liệu điện tử của đa phương tiện, y  
12  
tế điện tử và chính phủ điện tử. Ứng dụng đa phương tiện trở thành một phần không  
thể thiếu của các công việc trong nhiều cụm kinh tế. Ví dụ: phân tích hệ thống thông  
tin đa phương tiện sử dụng để giám sát, thu thập chứng cớ tòa án và an ninh chung…  
Việc phát sinh khối kiến thức đa phương tiện và kiến thức kỹ thuật được dùng để lưu  
trữ việc tạo hình ảnh, phim và âm thanh có thể được sử dụng trong di sản văn hóa và  
nền công nghiệp giải trí...  
Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo nghiên cứu  
EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng cao, sức chứa lớn  
với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng như các kiểu dữ liệu chữ số  
cơ bản khác và nó có thể quản lý một khối lượng rất lớn thông tin đa phương tiện.  
Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói, âm nhạc,  
tiếng động và mọi sự kết hợp các âm thanh khác nhau. Việc lưu lại một bài diễn  
thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào đó có ý nghĩa rất lớn  
trong thực tế. Ví dụ, qua đài phát thanh chúng ta có ththu thập được nhiều thông tin  
với các chủ đề khác nhau, có thể tìm kiếm các bài hát trên internet, thu thập các đoạn  
audio bài giảng trong đào tạo từ xa, học ngoại ngữ qua các đoạn audio...  
Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ dấu  
vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản lý nhân sự;  
trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện tượng thiên nhiên,  
trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu ảnh để có thể truy vấn các  
triệu trứng để tìm ra những căn bệnh tương tự không chỉ bằng văn bản mà bằng cả  
hình ảnh, ảnh chụp X quang, ảnh chụp cắt lớp... Trong thời gian gần đây, việc sử dụng  
CSDL ảnh đã mang lại hiệu quả to lớn trong nhiều lĩnh vực khác nhau của đời sống,  
kinh tế và xã hội.  
Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các thời  
điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định. Trên thực tế chính là  
chuyển động của các điểm ảnh từ trạng thái này sang trạng thái khác, hay là sự chuyển  
động của mỗi đối tượng riêng lẻ được phân tách từ dữ liệu video. Dữ liệu video được  
ứng dụng nhiều trong công nghệ giải trí (phim ảnh, clip âm nhạc..), trong đào tạo từ xa  
(qua những video bài giảng)... Nhiều phòng chức năng có nhiệm vụ lưu trữ và thu thập  
các video (tư liệu lịch sử, tư liệu khai quật khảo cổ học của địa phương hay quốc gia...)  
để nhằm phát triển khả năng trở thành bộ nhớ tiểu sử tự động (autobiographic  
memory).  
Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách tiếp cận  
với “túi các t” (bag – of – words). Theo thống kê, đến năm 2005 toàn bộ văn bản trên  
mạng có thể đã lên tới hàng chục TB. Các dữ liệu văn bản tiêu biểu như: Các trang  
web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố hàn lâm, các ứng dụng hỗ  
13  
trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục, chép sử, thư điện tử,  
các bản sao xét xử của toà án, kho thư viện... Điều quan trọng là khối lượng dữ liệu  
văn bản ngày càng lớn được sử dụng lưu trữ tài liệu trong mọi cơ quan tổ chức. Vì  
thế, quan tâm đến xử lý văn bản là rất cần thiết. Thực tế, tập văn bản sách trong một  
thư viện của một trường đại học nhỏ cũng có thể chứa đến 100GB lưu trữ, hay một nhà  
nghiên cứu trong 10 năm có đến 10MB tập văn bản, và cũng nhà nghiên cứu đó trong  
10 năm lưu trữ tài liệu thư điện tử có thể chiếm đến 100MB. Ngoài ra còn dùng các  
miêu tả bằng văn bản cho hình ảnh hay video, người ta có thể chèn các thuộc tính, các  
đoạn thuyết minh, chú thích cho các đối tượng đó.  
1.1.2 Mục tiêu chính  
Theo cách nhìn trên đây ta nhận thấy CSDL đa phương tiện bao gồm năm mục  
tiêu chính như sau:  
- Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện: các  
phương tiện (media) khác nhau và các thao tác thông thường cũng như các thao tác  
đặc biệt mà kiểu dữ liệu thông thường không có như tiến, lùi, dừng...  
- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện: đề cập đến  
không gian lưu trữ của CSDL.  
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả  
- Có các khả năng của hệ CSDL truyền thống  
- Có khả năng truy tìm thông tin đa phương tiện.  
1.1.3 Mô hình dữ liệu đa phương tiện  
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành  
trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng.  
Tầng đối tượng  
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và  
thời gian xác định, như với một đối tượng đa phương tiện là một trang bao gồm một  
vài hình ảnh và âm thanh kèm theo.  
Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và thời  
gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi  
mục. Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian, trong đó  
thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ sở đồng hồ chung. Phương  
pháp khác là mô hình điều khiển theo sự kiện.  
14  
Tầng đối  
tượng  
Không gian  
Thời gian  
Tổng hợp  
Tầng kiểu  
Văn bản  
Hình ảnh  
Âm thanh  
Video  
media  
Thô  
Nén  
Tầng  
khuôn  
mẫu  
media  
Đa mức  
Màu  
JPEG  
JPIG  
DPCM  
xám  
Hinh 1.1 Mô hình dữ liệu đa phương tiện  
Tầng loại media  
Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và video. Các  
loại này được suy diễn từ lớp media trừu tượng chung.  
Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media ảnh:  
kích thước, biểu đồ màu, các đối tượng chính chứa trong nó... được đặc tả. Các đặc  
trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách.  
Tầng khuôn mẫu media  
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ. Thông thường,  
media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn nữa có rất nhiều  
kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng này được sử dụng để giải  
mã, phân tích và trình diễn.  
Các nhiệm vụ khác  
Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau.  
Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì  
có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể.  
Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên, các ứng  
dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới hạn số đặc trưng và loại  
media. Rất nhiều công việc phải làm khi mô hình hóa dữ liệu đa phương tiện để phát  
triển MIRS và MMDBMS (MultiMedia DataBase Manager System) lớn nhất quán.  
1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1]  
Các đặc trưng và thuộc tính của dữ liệu (items) trong MIRS được trích chọn,  
tham số hóa và lưu trữ chung với chính các dữ liệu. Các đặc trưng và thuộc tính của  
15  
truy vấn cũng được trích chọn theo cùng cách thức nếu nó không được xác định rõ  
ràng trước. Hệ thống tìm kiếm các items trong CSDL với các thuộc tính và đặc trưng  
tương tự trên cơ sở thước đo tính tương tự nhất định. Để tìm kiếm hiệu quả, các đặc  
trưng và thuộc tính phải được tổ chức thành các cấu trúc có chỉ mục.  
1.2.1 Trích chọn đặc trưng  
Các mục thông tin đa phương tiện trong CSDL được tiền xử lý để trích chọn  
đặc trưng và thuộc tính.  
Trong tiến trình tìm kiếm, các đặc trưng và thuộc tính này được so sánh thay  
cho chính các mục thông tin. Do vậy, chất lượng của trích chọn đặc trưng xác định  
hiệu quả tìm kiếm. Nếu đặc trưng không được tách ra từ item thì không thể tìm thấy  
chúng từ CSDL theo đặc trưng đó. Đó là một trong sự khác biệt lớn nhất giữa MIRS  
và DBMS. Trong DBMS thì mọi thuộc tính là có sẵn và đầy đủ, trong khi đó các đặc  
trưng và thuộc tính phải được trích chọn theo loại truy vấn và thường là không đầy đủ  
trong MIRS.  
Trích chọn đặc trưng phải thỏa mãn các yêu cầu sau:  
Đặc trưng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu diễn nội  
dung của các mục thông tin.  
Các đặc trưng phải được trình diễn và lưu trữ một cách chặt chẽ, mạch lạc. Mục  
đích của việc trích chọn đặc trưng không phải là các đặc trưng phức tạp và đặc  
trưng lớn, quan trọng là nó phải có khả năng tìm kiếm và so sánh nhanh các  
mục thông tin với nhau.  
Tính toán khoảng cách giữa các đặc trưng phải hiệu quả, nếu không thời gian  
đáp ứng của hệ thống rất lớn.  
Tổng thể có 4 mức đặc trưng và thuộc tính như sau:  
Metadata: bao gồm các thuộc tính của các đối tượng đa phương tiện như tên tác  
giả, ngày tạo lập, tiêu đề đối tượng. Không mô tả hay diễn giải nội dung của đối tượng.  
Các thuộc tính này được quản lý bằng kỹ thuật DBMS. (Trong một số tài liệu cho rằng  
metadata bao gồm toàn bộ các mức đặc trưng và thuộc tính đang mô tả tại đây).  
Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản. Mô tả dưới hình  
thức nhiều từ khóa hay văn bản thông thường. Chỉ mục và tìm kiếm trên cơ sở mô tả  
bằng văn bản được quản lý bằng kỹ thuật IR. Mặc dù mô tả bằng văn bản có hạn chế là  
còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn là phương pháp hay được sử dụng  
và hiệu quả. Nên sử dụng mô tả bằng văn bản kết hợp với các đặc trưng khác trong  
ứng dụng đa phương tiện. Hiện tại, mô tả văn bản là tiến trình bằng tay, khá vất vả.  
Cần phát triển các công cụ bán tự động để hỗ trợ tiến trình này. Tri thức lĩnh vực và từ  
điển liệt kê luôn có ích trong việc đem lại hiệu quả truy vấn.  
Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối tượng đa  
16  
phương tiện và các quan hệ không gian, thời gian giữa các phần đối tượng. Mỗi media  
khác nhau có các đặc trưng nội dung mức thấp khác nhau.  
- Với âm thanh, đặc trưng mức thấp bao gồm âm lượng trung bình, phân bổ tần số  
và tỷ lệ câm.  
- Các đặc trưng mức thấp của ảnh bao gồm phân bổ màu, texture, hình dạng đối  
tượng và cấu trúc không gian.  
- Đặc trưng mức thấp của video bao gồm cấu trúc thời gian.  
Lợi thế chính của việc sử dụng đặc trưng mức thấp là có thể tự động trích chọn  
chúng.  
Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tượng. Ngoài nhận  
dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh hay các đối tượng  
nhìn là rất khó khăn. Trong ứng dụng với hữu hạn các đối tượng, việc mô tả và nhận  
biết các đặc trưng chung là rất hiệu quả. Ví dụ, dự báo tới 95% các video có mục tiêu  
chính là quay người hay nhóm người. Nó hữu ích cho các hệ thống để nhận biết và  
diễn giải liên quan đến con người. Hiện tại, tiến trình nhận dạng và diễn giải được thực  
hiện bán tự động.  
Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức cao gọi là  
truy vấn trên cơ sở nội dung. Một hệ thống cần sử dụng toàn bộ bốn mức đặc trưng sao  
cho hỗ trợ được các câu truy vấn mềm dẻo của người sử dụng. Các kỹ thuật này hỗ trợ  
nhau để hình thành mô tả đầy đủ về đối tượng. Ví dụ, mô tả văn bản tốt cho việc thu  
thập các khái niệm trừu tượng như cảm giác (vui, buồn...) nhưng không có khả năng  
mô tả mẫu dữ liệu đầy đủ về các hình dạng không đều hay texture. Mặt khác, các đặc  
trưng nội dung mức thấp có thể thu thập các mẫu dữ liệu này nhưng không mô tả được  
các khái niệm trừu tượng.  
Khi đối tượng đa phương tiện có nhiều kiểu media, các quan hệ và tương tác  
giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải và truy tìm. Có  
một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác. Việc áp dụng sự hiểu  
biết có được về một hay vài kiểu nào đó, giúp ta hiểu và trích chọn đặc trưng cho các  
kiểu khác. Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh hình (video) và rãnh  
tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri thức về đối tượng và sử dụng  
tri thức này để phân đoạn, trích chọn các đặc trưng và đối tượng trên rãnh hình  
(video).  
1.2.2 Chỉ số hóa cấu trúc  
Sau khi trích chọn đặc trưng, chúng ta phải chỉ số hóa cấu trúc để tổ chức các  
đặc trưng sao cho truy vấn được hiệu quả. Như đã biết, phải cần rất nhiều đặc trưng và  
nhiều tham số để trình diễn. Ví dụ, phân bổ màu thường được biểu diễn bằng biểu đồ  
với nhiều bins màu khác nhau.  
17  
Chỉ số hóa trong MIRS phải là phân cấp và nhiều mức:  
Mức cao nhất là phân lớp ứng dụng.  
Mức chỉ số hóa thứ hai hình thành trên các mức đặc trưng khác nhau. Các đặc  
trưng khác nhau cần chỉ số hóa khác nhau.  
Mức thứ ba hình thành trên quan hệ không gian và thời gian giữa các đối tượng.  
1.2.3 Đo tính tương tự  
Truy vấn đa phương tiện trên cơ sở tính tương tự thay cho đối sánh chính xác  
giữa các item truy vấn và các item trong CSDL. Tính tương tự được tính toán trên cơ  
sở các đặc trưng, thuộc tính trích chọn và dưới dạng một hay nhiều giá trị. Tuy nhiên,  
tương quan của kết quả truy vấn do con người quyết định. Các kiểu đặc trưng được sử  
dụng để mô tả các đối tượng đóng vai trò quan trọng để phù hợp với yêu cầu này.  
Thước đo tính tương tự rất phức tạp vì quyết định của người sử dụng là chquan và  
phụ thuộc ngữ cảnh.  
1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13]  
Với sự phát triển mạnh mẽ của CSDL đa phương tiện và mạng máy tính, hệ  
thống IR (Information retrieval) ngày càng được quan tâm .  
1.3.1 Khái quát  
Từ những năm 1940, vấn đề lưu trữ và truy tìm thông tin đã thu hút sự chú ý  
của các nhà nghiên cứu. Hệ thống tìm kiếm đang trnên cần thiết, vấn đề đó là: chúng  
ta có lượng thông tin rất lớn, yêu cầu truy tìm thông tin một cách chính xác và nhanh  
chóng. Yếu tố được quan tâm là thông tin liên quan có thbị bỏ qua, quá trình và kết  
quả tìm kiếm đó có thể bị lặp lại nhiều lần dẫn đến hiệu quả tìm kiếm thấp. Với sự  
xuất hiện của máy tính điện tử, rất nhiều ý tưởng về việc sử dụng chúng để cung cấp  
những hệ thống truy tìm thông tin nhanh chóng và thông minh. Ví dụ: trong thư viện  
luôn có bài toán về tìm kiếm và lưu trữ thông tin, hay một số nhiệm vụ thông thường  
như việc lập danh mục, việc quản lý chung đã có cách thực hiện đem lại kết quả tốt  
bằng việc sử dụng những chiếc máy tính. Tuy nhiên, vấn đề vhiệu quả truy tìm phần  
lớn vẫn chưa được giải quyết.  
Nói chung, việc lưu trữ và truy tìm thông tin là đơn giản theo một khía cạnh nào  
đó. Ví dụ: Có một kho các tài liệu và một người sử dụng, một câu hỏi được đưa ra mà  
câu trả lời là một tập các tài liệu thoả mãn thông tin yêu cầu được hiển thị. Người sử  
dụng có thể thu được tập kết quả bằng việc đọc tất cả các tài liệu trong kho, giữ lại  
những tài liệu có liên quan và vứt bỏ toàn bộ những cái khác. Trong một ý nghĩa nào  
đó, việc này tạo nên truy tìm “hoàn hảo”. Song, giải pháp này rõ ràng không thể thực  
hiện được. Người sử dụng hoặc không có thời gian hoặc không muốn tiêu phí thời gian  
đọc toàn bộ tập hợp tài liệu, trừ khi anh ta không theo quy luật tự nhiên.  
18  
Khi những chiếc máy tính tốc độ cao sẵn sàng cho công việc không thuộc số  
hóa (non-numerical), nhiều người cho rằng một máy tính có thể đọc toàn bộ tập hợp  
tài liệu để trích lọc những tài liệu có liên quan. Hiển nhiên rằng, vấn đề về sử dụng  
ngôn ngữ tự nhiên trong một tài liệu không chđầu vào (input) và kho lưu trữ mà  
còn vấn đề vtri thức, thuộc đặc trưng nội dung tài liệu chưa được giải quyết. Có thể  
hy vọng sự phát triển trong tương lai có thể tạo đầu vào (input) và kho ngôn ngữ tự  
nhiên khả thi hơn. Các phần mềm đang cố gắng tự động hóa trong việc “sao” lại quá  
trình “đọc” của con người, quả thực đó là một vấn đề hết sức khó khăn. Khó khăn hơn,  
việc đọc” bao gồm việc rút trích thông tin, cú pháp và ngữ nghĩa từ văn bản và sử  
dụng nó để quyết định xem là mỗi tài liệu có liên quan hay không đến một yêu cầu cụ  
thể. Nghĩa là, khó khăn không chỉ là làm thế nào để rút trích thông tin mà còn làm sao  
để sử dụng nó quyết định sự phù hợp.  
“Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin. Mục đích của  
một chiến lược truy tìm tự động là truy tìm tất cả các tài liệu phù hợp ở cùng thời điểm  
truy tìm, có thbao gồm một vài tài liệu không thỏa mãn. Tìm ra các đặc trưng của tài  
liệu để khi tài liệu phù hợp với truy vấn, nó cho phép tài liệu được truy tìm để trả lời  
truy vn. Khi chỉ mục được làm tự động, nó được giả thiết bằng việc đưa tài liệu văn  
bản và câu truy vấn vào cùng bphân tích tự động, output sẽ là biểu diễn nội dung của  
chúng và nếu tài liệu là phù hợp với truy vấn thì một thủ tục tính toán sẽ cho thấy điều  
này.  
Truy tìm dựa trên cơ sở nội dung (Content- based retrieval): Người sử dụng có  
thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối tượng đa  
phương tiện. Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn như: “Tìm tất cả  
các ảnh giống với ảnh này” và “Tìm tất cả các ảnh chứa ít nhất 3 máy bay”. Các hình  
ảnh được thêm vào cơ sở dữ liệu, DBMS (DataBase Manager System) phải phân tích  
chúng và tự động trích chọn các đặc điểm (extract features) để đưa ra câu trả lời giống  
với các truy vấn. Thông tin này có thể được sử dụng để tìm kiếm các hình ảnh thoả  
mãn với một truy vấn đưa ra. Một cách tiếp cận khác, người sử dụng muốn tìm các tài  
liệu mà mình quan tâm có thsử dụng các kỹ thuật truy tìm thông tin và tìm kiếm từ  
khoá. Nó vẫn không thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể đó và  
các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn DBMS truyền  
thống.  
1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval)  
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm thông tin  
(IR). Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text) và kỹ thuật IR  
trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây:  
19  
- Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Văn bản là tài  
nguyên rất quan trọng đối với các cơ quan, tổ chức. Điều đó cho thấy, cần có một hệ  
thống IR đủ tốt để có thtruy xuất có hiệu quả các thông tin lưu trữ trong các tài liệu.  
- Văn bản còn được sử dụng để mô tả các phương tiện khác như video, audio,  
hình ảnh.  
Mục đích của người sử dụng hệ truy tìm:  
- Độ chính xác: Truy tìm đúng thông tin mà người sử dụng mong muốn, đúng  
với truy vấn. Có thể có một vài tài liệu trong câu trả lời là không chính xác song tất cả  
các câu trả lời phù hợp đều được truy vấn.  
- Tốc độ truy tìm: Việc truy tìm phải được thực hiện nhanh chóng  
Nhiệm vụ chính của thiết kế hệ thống IR là để nhằm giải quyết hai vấn đề:  
- Biểu diễn và truy vấn tài liệu như thế nào.  
- So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao.  
Các mô hình truy vấn sẽ xác định hai khía cạnh này. Để nâng cao hiệu năng  
truy vấn, việc xử lý ngôn ngữ tự nhiên và các kỹ thuật trí tuệ nhân tạo được áp dụng.  
Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, hầu như không thể  
truy vấn mọi tài liệu liên quan hay loại đi mọi tài liệu không liên quan. Do vậy, thước  
đo hiệu năng IR là rất quan trọng.  
Một hệ thống truy tìm thông tin tiêu biểu  
Một hệ thống IR tiêu biểu được minh hoạ bằng phương pháp hộp đen. Gồm ba  
thành phần: input, bộ xử lý và output.  
Bắt đầu với đầu vào (input), vấn đề chính ở đây là có được biểu diễn của tài liệu  
và truy vấn thích hợp qua máy tính. Có thể nói, các hệ thống truy tìm hầu hết dựa trên  
máy tính với việc chỉ lưu trữ biểu diễn đặc trưng của tài liệu (hoặc truy vấn), có nghĩa  
là một tài liệu văn bản không được sử dụng nữa khi nó đã được xử lý để đưa ra các đặc  
trưng. Ví dụ, một biểu diễn đặc trưng tài liệu có thể là một danh sách các từ được xem  
là quan trọng được trích ra.  
Hình 1.2 Hệ thống IR tiêu biểu  
Khi một hệ thống truy tìm trực tuyến (on-line), người sử dụng có khnăng thay  
đổi yêu cầu trong một phiên tìm kiếm ở trạng thái truy tìm mẫu, do đó hy vọng cải  
20  
thiện được quá trình truy tìm xảy ra sau. Một thủ tục như vậy thông thường cho phép  
phản hồi (Feedback).  
Hơn nữa, bộ xử lý, một phần của hệ thống truy tìm có liên quan tới quá trình  
truy tìm. Bộ xử lý có thể bao gồm cấu trúc thông tin theo cách thích hợp nào đó, giống  
như phân loại. Trên thực tế, nó cũng bao gồm cả việc biểu diễn chức năng truy tìm, đó  
là thực hiện chiến lược tìm kiếm câu trả lời cho một truy vấn. Trong biểu đồ, các tài  
liệu được đặt vào một ô riêng biệt để nhấn mạnh thực tế là không có đầu vào (input) rõ  
ràng nhưng có thể sử dụng trong suốt quá trình truy tìm.  
Cuối cùng, chúng ta xét đến đầu ra (output) thường là một tập trích dẫn hoặc  
các tài liệu. Trong một hệ thống hoạt động, đây là phần còn lại. Tuy nhiên, một hệ  
thống thực nghiệm có thcho phép thực hiện việc đánh giá.  
1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System)  
Phân biệt được sự khác nhau giữa hai hệ thống truy tìm văn bản (IR) và DBMS  
giúp ta hiểu rõ các kỹ thuật truy tìm văn bản.  
- DBMS: Chứa các bản ghi có cấu trúc đồng nhất. Mỗi bản ghi được đặc trưng  
bởi tập các thuộc tính. Các giá trị thuộc tính được gán cho bản ghi để mô tả bản ghi  
này một cách rõ ràng và đầy đủ.  
Truy vấn ở đây dựa trên cơ sở đối sánh chính xác giữa câu truy vấn và các giá  
trị thuộc tính trong bản ghi. Mỗi bản ghi truy vấn chứa các giá trị thuộc tính chính xác  
được đặc tả trong câu truy vấn (có thể cả giá trị thuộc tính không được đề cập đến  
trong câu truy vấn).  
- Hệ thống IR: Các bản ghi không có cấu trúc. Chúng không chứa các thuộc tính  
cố định, chỉ đơn thuần là tài liệu văn bản. Các tài liệu này có thể chỉ mục bằng các từ  
khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục. Mỗi thuật ngữ chỉ mục được  
sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đó, không đầy đủ và  
không rõ ràng cho toàn bộ nội dung văn bản. Nhiều thuật ngữ chỉ mục được gắn theo  
tài liệu hay văn bản cụ thể. Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp  
vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều  
cố gắng để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ  
khóa, chỉ mục.  
Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh chính xác  
giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết quả. Thay vì, truy vấn  
các mục liên quan với đủ mức độ tương đồng giữa tập thuật ngữ gắn theo câu truy vấn  
và tài liệu, được sinh ra bởi phương pháp xấp xỉ hay đối sánh từng phần. Hơn nữa  
cùng thuật ngữ có thể có nhiều ý nghĩa khác nhau.  
Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên quan đến  
câu truy vấn và hầu như có ích với người sử dụng. Nhưng trong hệ thống IR, các tài  
21  
liệu được xem là liên quan đến câu truy vấn nhưng có thể không liên quan và không có  
ích với người sử dụng  
Câu truy vn  
Tài liệu văn bản  
Xử lý  
Xử lý  
Đại diện câu  
truy vn  
Đại diện tài  
liệu  
Đối sánh  
(tính toán độ  
tương đồng)  
Kết quả truy vấn  
Đánh giá mức  
độ thích hợp  
Hình 1.3 Tiến trình truy vấn tài liệu  
Bên phải hình 1.3 chỉ ra các tài liệu được xử lý off-line để có đại diện (mô tả).  
Các đại diện này được lưu trữ cùng với các tài liệu.  
Bên trái hình 1.3 chỉ ra quá trình truy vấn. Người sử dụng đưa ra câu truy vấn  
và được xử lý on-line để có đại diện của câu truy vấn. Sau đó đối sánh đại diện truy  
vấn với đại diện tài liệu, các tài liệu được xem như tương đồng sẽ được trình diễn cho  
người sử dụng. Sau đó, họ đánh giá tài liệu cho lại và quyết định tài liệu nào thực sự  
tương đồng và có ích. Một hệ thống IR tốt cho phép người sử dụng cung cấp phản hồi  
về sự thích hợp của tập tài liệu kết quả cho hệ thống. Hệ thống sử dụng thông tin này  
để điều chỉnh truy vấn, đại diện truy vấn, đại diện tài liệu. Phiên tìm kiếm khác tiếp  
theo được thực hiện trên cơ sở câu truy vấn đại diện tài liệu đã được hiệu chỉnh. Nếu  
cần, tiến trình phản hồi truy tìm được thực hiện lặp vài lần. Chú ý rằng, không phải tất  
cả các hệ thống IR đều có tiến trình phản hồi thích hợp.  
1.4 xếp hạng tài liệu (Ranking) [1] [8]  
Một máy tìm kiếm có thể cho lại tới hàng vài nghìn tài liệu phù hợp, nhưng một  
người sử dụng thông thường sẽ chỉ có thể xem xét được một số lượng nhỏ các tài liệu  
tìm được đó. Vì thế, xếp hạng các tài liệu phù hợp theo mức độ tương thích với người  
dùng là một vấn đề quan trọng, cũng là tiêu điểm trong việc đánh giá một phương  
pháp truy tìm.  
Chỉ qua một phần thông tin của người sử dụng được trích lọc biểu thị qua truy  
vấn, hệ thống sẽ tìm kiếm và trả lời bằng một tập các tài liệu phù hợp. Yêu cầu đó  
22  
không có thuật toán cụ thể, nhưng được đảm bảo chiến lược xếp hạng luôn ưu tiên cho  
những tài liệu hữu ích, tài liệu được coi là “gần” với truy vấn hơn sẽ được xếp lên trên  
tài liệu khác trong danh sách tài liệu trả lời. Trên thực tế, thuật toán xếp hạng trong hệ  
thống IR phần lớn dựa trên mô hình không gian vectơ - một cách tiếp cn cổ điển để  
so sánh truy vấn với các tài liệu:  
- Biểu diễn các truy vấn như các vectơ thuật ngữ, thành phần vectơ nhận giá trị 1  
nếu thuật ngữ xuất hiện trong truy vấn và 0 trong trường hợp ngược lại.  
- Biểu diễn vectơ thuật ngữ với các tài liệu sử dụng trọng số TF-IDF cho các  
thành phần trong vectơ  
- Sử dụng thước đo khoảng cách cosin để xếp hạng các tài liệu theo khoảng cách  
thuật ngữ với truy vấn.  
Mô hình trọng số TF-IDF được chứng minh rất hữu ích trong thực tế. Trong đó,  
TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi thành phần trong một  
vectơ thuật ngữ được tính bởi số lần thuật ngữ đó xuất hiện trong tài liệu; IDF (Inverse  
Document Frequency) được tính bằng công thức IDF = log(N/ni), với N là toàn bộ tài  
liệu trong tập hợp và ni là số các tài liệu chứa thuật ngữ i. Với chỉ TF, nếu một thuật  
ngữ xuất hiện thường xuyên trong các tài liệu thì nó chưa chắc đã là lựa chọn tốt làm  
thuật ngữ chỉ mục, vì nó không giúp phân biệt các tài liệu người sử dụng quan tâm với  
các tài liệu khác, tức là số lượng tài liệu được truy tìm lớn nhưng độ chính xác không  
cao. IDF giúp cải thiện vấn đề này, trọng số của thuật ngữ sẽ rất cao nếu nó xuất hiện  
thường xuyên chtrong một vài tài liệu, tức là giúp tăng cường sự phân biệt.  
Cho Di = (di1, di2, …, diM) là tập hợp các tài liệu, với truy vấn Q biểu diễn như  
mt tài liu. Trong đó, dij là trọng sthut ngj trong tài liệu i, Q(j) biểu thtrọng số  
của thut ngj trong truy vấn Q (i =1, 2.., N; j = 1, 2, .., M). Các trọng sdij và Q(j) có  
thlà 1 (nếu chứa thut ng) hay 0 (nếu không chứa thut ng) trong đại squan h;  
hoặc tính bằng TF-IDF hoặc có thbằng nhiều cách khác. Tài liệu Di được đánh giá là  
“gần” với truy vấn Q dựa vào thước đo sau:  
1. Khoảng cách thuật ngữ (term distance):  
M
(Q( j)d )2  
ij  
j1  
2. Khoảng cách cosin (cosin distance): Thước đo này được sử dụng khá phổ biến  
trong các mô hình thực tế được mô tnhư sau:  
M
((Q( j)d )  
ij  
j1  
M
M
2
Q( j)2  
d
ij  
j1  
j1  
23  
Trong trường hợp xu nhất, cần đến O(N) phép so sánh, mỗi so sánh cho mt  
tài liệu và mỗi so sánh cần O(M) thi gian cho từng thut ng. Vậy, scần O(M×N)  
thi gian để tìm giải pháp tốt nhất. Kthut chsngnghĩa tiềm tàng (LSI) slàm  
gim đáng kthời gian nói trên.  
Xét ví dụ, với 10 tài liệu (ký hiệu: d1, d2,.., d10); và 6 thuật ngữ (ký hiệu: t1, t2,  
.., t6). Trong đó:  
t1 = database  
t2 = SQL  
t3 = index  
t6 = linear  
t4 = regression  
t5 = likelihood  
Ta sẽ lập được một ma trận tần số tài liệu - thuật ngữ M (106), trong đó mỗi  
phần tử ij (hàng i, cột j) chứa số lần xuất hiện của thuật ngữ j trong tài liệu i.  
t1  
24  
32  
12  
6
t2  
21  
10  
16  
7
t3  
9
t4  
0
t5  
0
t6  
3
d1  
d2  
5
0
3
0
5
0
0
0
d3  
2
0
0
0
d4  
43  
2
31  
0
20  
0
0
3
0
d5  
18  
32  
22  
34  
17  
7
16  
0
d6  
0
0
1
12  
4
d7  
3
0
0
2
d8  
1
0
0
27  
4
25  
23  
d9  
6
0
0
D10  
Bảng 1.1 Ma trận tài liệu - thuật ngữ  
Giả sử, với một câu truy vấn Q chứa các thuật ngữ database index, ta có thể  
biểu diễn truy vấn dưới dạng vectơ Q = (1, 0, 1, 0, 0, 0), tức là thuật ngữ t1 và t3 xuất  
hiện trong truy vấn nên có giá trị là 1, còn lại nhận giá trị là 0.  
Dựa vào ma trận tài liệu - thuật ngữ (bảng 1.1), ta tính được ma trận thuật ngữ -  
tài liệu với các thành phần trọng số TF-IDF, được biểu diễn trong bảng sau. Gisử  
trong ví dnày, thut ngdatabase có trọng sthấp hơn các thuật ngkhác và ít có ý  
nghĩa vì nó xuất hiện trong hầu hết các tài liệu.  
2.53  
3.37  
1.26  
0.63  
4.53  
0.63  
0.21  
14.56  
6.93  
11.09  
4.85  
21.48  
0
4.60  
2.55  
2.55  
1.02  
10.21  
0
0
0
2.07  
0
0
1.07  
0
0
0
0
0
0
0
0
1.07  
1.42  
4.28  
11.78  
22.18  
15.94  
0
0
0
24  
0.31  
0.10  
0
0
0
0
15.24  
23.56  
1.42  
9.63  
1.38  
17.33  
Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF  
Sử dụng đơn vị đo khoảng cách cosin, tính độ tương đồng hay “gần” giữa truy  
vấn với các tài liệu. Không giống với kết quả truy tìm trong đại số quan hệ, đây là đại  
lượng đo khoảng cách mang lại sự xếp hạng cho mọi tài liệu, gồm ít nhất có một thuật  
ngữ phù hợp. Dựa vào bảng 1.1 và 1.2 tính khoảng cách tương ứng theo TF và TF-  
IDF.  
khoảng cách  
TF  
Khoảng cách  
TF-IDF  
0.32  
Document  
d1  
d2  
d3  
d4  
d5  
d6  
d7  
d8  
d9  
d10  
0.70  
0.77  
0.58  
0.60  
0.79  
0.14  
0.06  
0.02  
0.09  
0.01  
0.51  
0.24  
0.23  
0.43  
0.02  
0.01  
0.02  
0.01  
0.00  
Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu  
Kết quả tính được xếp hạng các tài liệu theo mức độ phù hợp. Kết quả trên cho  
thấy, sử dụng ma trận TF tài liệu d5 là “gần” nhất, còn với ma trận TF-IDF thì d2 được  
xem là “gần” nhất.  
25  
CHƯƠNG 2. MỘT SỐ KỸ THUẬT TÌM KIẾM  
Tất cả các chiến lược tìm kiếm được dựa vào việc so sánh giữa truy vấn với các  
tài liệu được lưu trữ. Đôi khi, việc so sánh này chỉ là gián tiếp khi truy vấn được so  
sánh với các cụm (hoặc chính xác hơn với những đặc điểm đại diện cho các cụm).  
Tạo sự phân biệt giữa các kiểu chiến lược tìm kiếm khác nhau đôi khi có thể  
được hiểu qua việc xét ngôn ngữ truy vấn, đó là ngôn ngữ để biểu diễn thông tin. Tính  
tự nhiên của ngôn ngữ truy vấn thường yêu cầu tính tự nhiên trong chiến lược tìm  
kiếm. Ví dụ, một ngôn ngữ truy vấn được biểu diễn bằng việc kết hợp theo logic các từ  
khóa cho phép tìm kiếm, thông thường được yêu cầu kiểu tìm kiếm Boolean. Đây là  
mô hình tìm kiếm mà kết quả mang lại là kiểu logic qua việc so sánh truy vấn với các  
tài liệu. Tuy nhiên, ở đây ta không kiểm tra các ngôn ngữ truy vấn nhưng thay vào đó  
nhận biết được sự khác nhau qua việc đưa vào các máy tìm kiếm.  
2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11]  
2.1.1 Truy vấn Boolean  
Loại đơn giản nhất của truy vấn yêu cầu gồm mối quan hệ giữa các thuật ngữ  
và các tài liệu, các truy vấn giống như:  
1. Những tài liệu chứa từ “Java”  
2. Những tài liệu chứa từ “Java” nhưng không chứa từ “coffee”  
3. Các tài liệu chứa cụm “Java beans” hoặc thuật ngữ “API”  
4. Các tài liệu mà “Java” và “Island” xuất hiện trong cùng một câu.  
Hai truy vấn đầu được gọi là những truy vấn “gần” (proximity queries) bởi  
chúng bao gồm khoảng cách từ vựng giữa các dấu hiệu. Các câu hỏi này có thể được  
trả lời sử dụng chỉ số ngược. Phần sau smô tả việc các chỉ số được xây dựng từ một  
tập hợp các tài liệu ngược như thế nào.  
Các câu truy vấn được biểu diễn bởi tập từ khóa kết nối với tập phép toán Bool.  
Ba loại toán tử hay được sử dụng là OR, AND và NOT. Quy tắc truy tìm kiếm như  
sau:  
- Toán tử OR: Xem xét hai thuật ngữ đồng nghĩa. Ví dụ, cho trước câu truy vấn  
(term1 OR term2) thì hiện diện của một trong hai thuật ngữ trong bản ghi (hay trong  
tài liệu) đủ để đáp ứng truy tìm bản ghi này.  
- Toán tử AND: Tổ hợp các thuật ngữ (hay từ khóa) vào một câu thuật ngữ.  
Vậy, truy vấn (term1 AND term2) chỉ ra cả hai thuật ngữ phải đồng thời hiện diện  
trong tài liệu để đem lại kết qu.  
- Toán tử NOT: Là hạn chế hay thuật ngữ hẹp, thông thường nó được sử dụng  
với toán tử AND. Câu truy vấn (term1 AND NOT term2) dẫn tới truy tìm bản ghi có  
26  
term1 nhưng không có term2.  
2.1.2 Cấu trúc tệp  
Một trong các vấn đề cơ bản trong thiết kế hệ thống IR là quyết định sử dụng  
loại cấu trúc tệp nào để lưu trữ CSDL tài liu. Cấu trúc tệp sử dụng trong các hệ thống  
IR bao gồm các tệp phẳng, tệp mục lục (inverted), tệp chữ ký và các tệp khác như cây  
và đồ thị.  
Với quan điểm tệp phẳng, một hay nhiều tài liệu lưu trữ trong tệp, thông thường  
trong mã ASCII hay EBCDIC, không chmục tài liệu. Tìm kiếm tệp phẳng thông qua  
tìm kiếm mẫu. Trong UNIX, khi lưu trữ tập hợp các tài liệu người ta lưu trữ mỗi tài  
liệu trong một tệp, trong danh mục. Các tệp này có thể tìm kiếm nhờ các công cụ tìm  
kiếm theo mẫu như “grep”, “awk”. Tiệm cận này không hiệu quả vì mỗi lần truy vấn  
thì toàn bộ tập hợp tài liệu phải được duyệt để tìm ra mẫu văn bản.  
Các tệp chữ ký (signature files): chứa các chữ ký (mẫu bit) đại diện cho tài liệu.  
Có nhiều cách để sinh chữ ký tài liệu. Câu truy vấn được đại diện bởi chữ ký mà nó sẽ  
được so sánh với chữ ký tài liệu trong khi truy tìm.  
Cách sử dụng chung nhất là tệp mục lục (inverted). Đó là loại tệp chỉ mục.  
Các tệp mục lục (Inverted Files)  
Trong tệp mục lục, chỉ mục được xây dựng cho mỗi thuật ngữ để lưu trữ chỉ số  
định danh (ID) bản ghi cho toàn bộ bản ghi chứa thuật ngữ này. Một đầu vào tệp mục  
lục thông thường chứa từ khóa (thuật ngữ) và một số ID tài liệu. Mỗi từ khóa và các  
ID tài liệu (mà nó chứa từ khóa) được tổ chức thành một hàng. Ví dụ tệp mục lục như  
sau:  
Term1: Record1, Record3  
Term2: Record1, Record2  
Term3: Record2, Record3, Record4  
Term4: Record1, Record2, Record3, Record4  
trong đó, Termi (i = 1,2,3,4) là số ID của thuật ngữ chỉ mục i, Recordi (i = 1, 2, 3, 4)  
là số ID của bản ghi (record) i hay tài liệu i.  
Dòng 1 có nghĩa rằng Record1 Record3 chứa Term1. Các dòng khác có ý  
nghĩa tương tự. Việc tìm kiếm sẽ được thực hiện nhanh chóng trong các tệp mục lục.  
Chỉ các hàng chứa thuật ngữ tìm kiếm mới được truy tìm. Không cần tìm mọi bản ghi  
trong CSDL.  
Quy tắc tìm kiếm bằng mô hình Bool trên cơ sở các tệp mục lục như sau:  
Truy vấn AND: dụ (Termi AND Termj), cho danh sách trộn hàng i với hàng j  
trong tệp mục lục và mọi bản ghi đều chứa Termi Termj slà kết quả truy  
tìm ở đầu ra. dụ: (Term1 AND Term2) cho kết quả là Record1.  
Truy vấn OR: dụ (Termi OR Term j), cho danh sách trộn cho hàng i và j, mọi  
27  
mục trong danh sách trộn là đầu ra kết quả. Ví dụ truy vấn (Term1 OR Term2)  
sẽ cho kết quả là Record1, Record2 Record3.  
Truy vấn NOT: Ví dụ (Termi AND NOT Termj) sẽ cho kết quả là các mục xuất  
hiện trong hàng i nhưng không trong hàng j. Truy vấn (Term4 AND NOT  
Term1) cho kết quả là Record2, Record4. Truy vấn (Term1 AND NOT Term4)  
sẽ cho đầu ra là rỗng.  
Mở rộng thao tác tệp mục lục  
Cho đến thời điểm hiện tại ta đã bỏ qua hai yếu tố quan trọng khi chỉ mục và  
truy tìm tài liệu, đó là vị trí của các thuật ngữ và ý nghĩa các thuật ngữ (tần số thuật  
ngữ) trong tài liệu. Trong các truy vấn AND, mọi bản ghi chứa cả hai thuật ngữ được  
tìm thấy, không quan tâm đến vị trí của chúng trong tài liệu. Các thuật ngữ có tầm  
quan trọng như nhau, không quan tâm đến tần số xuất hiện trong tài liệu. Để nâng cao  
hiệu quả truy vấn, hai yếu tố này cần được xem xét.  
Các quan hệ đặc tả giữa hai hay nhiều thuật ngữ được tăng cường bằng cách bổ  
sung các tham số “tính gần kề” vào đặc tả truy vấn. Khi tham số gần kề được bổ sung,  
chủ điểm được xác định cụ thể hơn, tính phù hợp của mục truy vấn được sẽ cao hơn.  
Hai tham số thuộc nhóm này có thể là đặc tả “within sentence” và “adjacency”:  
(Termi within sentence Termj) có nghĩa rằng thuật ngữ i và thuật ngữ j cùng  
xuất hiện trong câu của bản ghi vừa tìm ra.  
(Termi adjacency Termj) có nghĩa các thuật ngữ i và j xuất hiện liền kề trong  
các tài liệu tìm ra.  
Để hỗ trợ loại truy vấn này, thông tin vị trí thuật ngữ phải gộp vào tệp mục lục.  
Cấu trúc tổng quát của file này sẽ như sau:  
Termi: Record no., Paragraph no., Sentence no., Word no.  
dụ, nếu tệp mục lục có các đầu vào sau:  
information: R99, 10, 8, 3; R15, 15, 3, 6; R166, 2, 3, 1  
retrieval: R77, 9, 7, 2; R99, 10, 8, 4; R166, 10, 2, 5  
thì kết quả truy vấn (information within sentence retrieval) là R99.  
Trong ví dụ trên, các thuật ngữ “information” và “retrieval” xuất hiện trong  
cùng câu R99 của tài liệu. Mặt khác, dù R166 đều chứa cả hai thuật ngữ này nhưng lại  
ở vị trí khác nhau của tài liệu, do vậy truy vấn không cho lại kết quả (không phải là  
information retrieval”). Có thể hai thuật ngữ này được sử dụng trong các ngữ cảnh  
khác nhau.  
2.1.3 Các tdừng và tgốc  
Đa số ngôn ngữ tự nhiên có những từ chức năng, những liên t, giới từ xuất  
hiện với số lượng lớn trong các tài liệu và điển hình là ít được sử dụng trong việc xác  
28  
định các tài liệu thoả mãn thông tin tìm kiếm. Các từ như vậy (ví dụ a, an, the, on  
trong tiếng Anh) được gọi là từ dừng (stopword).  
Các kỹ thuật tìm kiếm thông thường không chỉ số hoá các từ dừng, nhưng có ý  
tưởng thay thế chúng với một đối tượng thay thế để ghi nhớ sự xuất hiện của các từ  
dừng. Điều này cho phép tìm kiếm những cụm từ chứa các từ dừng, ví dụ như “gone  
with the wind”. Việc giảm bớt không gian chỉ số và cải thiện thực hiện là những lý do  
quan trọng để loại trừ các từ dừng. Tuy nhiên, như vậy một số câu truy vấn như “to be  
or not to be” có thể không còn được hỏi. Một điều nữa là từ nhiều nghĩa (một từ có  
nhiều nghĩa phụ thuộc vào văn cảnh hoặc cách nói): “can” là một động từ thì không có  
ích cho các truy vấn từ khoá, nhưng “can” là một danh từ có thể là trung tâm đối với  
một câu truy vấn, vì vậy nó không nằm trong danh sách từ dừng.  
Stemming (tgốc) hay conflating là phương thức hỗ trợ sphù hợp của một  
thuật ngữ truy vấn với biến đổi hình thái trong kho dữ liệu. Trong tiếng Anh, cũng như  
trong một số ngôn ngữ khác, các phần của văn nói, thời và số lượng được chuyển từ  
những biến tố của từ. Có thể muốn một truy vấn chứa từ “gaining” phù hợp với một tài  
liệu chứa từ “gains”, hay tài liệu chứa đựng từ “went” dùng để trả lời cho một truy vấn  
chứa từ “goes”. Các phương pháp stemming nhìn chung sử dụng sự kết hợp việc phân  
tích hình thái (chẳng hạn, thuật toán của Porter và tra cứu từ điển như WordNet).  
Stemming có thlàm tăng số lượng các tài liệu trả lời, nhưng có thể bao gồm cả các tài  
liệu không thích hợp. Chẳng hạn, giải thuật của Porter không chấp nhận “university”  
và “universal” cùng là “univers”. Conflating, xác định các thuật ngữ liên quan qua việc  
sử dụng từ điển, trong đó liệt kê các thuật ngữ đồng nghĩa và đôi khi liệt kê cả quan hệ  
giữa chúng. Ví dụ, các từ “study”, “learning”, “schoolwork”, “reading” có ý nghĩa  
tương tự nhau. Thay vì sử dụng 4 thuật ngữ chỉ mục, có thể chỉ sử dụng một thuật ngữ  
study” tổng quát để đại diện bốn thuật ngữ này.  
2.1.4 Chỉ số hoá và bổ sung  
Các tài liệu được duyệt và phân loại để được mệnh đề (d, t), gồm tài liệu d với  
thuật ngữ t. Thao tác cơ bản của việc chỉ mục “ngược” (inverting) bao gồm việc đổi  
chỗ thứ tự sắp xếp theo (t, d) như biểu diễn sau.  
Chúng ta dễ dàng tạo tập (t, d) trong cấu trúc dữ liệu. Với một tập hợp động có  
các tài liệu được thêm vào, sửa đổi hay xoá đi, một sự thay đổi tài liệu ở mức đơn giản  
cần cập nhật hàng trăm tới hàng nghìn các bản ghi.  
Hình 2.1 đưa ra một giải pháp đơn giản hơn. Đầu tiên, một chỉ số chuẩn tĩnh  
được tạo ngoài (t, d) được phân loại. Đây là chỉ mục chính được dùng để trả lời các  
câu truy vấn. Trong đó, các tài liệu được thêm vào hay xoá đi được gọi là “documents  
in flux” (ở đây, chúng ta có thể mô tả sự thay đổi dữ liệu với việc xoá thực hiện sau  
việc chèn cho đơn giản). Các tài liệu thay đổi liên tục (flux) được biểu diễn bởi một  
29  
bản ghi được kí hiệu (d, t) biểu diễn bằng (d, t, s), trong đó s là một bit cho biết tài liệu  
đã được xoá hay được chèn.  
Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động  
Các bản ghi (d, t, s) được đánh chỉ mục để tạo một chỉ mục ph. Truy vấn của  
người sử dụng được gửi cho cả chỉ mục chính và chỉ mục ph. Mục đích chỉ mục  
chính là trả lại một tập tài liệu D0. Chỉ mục phtrả lại hai tập tài liệu: một là D+, là tập  
các tài liệu vẫn chưa được đánh chỉ mục trong D0 được đối sánh với truy vấn và tập  
khác là D-, là tập đối sánh các tài liệu với truy vấn đã được loại bỏ khỏi tập hợp từ khi  
D0 được xây dựng. Câu trả lời cuối cùng cho truy vấn là D0 D+ \ D-  
Chsphụ được to nhanh chóng, bi vy có thể không được xây dng cn  
thn và chuẩn như chỉ schính. Khi chsphtrnên quá ln, kí hiu các bn ghi (d,  
t, s) được phân loi trong (t, d, s) và trn-lc (merge – purged) trong các bn ghi (t, d)  
chính. Kết quả được sdụng để xây dng li chmc chính và khi đó chsphcó  
thể được làm rỗng. Thông thường, điều này bao gm vic phân tích các log truy vn  
cho nhng từ khoá thường xuyên và ưu tiên các bản ghi ngược.  
2.1.5 Kthut nén chs(index compression)  
Trường hp các modul thiếu tdng và du chm câu, mt chsố ngược vi  
thông tin vtrí có thể được sdụng đxây dng li các tài liu trong mt tp hp. Bi  
vậy, kích thước ca chmc thc tế so sánh được vi kích thước ca kho dliu. Mc  
30  
dù, việc lưu trữ đem lại mt sli ích nhưng chsố chương trình điều khin ln sdn  
ti mt số lượng ln I/O ngu nhiên. Bi vậy, cài đặt IR ln, hiệu năng cao thì vic  
nén chscàng nhiu càng tt là thc squan trng và nó có thể được lưu giữ trong  
bnh.  
Mt phn chính ca không gian chmc bchiếm bi các ID tài liu. Mt ID tài  
liu cn mt tp hp lớn hơn, số lượng các bit lớn hơn để biu din. Trên Internet,  
phn ln cn ít nhất 32 bit để biu din các ID tài liu trong mt hthng truy xut  
trên 2 ttrang.  
Cách dễ hơn trong việc lưu trữ các ID tài liu là sp xếp chúng tăng dần và lưu  
trữ đầy đủ ID đầu tiên, rồi sau đó chỉ lưu sự khác nhau với ID trưc mà chúng ta gi là  
gap. Điều này được gi là mã hoá delta (delta encoding).  
Chng hn, nếu tbottle xut hin trong các tài liệu được đánh số 5, 30 và 47,  
bn ghi cho bottle là vectơ (5, 25, 17).  
Vi ví dnày có thkhông giống như việc lưu trtài liu vi số lượng ln,  
nhưng đã cho thy các thut ngthường xuyên thì ID gap trung bình snhỏ hơn và  
nhng thut nghiếm xut hin dù sao cũng không chiếm quá nhiu không gian, vì  
vy cả hai trường hp đó đu có li.  
Vấn đề tiếp theo là mã hoá những gap này với số lượng các bit hay biến đổi, vì  
vậy một gap nhỏ yêu cầu số các bit ít hơn nhiều so với một ID tài liệu. Mã hoá nhị  
phân chuẩn gán cùng chiều dài cho tất cả các ký hiệu hay những giá trị sẽ được mã  
hoá, là tối ưu (nếu số các bit trong mã hoá giá trị x là L(x), yêu cầu của mã này là  
Pr(x)L(x) số các bit yêu cầu để truyền một kí hiệu. Một mã tối ưu giảm đến mức  
x  
tối thiểu giá trị này) khi tất cả các giá trị có thể tương đương, trcác gap. Cách khác  
với mã đơn nguyên (một gap x được biểu diễn bởi x-1 những dấu hiệu theo sau), ưu  
tiên những gap ngắn khá mạnh (nó là tối ưu nếu gap theo sau được đưa ra bởi Pr(X  
=x)=2-x, xác suất của việc làm mất các gap lớn).  
Có nhiều phương pháp cũng sử dụng các kỹ thuật giảm bớt chi phí thời gian.  
Cách tiếp cận đơn giản là tập hợp các tài liệu trong các kho (buckets). Giả sử chúng ta  
có một triệu tài liệu, mỗi tài liệu với ID 20-bit. Chúng ta có thể tập hợp chúng vào một  
nghìn bucket với một nghìn tài liệu trong mỗi bucket. Các ID bucket sẽ yêu cầu chi phí  
chỉ 10 bit.  
Cách khác đơn giản hơn, một chỉ mục ngược được thiết lập từ các thuật ngữ  
đến các ID bucket, tiết kiệm được rất nhiều không gian vì các ID tài liệu rút ngắn lại  
đến một nửa kích thước. Khi một bucket trả lời một truy vấn, tất cả các tài liệu trong  
bucket đó cần được duyệt, tốn nhiều thời gian hơn. Tránh điều đó, cách tiếp cận thứ  
hai của ý tưởng là chỉ mục các tài liệu trong mỗi bucket riêng rẽ. Ý tưởng sơ bộ sử  
dụng các kỹ thuật như vậy để giới hạn không gian thực hiện.  
31  
Thông thường, một chỉ mục bị nén tới giới hạn thì việc nâng cấp rất hỗn độn  
khi thêm, xoá hoặc sửa đổi các tài liệu. Ví dụ, nếu có các tài liệu mới thì phải thêm vào  
chỉ mục ngược, các bản ghi của một vài thuật ngữ sẽ tăng kích thước. Điều đó chỉ có  
thể được giải quyết với nhiều I/O ngẫu nhiên tạo ra những việc cập nhật thay đổi lớn.  
2.1.6 Chỉ mục tự động  
Trong tiến trình chỉ mục, tài liệu được coi như danh sách các từ, trong đó các từ  
dừng đã được loại khỏi danh sách. Các thuật ngữ hay từ còn lại được xử lý tiếp để  
nâng cao hiệu quả chỉ mục và truy tìm. Các thao tác chung nhất thực hiện trên các  
thuật ngữ này là tìm từ gốc (stemming), tìm từ đồng nghĩa và xác định trọng số.  
Với stemming, tệp chỉ mục sẽ đầy đủ hơn và việc truy tìm thông tin sẽ hiệu quả  
hơn. Recall thông tin sẽ được nâng cao bởi vì gốc từ (root) tổng quát hơn và nhiều tài  
liệu liên quan sẽ được tìm ra để đáp ứng câu truy vấn. Nhưng precision có thể giảm vì  
thuật ngữ gốc từ ít tính cụ thể.  
Các thuật ngữ chỉ mục khác nhau có các tần số xuất hiện và tầm quan trọng  
khác nhau trong tài liệu. Chú ý rằng, tần số xuất hiện của các thuật ngữ sau khi thực  
hiện stemming và thực hiện thesaurus sẽ là tổng tần số của mọi biến đổi (variantions).  
Ví dụ, tần số khái niệm “retriev” sẽ là tổng tần số xuất hiện của các thuật ngữ  
“retrieve”, “retrieval”, “retrieving” và “retrieved”. Việc đề xuất các trọng số “thuật  
ngữ quan trọng” cho thuật ngữ tài liệu và thuật ngữ câu truy vấn có thể giúp phân biệt  
mức độ quan trọng của các thuật ngữ trong kết quả tìm kiếm. Khi bổ sung trọng số cho  
các thuật ngữ trong tệp mục lục, các tài liệu khác nhau với tính tương đồng khác nhau  
có thể xếp hạng theo dãy thứ tự độ tương đồng giảm dần, vào thời điểm truy vấn.  
dụ một tệp mục lục với trọng số thuật ngữ như sau:  
Term1: R1, 0.3; R3, 0.5; R6, 0.8; R7, 0.2; R11, 1  
Term2: R2, 0.7; R3, 0.6; R7, 0.5; R9, 0.5  
Term3: R1, 0.8; R2, 0.4; R9, 0.7  
Dòng đầu tiên có nghĩa rằng trọng số của thuật ngữ 1 (Term1) là 0.3 trong bản  
ghi 1 (R1), 0.5 trong bản ghi 3 (R3), 0.8 trong bản ghi 6 (R6), 0.2 trong bản ghi 7 (R7)  
và 1 trong bản ghi 11 (R11). Tương tự trong các dòng khác.  
Các thao tác Bool với trọng số thuật ngữ có thể thực hiện như sau:  
- Truy vấn OR: Trọng số cao hơn giữa các bản ghi chứa các thuật ngữ truy vấn  
được sử dụng làm độ tương đồng giữa câu truy vấn và tài liệu. Danh sách kết quả xếp  
theo thứ tự độ tương đồng giảm dần. Ví dụ, truy vấn (Term2 OR Term3) có thứ tự đầu  
ra là R1 (0.8), R2 (0.7), R9 (0.7), R3 (0.6) và R7 (0.5).  
- Truy vấn AND: Trọng số thấp hơn giữa các bản ghi chung, phù hợp thuật ngữ  
truy vấn được sử dụng làm độ tương đồng giữa câu truy vấn và tài liệu. Ví dụ, truy vấn  
(Term2 AND Term3) có thứ tự đầu ra là R9 và R2.  

Tải về để xem bản đầy đủ

pdf 60 trang yennguyen 25/05/2025 190
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_ky_thuat_tim_kiem_van_ban_tren_co_so_noi_dung_trong.pdf