Luận văn Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu

Luận văn  
Nghiên cu phát trin hệ  
thống đa phương tin trên  
cơ sphân cm dliu  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
LỜI CẢM ƠN  
Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS.TS Đặng Văn Đức,  
người đã trực tiếp hướng dẫn, giúp đ, động viên tôi trong suốt thời gian thực hiện  
luận văn này.  
Con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyến khích,  
động viên con trong những lúc khó khăn, tạo mọi điều kiện cho con nghiên cứu học  
tập.  
Tôi cũng xin chân thành cảm ơn các thầy cô trong Viện Công nghThông  
tin, các thầy cô trong khoa Công Nghệ Thông Tin và các bạn bè, đồng nghiệp tại  
trường Dự bị Đại Học Dân tộc Trung Ương đã giúp đỡ tôi rất nhiều trong quá trình  
học tập, sưu tầm, tìm tòi tài liệu và trong công tác để tôi có thể hoàn thành bản luận  
văn này.  
Dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn song do  
trình độ còn hạn chế nên khó tránh khỏi những thiếu sót. Rất mong nhận được sự  
thông cảm và góp ý của thầy cô và các bạn.  
Thái Nguyên, tháng 11 năm 2008  
Học viên  
Lưu Thị Hải Yến  
Học viên: Lưu Thị Hải Yến  
1
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
MỤC LỤC  
Học viên: Lưu Thị Hải Yến  
2
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Học viên: Lưu Thị Hải Yến  
3
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
MỤC LỤC CÁC HÌNH VẼ  
Học viên: Lưu Thị Hải Yến  
4
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT  
Từ gốc  
IR (Information Retrieval)  
MIRS (MultiMedia Information  
Retrieval System)  
MM (MultiMedia)  
Exact match  
Nghĩa  
Truy tìm thông tin  
Hệ truy tìm thông tin đa phương tiện  
Truyền thông da phương tiện  
Đối sánh chính xác  
Cơ sở cụm  
Cluster-based  
DBMS  
Hệ quản trị cơ sở dữ liệu  
(DatabaseManagementSystem)  
Term  
Từ  
Doc  
Tài liệu  
Docs  
Nhiều tài liệu  
Truy vấn  
Query  
DSS (DecisionSupportSystems)  
Hệ hỗ trợ ra quyết định  
IMS (InfomationManagementSystem) Hệ quản lý thông tin  
QAS (QuestionAnserSystem)  
Text-partern  
Hệ trả lời câu hỏi  
Mẫu văn bản  
Xếp loại  
Ranking  
SC (Similarity Coeficient)  
Index  
Độ tương quan  
Chỉ mục  
Precision  
Độ chính xác  
Khả năng tìm thấy  
Recall  
Học viên: Lưu Thị Hải Yến  
5
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
LỜI NÓI ĐẦU  
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công  
nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ  
thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó việc tin học hoá một  
cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh  
vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Với  
một lượng thông tin như vậy thì vấn đề đặt ra là phải làm sao sử dụng chúng vào  
đúng mc đích và hiệu quả nhất thì cũng là một vấn đề đặt ra hiện nay. Mặt khác,  
trong môi trưng cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ  
nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất  
định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với  
những lý do như vậy, cần phải có các công cụ hỗ trợ để giúp cho việc tìm kiếm  
thông tin được nhanh và hiệu quả. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu  
và xây dựng một hệ thống tìm kiếm thông tin cụ thể là tìm kiếm tài liệu văn bản trên  
cơ sở phân cụm dữ liệu. Nhằm đáp ứng nhu cầu cấp thiết của thời đại.  
Bố cục của luận văn gồm các phần sau:  
+ CHƯƠNG 1 - TỔNG QUAN: Giới thiệu chung về hệ thống thông tin đa  
phương tiện.  
+ CHƯƠNG 2 - HỆ TÌM KIẾM THÔNG TIN: Giới thiệu về hệ thống tìm  
kiếm thông tin (IR), sự khác nhau giữa hệ thống tìm kiếm thông tin và các hệ thống  
thông tin khác, các mô hình th ường gặp trong hệ thống tìm kiếm thông tin.  
+ CHƯƠNG 3 - KỸ THUẬT PHÂN CỤM DỮ LIỆU ỨNG DỤNG :  
Khái quát chung về phân cụm, các kiểu dữ liệu trong phân cụm ứng dụng kỹ  
thuật phân cụm dữ liệu trong tìm kiếm thông tin.  
+ CHƯƠNG 4 - CHƯƠNG TRÌNH DEMO: Cài đt một chương trình tìm  
kiếm thông tin trên cơ sở lý thuyết đã trình bày.  
+ KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày các kết quả đạt được  
Học viên: Lưu Thị Hải Yến  
6
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
và nêu phương hướng phát triển của đề án trong tương lai.  
+ TÀI LIỆU THAM KHẢO  
CHƯƠNG 1: TỔNG QUAN  
1.1. ĐẶT VẤN ĐỀ  
Vài năm trưc đây, các nghiên cứu và phát triển thuộc lĩnh vực đa phương  
tiện (MultiMedia) tập trung vào các vấn đề như: truyền thông, authoring và trình  
diễn đa phương tiện.  
Trải qua nhiều năm đã có khối lượng lớn dữ liệu Multimedia (ảnh, video, âm  
thanh) được thu thập và lưu trữ dưới dạng số, thí dụ:  
Ảnh X quang,  
Các băng hình dạy học…  
Điều tra cảnh sát về các giọng nói trong điện thoại…  
Tài liệu văn bản, …  
Nghiên cứu của những năm gần đây tập trung chủ yếu vào: lưu trữ và tìm  
kiếm hiệu quả dữ liệu đa phương tiện. Tình hình tương tự như hơn 30 năm trước  
đây khi nhiều dữ liệu text được lưu trữ dưới khuôn dạng máy tính có thể đọc được.  
Từ đó dẫn tới việc phát triển các hệ thống quản trị cơ sở dữ liệu  
(DatabaseManagmentSystem) mà ngày nay đưc sử dụng trong hầu hết các cơ  
quan, tổ chức. Tuy nhiên hệ quản trị cơ sở dữ liệu không thể quản lý dữ liệu đa  
phương tin một cách hiệu quả bởi vì các tính chất dữ liệu văn bản và dữ liệu đa  
phương tiện là khác nhau. Do vậy, dẫn tới việc nghiên cứu phát triển các kỹ thuật  
truy tìm và chỉ mục mới trong hệ thống quản trị cơ sơ dữ liệu và việc phát triển hệ  
thống truy tìm tài liệu văn bản – một phần của dữ liệu đa phương tiện cũng không  
nằm ngoài xu thế đó.  
Luận văn tập trung nghiên cứu cách tìm kiếm văn bản trên cơ sở phân cụm dữ  
liệu. Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương  
Học viên: Lưu Thị Hải Yến  
7
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
tự nhau trong tập dữ liệu vào các cụm sao cho các đi tượng thuộc cùng một lớp là  
tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.  
1.2. HỆ THỐNG THÔNG TIN ĐA PHƯƠNG TIỆN:  
Đa phương tiện là gì? Đa phương tiện là tích hợp của văn bản, âm thanh, hình  
ảnh của tất cả các loại và phần mềm có điều khiển trong một môi trường thông tin số.  
Dữ liệu đa phương tiện gồm dữ liệu về :  
Văn bản;  
Hình ảnh;  
Âm thanh;  
Hình động.  
1.2.1. Khái niệm về đa phương tiện  
Con ngưi có nhu cầu diễn tả các trạng thái ca mình; và họ có nhiều loại  
hình thể hiện. Con người có nhu cầu truyền thông, do đó cách thể hiện trên đường  
truyền rất quan trọng. Trên Internet thông dụng với mọi người, cái đẹp của trang  
Web phải được thể hiện cả ở nội dung và hình thức.  
Đa phương tin có nhiều loại, những phương tiện công cộng về đa phương  
tiện: Radio, vô tuyến, quảng cáo, phim, ảnh...  
Nhu cầu về tương tác người - máy luôn đặt ra trong hệ thống thông tin. Vấn  
đề chính về tương tác ngưi - máy không là quan hệ giữa con người với máy tính  
mà là con người với con người. Con người có vai trò quan trọng trong hệ thống  
thông tin.  
Môi trường  
Thông tin ra  
Xử lý thông tin  
Phản hồi  
Học viên: Lưu Thị Hải Yến  
8
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Hình 1.1: Hệ thống thông tin  
Định nghĩa  
Định nghĩa đa phương tiện (theo nghĩa rộng) là bao gồm các phương tiện:  
văn bản, hình vẽ tĩnh (vẽ, chụp), hoạt hình (hình ảnh động), âm thanh.  
Hay có thể định nghĩa đa phương tiện; đa phương tin là kỹ thuật mô phỏng  
và sử dụng đồng thời nhiều dạng phương tiện chuyển hoá thông tin và các tác phẩm  
từ các kỹ thuật đó.  
1.2.2. Media  
Media (tiếng Latin: medius, tiếng Anh: means, intermediary) là đề cập đến các  
loại thông tin hay loại trình diễn thông tin như dữ liệu văn bản, ảnh, âm thanh và  
video.  
Phân loại media: Có nhiều cách phân loại, nhưng cách chung nhất là phân  
loại trên cơ sở khuôn mẫu (format) vật lý hay các quan hệ media với thời gian. Qui  
định này dẫn tới hai lớp media: tĩnh (static) và động (dynamic).  
Static media: Không có chiều thời gian, nôi dung và ý nghĩa của chúng  
không phụ thuộc vào thời gian trình diễn. Media tĩnh bao gồm dữ liệu văn bản, đồ  
họa.  
Dynamic media: Có chiều thời gian, ý nghĩa và độ chính xác của chúng  
phụ thuộc vào tốc độ trình diễn. Dynamic media bao gồm annimation, video, audio.  
Media động phụ thuộc chặt chẽ vào tốc độ trình diễn. Thí dụ để cảm nhận chuyển  
động trơn tru, video phải được trình chiếu với tốc độ 25 frame/sec (hay 30  
frame/sec phụ thuộc vào loại hệ thống video). Tương tự, khi ta trình diễn (play) tiếng  
nói, âm nhạc, chúng chỉ được cảm nhận tự nhiên khi đạt được tốc độ nhất định, nếu  
không chúng làm giảm chất lượng và ý nghĩa của âm thanh. Vì các media này phải  
được trình diễn liên tục và ở tốc độ cố định cho nên chúng còn được gọi là media liên  
Học viên: Lưu Thị Hải Yến  
9
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
tục. Hay còn gọi chúng là media đẳng thời (isochronous media) vì quan hệ giữa các  
đơn vị media và thời gian là cố định.  
1.2.3. Multimedia  
Khái niệm multimedia (tiếng Latin: multus- tiếng Anh: numerous) đề cập đến  
tập hợp các kiểu media được sử dụng chung, trong đó ít nht có một kiểu media  
không phải là văn bản (nói cách khác là ít nhất có một media trong đó là ảnh, audio  
hay video). Khái niệm multimedia hiểu theo nghĩa tính từ: thông tin đa phương tiện,  
dữ liệu đa phương tiện, hệ thống đa phương tiện, truyền thông đa phương tiện, ứng  
dụng đa phương tiện... Khái niệm dữ liệu đa phương tiện đề cập đến sự biểu diễn  
các kiểu media khác nhau mà máy tính có thể đọc được. Thông tin đa phương tiện  
đề cập đến thông tin được truyền đạt bởi các kiểu media. Đôi khi khái niệm dữ liệu  
đa phương tiện và thông tin đa phương tiện được sử dụng thay thế cho nhau.  
1.2.4. CSDL và Hệ quản trị CSDL  
Trong nhiều tài liệu thì hai khái niệm CSDL và hệ quản trị CSDL hay được  
sử dụng thay cho nhau. Ở đây ta sử dụng hai thuật ngữ này như sau:  
Cơ sở dữ liệu - Database: Tập hợp bản ghi data hay các mục media.  
Hệ quản trị cơ sở dữ liệu - DBMS: Toàn bộ hệ thống quản trị Database  
1.2.5. Truy tìm thông tin tài liệu văn bản  
Các hệ thống tự động truy tìm thông tin (IR - Information Retrieval) đã được  
phát triển để quản lý khối lượng lớn tài liệu khoa học từ những năm 40 của thế kỷ  
XX. Chức năng chính của hệ thống IR là lưu trữ và quản trị khối lượng văn bản lớn  
theo cách sao cho dễ dàng truy vấn ( query) tài liệu mà người sử dụng quan tâ m.  
Chú ý rằng đồng nghĩa với IR là text IR dù rằng ý nghĩa đầy đủ của khái niệm IR là  
đề cập đến truy tìm bất kỳ loại thông tin nào.  
Học viên: Lưu Thị Hải Yến  
10  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
     
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
1.2.6. Chỉ mục và truy tìm đa phương tiện  
DBMS truy tìm thông tin trên ơc sở dữ liệu có cấu trúc nhờ đối sánh chính  
xác (exact matching). IR còn được gọi là truy tìm trên cơ sở văn bản.  
Truy tìm theo nội dung: Đề cập đến truy tìm trên cơ sở các đặc trưng media  
như màu, hình dạng thay cho mô tả văn bản các media item. Thông thường truy tìm  
này dựa trên tính tương tự thay cho đi sánh chính xác gia truy vấn và tập các  
items trong CSDL.  
MIRS: Đề cập đến hệ thống cơ sở, cung cấp khả năng truy tìm thông tin đa  
phương tin nhờ tổ hợp các kỹ thuật DBMS, IR và truy tìm trên cơ sở nội dung.  
Trong MIRS một số nhiệm vụ như versioning security control không đưc cài  
đặt đầy đủ.  
Một hệ thống MIRS đầy đủ được gọi là Hệ quản trị CSDL đa phương tiện  
(MMDBMS – Multimedia DBMS).  
1.2.7. Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục  
Một trong những nhiệm vụ quan trọng của MIRS là trích chọn đặc trưng hay  
biểu diễn nội dung. Trích chọn đặc trưng là tiến trình tự động hay bán tự động.  
Trong một số tài liệu còn gọi tiến trình trích chọn đặc trưng là làm chỉ mục (chỉ số  
hóa).  
Ta qui đnh sử dụng thuật ngữ “index” (chỉ mục) là danh từ, đề cập đến cấu  
trúc dữ liệu hay đề cập đến tổ chức các đặc trưng đã trích chọn để tìm kiếm hiệu  
quả.  
1.3. SỰ CẦN THIẾT PHẢI CÓ MIRS  
Ngày càng nhiều dữ liệu đa phương tiện được thu thập và lưu trữ, đòi hỏi hệ  
thống truy tìm và chỉ số hóa đủ tốt để sử dụng dữ liệu hiệu quả.  
Dữ liệu đa phương tiện có tính chất và yêu cầu đặc biệt, khác xa với loại dữ  
liệu chữ và số. CSDL truyền thống không phù hợp trong việc quản lý dữ liệu đa  
Học viên: Lưu Thị Hải Yến  
11  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
     
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
phương tiện.  
Các kỹ thuật truy tìm thông tin có thể giúp truy tìm các đối tượng đa phương  
tiện nhưng chúng chưa có khả năng quản lý hiệu quả dữ liệu đa phương tiện.  
1.3.1. Mô tả sơ lược dữ liệu MM và các tính chất của chúng  
Chúng ta đang đối mặt với sự bùng nổ thông tin đa phương tiện. Thí dụ tồn tại  
một số lượng lớn ảnh và video trên Internet. Rất nhiều tranh vẽ, ảnh chụp đang được  
chuyển sang dạng số để dễ xử lý và phân tán hay bảo quản. Các bức ảnh từ bản tin TV  
và trên báo cũng đang được chuyển sang dạng số để dễ dàng quản lý. Lượng lớn ảnh y  
tế, ảnh vệ tinh đang được thu thập hàng ngày. Xu thế này đã thúc đẩy phát triển công  
nghệ số lưu trữ và trình diễn. Không thể sử dụng nhanh và hiệu quả các thông tin đa  
phương tin này nếu chúng không được tổ chức tốt để có khả năng truy tìm nhanh.  
Không chỉ khối lượng dữ liệu đa phương tiện lưu trữ tăng nhanh mà các kiểu  
dữ liệu và đặc tính của chúng khác xa dữ liệu chữ và số. Sau đây là một vài tính  
chất chính của dữ liệu đa phương tiện:  
Khối lượng khổng lồ (đặc biệt với dữ liệu audio và video). Thí dụ 10 phút  
video không nén có dung lượng 1,5 GB.  
Audio và video có thêm chiều thời gian.  
Dữ liệu ảnh, audio và video được thể hiện bởi dãy các giá trị mẫu, không có  
cấu trúc nhất định để máy tính tự động nhận biết.  
Rất nhiều ứng dụng đa phương tiện đòi hỏi trình diễn đồng thời các loại  
media khác nhau. Thí dụ, phim bao gồm các ảnh đồng bộ với âm thanh.  
Ý nghĩa của dữ liệu đa phương tiện đôi khi rất mờ.  
Dữ liệu đa phương tiện rất giàu thông tin. Đòi hỏi nhiều tham số để biểu diễn  
nội dung của chúng.  
Học viên: Lưu Thị Hải Yến  
12  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
1.3.2. Hệ thống IR và vai trò của chúng trong truy tìm đa phương tiện  
Bổ sung vào DBMS còn có kiểu hệ thống quản trị thông tin khác mà nó tập  
trung vào truy tìm tài lui văn bản. Kiểu hệ thống thông tin này được gọi hệ  
thống truy tìm thông tin. Kỹ thuật IR rất quan trọng trong hệ thống quản trị thông  
tin đa phương tiện vì hai lý do chính sau. Thứ nhất, khối lượng văn bản rất lớn đang  
có sẵn trong các cơ quan như thư viện. Văn bản là nguồn thông tin quan trọng của  
mọi tổ chức. Để sử dụng hiệu quả thông tin trong các tài liệu này cần có hệ thống IR  
hiệu quả. Thứ hai, văn bản còn được sử dụng để mô tả các loại media khác như  
audio, ảnh và video. Các kỹ thuật IR quen thuộc có thể được sử dụng để truy tìm  
thông tin đa phương tiện. Tuy nhiên việc sử dụng IR để quản lý dữ liệu đa phương  
tiện có các hạn chế sau:  
Mô tả thường là tiến trình thủ công và tốn kém thời gian.  
Mô tả bằng văn bản không đầy đủ và chủ quan.  
Kỹ thuật IR không áp dụng được cho truy vấn các loại dữ liệu khác văn bản.  
Một vài đặc trưng như kết cấu ảnh (image texture) và hình dạng ảnh rất  
khó mô tả bằng văn bản.  
1.3.3. Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện  
DBMS và IR đcập trên đây không đáp ứng đầy đủ yêu cầu truy tìm và chỉ  
số hóa đa phương tiện, do vậy, đòi hỏi kỹ thuật mới để quản lý các tính chất đặc biệt  
của dữ liệu đa phương tiện. Tuy nhiên ta nhận ra rằng DBMS và IR có thể đóng vai  
trò quan trọng trong MMDBMS.  
Nhiều phần dữ liệu đa phương tiện như ngày tạo lập, tác giả, v.v.. là có cấu  
trúc. Chúng có thể được quản lý bằng các kỹ thuật DBMS. Mô tả (annotation) bằng  
văn bản vn còn là phương pháp hiu quả để thu thập nội dung dữ liệu đa phương  
tiện, do vậy các kỹ thuật IR vẫn đóng vai trò quan trọng.  
Tóm lại, cần phải tích hợp DBMS, IR và các kỹ thuật đặc biệt khác quản lý  
Học viên: Lưu Thị Hải Yến  
13  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
dữ liệu đa phương tiện để phát triển MIRS phù hợp và hiệu quả.  
1.4. KHÁI QUÁT VỀ MIRS  
Các thao tác MIRS được mô tả trên hình 1. 2. Dữ liệu (các mục thông tin)  
trong CSDL đưc tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa. Sau đó  
chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa.  
Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và  
các đặc trưng chính của nó được trích chọn. Các đặc trưng này sau đó được so sánh  
với các đặc trưng hay chỉ mục của mỗi mục thông tin trong CSDL. Các mục thông  
tin nào có đặc trưng gần giống nhất với các đặc trưng của câu truy vấn thì được tìm  
ra và trình diễn cho người sử dụng.  
Mẫu truy vấn có thể mô tả như sau:  
Chỉ mục:  
Ảnh (I) --> véctơ đặc trưng f(I): (f1, f2,... fk)  
Truy vấn:  
Véctơ truy vấn q:  
Tính tương tự:  
Đo khoảng cách:  
(q1, q2,... qk)  
d(f,q)  
Kết quả:  
Học viên: Lưu Thị Hải Yến  
14  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Ảnh (I) có giá trị d(f(I),q) nhỏ nhất.  
Các khoản mục  
thông tin  
Các câu hỏi  
Tiền xử lý và chỉ  
số hoá  
Xứ lý và trích  
rút đặc trưng  
Các đặc trưng  
truy vấn  
Các mục chỉ số  
thông tin  
Tính sự tương đồng  
Truy suất các khoản  
mục tương tự  
Mô hình trên hình 1.2 cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:  
Các mục thông tin có thể là tổ hợp bất kỳ các loại media.  
Trích chọn đặc trưng từ các mục media này như thế nào?  
Các đặc trưng được lưu trữ và cấu trúc như thế nào để truy tìm hiệu quả?  
Đo tính “tương tự” giữa hai mục media như thế nào?  
Thiết kế giao diện như thế nào để nó có thể chấp nhận các câu truy vấn  
phức tạp, mờ và mềm dẻo?  
So sánh hiệu năng giữa các hệ thống MIRS bằng cách nào?  
Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình diễn dữ  
liệu MM?  
1.5. KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS  
MIRS cần phải mạnh và mềm dẻo. Khả năng của chúng được miêu tả bằng  
Học viên: Lưu Thị Hải Yến  
15  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
các kiểu truy vấn mà chúng có thể hỗ trợ. Các loại truy vấn mong đợi của MIRS  
như sau:  
Truy vấn trên cơ sở meta-data  
Meta-data là các thuộc tính hình thức của các mục trong CSDL như tên tác  
giả, ngày tạo lập. Thí dụ truy vấn trong ứng dụng VOD (Video on Demand) có thể  
là “Liệt kê các phim do ông NAME đạo diễn vào năm 2004”. Khả năng của DBMS  
có thể đáp ứng loại truy vấn này.  
Truy vấn trên cơ sở mô tả  
Mô tả (annotation) đề cập đến miêu tả (description) bằng văn bản nội dung  
các mục CSDL. Các câu truy vấn theo từ khóa hay free-text form, việc truy tìm thực  
hiện trên cơ sở tương tự giữa câu truy vấn và mô tả. Thí dụ truy vấn có thể là “Chỉ  
ra các đoạn video trong đó ACTOR đang đi xe đạp”. Với loại truy vấn này, ta giả sử  
rằng các mục đã được mô tả đầy đủ và có thể quản lý bởi các kỹ thuật IR.  
Truy vấn trên cơ sở mẫu (pattern) hay đặc trưng  
Mẫu dữ liệu là các thông tin tĩnh về dữ liệu đa phương tiện như phân bổ màu,  
cường độ âm thanh, mô tả kết cấu bề mặt. Thí dụ của loại truy vấn này có thể là  
“Chỉ ra khung (frame) video với phân bổ màu như THIS”. Để trả lời loại truy vấn  
này, các thông tin thống kê về các mục CSDL phải được chuẩn bị và lưu trữ trước.  
Truy vấn theo thí dụ (by example)  
Truy vấn trong các đối tượng đa phương tiện như ảnh, bản vẽ và đoạn âm  
thanh. Thí dụ truy vấn có thể là “Hãy chỉ ra phim trong đó có đoạn tương tự như  
THIS PICTURE”. Loại truy vấn này có thể phức tạp hơn khi bổ sung yếu tố quan  
hệ thời gian và không gian giữa các đối tượng.  
Truy vấn ứng dụng cụ thể  
Rất nhiều loại truy vấn cụ thể theo ứng dụng. Thí dụ, truy vấn trên cơ sở  
thông tin chi tiết, cụ thể như kích thước đối tượng hay tuổi cá nhân.  
Học viên: Lưu Thị Hải Yến  
16  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Vì MIRS có khả năng hỗ trợ nhiều loại truy vấn cho nên nó có ứng dụng  
rộng rãi, bao gồm các ứng dụng trong các lĩnh vực sau đây:  
Y tế: Bác sỹ có ảnh siêu âm mới, ông ta muốn tìm ảnh to tâm thất trái  
tương tự trong CSDL ảnh siêu âm.  
An ninh: Cảnh sát đưa vào hệ thống một ảnh mặt người và muốn tìm ra  
mọi ảnh khác và các hồ sơ liên quan đến những người tương tự với bức ảnh này  
trong CSDL thông tin an ninh.  
Giáo dục: Sinh viên quét bức ảnh động vật và muốn tìm mọi tính chất (bao  
gồm âm thanh, ảnh và mô tả văn bản về loại động vật này từ CSDL giáo dục. Thí dụ  
khác, sinh viên mô phỏng âm thanh và muốn tìm ra các ảnh và thông tin mô tả về  
loại động vật này.  
Báo chí: Phóng viên viết bài báo về một nhân vật và ông ta muốn tìm ra  
ảnh của nhân vật với thông tin liên quan mà đã xuất hiện trên mặt báo và TV  
khoảng 20 năm trước đây.  
Giải trí: Người xem muốn tìm các video clíp tương tự với cái họ đang xem  
từ CSDL video lớn.  
Đăng ký tên thương mi : Một nhân viên đang xử lý trường hợp đăng ký  
tên thương mi, muốn xác định tên thương mại tương tự đã được đăng ký trước đó  
không.  
Cuối cùng, MIRS tập trung vào chính thông tin thay cho tập trung vào loại  
media và trình diễn thông tin có thể ánh xạ hay chuyển đổi từ loại media này sang  
loại media khác. Có nghĩa rằng, thí dụ, có thể truy tìm tài liệu video bằng video,  
text, nhạc, tiếng nói hay tương tự. Điều đó phụ thuộc vào môtơ tìm kiếm để đối  
sánh dữ liệu trong câu truy vấn với các mục trong CSDL.  
Học viên: Lưu Thị Hải Yến  
17  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
CHƯƠNG 2: HỆ TÌM KIẾM THÔNG TIN  
2.1. KHÁI QUÁT CHUNG VTÌM KIẾM THÔNG TIN  
Tìm kiếm thông tin là tìm kiếm trong một tập tài liệu để lấy ra các thông tin  
mà người tìm kiếm quan tâm.  
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm thông  
tin (IR – Information Retrieval). Kỹ thuật IR trong hệ thống đa phương tiện rất quan  
trọng vì hai lý do chính sau đây:  
Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Văn bản  
là tài nguyên rất quan trọng đối với các cơ quan tổ chức. Cần có IR đủ  
tốt để sử dụng có hiệu quả các thông tin lưu trữ trong các tài liệu.  
Học viên: Lưu Thị Hải Yến  
18  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Văn bản được sử dụng để mô tả các media khác như video, audio, ảnh  
để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông  
tin đa phương tiện.  
Nhiệm vụ chính của thiết kế hệ thống IR là để nhằm giải quyết vấn đề là:  
Trình diễn và truy vấn tài liệu như thế nào.  
So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao.  
Các mô hình truy vấn sẽ xác định hai kh ía cạnh này. Có bốn mô hình truy  
vấn hay được sử dụng, đó là:  
.
.
.
.
Đối sánh chính xác (exact match),  
Không gian véctơ,  
Xác suất  
Trên cơ sở cụm (cluster-based).  
Trong kỹ thuật đối sánh chính xác (hoàn toàn), mô hình Boolean hay được sử  
dụng nhất.  
Mặc dù các mô hình truy vấn khác nhau, sử dụng sự trình diễn và chỉ mục tài  
liệu khác nhau, nhưng nói chung tiến trình chỉ mục được sử dụng trong chúng là  
tương tự nhau. Để nâng cao hiệu năng truy vấn, việc xử lý ngôn ngữ tự nhiên và các  
kỹ thuật trí tuệ nhân tạo được áp dụng.  
Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, cho nên  
hầu như không thể truy vấn mọi tài liệu (items) liên quan hay loại đi mọi tài liệu  
không liên quan. Do vậy, thước đo hiệu năng IR là rất quan trọng.  
Một số vấn đề trong tìm kiếm thông tin  
Kể từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm  
thông tin đã thu hút sự chú ý rất lớn. Với một lượng thông tin khổng lồ thì việc tìm  
kiếm chính xác và nhanh chóng càng trở nên khó khăn hơn. Với sự ra đời của máy  
Học viên: Lưu Thị Hải Yến  
19  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
tính, rất nhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông  
minh và chính xác. Tuy nhiên, vấn đề tìm kiếm sao cho hiệu quả vẫn chưa được giải  
quyết.  
Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản. Giả  
sử có một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến  
yêu cầu của mình. Người đó có thể đọc tất cả các tài liệu trong kho, giữ lại các tài  
liệu liên quan và bỏ đi các tài liệu không liên quan. Rõ ràng giải pháp này không  
thực tế bởi vì tốn rất nhiều thời gian.  
Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho  
con người để trích ra các tài liệu có liên quan trong toàn bộ tập dữ liệu. Tuy nhiên  
vấn đề lúc này là làm sao để xác định được tài liệu nào liên quan đến câu hỏi. Mục  
đích của một hệ thống tìm kiếm thông tin tự động là truy lục được tất cả các tài liệu  
có liên quan đến yêu cầu.  
2.1.1. Hệ thống truy tìm thông tin – IR  
Các hệ thống tự động truy tìm thông tin (IR - Information Retrieval) đã được  
phát triển để quản lý khối lượng lớn tài liệu khoa học từ những năm 40 của thế kỷ  
XX. Chức năng chính của hệ thống IR là lưu trữ và quản trị khối lượng văn bản lớn  
theo cách sao cho dễ dàng truy vấn ( query) tài liệu mà người sử dụng quan tâm.  
Chú ý rằng đồng nghĩa với IR là text IR dù rằng ý nghĩa đầy đủ của khái niệm IR là  
đề cập đến truy tìm bất kỳ loại thông tin nào.  
Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp  
người sử dụng có thể tìm thấy các thông tin mình cần trong một khối lượng lớn dữ  
liệu. Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự như nhiệm vụ tổ chức  
phân loại tài liệu và phục vụ việc tra cứu của một thư viện. Một hệ thống tìm kiếm  
thông tin có hai chức năng chính: lập chỉ mục (indexing) và tra cứu (interrogation).  
Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục  
(term / index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào  
một cấu trúc phân lớp có sẵn (control vocabulary) như cách làm của các nhân viên  
Học viên: Lưu Thị Hải Yến  
20  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
thư viện, phân loại tài liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách  
làm này là tồn tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút  
trích các chỉ mục từ chính nội dung của tài liệu (free text). Trong luận văn này tôi  
chỉ đề cập đến cách thứ hai. Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có  
trong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mục.  
Mô hình tổng quát của tìm kiếm thông tin như sau:  
Phù hợp  
người sử dụng  
Tài liệu  
Người sử dụng  
Các yêu cầu  
Thế giới thực  
Truy cập  
Phù hợp  
hệ thống  
Hệ thống cụ thể  
CSDL tài liệu  
Mô hình  
Mô hình  
Đối sánh  
tài liệu  
yêu cầu  
Mô hình tìm  
Tri thức  
kiếm thông tin  
Hình 2.1: Mô hình tìm kiếm thông tin tổng quát  
Mô hình trên gm 4 thành phần:  
Mô hình yêu cầu: Để sử dụng biểu diễn yêu cầu của họ  
Mô hình tài liệu: Để biểu diễn trừu tượng tài liệu thực và nội dung của  
chúng  
Hàm ánh xạ (đối sánh): Xác định sự phù hợp của hệ thống đối với yêu  
cầu  
Học viên: Lưu Thị Hải Yến  
21  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Tri thức: Biểu diễn các tri thức để mô tả ngữ nghĩa thuộc lĩnh vực tài  
liệu  
Biểu diễn hình thức:  
D – Biểu diễn các tài liệu (Docs)  
Q – Biểu diễn câu truy vấn Queries (Yêu cầu)  
F – Khung mô hình hóa D,Q và quan hệ giữa chúng  
R(q,di): Hàm đối sánh hay xếp hạng (Ranking)  
Quy trình của hệ thống tìm kiếm thông tin như sau:  
+ Người dùng muốn xem tài liệu liên quan đến một chủ đề nào đó  
+ Người dùng cung cấp mô tả về tài liệu muốn xem dưới dạng câu truy vấn  
+ Từ câu truy vấn này hệ thống lọc ra những cụm từ và chỉ mục của tài liệu  
đã được xử lý trước đó  
+ Những tài liệu nào liên quan cao nhất với mô tả sẽ được trả về cho người  
dùng  
Mục đích của IR là hiển thị một tập thông tin thỏa mãn nhu cầu của họ.  
Chúng ta định nghĩa thông tin yêu cầu là câu truy vấn (Query), thông tin tìm được là  
tài liệu (Document). Mục đích của hệ thống IR là tự động truy tìm các tài liệu bằng  
cách kiểm tra độ tương quan giữa câu truy vấn và đặc trưng của tài liệu. Kết quả  
thành công khi kết quả trả về của hệ thống phù hợp với yêu cầu của câu truy vấn.  
Hệ thống IR gồm các bản ghi không có cấu trúc. Chúng không chứa các  
thuộc tính cố định. Nó chỉ đơn thuần là tài liệu văn bản. Các tài liệu này có thể chỉ  
mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục. Mỗi  
thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh  
nào đó, không đy đủ và không rõ ràng cho toàn bộ nội dung văn bản. Nhiều thuật  
ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể. Bởi vì các thao tác truy vấn  
văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu  
Học viên: Lưu Thị Hải Yến  
22  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
trữ, do vậy cần phải có nhiều cố gắng để tập trung vào phân tích nội dung của các  
tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục.  
Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh chính xác  
giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết quả. Thay vì, truy  
vấn các mục liên quan với đủ mức độ tương đồng giữa tập thuật ngữ gắn theo câu  
truy vấn và tài liệu, được sinh ra bởi phương pháp xấp xỉ hay đối sánh từng phần.  
Hơn nữa cùng thuật ngữ có thể có nhiều ý nghĩa khác nhau.  
Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên quan đến  
câu truy vấn và có ích với người sử dụng. Nhưng trong hệ thống IR, các tài liệu  
được xem như liên quan đến câu truy vấn nhưng có thể không liên quan và không  
có ích với người sử dụng. Hình 2.2 chỉ ra tiến trình truy vấn tài liệu cơ sở.  
Query  
Tài liệu văn bản  
Xử lý  
Xử lý  
Đại diện  
Mô hình  
query  
tài liệu  
Đối sánh  
(tính toán độ  
tương đồng)  
Tài liệu truy vấn  
Đánh giá mức  
độ thích hợp  
Hình 2.2: Tiến trình truy vấn tài liệu cơ sở  
Học viên: Lưu Thị Hải Yến  
23  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
 
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Phía phải hình 2.2 chỉ ra rằng các tài liệu được xử lý off-line để có đại diện  
(mô tả). Các đại diện này được lưu trữ cùng với các tài liệu.  
Phía trái hình 2.2 chỉ ra quá trình truy vấn. Người sử dụng đưa ra câu truy  
vấn và được xử lý on-line để có đại diện của mình. Sau đó đối sánh đại diện truy  
vấn với đại diện tài liệu. Các tài liệu được xem như tương đồng sẽ được trình diễn  
cho ngưi sử dụng. Họ đánh giá tài liệu cho lại và quyết định tài liệu nào thực sự  
tương đồng với thông tin họ cần. Một hệ thống IR tốt cần phải cho phép người sử  
dụng cung cấp phản hồi thích hợp cho hệ thống. Hệ thống sử dụng thông tin này để  
điều chỉnh truy vấn, đại diện truy vấn, hoặc/và đại diện tài liệu. Truy tìm khác tiếp  
theo được thực hiện trên cơ sở câu truy vấn đại diện tài liệu đã hiệu chỉnh. Nếu cần,  
tiến trình phản hồi truy tìm được thực hiện lặp vài lần. Chú ý rằng, không phải tất cả  
các hệ thống IR đều có tiến trình phản hồi thích hợp.  
Các mô hình IR khác nhaus dụng các phương pháp khác nhau trong đại  
diện truy vấn và đại diện tài liệu, đối sánh tương đồng hoặc/và phản hồi thích hợp.  
Sau đây là trình bày về mô hình Bool và mô hình không gian véctơ áp dụng trong  
truy tìm văn bản.  
2.1.2. Các thành phần của một hệ tìm kiếm thông tin  
Gồm: tập các tài liệu (DOCS) đã được lưu trữ trong kho dữ liệu, tập các yêu  
cầu (REQS) của người dùng, và một số phương pháp tínhộđtương quan  
(SIMILAR) đxác định các tài liệu đáp ứng cho các yêu cầu.  
Hình 2.3: Môi trường của hệ tìm kiếm thông tin  
Theo lý thuyết thì mối liên hệ giữa các câu hỏi và các tài liệu có thể so sánh  
một cách trực tiếp. Nhưng trên thực tế thì điều này không thể được vì các câu hỏi và  
các tập tài liệu đều ở dạng văn bản, chỉ có con người đọc vào thì thấy ngay được  
Học viên: Lưu Thị Hải Yến  
24  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
mối liên hệ giữa chúng, nhưng ở đây chỉ là một hệ thống máy móc không thể suy  
luận như con người được. Chính vì thế để xác định được mối liên hệ giữa các câu  
hỏi và các tập tài liệu phải qua một bước trung gian.  
Hình 2.4: Tổng quan về chức năng của một hệ tìm kiếm thông tin  
Trước hết chuyển đổi các câu hỏi thành các từ riêng biệt đủ để biểu hiện cho  
nội dung của câu hỏi gọi là ngôn ngữ chỉ mục (Indexing language - LANG). Tách  
từ trong các tập tài liệu và lập chỉ mục cho tài liệu. Lúc này có thể so sánh trực tiếp  
giữa các từ của câu hỏi và các từ chỉ mục của tập tài liệu. Và từ đó ta sẽ dễ dàng  
hơn để xác định độ tương quan giữa các câu hỏi và tập tài liệu.  
2.1.3. So sánh hệ thống IR với các hệ thống thông tin khác  
Hệ thống tìm kiếm thông tin cũng tương tự như nhiều hệ thống xử lý thông  
tin khác. Hiện nay các hệ thống thông tin quan trọng nhất là: hệ quản trị cơ sở dữ  
liệu (DBMS), hệ quản lý thông tin (IMS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời  
câu hỏi (QAS) và hệ tìm kiếm thông tin (IR). Việc hiểu biết sự khác nhau giữa hai  
hệ thống truy tìm văn bản (IR) và các hệ thống thông tin khác giúp ta hiểu rõ các kỹ  
thuật truy tìm văn bản.  
Hệ quản trị cơ sở dữ liệu  
Bất cứ hệ thống thông tin tự động nào cũng dựa trên một tập các mục được  
lưu trữ (gọi là cơ sở dữ liệu) cần thiết cho việc truy cập. Do đó hệ quản trị cơ sở dữ  
liệu đơn giản là một hệ thống được thiết kế nhằm thao tác và duy trì điều khiển cơ  
sở dữ liệu.  
Học viên: Lưu Thị Hải Yến  
25  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
DBMS tổ chức lưu trữ các dữ liệu của mình dưới dạng các bảng. Mỗi một cơ  
sở dữ liệu được lưu trữ thành nhiều bảng khác nhau. Mỗi một cột trong bảng là một  
thuộc tính, và mỗi một dòng là một bộ dữ liệu cụ thể. Trong mỗi một bảng có một  
thuộc tính duy nhất đại diện cho bảng, nó không được trùng lắp và ta gọi đó là khoá  
chính. Các bảng có mối liên hệ với nhau thông qua các khoá ngoại. Hệ quản trị cơ sở  
dữ liệu có một tập các lệnh để hỗ trợ cho người sử dụng truy vấn đến dữ liệu của  
mình. Vì vậy muốn truy vấn đến cơ sở dữ liệu trong hệ quản trị cơ sở dữ liệu ta phải  
học hết các tập lệnh này. Nhưng ngược lại nó sẽ cung cấp cho ta các dữ liệu đầy đủ  
và hoàn toàn chính xác. Hiện nay hệ quản trị cơ sở dữ liệu được sử dụng rộng rãi trên  
thế giới. Một số hệ quản trị cơ sở dữ liệu thông dụng : Access, SQL Server, Oracle.  
Hệ quản lý thông tin (IMS)  
Hệ quản lý thông tin là hệ quản trị cơ sở dữ liệu nhưng có thêm nhiều chức  
nhưng vviệc quản lý. Những chức năng quản lý này phụ thuộc vào giá trị của  
nhiều kiểu dữ liệu khác nhau. Nói chung bất kỳ hệ thống nào có mục đích đặc biệt  
phục vụ cho việc quản lý thì ta gọi nó là hệ quản lý thông tin.  
Hệ hỗ trợ ra quyết định (DSS)  
Hệ hỗ trợ ra quyết định sẽ dựa vào các tập luật được học, từ những luật đã  
học rút ra những luật mới, sau khi gặp một vấn đề nó sẽ căn cứ vào vào tập các luật  
để đưa ra những quyết định thay cho con người. Hệ thống này đang được áp dụng  
nhiều cho công việc nhận dạng và chuẩn đoán bệnh.  
Hệ trả lời câu hỏi (QAS)  
Hệ trả lời câu hỏi cung cấp việc truy cập đến các thông tin bằng ngôn ngữ tự  
nhiên. Việc lưu trữ cơ sở dữ liệu thường bao gồm một số lượng lớn các vấn đề liên  
quan đến các lĩnh vực riêng biệt và các kiến thức tổng quát. Câu hỏi của người dùng  
có thể ở dạng ngôn ngữ tự nhiên. Công việc của hệ trả lời câu hỏi là phân tích câu  
truy vấn của người dùng, so sánh với các tri thức được lưu trữ, và tập hợp các vấn  
đề có liên quan lại để đưa ra câu trả lời thích hợp.  
Học viên: Lưu Thị Hải Yến  
26  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Tuy nhiên, hệ trả lời câu hỏi còn đang thử nghiệm. Việc xác định ý nghĩa của  
ngôn ngữ tự nhiên dường như vẫn là chướng ngại lớn để có thể sử dụng rộng rãi hệ  
thống này.  
So sánh IRS với các hệ thống thông tin khác  
Bảng 2.1: So sánh IRS với các hệ thống thông tin khác  
IRS  
DBMS  
QAS  
IMS  
Giống  
Tìm kiếm  
Lưu trữ  
Xử lý  
Nội dung  
Các phần tử Các sự kiện  
rõ ràng.  
trong các tài có kiểu dữ  
DBMS  
liệu.  
liệu đã được  
nhưng hỗ trợ  
thêm những  
thủ tục (Tính  
tổng, tính  
trung bình,  
phép  
định nghĩa.  
Các văn bản Các phần tử Các sự kiện  
ngôn ngữ tự dữ liệu ở  
nhiên. dạng bảng.  
rõ ràng và  
các kiến thức  
tổng quát.  
chiếu…)  
Các câu truy Các câu truy Các câu truy  
vấn không  
vấn có cấu  
vấn không  
giới hạn.  
chính xác.  
trúc.  
2.1.4. Các hệ tìm kiếm văn bản được đánh giá cao hiện nay  
GoogleDesktop  
GoogleDesktop search giúp cho chúng ta có thể tìm kiếm một cách dễ dàng  
trong máy tínhac mình giống như việc tìm kiếm trên web của google.  
GoogleDesktop là một ứng dụng cung cấp cho chúng ta tìm kiếm một văn bản với  
từ khóa đầy đủ trong mail, các file, âm nhạc, ảnh, chat, Gmail, và các trang web  
nằm trong máy mình. Bằng việc làm cho có thể tìm kiếm được trên máy tính của  
mình, Desktop đặt những thông tin của bạn vào trong tầm tay và rất linh hoạt trong  
Học viên: Lưu Thị Hải Yến  
27  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
việc tổ chức file mail và bookmark  
GoogleDesktop không chỉ giúp chúng ta t ìm kiếm trong máy mà còn có thể  
giúp chúng ta ly thông tin trên mạng và chúng được bố trí trong gadgets và  
sidebar. Chúng ta có thể đặt Google Gadgets ở bất cứ chỗ nào trong máy tính và nó  
hiển thị thông tin về mail, thời tiết, ảnh, tin tức và nhiều thứ khác. Sidebar là  
vertical bar nằm trên máy có tác dụng tổ chức lại các Gadgets.  
DTSearch  
DTSearch là một hệ tìm kiếm thực hiện theo mô hình Boolean. Nó lập chỉ  
mục khá nhanh và có nhiều lựa chọn thích hợp cho người sử dụng. Ngoài việc cung  
cấp giao diện tìm kiếm trực tiếp và lập chỉ mục thì DTSearch còn cung cấp thư viện  
dll dùng cho lập trình viên. Thư viện dll này có khả năng lập chỉ mục, thực hiện tìm  
kiếm theo mô hình boolean. Có thể nói khá tốt hiện nay. Có thể nói DTSearch là  
điển hình tìm kiếm văn bản theo mô hình Boolean  
Hệ tìm kiếm văn bản Lucene  
Hệ tìm kiếm văn bản Lucene là hệ tìm kiếm mã nguồn mở . Hệ thống được  
phát triển cả trên nền .Net và cả trên ngôn ngữ Java. Hệ thống hiện cũng được khá  
nhiều lập trình viên phát triển  
2.2. HỆ TÌM KIẾM THÔNG TIN  
2.2.1. Kiến trúc của hệ tìm kiếm thông tin.  
Kiến trúc hệ tìm kiếm thông tin cơ bản  
Học viên: Lưu Thị Hải Yến  
28  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   
Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu  
Hình 2.5: Kiến trúc hệ tìm kiếm thông tin cơ bản  
Một hệ thống thông tin tiêu biểu như sau:  
Giao diện người sử dụng  
(1)  
Văn bản  
NSD  
Các tính toán cho văn bản  
yêu cầu  
Tính toán cho  
câu truy vấn  
Lập  
chỉ mục  
Quản trị cơ sở  
dữ liệu  
NSD phản  
hồi  
(2)  
Tệp chỉ  
mục  
Tìm kiếm  
Sắp xếp  
Chỉ mục  
Truy vấn  
Cơ sở dữ  
liệu văn  
bản  
Truy tìm tài  
Tài liệu đã  
sắp xếp  
liệu  
(3)  
Hình 2.6. Hệ tìm kiếm thông tin tiêu biểu  
Học viên: Lưu Thị Hải Yến  
29  
Số hóa bởi Trung tâm Học liệu Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
   

Tải về để xem bản đầy đủ

pdf 92 trang yennguyen 18/04/2025 60
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nghien_cuu_phat_trien_he_thong_da_phuong_tien_tren.pdf