Luận văn Nghiên cứu một số kỹ thuật xác định độ đo tương tự và ứng dụng

ĐẠI HỌC THÁI NGUYÊN  
KHOA CÔNG NGHỆ THÔNG TIN  
TRẦN QUANG HUY  
NGHIÊN CỨU MỘT SỐ KỸ THUẬT  
XÁC ĐỊNH ĐỘ ĐO TƯƠNG TỰ VÀ ỨNG DỤNG  
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN  
Thái nguyên - 2009  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
ĐẠI HỌC THÁI NGUYÊN  
KHOA CÔNG NGHỆ THÔNG TIN  
TRẦN QUANG HUY  
NGHIÊN CỨU MỘT SỐ KỸ THUẬT  
XÁC ĐỊNH ĐỘ ĐO TƯƠNG TỰ VÀ ỨNG DỤNG  
Chuyên ngành:  
Khoa học máy tính  
Mã số:  
60.48.01  
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN  
Người hướng dẫn khoa học: TS. Phạm Việt Bình  
Thái nguyên 2009  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
LỜI CAM ĐOAN  
Tôi xin cam đoan toàn bnội dung trong Luận văn hoàn toàn theo đúng  
nội dung đề cương cũng như nội dung mà cán bhướng dẫn giao cho. Nội  
dung luận văn, các phần trích lục các tài liệu hoàn toàn chính xác. Nếu có sai  
sót tôi hoàn toàn chịu trách nhiệm.  
Tác giả luận văn  
Trần Quang Huy  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
5
 
MỤC LỤC  
Nội dung  
Trang  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
6
 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
7
ĐẶT VẤN ĐỀ  
Lĩnh vực xử lý ảnh số tĩnh và xử lý ảnh động (video) đã được hình  
thành và phát triển vào những thập kỷ đầu của thế kỷ XX. Các phương pháp  
xử lý ảnh bắt nguồn từ một số ứng dụng như nâng cao chất lượng thông tin  
hình ảnh đối với mắt người và xử lý số liệu, nhận dạng cho hệ thống tự động.  
Một trong những ứng dụng đầu tiên của xử lý ảnh là nâng cao chất lượng ảnh  
báo truyền qua cáp giữa London và New York vào những năm 1920. Thiết bị  
đặc biệt mã hóa hình ảnh, truyền qua cáp và khôi phục lại ở phía thu. Cùng  
với thời gian, do kỹ thuật máy tính phát triển nên xử lý hình ảnh ngày càng  
phát triển. Các kỹ thuật cơ bản cho phép tìm kiếm, đối sánh những ảnh để tìm  
ra stương t.  
Từ năm 1964 đến nay, phạm vi xử lý ảnh và video (ảnh động) phát  
triển không ngừng. Các kỹ thuật xử lý ảnh số (digital image processing) đang  
được sử dụng để giải quyết một loạt các vấn đề nhằm nâng cao chất lượng  
thông tin hình ảnh. Và xử lý ảnh số được ứng dụng rất nhiều trong y tế, thiên  
văn học, viễn thám, sinh học, y tế hạt nhân, quân sự, sản xuất công nghiệp …  
Một ứng dụng quan trọng trong xử lý ảnh số mà không thể không nhắc đến đó  
là đối sánh một ảnh với các frame của một file video nhằm mục đích tìm kiếm  
sự giống nhau hay khác nhau, qua đó giúp cho quá trình xử lý công việc  
nhanh hơn mà không mất thời gian kiểm tra từng file video.  
Chính vì vậy, tôi lựa chọn đề tài Nghiên cứu một số kỹ thuật xác  
định độ đo tƣơng tự và ứng dụng nhằm nghiên cứu một số kỹ thuật xác  
định độ đo tương tự như Trainable similarity measure (TSM) và Histogram  
dòng cột. Qua đó, tôi có thể đưa ra một số nhận xét và có thể có giải pháp đề  
xuất để phân loại đối tượng ảnh trong file video hiệu quả hơn.  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
8
     
LỜI NÓI ĐẦU  
Xnh là một lĩnh vực đã và đang được quan tâm ca nhiu nhà khoa  
học trong và ngoài nước bi tính phong phú và li ích của nó được ng dng  
trong khoa hc kthut, kinh tế, xã hội và đời sống con người. Lĩnh vực xlý  
nh liên quan ti nhiều ngành khác như: hệ thng tin hc, trí tunhân to,  
nhn dng, vin thám, y hc...  
Hin nay, thông tin hình ảnh đóng vai trò rt quan trọng trong trao đổi  
thông tin, bi phn lớn thông tin mà con người thu được thông qua thgiác.  
Do vy, vấn đề nhn dng trong xảnh, đặc bit là nhn dạng đối tượng  
nh chuyển động đang được quan tâm bi yêu cu ng dụng đa dạng ca  
chúng trong thc tin.  
Mục đích đặt ra cho xảnh được chia thành hai phn chính: phn  
thnhất liên quan đến nhng khả năng từ các nh thu li các ảnh để ri tcác  
ảnh đã được ci biến nhận được nhiều thông tin để quan sát và đánh giá bằng  
mt, chúng ta coi như là sbiến đổi nh (image transformation) hay slàm  
đẹp nh (image enhancement). Phn hai nhm vào nhn dng hoặc đoán nhận  
nh mt cách tự động, đánh giá nội dung các nh.  
Quá trình nhn dng nh nhm phân loại các đối tượng thành các lp  
đối tượng đã biết (supervised learning) hoc thành nhng lớp đối tượng chưa  
biết (unsupervised learning). Sau quá trình tăng cường và khôi phc (đối vi  
nhng nh có nhiu), giai đoạn tiếp theo, người ta phải trích rút các đặc tính  
quan trng, quyết định ca nh cn nhn dạng. Các đặc tính đó có thể là đặc  
tính hình học, đặc tính ngcnh.  
Bên cạnh đó, trong những năm gần đây lượng dliu video số đã tăng  
lên đáng kể cùng vi vic sdng rng rãi các ng dụng đa phương tiện trong  
giáo dc, gii trí, kinh doanh, y tế… Thực tế này đặt ra các bài toán như: giảm  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
9
   
dung lượng video và tăng tốc độ xlý, tchức lưu trữ và tìm kiếm video hiu  
qu, hiu ni dung video, nhn dạng đối tượng trong video. Mt snhóm  
nghiên cứu trong và ngoài nước đã đưa ra các phương pháp gii quyết gim  
dung lượng video, tchức cơ sở dliệu video, và đặc biệt lĩnh vực là nhn  
dạng đối tượng, đối tượng chuyển động trong dliệu video cũng đang được  
quan tâm bi tính ng dụng đa dạng và cn thiết ca nó trong khoa hc, xã  
hội và đời sng con người.  
Trong luận văn thạc sĩ với đề tài “Nghiên cứu một số kỹ thuật xác  
định độ đo tƣơng tự và ứng dụng”, tôi tập trung gii quyết bài toán đọc nh  
và so sánh với các frame trong file video để đưa ra nhận xét. Luận văn gồm  
phn mở đầu, phn kết luận, và 3 chương nội dung:  
Chương 1 : Khái quát về xử lý ảnh và độ đo tương tự trong xử lý ảnh  
Chương 2 : Một số phương pháp xác định độ đo tương tự  
Chương 3 : Ứng dụng trong việc phân loại ảnh  
Được sự giúp đỡ của các thầy cô trong Khoa Công nghệ thông tin - Đại  
học Thái Nguyên cũng như của bạn bè, đồng nghiệp, đặc biệt là chỉ bảo tận  
tình của Tiến sĩ Phạm Việt Bình và sự nỗ lực của bản thân, đến nay tôi đã  
hoàn thành đề tài.  
Tuy nhiên trong quá trình làm việc, mặc dù đã cố gắng nỗ lực hết sức  
nhưng do kiến thức và kinh nghiệm vẫn còn hạn chế nên không thể tránh khỏi  
còn sai sót, em tha thiết kính mong nhận được sự chỉ bảo của các thầy cô để  
đề tài được hoàn thiện hơn.  
Em xin chân thành cảm ơn.  
Thái Nguyên, ngày 30 tháng 10 năm 2009  
Học viên thực hiện  
Trần Quang Huy  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
10  
CHƢƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ ĐỘ ĐO TƢƠNG TỰ  
TRONG XỬ LÝ ẢNH  
1.1. Khái quát về xử lý ảnh  
1.1.1. Một số khái niệm cơ bản[1]  
Xử lý ảnh là một trong những mảng quan trọng nhất trong kỹ thuật thị  
giác máy tính, là tiền đề cho nhiều nghiên cứu thuộc lĩnh vực này. Hai nhiệm  
vụ cơ bản của quá trình xử lý ảnh là nâng cao chất lượng thông tin hình ảnh  
và xử lý số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị  
giác vào điều khiển.  
Quá trình bắt đầu từ việc thu nhận ảnh nguồn (từ các thiết bị thu nhận  
ảnh dạng số hoặc tương tự) gửi đến máy tính. Dữ liệu ảnh được lưu trữ ở định  
dạng phù hợp với quá trình xử lý. Người lập trình sẽ tác động các thuật toán  
tương ứng lên dữ liệu ảnh nhằm thay đổi cấu trúc ảnh phù hơp với các ứng  
dụng khác nhau.  
Quá trình xử lý nhận dạng ảnh được xem như là quá trình thao tác ảnh  
đầu vào nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình  
xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận.  
Ảnh tốt hơn  
Ảnh  
Xảnh  
Kết luận  
Hình 1.1. Quá trình xử lý ảnh  
Ảnh trong xử lý ảnh có thể xem như ảnh n chiều. Bởi vì, ảnh có thể  
xem là tập hợp các điểm ảnh. Trong đó, mỗi điểm ảnh được xem như là đặc  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
11  
 
trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối  
tượng trong không gian và do đó nó có thể xem như một hàm n biến P(c1,  
c2,..., cn).  
Sơ đồ tổng quát của một hệ thống xử lý ảnh:  
Hquyết định  
Thu nhận ảnh  
(scanner,  
camera…)  
Tiền xlý  
(xoá nhiễu, lọc  
nhiễu,…)  
Trích  
chọn đặc  
điểm  
Hậu  
xlý  
Đối sánh rút ra  
kết luận  
Lưu trữ  
Hình 1.2. Các bƣớc cơ bản trong một hệ thống xử lý ảnh  
1.1.2. Một số vấn đề trong xử lý ảnh  
1.1.2.1. Các hệ thống xử lý ảnh  
* Tiền xử lý  
Tiền xử lý là giai đoạn đầu tiên trong xử lý ảnh số. Tuỳ thuộc vào quá  
trình xử lý tiếp theo trong giai đoạn này sẽ thực hiện các công đoạn khác nhau  
như: nâng cấp, khôi phục ảnh, nắn chỉnh hình học, khử nhiễu v.v..  
* Trích chọn đặc điểm  
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận  
dạng trong quá trình xử lý ảnh. Trích chọn hiệu quả các đặc điểm giúp cho  
việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung  
lượng nhớ lưu trữ giảm.  
* Đối sánh, nhận dạng  
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại  
và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được  
ứng dụng trong nhiều ngành khoa học khác nhau. Ví dụ mẫu có thể là ảnh của  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
12  
 
vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người  
hoặc một ký đồ tín hiệu tiếng nói. Khi biết một mẫu nào đó, để nhận dạng  
hoặc phân loại mẫu đó.  
Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân  
tích phân biệt (discriminant analyis), trong đó mẫu đầu vào được định danh  
như một thành phần của một lớp đã xác định. Hoặc phân loại không có mẫu  
(unsupervised classification hay clustering) trong đó các mẫu được gán vào  
các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó. Các lớp này cho  
đến thời điểm phân loại vẫn chưa biết hay chưa được định danh.  
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn  
chủ yếu sau đây:  
Thu nhận dữ liệu và tiền xử lý.  
Biểu diễn dữ liệu.  
Nhận dạng, ra quyết định.  
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:  
Đối sánh mẫu dựa trên các đặc trưng được trích chọn.  
Phân loại thống kê.  
Đối sánh cấu trúc.  
Phân loại dựa trên mạng nơ-ron nhân tạo.  
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận  
đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương  
pháp và cách tiếp cận khác nhau. Do vậy, các phương thức phân loại tổ hợp  
hay được sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng  
dựa trên thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết  
hợp.  
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy  
sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
13  
đặt ra những yêu cầu về tốc độ tính toán. Đặc điểm chung của tất cả những  
ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không  
thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân  
tích dữ liệu.  
1.1.2.2. Các hình thái của ảnh  
* Chuyển ảnh màu thành ảnh xám  
Đơn vị tế bào của ảnh số là pixel. Tùy theo mỗi định dạng là ảnh màu  
hay ảnh xám mà từng pixel có thông số khác nhau. Đối với ảnh màu từng  
pixel sẽ mang thông tin của ba màu cơ bản tạo ra bản màu khả kiến là Đỏ (R),  
Xanh lá (G) và Xanh biển (B) [Thomas 1892]. Trong mỗi pixel của ảnh màu,  
ba màu cơ bản R, G và B được bố trí sát nhau và có cường độ sáng khác nhau.  
Thông thường, mỗi màu cơ bản được biểu diễn bằng tám bit tương ứng 256  
mức độ màu khác nhau. Như vậy mỗi pixel chúng ta sẽ có 28x3=224 màu  
(khoảng 16.78 triệu màu). Đối với ảnh xám, thông thường mỗi pixel mang  
thông tin của 256 mức xám (tương ứng với tám bit) như vậy ảnh xám hoàn  
toàn có thể tái hiện đầy đủ cấu trúc của một ảnh màu tương ứng thông qua  
tám mặt phẳng bit theo độ xám.  
Trong hầu hết quá trình xử lý ảnh, chúng ta chủ yếu chỉ quan tâm đến  
cấu trúc của ảnh và bỏ qua ảnh hưởng của yếu tố màu sắc. Do đó bước  
chuyển từ ảnh màu thành ảnh xám là một công đoạn phổ biến trong các quá  
trình xử lý ảnh vì nó làm tăng tốc độ xử lý là giảm mức độ phức tạp của các  
thuật toán trên ảnh.  
* Lược đồ xám của ảnh (Histogram)  
Lược đồ xám của một ảnh số có các mức xám trong khoảng [0,L1]  
là một hàm rời rạc p(rk)=nk/n  
. Trong đó nk là số pixel có mức xám thứ  
rk, n là tổng số pixel trong ảnh và k=0,1,2....L1. Do đó P(rk) cho một xấp  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
14  
 
xỉ xác suất xảy ra mức xám rk. Vẽ hàm này với tất cả các gia trị của k sẽ biểu  
diễn khái quát sự xuất hiện các mức xám của một ảnh. Chúng ta cũng có thể  
thề hiện lược đồ mức xám của ảnh thông qua tần suất xuất hiện mỗi mức xám  
qua hệ tọa độ vuông góc xOy. Trong đó, trục hoành biểu diễn số mức xám từ  
0 đến N (số bit của ảnh xám). Trục tung biểu diễn số pixel của mỗi mức xám.  
Hình 1.3. Lược đồ xám của ảnh  
1.1.2.3. Một số ứng dụng trong xử lý ảnh  
Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử  
dụng để nâng cao chất lượng hình ảnh, chính xác hơn là tạo cảm giác về sự  
gia tăng chất lượng ảnh quang học trong mắt người quan sát. Thời gian gần  
đây, phạm vi ứng dụng xử lý ảnh mở rộng không ngừng, có thể nói hiện  
không có lĩnh vực khoa học nào không sử dụng các thành tựu của công nghệ  
xử lý ảnh số .  
Trong y học các thuật tóan xử lý ảnh cho phép biến đổi hình ảnh được  
tạo ra từ nguồn bức xạ X -ray hay nguồn bức xạ siêu âm thành hình ảnh  
quang học trên bề mặt film x-quang hoặc trực tiếp trên bề mặt màn hình hiển  
thị. Hình ảnh các cơ quan chức năng của con người sau đó có thể được xử lý  
tiếp để nâng cao độ tương phản, lọc, tách các thành phần cần thiết (chụp cắt  
lớp) hoặc tạo ra hình ảnh trong không gian ba chiều (siêu âm 3 chiều).  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
15  
Trong lĩnh vực địa chất, hình ảnh nhận được từ vệ tinh có thể được  
phân tích để xác định cấu trúc bề mặt trái đất. Kỹ thuật làm nổi đường biên  
(image enhancement) và khôi phục hình ảnh (image restoration) cho phép  
nâng cao chất lượng ảnh vệ tinh và tạo ra các bản đồ địa hình 3-D với độ  
chính xác cao.  
Hình 1.4 Ảnh nhận được từ vệ tinh dùng trong khí tượng học  
Trong ngành khí tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi  
thời tiết cũng được xử lý, nâng cao chất lượng và ghép hình để tạo ra ảnh bề  
mặt trái đất trên một vùng rộng lớn, qua đó có thể thực hiện việc dự báo thời  
tiết một cách chính xác hơn. Dựa trên các kết quả phân tích ảnh vệ tinh tại các  
khu vục đông dân cư còn có thể dự đóan quá trình tăng trưởng dân số, tốc độ  
ô nhiễm môi trường cũng như các yếu tố ảnh hưởng tới môi trường sinh thái.  
Ảnh chụp từ vệ tinh có thể thu được thông qua các thiết bị ghi hình cảm nhận  
được tia sáng quang học ( 450 520 nm λ= ), hoặc tia hồng ngoại ( 760 900  
nm λ= ). Trên hình 1.5a và 1.5b lần lượt là ảnh bề mặt trái đất nhận được  
từ 2 ống ghi hình nói trên, dễ dàng nhận thấy sự khác biệt rõ ràng giữa hai  
ảnh. Đặc biệt trên ảnh 1.3b, hình con sông được tách biệt rất rõ ràng so với  
vùng ảnh hai bên bờ. Thiết bị thu hình nhạy cảm với vật thể bức xạ các tia  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
16  
trong miền hồng ngoại sẽ cho ra những bức ảnh trong đó vật thể có nhiệt độ  
thấp sẽ được phân biệt rõ ràng so với vật thể có nhiệt độ cao hơn. Như vậy  
việc lựa chọn các thiết bị ghi hình khác nhau sẽ tạo ra ảnh có đặc tính khác  
nhau, tùy thuộc vào mục đích sử dụng trong các lĩnh vực khoa học cụ thể .  
1.5a  
1.5b  
Hình 1.5 - Ảnh bề mặt trái đất thu được từ hai camera khác nhau  
Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất  
lượng và số lượng hàng hóa trong các dây truyền tự động, ví dụ như hệ thống  
phân tích ảnh để phát hiện bọt kbên vật thể đúc bằng nhựa, phát hiện các  
linh kiện không đạt tiêu chuẩn (bị biến dạng) trong quá trình sản xuất hoặc hệ  
thống đếm sản phẩm thông qua hình ảnh nhận được từ camera quan sát.  
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ  
thống bảo mật hoặc kiểm soát truy cập: quá trình xử lý ảnh với mục đích nhận  
dạng vân tay hay khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn  
cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân cũng như kiểm soát ra  
vào. Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử lý  
ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng  
mục tiêu quân sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự  
động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thông v.v.  
1.1.2.4. Một số khái niệm, định nghĩa trong xử lý video [9]  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
17  
* Khung hình (frame)  
Mt đoạn video gm nhiu nh tĩnh đặt liên tiếp nhau to nên chuyển động trong  
phim. Mt khung hình là một nh tĩnh đó. Ví dụ:  
Khung hình  
i
Khung hình i + 1  
Hình 1.6. Các khung hình  
Để đoạn video có thể tạo cảm giác chuyển động, các khung hình phải  
được quay với tốc độ phù hợp. Vì mắt người chỉ có thể nhận được 24  
hình/giây, nên nếu như trong một giây, lần lượt 24 hình hoặc nhiều hơn được  
phát thì mắt sẽ không nhận ra được sự rời rạc giữa những khung hình, mà  
chỉ thấy những cảnh liên tục. Có nhiều hệ video và mỗi hệ có tốc độ quay  
khác nhau như : NTSC 30 hình/giây, PAL 24 hình/giây, SECAM 29.99  
hình/giây.  
Khung hình là đơn vị cơ bản nhất của dữ liệu video. Theo chuẩn  
của hệ NTSC thì một giây có 30 khung hình, vậy một phút có 1800 khung  
hình, một giờ có 60x1800 = 108000 khung hình. Có thể thấy rằng số lượng  
khung hình cho một đoạn video thường là rất lớn, cần phải có một đơn vị cấp  
cao hơn cho video số.  
* Không gian màu  
Một không gian màu là một mô hình đại diện cho màu về mặt giá  
trị độ sáng; một không gian màu xác định bao nhiêu thông tin màu được thể  
hiện. Nó định nghĩa không gian 1,2,3, hoặc 4 chiều mà mỗi chiều của nó,  
còn gọi là thành phần, đại diện cho những giá trị độ sáng. Một thành phần  
màu còn được gọi là một kênh màu. Mỗi điểm ảnh trong ảnh có thể được đại  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
18  
diện bởi một điểm trong không gian màu 3 chiều. Những không gian màu  
thường được dùng để bao gồm RGB, CMY, Munsell, CIE l*a*b*, CIE  
L*u*v*, HSV, HSL. Cho đến nay vẫn chưa có sự thống nhất không gian  
nào là tốt nhất. Sau đây là một số không gian màu thường gặp  
- Không gian độ xám  
Không gian độ xám chỉ có một thành phần, biến đổi từ đen đến trắng,  
như trong hình. Không gian độ xám được dùng chủ yếu trong việc hiển thị và  
in ấn trắng đen và độ xám.  
Hình 1.7. Không gian màu độ xám  
- Không gian màu RGB  
Không gian RGB là không gian màu được sử dụng rộng rãi trong việc  
hiển thị hình ảnh. Ý tưởng tạo ra không gian màu RGB đến từ cái cách  
mà mắt con người hoạt động. Nó có những cơ quan cảm nhận để phát  
hiện ra 3 màu khác nhau: đỏ(red), lục (green), lam (blue). Không gian  
màu RGB cũng gồm có 3 thành phần màu: Red, Green, và Blue. Những  
thành phần này được gọi là màu gốc để cộng vào, vì mỗi màu được tạo nên  
bằng cách cộng thêm các phần tử vào màu đen(0,0,0).  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
19  
 
Hình 1.8. Không gian RGB  
Hình 1.9. Không gian RGB  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
20  
Hình 1.10. Không gian RGB  
- Không gian màu CMY  
Không gian CMY được dùng chủ yếu trong in n. CMY là viết tt  
ca Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba  
màu chính tương ứng vi ba màu mực in. Chúng được gi là những màu  
gốc để tr, vì mỗi màu trong không gian CMY được to ra thông qua  
việc hp thu độ sáng. Cyan hấp thu schiếu sáng của màu đ, Magenta hp  
thu màu xanh lục, Yellow hp thu màu xanh dương.  
Hình 1.11. Không gian CMY  
Mối quan hệ giữa RGB và CMY :  
C = 1 R  
M = 1 G  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
21  
Y = 1 - B  
- Không gian màu HSV  
Mô hình HSV(Hue, Saturation, Value), còn gọi là HSB (Hue, Saturation,  
Brightness) định nghĩa một không gian màu gồm có 3 thành phần tạo nên :  
Hue, loại màu (chẳng hạn màu đỏ, xanh, hay vàng) Có giá trị  
từ 0 - 360 hoặc từ 0 - 2đ  
Saturation, độ thuần khiết của màu  
Có giá trị từ 0 – 100%, thường được chuẩn hoá về 0 – 1. Độ thuần khiết của  
một màu càng thấp, độ xám của màu đó càng nhiều và màu đó càng mờ.  
Value, độ sáng của màu  
Có giá trị từ 0 100%, thường được chuẩn hóa về 0 – 1.  
Mô hình HSV được tạo ra từ nãm 1978 bởi Alvy Ray Smith. Nó là một  
phép biến đổ i phi tuyến của không gian màu RGB. Mô hình HSV giúp tách  
bạch màu (H, S) và độ sáng (V), phù hợp với cảm nhận của con người.  
1.1.2.5. Lược đồ màu (Color Histogram)  
* Định nghĩa  
Lược đồ màu của nh cho biết sphân bố ca các màu trong nh.  
n[i]  
H[i]   
n
Trong đó :  
i là một bin màu, nếu nh độ xám thì i[0,255] , nếu nh màu RGB  
thì i [0,224 ]  
n[i] : số điểm nh có giá trị màu là i n : tng số điểm nh  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
22  
 
Hình 1.12. Lược đồ màu ứng với frame  
Hình 1.13. Mắt người không nhạy cảm với sự thay đổi màu sắc  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
23  
 
Để ci tiến phù hợp cho vic ng dng trong tìm kiếm, các màu trong  
không gian màu HSV được định lượng trước khi tính lược đồ màu. Có nhiều  
cách định lượng, mt trong nhng cách đó là  
chia Hue thành 18 vùng,  
chia Saturation thành 3 vùng  
chia Value thành 3 vùng  
Khi đó, tổng smàu bằng HxSxI = 162 màu, chi phí tính toán và lư u  
trữ gim đi rt nhiu, và lược đồ màu này rất thích hợp cho vic truy tìm  
thông tin thị giác.  
Hình 1.14. Các màu đã được định lượng trong không gian HSV  
* Ý nghĩa của lược đồ màu  
Đối vi mt màu ci, Hci(I) thhin số điểm nh có màu ci trong nh I.  
Nói cách khác, với mi điểm nh trong nh I, Hci(I) thhin xác suất điểm  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
24  
nh đó có màu là ci. Không có mang thông tin về không gian.  
* Đánh giá ưu điểm, khuyết điểm  
Ưu đim  
-
-
Tính toán lược đồ màu ít tốn chi phí, đơn giản, nhanh chóng.  
Lược đồ màu bất biến đối vi mt sphép biến đổi hình học như phép  
biến đổi Affine : tnh tiến, xoay, sco, giãn.  
Khuyết điểm  
Lược đồ màu chỉ xét phân bố toàn cục vmàu của nh mà không xét  
đến yếu tcc bvvtrí, làm mất thông tin về quan hkhông gian giữa các  
màu. Dẫn đến vic có thể có nhiều nh khác nhau nhưng lại có cùng lược đồ  
màu  
ng dng  
Được ng dng nhiu trong vic phân đoạn video và truy tìm thông tin  
thị giác.  
1.1.2.6. Lược đồ tương quan màu (Color Correlogram)  
* Gii thiu lược đồ tương quan màu  
Quan sát thấy rng lược đồ màu thiếu thông tin về cách mà màu sắc  
được phân bố theo không gian, Một đặc trưng mới được gii thiu gi là  
lược đồ tương quan màu. Lược đồ tương quan màu hứa hn mô tả không chỉ  
là phân phối màu của các điểm nh mà còn là sự tương quan về không quan  
giữa các cặp màu.  
* Tính lược đồ tương quan màu  
Gi [D] là tập gm D khong cách d1 , d 2 ,..., d D được đo bằng độ đo L.  
Lược đồ tương quan màu của nh I được xác định vi cp màu ci , c j  
và khong cách d nsau:  
(d) (I) Pr [p2 Ic || p1 p2 |L d]  
ci ,cj  
j
p1Ic , p2I  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
25  
 
Trong đó I là ảnh, kích thước MxN (Điểm nh), I c  
p
I | I  
p
c, lược  
đồ tương quan màu thể hin xác suất cp điểm nh bt kp1và p2 chu sự  
ràng buộc vmàu ( p1 có màu ci, p2 có màu c j ) và vị trí ( p1  
* Lược đồ ttương quan màu  
p2 |  
L
d ).  
Nếu chúng ta xét đến tt cskết hp có thể có của các cặp màu,  
kích thước ca lược đồ tương quan màu sẽ rt ln, hơn nữa, thi gian tính  
toán sẽ lâu.  
Do đó, một phiên bản đơn giản hơn được sdng, gi là lược đồ ttương  
quan màu. Lược đồ này chỉ quan tâm đến stương quan về không gian  
giữa nhng màu giống nhau và do đó giảm được schiu và chi phí tính  
toán. Lược đồ ttương quan màu được xác định như sau:  
(d)  
c(d) (I) (I)  
c,c  
c ( d) (I ) là lược đồ ttương quan màu của nh I ng vi màu c và khong  
cách d.  
* ng dng  
- Dùng trong vic phân đoạn video  
- To chmc và so sánh ảnh  
- Định vị đối tượng, theo vết đối tượng  
So vi lược đồ màu, lược đồ ttương quan màu cho những kết qutruy  
tìm tt hơn nhưng tốn chi phí nhiu hơn.  
1.1.2.7. Đặc trưng chuyển động (Motion)  
* Gii thiu  
Chuyn động là một trong nhng đặc trưng của dliu video. Đây  
là một đặc trưng nổi bt ca video mà nh tĩnh không có. Đặc trưng chuyển  
động được sdng rt rng rãi trong các nghiên cứu cũng như cài đặt ng  
dng xvideo số.  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
26  
Hình 1.15. Đặc trưng chuyển động  
* Lược đồ chuyn động  
Nếu như lược đồ màu thể hin sphân phối màu trong nh thì lược đồ  
chuyn động cho thy sphân phối chuyn động ca các khung hình liên tiếp.  
Sphân phối này được thhin dưới dng các góc chuyển động.  
- Thut toán tính lược đồ chuyn động  
Chia khung hình thành n khi điểm nh, và định lượng các góc từ 0 đến  
360 độ thành 8 phần : 0o-44o, 45o-89o,…, 315o-359o.  
Bước 1: khi động mng các góc đã định lượng : H [i] 0 , vi i t0 đến 7.  
Bước 2: Xét một khi điểm nh ca khung hình hiện ti, tính độ dch  
chuyn ca nó bằng cách : trong khung hình tiếp theo, tìm khối có sự khác  
bit đặc trưng nhỏ nht so vi khi đang xét và sự khác biệt này cũng nhỏ  
hơn một ngưỡng định trước. Mc đích của bước này là để xem khi này dịch  
chuyn đến vtrí nào. Nếu không tìm thấy thì xem như khối điểm nh  
này không di chuyển.  
Bước 3 : Sau khi tính độ dch chuyn, ddàng tính được góc dịch chuyn ca  
khi và định lượng góc đó về mt giá tra, a nm trong khong t0 đến 7.  
Bước 4 : tăng giá trị ca H [a] H [a] 1 . Quay li bước 2 cho đến khi tính hết  
tất cả các khối điểm ảnh của khung hình.  
ảnh tại vị trí điểm ảnh đang xét. Lặp lại bước 2 cho đến khi tính hết các  
điểm ảnh trong khung hình.  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
27  
 
Sau khi tính toán cho tất cả điểm ảnh trong khung hình, ta có được 2  
ảnh chuyển động của khung hình theo 2 phương .  
- Ý nghĩa  
Ảnh chuyển động cho biết độ lớn chuyển động theo 2 phương của  
mi điểm nh ca khung hình. Tại vtrí nào đó mà ảnh chuyn động có giá trị  
ln thì điểm nh đó chuyển động càng nhiều.  
1.1.2.8. Các bước thao tác với file video [1]  
AVI là chuẩn video thường được tích hợp trong các thư viện của các  
môi trường lập trình. Để xử lý video, cần có các thao tác cơ bản để chuyển về  
xử lý ảnh các khung hình (các frames).  
Bƣớc 1: Mở và đóng thƣ viện  
Trước mọi thao tác với file AVI, chúng ta phải mở thư viện:  
AVIFileInit( )  
Hàm này không cần tham số, có nhiệm vụ khởi động thư viện cung cấp các  
hàm thao tác với file AVI. (Đó là thư viện vfw32.lib, được khai báo trong file  
vfw.h). Sau tất cả các thao tác bạn phải nhớ đóng thư viện đã mở lúc đầu, chỉ  
bằng lệnh:  
AVIFileExit( )  
Nếu thiếu bất cứ hàm nào, dù là mở hay đóng thư viện thì trình biên dịch đều  
sẽ thông báo lỗi.  
Bƣớc 2: Mở và đóng file AVI để thao tác:  
Sau khi mở thư viện, bạn phải mở file AVI bạn định thao tác:  
AVIFileOpen(PAVIFILE* ppfile, LPCSTR fname, UINT mode, CLSID  
pclsidHandler)  
Thực chất, hàm này tạo ra một vùng đệm chứa con trỏ trỏ đến file có  
tên là fname cần mở. Và ppfile là con trỏ trỏ đến vùng bộ đệm đó. Tham số  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
28  
mode quy định kiểu mở file; chẳng hạn OF_CREATE để tạo mới, OF_READ  
để đọc, OF_WRITE để ghi …. Tham số cuối dùng là NULL.  
Trước khi đóng thư viện, bạn phải đóng file AVI đã mở, bằng cách dùng hàm:  
AVIFileRelease(PAVIFILE pfile)  
Trong đó, pfile là con trỏ trỏ đến file cần đóng.  
Bƣớc 3:  
Mở dòng dữ liệu hình ảnh hay âm thanh trong file AVI đã mở ra để  
thao tác:  
AVIFileGetStream(PAVIFILE pfile, PAVISTREAM * ppavi,  
DWORD fccType, LONG lParam)  
Trong đó, pfile là con trỏ đến file đã mở; ppavi trỏ đến dòng dữ liệu  
kết quả; fccType là loại dòng dữ liệu chọn để mở, là streamtypeAUDIO nếu  
là tiếng và streamtypeVIDEO nếu là hình,…lParam đếm số loại dòng được  
mở, là 0 nếu chỉ thao tác với một loại dòng dữ liệu.  
Sau các thao tác với dòng dữ liệu này, bạn nhớ phải đóng nó lại:  
AVIStreamRelease(PAVITREAM pavi).  
Bƣớc 4: Trƣờng hợp thao tác với dữ liệu hình của phim  
Chuẩn bị cho thao tác với khung hình (frames):  
AVIStreamGetFrameOpen(PAVISTREAMpavi,LPBITMAPINFOHEADER  
lpbiWanted)  
Trong đó pavi trỏ đến dòng dữ liệu đã mở, lpbiWanted là con trỏ trỏ  
đến cấu trúc mong muốn của hình ảnh, ta dùng NULL để sử dụng cấu trúc  
mặc định. Hàm này trả về đối tượng có kiểu PGETFRAME để dùng cho  
bước 5.  
Sau khi thao tác với các frame rồi, phải gọi hàm :  
AVIStreamGetFrameClose(PGETFRAME pget)  
Bƣớc 5: Thao tác với frame  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
29  
               
Dùng hàm  
AVIStreamGetFrame(PGETFRAME pget, LONG lpos)  
Hàm này trả về con trỏ trỏ đến dữ liệu của frame thứ lpos. Dữ liệu đó  
kiểu là DIB đã định khối. Thực hiện các thao tác mong muốn.  
1.2. Độ đo tƣơng tự trong xử lý ảnh[3]  
Hiện nay trên thế giới có rất nhiều phương tiện dùng để thu thập thông  
tin và lưu dưới dạng số hoá. Trong khi lưu trữ các thông tin này người sử  
dụng gặp phải vấn đề với quá nhiều hình ảnh khác nhau và vấn đề quản lý  
những hình ảnh này. Rất nhiều các nhà lập trình đã tiếp cận và tạo ra hệ thống  
để quản lý một cách có hiệu quả nhất tức là dùng bộ nhớ thị giác của máy tính  
để lưu trữ và đối sánh những hình ảnh này.  
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng  
cách”) thuộc phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ;  
nhưng trong khoa học máy tính và các ứng dụng máy tính có phần khác.  
Trong khoa học máy tính, phép tính xấp xỉ thường được sử dụng theo một lối  
không có tính hệ thống (non-systematic) và không theo thể thức (ad-hoc).  
Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện ở nhiều dạng, diễn  
xuất, và nhiều ứng dụng.  
Khái niệm “sự tương tự” có nhiều dạng khác nhau. Bất chấp những  
khác biệt, chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh  
hai (hay nhiều) đối tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên  
do khác nhau. Luôn có mục đích nào đó với một phép so sánh như thế, bởi vì  
một hành động tiếp sau đó được thực hiện và cuối cùng thì một vấn đề nào đó  
phải được giải quyết. Vì lý do đó, hai đối tượng được đem so sánh giữ những  
vai trò khác nhau. Đối tượng thứ nhất đang được xem xét và được gọi là vấn  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
30  
   
đề (problem). Đối tượng thứ hai là đã biết và đã lưu; thường được gọi là bản  
mẫu (prototype) hay tình huống (case).  
- Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn  
xuất theo ý nghĩa của chúng và chúng được so sánh với nhau. Ví dụ, một ảnh  
y khoa thực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ  
tương tự giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa  
bệnh lý hay không. Xác minh hình ảnh (Image Identification) cũng thuộc về  
lĩnh vực này.  
- Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology),  
“sự tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính  
giữa những con người tương xứng mức độ nào. Có nhiều dạng mô hình về sự  
tương tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc  
tính (featural), dựa trên canh lề (alignment-based), và biến đổi  
(transformational).  
- Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác  
định vân tay, kim tra những băng đĩa mang những nội dung cần kim soát...  
Độ đo tương tự là một trong những phương pháp tốt để máy tính phân  
biệt được các hình ảnh qua nội dung của chúng. Thông thường hệ thống  
CBIR(content-based image retrieval) sẽ truy vấn hình ảnh bằng phương pháp  
đo tương tự dựa trên các chức năng, việc xác định nó có thể dưới nhiều hình  
thức như phát hiện biên, màu sắc, vị trí điểm ảnh… các phương pháp như  
histogram, màu sắc và phân tích histogram dòng cột sử dụng biểu đồ để xác  
định độ tương tự.  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
http://www.lrc-tnu.edu.vn  
31  
 

Tải về để xem bản đầy đủ

pdf 63 trang yennguyen 02/06/2025 70
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nghiên cứu một số kỹ thuật xác định độ đo tương tự và ứng dụng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nghien_cuu_mot_so_ky_thuat_xac_dinh_do_do_tuong_tu.pdf