Khóa luận Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản phẩm

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Thị Hoàn  
PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ẢNH  
TRONG THUẬT TOÁN HỌC MÁY TÌM KIẾM ẢNH ÁP  
DỤNG VÀO BÀI TOÁN TÌM KIẾM SẢN PHẨM  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công Nghệ Thông Tin  
Hà Nội – 2010  
i
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Thị Hoàn  
PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ẢNH  
TRONG THUẬT TOÁN HỌC MÁY TÌM KIẾM ẢNH ÁP  
DỤNG VÀO BÀI TOÁN TÌM KIẾM SẢN PHẨM  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công Nghệ Thông Tin  
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy  
Cán bộ đồng hướng dẫn: Ths. Nguyễn Cẩm Tú  
Hà Nội - 2010  
ii  
Lời cảm ơn  
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo  
sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Cẩm Tú, người đã tận tình chỉ bảo và  
hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.  
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học  
tp và nghiên cứu tại trường Đại học Công ngh.  
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong  
phòng nghiên cứu SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên  
môn để hoàn thành tốt khoá luận.  
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân  
yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.  
Tôi xin chân thành cảm ơn !  
Sinh viên  
Nguyễn Thị Hoàn  
iii  
Tóm tắt  
Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng  
lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếm ảnh hiệu quả và  
tiện lợi. Mặc dù các công ctìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép  
người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này  
vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội  
dung hiển thcủa ảnh trả về. Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh  
đã giải quyết được những nhập nhằng trên.  
Mục tiêu của khóa luận là nghiên cứu các phương pháp biểu diễn đặc trưng ảnh  
để nâng cao chất lượng tìm kiếm ảnh. Đầu tiên, khóa luận khảo sát phương pháp trích  
chọn đặc trưng ảnh trong tìm kiếm và xếp hạng ảnh. Tiếp đó, dựa theo phương pháp  
lượng tử hóa tích của Hervé Jégou và cộng sự [12], khóa luận đưa ra một mô hình tìm  
kiếm k láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các vector  
đặc trưng và tiến hành thực nghiệm mô hình. Thực nghiệm ban đầu cho thấy, từ một  
ảnh truy vấn đầu vào hệ thống trả về 10 ảnh tương đồng nhất đối với mỗi truy vấn với  
độ chính xác 80.4% và đây là một kết quả khả quan.  
iv  
Mục lục  
Mở đầu  
....................................................................................................... 1  
Chương 1. Khái quát về trích chọn đặc tng ảnh và tìm kiếm theo đặc  
trưng ảnh ....................................................................................................... 3  
1.1. Đặt vấn đề.......................................................................................................3  
1.2. Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm ảnh........3  
1.3. Đặc trưng nội dung ảnh và tìm kiếm theo đặc tng nội dung..........................5  
Tổng kết chương 1...................................................................................................8  
Chương 2. Các phương pháp lựa chọn đặc trưng và độ đo tương đồng  
giữa các ảnh.................................................................................................... 10  
2.1. Đặt vấn đề.....................................................................................................10  
2.2. Đặc trưng màu sắc........................................................................................ 11  
2.2.1. Đặc trưng màu sắc ................................................................................11  
2.2.2. Độ đo tương đồng cho màu sc............................................................. 11  
2.3. Đặc trưng kết cấu .......................................................................................... 12  
2.3.1. Đặc trưng kết cấu..................................................................................12  
2.3.2. Độ đo tương đồng cho kết cấu .............................................................. 12  
2.4. Đặc trưng hình dạng......................................................................................13  
2.4.1. Đặc trưng hình dạng..............................................................................13  
2.4.2. Độ đo tương đồng cho hình dạng .......................................................... 13  
2.5. Đặc trưng cục bộ bất biến..............................................................................13  
2.5.1. Đặc trưng cục bộ bất biến .....................................................................14  
2.5.2. Độ đo tương đồng cho đặc trưng cục bộ bất biến ..................................18  
2.6. Lựa chọn đặc trưng .......................................................................................18  
Tổng kết chương 2.................................................................................................20  
Chương 3. Một số phương pháp tìm kiếm ảnh theo nội dung.................... 21  
3.1. Phương pháp PageRank cho tìm kiếm ảnh sản phẩm.....................................21  
3.2. CueFlik: Một phương pháp xếp hạng lại ảnh dựa trên luật của người dùng ...22  
v
3.3. Phương pháp tìm kiếm ảnh dựa trên màu sắc, hình dạng, kết cấu của ảnh .....24  
3.3.1. Lưới......................................................................................................25  
3.3.2. Tích hợp các đối sánh ảnh.....................................................................25  
3.3.3. Hình dạng: ............................................................................................ 26  
3.4. Phương pháp tìm kiếm ảnh dựa vào nội dung sử dụng các phân vùng ảnh như  
mẫu truy vấn..........................................................................................................26  
Tổng kết chương 3.................................................................................................27  
Chương 4. Mô hình k láng giềng gần nhất sử dụng bộ lượng tử hóa......... 28  
4.1. Đặt vấn đề.....................................................................................................28  
4.2. Cơ sở lý thuyết.............................................................................................. 28  
4.2.1. Các ký hiệu và khái niệm......................................................................28  
4.2.2. Tìm kiếm sử dụng lượng tử hóa ............................................................ 30  
4.2.3. Tìm kiếm không toàn b.......................................................................31  
4.3. Mô hình bài toán........................................................................................... 33  
4.3.1. Trích chọn đặc trưng ảnh ......................................................................33  
4.3.2. Tìm kiếm K láng giềng gần nhất ........................................................... 34  
Tổng kết chương 4.................................................................................................35  
Chương 5. Thực nghiệm và đánh giá........................................................... 36  
5.1. Môi trường và các công cụ sử dụng cho thực nghiệm....................................36  
5.2. Xây dựng tập dữ liệu ảnh ..............................................................................37  
5.3. Quy trình, phương pháp thực nghiệm............................................................ 38  
5.4. Kết quả thực nghiệm.....................................................................................38  
Tổng kết chương 5.................................................................................................41  
Kết luận  
..................................................................................................... 42  
Tài liệu tham khảo ......................................................................................... 43  
vi  
Danh sách các bảng  
Bảng 1. Cấu hình phần cứng sử dụng trong thực nghiệm ................................................36  
Bảng 2. Công cụ phần mềm sử dụng trong thực nghiệm .................................................36  
Bảng 3. Một số thư viện sử dụng trong thực nghiệm.......................................................37  
Bảng 4. Kết quả độ chính xác trung bình của 10 truy vấn ...............................................40  
Bảng 5. Độ chính xác mức k của một số truy vấn ...........................................................40  
Danh sách các hình vẽ  
Hình 1. Ví dụ hiển thị một ảnh..........................................................................................4  
Hình 2. Ví dụ truy vấn của Google....................................................................................5  
Hình 3. Ví dụ truy vấn của Google....................................................................................5  
Hình 4. Ví dụ về một số lọai kết cấu .................................................................................6  
Hình 5. Một kết quả trả về của Google Image Swirl..........................................................7  
Hình 6. Một kết quả trả về của Tiltomo.............................................................................7  
Hình 7. Một kết quả trvề của Byo Image Search............................................................8  
Hình 8. Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ .......................15  
Hình 9. Mỗi điểm ảnh được so sánh với 26 láng giềng của nó.........................................16  
Hình 10. Quá trình lựa chọn các điểm hấp dẫn................................................................17  
Hình 11. Biểu diễn các vector đặc trưng .........................................................................18  
Hình 12. Ví dụ các ảnh sản phẩm trả về từ hệ thống của Jing.........................................22  
Hình 13. Tổng quan về mô hình của hệ thống tìm kiếm theo màu sắc, kết cấu và hình  
dạng................................................................................................................................25  
Hình 14. Mô hình hệ thống IVFADC..............................................................................33  
Hình 15. Mô hình giải quyết bài toán..............................................................................34  
Hình 16. 10 kết quả trả về đầu tiên của hệ thống với truy vấn Apple...............................41  
vii  
Danh sách các tviết tắt  
STT Tviết tt  
Tviết đầy đủ  
1
2
ADC  
AP  
Asymmetric distance computation  
Average Precision  
3
BDA  
CBIR  
DoG  
Biased Discriminant analysis  
Content Based Images Retrieval  
Difference of Gaussian  
4
5
6
IVFADC  
JSD  
Inverted file asymmetric distance Computation  
Jensen-Shannon divergence  
7
8
MAP  
MDA  
QBIC  
SDC  
Mean Average Precision  
9
Multiple Discriminant analysis  
Query Based Image Content  
10  
11  
12  
13  
Symmetric distance computation  
Scale Invariant feature transform  
Symmetric maximized minimal distance in subspace  
SIFT  
SMMS  
viii  
Danh sách tham chiếu thuật ngữ Anh – Việt  
STT  
1
Thut ngtiếng Anh  
Asymmetric distance  
Thut ngtiếng Vit  
Khong cách bất đối xng  
Phân tích bit thức không đối xng  
Tăng khuyếch đại  
2
Biased Discriminant analysis  
Boosting manner  
3
4
Content Based Images Retrieval  
Co-occurrence matrix  
Cotourlet transform  
Tìm kiếm nh theo ni dung  
Ma trân đồng xut hin  
Biến đổi đường vin  
5
6
7
Discriminant analysis  
Distribution based method  
Feature contrast Model  
Feature selection  
Phân tích bit thc  
8
Phương pháp da vào phân phi  
Mô hình tương phản đặc trưng  
La chọn đặc trưng  
9
10  
11  
12  
13  
14  
15  
Gabor Wavelet transform  
Global texture descriptor  
Image Segment  
Biến đổi sóng Gabor  
Đặt tkết cu toàn cc  
Phân vùng nh  
Interest point  
Điểm hp dn  
Inverted file asymmetric distance Tính toán khong cách bất đối xng file  
computation  
chmục ngược  
16  
17  
18  
19  
20  
21  
22  
23  
24  
25  
26  
27  
28  
29  
30  
Inverted list  
Danh sách chmục ngược  
Đặc trưng cục bộ  
Local features  
Local interest Point  
Local scale – invariant feature  
Mean Average Precision  
Metadata  
Điểm hp dn cc bộ  
Đặc trưng cục bbt biến  
Độ chính xác trung bình  
Siêu dliu  
Non exhausitive search  
Product quantization  
Quantization code  
Query Based Image Content  
Similarity measurment  
Symmetric distance  
Texture  
Tìm kiếm không toàn bộ  
Lượng thóa tích  
Mã lượng thóa  
Truy vn theo ni dung nh  
Độ đo tương đồng  
Khoảng cách đối xng  
Kết cu  
The complex directional fillter  
The steerable pyramid  
Blọc định hướng phc tp  
Kim ttháp có thể lái được  
31  
Visual hyperlinks  
Siêu liên kết trc quan  
ix  
Mở đầu  
Cùng với sự bùng nổ thông tin trên web và sự phát triển của công nghệ kỹ thuật  
số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng. Vì vậy, việc xây  
dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có nhiều  
công cụ tìm kiếm ảnh thương mại xuất hiện. Các công cụ tìm kiếm ảnh thường dựa  
vào hai đặc trưng chính văn bản đi kèm ảnh hoặc nội dung ảnh. Một số công cụ tìm  
kiếm ảnh theo văn bản đi kèm như Google Image Search, Yahoo!, MSN,…Một số  
công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing, Tiltomo,  
Tineye,…Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập  
nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá tình tìm  
kiếm. Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng  
muốn tìm hình ảnh quả táo hay logo của hãng Apple. Nhng công cụ tìm kiếm ảnh  
theo nội dung của các bức ảnh ra đời tỏ ra ưu thế vì hạn chế được những nhập nhằng  
trên.  
Tìm kiếm ảnh theo nội dung đã nhận được nhiều sự quan tâm của các nhà khoa  
học. Nhiều công trình nghiên cứu về tìm kiếm ảnh theo nội dung được đăng trên các  
tạp chí như International Journal of Computer Vision, IEEE conference… Nhóm  
nghiên cứu chúng tôi đã tiến hành một số nghiên cứu bước đầu liên quan đến xếp hạng  
ảnh dựa vào độ tương đồng theo nội dung ảnh trong công tác sinh viên nghiên cứu  
khoa học.  
Khóa luận “Phương pháp trích chọn đặc trưng ảnh trong học máy tìm kiếm ảnh và  
ứng dụng trong trong tìm kiếm sản phẩm” nhằm khảo sát, phân tích một số phương  
pháp trích chọn đặc trưng ảnh phổ biến và tìm kiếm ảnh theo ảnh mẫu, thử nghiệm hệ  
thống trong ứng dụng tìm kiếm sản phẩm.  
Ngoài phần MỞ ĐẦU này, khóa luận bao gồm các nội dung sau:  
Chương 1. Khái quát vla chọn đặc trưng cho tìm kiếm nh. Các đặc trưng về  
về văn bản đi kèm ảnh và đặc trưng về ni dung nh.  
Chương 2. Các phương pháp lựa chọn đặc trưng và độ đo tương tự gia nh.  
Trình bày mt số đặc trưng về ni dung nh và mt số độ đo tương đồng tương  
ng vi các đặc trưng.  
1
Chương 3. Mt số phương pháp tìm kiếm và xếp hng nh da trên ni dung  
ca nh. Gii thiu mt scông trình nghiên cứu liên quan đến tìm kiếm nh  
theo ni dung nh.  
Chương 4. Mô hình tìm kiếm K láng ging gn nht. Gii thiu mô hình tìm  
kiếm K láng ging gn nhất, phương pháp lưu trữ và đánh chỉ mc trong tìm  
kiếm.  
Chương 5. Thc nghim. Trình bày quá trình thc nghim, kết qu, nhn xét,  
đánh giá khi áp dụng mô hình K láng ging gn nht với các đặc trưng trích  
chn trong tìm kiếm nh sn phm.  
Cui cùng là phn KT LUN. Tng kết các kết quchính ca khóa lun và  
phương hưng nghiên cu tiếp theo.  
2
Chương 1. Khái quát về trích chọn đặc trưng ảnh và tìm kiếm  
theo đặc trưng ảnh  
1.1. Đặt vấn đề  
Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng  
lên một cách nhanh chóng. Mỗi ngày, có hàng triệu bức ảnh được đăng tải trên các  
trang ảnh trực tuyến như: Flickr1, Photobucket2, Facebook3,…. Theo thng kê, có 10  
tỉ ảnh trên Facebook (tính đến tháng 10/2008), 3 tỉ ảnh trên Flickr (tính đến tháng  
11/2008), 6.2 tỉ ảnh trên Photobucket(tính đến tháng 10/2008) [36].  
Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều  
quan tâm của người sử dụng. Tuy nhiên, với một số lượng ảnh quá lớn trên Internet  
công việc tìm kiếm trở nên vô cùng khó khăn. Để giải quyết vấn đề này, các hệ thống  
tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,…. Các hệ  
thống này cho phép người sử dụng nhập truy vấn về các ảnh cần quan tâm. Thông qua  
việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trcác ảnh tương ứng với truy  
vấn của người dùng. Một số công cụ tìm kiếm ảnh thương mại khác như Tiltomo,  
ByoImageSearch,… cho phép người dùng nhập câu hỏi dưới dạng ảnh. Đây là một  
hướng nghiên cứu mới nhận được nhiều sự quan tâm của nhiều công trình khoa học  
trên thế giới. Một số sản phẩm thử nghiệm của các công ty lớn về tìm kiếm ảnh như:  
Google Image Swirl, Like, Tineye, Tiltomo….đã ra đời.  
Chương 1 trình bày về các đặc trưng của ảnh gồm đặc trưng văn bản đi kèm ảnh  
và đặc trưng về nội dung ảnh( màu sắc, kết cấu, hình dạng, đặc trưng cục bộ) và một  
số vấn đề về tìm kiếm ảnh.  
1.2. Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo văn bản đi kèm  
ảnh.  
Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ  
(tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu  
1 Flickr: http://www.flickr.com  
2 Photobucket: http://www.photobucket.com  
3 Facebook: http://www.facebook.com  
3
(metadata) về ảnh. Các dữ liệu này thường do người dùng tạo ảnh gắn cho mi ảnh, vì  
vậy chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ liệu  
khác nhau cũng khác nhau. Ví d, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan  
trọng hơn bình luận. Dưới đây là một ví dụ về văn bản đi kèm một ảnh:  
Title: “Red_Rose Flower”  
Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, causewaybay,  
hongkong, jonnoj, jonbinalay, nikond80, interestingness50”  
Description: “HEAVEN SCENT"...FOR THE LOVE OF THE RED RED  
ROSE...  
Content:  
Hình 1. Ví dụ hiển thị một ảnh  
Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội  
dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy, các công  
cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn  
bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả khả quan cũng  
như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các câu truy vấn mang  
ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra. Ví dụ  
khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết  
quả khá tốt (hình 2). Tuy nhiên, với truy vấn “apple’, nếu người dùng muốn tìm quả  
táo thì kết quả trả về đầu tiên không thỏa mãn (logo của hãng Apple) (hình 3):  
4
Hình 3. Ví dtruy vấn của Google  
Hình 2. Ví dtruy vấn của Google  
Kết quả với truy vấn “Apple”  
Kết quả với truy vấn “d-80”  
Mặt khác, các albumn cá nhân thường không có các thẻ hoặc văn bản đi kèm ảnh.  
Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủ công các thẻ cho  
ảnh rất tốn kém. Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo  
chính các đặc trưng trích xuất từ nội dung của ảnh.  
1.3. Đặc trưng nội dung ảnh và tìm kiếm theo đặc trưng nội dung.  
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vn  
theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác  
máy tính đối với bài toán tìm kiếm ảnh [30][35]. “Dựa vào nội dung ảnh (Content-  
Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh. Nội  
dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc  
trưng cục bộ (local features), … hay bất cứ thông tin nào có tchính nội dung ảnh.  
Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh một cách  
tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh. Tee Cheng  
Siew đã giới thiệu một số đặc trưng nội dung ảnh[23]:  
Đặc trưng màu sc: Màu sc là một đặc trưng nổi bật và được sdng phbiến  
nht trong tìm kiếm nh theo ni dung. Mi một điểm nh (thông tin màu sc)  
có thể được biu diễn như một điểm trong không gian màu sc ba chiu. Các  
không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm nh  
theo màu sc tiến hành tính toán biểu đồ màu cho mi ảnh để xác định ttrng  
các điểm nh ca nh mà cha các giá trị đặc bit (màu sc). Các nghiên cu  
gần đây đang cố gng phân vùng nh theo các màu sc khác nhau và tìm mi  
quan hgia các vùng này.  
5
Đặc trưng kết cu: Trích xut ni dung nh theo kết cu nhm tìm ra mô hình  
trc quan ca nh và cách thức chúng được xác định trong không gian. Kết cu  
được biu din bi các texel mà sau đó được đặt vào mt scác tp phthuc  
vào skết cu được phát hin trong nh. Các tp này không chỉ xác đnh các kết  
cu mà còn chrõ vtrí các kết cu trong nh. Việc xác định các kết cu đặc  
bit trong ảnh đạt được chyếu bng cách mô hình các kết cu như những biến  
thcấp độ xám 2 chiu. Ví dvmt sloi kết cu[41]  
Hình 4. Ví dụ về một số lọai kết cấu  
Đặc trưng hình dng: Hình dng ca mt nh hay mt vùng là một đặc trưng  
quan trong trong việc xác định và phân bit nh trong nhn dng mu. Mc tiêu  
chính ca biu din hình dng trong nhn dng mu là đo thuộc tính hình hc  
ca một đối tượng được dùng trong phân lp, so sánh và nhn dạng đối tượng.  
Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy  
nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh.  
Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung của  
Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực  
quan và độ tương đồng ngữ nghĩa giữa các ảnh. Google Image Swril phân cụm tốp  
đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình ảnh  
dưới dạng các cụm và mối quan hệ giữa các ảnh.  
6
Hình 5. Một kết quả trả về của Google Image Swirl  
Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của  
Flickr. Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc  
hay kết cấu.  
Hình 6. Một kết quả trả về của Tiltomo  
7
Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu ảnh  
mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL. Công cụ tìm kiếm  
này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề.  
Hình 7. Một kết quả trvề của Byo Image Search  
Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh theo  
mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung. Trong hệ thống đó, đầu vào là  
một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh  
mẫu.  
Trong nội khóa luận này, chúng tôi tập trung vào bài toán tìm kiếm ảnh dựa theo  
mẫu, tìm hiểu các phương pháp trích chọn đặc trưng nội dung cũng như các độ đo  
tương đồng để tìm kiếm tập ảnh sản phẩm gần với ảnh mẫu nhất trong tập cơ sở dữ  
liệu các ảnh sản phẩm.  
Tổng kết chương 1  
Trong chương này, chúng tôi trình bày khái quát đặc trưng văn bản đi kèm ảnh  
và đặc trưng nội dung của ảnh, và giới thiệu một số công cụ tìm kiếm dựa vào nội  
dung ảnh. Phương pháp tìm kiếm ảnh theo nội dung đã khắc phục được một phần  
8
nhược điểm của phương pháp tìm kiếm ảnh theo văn bản đi kèm ảnh và cho ra những  
kết quả khả quan. Chương 2, khóa luận strình bày một số công trình nghiên cứu khoa  
học liên quan đến bài toán tìm kiếm ảnh theo nội dung.  
9
Chương 2. Các phương pháp trích chọn đặc trưng và độ đo tương  
đồng giữa các ảnh  
2.1. Đặt vấn đề  
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với  
từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là  
thành phần quan trọng và then chốt nhất[31]. Việc lựa chọn các đặc trưng và độ đo  
thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống. J.V.Jawahe và  
cộng sự [32] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho  
ảnh:  
Thành phn la chọn đặc trưng phi la chọn được mt tập các đặc trưng cung  
cấp đầu vào tt nht cho hthng tìm kiếm nh. Nếu số lượng các đặc trưng  
quá nhiu slàm “che khut” các “tín hiu” (gim các “tín hiệu” đối vi tlệ  
nhiu), mt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được nh  
trong tìm kiếm.  
Nó phi gim bớt được độ phc tp trong lúc tính toán tng thbng giảm đa  
chiu ca bài toán phân lp.  
Khi người dùng mun sdụng các đặc trưng đó cho mọi truy vn, thì vic sử  
dụng các đặc trưng này phải hiu qu. Vì số lượng các đặc trưng có thể là hàng  
ngàn, dó đó thời gian xlý ca module phi tuyến tính vi số lượng đặc trưng.  
Vì thi gian xlý ca thành phn la chọn đặc trưng tuyến tính vi số lượng  
đặc trưng, do đó việc la chọn các đặc trưng cũng nên tuyến tính da trên phân  
lp.  
Thành phn la chọn đặc trưng có thxử lý được với kích thước tp mu nhỏ  
(khong 5 mu).  
Trong chương này, chúng tôi sẽ trình bày sơ bộ vcác vấn đề về đặc trưng của  
ảnh(màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồng  
tương ứng với các đặc trưng và phương pháp lựa chọn đặc trưng ảnh để tăng chất  
lượng tập đặc trưng.  
10  
2.2. Đặc trưng màu sắc  
2.2.1. Đặc trưng màu sắc  
Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng nhiều  
nhất trong các hệ thống tìm kiếm ảnh theo nội dung. Đây là phương pháp đơn giản, tốc  
độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao.  
Đây có thể xem là bước lọc đầu tiên cho những bước tìm kiếm sau. Một số lược đồ  
màu được sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến.  
Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất[18][20].  
Lược đồ màu RGB:  
Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh  
xám. Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về cường độ của ba  
kênh màu R, G, B. Luợc đồ màu này được định nghĩa như sau:  
hR,G,B r, g,b N Pr ob R r,G g, B b  
(1)  
Trong đó N là số lượng điểm có trong ảnh.  
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau đó  
đếm số điểm ảnh của mỗi màu. Khi mà số lượng màu là có hạng, để thuận tiện hơn,  
người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất. Một cách  
khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng biệt hR[],  
h []  
h []  
,
. Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu tương ứng trong  
G
B
mỗi điểm ảnh.  
2.2.2. Độ đo tương đồng về màu sắc  
Một số độ đo tương đồng được sử dụng như: Đ ộ đo khoảng cách Ơclit, độ đo  
Jensen-Shannon divergence (JSD).  
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M. Khi đó  
các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại độ  
đo tương ứng như sau:  
Khoảng cách Ơclit:  
Đây là khoảng cách Ơclit thông thường giữa các K bin:  
K
2
(2)  
Intersection(h(I),h(M ))   
h(I) h(M )  
j1  
11  
Hoặc:  
K
(3)  
Intersection(h(I),h(M ))   
h(I) h(M )  
j1  
Độ đo Jensen-Shannon divergence (JSD) :  
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính toán độ  
tương đồng về màu sắc giữa 2 ảnh :  
M
2Hm  
2H 'm  
dJSD (H, H ') H log  
H 'm log  
(4)  
m
Hm H 'm  
H 'm Hm  
m1  
Trong đó : H và H’ là 2 biểu đồ màu được so sánh,  
là bin thứ m của biểu đồ H.  
Hm  
2.3. Đặc trưng kết cu  
2.3.1. Đặc trưng kết cấu  
Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu. Kết cấu là một  
đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp những  
vùng đó[27][24][18][23].  
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường  
độ một ảnh. Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường  
độ trong một khu vực láng giềng với nhau. Kết cấu gồm các kết cấu gốc hay nhiều kết  
cấu gộp lại đôi khi gọi là texel.  
Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như[18]:  
Kim ttháp "có thể lái đưc" (the steerable pyramid)  
Biến đổi đường vin (the cotourlet transform)  
Biến đổi sóng Gabor (The Gabor Wavelet transform)  
Biu din ma trận đồng hin (co-occurrence matrix)  
Hthng blọc định hướng phc tp (The complex directional fillter bank)  
2.3.2. Độ đo tương đồng cho kết cấu ảnh  
Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ đo  
Ơclit. Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vector nhiều  
chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc trưng của  
ảnh truy vấn với đặc trưng của ảnh trong sở dữ liệu.  
12  
2.4. Đặc trưng hình dạng  
2.4.1. Đặc trưng hình dạng  
Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh.  
Trong khi đó, hình dạng không phải là một thuộc tính của ảnh. Nói tới hình dạng  
không phải là nhắc đến hình dạng của một ảnh. Thay vì vậy, hình dạng có khuynh  
hướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một đối  
tượng nào đó trong ảnh.  
Trong tìm kiếm ảnh theo nội dung, hình dạng là một cấp cao hơn so với màu sắc và  
kết cấu. Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình  
dạng. Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn  
hình dạng sau :  
Biu din hình dng theo đường biên (cotour-based descriptor) : Biu din các  
đường biên bao bên ngoài  
Biu din theo vùng (region-based descriptor): Biu din mt vùng toàn vn  
2.4.2. Độ đo tương đồng cho hình dạng  
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh.  
Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc nhận  
dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình dạng đặc  
biệt. Lược đồ hình dạng là một ví dụ của độ đo đơn giản. Kỹ thuật dùng đường  
biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối tượng  
gần giống với đường biên nhất. Phương pháp vẽ phác họa là phương pháp có nhiều  
đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn, mà  
còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người dùng  
vẽ hay cung cấp.  
2.5. Đặc trưng cục bộ bất biến  
Người ta thường chia đặc trưng cụ bộ thành 2 loại là những điểm trích xuất được  
từ điểm "nhô ra" (salient points) của ảnh và đặc trưng SIFT được trích chọn từ các  
điểm hấp dẫn Haris (interest points). Trong phần này, chúng tôi sẽ trình bày chi tiết về  
việc trích chọn các đặc trưng cục bộ bất biến (Scale Invariant Feature Transform SIFT)  
của ảnh.  
13  
2.5.1. Đặc trưng cục bộ bất biến  
Phần này trình bày phương pháp trích rút các đặc trưng cục bộ bất biến SIFT  
của ảnh. Các đặc trưng này bất biến với việc thay đổi tỉ lệ ảnh, quay ảnh, đôi khi là  
thay đổi điểm nhìn và thêm nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh.  
Phương pháp được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) và đặc  
trưng trích rút đựợc gọi là đặc trưng SIFT (SIFT Feature). Các đặc trưng SIFT này  
được trích rút ra từ các điểm hấp dẫn cục bộ (Local Interest Point) [17][30][16].  
Điểm hấp dẫn (Interest Point (Keypoint)): Là vị trí (điểm ảnh) "hấp dẫn" trên  
ảnh. "Hấp dẫn" ở đây có nghĩa là điểm đó có thể có các đặc trưng bất biến với việc  
quay ảnh, co giãn ảnh hay thay đổi cường độ chiếu sáng của ảnh.  
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo phương pháp  
thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:  
Phát hiện các điểm cc trScale-Space (Scale-Space extrema detection):  
Bước đu tiên này tiến hành tìm kiếm các điểm hp dn trên tt ccác tlvà vị  
trí ca nh. Nó sdng hàm different-of-Gaussian để xác định tt cả các điểm  
hp dn tiềm năng mà bất biến vi quy mô và hướng ca nh.  
Định vcác điểm hp dn (keypoint localization): Mt hàm kim tra sẽ được  
đưa ra để quyết định xem các điểm hp dn tiềm năng có được la chn hay  
không?  
Xác định hướng cho các điểm hp dn (Orientation assignment): Xác định  
hướng cho các đim hp dn được chn  
Mô tcác điểm hp dn (Keypoint descriptor): Các điểm hp dn sau khi  
được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều  
chiu.  
2.5.1.1. Phát hiện điểm cực trị Scale-space  
Các điểm hấp dẫn với đặc trưng SIFT tương thích với các cực trị địa phương  
của bộ lọc difference –of-Gaussian (DoG) các tỉ lệ khác nhau. Định nghĩa không  
gian tỉ lệ của một hình ảnh là hàm  
được mô tả như sau:  
L(x,y,k)  
L(x,y,) G(x,y,k)* I(x,y)  
(5)  
Với  
G(x, y,k) : biến tỉ lệ Gaussian (variable scale Gaussian)  
I(x, y) : Ảnh đầu vào  
* là phép nhân chập giữa x và y  
14  
2 y2 )/22  
1
Và  
G(x, y,)   
e(x  
2 2  
(6)  
Để phát hiện được các điểm hấp dẫn, ta đi tìm các cực trị của hàm DoG được định  
nghĩa:  
D(x, y,) (G(x, y,k) G(x, y,))*I(x, y)  
D(x, y,) L(x, y,k) L(x, y,)  
(7)  
Giá trị hàm DoG được tính xấp xỉ dựa vào giá trị scale-normalized Laplacian of  
2
2
Gaussian  
thông qua các phương trình (5)(6)(7)  
2G  
(G)  
G  
  
(8)  
G G(x, y,k) G(x, y,)  
2G   
(9)  
  
k  
G(x, y,k) G(x, y,) (k 1)22G  
(10)  
Như vậy, bước đầu tiên của giải thuật SIFT phát hiện các điểm hấp dẫn với bộ  
lọc Gaussian ở các tỉ lệ khác nhau và các ảnh GoG từ sự khác nhau của các ảnh kề mờ.  
Hình 8. Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ  
Các ảnh cuộn được nhóm thành các octave (mỗi octave tương ứng với giá trị  
gấp đôi của ). Giá trị của k được chọn sao cho số lượng ảnh mờ (blured images) cho  
15  
mỗi octave là cố định. Điều này đảm bảo cho số lượng các ảnh DoG cho mỗi octave  
không thay đổi.  
Các điểm hấp dẫn được xác định là các cực đại hoặc cực tiểu của các ảnh DoG  
qua các tỉ lệ. Mỗi điểm ảnh trong DoG được so sánh với 8 điểm ảnh láng giềng của nó  
ở cùng tỉ lệ đó và 9 láng giềng kề ở các tỉ lệ ngay trước và sau nó. Nếu điểm ảnh đó  
đạt giá trị cực tiểu hoặc cực đại thì sẽ được chọn làm các điểm hấp dẫn ứng viên.  
Hình 9. Mỗi điểm ảnh được so sánh với 26 láng giềng của nó  
2.5.1.2. Định vị điểm hấp dẫn:  
Mỗi điểm hấp dẫn ứng viên sau khi được chọn sẽ được đánh giá xem có được giữ  
lại hay không:  
Loi bỏ các điểm hp dn có độ tương phản thp  
Mt số điểm hp dn dc theo các cnh không giữ được tính ổn định khi nh bị  
nhiu cũng bloi b.  
Các điểm hấp dẫn còn lại sẽ được xác định hướng.  
16  
Hình 10. Quá trình lựa chọn các điểm hấp dẫn  
a. Ảnh gốc, b. Các điểm hấp dẫn được phát hiện, c. Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương  
phản thấp, d. Ảnh sau loại bỏ các điểm hấp dẫn dọc theo cạnh.  
2.5.1.3. Xác định hướng cho điểm hấp dẫn:  
Để xác định hướng cho các điểm hấp dẫn, người ta tính toán biểu đồ hướng  
Gradient trong vùng láng giềng của điểm hấp dẫn. Độ lớn và hướng của các điểm hấp  
dẫn được xác định theo công thức:  
m(x, y) (L(x 1, y) L(x 1, y))2 (L(x, y 1) L(x, y 1))2  
(11)  
(x, y) tan1((L(x, y 1) L(x, y 1)) / (L(x 1, y) L(x 1, y)))  
(12)  
2.5.1.4. Biểu diễn vector cho điểm hấp dẫn  
Điểm hấp dẫn sau khi được xác định hướng sẽ được biểu diễn dưới dạng các  
vector 4x4x8=128 chiều.  
17  
Hình 11. Biểu diễn các vector đặc trưng  
2.5.2. Độ đo tương đồng cho đặc trưng cục bộ bất biến  
Một số độ đo tương đồng cho ảnh sử dụng đặc trưng SIFT như[33] :  
Độ đo Cosin :  
x.y  
d(x, y)   
(13)  
(14)  
(15)  
x . y  
Khong cách góc :  
d(x, y) cos1(x.y)  
Độ đo Euclide :  
n
2
d(x, y)  
x y  
i
i
i1  
Độ đo Jensen-Shannon divergence :  
M
2Hm  
2H 'm  
(16)  
dJSD (H, H ') H log  
H 'm log  
m
Hm H 'm  
H 'm Hm  
m1  
Vi H, H’ là 2 biểu đồ biu diễn các vector đặc trưng SIFT.  
2.6. Lựa chọn đặc trưng  
Sau khi trích chọn được các đặc trưng nội dung của ảnh, tập các đặc trưng có thể  
được tối ưu hóa bằng các phương pháp lựa chọn đặc trưng để tăng chất lượng và hiệu  
quả khi sử dụng các tập đặc trưng.  
Một cách tổng quát, lựa chọn đặc trưng là phương pháp giảm thiểu các đặc trưng  
nhằm chọn ra một tập con các đặc trưng phù hợp trong học máy để xây dựng mô hình  
18  
học tốt nhất. Mục đích của lựa chọn đặc trưng là tìm ra không gian con các đặc trưng  
tối ưu sao cho các tập ảnh “thích hợp” và “không thích hợp” được tách biệt nhất.  
Có nhiều phương pháp lựa chọn đặc trưng được đề xuất như: phương pháp tăng  
khuyếch đại (boosting manner) kết hợp với nền tảng Real Adaboost của Wei Jian và  
Guihua Er [25]. Mingjing Li[26] đưa ra tiêu chí lựa chọn các đặc trưng là: Mô hình  
tương phản đặc trưng được tổng quát hóa (Generalized Feature Contrast Model) dựa  
trên mô hình tương phản đặc trưng (Feature Contrast Model). Một số phương pháp cổ  
điển khác như phương pháp dựa vào phân phối (distribution based). Phương pháp dựa  
vào phân tích biệt thức (Discriminant analysis DA) ví dụ như Phân tích đa biệt thức  
(Mutiple Discriminant analysis MDA)), phân tích biệt thức không đối xứng (biased  
Discriminant analysis BDA). Phương pháp tối đa khoảng cách tối thiểu đối xứng trong  
không gian con (symmetric maximized minimal distance in subspace SMMS)…  
Một số phương pháp lựa chọn đặc trưng[23]:  
STT  
1
Phương pháp  
Mô tả, nhận xét  
Phương pháp dựa vào Không xét đến yêu cầu về tính bất đối xứng trong  
phân phối (Distribution hệ thống CBIR.  
based approaches)  
Khó đánh giá phân phối mẫu vì một số mẫu huấn  
luyện không đặc tả được hết toàn bộ tập dữ liệu. Vì  
vậy, phương pháp này không thích hợp cho hệ  
thống tìm kiếm ảnh học online.  
2
3
Phương pháp khuyếch đại Không xét đến yêu cầu về tính bất đối xứng trong  
thông thường  
hệ thống CBIR.  
(conventional Boosting  
method)  
Không được đánh giá tốt vì khả năng tổng quát hóa  
thấp do tiêu chí lựa chọn đặc trưng dựa trên lỗi  
huấn luyện.  
Phương pháp phân tích Phương pháp DA tổng hợp các phân tích biệt thức  
biệt thức  
tuyến tính và giả thiết rằng các ảnh “thích hợp”  
được nhóm vào với nhau như một cụm.  
Với những ảnh “không thích hợp”, phương pháp  
DA giả thiết rằng chúng không nằm trong một  
phân phối một cụm.  
Phương pháp MDA giả thiết rằng mỗi ảnh “không  
19  
thích hợp” đến từ một lớp khác nhau.  
Phương pháp BDA giả thiết rằng mỗi ảnh “không  
thích hợp” đến từ một số không xác định các lớp.  
SMMS lựa chọn không gian đặc trưng con trực  
giao với không gian con kéo dài bằng các mẫu  
“thích hợp”.  
4
5
Phương BiasMap (BDA Ánh xạ mẫu huấn luyện đến một không gian nhiều  
hạt nhật)  
Phương pháp khuyếch đại Tăng các đặc trưng được học thành phân lớp toàn  
(Boosting manner) bộ giảm lỗi huấn luyện.  
chiều hơn để giải quyết vấn đề giả thuyết một cụm.  
Có nhiều phương pháp để đánh giá kết quả của tập con đặc trưng. Vì vậy, kết quả  
đối với những mô hình lựa chọn đặc trưng khác nhau là khác nhau. Hai mô hình phổ  
biến cho lựa chọn đặc trưng là: Mô hình Filter và mô hình Wrapper.  
Mô hình Filter: đánh giá mỗi phn tbng mt vài tiêu chuẩn hay độ đo nào đó,  
ri chn ra tp con các thuộc tính được đánh giá cao nhất.  
Mô hình Wrapper: Sdng mt thut toán tìm kiếm để đánh giá tập con các  
thuộc tính coi như là một nhóm hơn là một phn triêng l. Ct lõi ca mô  
hình Wrapper là mt thut toán hc máy cthể. Nó đánh giá độ tt ca nhng  
tập con đặc trưng tùy theo độ chính xác hc ca tập con, điều này xác định  
thông qua một tiêu chí nào đó.  
Tổng kết chương 2  
Trong chương 2, khóa luận đã trình bày tóm tắt phương pháp trích chọn các đặc  
trưng nội dung ảnh(màu sắc, kết cấu, hình dạng và đặc trưng cục bộ SIFT) và một số  
độ đo tương đồng tương ứng với các đặc trưng. Một số phương pháp lựa chọn đặc  
trưng để tối ưu hóa tập đặc trưng. Trong chương 3, chúng tôi sẽ trình bày một số công  
trình nghiên cứu khoa học liên quan đến tìm kiếm ảnh theo nội dung ảnh trích chọn  
được.  
20  
Chương 3. Một số phương pháp tìm kiếm ảnh theo nội dung  
3.1. Phương pháp PageRank cho tìm kiếm ảnh sản phẩm  
Yushi Jing và cộng sự giới thiệu hệ thống xếp hạng lại các kết quả tìm kiếm hình  
ảnh của Google dựa trên nội dung của các bức ảnh. Hệ thống xây dựng một đồ thị  
tương đồng với mỗi đỉnh là một ảnh, các ảnh được liên kết với nhau theo độ tương  
đồng giữa chúng và áp dụng phương pháp PageRank để xếp hạng lại các ảnh. Hệ  
thống cho kết quả tốt với 2000 truy vấn về những sản phẩm phổ biến nhất[30].  
Hệ thống xây dựng một đồ thị từ tập dữ liệu ảnh và sau đó xếp hạng các ảnh  
dựa trên các siêu liên kết trực quan (visual hyperlinks) giữa các ảnh. Nhận định trực  
quan của việc sử dụng các siêu liên kết trực quan này là nếu một người dùng xem một  
ảnh, thì người đó có thể cũng sẽ quan tâm đến một ảnh khác gần giống với ảnh vừa  
xem. Đặc biệt, nếu ảnh u có siêu liên kết trực quan đến ảnh v, thì sẽ có một xác suất để  
người dùng chuyển từ u sang v. Bằng trực giác, ta có thể thấy các ảnh có liên quan tới  
truy vấn sẽ có nhiều ảnh khác trỏ tới chúng và do đó sẽ được thăm thường xuyên. Các  
ảnh mà được thăm thường xuyên thường được cho là quan trọng. Hơn nữa, nếu một  
ảnh v là quan trọng và nó có liên kết tới ảnh w, thì nó sẽ gộp độ quan trọng của nó cho  
độ quan trọng của w vì bản thân v là quan trọng;  
Hạng của một bức ảnh được định nghĩa lại như sau:  
IR S* IR  
(17)  
Trong đó, S* là ma trận kề cắt giảm theo cột của S, với Su,v là độ tương đồng  
giữa 2 ảnh u v. Bằng cách lặp đi lặp lại phép nhân IR với S* ta sẽ thu được véc tơ  
đặc trưng nổi bật (dominant eigenvector) của ma trận S* .  
ImageRank (IR) hội tụ chỉ khi ma trận S* không tuần hoàn hoặc tối giản. Điều  
kiện không tuần hoàn thường đúng đối với Web còn điều kiện tối giản thường yêu cầu  
một đồ thị liên thông mạnh. Do đó, định nghĩa một hệ số hãm d để tạo một đồ thị liên  
thông mạnh, thỏa mãn điều kiện hội tụ và để làm giảm hạng của các đỉnh, tránh trường  
hợp một số trang có thứ hạng quá cao.  
Với một tập n ảnh, IR được định nghĩa:  
1
   
IR dS* IR+ 1d p  
với p   
(18)  
   
n
 n1  
21  

Tải về để xem bản đầy đủ

pdf 55 trang yennguyen 04/01/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản phẩm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_phuong_phap_trich_chon_dac_trung_anh_trong_thuat_t.pdf