Luận văn Sử dụng lưới hai chiều để theo vết đối tượng trong video

TRƯỜNG ĐH KHOA HC TNHIÊN TP.HCM  
KHOA CÔNG NGHTHÔNG TIN  
oOo  
Lun văn tt nghip  
Đề tài :  
SDng Lưới Hai Chiu Để  
Theo Vết Đối Tượng Trong Video  
Giáo viên hướng dn : Th.S Phm Phm Tuyết Trinh  
Sinh viên thc hin :  
Lê Thành Trung (9912087)  
TP. HChí Minh, 7/2003  
Li cm ơn  
Sau hơn bn tháng nghiên cu và thc hin , lun văn đã được hoàn tt  
đã đạt được nhng kết qunht định . Nhìn li quãng đường đã qua , tôi  
cm thy vô cùng biết ơn các thy cô , xin cm ơn các thy các cô đã trang  
bcho chúng tôi mt nn tng tri thc vng vàng , giúp chúng tôi có thtự  
mình thc hin vic nghiên cu khoa hc .  
Xin cm ơn cô Phm Phm Tuyết Trinh , người đã hướng dn tôi trong  
sut quá trình thc hin lun văn . Cô đã chra cho tôi nhng định hướng  
hết sc quan trng .  
Xin cm ơn bn bè trong nhóm , cm ơn các bn Trương Thiên Đỉnh ,  
Nguyn Thanh Sơn , Trn Hng Thái đã giúp đỡ tôi rt nhiu trong quá trình  
thc hin lun văn cũng như trong sut bn năm hc .  
Và cui cùng , con xin cm ơn ông , cm ơn mvà ch, nhng người  
thân yêu đã luôn là chda cho tôi trong nhng năm tháng qua .  
Tng Quan  
Vn đề theo vết đối tượng trong video đã và đang thu hút được nhiu sự  
quan tâm ca cng đồng nghiên cu bi nó có nhiu ng dng hu ích trong  
lĩnh vc gii trí , truyn thông , thgiác máy tính đa phương tin , chng  
hn như ứng dng trong xlý và biên tp video s, trong nén video , trong  
các thư vin s, trong các hthng giám sát giao thông .v.v… Đối tượng  
trong video , hay ngn gn là đối tượng video , là nhng thành phn có ý  
nghĩa đầy đủ ca mt khung cnh . Theo vết đối tượng bao gm vic theo  
vết đường biên , theo vết nhng chuyn động cc bvà nhng biến đổi về  
cường độ (độ sáng ti , độ tương phn) ca đối tượng đó .  
Ni dung chính ca lun văn này là nghiên cu và thc hin vic theo vết  
đối tượng theo hướng tiếp cn mi : sdng lưới hai chiu . Theo đó , vn  
đề theo vết đường biên , theo vết nhng chuyn động cc bvà nhng biến  
đổi vcường độ sẽ được hp nht li thành vn đề theo vết lưới 2 chiu .  
Lưới ở đây được thiết kế da theo ni dung ca đối tượng giúp cho vic theo  
vết đối tượng được chính xác hơn . Quá trình ước lượng chuyn động ti các  
node ca lưới được ràng buc cht chẽ để bo toàn kết cu ca lưới  
Mc lc  
1 Gii Thiu  
1.1 Động lc thúc đẩy  
1.2 Mt shướng tiếp cn  
1.3 Bcc lun văn  
2 Mt SKhái Nim Nn Tng  
2.1 Mt slĩnh vc liên quan  
2.2 Biến dng nh số  
2.3 Video , video tương t, video số  
2.4 Đối tượng video , chuyn động ca đối tượng video , ước lượng chuyn  
động  
2.5 Hin tượng che phủ  
3 Mô Hình Theo Vết Đối Tượng Video  
3.1 To lưới  
3.2 Ước lượng chuyn động ti các node ca lưới  
3.3 Lan truyn lưới  
4 Cài Đặt và ThNghim  
4.1 Chi tiết cài đặt  
4.2 Kết quthnghim  
5 Kết Lun và hướng phát trin  
Chương 1  
Gii Thiu  
Vn đề theo vết đối tượng trong video đã và đang thu hút được squan  
tâm ca cng đồng nghiên cu bi nó có nhiu ng dng hu ích trong lĩnh  
vc gii trí , truyn thông , thgiác máy tính và đa phương tin , chng hn  
như ứng dng trong xlý và biên tp video s, trong nén video , trong các  
thư vin s, trong các hthng giám sát giao thông .v.v… Xét mt đon  
video quay mt khung cnh , đối tượng trong đon video , hay ngn gn là  
đối tượng video , là nhng thành phn có ý nghĩa đầy đủ trong khung cnh  
đó . Theo vết đối tượng bao gm vic theo vết đường biên , theo vết nhng  
chuyn động cc bvà nhng biến đổi vcường độ (độ sáng ti , độ tương  
phn) ca đối tượng .  
Ni dung chính ca lun văn này là nghiên cu và thc hin vic theo vết  
đối tượng theo hướng tiếp cn mi : sdng lưới hai chiu . Vi hướng tiếp  
cn này , ba vn đề : theo vết đường biên , theo vết nhng chuyn động cc  
bvà theo vết nhng biến đổi vcường độ sẽ được hp nht li thành vn đề  
theo vết lưới 2 chiu .  
Theo thut ngthông dng , mt phng alpha ca mt đối tượng video là  
tp hp tt ccác đim nh thuc đối tượng đó . Lun văn này đề ra mt  
phương pháp theo vết đối tượng bán tự động , theo đó mt phng alpha ca  
đối tượng video sẽ được xác định bng tay ti mt sframe quan trng , sau  
đó mt phng alpha sẽ được tự động xác định nhng frame còn li bng  
1
cách sdng mô hình theo vết lưới 2 chiu . Lưới ở đây được thiết kế da  
theo ni dung ca đối tượng giúp cho vic theo vết đối tượng được chính xác  
hơn .  
Phn tiếp theo ca chương này strình bày nhng động lc thúc đẩy vic  
nghiên cu vn đề theo vết đối tượng , nhng hướng tiếp cn đã được đề ra ,  
và cui cùng là gii thiu bcc ca lun văn .  
1.1 Động lc thúc đẩy  
Có thddàng nhn ra rng phn ln thông tin mà con người thu nhn từ  
bên ngoài là thông qua thgiác . Bng cách quan sát , con người thu nhn  
nhng hình nh tmôi trường xung quanh , nhn dng và đưa ra nhng phn  
hi thích hp . Mt cách tnhiên , hình nh trthành mt trong nhng dng  
thông tin givai trò quan trng trong đời sng con người . Câu châm ngôn  
txa xưa “mt hình nh có giá trhơn vn li nói” hay “trăm nghe không  
bng mt thy” đã phn nào nói lên ý nghĩa to ln ca hình nh trong vic  
truyn ti thông tin . Vn đề ny sinh là làm sao có thbiu din , lưu trvà  
trao đổi được dng thông tin này . Bng lao động và sáng to , con người đã  
tìm ra nhng gii pháp cho vn đề trên , tgin đơn như nhng hình thù  
khc trên đá , nhng kí hiu trên tm da thú .v.v…cho đến nhng bc tranh ,  
tm nh đầy màu sc , nhng hình nh video sinh động ngày nay .  
Ra đời vào nhng năm 30 ca thế k20 , video , hiu mt cách đơn gin ,  
là mt chui các nh tĩnh (còn được gi là khung hình - frame) liên tiếp , sp  
xếp theo trt tthi gian . Mt đon video cha đựng được nhiu thông tin  
trc quan hơn mt nh tĩnh , do video có khnăng thu giữ được chuyn  
động . Mt nh tĩnh chcó thcung cp cho người xem nhng thông tin tĩnh  
2
vmt khung cnh trong khi mt đon video có thể đem li cho người xem  
phn động trong khung cnh đó . Ban đầu video dng tương t, và do bn  
cht tương tnên nó có rt ít khnăng xlý cũng như tương tác , chcó thể  
đơn gin như chuyn kênh truyn hình hay quay ti quay lui mt đon băng  
.
Sphát trin mnh mca công nghphn cng đã góp phn hướng  
người sdng đến vi video s, vn gn lin vi mt khnăng xlý tương  
tác tt hơn . Ta có thddàng thu nhn , lưu tr, xlý tín hiu video dưới  
định dng s, cũng như trao đổi và chia snó gia các nn tng và lĩnh vc  
ng dng khác nhau .  
Theo nguyên thy , video số được biu din da trên cơ skhung hình ,  
tc là mi đon video bao gm nhiu khung hình , mi khung hình là mt  
tp hp các đim nh . Cách biu din như vy chmi thhin được chiu  
thi gian ca video , trong khi li làm n đi phn rt quan trng , đó là ni  
dung , là nhng thông tin mà video cha đựng , là các đối tượng video .  
Nhng nhu cu mi xut hin gn đây đã làm bc lnhng hn chế ca  
cách biu din này . Nhng thư vin s, nơi cha slượng khng ldliu  
video s, đòi hi phi được trang btính năng truy xut , rút trích và phân  
tích dliu mc đối tượng , vic thc hin theo tng frame tn chi phí quá  
ln và không khthi . Công vic xlý hu kì , biên tp video đòi hi khả  
năng kết hp các đối tượng , các khung cnh tnhiên và nhân to để to ra  
hiu ng . Vic tương tác vi các đối tượng trong môi trường trc quan hin  
chmi gii hn trong đồ ha máy tính và mong mun đưa khnăng này  
vào các ng dng multimedia , truyn thông , gii trí ngày càng ln . Rõ  
ràng , kiến trúc frame và pixel không đủ để tha mãn các nhu cu trên , cn  
có mt cách biu din video scp cao hơn . Và biu din video da trên cơ  
sở đối tượng là li gii rt thích hp cho bài toán . Trên cơ sở đối tượng ,  
3
mi frame ca video sbao gm nhiu lp chng lên nhau , mi lp tương  
ng vi mt đối tượng video khác nhau .  
Hình 1.1 : Biu din video da trên cơ sở đối tượng  
Để có thchuyn video tframe-based sang object-based cn phi thc  
hin vic phân vùng video , tc là phân mi frame ca video thành nhiu  
vùng , mi vùng stương ng vi mt đối tượng video khác nhau .  
Cách lý tưởng để thc hin vic phân vùng là sdng phông nn xanh .  
Theo đó , tng đối tượng video riêng lsẽ được ghi nhn trên phông nn  
4
xanh , vic tách đối tượng ra khi phông nn xanh là ddàng , và cui cùng  
ta chvic chng các đối tượng này lên nhau để to ra hình nh video mong  
mun . Cách này đòi hi phi có nhng trang thiết bkĩ thut , nhng phn  
cng chuyên dng và nht là phi thc hin ngay trong giai đon thu nhn  
hình nh . Vi nhng điu kin phc tp như vy , kĩ thut phông nn xanh  
thường chỉ được sdng trong vic to các kĩ xo đin nh hay trong các  
chương trình truyn hình .  
Phân vùng bng tay là mt công vic rt tn thi gian và công sc . Vi  
tc độ chiếu 24 hình / giây , để phân vùng mt đon video dài 5 phút ta phi  
thc hin thcông trên 24×60×5 = 7200 frame . Hơn na , kết quphân  
vùng li không n định và thường thay đổi theo chquan ca mi người .  
Đã có nhng phương pháp phân vùng video hoàn toàn tự động được đề ra  
, tuy nhiên các phương pháp này chcó thsdng trong nhng điu kin  
nht định và mi chdng mc phân vùng các đối tượng video đơn gin ,  
rt khó có tháp dng cách này cho nhng đon video thông thường hàng  
ngày .  
Gii pháp thích hp được la chn hin nay là thc hin phân vùng bán  
tự động . Vi strgiúp ca máy tính , vic phân vùng sẽ được thc hin  
bng tay mt sframe quan trng , kết quthu được , tc là các đối tượng  
video , sẽ được theo vết các frame còn li . Ở đây , có thhiu “theo vết”  
là xác định xem trong các frame tiếp theo thì đối tượng xut hin ở đâu và  
xut hin như thế nào . Cui cùng ta sthu được bn đồ phân vùng cũng như  
các lp đối tượng ti tng frame và quĩ đạo chuyn động ca tng đối tượng  
theo thi gian .  
Theo vết đối tượng trthành vn đề ct lõi trong vic biu din video  
da trên cơ sở đối tượng . Nó gimt vai trò hết sc quan trng trong vic  
5
giúp cho máy tính “hiu” các cnh động , giúp thiết lp mi dây liên kết gia  
các đối tượng video trong quá trình chuyn động theo thi gian .  
Không chgivai trò trên , trong thc tế , vic theo vết đối tượng còn  
được ng dng theo kiu thi gian thc trong các hthng giám sát giao  
thông , giám sát an ninh , điu khin robot .v.v…  
Hu hết các phương pháp theo vết đối tượng trước đây đều thu được kết  
qukhông cao , do chsdng nhng mô hình đơn gin để mô tchuyn  
động ca đối tượng video , chng hn như mô hình so khp khi , mô hình  
so khp vùng .v.v…Để ci thin được kết qu, cn tìm ra nhng mô hình  
chuyn động thích hp hơn , mnh mhơn . Sdng mô hình lưới 2 chiu  
được xem như mt hướng tiếp cn mi đầy ha hn . Theo mô hình này ,  
mi phn tca lưới (tc là các mt lưới) được githiết là vùng có chuyn  
động đồng nht và chuyn động này có thể được biu din chính xác bng  
mt phép biến đổi không gian (affine , bilinear , …) . Phép biến đổi này có  
thể được suy ra tvectơ chuyn động ti các đỉnh ca mt lưới đang xét .  
Thc tế đã cho thy , biu din đối tượng và theo vết đối tượng bng cách sử  
dng lưới 2 chiu cho ra kết quchính xác hơn và n định hơn . Xét vmt  
lý thuyết , đáp án tt nht cho bài toán theo vết đối tượng là sdng các mô  
hình theo vết 3 chiu . Tuy nhiên , vic sdng các mô hình 3 chiu đòi hi  
chi phí tính toán quá cao , đồng thi phi biết rõ cu trúc 3 chiu ca đối  
tượng được quan tâm . Sdng lưới 2 chiu là mt gii pháp cân bng gia  
chi phí tính toán và kết quthu được . Gii pháp này không đòi hi phi biết  
trước vcu trúc ca đối tượng , không đòi hi chi phí tính toán cao , đồng  
thi cho ra kết quả đầy ha hn .  
6
1.2 Mt shướng tiếp cn  
Đã có nhiu phương pháp theo vết được đề ra , theo Toklu [5] , các  
phương pháp này có thể được phân thành bn nhóm : Theo vết đim đặc  
trưng (feature-point tracking) , Theo vết đường biên (boundary tracking) ,  
Theo vết vùng (region tracking) và Theo vết da trên cơ smô hình (model-  
based tracking ) . Vic phân loi này chmang tính tương đối .  
Theo vết đim đặc trưng (feature-point tracking)  
Trong nhóm phương pháp này , mt số đim đặc trưng (theo mt tiêu  
chun nào đó) ca đối tượng được chn ra và vic theo vết trthành vic  
xác định quĩ đạo chuyn động ca các đim này theo thi gian  
Theo vết đường biên (boundary tracking)  
Nhóm phương pháp này tp trung vào vic xác định chuyn động ca  
đường biên đối tượng . Điu này có nghĩa là các chuyn động cc bbên  
trong đối tượng bbqua . Tiêu biu cho nhóm này là phương pháp đường  
vin động (active contour model hay ngn gn là snake) do M. Kass , A.  
Witkin và D. Terzopoulos đề ra năm 1988 .  
Theo vết vùng (region tracking)  
Xut phát tý tưởng theo vết mt nhóm đim scho kết qutt hơn theo  
vết mt đim riêng l, nhóm phương pháp này thc hin vic phân đối  
tượng thành các vùng và thc hin ước lượng chuyn động cho tng vùng .  
Theo vết da trên cơ smô hình (model-based tracking)  
Nhóm phương pháp này thường được sdng để theo vết mt người ,  
thân người , xe c…Nhóm phương pháp này đòi hi phi được trang btri  
thc về đối tượng , chng hn như tri thc vcu trúc ba chiu , các đim  
7
đặc trưng ca khuôn mt , tính đàn hi .v.v… Nhóm phương pháp không  
được sdng rng rãi và thường chdùng trong các trường hp chuyên bit.  
Nhng năm gn đây , các phương pháp theo vết sdng lưới đang thu  
hút được nhiu schú ý . Theo mô hình này , mi phn tca lưới (tc là  
các mt lưới) được githiết là vùng có chuyn động đồng nht và chuyn  
động này có thể được biu din chính xác bng mt phép biến đổi không  
gian (affine , bilinear , …) . Phép biến đổi này có thể được suy ra tvectơ  
chuyn động ti các đỉnh ca mt lưới đang xét . Thc tế đã cho thy , biu  
din đối tượng và theo vết đối tượng bng cách sdng lưới 2 chiu cho ra  
kết quchính xác hơn và n định hơn. Vic xác định vectơ chuyn động ti  
tng node riêng lthường đem li kết qukhông như ý do các vectơ tìm  
được có thể đan chéo nhau . Để gii quyết vn đề này , Nakaya [22] đề ra  
mt phương pháp so khp sáu cnh , theo đó mt lưới đồng dng (các phn  
ttc các mt lưới có hình dng và kích thước ging nhau – hình 1.3a) được  
áp lên đối tượng , các node bên trong sẽ được di chuyn trong mt vùng gii  
hn bi 6 cnh (hình 1.2) để dò ra vtrí tương ng trong frame tiếp theo .  
Toklu [5] mrng phương pháp này bng cách sdng mô hình lưới đồng  
dng phân cp , theo đó vic ước lượng chuyn động sẽ được thc hin trên  
lưới có mt độ tthưa đến dày .  
Hình 1.2 : phương pháp so khp sáu cnh  
8
Hình 1.3 : lưới : a) đồng dng , b) da theo ni dung khung cnh  
Tuy nhiên , cToklu và Nakaya đều sdng lưới đồng dng , bn thân  
dng lưới được to bng cách chia nh ra thành các phn bng nhau do đó  
không phn ánh được ni dung ca khung cnh , mi phn tca lưới có  
thcha nhiu chuyn động cùng mt lúc . Altunbasak gii quyết vn đề này  
bng cách sdng lưới có thiết kế da theo ni dung đối tượng (hình 1.3b) .  
Tuy nhiên , trong phương pháp này , đối tượng được xem là toàn bframe  
9
chkhông riêng mt đối tượng cthnào . Tnhng nghiên cu trên , lun  
văn đề ra mt mô hình theo vết đối tượng bán tự động cho phép người dùng  
chn ra đối tượng bt kì , đối tượng sẽ được biu din bng mt lưới tam  
giác hai chiu được thiết kế da theo ni dung ca đối tượng và được theo  
vết mt cách hoàn toàn tự động các frame tiếp theo . Quá trình ước lượng  
chuyn động ti các node được ràng buc cht chẽ để bo toàn kết cu ca  
lưới .  
1.3 Bcc lun văn  
Trong chương 1 này , lun văn đã trình bày nhng động lc thúc đẩy  
nghiên cu vn đề theo vết đối tượng , trình bày mt shướng tiếp cn đã  
được đề ra . Phn còn li ca lun văn sẽ được tchc như sau :  
chương 2 , lun văn strình bày nhng khái nim và ni dung nn tng  
liên quan đến vn đề theo vết đối tượng .  
– Trong chương 3 , lun văn strình bày chi tiết vmô hình theo vết đối  
tượng sdng lưới hai chiu mà lun văn đã nghiên cu và đề ra .  
chương 4 , lun văn strình bày vphn cài đặt thnghim thc tế .  
– Cui cùng , trong chương 5 , lun văn sẽ đưa ra kết lun và hướng phát  
trin tương lai .  
10  
Chương 2  
Nhng khái nim và ni dung  
nn tng  
2.1 Mt slĩnh vc liên quan  
Các phương pháp theo vết đối tượng trong video sthường sdng  
nhng kĩ thut thuc nhiu lĩnh vc khác nhau . Kết quca vic theo vết  
cũng được ng dng trli trong nhiu lĩnh vc khác nhau . Trong phn này  
, lun văn sgii thiu sơ qua mt slĩnh vc quan trng có liên quan , bao  
gm xnh s(digital image processing) , đồ ha máy tính (computer  
graphics) , thgiác máy tính (computer vision) , đa phương tin (multimedia)  
và xlý video s(digital video processing) . Riêng biến dng nh s(digital  
image warping) , mt nhánh ca xnh , là mt lĩnh vc mi được biết  
đến và có nhng ni dung quan trng nên sẽ được trình bày trong mt phn  
riêng .  
Xnh s(digital image processing)  
Xnh s, đúng như tên gi ca nó , bao gm vic phân tích và xlý  
các nh sbng máy tính . Mc đính chính ca xnh là tăng cường mc  
độ thu nhn thông tin ca con người tngun dliu nh và làm cho máy  
tính có thtự động xlý (lưu tr, biu din , trao đổi …) các hình nh thu  
nhn tmôi trường tnhiên .  
11  
Hình 2.1 : Xl ý nh  
Đồ ha máy tính  
Đồ ha máy tính bao gm tt cnhng gì liên quan đến vic sdng  
máy tính để phát sinh ra hình nh . So vi xnh thì đồ ha máy tính  
đóng vai trò như mt ha sĩ , còn xnh đóng vai trò như mt thchp  
nh .  
Thgiác máy tính (computer vision)  
Thgiác máy tính là hướng ngược li ca đồ ha máy tính . Trong khi đồ  
ha ly thông tin mô tcnh bên ngoài (scene discription) để to ra nh  
trong máy tính thì thgiác máy tính li từ ảnh bên trong máy tính để suy ra  
thông tin mô tcnh bên ngoài .  
12  
Hình 2.2 : Tương quan gia xnh , đồ ha máy tính và thgiác máy tính  
Đa phương tin (multimedia)  
Thut ngđa phương tin” din đạt ý tưởng các thông tin trong máy  
tính có thể được biu din bng các âm thanh , hình nh video sinh động chứ  
không chgii hn trong nhng cách biu din truyn thng (văn bn , nh  
tĩnh.v.v…) .  
Lĩnh vc multimedia đề cp đến vic sdng máy tính để tích hp các  
dng dliu như văn bn , hình nh tĩnh , hình nh động (video) , âm thanh  
hay bt kì dng dliu snào .  
Xlý video số  
Xlý video stc là xlý lung dliu video s(digital video  
bitstream) , bao gm các công vic như thu nhn , lưu tr, phân tích , tng  
hp , trao đổi .v.v…  
13  
2.2 Biến dng nh s(digital image warping)  
Biến dng nh s, hay rõ hơn là biến đổi (vmt hình hc) nh s, là  
mt nhánh ca xnh . Biến đổi vmt hình hc (geometric  
transformation) là thao tác xác lp li mi tương quan vvtrí gia các đim  
trên nh . Ct lõi ca biến đổi hình hc là ánh xmt hta độ này sang mt  
hta độ khác . Điu này được thc hin thông qua mt biến đổi không gian  
(spatial transformation) , đây là mt hàm ánh xthiết lp stương ng gia  
các đim trên nh đầu vào và các đim trên nh đầu ra . Hàm ánh xnày có  
thbiu din theo hai cách sau :  
[x , y] = [X(u,v) , Y(u,v)]  
hay :  
[u , v] = [U(x,y) , V(x,y)]  
Trong đó [u , v] chvtrí ca đim nh trên nh input tương ng vi đim  
nh vtrí [x , y] trên nh output ; còn X , Y , U , V là các hàm ánh xạ đặc  
trưng cho tng phép biến đổi cth. Do X và Y thc hin vic ánh xtừ  
nh input sang nh output nên được gi là các ánh xtiến (forward mapping)  
, tương t, U và V được gi là các ánh xa lùi (backward mapping) hay ánh  
xngược (inverse mapping) . Ánh xtiến thc hin vic sao chép tng pixel  
trên nh input sang nh output tai các vtrí do ánh xxác định . Còn ánh xạ  
ngược thì thc hin vic đối chiếu tng vtrí trên nh output sang nh input ,  
sau đó sao chép pixel ti vtrí va tìm được trên nh input sang vtrí tương  
ng trên nh output .  
14  
Mt vn đề phát sinh là các giá trvtrí lúc ban đầu là snguyên , sau khi  
qua hàm ánh xthì trthành sthc . Điu này gây ra hin tượng lhng và  
hin tượng chng lên nhau . Lhng ở đây chnhng pixel không có đối  
tượng nào tương ng . Còn hin tượng chng lên nhau là hin tượng nhiu  
pixel cùng được ánh xtương ng vào mt pixel .  
Hình 2.3 : Ánh xtiến  
15  
Hình 2.4 : Ánh xngược  
Ta có thgim bt hin tượng này bng cách chia nh ra thành các vùng nhỏ  
(patch) , chng hn như chia thành các vùng hình vuông . Vic ánh xkhi đó  
skhông thc hin trên đơn vị đim nh mà thc hin ti tng vùng . Cách  
này giúp bo toàn kết cu lin lc ca nh .  
Trong phn tiếp theo , lun văn strình bày các phép biến đổi không gian  
được sdng trong mô hình theo vết đối tượng . Ở đây ta chxét các phép  
biến đổi 2 chiu . Vic biu din phép biến đổi được thc hin trong hta  
độ thun nht (Homogeneous Coordinates) , đây là hta độ do tác giả  
Roberts đề ra năm 1965 trong lĩnh vc đồ ha máy tính nhm đảm bo tính  
nht quán trong cách biu din các phép biến đổi .  
16  
2.2.1 Biến đổi affine (Affine transformation)  
Phép biến đổi affine là phép biến đổi tuyến tính , thun nghch , có dng  
biu din tng quát như sau :  
a a 0  
11  
12  
x, y,1 =[u,v,1] a a 0  
[
]
21  
22  
a31 a32 1  
Từ đó suy ra :  
x = a11u + a21v + a31  
y = a12u + a22v + a32  
Nhng tính cht quan trng ca phép biến đổi affine là :  
– Bo toàn đường thng : nh ca mt đường thng qua phép biến đổi  
affine là mt đường thng  
– Bo toàn tính song song ca các đường thng : nh ca hai đường  
thng song song là hai đườn song son  
– Bo toàn tlvkhong cách : gisC là đim chia đon AB theo tỉ  
st . Nếu A’ , B’ , C’ ln lượt là nh ca A , B , C qua phép biến đổi  
affine thì C’ cũng schia A’B’ theo tst .  
17  
Hình 2.5 : Phép biến đổi affine  
Mt strường hp đặc bit ca phép biến đổi affine là : phép tnh tiến  
(translation) , phép quay (rotation) , phép biến đổi tl(scale) , phép kéo  
xiên (shear) .  
Tnh tiến (Translation)  
Gi Tu , Tv độ di tương ng vi u , v , dng biu din ca phép tnh  
tiến là :  
1 0 0  
x, y,1 =[u,v,1] 0 1 0  
[
]
Tu Tv 1  
Quay (Rotation)  
Gi θ là góc quay , dng biu din ca phép quay là :  
18  
cosθ sinθ 0  
x, y,1 =[u,v,1] sinθ cosθ 0  
[
]
0
0
1
Biến đổi tl(Scale)  
Gi Su , Sv là các hstltương ng vi u và v , dng biu din ca  
phép biến đổi tllà :  
S 0 0  
u
x, y,1 = [u,v,1] 0 S 0  
[
]
v
0 0 1  
Kéo xiên (Shear)  
Gi Hu hskéo xiên theo phương trc hoành , dng biu din ca phép  
kéo xiên theo phương trc hoành có dng :  
1 H 0  
u
x, y,1 = [u,v,1] 0 1 0  
[
]
0 0 1  
Gi Hv hskéo xiên theo phương trc tung , dng biu din ca phép  
kéo xiên theo phương trc tung có dng :  
19  
1 0 0  
x, y,1 = [u,v,1] H 1 0  
[
]
v
0 0 1  
2.2.2 Biến đổi phi cnh (Perspective transformation)  
Dng biu din tng quát ca phép biến đổi phi cnh là :  
a a a  
13   
11  
12  
x', y', w' =[u, v, w] a a a  
[
]
21  
22  
23  
a31 a32 a33  
x'  
y '  
x =  
y =  
Vi :  
,
w'  
w'  
Từ đó suy ra :  
a11u + a21v + a31  
w' a13u + a23v + a33  
x'  
x = =  
a12u + a22v + a32  
w' a13u + a23v + a33  
y '  
y = =  
20  
Hình 2.6 : Phép biến đổi phi cnh  
2.3 Video , video tương t, video số  
Vic theo vết đối tượng được thc hin trên dliu video , chính xác là  
trên dliu video s, nên hiu rõ vdng dliu này là điu cn thiết .  
2.3.1 Video  
Thut ngvideo dùng để chngun thông tin hình nh trc quan  
(pictorial visual information) , bao gm mt chui các nh tĩnh (still image)  
liên tiếp nhau , được sp xếp theo chiu thi gian . Video còn được gi là  
nh thay đổi theo thi gian (time-varying image) , kí hiu là s( x1 , x2 , t ) ,  
trong đó x1 , x2 là các biến chvtrí trong không gian , còn t là biến thi gian  
. Mt nh tĩnh là mt phân bcường độ theo không gian và phân bnày là  
không đổi theo thi gian . Trong khi nh thay đổi theo thi gian là mt phân  
21  
bcường độ theo ckhông gian ln thi gian . Xét vmt vt lý , cp thp  
nht , video tn ti dưới dng các tín hiu .  
Tín hiu là mt hàm cha đựng thông tin [3] , hay nói mt cách khác , tín  
hiu là mt mô tchi tiết sphthuc ca mt tham snày vào mt tham số  
khác [2] . Nếu min giá trca 2 tham snày là liên tc thì tín hiu được gi  
là tương t, nếu min giá trlà ri rc thì tín hiu được gi là ri rc hay gi  
được shóa . Cũng có nhng trường hp , min giá trca tham snày là  
ri rc , ca tham skia li là liên tc , nhưng nhng trường hp này rt  
hiếm khi xy ra và tín hiu lúc đó cũng không có mt cách gi tng quát nào  
. Hu hết các tín hiu tương txut hin trong thế gii tnhiên , còn các tín  
hiu ri rc (s) thì xut hin trong thế gii máy tính . Cn nhn mnh là  
máy tính chhiu được các tín hiu đã được shóa .  
Ban đầu video được thu nhn , lưu trvà truyn dn dưới dng tương t.  
Nhng năm gn đây , sphát trin mnh mca công nghphn cng ,  
công nghxnh , cùng vi nhng ưu đim ni bt ca định dng số  
đang hướng người sdng đến vi video s.  
2.3.2 Video tương t(analog video)  
Tín hiu tương tlà tín hiu đin tmt chiu biến đổi theo thi gian , kí  
hiu là f(t) . Cho mt nh biến đổi theo thi gian dng tương t(tương  
ng vi hình nh trong tnhiên) , kí hiu là sc( x1 , x2 , t) . Tín hiu video  
tương tthu được bng cách ly mu sc( x1 , x2 , t) theo chiu dc x2 và  
chiu thi gian t . Tiến trình ly mu được thc hin theo chu kì và được gi  
là tiến trình quét (scanning) . Phương pháp quét thường được sdng nht là  
22  
quét liên tiếp (progressive scanning) và quét luân phiên (interlaced  
scanning).  
Trong phương pháp quét liên tiếp , csau mt khong thi gian t , vic  
quét li được thc hin trên toàn nh (hình 1.1) . Phương pháp này thường  
được sdng đối vi các màn hình có độ phân gii và tn squét cao .  
Hình 2.7 : Phương pháp quét liên tc  
Trong phương pháp quét luân phiên , csau mt khong thi gian t/2 ,  
vic quét li được thc hin trên các dòng hoc là chn , hoc là l, nếu ở  
ln quét trước là dòng chn thì ln quét này là dòng lvà ngược li (hình  
2.2) . Phương pháp này thường được sdng đối vi các màn hình có độ  
phân gii và tn squét thp  
Hình 2.8 : Phương pháp quét luân phiên  
23  
Các thông skĩ thut quan trng ca tín hiu video tương tđộ phân  
gii theo chiu dc (vertical resolution) , tlkích thước (aspect ratio) và tn  
slàm tươi (refresh rate) . Tlkích thước là tlgia chiu ngang và chiu  
dc . Tn slàm tươi là slượng frame chiếu trong 1 giây .  
trên là trường hp tín hiu video đơn sc (monochromatic video signal)  
. Ta có thmrng ra cho trường hp tín hiu video nhiu màu sc . Theo  
Lý thuyết ba tác nhân ca màu sc (tri-stimulus theory of color) , mi màu  
sc đều có thể được tái to bng cách kết hp 3 màu nguyên t: đỏ (red – R)  
, xanh dương (blue – B) và xanh lá cây (green – G) , theo mt tlthích hp  
. Hình nh nhiu màu sc sẽ được to bng cách chng 3 lp tương ng vi  
3 màu nguyên tlên nhau .  
Hin nay , có nhiu chun video tương t(analog video standards) đang  
được sdng , chúng khác nhau vcác tham shình nh (chng hn như độ  
phân gii theo không gian và thi gian) và cách xlý màu sc . Các chun  
này có thể được phân thành 3 nhóm :  
Video tương tự đa thành phn (component analog video – CAV)  
Video tng hp (composite video)  
S-video  
Trong trường hp video tương tự đa thành phn , các đơn vcu thành  
tín hiu video được phân chia thành các tín hiu video đơn sc riêng bit .  
Các đơn vnày có thể đơn gin là 3 màu nguyên t: đỏ , xanh dương , xanh  
lá cây , hoc được biến đổi thành dng biu din độ sáng – màu sc  
(luminance – chrominance) . Thành phn luminance (kí hiu là Y) thhin  
các mc xám (gray level) ca video , và được tính t3 màu nguyên tnhư  
sau :  
24  
Y = 0.30R + 0.59G + 0.11B  
Thành phn chrominance cha đựng thông tin vmàu sc . ng vi mi  
chun , thành phn chrominance li có cách biu din khác nhau , chng hn  
như :  
Thành phn chrominance được biu din thành I , Q , vi :  
I = 0.60R + 0.28G – 0.32B  
Q = 0.21R – 0.52G + 0.31B  
Hoc thành phn chrominance được biu din thành Cr , Cb , vi :  
Cr = R – Y  
Cb = B – Y  
Trong thc tế , tín hiu video vi cách cu to đa thành phn to ra cht  
lượng màu sc tt nht . Tuy nhiên , điu này đòi hi quá trình truyn dn  
các thành phn phi được đồng bhóa chính xác , đồng thi băng thông  
cũng phi tăng lên gp ba ln so vi tín hiu đơn sc .  
Trong trường hp video tng hp , tín hiu video được định dng theo  
hình thc : các thành phn chrominance được mã hóa vào đầu thành phn  
luminance , hp thành mt tín hiu duy nht . Điu này giúp tiết kim băng  
thông và đơn gin hóa quá trình truyn dn tín hiu . Các định dng video  
tng hp phbiến hin nay là NTSC (National Television System  
Committee hay Never Twice the Same Color) , PAL (Phase Alternating  
Line) , SECAM (Sequential Couleur Avec Memoire hay Sequential  
Chrominance Signal with Memory) . Chun NTSC được sdng phbiến ở  
khu vc Bc Mĩ và Nht Bn ; chun SECAM được sdng Pháp , Đông  
Âu , Liên Xô và vùng Trung Đông ; chun PAL được sdng khu vc hu  
hết các khu vc còn li , bao gm Tây Âu , Anh , Nam Mĩ , Châu Á .v.v…  
25  
Mt khuyết đim ca video tng hp là cht lượng màu sc to ra không  
tt . S–video là mt gii pháp trung hòa gia video tng hp và video đa  
thành phn .Tín hiu trong S–video được phân thành 2 bphn , mt cho  
thành phn luminance và mt cho các thành phn chrominance đã được tng  
hp li . Nhvy , cht lượng màu sc trong S–video tt hơn trong video  
tng hp đồng thi băng thông để truyn tín hiu S–video cũng tn ít hơn  
băng thông dùng cho video đa thành phn . Chun S–video hin đang được  
sdng rng rãi trong các máy ghi videocasette , máy quay phim .v.v…  
Vic thu nhn video tương tchyếu da trên công nghbăng t, trừ  
trường hp đĩa laser là sdng công nghquang hc .  
Vi video tương t, các hình nh trong thế gii tnhiên đã được thu  
nhn chính xác . Tuy nhiên , do bn cht ca nó , video tương tcung cp  
cho người dùng rt ít khnăng tương tác và xlý , chcó thể đơn gin như  
chuyn kênh TV hay quay ti quay lui , chiếu nhanh chiếu chm mt đon  
băng . Nhng năm gn đây , sphát trin mnh mca công nghphn  
cng , nhng tiến btrong công nghxnh và nht là nhng ưu đim  
ni bt ca định dng số đang hướng người sdng đến vi video s. Trong  
thế gii s, tn dng sc mnh ca máy tính , ta có thddàng thu nhn ,  
lưu tr, biên tp , xlý và trao đổi hình nh video .  
2.3.3 Video số  
Để được tín hiu video , tương t(analog) hay s(digital) , cn phi  
thc hin vic ly mu nh sc( x1 , x2 , t) theo cchiu không gian và thi  
gian . Đối vi video tương t, vic ly mu được thc hin theo chiu dc  
26  

Tải về để xem bản đầy đủ

pdf 76 trang yennguyen 18/06/2025 530
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Sử dụng lưới hai chiều để theo vết đối tượng trong video", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_su_dung_luoi_hai_chieu_de_theo_vet_doi_tuong_trong.pdf