Khóa luận Chuỗi đặc trưng âm thanh và ứng dụng trong tìm kiếm nhạc số

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Bùi Thanh Xuân  
CHUI ĐẶC TRƯNG ÂM THANH VÀ NG DNG  
TRONG TÌM KIM NHC SỐ  
KHÓA LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI – 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Bùi Thanh Xuân  
CHUI ĐẶC TRƯNG ÂM THANH VÀ NG DNG  
TRONG TÌM KIM NHC SỐ  
KHÓA LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: TS. Nguyn Hi Châu  
HÀ NI – 2009  
LI CM ƠN  
Trong thi gian qua, để tìm hiu và hoàn thành khóa lun tt nghip này tôi đã  
nhn được nhiu sgiúp đỡ tgia đình, thy cô và bn bè.  
Tôi xin được bày tlòng biết ơn chân thành đến các thy cô giáo trường Đại  
Hc Công Nghệ đã dy dtôi trong sut bn năm hc va qua. Đặc bit, tôi xin  
được gi li cm ơn chân thành đến TS. Nguyn Hi Châu, người đã giúp tôi la  
chn đề tài, hướng dn tìm tài liu, đưa ra nhng nhn xét quan trng và sa cha sai  
sót giúp tôi trong quá trình tôi thc hin đề tài.  
Tôi cũng xin được gi li cm ơn đến nhng người bn đã luôn quan tâm giúp  
đỡ tôi, chia snhiu kinh nghim hay vi tôi trong quá trình hc tp và làm vic.  
Cui cùng, tôi xin được gi li cm ơn sâu sc đến gia đình tôi, nhng người đã  
luôn bên cnh cvũ, động viên tôi, to mi điu kin tt nht giúp tôi hoàn thành tt  
khóa lun này.  
TÓM TT NI DUNG  
Nhng năm gn đây đã chng kiến sphát trin mnh mca khoa hc và  
ngành công nghip tính toán các đặc trưng ca các đối tượng đa phương tin. Khái  
nim chui đặc trưng âm thanh ra đời có ý nghĩa quan trng trong vic phát trin các  
ng dng liên quan đến âm thanh nhờ đó mang li rt nhiu tin ích cho cuc sng  
hin đại ca con người. Mt trong nhng ng dng ca chui đặc trưng âm thanh  
đang rt được quan tâm hin nay là nhn dng nhc s. Trên thế gii đã có rt nhiu  
ng dng vnhn dng nhc được phát trin vi các phương pháp khác nhau và thu  
được nhng kết qukhác nhau, song không phi tt ccác trong schúng đều trvề  
kết quchính xác. Trên cơ snghiên cu vchui đặc trưng âm thanh và nhng ng  
dng ca nó, khóa lun này hướng đến vic xây dng mt hthng nhn dng nhc  
rt tin ích vi người dùng cho phép trvthông tin chính xác ca mt bn nhc  
được chơi qua mt thiết bdi động chvi vài giây âm thanh. Khóa lun tt nghip  
này được thc hin trong khuôn khổ đề tài nghiên cu mang mã sQC.08.01 Đại  
hc Quc gia Hà Ni.  
MC LC  
LI MỞ ĐẦU...........................................................................................................1  
CHƯƠNG 1: TNG QUAN VCHUI ĐẶC TRƯNG ÂM THANH VÀ CÁC  
NG DNG .............................................................................................................3  
1.1 Gii thiu.........................................................................................................3  
1.2 Các khái nim chui đặc trưng âm thanh........................................................3  
1.2.1 . Định nghĩa chui đặc trưng âm thanh ...................................................3  
1.2.2 . Các tham sca hthng chui đặc trưng âm thanh.............................5  
1.3 Các ng dng ..................................................................................................6  
1.3.1 . Broadcast Monitoring (BM)...................................................................6  
1.3.2 . ng dng liên thông âm thanh...............................................................6  
1.3.3 . Công nghlc chia sfile ......................................................................7  
1.3.4 . Tchc thư vin âm nhc tự động.........................................................8  
CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÂY DNG VÀ TÌM KIM CHUI ĐẶC  
TRƯNG ÂM THANH..............................................................................................9  
2.1. Nguyên tc cơ bn xây dng hthng chui đặc trưng âm thanh.................9  
2.2. Các phương pháp xây dng và tìm kiếm chui đặc trưng trong ng dng nhn  
dng nhc.............................................................................................................10  
2.2.1. Phương pháp xây dng hthng chui đặc trưng mnh.......................10  
2.2.1.1. Trích rút chui đặc trưng ................................................................10  
2.2.1.2. Tìm kiếm chui đặc trưng trong cơ sdliu ...............................16  
2.2.2. Phương pháp xây dng và tìm kiếm chui đặc trưng da trên waveprint  
..........................................................................................................21  
2.2.2.1. Trích rút chui đặc trưng ................................................................21  
2.2.2.2. Tìm kiếm chui đặc trưng...............................................................25  
CHƯƠNG 3: NG DNG THNGHIM .........................................................27  
3.1. Phát biu bài toán.........................................................................................27  
3.2. Tng quan hthng .....................................................................................27  
3.2.1. Mô tâm thanh và trích rút chui đặc trưng ........................................28  
3.2.2. Tìm kiếm chui đặc trưng phù hp.......................................................29  
3.3. Thc thi chương trình ..................................................................................31  
3.4. Đánh giá hiu quca ng dng thnghim..............................................32  
3.4.1. Cài đặt thnghim................................................................................32  
3.4.2. Hiu quca hthng...........................................................................33  
KT LUN.............................................................................................................36  
TÀI LIU THAM KHO ......................................................................................37  
LI MỞ ĐẦU  
Trong thc tế có khi chúng ta sgp phi mt tình hung thế này: bn đang  
ngi trong xe ô tô nghe radio, đang trên xe bus hoc trong quán cà phê nghe nhc và  
bng nhiên bn nghe được mt bài hát rt thu v. Đó là bài hát mi rt hay mà bn  
tng được nghe sau mt khong thi gian dài, nhưng bn đã blmt phn thông tin  
vbài hát và không nhn ra nghsĩ đang biu din bài hát đó. Mc dù vy bn vn  
mun biết mt sthông tin vbn nhc này. Khi đó bn nên làm gì? Bn có thgi  
đến đài phát thanh để hi hay hi nhng người xung quanh nhưng đôi khi điu đó  
hơi bt tin. Nếu bn có thnhn mt vài phím trên đin thoi di động và vài giây  
sau đin thoi strli cho bn tên ca nghsĩ và tên ca bn nhc mà bn đang  
nghe thì có phi tt hơn không? Thm chí có thcó mt email sẽ được gi đến hòm  
thư ca bn vi mt vài thông tin được bsung thêm.  
Xut phát tnhu cu thiết thc đó, nhiu phn mm nhn dng nhc kiu này  
da trên các công nghkhác nhau đã ra đời tuy nhiên không nhiu trong số đó đáp  
ng tt mong mun ca người dùng và trnên phbiến.  
Trong khóa lun này stho lun vhthng chui đặc trưng âm thanh – mt  
nn tng quan trng có thgiúp to ra vin cnh như chúng ta va đề cp bên trên.  
Bng cách sdng chui đặc trưng (fingerprint) ca mt đon âm thanh chưa biết  
như mt truy vn trong cơ sdliu chui đặc trưng, cơ sdliu này cha các  
chui đặc trưng ca mt thư vin rt nhiu bài hát, và khi đó đon âm thanh có thể  
được xác định. Đim ct lõi ca vn đề được trình bày là phương pháp trích rút chui  
đặc trưng và chiến lược tìm kiếm chui đặc trưng rt hiu qu, nó cho phép tìm kiếm  
mt cơ sdliu chui đặc trưng ln chvi nhng tài nguyên tính toán gi hn.  
Khóa lun gm ba chương:  
Chương 1: Tng quan vchui đặc trưng âm thanh và các ng dng. Chương  
này trình bày mt cách tng quan nht nhng khái nim cơ bn liên quan đến chui  
đặc trưng âm thanh và nhng ng dng phbiến ca chui đặc trưng âm thanh.  
Chương 2: Các phương pháp xây dng và tìm kiếm chui đặc trưng âm thanh.  
Trình bày hai phương phát trích rút và tìm kiếm chui đặc trưng âm thanh phbiến  
hin nay trong các ng dng nhn dng nhc là phương pháp xây dng chuôi đặc  
trưng mnh và phương pháp xây dng chui đặc trưng da trên wavelet  
1
Chương 3: ng dng thnghim. Chương này trình bày mt ng dng cthể  
ca chui đặc trưng âm thanh trong mt lĩnh vc đang rt được quan tâm hin nay đó  
là nhn dng nhc s. Trong này smô tkhái quát vchương trình thnghim ca  
ng dng nhn dng nhc và nhng kết quả đạt được  
2
CHƯƠNG 1: TNG QUAN VCHUI ĐẶC TRƯNG ÂM  
THANH VÀ CÁC NG DNG  
1.1 Gii thiu  
Chui đặc trưng âm thanh là mt tp các thuc tính ca âm thanh được dùng để  
xác định các dng khác nhau ca âm thanh bao gm âm nhc, phát thanh radio và các  
tác động khác ti âm thanh. Mc tiêu đầu tiên ca chui đặc trưng âm thanh là thiết  
lp trng thái bng nhau ca hai đối tượng âm thanh: không phi bng cách so sánh  
chính hai đối tượng đó mà bng cách so sánh nhng chui đặc trưng liên kết ca nó.  
Trong hu hết các hthng sdng công nghchui đặc trưng, các chui đặc trưng  
ca mt slượng ln các đối tượng âm thanh cùng vi siêu dliu (ví dtên ca  
nghsĩ, tên album) được lưu trtrong mt cơ sdliu. Các chui đặc trưng đáp  
ng như mt chmc đến siêu dliu. Siêu dliu ca ni dung âm thanh chưa  
được xác định sau đó sẽ được phc hi li bng cách tính toán mt chui đặc trưng  
và sdng nó như truy vn trong cơ sdliu chui đặc trưng/siêu dliu. Ưu đim  
ca vic sdng chui đặc trưng thay cho chính đối tượng âm thanh là:  
1. Gim bt yêu cu bnhlưu trvì các chui đặc trưng tương đối nh.  
2. So sánh hiu quvì skhông đồng đều được loi bbi chui đặc trưng.  
3. Tìm kiếm hiu quvì tp dliu (dataset) để tìm kiếm là nhhơn.  
Vì nhng kết lun trên mt hthng chui đặc trưng nói chung bao gm hai  
thành phn: mt phương pháp để trích ra chui đặc trưng và mt phương pháp để tìm  
kiếm hiu qunhng chui đặc trưng phù hp trong cơ sdliu chui đặc trưng.  
1.2 Các khái nim chui đặc trưng âm thanh  
1.2.1. Định nghĩa chui đặc trưng âm thanh  
Độ hi tưởng (recall) mt chui đặc trưng âm thanh có thể được xem như mt  
tóm tt ngn ca mt đối tượng âm thanh. Vì thế mt hàm chui đặc trưng F ánh xạ  
(map) mt đối tượng âm thanh X – bao gm mt slượng ln các bit – đến chui  
đặc trưng chgm mt slượng bit gii hn.  
Ở đây chúng ta có ththy stương tvi các hàm băm đã được biết đến trong  
công nghmã hóa. Mt hàm băm mt mã H rút ra tmt đối tượng X (thường là  
3
ln) thành giá trbăm (thường là nh). Mt hàm băm mt mã cho phép so sánh hai  
đối tượng X và Y bng cách so sánh các giá trbăm tương ng là H(X) và H(Y). Sự  
bng nhau chính xác vmt toán hc ca cp H(X), H(Y) đưa đến sbng nhau ca  
cp X và Y vi xác xut xy ra li rt thp. Đối vi hàm băm mt mã được xây dng  
hp lthì xác xut này là 2-n, trong đó n bng sbit ca giá trbăm. Sdng các  
hàm băm mt mã là mt phương pháp hiu quhin có để kim tra các dliu cthể  
ca mc X có cha trong tp dliu ln được đưa ra là Y = {Y } hay không. Thay  
i
vì lưu trvà so sánh vi tt cdliu trong Y thì chcn lưu trthành tp các giá trị  
băm {hi = H(Yi ) } và so sánh H(X) vi tp các giá trbăm.  
Nếu như thế có thta nghĩ rng các hàm băm mt mã là mt ng ctt cho các  
hàm chui đặc trưng. Tuy nhiên vi độ hi tưởng được gii thiu bên trên, thay vì sự  
bng nhau chính xác vmt toán hc, chúng ta quan tâm đến đặc đim tương tnhau.  
Ví d, cht lượng ca bn CD gc ca Rolling Stones-Angie và bn MP3 tc độ  
128Kb/s ging nhau vi cơ quan thính giác ca con người nhưng sóng ca chúng có  
thkhá là khác nhau. Mc dù hai bn nhc đó có cm giác là ging nhau nhưng về  
mt toán hc chúng khác nhau. Vì thế các hàm băm mt mã không thể đưa ra quyết  
định da trên sbng nhau trc giác ca hai bn đó.  
Mt câu hi khác được đặt ra là: “Có thto ra mt hàm chui đặc trưng mà  
cung cp các chui đặc trưng bng nhau cho nhng đối tượng ging nhau vmt  
cm giác không?” Câu hi là rt hp lý nhưng câu trli là mô hình cho sging  
nhau cm giác vcơ bn là không thc hin được. Sging nhau cm giác ca cp  
đối tượng X và Y và cp đối tượng khác Y và Z không nht thiết bao hàm sging  
nhau ca cp đối tượng X và Z.  
Vic đưa ra nhng lý ltrên mc đích là đề xut cách xây dng mt hàm chui  
đặc trưng theo cách mà các đối tượng âm thanh ging nhau vmt cm giác đưa đến  
kết qulà nhng chui đặc trưng ging nhau. Hơn na, để có thphân bit gia  
nhng đối tượng âm thanh khác nhau, phi có xác xut mà các đối tượng âm thanh  
không ging nhau đưa đến nhng chui đặc trưng không ging nhau là rt cao.  
Chính xác hơn, cho hàm chui đặc trưng F đã được xây dng, đim bt đầu T vi  
xác xut ln ||F(X)-F(Y)|| T nếu các đối tượng X và Y là ging nhau và ||F(X)-  
F(Y)|| > T khi chúng khác nhau.  
4
1.2.2. Các tham sca hthng chui đặc trưng âm thanh  
Bên trên ta đã có mt định nghĩa thích hp ca chui đặc trưng âm thanh, phn  
này trình bày vcác tham skhác nhau ca mt hthng chui đặc trưng âm thanh.  
Các tham schính là:  
Độ mnh (Robustness): Liu mt đon âm thanh vn có thể được xác định  
sau khi tín hiu bsuy biến mnh không? Để đạt được độ mnh cao chui  
đặc trưng nên da trên cơ snhng đặc đim thuc tri giác không đổi (ít  
nht là đến mt mc độ nào đó) vi ssuy biến ca tín hiu. Tt nht là âm  
thanh bsuy biến vn đưa đến nhng chui đặc trưng rt ging nhau. Tlệ  
phủ định sai (false negative rate) nói chung được dùng để din đạt độ mnh.  
Độ tin cy (Reliability): Bao lâu mt ln thì mt bài hát bnhn dng sai?  
Ví d“Rolling Stones – Angie” bnhn dng là “Beatles – Yesterday”. Tỷ  
lmà ti đó tham snày được chra thường được tham chiếu đến như là tỷ  
lkhng định sai.  
Cchui đặc trưng (Fingerprint size): mt chui đặc trưng cn dung  
lượng lưu trlà bao nhiêu? Để có thtìm kiếm nhanh, các chui đặc trưng  
thường được lưu trong bnhRAM. Vì thế cca chui đặc trưng, thường  
được biu din bng bit/giây hoc bit/bài hát, xác định độ ln ca tài nguyên  
bnhcn cho server cơ sdliu chui đặc trưng.  
Granularity: Cn bao nhiêu giây âm thanh để nhn ra mt đon âm thanh?  
Granularity là mt tham scó thphthuc vào tng ng dng cth.  
Trong mt vài ng dng thì toàn bbài hát có thể được dùng để nhn dng,  
trong nhng ng dng khác thì chmt đon trích ngn ca âm thanh được  
dùng để xác định.  
Tc độ tìm kiếm và khnăng mrng (Search speed and scalability):  
Mt bao lâu để tìm ra mt chui đặc trưng trong cơ sdliu chui đặc  
trưng? Phi làm gì nếu cơ sdliu cha hàng trăm nghìn bài hát? Đối vi  
strin khai vmt thương mi ca các hthng chui đặc trưng âm thanh,  
tc độ tìm kiếm và khnăng mrng ca hthng là yếu tthen cht. Tc  
độ tìm kiếm nên là khong mili giây cho cơ sdliu cha khong 100000  
bài hát và chsdng ngun tài nguyên tính toán gii hn  
Năm tham scơ bn này có nh hưởng ln nhau. Ví d, nếu mt ng dng  
mun granularity thp hơn thì nó cn trích ra mt chui đặc trưng ln hơn để thu  
5
được cùng độ tin cy. Điu này là vì tlkhng định sai nghch đảo liên quan đến cỡ  
chui đặc trưng. Mt ví dkhác: tc độ tìm kiếm nói chung stăng lên khi mt ng  
dng được xây dng vi chui đặc trưng mnh (robust) hơn. Điu này là vì tìm kiếm  
chui đặc trưng là phép tìm kiếm xp x. Gismt chui đặc trưng tương tva  
được tìm thy, nếu các thuc tính càng mnh hơn thì độ xp xcàng nhhơn. Vì thế  
tc độ tìm kiếm có thể được tăng lên đáng k.  
1.3 Các ng dng  
1.3.1. Broadcast Monitoring (BM)  
BM hu như ng dng ni tiếng nht ca chui đặc trưng âm thanh. BM là  
gii pháp phù hp để dò tìm, giám sát các bài hát, các qung cáo và kim tra các  
chương trình phát thanh. Nó đề cp đến vic to ra danh sách (playlist) tự động ca  
radio, ti vi hoc truyn hình web, truyn hình vtinh, trong số đó mc đích là tp  
hp tin bn quyn, kim tra chương trình, kim tra qung cáo và đo sngười sử  
dng. Khi bn cn giám sát hai đài phát hoc thm chí hai nghìn đài phát, hthng sẽ  
cung cp nhng danh sách (playlist) và các bn báo cáo cùng các chdn kthut  
phù hp.  
Mt hthng BM quy mô ln trên nn tng chui đặc trưng bao gm vài site  
giám sát (monitoring ) và mt site trung tâm nơi mà server chui đặc trưng được  
đặt. các site monitoring các chui đặc trưng được rút ra ttt ccác kênh truyn  
thanh truyn hình (cc b). Site trung tâm thu thp các chui đặc trưng đó tcác site  
monitoring. Ri sau đó, server chui đặc trưng – cha mt cơ sdliu chui đặc  
trưng khng l- cung cp các playlist cho tt ccác kênh truyn thanh và truyn  
hình đó.  
1.3.2. ng dng liên thông âm thanh  
ng dng liên thông âm thanh là thut ngchung cho nhng ng dng tiêu  
dùng mà ở đó âm nhc được kết ni theo cách này hay cách khác để đưa ra và htrợ  
thông tin. Mt ví dụ đã được đưa ra trong phn trên là sdng mt đin thoi di  
động để xác định mt bài hát. Trong thc tế công vic này hin đang được tiếp tc  
thc hin bi mt scông ty như Shazam, Yacast. Tín hiu âm thanh trong ng dng  
này bsuy biến trlên rt xu bi vì quá trình xlý áp dng đài phát thanh, truyn  
trên FM/AM, đường dn âm thanh gia loa phóng thanh và micro ca đin thoi di  
6
động, mã hóa âm thanh và cui cùng truyn trên mng di động. Vì thế nhìn nhn về  
mt công nghthì đây là 1 ng dng đầy thách thc.  
Nhng ví dkhác về ứng dng liên thông âm thanh là radio ca ô tô vi mt  
nút để nhn dng bn nhc đang nghe hoc các ng dng “nghe” lung âm thanh vào  
hoc ra trên mt máy tính. Bng cách nhn vào nút “info” trong ng dng chui đặc  
trưng, người dùng có thể điu hướng đến mt trang trên Internet cha thông tin về  
nghsĩ biu din, tên bài hát, tên album. Hoc nhn vào nút “buy” người dùng có thể  
mua album trên Internet. Nói cách khác, chui đặc trưng âm thanh có thcung cp  
mt hthng liên kết chung cho tt cnhng ni dung âm thanh.  
1.3.3. Công nghlc chia sfile  
Ví dụ đin hình cho công nghlc để chia sfile là Napster. Bt đầu vào tháng  
6 năm 1999, người dùng ti vNapster client có thchia svà ti về được mt bộ  
sưu tp nhc min phí rt ln. Sau đó, vì vn đề pháp lý trong ngành công nghip âm  
nhc, người dùng Napster bcm ti vnhng bài hát có bn quyn. Vì thế vào tháng  
3 năm 2001 Napster thiết lp mt blc âm thanh trên cơ slà tên file để ngăn cn  
vic ti nhng bài hát có bn quyn (sdng công nghlc da trên văn bn để lc  
tên các bài hát). Blc đó không hiu qu, bi vì người dùng bt đầu cý viết sai  
chính ttên file. Vào tháng 5 năm 2001 Napster gii thiu hthng chui đặc trưng  
âm thanh bi Relatable, nó hướng vào vic lc ra nhng thành phn có bn quyn  
da trên ni dung âm thanh vì thế thm chí nếu chúng có bviết sai chính tthì vn  
bnhn ra. Napster bkhai tchhai tháng sau đó.  
Trong mt dch vchia sfile hp pháp ng dng có tháp dng lên lch lc  
chi tiết hơn là vic chlc được nhng thành phn có bn quyn.  
Mc dù tquan đim ca mt người tiêu dùng, blc âm thanh có thể được  
xem như mt công nghkhông được mong đợi nhưng cũng có mt sli ích tim  
năng đối vi người tiêu dùng. Đầu tiên nó có thtchc tên ca các bài hát trong  
các kết qutìm kiếm theo mt cách phù hp bng cách sdng siêu dliu đáng tin  
cy ca cơ sdliu chui đặc trưng. Thhai, chui đặc trưng có thể đảm bo rng  
nhng bài hát được ti vthc slà nhng bài hát được mong đợi.  
7
1.3.4. Tchc thư vin âm nhc tự động  
Ngày nay nhiu người dùng máy tính có mt thư vin âm nhc cha vài trăm  
đôi khi thm chí là vài nghìn bài hát. Các bn nhc nói chung được lưu trtrong định  
dng nén (thường là MP3) trong cng ca h. Bi vì nhng bài hát này thu được từ  
nhiu ngun khác nhau, như xao chép từ đĩa CD hoc ti vtcác mng chia sfile,  
nên nhng thư vin này thường không được tchc tt. Siêu dliu thường không  
thng nht, không đầy đủ đôi lúc thm chí còn không đúng. Giscơ sdliu  
chui đặc trưng cha các siêu dliu đúng, chui đặc trưng âm thanh có thto nên  
siêu dliu ca các bài hát trong mt thư vin đồng nht, cho phép tchc sp xếp  
ddàng trên cơ sở đó, ví dtheo album hay theo nghsĩ. Ví d, ID3Man – mt công  
cmnh được phát trin bi kthut chui đặc trưng Auditude để to nhãn các file  
MP3 không gán nhãn hay nhãn sai. Mt công ctương tlà Moodlogic sn có như  
mt plug-in trong Winamp.  
8
CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÂY DNG VÀ TÌM KIM  
CHUI ĐẶC TRƯNG ÂM THANH  
2.1. Nguyên tc cơ bn xây dng hthng chui đặc trưng âm thanh  
Các chui đặc trưng âm thanh có khuynh hướng gily nhng đặc đim có liên  
quan đến tri giác ca âm thanh. Vic rút ra và tìm kiếm các chui đặc trưng cùng mt  
lúc nên được thc hin nhanh chóng và ddàng, tt nht là vi mt granularity (độ  
dài ca đon âm thanh truy vn) nhỏ để cho phép sdng trong các ng dng đòi hi  
cao (ví dvic nhn dng qua đin thoi di động). Chúng ta sẽ đưa ra mt vài câu  
hi cơ bn trước khi bt đầu xây dng và thc thi chui đặc trưng âm thanh. Câu hi  
dthy nht là: nhng loi thuc tính nào phù hp nht? Trong nhng tài liu được  
công bhin có thì tp các thuc tính có liên quan nói chung được chia làm hai lp:  
lp các thuc tính ngnghĩa và lp các thuc tính phi ngnghĩa. Các yếu tố đin  
hình trong lp thuc tính ngnghĩa là loi (genre), snhp trên phút (beats-per-  
minute), và điu (mood). Nhng loi thuc tính này thường có thhiu trc tiếp, và  
trên thc tế được dùng để phân loi nhc, to ra các danh sách. Lp thuc tính phi  
ngnghĩa bao gm các thuc tính có tính cht toán hc hơn và con người khó có thể  
đọc” trc tiếp ra tbn nhc. Yếu tố đin hình trong lp này là AudioFlatness được  
đề xut trong MPEG-7 như mt tp các kí hiu mô tâm thanh. Dưới đây strình  
bày mt vài lý do để chúng ta nên chn làm vic vi các thuc tính phi ngnghĩa:  
Các thuc tính ngnghĩa luôn luôn có nghĩa mp mvà không rõ ràng. Ví  
dnhng người có sthích khác nhau thì có quan đim khác nhau đối vi  
vic phân loi. Ngoài ra, trên thc tế ngnghĩa có ththay đổi theo thi  
gian. Ví d, âm nhc được phân loi như cách đây 25 năm là hard rock thì  
ngày nay được coi là soft listening. Điu này làm cho vic phân tích toán  
hc trnên khó khăn.  
Các thuc tính ngnghĩa nói chúng khó tính toán hơn các thuc tính phi  
ngnghĩa.  
Các thuc tính ngnghĩa không thích hp vi tt c. Ví d, snhp trên  
phút không tháp dng tiêu biu cho nhc cổ đin được.  
Câu hi thhai được đưa ra là sbiu din ca các chui đặc trưng. Mt dng  
đin hình là ta có thbiu din nó như mt vectơ các sthc, trong đó mi thành  
9
phn biu thtrng lượng (weight) ca thuc tính thuc tri giác cơ bn nào đó. Quan  
đim thhai là ngăn cn tiến gn hơn đến các hàm băm mã hóa và biu din các  
chui đặc trưng snhư nhng xâu bit. Vì lý do gim độ phc tp tìm kiếm chúng ta  
quyết định làm vic vi quan đim thhai. Theo quan đim đầu tiên thì vic đo độ  
ging nhau có dính dáng đến các phép cng/trcác sthc thm chí có thlà các  
phép nhân sthc. Các chui đặc trưng da trên cơ sbiu din bi các bit có thể  
được so sánh bng cách đơn gin là đếm các bit. Khi đưa ra vin cnh nhng ng  
dng được mong đợi, chúng ta không mong mun robustness cao cho mi ng dng  
và mi bit trong chui đặc trưng nhphân. Vì thế, trái ngược vi các hàm băm mt  
mã mà đin hình có ti đa vài trăm bit, chúng ta scho phép các chui đặc trưng có  
vài nghìn bit. Các chui đặc trưng cha slượng bit ln cho phép nhn dng tin cy  
thm chí nếu tlphn trăm ca các bit không phù hp là khá cao.  
Câu hi cui cùng liên quan đến granularity ca các chui đặc trưng. Trong các  
ng dng mà chúng ta vch ra không đảm bo rng các file âm thanh cn nhn dng  
được hoàn thành xong. Ví d, trong BM, bt kkhong thi gian 5 giây nào cũng là  
mt đơn vâm nhc có giá trthương mi, và vì thế có thể được xác định và được  
nhn ra. Ngoài ra trong các ng dng vbo mt như vic lc file trên mng ngang  
hàng (peer-to-peer), mt ng dng skhông mong mun vic xóa bvài giây đầu  
tiên ca mt file âm thanh sngăn cn vic nhn dng. Vì thế trong công vic này  
chúng ta chp nhn cách gii quyết ca lung chui đặc trưng bng cách chia thành  
nhng chui đặc trưng con (sub-fingerprint) là nhng khong thi gian nguyên tử đủ  
nh(chỉ đến frame). Nhng chui con này có thkhông đủ ln để tchúng xác định  
các frame, nhưng mt khong thi gian dài hơn – cha đủ nhiu frame – scho phép  
nhn dng chc chn và mnh m.  
2.2. Các phương pháp xây dng và tìm kiếm chui đặc trưng trong ng dng  
nhn dng nhc.  
Phn này chúng ta stìm hiu hai phương pháp xây dng và tìm kiếm chui đặc  
trưng dùng trong nhn dng nhc tiêu biu hin nay.  
2.2.1. Phương pháp xây dng hthng chui đặc trưng mnh  
Phương pháp này được phát trin bi Jaap Haitsma và Ton Kalker.  
2.2.1.1. Trích rút chui đặc trưng  
a) Thut toán trích chn  
10  
Kế hoch trích chn chui đặc trưng được đề xut trong phương pháp này da  
trên cơ sphương pháp lung nói chung. Nó rút ra nhng chui đặc trưng con 32 bit  
cho mi khong thi gian 11.6 mili giây. Mt khi chui đặc trưng bao gm 256  
chui con ni tiếp nhau, tương ng vi granularity ch3 giây. Mt qui trình tng  
quan được biu din hình 2. Tín hiu âm thanh đầu tiên được chia đon vào các  
frame chng nhau (overlapping). Các frame chng có độ dài 0.37 giây và có trng  
lượng bng ca sHamming vi mt tha schng 31/32. Kết quca kế hoch này  
trong vic trích rút ca mt chui đặc trưng con cho mi 11.6 mili giây. Trong  
trường hp xu nht các ranh gii ca frames sdng trong vic nhn dng là 5.8  
mili giây vi chú ý là các ranh gii được dùng trong cơ sdliu ca các chui đặc  
trưng đã được tính toán trước. Schng lp ln đảm bo rng thm chí trong trường  
hp xu nht các chui đặc trưng con ca đon âm thanh được nhn dng vn ging  
các chui đặc trưng con ca nhng đon ging thế trong cơ sdliu. Vì schng  
lp ln các chui đặc trưng con tiếp sau có sging nhau nhiu và biến đổi rt chm  
theo thi gian. Hình 3a biu din mt ví dvkhi chui đặc trưng được rút ra và  
các đặc trưng biến đổi rt chm theo thi gian.  
Hình 1: Tng quan vquá trình trích chn chui đặc trưng.  
Các thuc tính âm thanh thuc tri giác quan trng nht nm trong min tn s.  
Vì thế mt sbiu din quang phổ được tính toán bi hiu qubiu din ca phép  
biến đổi Fourier trên mi frame. Vì độ nhy pha ca khai trin Fourier khác ranh gii  
ca frame và skin mà cơ quan thính giác ca con người (Human Auditory System  
– HAS) không nhy vi pha, chcó giá trtuyt đối ca phđược gili, ví dụ  
năng lượng mt độ ph.  
11  
Để mà rút ra giá trchui con 32 bit cho mi frame thì các di tn không chng  
cht 33 được chn. Nhng di tn này nm trong phm vi t300Hz đến 2000Hz  
(phm vi phcó liên quan nht đến HAS) và có mt khong cách logarit. Khong  
cách logarit được chn bi vì nó được biết đến bi HAS có tác dng trên nhng di  
tn xp xlogarit (vì thế được gi là thang Bark). Bng thc nghim di tn được  
kim tra skhác nhau ca tín hiu năng lượng (đồng thi theo thi gian và tn s) là  
thuc tính rt mnh ca nhiu loi quá trình xlý. Nếu chúng ta ký hiu năng lượng  
ca di tn m ca frame n là E(n,m) và m bit ca chui đặc trưng con ca frame là  
F(n,m), sbit ca chui con được xác định chính thc là (xem khi màu xám trong  
hình 2, chT là yếu ttr):  
1ifE(n,m) E(n,m +1) (E(n 1,m) E(n 1,m 1)) > 0  
F(n.m) =  
(2.1)  
0ifE(n,m) E(n,m +1) (E(n 1,m) E(n 1,m 1)) 0  
Hình 2: (a) Khi chui đặc trưng ca đon nhc gc  
(b) khi chui đặc trưng ca đon nhc đã bnén  
12  
(c) skhác nhau gia (a) và (b) thhin nhng bit li màu đen (BER=0.078)  
Hình 2 biu din mt ví dca 256 chui con 32 bit ni tiếp nhau (ví dvmt  
khi chui đặc trưng), trích ra theo cách trên tmt đon trích ngn ca bn “O  
Fortuna” ca Carl Orff. Bit ‘1’ tương ng vi đim nh trng và bit ‘0’ tương ng  
vi đim nh đen. Hình 2a và hình 2b biu din khi chui đặc trưng tương ng từ  
mt đĩa CD gc và mt bn MP3 nén (32Kbps) ca cùng mt đon trích. Lý tưởng  
thì hai hình này sẽ được xác định, nhưng vì vic nén mt vài bit được tìm li không  
đúng. Nhng bít li này được sdng như độ đo sging nhau cho chui đặc trưng  
ca chúng ta – được biu din bng màu đen trong hình 2c.  
Nhng tài nguyên tính toán cn cho thut toán được đề xut là có gii hn. Bi  
vì thut toán chỉ được tính toán vi âm thanh nhn được có tn sdưới 2kHz được  
ly mu ln đầu tiên thp xung tlung âm thanh đơn sc (mono) vi tc độ ly  
mu 5kHz. Các chui đặc trưng con được xây dng có khnăng chng li ssuy  
gim tín hiu. Hin ti các blc 16 nút FIR đang được sdng. Thao tác đòi hi  
tính toán kht khe nht là biến đổi Fourier ca mi frame âm thanh. Trong tín hiu  
âm thanh được ly mu mt frame độ dài 2048 mu. Nếu biến đổi Fourier được  
thc thi như mt đim cố định FFT giá trthc thut toán chui đặc trưng va nói  
chy hiu qutrên các thiết bcm tay như PDA hoc đin thoi di động.  
b) Phân tích khng định sai  
Hai tín hiu âm thanh 3 giây được trình bày ging nhau nếu khong cách  
Hamming (ví dsbit li) gia hai khi chui đặc trưng được suy ra thp hơn đim  
bt đầu T mt ít. Giá trị đim bt đầu T này xác định trc tiếp tlkhng định sai Pf ,  
ví dtlca tín hiu âm thanh không được trình bày trc tiếp bng: T nhhơn, xác  
xut Pf snhhơn. Mt khác, giá trT nhskhông nh hưởng đến xác xut phủ  
định sai P , ví dxác xut mà hai tín hiu ”bng nhau” nhưng không được xác định.  
n
Để phân tích sla chn đim bt đầu T, chúng ta gisrng quá trình xlý  
vic rút ra chui đặc trưng mang li các bit i.i.d ngu nhiên (i.i.d = independent and  
identically distributed độc lp và được phân btương tnhau). Sbit li sau đó sẽ  
có phân phi nhthc (n,p), trong đó n bng sbit được ly ra và p (=0.5) là xác xut  
mà bit 0 hoc 1 được rút được ly ra. Từ đó n (=8192=32*256) ln trong ng dng  
ca chúng ta, phân phi nhthc có thxp xbng phân phi thông thường vi mt  
giá trtrung bình μ = np độ lch chun σ = (np(1p)) . Đưa ra khi chui đặc  
trưng F , xác xut mà khi chui đặc trưng F2 được chn ngu nhiên có ít hơn  
1
13  
T = αn li vi F được đưa ra bi:  
1
2
1
1
(12α)  
Pf (α) =  
e1x / 2dx = erfc  
n
(2.2)  
(12α )  
n
2
2π  
2
Trong đó α là kí hiu ca tlbit li (Bit Error Rate – BER)  
Tuy nhiên, trong thc tế các chui đặc trưng có stương quan cao theo thi  
gian. Stương quan này không chlà vì stương quan thi gian vn có trong âm  
thanh mà còn bi schng lp ln ca các frame được dùng trong vic rút ra chui  
đặc trưng. Stương quan cao hơn kéo theo mt độ lch chun ln hơn, như biu din  
bi tham sdưới đây.  
Gis1 ngun đối xng {-1,1} vi xác xut có kí hiu xi xi+1 là ging nhau  
và bng q. Sau đó được biu din:  
E
[xi xi+k  
]
= a k  
(2.3)  
Trong đó a=2.q-1. Nếu ngun Z là độc nht hoc 2 chui X và Y, sau đó Z là  
đối xng và  
E
[zi zi+k  
]
= a2 k  
(2.4)  
Vi N ln, độ lch chun trung bình ZN trên N mu liên tiếp ca Z có thể được  
mô txp xbng phân phi thông thường vi giá trtrung bình 0 và độ lch chun  
bng:  
1+ a2  
N(1a2 )  
(2.5)  
Tha stương quan a gia các bit chui đặc trưng ni tiếp bao hàm stăng lên  
trong độ lch tiêu chun vì tlbit li (BER) bi tha s:  
1+ a2  
1a2  
(2.6)  
Để xác định phân phi ca BER vi nhng khi chui đặc trưng thc, mt cơ sdữ  
liu chui đặc trưng ca 10000 bài hát được to ra. Vsau BER ca cơ sdliu  
100000 bài hát được chn ngu nhiên tnhng cp khi chui đặc trưng đã được xác  
định. Độ lch chun ca kết quphân phi BER được đo là 0.0148, cao hơn xp x3  
ln 0.0055 kvng tcác bit i.i.d ngu nhiên.  
14  
Hình 3: So sánh xác xut hàm mt độ ca tlbit li (BER) được biu thbng  
du ‘+’ và phân phi thông thường  
Hình 3 biu din hàm mt độ xác xut (Probability Density Function – PDF)  
ca phân phi BER đã được đo và phân phi thông thường vi giá trtrung bình 0.5  
độ lch tiêu chun 0.0148. Hàm mt độ xác xut ca tlbit li là sxp xgn  
vi phân phi thông thường. Đối vi nhng phân phi tlbit li dưới 0.45 chúng ta  
theo dõi thêm mt vài giá trtham kho bên ngoài, bi vì thng kê không đầy đủ. Để  
hp nht độ lch chun ln hơn ca phân phi tlbit li công thc (2.2) được sa  
bng cách bao gm tha s3  
1
(12α)  
P = erfc  
n
(2.7)  
f
2
3 2  
Đim bt đầu cho tlbit li sdng trong các thnghim là α = 0.35. Giá trtrung  
bình này vượt qua 8192 bits và phi ít hơn 2867 bits li để mà quyết định nhng khi  
chui đặc trưng bt ngun tnhng bài hát ging nhau. Sdng công thc (2.7)  
chúng ta đạt ti tlkhng định sai ca erfc(6.4)/2=3.6*10-20 rt thp.  
15  
2.2.1.2. Tìm kiếm chui đặc trưng trong cơ sdliu  
Tìm kiếm các chui đặc trưng đã được trích rút trong cơ sdliu chui đặc  
trưng là công vic không đơn gin. Thay vào đó vic tìm kiếm chui đặc trưng dng  
bit ddàng hơn, chui đặc trưng gn ging nht sẽ được tìm ra. Chúng ta trình bày  
quá trình tìm kiếm này vi các sliu da trên nhng chui đặc trưng được trích rút  
như bên trên. Giscơ sdliu chui đặc trưng có cva phi cha khong  
10000 bài hát vi độ dài trung bình là 5 phút. Điu này tương đương vi xp x250  
triu chui đặc trưng con. Để xác định mt khi chui đặc trưng có ngun gc từ  
đon âm thanh chưa biết chúng ta phi tìm ra khi chui đặc trưng ging nht trong  
cơ sdliu. Nói theo cách khác chúng ta phi tìm ra vtrí trong 250 triu chui đặc  
trưng con mà ở đó tlbít li là ti thiu. Đây là quá trình ca cách tìm kiếm brute  
force. Tuy nhiên phi làm phép so sánh vi 250 triu khi chui đặc trưng. Sdng  
mt máy PC hin đại thì có thể đạt được tlso sánh xp x200000 khi chui đặc  
trưng trong mt giây. Vì thế tng thi gian tìm kiếm cho mi ví dslà 20 phút.  
Điu này cho thy tìm kiếm brute force là gii pháp không thdùng được cho các  
ng dng thc tế.  
Chúng ta ssdng mt thut toán tìm kiếm hiu quhơn. Thay vì tính toán tỷ  
lbit li cho mi vtrí có thtrong cơ sdliu như phương pháp tìm kiếm brute  
force, ở đây ta chtính toán cho mt vài vtrí ng c. Nhng vtrí ng cnày có xác  
xut rt cao trthành vtrí phù hp nht trong cơ sdliu.  
Trong phiên bn đơn gin ca thut toán tìm kiếm được ci tiến, các vtrí ng  
cử được phát ra trên cơ sgisrng nó rt phù hp ít nht là mt chui đặc trưng  
con vtrí tt nht trong cơ sdliu. Nếu githiết này là hp lý, chnhng vtrí  
cn được kim tra là nhng vtrí mà mt trong 256 chui đặc trưng con ca truy vn  
khi chui đặc trưng phù hp hoàn toàn. Để kim tra tính hp lca githiết này, đồ  
thtrong hình 4 thhin sbit li trên chui đặc trưng con cho nhng chui đặc  
trưng được mô ttrong hình 2. Nó thhin rng qutht là có mt chui đặc trưng  
con không cha bt kli nào. Trên thc tế 17 trong s256 chui đặc trưng con  
không có li. Nếu chúng ta githiết rng chui đặc trưng “gc” ca hình 2a qutht  
được ly ra ttrong cơ sdliu, vtrí ca nó sẽ được chn trong scác vtrí ng  
ccho “chui đặc trưng MP3@128Kbps” ca hình 2b.  
16  
Hình 4: Bit li trên chui đặc trưng đối vi bn MP3@128Kbps trích từ  
bài “O Fortuna” ca Carl Orff  
Các vtrí trong cơ sdliu mà mt chui đặc trưng con 32 bit cthể được xác  
định để tìm kiếm sdng kiến trúc cơ sdliu trong hình 6. Cơ sdliu chui  
đặc trưng cha mt bng tra cu (LUT) vi tt ccác chui đặc trưng con 32 bit có  
thcó như mt mc t(entry). Mi mc tchrõ mt danh sách vi các con trỏ đến  
nhng vtrí trong danh sách chui đặc trưng thc nơi mà nhng chui đặc trưng 32  
bit tương ng được định v. Trong các hthng thc tế vi bnhgii hn mt bng  
tra cu cha 232 mc tthường không khthi hoc không thc tế hoc là chai. Hơn  
na bng tra cu sẽ được làm đầy bi vì chmt sgii hn các bài hát có thể đặt  
trong bnh. Vì thế trong thc tế mt bng băm được dùng thay cho bng tra cu.  
Chúng ta thc hin li tính toán scác phép so sánh khi chui đặc trưng trung  
bình trên định dng đối vi 10000 bài hát trong cơ sdliu. Vì cơ sdliu cha  
xp x250 triu chui đặc trưng con, svtrí trung bình trong mt danh sách slà  
0.0058 (=250*106/1032). Nếu chúng ta githiết rng tt ccác chui đặc trưng con có  
khnăng bng nhau, sphép so sánh chui đặc trưng trung bình trên định dng chlà  
15 (=0.058 * 256). Tuy nhiên chúng ta quan sát trong thc tế, vì sphân phi không  
đồng đều ca các chui đặc trưng con, sphép so sánh chui đặc trưng tăng lên xp  
17  
x20. Trong 300 phép so sánh trung bình được yêu cu, thi gian tìm kiếm trung  
bình cho mi ln là 1.5 mili giây trên mt máy PC hin đại. Bng tra cu có thể được  
thc thi theo cách mà nó không nh hưởng đến thi gian tìm kiếm. Theo giá ca  
bng tra cu, thut toán tìm kiếm được đề xut nhanh hơn xp x800000 ln phương  
pháp brute force.  
Mt ví dvbiu đồ các li bít trên chui đặc trưng đối vi mt khi chui đặc  
trưng mà không cha bt kchui đặc trưng con không li nào- được thhin trong  
hình 5.  
Hình 5: Bit li trên chui đặc trưng (đường nht) và độ tin cy ca bit sai  
đáng tin cy nht (đường đậm) cho bn MP3@Kbps ca “O Fortuna” ca Carl  
Orff.  
Tuy nhiên có nhng chui đặc trưng con chcha mt li. Vì vy thay vì chỉ  
kim tra nhng vtrí trong cơ sdliu mà ở đó mt trong 256 chui đặc trưng con  
xut hin, chúng ta có thkim tra toàn bcác vtrí nơi mà các chui đặc trưng xut  
hin và có khong cách Hamming ca mt chui vi toàn b256 chui đặc trưng  
con. Điu này sdn đến phép so sánh chui đặc trưng nhiu hơn 33 ln và như vy  
vn có thchp được. Tuy nhiên, nếu chúng ta mun đối phó vi tình hung mà ví  
18  
dsbit li ti thiu trên chui đặc trưng con là 3 (điu này có thxut hin trong  
ng dng đin thoi di động), sphép so sánh chui đặc trưng stăng lên là 5489,  
điu đó dn đến thi gian tìm kiếm không được chp nhn. Chú ý rng hskhông  
đều 20 bgim đi vi stăng lên ca sbit đảo chiu. Ví dnếu tt c32 bit ca các  
chui đặc trưng được sdng để đảo chiu, chúng ta kết thúc li vi thut toán brute  
force.  
Vì nhng bit đảo chiu ngu nhiên phát ra nhng vtrí ng crt nhanh trong  
nhng khong thi gian tìm kiếm không được chp nhn, chúng ta đề xut mt  
phương pháp khác để sdng thông tin gii mã mm. Đó là chúng ta đề nghị ước  
lượng và sdng xác xut mà mt bit chui đặc trưng được thu nhn đúng.  
Các chui đặc trưng con đạt được bng cách so sánh và to ngưỡng năng lượng  
khác nhau (xem khi bit gc trong hình 1). Nếu skhác nhau vmc năng lượng là  
rt gn vi đim bt đầu, thì có khnăng bit thu nhn được là không đúng (mt bit  
không tin cy). Mt khác, nếu skhác nhau vmc năng lượng là ln hơn đim bt  
đầu thì xác xut ca mt bit không đúng là nh(bit đáng tin cy). Xut phát tthông  
tin đáng tin cy đối vi mi bit ca chui đặc trưng con, có thmrng mt chui  
đặc trưng con được đưa ra thành mt danh sách các chui đặc trưng con có th. Bng  
cách gisrng mt trong nhng chui đặc trưng con có thnht có vtrí ti ưu  
trong cơ sdliu, khi chui đặc trưng có thể được xác định như trước đó. Các bit  
được chỉ định độ tin cy có thhng t1 đến 32, trong đó 1 là kí hiu cho độ tin cy  
thp nht và 32 là cho bit có độ tin cy cao nht.  
Nhng kết qunày theo mt cách đơn gin sto ra mt danh sách nhng chui  
đặc trưng con có thnht bng cách chỉ đảo chiu nhng bit ít tin cy nht. Chính  
xác hơn, danh sách bao gm toàn bcác chui đặc trưng con có N bit cố định đáng  
tin cy nht và tt ccác bit có ththay đổi khác. Nếu thông tin về độ tin cy là  
chính xác, gisrng trong trường hp mt chui đặc trưng con có 3 bit li, nhng  
bit vi độ tin cy 1, 2 và 3 là không chính xác. Nếu đây là trường hp – các khi  
chui đặc trưng mà trong đó sbit li trên mt chui đặc trưng con ti thiếu là 3 – có  
thể được xác định bng cách to ra nhng vtrí ng cvi ch8 (=23) chui đặc  
trưng con. So sánh vi hs5489 đạt được khi sdng tt ccác chui đặc trưng  
con vi mt khong cách Hamming ca 3 để phát ra các vtrí ng c, đây là mt ci  
tiến vi hsxp x686.  
Trong thc tế thông tin về độ tin cy là không chính xác (ví dnó xy ra khi  
mt bit vi độ tin cy thp được thu nhn chính xác và ngược li) và vì thế sci  
19  
tiến là ít hiu qu, nhưng vn có ý nghĩa. Điu này có ththy trong ví dụ ở hình 5.  
Sbit li ti thiu trên chui đặc trưng con là mt. Như va đề cp trước đó, khi  
chui đặc trưng sau đó có thể được xác định bng cách phát ra 33 nhp. Hình 5 cũng  
có mt biu đồ về độ tin cy cho bit đáng tin cy nht bthu nhn sai. Nhng độ tin  
cy được suy ra tbn MP3@32Kbps sdng phương pháp đã đề xut trên. Chúng  
ta thy rng chui đặc trưng con đầu tiên cha 8 li. Tám bit li này không phi là 8  
bit kém nht bi vì mt trong nhng bit sai có độ tin cy được chra là 27. Vì thế,  
thông tin về độ tin cy luôn luôn không đáng tin. Tuy nhiên nếu chúng ta coi như  
chui đặc trưng con 130 – chui mà chcó mt bit li đơn – thì ta thy rng độ tin  
cy ca bit sai được chra là 3. Vì thế khi chui đặc trưng này chỉ đến vtrí chính  
xác trong cơ sdliu chui đặc trưng khi chỉ đảo chiu 3 bit kém nht. Vì vy bài  
hát sẽ được nhn dng chính xác.  
Hình 6: Trình bày cơ sdliu chui đặc trưng  
Chúng ta skết thúc phn này bng cách tham kho hình 6 và đưa ra mt ví dụ  
vcách làm vic vi thut toán tìm kiếm đã được đề xut. Chui đặc trưng rút ra  
cui cùng ca khi chui đặc trưng trong hình 6 là 0x00000001. Đầu tiên khi chui  
đặc trưng được so sánh vi các vtrí trong cơ sdliu nơi mà chui đặc trưng con  
0x00000001 được định v. LUT chỉ đến chmt vtrí cho chui đặc trưng con  
0x00000001, mt vtrí p nào đó trong bài hát 1. Bây gichúng ta tính toán tlbit  
li gia 256 chui đặc trưng con được rút ra (khi chui đặc trưng) và các giá trị  
chui đặc trưng con ca bài hát 1 tvtrí p-255 lên vtrí p. Nếu tlbit li thp hơn  
20  
đim bt đầu 0.35, xác xut cao là khi chui đặc trưng đã rút ra có ngun gc tbài  
hát 1. Tuy nhiên đây không là trường hp bài hát không có trong cơ sdliu hoc  
chui đặc trưng con cha mt li. Chúng ta gisbit 0 là bit đáng tin ít nht. ng cử  
có thnht tiếp theo slà chui đặc trưng con 0x00000000. Vn tham kho trong  
hình 6, chui đặc trưng con 0x00000000 có hai vtrí ng ccó khnăng: mt trong  
bài hát 1 và mt trong bài hát 2. Nếu khi chui đặc trưng có tlbit li thp dưới  
đim bt đầu đối vi khi chui đặc trưng kết hp trong bài hát 1 hoc 2, sau đó mt  
ng cphù hp sẽ được biu thcho bài hát 1 hoc 2 mt cách tương ng. Nếu cả  
hai vtrí ng cử đưa ra thp dưới tlbit li bt đầu, các chui đặc trưng con có thể  
khác được sdng để phát ra nhiu vtrí ng chơn, hoc có mt cái chuyn mch  
đến 1 trong 254 chui đặc trưng con còn li trong đó lp li quá trình xlý như trên.  
Nếu tt c256 chui đặc trưng con và nhng chui đặc trưng con có thnht ca  
chúng va được dùng để phát ra các vtrí ng cvà không cái nào phù hp thp  
dưới đim bt đầu va được tìm thy thì thut toán quyết định rng nó không thể  
nhn dng bài hát.  
2.2.2. Phương pháp xây dng và tìm kiếm chui đặc trưng da trên waveprint  
Phương pháp xây dng này được phát trin bi Shumeet Baluja và Michele  
Covell.  
2.2.2.1. Trích rút chui đặc trưng  
Chúng ta cũng bt đầu quá trình xlý rút ra chui đặc trưng bng vic chuyn  
âm thanh đầu vào thành nh phnhư phương pháp ca Haitsma. Theo đó chúng ta sử  
dng các nh ph371ms chia thành các hình nh thuc quang ph, mi hình nh dài  
11.6 ms, khong cách loga là 32 và nm trong di tn t319Hz đến 2kHz. Vic rút ra  
các hình nh thuc phổ đã biết độ dài tcác nh phcho phép chúng ta to ra nhng  
chui đặc trưng con bao gm nhng cu trúc biu ththi gian mà không dbị ảnh  
hưởng bi nhng thay đổi theo thi gian. Chúng ta ssdng shin thda trên  
wavelets.  
Đối vi mi hình nh thuc quang phmà chúng ta to ra, ta rút ra wavelets cao  
nht theo cường độ ca chúng. Wavelets là công ctoán hc để phân tách các hàm  
theo thbc. Chúng cho phép mt hàm được mô tbi toàn bhình dng ca nó,  
cng vi nhng chi tiết tăng dn liên tiếp. Ging như vic phân tích Fourier,  
wavelets cung cp mt vài mc phân tách theo tn skhông gian. Wavelets có thêm  
21  
thuc tính ca shtrcc b, vi mi shtrca wavelet bao phmt slượng  
thích hp các chu ktn sca di tn ca wavelet đó.  
Hình 7: Shin thcho 3 bài hát – 5 frames liên tiếp nhau hin thcho mi bài,  
nhy qua 0.2 giây. Đối vi mi bài hát, hàng đầu tiên là hình nh phổ ảnh gc,  
hàng th2 là cường độ wavelet, hàng th3 hin th200 sóng đầu tiên (t=200).  
Chú ý rng nhng wavelet đầu tiên có mt mu phân bit vi mi bài trong 3  
bài hát.  
Để mô tmt hình nh m×n vi wavelets, m×n wavelets được trli: không có  
snén. Nếu chmt mình nó thì hình nh-wavelet không chng đỡ được tiếng n  
hoc ssuy gim âm thanh; scó sthay đổi ca nhng giá trnày do nhng thay  
đổi nhtrong âm thanh (vd mt chút tiếng n, tiếng vang, nhng âm thanh nn khác,  
hoc được chơi bng đin thoi di đông,…). Thay vì sdng toàn btp wavelets,  
chúng ta chgili nhng thành phn đặc trưng nht ca bài hát. Theo cách đơn gin,  
ta chn t wavelets đầu (theo cường độ), trong đó t<<m×n. Khi nhìn vào wavelets ca  
22  
nhng hình nh liên tiếp ca hai bài hát, chúng ta dthy nhng mu được xác định  
ctrong không gian wavelet và thm chí còn rõ ràng hơn khi t wavelets đầu được giữ  
(xem hình 7).  
Bước cui cùng ca quá trình to ra chui đặc trưng con là ly vecto wavelet ri  
rác mô tả ở trên và to ra shin thngn gn ca nó. Ta kho sát cách dùng ca  
hàm băm Min (Min-Hash) để tính toán các chui đặc trưng con cho nhng vecto bit  
ri rác này. Mt yêu cu cơ bn ca các chui đặc trưng con là chui con v1 và chui  
con v2 ging nhau nhau nếu và chnếu tín hiu wavelet v1 và tín hiu wavelet v2  
tương tnhau.  
Đối vi mc đích ca phương pháp này, đưa ra hai vecto v1 và v2, ta schra  
các kiu phù hp như bn kiu a, b, c, d như biu din trong bng 1, phthuc vào  
các bit tương ng trong các vecto. Đưa ra nhng kiu hp/không hp này cn chú ý  
rng vi nhng vecto ri rác, hu hết các vtrí bit slà kiu d. Ta sẽ định nghĩa sự  
ging nhau ca hai vecto là shàng liên quan có kiu là a: vd Sim(v1, v2)=a/(a+b+c).  
Bng 1: Các kiu hp/không hp gia nhng bit đơn ca các vecto nhphân.  
Kiu  
Vecto 1  
Vecto 2  
a
b
c
d
1
1
0
0
1
0
1
0
Mt cách tiếp cn trc tiếp vi vn đề này là chn ngu nhiên đơn gin mt tp  
các vtrí bit và sdng chúng như tín hiu, tuy nhiên nó skhông làm vic. Bi vì  
các vecto là ri rc, các tín hiu kết qucó khnăng sging nhau bi vì chúng hu  
hết được to 0 giây, tuy nhiên nó skhông đưa ra du hiu đúng ca sging nhau  
bi vì các hàng ca kiu a được quan tâm nht.  
Kthut hàm băm Min làm vic như dưới sau. Hoán vcác vtrí bit thành mt  
vài thtngu nhiên (nhưng đã biết). Sau đó vi hoán vnày, đo mi vecto mà trong  
đó ví trí đầu tiên ‘1’ được chra. Có mt chú ý quan trng là xác xut mà sxut  
hin đầu tiên (v1) bng sxut hin đầu tiên (v2) là ging nhau và ging xác xut  
a/(a+b+c): giá trbăm được chp nhn nếu vtrí đầu tiên vi 1 trong vecto bit là kiu  
23  
a, và chúng không được chp nhn nếu vtrí đầu tiên là kiu b hoc c. Chú ý rng  
xác xut này ging như Sim(v1, v2) – là cái mà chúng ta cn.  
Chúng ta có thnhc li thtc trên nhiu ln, mi ln vi mt hoán vmi ca  
các vtrí bit. Nếu chúng ta nhc li quá trình p ln vi p hoán vkhác nhau, chúng ra  
nhn được p phép chiếu ca vecto bit. Nhng giá trp này là tín hiu cho vecto bit.  
Ta có thso sánh sging nhau ca các vecto bit bng cách nhìn vào các giá trphù  
hp chính xác trong các tín hiu có độ dài p; vi p đủ ln srt gn để đạt được sự  
ging nhau vi các vecto gc. Trong phương pháp này, ta không gishin thbit  
trung gian mô tả ở trên. Thay vào đó ta lưu trtín hiu tính toán ca hàm băm Min,  
đây là chui chui đặc trưng con cui cùng ca hình nh âm thanh.  
Trong nghiên cu này, hàm Min làm gim cca tín hiu tvic biu din  
wavelet trung gian được mô ttrong phn này đến sbiu din ngn gn ca p giá tr.  
Có rt nhiu nhng kthut khác nhau được sdng cho vic làm gim bc - trong  
số đó có kthut như Principal Components Analysis (PCA) và Linear Discriminant  
Analysis (LDA). Chúng ta chn sdng hàm băm Min bi mt chui các lý do. Đầu  
tiên là yêu cu khnăng tách bit qua các tín hiu top wavelet, không yêu cu khả  
năng mô t. Yêu cu này có nghĩa là PCA có thkhông là sbiu din tt nht và  
thay vào đó là các phương pháp truyn thng trên cơ sLDA. Vì các tín hiu wavelet  
hin thvecto ri rc, chúng ta quyết định kho sát vic sdng các kthut đã được  
thiết kế để sdng xác xut tín hiu phù hp và tách bit qua các vecto ri rc.  
Theo cách này, chúng ta phi gim lượng thông tin tmi nh phqua ba bước.  
Đầu tiên, ta chgiwavelets đầu ca nhng hình nh thuc ph, kết hp vi nh ph.  
Thhai, ta làm gim wavelets đầu chcòn 2 bit. Thba, sdng thtc hàm băm  
Min để làm gim rõ ràng kết quvecto bit thành p giá trvà nó trthành chui phụ  
cui cùng.  
Sau nhng bước này, mi hình nh thuc ph(hoc đon âm thanh có cùng độ  
dài) được biu din bng mt chui p snguyên 8 bit – chui đặc trưng. Tuy nhiên  
khi bnén thì vic tìm ra nhng tín hiu gn mt cách hiu qutrong không gian p  
chiu cũng là công vic không nhnhàng (khi p>50). Thay vào đó, chúng ta sdng  
1 kthuât gi tên là Locality-Sensitive Hashing (LSH). Nó không chhiu qutrong  
slượng các so sánh được yêu cu (1 phn nhca tp dliu sẽ được kho sát), mà  
còn cung cp các thuc tính mnh vtiếng n.  
24  
2.2.2.2. Tìm kiếm chui đặc trưng  
Toàn bquá trình tìm kiếm được biu din bng biu đồ trong hình 8. Skhác  
nhau đầu tiên trong quá trình tìm kiếm, trong sso sánh vi quá trình to ra cơ sdữ  
liu, là bài hát được chia ra thành các đon chng lp lên nhau mt cách ngu nhiên,  
đúng hơn là các đon chng lp lên nhau không đồng nht.  
Hình 8: Toàn bquá trình mô tvà tìm kiếm chui đặc trưng.  
25  

Tải về để xem bản đầy đủ

pdf 42 trang yennguyen 13/05/2025 170
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Chuỗi đặc trưng âm thanh và ứng dụng trong tìm kiếm nhạc số", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_chuoi_dac_trung_am_thanh_va_ung_dung_trong_tim_kie.pdf