Luận văn Nhận dạng tiếng nói tiếng Việt tìm hiểu và ứng dụng

TRƯỜNG ĐẠI HC KHOA HC TNHIÊN  
KHOA CÔNG NGHTHÔNG TIN  
BMÔN CÔNG NGHTRI THC  
NGUYN HNG QUANG - 0012081  
NHN DNG TING NÓI TING VIT  
TÌM HIU VÀ NG DNG  
LUN VĂN CNHÂN TIN HC  
GIÁO VIÊN HƯỚNG DN  
Th.s BÙI TIN LÊN  
NIÊN KHÓA 2000 – 2004  
Li cm ơn  
Hoàn thành lun văn này có sự đóng góp rt ln ca thy  
Bùi Tiến Lên, thy đã hướng dn to điu kin cho em trong quá  
trình thc hin nghiên cu nhn dng tiếng nói, em xin chân thành  
cm ơn thy.  
Em xin gi li cm ơn đến các thy cô trong trường, đặc  
bit là các thy cô bmôn Công NghTri Thc đă to ra mt môi  
trường tht hoàn ho cho chúng em hc tp và nghiên cu khoa  
hc.  
Em cũng không thkhông nhc đến sự động viên chăm sóc  
ca gia đình, scng tác giúp đỡ ng htinh thn ca bn bè.  
Em xin được tri ơn tt c.  
TP. HChí Minh, tháng 7 năm 2004.  
Nguyn Hng Quang  
1
MC LC  
DANH SÁCH HÌNH V...........................................................................................4  
MĐU .................................................................................................................6  
Chương 1 TNG QUAN.........................................................................................8  
1.1  
1.2  
Nhn dng.....................................................................................................8  
Nhn dng tiếng nói .....................................................................................9  
1.2.1  
1.2.2  
Xlý âm thanh......................................................................................9  
Phân loi nhn dng tiếng nói.............................................................10  
1.2.2.1 Nhn dng tliên tc và nhn dng tcách bit ............................10  
1.2.2.2 Nhn dng phthuc người nói và độc lp người nói....................11  
1.2.3  
1.2.4  
Hthng nhn dng tiếng nói tự động................................................13  
Lý thuyết nhn dng tiếng nói ............................................................14  
1.2.4.1 Rút trích vector đặc trưng................................................................15  
1.2.4.2 Phân lp...........................................................................................17  
Chương 2 XLÝ TING NÓI RÚT TRÍCH VECTOR ĐẶC TRƯNG .........21  
2.1 Xlý tiếng nói............................................................................................21  
2.1.1  
2.1.2  
2.1.3  
2.2  
2.2.1  
Ly mu tín hiu .................................................................................21  
Blc tín hiu.....................................................................................22  
Dò tìm đim cui (end-point detection)..............................................24  
Rút trích đặc trưng......................................................................................26  
Các bước rút trích đặc trưng ...............................................................27  
2.2.1.1 Làm rõ tín hiu................................................................................27  
2.2.1.2 Phân đon thành các khung.............................................................27  
2.2.1.3 Ly ca s.......................................................................................28  
2.2.2  
Các dng đặc trưng tiếng nói ..............................................................33  
2.2.2.1 Biến đổi tín hiu sang min tn s..................................................33  
2.2.2.2 Đặc trưng năng lượng......................................................................35  
2.2.2.3 Đặc trưng MFCC.............................................................................36  
2.2.2.4 Đặc trưng LPC ................................................................................39  
2.2.2.5 Đặc trưng tn scơ bn..................................................................42  
Chương 3 MÔ HÌNH MARKOV N ..................................................................49  
3.1  
3.2  
Mô hình Markov n....................................................................................49  
ng dng Mô hình Markov vào nhn dng tiếng nói................................51  
3.2.1  
3.2.2  
3.2.3  
3.2.4  
3.2.5  
Thut toán tiến ....................................................................................52  
Thut toán lùi ......................................................................................53  
Phương pháp tìm chui trng thái ti ưu ............................................54  
Thut toán Viterbi...............................................................................55  
Ước lượng Baum-Welch.....................................................................58  
3.3  
3.3.1  
3.3.2  
3.3.3  
Cu trúc ngôn ngvà mô hình nhn dng theo âm v................................60  
Cu trúc ngôn ng...............................................................................60  
Mô hình âm v.....................................................................................63  
Tha âm v(allophones) .......................................................................63  
2
3.3.4  
Chương 4 HMM TOOLKIT.................................................................................67  
4.1 Cu trúc tp tin trong HTK ........................................................................69  
4.1.1  
4.1.2  
Nhn xét..............................................................................................65  
Cu trúc tp tin vector đặc trưng HTK ...............................................69  
Cu trúc tp tin mô hình HMM ..........................................................71  
Cu trúc tp tin đánh nhãn dliu......................................................75  
Cu trúc tp tin văn phm...................................................................78  
4.1.3  
4.1.4  
4.2  
4.3  
Nhn dng nguyên t.................................................................................81  
Nhn dng theo mô hình âm v..................................................................85  
Chương 5 NG DNG: ĐIU KHIN XE TỰ ĐỘNG BNG TING NÓI .88  
5.1 Thnghim nhn dng tiếng nói Tiếng Vit .............................................89  
5.1.1  
Nhn dng tĩnh (offline)......................................................................89  
5.1.1.1 Dùng vector đặc trưng dng LPCEPSTRA_E_D ...........................89  
5.1.1.2 Dùng vector đặc trưng dng LPCEPSTRA_E_D_A ......................89  
5.1.1.3 Dùng vector đặc trưng dng MFCC_0_D.......................................89  
5.1.1.4 Dùng vector đặc trưng dng MFCC_0_D_A..................................90  
5.1.1.5 Dùng vector đặc trưng dng MFCC_0_D_A_Z..............................90  
5.1.2  
Nhn dng thi gian thc (online)......................................................91  
5.1.2.1 Nhn dng theo mô hình âm vdùng MFCC_0_D_A_Z................91  
5.1.2.2 Nhn dng nguyên tdùng MFCC_0_D_A_Z...............................92  
ng dng nhn dng tiếng nói ...................................................................93  
5.2  
KT LUN..............................................................................................................96  
TÀI LIU THAM KHO ......................................................................................98  
Phlc  
MT SCÔNG CTRONG HTK ..................................................99  
3
DANH SÁCH HÌNH VẼ  
Hình 1.1: Sơ đồ nhn dng tng quát.........................................................................8  
Hình 1.2: Các lĩnh vc trong xlý tiếng nói ............................................................10  
Hình 1.3: Ranh gii gia “cô” và “y” không rõ ràng...........................................11  
Hình 1.4: Người nói khác nhau sphát âm khác nhau.............................................12  
Hình 1.5: Mô hình nhn dng bán độc lp người nói ..............................................13  
Hình 1.6: Các thành phn cơ bn ca hthng ASR ...............................................14  
Hình 1.7: Các dng ca sthường dùng..................................................................16  
Hình 1.8: Tng quát quá trình rút trích vector đặc trưng ........................................17  
Hình 1.9: Các kthut nhn dng tiếng nói và xu hướng phát trin .......................18  
Hình 1.10: HMM vi 3 trng thái và trng schuyn trng thái.............................20  
Hình 2.1: Ví dvly mu tín hiu f(t) trên min thi gian....................................22  
Hình 2.2: Minh ha hot động blc FIR................................................................23  
Hình 2.3: Minh ha hot động blc IIR.................................................................23  
Hình 2.4: Dò tìm đim cui da vào mc năng lượng .............................................25  
Hình 2.5: Sơ đồ rút trích vector đặc trưng tng quát ...............................................26  
Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết ..............................................................27  
Hình 2.7: Phân đon tiếng nói thành các khung chng lp .....................................28  
Hình 2.8: Skhác bit gia các dng ca stín hiu..............................................32  
Hình 2.9: Đồ thbiu din mi quan hgia Mel và Hz..........................................36  
Hình 2.10: Các bước trích đặc trưng MFCC ...........................................................37  
Hình 2.11: Blc trên thang Mel .............................................................................37  
Hình 2.12: Blc trên tn stht.............................................................................38  
Hình 2.13: Minh ha các bước biến đổi MFCC.......................................................38  
Hình 2.14: Sơ đ xlý LPC dùng cho trích đặc trưng tiếng nói.............................40  
Hình 2.15: Hình dng tín hiu tiếng nói ...................................................................47  
Hình 2.16: Kết qutrích F0......................................................................................48  
Hình 2.17: Kết qusau khi lc Median ....................................................................48  
Hình 3.1: Minh ha hot động ca mô hình Markov n...........................................49  
Hình 3.2: Mô hình Left - Right..................................................................................51  
Hình 3.3: Mô hình Bakis...........................................................................................51  
Hình 3.4: Mô hình Tuyến tính...................................................................................51  
Hình 3.5:Minh ha thut toán tiến............................................................................53  
Hình 3.6:Minh ha thut toán lùi .............................................................................53  
Hình 3.7: Ví dminh ha thut toán Viterbi ............................................................56  
Hình 3.8:Ví dminh ha thut toán Viterbi (tt) .......................................................57  
Hình 3.9: Ví dminh ha so khp dùng thut toán tiến-lùi .....................................58  
Hình 3.10: Minh ha ước lượng Baum - Welch........................................................59  
Hình 3.11: Minh ha vic nhn dng âm vtrong HMM .........................................60  
Hình 4.1: Mô hình đơn gin trong nhn dng tiếng nói...........................................67  
Hình 4.2: Các module và chc năng trong HTK ......................................................68  
4
Hình 4.3: Các công cvà chc năng trong HTK .....................................................69  
Hình 4.4: Phân bcác tham strong 1 svector đặc trưng ca HTK ....................71  
Hình 4.5: Các dng đặc trưng có thchuyn đổi qua li bng HCopy ...................71  
Hình 4.6: Dng cơ bn ca 1 tp tin HMM (chưa được khi to)...........................72  
Hình 4.7: Dng cơ bn ca 1 tp tin HMM có sdng pha trn Gaussian ............74  
Hình 4.8: Dng cơ bn ca 1 tp tin HMM có sdng đa lung ............................75  
Hình 4.9: Vai trò ca văn phm trong nhn dng dùng HTK ..................................78  
Hình 4.10: Lược đồ văn phm ..................................................................................79  
Hình 4.11: Mô hình minh ha các văn phm............................................................80  
Hình 4.12: Minh ha vic nhn dng nguyên t.......................................................81  
Hình 4.13: Hun luyn nguyên tvà các công chtr.........................................82  
Hình 4.14: Quy trình hot động ca HInit................................................................83  
Hình 4.15: Quy trình hot động ca HCompV .........................................................83  
Hình 4.16: Quy trình hot động ca HRest ..............................................................84  
Hình 4.17: Hun luyn theo mô hình âm vdùng HTK ............................................85  
Hình 4.18: Quá trình xlý các tp tin trong HERest...............................................87  
Hình 5.1: Mô hình ngôn ngdành cho hnhn dng..............................................88  
5
MĐU  
Tiếng nói là phương tin giao tiếp cơ bn nht ca loài người, nó hình thành  
và phát trin song song vi quá trình tiến hóa ca loài người. Đối vi con người, sử  
dng li nói là mt cách din đạt đơn gin và hiu qunht. Ưu đim ca vic giao  
tiếp bng tiếng nói trước tiên là tc độ giao tiếp, tiếng nói tngười nói được  
người nghe hiu ngay lp tc sau khi được phát ra. Bên cnh đó, tiếng nói là cách  
giao tiếp được sdng rng rãi nht – bt cai (dĩ nhiên là trnhng người khuyết  
tt) cũng có thnói được.  
Ngày nay, nhsphát trin ca khoa hc kthut, máy móc dn dn thay  
thế các lao động tay chân. Tuy nhiên để điu khin máy móc, con người phi làm  
khá nhiu thao tác tn nhiu thi gian và cn phi được đào to. Điu này gây trở  
ngi không ít đối vi vic sdng các máy móc, thành tu khoa hc kthut.  
Trong khi đó, nếu điu khin máy móc thiết bbng tiếng nói sddàng hơn. Nhu  
cu điu khin máy móc thiết bbng tiếng nói càng bc thiết hơn đối vi các thiết  
bcm tay, như: đin thoi di động, máy Palm/Pocket PC,…  
Để cho máy tính có thnghe được nhiu người đã vt ln vi tín hiu âm  
thanh trong hơn na thế kqua trong lĩnh vc nhn dng tiếng nói. Quá trình này  
được đánh du bng các kết qunghiên cu đặc sc trong lĩnh vc phân tích và xử  
lý tiếng nói, các ng dng thc tế khá hu ích. Nhưng dù sao, khnăng ca máy  
vn vn còn trong khong gii hn, còn cn phát trin hơn na để có ththt sự đáp  
ng nhu cu thc sca cuc sng. Mt khác, nhn dng tiếng nói chỉ đang được  
phát trin trên các thtiếng khác, nhưng chưa được phát trin và ng dng mnh ở  
nước ta. Do tình hình phát trin Vit Nam, để cho công cuc nhn dng tiếng nói  
tht sự được quan tâm, đầu tư và to thành các nhóm các phòng thí nghim chuyên  
nghiên cu vnhn dng tiếng nói thì tht sgp khó khăn.  
Lun văn này xây dng vi mong mun góp phn thúc đẩy quá trình trên,  
bng cách kế tha các đàn anh đàn chị đi trước, và thông qua vic tìm hiu các  
thành tu nước ngoài em mong rng mình sgóp phn to nên nhng bước phát  
trin trong lĩnh vc nhn dng tiếng nói nước ta. Qua quá trình nghiên cu, em  
6
nhn thy rng nếu như chúng ta có sphbiến kiến thc rng rãi, không chcho  
nhng người chuyên vlĩnh vc công nghthông tin, mà còn cho nhng người  
không chuyên thì chúng ta hoàn toàn có ththúc đẩy, phát trin và gt hái nhiu  
thành công hơn. Vì lúc đó vn đề không chỉ được nghiên cu, phát trin bi mt số  
người mà là ca nhiu người. Nhng lĩnh vc nghiên cu khác cưng có thlàm  
tương t.  
Vì lý do trên mà em không chtìm tòi nghiên cu lý thuyết, mà còn cgng  
phát trin thành ng dng.  
7
Chương 1 TNG QUAN  
1.1 Nhn dng  
Nhn dng ca loài người là mt quá trình hoàn ho, đó là squan sát đối  
tượng cn nhn dng, ghi nhn li nhng đặc trưng ca đối tượng, phân lp đối  
tượng và có sdng khnăng phán đoán suy lun để phân bit đối tượng đó vi đối  
tượng khác (trong mt tp gn như vô hn đối tượng).  
Trong khi đó, nhn dng tự động – nhn dng bng công cmáy vi tính chỉ  
đơn gin là quá trình phân bit tín hiu này vi tín hiu khác (trong mt tp hu hn  
các tín hiu), quá trình này được thc hin bng cách thc hin các bước tng quát  
sau (như trong hình 1.1).  
Tín hiu  
Tin xlý và rút trích  
vector đặc trưng  
Tín hiu cn  
nhn dng  
để hc  
Tín hiu dùng  
Hc mu, phân lp  
Nhn dng, so  
khp mu  
Ngưỡng và lut  
quyết định  
Kết quả  
Tp hp từ đin  
các lp tín hiu  
Hình 1.1: Sơ đồ nhn dng tng quát  
Thu nhn tín hiu và trích đặc trưng: thu nhn tín hiu cn nhn dng,  
khnhiu lc tín hiu (tin xlý) và rút ra các đặc trưng ca tín hiu  
(vector đặc trưng).  
Hc mu: kết nhóm, phân lp các nhóm vector đặc trưng ca tng  
nhóm tín hiu (bng các thut gii Heristic, bng cách sdng mng  
Neural, bng các siêu phng dùng thut toán K-means, Batchelor-  
8
Wilkins, ……). Quá trình này to ra các lp tín hiu, mi lp này đặc  
trưng cho tng nhóm tín hiu.  
Nhn dng, so khp mu: tìm mi liên hgia tín hiu cn nhn dng  
và các lp tín hiu được to ra bước trước (bng cách thông qua quy  
tc người láng ging gn nht chng hn). Nếu như tín hiu đó so  
khp nht (và mc độ so khp tha mt ngưỡng nào đó) ng vi mt  
lp tín hiu nào đó thì hthng nhn dng xác định tín hiu đó thì tín  
hiu đó thuc vào nhóm tín hiu đó vi mt tlnht định gi là độ  
chính xác ca hthng nhn dng (tlnày dĩ nhiên là càng cao càng  
tt).  
1.2 Nhn dng tiếng nói  
1.2.1 Xlý âm thanh  
Khi âm thanh được máy vi tính htrthì nhu cu xlý âm thanh đã  
xut hin. Các nhu cu này đã to ra nhiu lĩnh vc ng dng trong thc tế.  
Chng hn như: Tng hp âm thanh (Synthesis), nén âm thanh (Compression),  
nhn dng người nói (speaker recognition), nhn dng tiếng nói (speech  
recognition)… Các lĩnh vc ng dng khác nhau ca xlý tiếng nói được thể  
hin qua hình 1.2.  
Xlý âm thanh đóng mt vai trò quan trng trong quá trình nhn dng  
tiếng nói, nó cn trong vic lc nhiu tín hiu, biến đổi tín hiu, rút trích vector  
đặc trưng,…  
9
Hình 1.2: Các lĩnh vc trong xlý tiếng nói  
1.2.2 Phân loi nhn dng tiếng nói  
1.2.2.1 Nhn dng tliên tc và nhn dng tcách bit  
Mt hnhn dng tiếng nói có thlà mt trong hai dng: nhn  
dng liên tc và nhn dng tng t.  
Nhn dng liên tc tc là nhn dng tiếng nói được phát liên tc  
trong mt chui tín hiu, chng hn như mt câu nói, mt mnh lnh  
hoc mt đon văn được đọc bi người dùng. Các hthng loi này rt  
phc tp, nó phc tp chcác từ được phát liên tc khó xlý kp (nếu  
cn thi gian thc), hoc khó tách ra nếu như người nói liên tc không có  
khong ngh(thông thường rt hay xy ra trong thc tế). Kết qutách từ  
nh hưởng rt ln đến các bước sau, cn xlý tht tt trong quá trình  
này.  
Trái li, đối vi mô hình nhn dng tng t, mi tcn nhn dng  
được phát âm mt cách ri rc, có các khong nghtrước và sau khi phát  
âm mt t. Mô hình loi này dĩ nhiên đơn gin hơn mô hình nhn dng  
10  
liên tc, đồng thi cũng có nhng ng dng thc tin như trong các hệ  
thng điu khin bng li nói, quay sbng ging nói…, vi độ chính  
xác khá cao, tuy nhiên khó áp dng rng rãi đối vi mô hình trên.  
Hình 1.3: Ranh gii gia “cô” và “y” không rõ ràng  
1.2.2.2 Nhn dng phthuc người nói và độc lp người nói  
Đối vi nhn dng phthuc người nói thì mi mt hnhn dng  
chphc vụ được cho mt người, và nó skhông hiu người khác nói gì  
nếu như chưa được hun luyn li từ đầu. Do đó, hthng nhn dng  
người nói khó được chp nhn rng rãi vì không phi ai cũng đủ khả  
năng kiến thc và nht là kiên nhn để hun luyn hthng. Đặc bit là  
hthng loi này không thể ứng dng nơi công cng.  
Ngược li, hthng nhn dng độc lp người nói thì lý tưởng hơn,  
ng dng rng rãi hơn, đáp ng được hu hết các yêu cu đề ra. Nhưng  
không may là hthng lý tưởng như vy gp mt svn đề, nht là độ  
chính xác ca hthng.  
Trong thc tế, mi người có mt ging nói khác nhau, thm chí  
ngay cùng mt người cũng có ging nói khác nhau nhng thi đim  
11  
khác nhau. Điu này nh hưởng rt ln đến vic nhn dng, nó làm gim  
độ chính xác ca hthng nhn dng xung nhiu ln. Do đó để khc  
phc khuyết đim này, hthng nhn dng độc lp người nói cn được  
thiết kế phc tp hơn, đòi hi lượng dliu hun luyn ln hơn nhiu ln  
(dliu được thhu tnhiu ging khác nhau ca nhiu người). Nhưng  
điu này cũng không ci thin được bao nhiêu cht lượng nhn dng. Do  
đó, trong thc tế có mt cách gii quyết là bán độc lp người nói.  
Phương pháp này thc hin bng cách thu mu mt slượng ln các  
ging nói khác bit nhau. Khi sdng, hthng sẽ được điu chnh cho  
phù hp vi ging ca người dùng, bng cách nó hc thêm mt vài câu  
có cha các tcn thiết (người dùng trước khi sdng hthng cn phi  
qua mt quá trình ngn hun luyn hthng). Điu này đã được  
Microsoft đưa vào bphn mm Office ca mình.  
Nhn dng độc lp người nói khó hơn rt nhiu so vi nhn dng  
phthuc người nói. Cùng mt t, mt người, dù có cgng phát âm  
cho tht ging đi na thì cũng có skhác bit. Đối vi bnão con người,  
mt hthng hoàn ho, thì skhác bit đó có thể được bqua do ngữ  
cnh, và do có phn xlý làm mờ đi ca não. Nhưng đối vi máy tính thì  
rt khó xây dng được mt mô hình gii quyết cho tt ccác trường hp  
khác bit đó.  
Hình 1.4: Người nói khác nhau sphát âm khác nhau  
12  
Hình 1.5: Mô hình nhn dng bán độc lp người nói  
1.2.3 Hthng nhn dng tiếng nói tự động  
Nhn dng tiếng nói tự động (Automatic Speech Recognition - ASR):  
có nghĩa là chuyn đổi tự động tiếng nói thành chviết hoc thành mt trong  
các chc năng ca thiết b.  
Mt hthng nhn dng tiếng nói tự động gm có các thành phn sau:  
Rút trích đặc trưng tiếng nói: biến đổi tín hiu âm thanh thành  
chui các vector đặc trưng. Ngoài ra, quá trình này còn gii quyết  
vn đề dò tìm đim cui (phân bit trong chui âm thu được đâu là  
tiếng nói đâu là độ ồn nn) và lc nhiu.  
Quá trình phân lp và nhn dng: Thc cht đây là quá trình  
nhn dng da trên mô hình âm thanh, từ đin phát âm và mô hình  
ngôn ngca hthng. Mô hình ngôn ngữ ở đây thc cht chbiu  
din mt ngpháp nào đó, nó có thể ứng vi mt ngôn ngcthể  
hoc đơn gin chgói gn trong phm vi ng dng ca hthng,  
13  
điu này góp phn gim thiu phm vi nhn dng ca tiếng đó trong  
mt vài tchkhông phi toàn btvng.  
Gii mã: Quá trình này quá trình này có thchỉ đơn gin là xut ra  
chui văn bn nhn dng được hoc là mt quá trình phân tích  
chui nhn được ng vi tác vgì và thc hin tác vụ đó.  
Hình 1.6: Các thành phn cơ bn ca hthng ASR  
ng dng:  
Điu khin bng tiếng nói (khong 30 t): Nhn dng tên người,  
chsca hthng quay sbng ging nói trên đin thoi di động,  
điu khin thiết bị đin t,…  
Trong đin tvin thông (khong 2000 t): Tự động đin mu đơn  
trong hthng xlý thông tin, tng đài đin thoi, …  
Từ đin (khong 64k t): Chuyn đổi thư thoi (btvng ln),  
thư đin t,…  
1.2.4 Lý thuyết nhn dng tiếng nói  
Nhn dng tiếng nói là kthut nhn ra các thành phn li nói ca con  
người. Tiến trình này có thể được thc hin tvic thu vào tín hiu tiếng nói  
tmicro, và kết thúc bng từ đã được nhn dng được hthng xut ra. Nhng  
bước ca quá trình trên sẽ được đề cp phn sau.  
Vic nghiên cu nhn dng tiếng nói đã được bt đầu tcui thp niên  
40, trong đó sphát trin nhanh chóng ca công nghmáy tính đã đóng góp  
14  
mt rt quan trng. Ngày nay, nhsphát trin tăng vt trong công ngh,  
nhn dng tiếng nói đã có mt trong công nghip mt slĩnh vc. Trong  
công nghip, khi tay và mt ca con người đã được tn dng trit để, thì vic  
điu khin bng tiếng nói có mt thun li rt ln. Nhng trình ng dng khác  
thì áp dng nhn dng tiếng nói vào hthng nhn đặt phòng tự động qua đin  
thoi, bng cách này khách hàng cm thy thun li hơn so vi vic nhn các  
nút ca đin thoi. Hơn na, nhn dng tiếng nói còn được ng dng nhiu  
dng khác nhau như hthng chính t, các đồ chơi trem, trò chơi game,…  
Mt cách lý tưởng, mt trình nhn dng scó thnhn dng được các  
tkhác nhau ca bt kngười nào trong bt kmôi trường nào. Nhưng trong  
thc tế, khnăng ca hthng phthuc vào nhiu yếu tkhác nhau. Btừ  
vng, đa người dùng, nhn dng liên tc (phc tp hơn nhiu so vi nhn dng  
tng t) là các yếu tgây khó khăn, phc tp cho vic nhn dng tiếng nói.  
Tương tnhư vy đối vi độ ồn nn.  
1.2.4.1 Rút trích vector đặc trưng  
Ngày nay, vic xlý tín hiu tiếng nói được thc hin trên min  
s. Tín hiu số được thu bng cách ly mu theo mt tn snht định, đó  
là vic đo tín hiu theo mt chu kthi gian. Theo lý thuyết, bt cmt  
tín hiu có băng tn gii hn nào cũng có thtái to li mt cách hoàn  
chnh nếu như tn sly mu FS ít nht là gp đôi tn sti đa ca tín  
hiu (theo Alan và Willsky, 1997). Cht lượng ca tín hiu được ly mu  
còn phthuc vào biên độ ly mu – phthuc vào sbit được dùng.  
Đối vi nhng ng dng ASR, biu din tín hiu min tn sthì  
ti ưu hơn – mt biu din gn hơn hu dng hơn là cn thiết. Rút trích  
vector đặc trưng là vic xlý biến đổi tín hiu âm thanh thành mt chui  
nhng vector đặc trưng. Có mt vài dng đặc trưng ca tín hiu âm thanh  
có thể được sdng làm vector đặc trưng, chng hn như là MFCC (Mel  
Frequency Cepstral Coeficient), LPC (Linear Prediction Filter  
Coefficient),…  
15  
Để tham shóa dng sóng ca tín hiu, tín hiu được chia thành  
chui các khung gi lên nhau theo thi gian, mi khung thường dài  
khong 25ms, khong thi gian thích hp để cho vic xlý tĩnh hơn  
(hình 1.8).  
Để khnhiu và làm rõ tín hiu, các khung trước khi được xlý  
được nhân vi hàm ca s, thường dùng là ca sHamming hay  
Hanning. Sau khi áp hàm ca scnh ca khung strnên mn hơn, mt  
khác nó còn giúp cho thành phn có tn scao ca tín hiu xut hin  
trong ph.  
Hình 1.7: Các dng ca sthường dùng  
16  
Hình 1.8: Tng quát quá trình rút trích vector đặc trưng  
1.2.4.2 Phân lp  
Sau vic biến đổi tiếng nói thành vector đặc trưng là vic nhn ra  
cái gì thc sự được nói ra. Có mt vài cách tiếp cn vn đề này, như là:  
hướng cơ stri thc, hướng so khp mu,… nhng phương pháp này có  
thể được kết hp vi nhau.  
17  
Hình 1.9: Các kthut nhn dng tiếng nói và xu hướng phát trin  
a) Kthut so khp mu  
Mt hthng so khp mu da trên ý tưởng là sso khp li  
nói vi mt stp mu được lưu tr, chng hn như các đon âm  
thanh mu. Thường mi mu phù hp vi mt ttrong từ đin. Người  
phân lp stính toán skhác nhau vâm thanh gia li nói thu vào và  
tng mu đã được lưu tr. Sau đó, anh ta schn mu nào so khp  
nht vi dliu nhp.  
Đối vi chương trình, mt thut toán cn được sdng để tìm  
ra sso khp không tuyến tính gia tlthi gian gia hai tín hiu,  
nó dùng để đắp schênh lch do skhác bit tc độ nói gây ra.  
Kthut so khp mu được sdng rng rãi trong sn xut  
thương mi vào các thp niên 70 và 80, nhưng sau đó ngày càng được  
thay thế bi các phương pháp mnh hơn (Holmes, 2001).  
b) Mng Neural  
18  
Mng Neural là mt mô hình cgng mô phng hthng  
nơron thn kinh ca con người. Mt mng neural bao gm mt số  
lượng các nút. Nhng nút này được sp xếp thành tng lp kết ni ln  
nhau bng trng skhác nhau. Thông tin được đưa qua lp vào, được  
xlý qua mng, sau đó được xut ra ngoài thông qua lp ra. Kết quả  
trvca mi nút được tính bng hàm không tuyến tính các trng số  
ca các giá trvào.  
Mng có khnăng phân loi chính xác phthuc vào trng số  
và các giá trti ưu được xác định trong quá trình hun luyn. Khi  
hun luyn, thông tin mt vài mu âm thanh, ví dnhư phbiên độ,  
được đưa vào mng thông qua các nút nhp, các giá trkết xut được  
so sánh vi giá trị được yêu cu. Ssai khác gia các giá trslàm  
thay đổi các trng s. Quá trình này được lp đi lp li vài ln cho mi  
mu hc, làm tăng độ chính xác ca mng.  
Mc dù là mt kthut thú vđầy ha hn, nhưng mng  
Neural chưa tht sthành công trong mt hnhn dng tiếng nói liên  
tc hoàn chnh.  
c) Hướng da trên tri thc  
Hthng da trên tri thc sdng tri thc để phân bit skhác  
nhau gia các âm thanh. Vào khong thp niên 70 và 80, nó thích hp  
trong vic ng dng trong hchuyên gia, nó da trên blut được rút  
ra ttri thc vtín hiu âm thanh.  
Mt dng khác ca hthng được kế tha tquá trình phát âm  
ca con người. Ở đây thay vì sdng blut thì định nghĩa thành  
phn trung gian. Theo cách này, sphân bit din ra bng cách so  
sánh tiếng nói được tng hp vi mt tiếng nói cn nhn dng. Mc  
dù là mt kthut có tim năng, nhưng mt hthng như vy có sự  
gii hn ca nó.  
d) Mô hình Markov n (Hidden Markov models – HMM)  
19  
Mô hình Markov n là mt phương pháp thng kê mnh mẽ để  
mô hình hóa tín hiu tiếng nói, và nó tht svượt tri trong vic áp  
dng vào nhn dng tiếng nói ngày nay. Mt mô hình Markov n được  
dùng để biu din cho mt đơn vca ngôn ng, như là thay là âm  
v. Nó gm có mt shu hn các trng thái và schuyn đổi trng  
thái, schuyn đổi đó được thc hin thông qua xác sut chuyn đổi,  
hàm phân bGauss thường được chn la để thc hin điu này.  
Mt khi biu din mt chui mu quan sát, mô hình có thxác  
định xác sut gp các mu quan sát đó, nhưng nếu như mt chui đơn  
các mu quan sát không thtìm ra mt chui các trng thái có liên  
quan thì nó không thxác định trng thái nào và thtnào.  
Xác sut chuyn trng thái và sphân bxác sut phthuc  
vào trng sca nó. Trong quá trình hun luyn các trng snày được  
ti ưu hóa cho phù hp vi dliu hun luyn. (hình 1.9)  
Hình 1.10: HMM vi 3 trng thái và trng schuyn trng thái  
20  
Chương 2 XLÝ TING NÓI  
RÚT TRÍCH VECTOR ĐẶC TRƯNG  
2.1 Xlý tiếng nói  
Tín hiu (signal) là tt csvt hin tượng có mang hoc cha mt thông  
tin nào đó mà chúng ta có thhiu, được quy ước trước. Các tín hiu trong thế gii  
thc đều dng liên tc (tín hiu tương t), nó hết sc phc tp, thiếu độ chính xác  
cn thiết đối vi máy tính. Do đó các tín hiu này thường bbiến đổi thành các tín  
hiu s(shóa), mt dng thông tin máy tính có thxlý.  
Tiếng nói cũng là mt dng tín hiu tương t, do đó nó cũng cn được số  
hóa.  
2.1.1 Ly mu tín hiu  
Hàm ly mu là cu ni gia các hthng ri rc và các hthng liên  
tc. Nó còn được gi là: hàm Dirac Delta, hàm sàng lc,…  
Công thc 2.1  
xs (t) =  
x(t)δ(t nT)  
n=−∞  
Đối vi máy tính, ly mu chỉ đơn gin là ctheo mt chu kthi gian  
(đối vi tín hiu âm thanh và các dng tương t), hay là chu kkhông gian  
(đối vi tín hiu là nh và các dng tương t) ta đo tín hiu mt ln.  
Quá trình trên sto ra mt chui các sbiu din cho tín hiu, và có  
thxđược bi máy tính.  
21  
Hình 2.1: Ví dvly mu tín hiu f(t) trên min thi gian  
2.1.2 Blc tín hiu  
Blc scó vai trò rt quan trng trong xlý tiếng nói, chúng được  
dùng vi 2 mc đích chính:  
- Tách tín hiu cn thiết: Các tín hiu ban đầu thường cha đựng các  
nhiu hoc các tín hiu không mong mun khác, các nhiu này làm  
gim đáng kcht lượng ca tín hiu và cn phi tách riêng các tín  
hiu cn thiết.  
Ví d: Đối vi âm thanh được thu, tín hiu âm thường cha  
thêm các tiếng n ca môi trường, chng hn như tiếng ồ ồ ca qut  
trn thi vào micro; còn đối vi nh chp thì là các đim lm đốm  
trên nhng tm nh cũ khi được quét vào….  
- Khôi phc các tín hiu bbiến dng: Có mt strường hp vì mt  
nguyên nhân nào đó (thường là nguyên nhân liên quan đến thiết b) sẽ  
to ra các tín hiu vào bméo mó. Vì vy cn phi chnh li để tăng  
cht lượng ca tín hiu s.  
Ví d: Các micro cũ scho ra các tín hiu âm thanh không tt;  
“con mt” (forcus len) ca các máy quét bmslàm cho các nh  
được quét bmtheo ….  
Trong thc tế kthut, có hai blc tuyến tính dùng để lc tín hiu như  
sau:  
22  
- Blc đáp ng xung hu hn (Finite Impulse Response – FIR): hệ  
có tín hiu ra chphthuc vào tín hiu vào nên các hnày còn được  
gi là mch không truy hi hay mch không đệ qui (non-recursive).  
Blc có công thc sau:  
Công thc 2.2  
q
y(n) = b0x(n) + b1x(n 1) +...+ bq x(n q) = bjx(n j)  
j=0  
Hình 2.2: Minh ha hot động blc FIR  
-
Blc đáp ng xung vô hn (Infinite Impulse Response – IIR): hệ  
xlý có đáp ng xung có độ dài vô hn hay đáp ng xung vô hn.  
Tín hiu ra không nhng chphthuc vào tín hiu vào mà còn phụ  
thuc vào quá khca chính tín hiu ra, vì vy chúng còn được gi là  
các mch có truy hi hay đệ qui. Công thc blc:  
Công thc 2.3  
p
q
yn = ai yni  
+
bjxnj  
i=1  
j=0  
Hình 2.3: Minh ha hot động blc IIR  
23  
2.1.3 Dò tìm đim cui (end-point detection)  
Dò tìm đim cui là mt xlý cgng tìm ra chính xác khi nào người  
ta bt đầu và kết thúc nói. Nó còn được dùng để xác định khi mà người ta  
không tht snói gì, hoc nói nhng điu không mong đợi (như không có  
trong btvng định trước). Khi đó, dò tìm đim cui giúp gim mt số  
lượng khung mà trình nhn dng cn phi xlý, dn đến gim ti vic tính  
toán. Tuy nhiên, vic dò tìm đim cui không dnhư ta tưởng, bi vì có stn  
ti ca tiếng n nn, tiếng nói nn và sliên kết ca các âm tiết, như là skhó  
khăn trong vic dò tìm đon vô thanh phn bt đầu và kết thúc tiếng nói.  
Dò tìm đim cui được thc hin qua ba bước, qua mi bước xác định  
đim cui càng chính xác. Vic dò tìm da trên mc năng lượng ca tín hiu  
N
E = log x2 (n)  
được đặc trưng bng:  
(xem phn 2.2.2.2)  
n=1  
a) Dò tìm thô: da trên kthut năng lượng ít chính xác nht. Nó tìm mt  
đon mà mc năng lượng cao hơn đon trước đó và cho mt skhung  
đim bt đầu (thường khong 40 khung) trước khi gp khung mc  
năng lượng cao hơn. Khi mt slượng (thường khong 20 khung)  
khung khác qua (không cn kim tra bt kkhung nào) được cho là  
đim cui.  
b) Dò tìm tinh: bước dò tìm tinh skim tra mc năng lượng ca tiếng  
nói, nó clc ra đim đầu và cui bng cách cho rng mc năng lượng  
ca tiếng nói thì cao hơn độ ồn nn (cao hơn mt ngưỡng nào đó).  
c) Kthut VUS (Voice, Unvoice and Silence): kthut này cphân loi  
tng khung thành đon hu thanh, đon vô thanh và khong lng. Vic  
phân loi da trên sphân bnăng lượng trong khung, phbiến dng  
và sphân loi khung trước đó. Phương pháp này cloi bỏ đi nhng  
24  
phn không phi tiếng nói, như: tiếng nhép ming, th, hoc độ ồn nn  
(chng hn tiếng đóng ca).  
Hình 2.4: Dò tìm đim cui da vào mc năng lượng  
25  
2.2 Rút trích đặc trưng  
Hình 2.5: Sơ đồ rút trích vector đặc trưng tng quát  
Đối vi mt hnhn dng tiếng, vic rút trích vector đặc trưng ca tiếng nói là  
cn thiết. Điu này giúp gim thiu slượng dliu trong vic hun luyn và nhn  
dng, dn đến slượng công vic tính toán trong hgim đáng k. Bên cnh đó,  
vic rút trích đặc trưng còn làm rõ skhác bit ca tiếng này so vi tiếng khác, làm  
mờ đi skhác bit ca cùng hai ln phát âm khác nhau ca cùng mt tiếng. Hình  
2.6 minh ha các bước xlý trong vic rút trích vector đặc trưng tiếng nói.  
26  
2.2.1 Các bước rút trích đặc trưng  
Hình 2.6: Sơ đồ rút trích đặc trưng chi tiết  
2.2.1.1 Làm rõ tín hiu  
bước này, mc đích là làm tăng cường tín hiu, làm ni rõ đặc  
trưng ca tín hiu và làm cho nó ít nhy hơn vi các hiu ng do độ  
chính xác hu hn nhng bước xlý sau. Blàm rõ tín hiu thường là  
mt blc thông cao vi phương trình sai phân như sau:  
Công thc 2.4  
~
s(n) = s(n) as(n 1); vi 0.9 a 1  
2.2.1.2 Phân đon thành các khung  
~
Trong bước phân đon khung, s (n) được chia thành các khung,  
mi khung gm N mu, khong cách gia các khung là M mu. Hình 2.7  
minh ha cách phân thành các khung trong trường hp M = (1/3)N.  
27  
Cth, khung thnht gm N mu tiếng nói đầu tiên (bt đầu từ  
~
~
s(0) đến s(N 1)). Khung thhai bt đầu tmu thM và kết thúc ở  
vtrí M+N-1. Tương t, khung thi bt đầu tmu thi*M và kết thúc  
vtrí i*M+N-1. Tiến trình này tiếp tc cho đến khi các mu tiếng nói  
đều đã thuc vmt hay nhiu khung.  
Ta ddàng thy rng nếu M N thì các khung knhau scó sự  
chng lp (như hình 2.7), dn đến kết qulà các phép rút trích đặc trưng  
có tương quan vi nhau tkhung này sang khung kia; và khi M << N thì  
khung này sang khung khác được hoàn toàn trơn. Ngược li, nếu M > N  
thì skhông có schng lp gia các khung knhau, dn đến mt số  
mu tiếng nói bmt (tc là không xut hin trong bt kkhung nào).  
Nếu ta ký hiu khung thi là xi(n) và giscó tt cL khung trong tín  
hiu tiếng nói thì:  
~
s(M.i + n)  
xi(n)  
=
, n = 0, 1, …, N-1; i = 0, 1, …, L-1  
Hình 2.7: Phân đon tiếng nói thành các khung chng lp  
2.2.1.3 Ly ca sổ  
Bước tiếp theo trong xlý là ly ca stín hiu ng vi mi  
khung để gim thiu sgián đon tín hiu ở đầu và cui mi khung. Mt  
dãy tín hiu con được ly ra tmt tín hiu dài hơn hoc dài vô hn x(n)  
gi là mt ca stín hiu. Vic quan sát tín hiu x(n) bng mt đon  
xN(n) trong khong n0…(n0 + N –1) tương đương vi vic nhân x(n) vi  
mt hàm ca sw(n-n0)  
Công thc 2.5  
x(n) n0 n n0 + N 1  
xN (n) = x(n).w(n n0 ) =  
0
(n < n0 ) (n > n0 + N 1)  
28  
Các dng ca stín hiu  
Trong xlý tín hiu s, các ca sthường dùng được biu din  
thông qua ca sHamming tng quát:  
Công thc 2.6  
⎡α + (1− α).cos(2π.n / N) n N / 2  
w(n) =  
0
n > N / 2  
Tutheo các giá trkhác nhau ca α mà ta có các ca skhác  
nhau:  
• α = 0.54, ta có ca sHamming, đây là dng ca sthường  
được dùng nht.  
• α = 0.5, ta có ca sHanning:  
• α = 1, ta có ca schnht:  
Thêm vào đó, độ rng ca ca scũng có tác động khá ln đến  
kết quca các phép phân tích.  
29  

Tải về để xem bản đầy đủ

pdf 103 trang yennguyen 23/07/2025 700
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nhận dạng tiếng nói tiếng Việt tìm hiểu và ứng dụng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nhan_dang_tieng_noi_tieng_viet_tim_hieu_va_ung_dung.pdf