Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyn Đức Vinh  
PHÂN TÍCH CÂU HI TRONG HTHNG  
HI ĐÁP TING VIT  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyn Đức Vinh  
PHÂN TÍCH CÂU HI TRONG HTHNG  
HI ĐÁP TING VIT  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: ThS. Trn ThOanh  
Cán bộ đồng hướng dn: ThS. Nguyn Cm Tú  
HÀ NI - 2009  
Li cm ơn  
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến  
sĩ Hà Quang Thy, Thc sĩ Trn ThOanh, Thc sĩ Nguyn Cm Tú và Cnhân Trn Mai  
Vũ – nhng người đã tn tình chbo và hướng dn tôi trong quá trình thc hin khoá  
lun tt nghip.  
Tôi chân thành cm ơn các thy, cô và cán bca trường Đại Hc Công Nghệ đã to  
cho tôi nhng điu kin thun li để hc tp và nghiên cu.  
Tôi xin gi li cm ơn chân thành ti cnhân Nguyn Minh Tun đã tn tình htrợ  
vkiến thc chuyên môn, giúp đỡ tôi hoàn thành khóa lun.  
Tôi cũng xin gi li cm ơn ti các anh chvà các bn sinh viên trong phòng thí  
nghim Sislab đã giúp tôi rt nhiu trong vic thu thp và xlý dliu.  
Cui cùng, tôi mun gi li cm ơn ti gia đình và bn bè, nhng người thân yêu  
luôn bên cnh, động viên tôi trong sut quá trình thc hin khóa lun tt nghip.  
Tôi xin chân thành cm ơn !  
Sinh viên  
Nguyn Đức Vinh  
i
Tóm tt  
Trong mười năm gn đây, hthng hi đáp tự động đã nhn được squan tâm đặc  
bit ca các nhà nghiên cu, các công ty (Yahoo, Google, Microsoft, IBM…), các hi  
nghln vtrích chn thông tin, xlý ngôn ngtnhiên (TREC, CLEF, ACL,..) và đã  
đạt được nhng kết qunht định. Tuy nhiên các nghiên cu vhthng hi đáp cho  
tiếng Vit vn còn rt nhiu hn chế.  
Khóa lun Phân tích câu hi trong hthng hi đáp tiếng Vit tp trung vào kho  
sát các phương pháp được áp dng cho xây dng hthng hi đáp trên thế gii, đặc bit  
tp trung nghiên cu pha phân tích câu hi – pha đầu tiên trong hthng hi đáp, có ý  
nghĩa đặc bit quan trng vi hot động ca chthng. Trên cơ scác nghiên cu đó và  
điu kin thc tế ca các công cxlý ngôn ngtiếng Vit, khóa lun tiến hành thc  
nghim vic phân tích câu hi tiếng Vit sdng phương pháp hc máy thng kê và trích  
rút mu quan h. Các kết quban đầu đạt được khá khquan. Bphân lp câu hi cho hệ  
thng hi đáp min mở đạt độ chính xác 81.49% khi sdng thut toán SVM, 81.14 %  
vi mô hình Entropy cc đại. Module phân tích câu hi sdng mu quan hcho hệ  
thng hi đáp trên min du lch đạt độ chính xác 89.7 %.  
ii  
Mc lc  
Tóm tt..................................................................................................................................i  
Mc lc .............................................................................................................................. iii  
Danh sách các bng ............................................................................................................v  
Danh sách các hình............................................................................................................vi  
Li mở đầu ..........................................................................................................................1  
Chương 1. Gii thiu vhthng hi đáp tự động .........................................................3  
1.1. Hthng hi đáp tự động ..........................................................................................3  
1.2. Phân loi hthng hi đáp tự động ...........................................................................5  
1.2.1. Phân loi theo min ng dng (domain).............................................................5  
1.2.2. Phân loi theo khnăng trli câu hi...............................................................6  
1.2.3. Phân loi theo hướng tiếp cn:............................................................................7  
1.3. Các bước chung ca hthng hi đáp tự động..........................................................7  
Chương 2. Phân tích câu hi ...........................................................................................10  
2.1. Ni dung ca phân tích câu hi ...............................................................................10  
2.2. Khó khăn ca phân tích câu hi...............................................................................10  
2.3. Mt sni dung ca xlý ngôn ngtnhiên trong phân tích câu hi...................11  
2.4. Taxonomy câu hi ...................................................................................................14  
2.4.1. Khái nim vtaxonomy....................................................................................14  
2.4.2. Taxonomy câu hi.............................................................................................15  
2.5. Kho sát các phương pháp phân tích câu hi cho các loi câu hi khác nhau ........19  
2.5.1. Câu hi đơn gin (factual-base)........................................................................19  
2.5.2. Câu hi định nghĩa (definition question) ..........................................................21  
2.5.3. Câu hi phc tp, có ràng buc vthi gian.....................................................22  
iii  
Chương 3. Các phương pháp xác định loi câu hi ......................................................24  
3.1. Phương pháp phân lp sdng hc máy thng kê..................................................24  
3.1.2. Các thut toán hc máy thng kê cho vic phân lp ........................................28  
3.1.3. Xây dng bphân lp câu hi theo hc máy thng kê.....................................37  
3.2. Phương pháp xác định loi câu hi sdng kĩ thut xlý ngôn ngtnhiên.......42  
3.3. Phương pháp xác định loi câu hi sdng mu quan h......................................45  
Chương 4. Thc nghim phân tích câu hi tiếng Vit ..................................................47  
4.1. Thc nghim vi phân lp câu hi sdng hc máy thng kê...............................47  
4.1.1. Dliu và công ccho thc nghim ................................................................47  
4.1.2. Kết qubphân lp sdng SVM và MEM ...................................................49  
4.2. Thc nghim vi xác định loi câu hi sdng mu quan h................................51  
4.2.1. Mô hình thc nghim phân tích câu hi sdng mu quan h........................51  
4.2.2. Kết quphân tích câu hi sdng mu quan h..............................................55  
Kết lun .............................................................................................................................58  
Tài liu tham kho............................................................................................................60  
iv  
Danh sách các bng  
Bng 1. Taxonomy câu hi do Li và Roth đưa ra ..............................................................17  
Bng 2. Biu din ca TP, TN, FP, FN trong đánh giá phân lp.......................................27  
Bng 3. Slượng câu hi theo tng lp cha ......................................................................48  
Bng 4. Kết qubphân lp MEM khi sdng unigram .................................................49  
Bng 5. Kết qubphân lp MEM khi sdng tách t....................................................49  
Bng 6. Kết qubphân lp SVM sdng các đặc trưng khác nhau...............................50  
Bng 7. Danh sách các thi .............................................................................................50  
Bng 8. Tp seed tìm được cùng vi mi quan htương ng ...........................................53  
Bng 9. Tp quan hcùng các mu tương ng ..................................................................54  
Bng 10. Các quan hệ được thc nghim trong hthng ..................................................55  
Bng 11. Các công csdng ...........................................................................................55  
Bng 12. Các thành phn chính ca hthng Q&A trên min du lch ..............................56  
Bng 13. Kết quphân tích câu hi trong hthng hi đáp trên min du lch..................56  
v
Danh sách các hình  
Hình 1. Xu hướng trong nghiên cu vQ&A......................................................................6  
Hình 2. Các bước chung ca hthng Q&A........................................................................8  
Hình 3. Kiến trúc cho xlý các câu hi factual-base.........................................................19  
Hình 4. Mi quan hgia các siêu phng phân cách.........................................................30  
Hình 5. Siêu phng ti ưu và biên. .....................................................................................31  
Hình 6. Biến ni lng cho soft margin...............................................................................33  
Hình 7. Mô hình bphân lp đa cp ca Li và Roth .........................................................39  
Hình 8. Xác định loi câu hi sdng kĩ thut xlý ngôn ngtnhiên ..........................43  
Hình 9. Ánh xttrng tâm vào Wordnet.........................................................................44  
Hình 10. Mô hình Snowball ...............................................................................................46  
Hình 11. Mô hình hthng hi đáp tiếng Vit sdng trích xut mu quan h...............52  
Hình 12. Mô hình xlý cho pha phân tích câu hi và trích xut câu trli......................53  
vi  
Li mở đầu  
Nghiên cu vhthng hi đáp tự động (Q&A) đã được quan tâm trt lâu trên thế  
gii. Ngay tnhng năm 1960, các hthng hi đáp đầu tiên sdng cơ sdliu đã  
được ra đời. Đến nhng năm 1970-1980, rt nhiu dán ln hướng đến vic “hiu văn  
bn” và xây dng hthng hi đáp da trên các mô hình ngôn ngthng kê. Cui nhng  
năm 1990, World Wide Web ra đời và phát trin nhanh chóng trthành mt kho ngliu  
khng l. Các nhà nghiên cu vhthng hi đáp cũng bt đầu khai thác web như là mt  
ngun dliu cho vic tìm kiếm câu trli. Các kĩ thut mi đòi hi tc độ cao, khnăng  
xlý lượng dliu web ln đang rt được quan tâm. Tuy nhiên các nghiên cu vxây  
dng hthng hi đáp cho tiếng Vit vn còn rt nhiu hn chế. Mt trong nhng lý do  
chính là chúng ta còn thiếu các công cxlý tiếng Vit, các tài nguyên ngôn nghc  
(Wordnet [28], ontology [30]…).  
Phân tích câu hi là pha đầu tiên trong kiến trúc chung ca mt hthng hi đáp, có  
nhim vtìm ra các thông tin cn thiết làm đầu vào cho quá trình xlý ca các pha sau  
(trích chn tài liu, trích xut câu trli, …). Vì vy phân tích câu hi có vai trò hết sc  
quan trng, nh hưởng trc tiếp đến hot động ca toàn bhthng. Nếu phân tích câu  
hi không tt thì skhông thtìm ra được câu trli.  
Khóa lun Phân tích câu hi trong hthng hi đáp tiếng Vit thc hin kho sát,  
nghiên cu các phương pháp xây dng hthng hi đáp và phân tích câu hi đang được  
quan tâm hin nay, từ đó đưa ra phương pháp phân tích câu hi phù hp nht (trên cơ sở  
các ngun tài nguyên ngôn ngsn có) cho hthng hi đáp tiếng Vit. Nhng nghiên  
cu trong khóa lun có thcoi là tin đề cho các nghiên cu tiếp theo để xây dng mt hệ  
thng hi đáp hoàn thin cho tiếng Vit.  
Khóa lun được trình bày thành bn chương, ni dung được trình bày sơ bnhư  
dưới dây:  
Chương 1. Gii thiu vhthng hi đáp tự động trình bày nhng ni dng cơ bn  
nht vhthng hi đáp và đặt vn đề cho phân tích câu hi.  
Chương 2. Phân tích câu hi trình bày mt cách tng quan các vn đề xung quanh  
vic phân tích câu hi như: ni dung ca phân tích câu hi, nhng khó khăn ca phân tích  
1
câu hi, các ni dung ca xlý ngôn ngtnhiên trong phân tích câu hi, đồng thi kho  
sát các phương pháp phân tích câu hi cho mt sloi câu hi khác nhau. Trong chương  
này cũng chra tm quan trng ca xác định loi câu hi trong phân tích câu hi.  
Chương 3. Các phương pháp xác định loi câu hi trình bày ba phương pháp để  
xác định loi câu hi, phân tích và chn la hai phương pháp ssdng cho phân tích  
câu hi tiếng Vit.  
Chương 4. Thc nghim phân tích câu hi tiếng Vit áp dng các nghiên cu trong  
chương 3 để phân tích câu hi trong hthng hi đáp tiếng Vit.  
Phn kết lun tng kết, tóm lược ni dung và kết quả đạt được ca khóa lun.  
2
Chương 1. Gii thiu vhthng hi đáp tự động  
1.1. Hthng hi đáp tự động  
Hthng hi đáp tự động có thcoi như mt la chn thhai bên cnh hthng  
trích chn thông tin khi người dùng mun tìm kiếm thông tin hcn. Hthng trích chn  
thông tin nhn đầu vào là các tkhóa và trvtp các tài liu liên quan (có cha các từ  
khóa đó). Kết qumà hthng trích chn thông tin (máy tìm kiếm) trli cho người dùng  
là rt ln, có thlên đến hàng nghìn trang web mà phn nhiu không cha thông tin người  
dùng mong mun. Trong khi đó, hthng hi đáp nhn đầu vào là câu hi dưới dng  
ngôn ngtnhiên ca người dùng, trli các đon văn bn ngn (các snippet) cha câu  
trli trc tiếp cho câu hi [38].  
Nghiên cu vhthng hi đáp tự động hin đang thu hút squan tâm ca rt nhiu  
các nhà nghiên cu tcác trường đại hc, các vin nghiên cu và ccác doanh nghip ln  
trong ngành công nghthông tin, có ý nghĩa khoa hc ln ý nghĩa thc tế. Rt nhiu các  
hi nghthường niên vkhai phá dliu, trích chn thông tin dành mt chủ đề riêng cho  
các nghiên cu vhthng hi đáp như TREC1, CLEF2…  
Bài toán xây dng hthng hi đáp là mt bài toán khó thuc lĩnh vc xlý ngôn  
ngtnhiên. Chúng ta biết rng ngôn ngtnhiên vn nhp nhng, đa nghĩa, vic xác  
định được ngnghĩa ca câu hi cũng như phát hin ra câu trli là mt thách thc  
không nh. Không nhng vy, gia câu hi và câu trli còn tn ti các quan h“ngm”  
hay phthuc vào ngcnh.  
Ví dcâu hi  
“Ai là tác giNht ký trong tù ?”  
Câu trli:  
“ HChí Minh viết Nht ký trong tù trong thi gian Người bchính quyn Tưởng  
Gii Thch bt giam và gii đi khp các nhà giam Qung Tây, Trung Quc.”  
1TREC: Text REtrieval Conference. http://trec.nist.gov/  
2 CLEF: The Cross-Language Evaluation Forum. http://www.clef-campaign.org/  
3
“Nht ký trong tù, dch tiếng Hán- Ngc trung nht ký là mt tp thơ ca HChí  
Minh,…”.  
Hay câu hi “Mozart sinh năm nào ?” và câu trli “….Mozart (1751 – 1791)…”.  
Để tìm được câu trli trên cho câu hi, hthng cn có cơ chế để biết được rng  
tác gica mt tp thơ là người viết tp thơ đó” hoc cn hc được các mu thường  
gp ca câu trli (các mu vngày tháng năm sinh, vthi gian, địa ch….) tương ng  
vi tng loi câu hi. Các hthng Q&A trên thế gii hin nay sdng rt nhiu các  
công cxlý ngôn ngnhư: Bgán nhãn tloi (POS Tagger), bnhn dng tên thc  
th(Named Entity Recognizer), bphân tích ngpháp (Parser)… và các tài nguyên ngôn  
ngnhư Wordnet [28], ontology [30] để phân tích câu hi và trích xut câu trli.  
Năm 2000, Carbonell và các đồng nghip trong bài báo The Vision Statement to  
Guide Research in Question Answering and Text Summarization [13] đã đưa ra các tư  
tưởng chung cho vic nghiên cu Q&A. Theo đó mt hthng hi đáp được người dùng  
đánh giá là hu ích nếu đáp ng được các tiêu chun:  
™ Tính hp lý vthi gian (Timeliness): Câu trli phi được đưa ra trong thi gian  
ngn, ngay ckhi có hàng ngàn người dùng cùng truy nhp hthng mt lúc. Các  
ngun dliu mi cn phi được tích hp vào hthng ngay khi chúng sn sàng  
để có thế cung cp cho người dùng câu trli cho nhng câu hi vcác skin có  
tính thi s.  
™ Tính chính xác: Tính chính xác ca hthng hi đáp tự động là cc kì quan trng  
bi vic đưa ra câu trli sai còn tai hi hơn nhiu là không đưa ra câu trli.  
Nghiên cu vQ&A cn tp trung vào vic đánh giá tính đúng đắn ca câu trli  
đưa ra, bao gm cphương thc để phát hin các trường hp mà dliu hin thi  
không cha câu trli cho câu hi. Các thông tin mâu thun trong dliu cũng cn  
được tìm ra và các thông tin này cn được xlý theo mt cách phù hp, nht quán.  
Để đạt được schính xác, hthng Q&A cn được tích hp các ngun tri thc  
(world knowledge ) và cơ chế “bt chước” vic suy lun thông thường (vic bt  
chước có thhiu như là mt quá trình hc).  
™ Tính khdng: Hthng Q&A cn đáp ng được các yêu cu cthca mt  
người dùng. Các ontology trên tng min cthvà ontology trên min mcn  
được tích hp trong hthng. Hthng Q&A cn có khnăng khai phá câu trli  
4
tbt kì dng dliu gì (văn bn, web, cơ sdliu, …) và đưa ra câu trli dưới  
định dng mà người dùng mong mun, cho phép người dùng miêu tngcnh ca  
câu hi và cung cp các thông tin gii thích, trích dn ngun cho câu trli.  
™ Tính hoàn chnh: Câu trli hoàn chnh cho câu hi ca người dùng là điu mà các  
hthng Q&A hướng ti. Trong nhiu trường hp (câu hi vdanh sách, nguyên  
nhân, cách thc…), các phn ca câu trli nm ri rác trong mt văn bn, thm  
chí trong nhiu văn bn. Vì vy cn phi hp nht các phn này da trên các thông  
tin liên kết để to ra câu trli hoàn chnh.  
™ Tính thích hp ca câu trli: Trong ngôn ngtnhiên, câu hi đưa ra luôn gn  
vi ngcnh nào đó và câu trli cũng nm trong mt ngcnh nht định. Câu trả  
li mà hthng Q&A đưa ra phi phù hp ngcnh vi câu hi. Mt hthng  
Q&A có khnăng giao tiếp (interactive Q&A) là cn thiết trong nhiu trường hp  
bi chui các câu hi liên quan đến mt vn đề sgiúp làm sáng tthông tin mà  
người dùng đang hi. Vic đánh giá mt hthng Q&A cn hướng người dùng bi  
ý kiến người dùng là đánh giá tt nht cho tính thích hp ca câu trli.  
Các tiêu chun trên được đặt ra vi mong mun xây dng được mt hthng Q&A  
hoàn chnh. Tuy nhiên, không phi hthng nào cũng có khnăng thông minh và hoàn  
thin như thế. Các nghiên cu vQ&A hin nay đang tp trung vào xây dng hthng  
hi đáp có tính chính xác cao và có khnăng sdng ngun dliu web khng ltrên  
Internet.  
1.2. Phân loi hthng hi đáp tự động  
Có nhiu cách phân loi hthng hi đáp da trên các tiêu chí khác nhau như: phân  
loi theo min ng dng, theo khnăng trli câu hi, theo cách tiếp cn gii quyết bài  
toán…  
1.2.1. Phân loi theo min ng dng (domain)  
Hthng hi đáp min m(open domain Question answering): Hthng trli bt  
kcâu hi nào được đưa vào. Khó khăn cho hthng min mở đó chính là vic xây dng  
các tri thc nên cho vic trli cũng như phân tích câu hi, các phương pháp hin nay  
thường sdng mt scác ontology khái quát hay các mng tri thc như: wikipedia, bách  
khoa từ đin... Tuy nhiên, dliu cho vic trích rút câu trli là phong phú, dthu thp.  
5
Hthng hi đáp min đóng (close domain Question answering): Hthng tp trung  
vào trli các câu hi liên quan đến mt min cth(giáo dc, y tế, ththao...). Xây  
dng hthng hi đáp min đóng được coi là bài toán dhơn so vi xây dng hthng  
hi đáp min mvì có thsdng các tri thc min (thường là ontology ca min cụ  
th).  
Hthng hi đáp  
Min mở  
Min đóng  
Dliu có cu trúc  
Dliu phi cu trúc (text)  
Mt văn bn đơn  
Web  
Tp dliu ln  
Hình 1. Xu hướng trong nghiên cu vQ&A  
Các nghiên cu hin nay vQ&A đang tp trung vào xây dng hthng hi đáp  
trên min m, sdng ngun dliu phi cu trúc (kho văn bn ln hay dliu web) để  
tìm câu trli. Các nghiên cu mi và ci tiến nhng phương pháp cũ để có tháp dng  
cho ngun dliu web vn đa dng, nhiu “nhiu” và trùng lp đang rt được quan tâm  
[27] (Hình 1).  
1.2.2. Phân loi theo khnăng trli câu hi  
Hthng có khnăng trli các câu hi liên quan đến svt, hin tượng,... da trên  
vic trích ra câu trli có sn trong tp tài liu. Câu trli là các chui ký ttrong mt tài  
liu. Kthut chính được sdng là xlý chui và tkhóa.  
6
Hthng có cơ chế lp lun đơn gin: Trích xut các câu trli có sn trong tp tài  
liu sau đó sdng các suy lun để tìm mi liên kết gia câu trli và câu hi. Hthng  
sdng các ngun tri thc như ontology vtng min cthvà ontology chung.  
Hthng trli các câu hi yêu cu khnăng tng hp: Các phn ca câu trli  
được trích rút tnhiu tài liu sau đó được tng hp li thành câu trli hoàn chnh. Câu  
hi thường là vdanh sách, vcách thc, nguyên nhân...  
Hthng có khnăng giao tiếp vi người dùng: Trli chui các câu hi ca người  
dùng vcùng mt vn đề. Ví dcác câu hi ca người dùng như: “Giáo sư A sinh năm  
nào? Ở đâu? Ông y đang công tác ở đâu?”.  
Hthng có khnăng lp lun tương t: Có thtrli các câu hi có tính cht suy  
đoán, câu trli n trong tp tài liu. Hthng cn trích ra các lun chng và sdng lp  
lun tương tự để tìm ra câu trli [19].  
1.2.3. Phân loi theo hướng tiếp cn:  
Hướng tiếp cn nông (shalow): Nhiu phương pháp sdng trong Q&A dùng các kĩ  
thut da trên tkhóa để định vcác câu, đọan văn có khnăng cha câu trli tcác  
văn bn được trích chn v. Sau đó gili các câu, đon văn có cha chui ký tcùng  
loi vi loi câu trli mong mun (ví dcác câu hi vtên người, địa danh, số  
lượng…).  
Hướng tiếp cn sâu (deep): Trong nhng trường hp khi mà hướng tiếp cn bmt  
không thtìm ra câu trli, nhng quá trình xlý vngpháp, ngnghĩa và ngcnh là  
cn thiết để trích xut hoc to ra câu trli. Các kĩ thut thường dùng như nhn dng  
thc th(named-entity recognition), trích xut mi quan h, loi bnhp nhng ngữ  
nghĩa,… Hthng thường sdng các ngun tri thc như Wordnet, ontology để làm giàu  
thêm khnăng lp lun thông qua các định nghĩa và mi liên hngnghĩa. Các hthng  
hi đáp da theo mô hình ngôn ngthng kê cũng đang ngày càng phbiến.  
1.3. Các bước chung ca hthng hi đáp tự động  
Mt hthng hi đáp tự động thường gm 3 bước chung sau:  
Bước1-Phân tích câu hi: Bước phân tích câu hi to truy vn cho bước trích chn  
tài liu liên quan và tìm ra nhng thông tin hu ích cho bước trích xut câu trli  
7
Bước2-Trích chn tài liu liên quan: Bước này sdng câu truy vn được to ra ở  
bước phân tích câu hi để tìm các tài liu liên quan đến câu hi.  
Bước3-Trích xut câu trli: Bước này phân tích tp tài liu trvtbước 2 và sử  
dng các thông tin hu ích do bước phân tích câu hi cung cp để đưa ra câu trli chính  
xác nht.  
Câu hi  
Phân tích câu hi  
Trích chn tài liu liên  
Trích xut câu trli  
Câu trli  
Hình 2. Các bước chung ca hthng Q&A  
Các hthng hi đáp tự động hin nay có kiến trúc rt đa dng, tuy nhiên chúng đều  
bao gm ba phn cơ bn như trên [15,18,27]. Skhác nhau chính gia các hthng là ở  
quá trình xlý trong tng bước, đặc bit là cách tiếp cn trong vic xác định câu trli.  
Cách tiếp cn theo trích chn thông tin thun túy (pure IR) là: chia nhmt tài liu  
trong tp dliu thành chui các tài liu con, trích chn các tài liu con có độ tương đồng  
ln nht vi câu truy vn (do bước phân tích câu hi to ra) và trli chúng cho người  
dùng.Thách thc ln nht ở đây là làm sao chia nhỏ được tài liu thành các phn vi kích  
ctương ng vi kích cca câu trli mà vn đủ ln để có thể đánh chmc được (nếu  
chia quá nhthì slượng tài liu để đánh chmc srt ln, gây gánh nng cho hthng  
trích chn thông tin).  
8
Cách tiếp cn theo xlý ngôn ngtnhiên (pure NLP) là: so khp gia biu din  
ngpháp và (hoc) biu din ngnghĩa ca câu hi vi dng biu din ngpháp, ngữ  
nghĩa ca các câu trong các tài liu liên quan trv. Khó khăn ca cách tiếp cn này là hệ  
thng phi thc hin vic phân tích ngpháp, ngnghĩa và so khp đủ nhanh để đưa ra  
câu trli trong thi gian chp nhn được, bi slượng các tài liu cn xlý là rt ln  
trong khi các bước phân tích trên li phc tp và tn nhiu thi gian.  
Skhác nhau trong cách trích xut câu trli dn đến vic phân tích câu hi cũng  
trnên đa dng. Trong hướng tiếp cn theo trích xut thông tin thun túy, phân tích câu  
hi chcn làm tt vic to truy vn, trong khi vi hướng tiếp cn theo xlý ngôn ngtự  
nhiên, câu hi cn được phân tích ngpháp, ngnghĩa mt cách chính xác. Các hthng  
hin nay thường là skết hp gia hai hướng tiếp cn, sdng hthng trích chn thông  
tin để thu hp không gian tìm kiếm câu trli, đồng thi phân tích câu hi để tìm ra các  
thông tin vngpháp, ngnghĩa nhm tìm ra câu trli chính xác nht. Kết quca  
bước phân tích câu hi là đầu vào cho chai bước trích chn tài liu liên quan và trích  
xut câu trli. Bước phân tích câu hi có ý nghĩa rt quan trng, bi nó nh hưởng đến  
hot động ca các bước sau và do đó quyết định đến hiu quca toàn hthng. Chương  
2 trình bày chi tiết các ni dung liên quan đến phân tích câu hi.  
9
Chương 2. Phân tích câu hi  
2.1. Ni dung ca phân tích câu hi  
Bài toán phân tích câu hi: Phân tích câu nhn đầu vào là câu hi dưới dng ngôn  
ngtnhiên ca người dùng, đưa ra câu truy vn cho bước trích chn tài liu liên quan  
các thông tin cn thiết cho bước trích rút câu trli.  
Câu truy vn là dng thp ca các tkhóa quan trng trong câu hi (và các từ  
khóa mrng) vi các phép toán tp hp AND, OR. Các kĩ thut biến đổi câu hi thành  
câu truy vn được trình bày trong phn 2.5.1.  
Các thông tin cn thiết để trích xut câu trli là rt đa dng, tùy phuc vào phương  
pháp trích xut câu trli. Thông thường các thông tin đó là mc đích ca câu hi (ví dụ  
mc đích hi để khng định mt điu, để so sánh hay để tìm kiếm thông tin, để hi về  
định nghĩa, cách thc…), loi câu trli mong đợi (question target hay answer type). Ví  
dcâu hi “Dân sVit Nam là bao nhiêu”, câu trli được mong đợi là mt “con s”  
hay câu hi “Ai là tng thng Mthì loi câu trli là mt “tên người”. Mt sthông  
tin hu ích cho trích xut câu trli khác như định dng ca câu trli (người hi mun  
câu trli là mt dng ngn gn như con s, tên người, địa chhay là mt đon văn bn  
dài về định nghĩa, mô t, nguyên nhân, …), dng biu din ngpháp, ngnghĩa ca câu  
hi để so khp (matching) và xếp hng (ranking) các câu trli.  
2.2. Khó khăn ca phân tích câu hi  
Câu hi đầu vào ca hthng hi đáp tự động là câu hi dưới dng ngôn ngtự  
nhiên ca người dùng. Vì vy vic phân tích câu hi cũng gp nhng khó khăn ca xlý  
ngôn ngtnhiên. Theo HTú Bo và Lương Chi Mai [1], cái khó nm chlàm sao  
cho máy tính được hiu ngôn ngcon người, tvic hiu nghĩa tng ttrong mi hoàn  
cnh cth, đến vic hiu nghĩa ca ccâu hi, hiu câu hi đang hi vcái gì và người  
hi mong mun cái gì. Mu cht ở đây là bn cht phc tp ca ngôn ngca con người,  
đặc bit là sự đa nghĩa và nhp nhng ngnghĩa ca ngôn ng. Thêm na, có mt khác  
bit sâu sc là con người ngm hiu và dùng quá nhiu lthường (common sense) trong  
ngôn ng, như khi hi v“thi tiết” thì tc là hi v“nhit độ, độ ẩm, mưa, nng …”, hay  
10  
biết “si dây” thì dùng để kéo chkhông dùng để đẩy hay khu các vt, trong khi rt khó  
làm cho máy hiu các lthường này.  
Cùng hi vmt thông tin nhưng câu hi có thể được din đạt theo nhiu cách khác  
nhau, sdng tng, cu trúc câu khác nhau, lúc dng nghi vn, lúc li dng khng  
định. Vì vy cn thiết phi có mt mô hình ngnghĩa để hiu và xlý câu hi, có khả  
năng nhn din được các câu hi tương đương bt kdng khng định, nghi vn hay  
các tngvà quan hngpháp gia chúng khác nhau hoc các dng thành ng, tu t.  
Mô hình này cũng cn có khnăng chuyn đổi các câu hi phc tp thành chui các câu  
hi đơn gin hơn, có thxác định được các nhp nhng và xlý chúng theo ngcnh  
hoc sdng cách thc giao tiếp vi người dùng để làm rõ ngnghĩa.  
Xlý câu hi cũng cn phi có cơ chế để xlý các câu hi tiếp sau liên quan đến  
cùng mt vn đề ca câu hi trước, sdng các thông tin thu được câu hi trước để làm  
sáng tcâu hi tiếp sau, cao hơn na là có thể đối thoi vi người dùng theo chui các  
câu hi và câu trli.  
2.3. Mt sni dung ca xlý ngôn ngtnhiên trong phân tích câu hi  
Đầu vào ca pha phân tích câu hi là câu hi dng ngôn ngtnghiên, do đó phân  
tích câu hi có liên quan đến mt sni dung ca xlý ngôn ngtnhiên. Theo [1] vic  
xlý ngôn ngtnhiên thường bao gm các bước (tng, layer) cơ bn sau:  
™ Tng hình thái (morphological layer): Nghiên cu vcác thành phn có nghĩa ca  
t(word), như từ được to ra bi các hình v(morphemes) và từ được tách ra trong  
mt câu thế nào. Thí d, t“tiếng Vit” to thành t“t-iế-ng V-i-t”, còn ngữ  
(phrase) “xlý tiếng Vit” to thành gm hai t“xlý” “tiếng Vit”. Trong  
tiếng Vit, mt bài toán quan trng là phân tách t(word segmentation). Mt thí  
dquen thuc là câu “Ông già đi nhanh quá” có thphân tách thành (Ông già)  
(đi) (nhanh quá) hoc (Ông) (già đi) (nhanh quá) hoc nhng cách khác na.  
™ Tng ngpháp (syntactic layer): Nghiên cu các quan hcu trúc gia các t, xem  
các từ đi vi nhau thế nào để to ra câu đúng. Quá trình này thường được cthể  
trong các bước cơ bn sau:  
11  
o Xác định tloi (POS tagging): Xem mi ttrong câu là loi gì (danh t,  
động t, gii t, …). Trong thí dtrên, có th“Ông già” là danh t, “đi” là  
động t, “nhanh” là trng t, và “quá” là thán t.  
o Xác định cm t(chunking): Thí d“Ông già” là cm danh t, “đi” là cm  
động t, “nhanh quá” là cm trng t. Như vy câu trên có hai phân tích  
(Ông già) (đi) (nhanh quá) hoc (Ông) (già đi) (nhanh quá).  
o Xác định quan hngpháp(parsing): (Ông già) (đi) (nhanh quá) là quan hệ  
chng-vng-trng ng.  
™ Tng ngnghĩa (semantic layer): Nghiên cu xác định nghĩa ca tng tvà thp  
ca chúng để to nghĩa ca câu. Thí dtrong phân tích (Ông già) (đi) (nhanh quá),  
động tđi” có thcó nghĩa “bước đi”, hay “chết” hay “điu khin” (khi đánh c),  
… và tương ng ta có các nghĩa khác nhau ca câu.  
™ Tng ngdng (pragmatic layer): Nghiên cu mi quan hgia ngôn ngvà ngữ  
cnh sdng ngôn ng(context-of-use). Ngdng nghiên cu vic ngôn ngữ được  
dùng để nói vngười và vt như thế nào.  
Vic phân tích câu hi các tng ttng hình thái đến tng ngpháp gi là phân  
tích sơ b(shallow parsing). Nếu phân tích thêm ctng ngnghĩa ta scó phân tích đầy  
đủ (fully parsing). Phân tích câu hi đến tng nào cũng tùy thuc vào tng hthng, vào  
phương pháp trích xut câu trli và các công chtrphân tích ngôn ngữ đến đâu.  
Hthng AskMSR [8,12] đưa ra phương pháp phân tích câu hi và trích xut câu trả  
li rt đơn gin, chphân tích câu hi tng hình thái, sdng các tvng trong câu hi  
để tìm ra các câu trli ng viên. Theo Michele Banko [8] thì đối vi nhiu câu hi dng  
đơn gin, hi vcác svt, hin tượng, … (factual-base question) thì dng ca câu hi và  
câu trli khá tương đồng nhau.  
Ví dvi câu hi: “Where is the Louvre Museum located ?”  
câu trli thường có dng “…Louvre Museum is located at/in/near …”  
Hay câu hi:  
“What is search engine ?”  
“…search engine is …”.  
thì câu trli có dng:  
12  
Vì vy bước phân tích câu hi trong AskMSR là viết li câu hi dưới dng truy vn  
thích hp cho module tìm kiếm tài liu. Vi câu hi đầu vào, hthng sviết li câu hi  
theo mt scách để sinh ra các chui kí tự được cho là mt phn ca câu trli. Vic viết  
li câu hi chda vào xlý chui đơn gin, không sdng các bphân tích ngpháp  
hay gán nhãn tloi mà dùng các lut và trng scho tng lut do con người tlàm. Ưu  
đim ca phương pháp này là đơn gin, tuy nhiên li không tháp dng được vi các câu  
hi phc tp, hoc không trích được câu trli trong tp dliu do không có tài liu nào  
cha câu trli có dng tương tvi câu hi.  
Hthng Webclopedia li phân tích câu hi kĩ hơn ti mc ngpháp. Các bước  
chính ca hthng bao gm:  
™ Phân tích ngpháp cho câu hi: sdng bphân tích cú pháp CONTEX  
™ To truy vn: To truy vn bng cách kết hp các từ đơn và cm ttrong câu hi,  
sdng Wordnet để mrng truy vn.  
™ Trích chn thông tin IR: HIR trvdanh sách có xếp hng ca 1000 tài liu liên  
quan .  
™ Phân đon: Mc đích nhm gim khi lượng dliu cn xlí. Các tài liu được  
chia nhthành các đon (segments) có sliên kết vngnghĩa (các đon văn  
trong 1 tài liu,…).  
™ Xếp hng các đon: Mi đon văn bn được đánh trng stheo công thc về độ  
trùng lp tvà cm tvi câu hi và truy vn mrng, theo đó các tcó trong  
câu hi có trng s2, từ đồng nghĩa có trng s1, các tkhác có trng s0. Sau  
đó các đon được sp xếp theo trng sgim dn.  
™ Phân tích ngpháp cho các đon: Sdng CONTEX để phân tích cú pháp cho  
các câu trong top 100 đon đã xếp hng.  
™ Xác định câu trli: Vi mi câu, ba bước so khp (matching) được thc hin,  
trong đó hai bước thc hin vic so sánh biu din cú pháp ca câu hi và câu,  
bước 3 thc hin vic tính độ match trên mc tvà cm tbng phương pháp ca  
strượt.  
™ Xếp hng câu trli: Các câu trli ng viên (câu được phân tích bước trước)  
được sp xếp theo độ match. Hthng trvcâu trli có độ match tt nht.  
13  
Như đã nói phn trên, có rt nhiu cách din đạt để hi vcùng mt thông tin, và  
cũng có nhiu cách để đưa ra câu trli. Nhng dng biến đổi này hình thành nên mt lp  
câu hi và lp câu trli có ngnghĩa tương đồng. Người dùng có thhi vi bt kì dng  
nào ca câu hi và tp tài liu cũng có thcha bt kì dng nào ca câu trli, do đó hệ  
thng hi đáp cn có khnăng gp các loi câu hi và câu trli tương đồng vi nhau  
[19]. Vi mt câu hi bt kì nếu xác định được loi câu hi thì có thbiết được các dng  
ca câu trli do có mi liên hmt thiết gia loi câu hi và loi câu trli.  
Tuy nhiên stương đương ngnghĩa cũng không rõ ràng, kccác biến thnhỏ  
cũng to ra skhác bit. Ví dvi câu hi “Ai phát minh ra bóng đèn đin ?”, câu trli  
có thchp nhn là “Thomas Edison” hoc “mt nhà phát minh người M. Trong khi  
câu hi “Tên người phát minh ra bóng đèn đin?” thì chchp nhn câu trli “Thomas  
Edison. Điu này dn đến vic tchc loi câu hi, loi câu trli dưới dng phân cp,  
cho phép câu trli cho lp con có thtrli được cho lp cha, nhưng không thcó  
chiu ngược li. Như ví dtrên thì có thcoi câu hi thnht là v“Con người” –  
PERSON , còn câu hi thhai là v“Danh triêng chngười” – PROPER NAME và lp  
PROPER NAME là lp con ca lp PERSON.  
Nhiu nghiên cu trước đây vQ&A đều có sdng mt cách phân loi câu hi nào  
đó. Có hthng phân loi theo từ để hi (who, what, when …), có hthng phân loi câu  
hi theo loi câu trli. Phn tiếp theo ca khóa lun kho sát các các cách phân loi câu  
hi hay còn gi là taxonomy câu hi.  
2.4. Taxonomy câu hi  
2.4.1. Khái nim vtaxonomy  
Vào nhng năm 90 ca thế kXX, khái nim taxonomy được sdng trong nhiu  
lĩnh vc khác nhau như tâm lý hc, khoa hc xã hi và công nghthông tin... để thiết lp  
strùng hp gia thut ngca người sdng và thut ngca hthng. Các chuyên gia  
đầu tiên phát trin cu trúc hthng Web đã dùng thut ngtaxonomy để nói vtchc  
ni dung các trang web. Và từ đó, khái nim taxonomy được sdng rng rãi vi mc  
đích này.  
14  
Do được sdng trong nhiu lĩnh vc khác nhau, nên có nhiu định nghĩa khác  
nhau vtaxonomy. Tnăm 2000 đến năm 2005, có khong 36 định nghĩa1 khác nhau về  
taxonomy trong các ngun tài liu. Trong lĩnh vc công nghthông tin, taxonomy được  
định nghĩa như sau:  
Định nghĩa: Taxonomy là sphân loi ca toàn bthông tin trong mt hphân cp  
theo mt mi quan hcó trước ca các thc thtrong thế gii thc mà nó biu din.  
Mt taxonomy thường được mô tvi gc trên cùng, mi nút ca taxonomy – bao  
gm cgc – là mt thc ththông tin đại din cho mt thc thtrong thế gii thc. Gia  
các nút trong taxonomy có mt mi quan hệ đặc bit gi là is subclassification of nếu  
hướng liên kết tnút con lên nút cha hoc là is superclassification of nếu hướng liên kết  
tnút cha xung nút con. Đôi khi nhng quan hnày được xác định mt cách cht chẽ  
hơn là is subclass of hoc is superclass of, nếu thc ththông tin là mt lp đối tượng.  
2.4.2. Taxonomy câu hi  
Trong Q&A Roadmap [10] đã chra rng taxonomy câu hi là rt cn thiết trong  
nghiên cu vQ&A. Các nghiên cu vtaxonomy câu hi đã được nhiu nhà nghiên cu  
quan tâm, trên các mt vngôn nghc, triết hc, xã hi hc, có nn tng lý thuyết ln  
thc nghim.  
Năm 1972, Robinson và Rackstraw đã nghiên cu vcách sdng các từ để hi  
trong tiếng Anh, theo đó “the Five Ws” (Who, What, When, Where, Why, và How) là  
cách phân loi câu hi thông thường và đơn gin nht. Có lbi “the Five Ws” là cách  
suy nghĩ rt tnhiên khi đặt câu hi ca người dùng tiếng Anh nên nó rt phbiến trong  
các tài liu và trong hi đáp thông thường. Robinson và Rackstraw đã dành 2 tp sách  
[31,32] để kho sát vwh-words, hình thc câu hi da vào wh-words và câu trli cho  
các câu hi này. Robinson và Rackstraw định nghĩa wh-words là “tp hoàn toàn ca các  
từ để hi vmt tvng” (“the total set of lexically marked interrogative words”).  
(1972a). Họ đưa ra mt taxonomy câu hi 7 lp bao gm:Who, Which, What, When,  
Where, Why, How.  
Có hai vn đề vi taxonomy trên là: Câu hi không nht thiết phi là câu có sdng  
từ để hi wh-words và không phi câu nào có sdng từ để hi wh-words cũng đều là  
1 http://www.hipertext.net/english/pag1011.htm#origenNota2  
15  
câu hi. Mt câu hi có dng ca mt câu phát biu nhưng có thể được hiu và chp nhn  
như là mt câu hi. Ví dcâu “I’m looking for the name of the Secretary of State under  
Clinton” tương đương vi câu “Who was the Secretary of State under Clinton?”. Các  
cách nói tu t, biu cm rt hay sdng các twh-words ví dcâu “What a beautiful  
car!” hay “Why me?” đều không phi là các câu có mc đích hi.  
Mt vài hthng Q&A trong hi nghTREC sdng wh-words như là các tiêu  
chun chính trong phân tích và biu din logic ca câu hi [18,29]. Mt shthng chia  
nhcác lp câu hi wh-words thành các lp con nhm cho phép hthng Q&A có thể  
nhn din được “kiu ngnghĩa (semantic types) ca câu trli mong mun”. Dan  
Moldovan và đồng nghip đưa ra mt taxonomy phân loi câu hi phân cp theo ctừ để  
hi ln loi câu trli mong mun tương ng [29].  
Eduard Hovy [18] chra rng vic phân lp câu hi theo loi ngnghĩa ca câu trả  
li là rt quan trng. Ví dcâu hi “How tall is Mt. Everest?”, hthng Q&A chcó thể  
trli được câu hi này được nếu nó biết rng câu trli được mong đợi scha mt đại  
lượng vkích thước. Nhiu hQ&A sdng bnhn dng thc th(Named Entity  
Recognizer) có khnăng nhn din được tên người, tên tchc, con s, thi gian, địa  
đim…để htrvic tìm câu trli khi biết được loi câu trli là gì và thu được độ  
chính xác rt cao. Eduard Hovy trong [19] đã kho sát 17384 câu hi và câu trli tương  
ng được thu thp ttrang web answers.com và đưa ra taxonomy câu hi da trên loi  
ngnghĩa ca câu trli vi 94 nút trong đó có 47 nút lá. Mi nút đều được chú thích bi  
các câu hi, câu trli ví dvà các mu câu hi, câu trli tiêu biu ca lp.  
Cùng nghiên cu vphân lp câu hi theo loi câu trli, Li và Roth [25, 26] đã  
đưa ra taxonomy phân cp theo sphân loi ngnghĩa tnhiên ca câu trli cho các  
câu hi được kho sát thi nghTREC. Cu trúc phân cp bao gm 6 lp câu hi thô  
(coarse classes) là ABBREVIATION (viết tt), ENTITY (thc th), DESCRIPTION (mô  
t), HUMAN (con người), LOCATION (địa đim) và NUMERIC VALUE (giá trs). Mi  
lp câu hi thô li được phân chia thành các lp con (fine class). Taxonomy câu hi ca  
Li và Roth được trình bày chi tiết trong bng 1.Taxonomy này cùng bdliu câu hi đã  
gán nhãn ca Li và Roth được nhiu nhóm nghiên cu sdng li bi nó bao phủ được  
hu hết các loi câu hi thường gp trong thc tế. Trong thc nghim chương 4 chúng tôi  
cũng sdng taxonomy này cho phân lp câu hi tiếng Vit.  
16  
Bng 1. Taxonomy câu hi do Li và Roth đưa ra  
Định nghĩa  
Nhãn lp  
ABBREVIATION  
abb  
Dng viết tt  
Dng viết tt  
exp  
ý nghĩa ca tviết tt  
Thc thể  
ENTITY  
animal  
Động vt  
body  
Các bphn cthế  
Màu sc  
color  
creative  
currency  
dis.med.  
event  
Phát minh, sách và các sáng to khác  
Tin tệ  
Bnh tt và y hc  
Skin  
food  
Đồ ăn  
instrument  
lang  
Dng câm nhc  
Ngôn ngữ  
letter  
Chcái ( kí t)  
Các thc thkhác  
Thc vt  
other  
plant  
product  
religion  
sport  
Sn phm  
Tôn giáo, tín ngưỡng  
Ththao  
substance  
symbol  
technique  
term  
Nguyên t, vt cht  
Biu tượng, kí hiu  
Kĩ thut và phương pháp  
Thut ngtương đương  
Phương tin giao thông  
Tvi tính cht đặc bit  
Mô tvà các khái nim tru tung  
Định nghĩa vmt thú gì đó  
vehicle  
word  
DESCRIPTION  
definition  
17  
description  
manner  
reason  
HUMAN  
group  
Mô tvmt thđó  
Cách thc ca hành động  
Lý do  
Con người  
Mt nhóm người hoc mt tchc  
Mt cá nhân riêng lẻ  
Tư cách, danh nghĩa, chc vca mt người  
Mô tvmt người nào đó  
Địa đim  
ind  
title  
description  
LOCATION  
city  
Thành phố  
country  
mountain  
other  
Đất nước  
Núi  
Các địa đim khác  
Bang, tnh thành  
Giá trsố  
state  
NUMERIC  
code  
Mã thư tín và các mã khác  
Slượng ca cái gì đó  
Ngày tháng  
count  
date  
distance  
money  
order  
Khong cách, đo lường tuyến tính  
Giá cả  
Thhng  
other  
Các skhác  
period  
percent  
speed  
Khong thi gian  
Phn trăm  
Tc độ  
temp  
Nhit độ  
size  
Kích thước, din tích, thtích  
Cân nng  
weight  
18  
2.5. Kho sát các phương pháp phân tích câu hi cho các loi câu hi khác  
nhau  
Trong hi nghTREC, các câu hi được chia thành mt sloi sau: câu hi đơn gin  
(factual-base question), câu hi định nghĩa (definition question), câu hi danh sách (list  
question), câu hi phc tp (complex question),…. Mi loi câu hi có nhng đặc trưng  
riêng và hướng tiếp cn khác nhau.  
2.5.1. Câu hi đơn gin (factual-base)  
Câu hi factual-base là nhng câu hi vcác svt, skin đơn l,.. có câu trli là  
nhng đon văn bn ngn nm sn trong tài liu. Kiến trúc thông thường để xlý loi câu  
hi này như sau (Hình 3): Câu hi đầu vào được phân lp theo loi ngnghĩa ca câu trả  
li và biến đổi sang dng truy vn. Câu truy vn được sdng để tìm kiếm các tài liu có  
liên quan đến câu hi, loi câu hi được sdng trong phn trích xut câu trli nhm  
thu hp không gian tìm kiếm và kim tra câu trli có chính xác hay không [35].  
Loi câu hi  
Câu  
trli  
Phân tích  
câu hi  
Trích chn  
tài liu liên  
quan  
Trích xut  
câu trli  
Truy vn  
Tài liu  
Câu hi  
WordNet  
WordNet  
Parser  
NER  
Parser  
NER  
Kho tài  
li
Hình 3. Kiến trúc cho xlý các câu hi factual-base  
Như vy, hai công vic chính ca pha xlý câu hi vi loi câu hi này là xác định loi  
câu hi và to truy vn cho hIR (information retrieval) trích chn tài liu liên quan.  
Xác định loi câu hi  
Xác định loi câu hi có ý nghĩa rt quan trng trong phân tích các câu hi factual  
base, đặc bit là vic phân loi câu hi theo loi ngnghĩa ca câu trli (như mc 2.3 đã  
19  
trình bày). Có nhiu cách để xác định loi câu hi như: xây dng bphân lp câu hi sử  
dng hc máy thng kê, xác định câu hi sdng các kthut ca xlý ngôn ngtự  
nhiên, xác định loi câu hi da vào so khp vi các mu quan hcó sn. Ni dung chi  
tiết ca các phương pháp này được trình bày chương 3.  
To truy vn tcâu hi  
Vn đề ca to truy vn là la chn các tkhóa trong câu hi và kết hp chúng để  
to ra câu truy vn không quá chung chung, cũng không quá chi tiết. Chiến lược được sử  
dng để trích ra các tkhóa quan trng là sdng độ ưu tiên: Độ ưu tiên cao nht được  
gán cho các ttrong du nháy kép hoc nháy đơn, tiếp đến là các cm danh t, danh t,  
động t, tính t, trng t. Các tdng, gii t, trợ động từ được bqua.  
Nhiu hthng Q&A có độ hi tưởng (tlcâu trli đưa ra trên câu hi đầu vào)  
rt thp. Mt snguyên nhân chính bao gm: module phân tích câu hi không nhn din  
được câu hi thuc loi nào hoc không tìm được các mu khp vi câu hi, module trích  
chn thông tin (IR) không tìm ra được các tài liu có cha câu trli, module trích xut  
câu trli không thtìm ra câu trli tha đáng cho câu hi. Vì vy vi module trích  
chn thông tin trong hthng Q&A, độ hi tưởng là quan trng hơn so vi độ chính xác  
bi các module sau có thlc ra các tài liu không liên quan, nhưng không thtìm ra  
được câu trli nếu các tài liu cha câu trli không được trvtIR [34] .  
Các nghiên cu trước đây nhm làm tăng độ hi tưởng ca IR đều tp trung vào vic  
thu nhskhác bit vmt hình thái, tvng và ngnghĩa gia các txut hin trong  
truy vn và trong tài liu cha câu trli.  
Vmt hình thái, có hai cách được sdng [9,34]:  
- Áp dng kĩ thut stemming cho tp dliu được đánh chmc và các ttrong  
truy vn (stemming là chuyn tt ccác dng biến thca mt tthành tgc, ví  
d“expand”, “expanded”, “expansion”, “expandable”đều được chuyn  
thành “expand”).  
- Đánh chmc cho các ttrong tài liu mà không sdng stemming. Sdng kĩ  
thut mrng hình thái (morphological expansion – ví dt“expands” được  
mrng thành {“expands”,“expand”, “expanded”, “expansion”, “expandable”  
, … } ) cho các tkhóa trong câu hi khi to truy vn.  
20  
Vmt tvng và ngnghĩa, phương pháp hay được sdng đó là: các ttrong  
truy vn được mrng bi tp các từ đồng nghĩa, các khái nim có nghĩa khái quát hơn  
hoc chuyên môn hơn, chi tiết hơn hoc bi các tliên quan. Phương pháp này đòi hi  
phi có các ngun tri thc vngôn ng, tvng như Wordnet hoc Ontology.  
Moldovan trong [29] đã chra rng ttrng tâm ca câu hi (question focus – xem  
trong phn 3.2) thường không xut hin trong tài liu cha câu hi. Vi các câu hi có từ  
trng tâm là “tnh thành”, “thành ph”, “đất nước”, “ngày tháng”… thì câu trli scha  
các thhin cthca các tnày (ví dvi “đất nước” thì slà “Vit Nam”, “Trung  
Quc”… chkhông nht thiết phi là “đất nước Vit Nam”). Vì vy các ttrng tâm ca  
câu hi thường không được sdng để làm tkhóa to truy vn.  
2.5.2. Câu hi định nghĩa (definition question)  
Câu hi định nghĩa hi về định nghĩa hoc mô tvmt điu, mt khái nim gì đó.  
Các câu hi thường gp có dng như “Máy tìm kiếm là gì”, “Định nghĩa khai phá dữ  
liu”, “Bush là ai ?”…  
Câu trli cho loi câu hi này rt đa dng, rt nhiu đon văn bn ngn có thcoi  
là câu trli chp nhn được. Ví dvi câu hi “Who is George W. Bush ?” thì các câu  
trli có thlà:  
“… George W. Bush, the 43rd President of the United States…”  
“George W. Bush defeated Democratic incumbent Ann Richards to become the 46th  
Governor of the State of Texas…”  
……  
Vi loi câu hi định nghĩa, phương pháp thường hay được sdng là so khp mu  
(pattern matching) [17].  
Ví dvcác mu câu hi và mu câu trli  
Mu câu hi What <be> a <Q> ?  
<Q> là gì?  
Who <be> <Q> ?  
<Q> là ai?....  
<Q> - <A>  
Mu trli  
<Q>, the <A>  
<Q> (a <A>)  
<Q> - mt loi <A>  
<Q> là <A> ….  
<Q> is a|the <A>  
21  
Ưu đim: Có độ chính xác khá cao.  
Nhược đim: Các mu khó có thbao quát được hết các trường hp đa dng ca câu hi  
và câu trli.  
2.5.3. Câu hi phc tp, có ràng buc vthi gian  
Phương pháp trình bày trong phn 2.5.1 có thtrli được các câu hi đơn gin  
factual base có tngdin đạt thi gian đơn gin như: “HChí Minh sinh năm nào” hoc  
“Ai là thtướng Vit Nam năm 2009 ?”. Tuy nhiên nhiu câu hi phc tp đòi hi phi  
phát hin ra các thuc tính vthi gian hoc thtdin ra ca skin. Ví d“Ai là tng  
bí thư Đảng Cng Sn Vit Nam trong chiến thng lch sử Đin Biên Ph”.  
Câu hi liên quan đến thi gian được chia làm 4 loi [33]:  
Loi 1: Câu hi vmt skin đơn l, không có biu đạt vthi gian (temporal  
expressions)  
Đại hc Công Nghthành lp khi nào ?”.  
Loi 2: Câu hi vmt skin đơn l, có biu đạt vthi gian  
Đội tuyn nào ca Đại hc công nghtham dcuc thi ACM quc tế năm 2009”  
Ràng buc thi gian: năm 2009.  
Loi 3: Câu hi có nhiu skin, có biu đạt vthi gian  
“Vit Nam đạt được nhng thành tu gì sau khi chính sách mca năm 1987 được  
thông qua ? ”  
Tín hiu thi gian: sau khi  
Ràng buc thi gian: năm 1987  
Loi 4: Câu hi có nhiu skin, không có biu đạt vthi gian  
“Dân sthế gii là bao nhiêu trước chiến tranh thế gii th2”  
Tín hiu thi gian: trước  
Các tín hiu thi gian trong Tiếng Vit như: sau, sau khi, trước, trước khi, trong khi,  
khi, trong thi gian, …Các biu đạt vthi gian là các tvngày, tháng, năm, thế k,…  
22  

Tải về để xem bản đầy đủ

pdf 71 trang yennguyen 13/06/2025 80
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_phan_tich_cau_hoi_trong_he_thong_hoi_dap_tieng_vie.pdf