Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyễn Thanh Sơn  
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG  
KT QUTRLI CHO  
HTHNG HỎI ĐÁP DANH SÁCH TIẾNG VIT  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghThông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyễn Thanh Sơn  
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG  
KT QUTRLI CHO  
HTHNG HỎI ĐÁP DANH SÁCH TIẾNG VIT  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghThông tin  
Cán bộ hướng dn: PGS.TS Hà Quang Thy  
Cán bộ đồng hướng dn: ThS. Trn Mai Vũ  
HÀ NI - 2010  
Li cảm ơn  
Trước tiên, tôi xin gi li cảm ơn và lòng biết ơn sâu sắc nht tới Phó Giáo sư  
Tiến sĩ Hà Quang Thy, Thc sĩ Trn Mai Vũ và Cnhân Lê Hoàng Qunh – nhng  
người đã tn tình chbảo và hướng dn tôi trong quá trình thc hin khoá lun tt  
nghip.  
Tôi chân thành cảm ơn các thầy, cô và cán bcủa trường Đại Hc Công Nghệ đã  
to cho tôi những điều kin thun lợi để hc tp và nghiên cu.  
Tôi cũng xin gửi li cảm ơn tới các anh chvà các bn sinh viên trong phòng thí  
nghiệm Sislab đã giúp tôi rt nhiu trong vic thu thp và xlý dliu.  
Cui cùng, tôi mun gi li cảm ơn tới gia đình và bn bè, những người thân yêu  
luôn bên cạnh, động viên tôi trong sut quá trình thc hin khóa lun tt nghip.  
Tôi xin chân thành cảm ơn!  
Sinh viên  
Nguyn Thanh Sơn  
Tóm tt  
Nhkhả năng hỗ trợ người dùng trong vic khai thác các tài nguyên trên Internet  
mt cách hiu quvà ddàng, hthng hỏi đáp nói chung đã được quan tâm nghiên  
cu tkhá lâu, tuy nhiên các dng hthng hỏi đáp đặc biệt, trong đó có hệ thng hi  
đáp danh sách vẫn còn đang ở bước đầu phát trin. Hthng hỏi đáp danh sách là hệ  
thng hỏi đáp, nhận đầu vào là câu hỏi dưới dng ngôn ngtnhiên và trvcâu trả  
lời dưới dng mt danh sách. Ti Vit Nam, các nghiên cu vhthng hỏi đáp nói  
chung, cũng như về hthng hỏi đáp danh sách nói riêng tập trung cho min dliu  
tiếng Vit còn rt nhiu hn chế. Mt trong nhng lý do chính là chúng ta còn thiếu  
các công cxlý tiếng Vit, các tài nguyên ngôn nghc, …  
Khóa lun Phương pháp nâng cao chất lượng kết qutrli cho hthng hi  
đáp danh sách tiếng Vit tp trung nghiên cứu các phương pháp xây dựng hthng hi  
đáp danh sách đã được áp dng trên thế gii cũng như một số phương pháp nâng cao  
chất lượng kết qutrli cho dng hthng hỏi đáp này. Trên cơ sở các nghiên cu  
nói trên, kết hp vi vic khảo sát điều kin thc tế ca các công cxlý ngôn ngữ  
tiếng Vit, khóa luận đề xut mô hình nâng cao chất lượng kết qutrli cho hthng  
hỏi đáp danh sách tiếng Vit sdng lut Wrapper và lut ngnghĩa. Thực nghim  
mô hình cho kết qukhá khquan, đạt độ chính xác cho câu trli cha 5 kết qulà  
93.87% so vi độ chính xác 82.11% ca pha hỏi đáp danh sách, đồng thi ha hn  
nhiu tiềm năng nghiên cứu mi.  
Mục lục  
Li mở đầu ..................................................................................................................1  
Chương 1. Giới thiu hthng hỏi đáp danh sách........................................................3  
1.1. Hthng hỏi đáp ...............................................................................................3  
1.1.1. Gii thiu chung..........................................................................................3  
1.1.2. Mt svấn đề cn quan tâm ........................................................................4  
1.1.3. Các bước xlý chung..................................................................................5  
1.1.4. Tiêu chuẩn đánh giá.....................................................................................6  
1.1.5. Phân loi......................................................................................................7  
1.2. Hthng hỏi đáp danh sách .............................................................................10  
1.2.1. Gii thiu ..................................................................................................10  
1.2.2. Mt số hướng tiếp cn xây dng hthng hỏi đáp danh sách.....................10  
1.2.3. Nhng vấn đề cn gii quyết khi xây dng hhỏi đáp danh sách...............11  
Chương 2. Các nghiên cứu liên quan .........................................................................13  
2.1. Mt shthng hỏi đáp danh sách đin hình...................................................13  
2.1.1. Hthng hỏi đáp danh sách FADA ...........................................................16  
2.1.2. Hthng hỏi đáp Ephyra ...........................................................................20  
2.2. Nâng cao chất lượng trli cho hthng hỏi đáp danh sách ............................23  
Chương 3: Đxut mô hình nâng cao chất lượng câu trli cho hthng hỏi đáp danh  
sách tiếng Vit...........................................................................................................28  
3.1. Mô hình nâng cao chất lượng câu trli cho hthng hỏi đáp danh sách tiếng  
Vit ........................................................................................................................28  
3.2. Pha 1: Hỏi đáp danh sách tiếng Vit ................................................................29  
3.2.1. Tìm kiếm câu trli da vào các mu quan hệ thượng hdanh .................29  
3.2.2. Mô hình pha 1: Hthng hỏi đáp danh sách ..............................................30  
3.3. Pha 2: Mrng thc th..................................................................................32  
3.3.1. Xây dng các lut Wrapper ......................................................................33  
3.3.2. Các phương pháp xếp hạng được sdng..................................................35  
3.3.3. Mô hình pha 2: mrng thc th...............................................................35  
Chương 4. Thực nghiệm và đánh giá .........................................................................39  
4.1. Thc nghim pha hỏi đáp danh sách ................................................................39  
4.1.1. Dliu thc nghim..................................................................................39  
4.1.2. Kết quthc nghim..................................................................................40  
4.2. Thc nghiệm đánh giá kết qumô hình nâng cao chất lượng câu trli cho hệ  
thng hỏi đáp danh sách tiếng vit..........................................................................42  
Kết lun.....................................................................................................................47  
Phlc.......................................................................................................................49  
Tài liu tham kho .....................................................................................................51  
Danh sách các bảng  
Bng 1. 5 kết qucao nht ti TREC-12 (Voorhees, 2003) ........................................13  
Bng 2. Các lp trang web.........................................................................................17  
Bng 3. Hiu sut ca tp kim thtrong TREC-12...................................................20  
Bng 4. Cây kế tha thc thtên và các mu loi ......................................................22  
Bng 5. Kết quthc thi SEAL vi các thuật toán đánh giá và số lượng tp mi khác  
nhau...........................................................................................................................25  
Bng 6. Ví dcác truy vn và chất lượng văn bn thu thập tương ứng.......................26  
Bảng 7. Độ chính xác trung bình ca Ephyra .............................................................27  
Bảng 8. Độ đo trung bình F1 ca Ephyra....................................................................27  
Bng 9. Mt smu quan hệ thượng hdanh trong tiếng Anh và tiếng Vit. .............30  
Bng 10. Ví dvcâu hi danh sách và tkhóa tương ng .......................................39  
Bng 11. Kết quthc nghim pha hỏi đáp danh sách tiếng Vit ...............................40  
Bng 12. Kết quthc nghim mô hình nâng cao sdng 2 thc thmi..................42  
Bng 13. Kết quthc nghim mô hình nâng cao sdng 3 thc thmi..................43  
Bng 14. Kết quthc nghim mô hình nâng cao – 4 kết quả đầu vào .......................44  
Danh sách các hình  
Hình 1. Các bước chung ca hthng hỏi đáp ............................................................5  
Hình 2. Xu hướng trong nghiên cu vhthng hỏi đáp .............................................8  
Hình 3. Ví dvmt Snippet trvtmáy tìm kiếm ................................................22  
Hình 4. Mô hình thc nghim nâng cao chất lượng kết qutrli trong ....................28  
Hình 5. Ví dvquan hệ thượng hdanh. .................................................................29  
Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Vit...............................................30  
Hình 7. Ví dcu trúc web ........................................................................................33  
Hình 8.Ví dụ văn bản bán cu trúc.............................................................................34  
Hình 9. Mô hình pha 2 - Mrng thc th................................................................36  
Danh sách các biểu đồ  
Biểu đồ 1. Kết quca mi loi câu hi trong tp dliu kim th- TREC, 2007.....15  
Biu đồ 2. Số lưng từ khóa được đáp ứng vi số lượng khác nhau ca tp kết qu...40  
Biểu đồ 3. Độ chính xác ca các kết qutrong thc nghim pha hỏi đáp danh sách  
tiếng Vit...................................................................................................................41  
Biểu đồ 4. So sánh độ chính xác câu trli................................................................44  
Biểu đồ 5.Khả năng đáp ứng tkhóa ca hthống trong các trường hp...................45  
Lời mở đầu  
Internet ngày nay, mt mặt đã trthành kho tài nguyên thông tin khng lvà  
phong phú, nhưng mặt khác, việc thông tin được tchức dưới dng không cu trúc  
hoc bán cu trúc cũng khiến cho vic nm bt thông tin trở nên khó khăn. Máy tìm  
kiếm đã htrkhá đắc lực cho người dùng, tuy nhiên, để có thông tin mong mun,  
ngưi dùng phi ttìm trong các trang web mà máy tìm kiếm trvề. Đây là mt công  
vic tn rt nhiu thi gian và công sc bi số lượng các trang web được trvbi  
máy tìm kiếm thường là rt ln. Chính vì vy hthng hỏi đáp đã ra đời, nhm mc  
đích tìm kiếm câu trli ngn gn và chính xác nhất cho người dùng thay vì trvcác  
văn bản. Các câu hi của người dùng thường rất đa dạng và yêu cu các loi câu trli  
cũng khác nhau. Một trong những hướng nghiên cu mới và đang được chú ý hin nay  
chính là vhthng hỏi đáp danh sách.  
Thay vì chcó mt kết qutrong câu trli, hthng hỏi đáp danh sách thường  
phi trvcâu trli là mt danh sách các kết quả. Đây chính là đặc điểm khác bit  
nht gia hthng hỏi đáp danh sách và các hệ thng hỏi đáp khác. Trả vcâu trli  
chứa đầy đủ và chính xác các kết quchính là mt trong nhng mục tiêu được chú  
trng nhất được hướng đến khi xây dng hthng hỏi đáp danh sách. Tuy nhiên, đó  
cũng chính thách thc ln nht mà các nhà nghiên cu gp phi.  
Khóa lun Phương pháp nâng cao chất lượng kết qutrli cho hthng hi  
đáp danh sách tiếng Vit thc hin vic kho sát, nghiên cu mt số phương pháp đã  
được sdng trong mt shthng hỏi đáp danh sách, cũng như tìm hiu mt vài  
nghiên cu vvic nâng cao chất lượng trli cho hthng hỏi đáp danh sách, từ đó  
đưa ra phương pháp phù hợp để gii quyết bài toán này cho min dliu tiếng Vit.  
Khóa luận đề xut mt mô hình gii quyết bài toán gm 2 pha chính:  
(1) Pha hỏi đáp danh sách, tìm câu trli da vào các lut thưng hdanh  
(hyponym).  
(2) Pha nâng cao chất lượng cho câu trli ca pha hỏi đáp danh sách dựa vào  
các phương pháp mở rng thc th.  
Ni dung ca khóa lun bao gm các chương sau:  
Chương 1. Gii thiu hthng hỏi đáp danh sách. Chương 1 trình bày nhng  
nội dung cơ bản vhthng hỏi đáp nói chung và hệ thng hỏi đáp danh sách nói  
riêng.  
Chương 2. Các nghiên cứu liên quan. Chương 2 điểm qua mt scác nghiên  
cu liên quan trên thế gii cũng như tại Vit Nam vhthng hỏi đáp nói chung, cũng  
1
như hệ thng hỏi đáp danh sách nói riêng và bài toán mrng thc th. Khóa lun tp  
trung tìm hiểu các phương pháp được áp dng trong hai hthng hỏi đáp danh sách  
tiêu biu là FADA và Ephyra. Cùng với đó, chương này cũng giới thiu vcác nghiên  
cứu đã có để nâng cao chất lượng câu trli cho hthng hỏi đáp danh sách, trong đó  
tập trung cho hướng nâng cao bng mrng thc th.  
Chương 3. Đề xut mô hình nâng cao chất lượng câu trli cho hthng hi  
đáp danh sách tiếng Vit. Chương 3 trình bày vmô hình nâng cao chất lượng cho hệ  
thng hỏi đáp danh sách tiếng Vit mà khoá luận đề xut. Mô hình này gm 2 pha  
chính là pha hỏi đáp danh sách và pha mở rng thc th.  
Chương 4. Thc nghiệm và đánh giá. Tiến hành thc nghiệm để kim tra cht  
lượng của phương pháp đã đề xut bng cách thc nghim riêng pha hỏi đáp danh sách  
và thc nghim có sdụng bước nâng cao kết qutrong mô hình, từ đó đưa ra đánh  
giá.  
Kết luận và hướng phát trin khóa lun: Tóm lược nhng ni dung chính ca  
khóa luận.Đng thời đưa ra những hướng nghiên cu trong thi gian sp ti da vào  
các định hướng khc phc mt vài hn chế vn còn tn ti.  
2
Chương 1. Gii thiu hthng hỏi đáp danh sách  
1.1. Hthống hỏi đáp  
1.1.1. Giới thiệu chung  
Sphát trin ngày càng mnh mcủa World Wide Web đã đưa ra thách thức  
khai phá các thông tin trên web mt cách hiu quả hơn. Tuy kết qutrvca các máy  
tìm kiếm ngày càng được nâng cao chất lượng nhưng kết quvn là danh sách các tài  
liu có cha câu truy vn. Người dùng mun có thông tin thì phi ttìm trong các  
trang web đó. Đây là mt công vic tn rt nhiu thi gian và công sc bi số lượng  
các trang web được trvbi máy tìm kiếm thường là rt ln. Chính vì vy hthng  
hỏi đáp đã ra đời, nhm mục đích tìm kiếm câu trli ngn gn và chính xác nht cho  
ngưi dùng thay vì trvề các văn bản.  
Khái nim hthng hỏi đáp: Hthng hỏi đáp là hệ thống đuợc xây dựng để  
thc hin vic tìm kiếm tự động câu trli tmt tp ln các tài liu cho câu hỏi đầu  
vào mt cách chính xác và ngn gn [30].  
Nhim vca hhỏi đáp là tự động tìm ra câu trli cho câu hỏi dưới dng ngôn  
ngtự nhiên. Để tìm được câu trli, hhỏi đáp phải sdng các ngun dliu có  
cấu trúc như cơ sở dliu hoc mt tập các văn bản không có cấu trúc. Tuy nhiên, như  
đã biết, ngôn ngtnhiên cha các yếu tnhp nhằng, đa nghĩa, việc xác định được  
ngnghĩa của câu hi cũng như tìm ra câu trli là mt thách thc không nh. Không  
nhng vy, gia câu hi và câu trli còn tn ti các quan h“ngm” hay phthuc  
ngcnh.  
Ví dcâu hi  
“Ai là tác gica Dế mèn phiêu lưu ký?”  
Mt câu trli là:  
Tô Hoài đã viết tác phẩm văn xuôi Dế mèn phiêu lưu ký”.  
Hoc câu hỏi là “Beethoven sinh năm nào?”  
Thì mt câu trli là “Ludwig van Beethoven (1770-1827)”  
Để tìm được câu trli cho câu hi “Ai là tác gica Dế mèn phiêu lưu ký?”, hệ  
thng cần có cơ chế để biết được rng “tác gica mt tác phm là người viết tác  
phm đó” hoặc cn học được các mẫu thường gp ca câu trli (các mu vngày  
tháng năm sinh, về thời gian, địa chỉ….) tương ứng vi tng loi câu hi. Các hthng  
3
hỏi đáp hin nay sdng các công cxlý ngôn ngtự nhiên như bộ gán nhãn tloi  
(POS Tagger), bnhn dng thc thể định danh (Named Entity Recognizer), bphân  
tích ngpháp (Parser)… và các tài nguyên ngôn ngữ như Wordnet [11], ontology [23]  
để phân tích câu hi và trích xut câu trli.  
Hthng hỏi đáp đang nhận được rt nhiu squan tâm ca các nhà nghiên cu  
và các doanh nghip công nghthông tin, có ý nghĩa cả vkhoa hc ln thc tin. Rt  
nhiu hi nghị thường niên vtrích chn thông tin và khai phá dliu dành mt chủ  
đề riêng cho các nghiên cu vhthng hỏi đáp TREC1, CLEF2.  
Hin đã có mt shthng hỏi đáp ra đời. Mt shthng hỏi đáp tiêu biểu  
được biết đến như: Answer.com3, START4, Ask Jeeves5, Webclopedia [9], FADA  
[14], Ephyra [22],... trong đó, FADA, Ephyra là các hthng hỏi đáp danh sách sẽ  
được gii thiu chi tiết hơn ở chương 2.  
1.1.2. Một số vấn đề cần quan tâm  
Năm 2002, John Burger và cộng s[7] đã đưa ra một svấn đề cn quan tâm khi  
xây dng mt hthng hỏi đáp như sau:  
Loi câu hi: Đầu vào ca hthng hỏi đáp là câu hỏi của người dùng dưới  
dng ngôn ngtnhiên. Câu hi trong ngôn ngtnhiên rất đa dạng, nhiu  
n ý, nhiu nhp nhng và phthuc vào ngcnh hi. Mt sloi câu hi  
đang được quan tâm trong hhng hỏi đáp như câu hi vsvt, skin,  
định nghĩa, danh sách, quá trình, cách thc, lý do… Mi loi câu hi có  
những đặc trưng và khó khăn riêng, đòi hi phi có các chiến lược để trli  
chúng.  
Xlý câu hi: Mt câu hi có thể được diễn đạt bng nhiu cách khác nhau.  
Vì thế, vic xlý câu hỏi là xác định được các câu hỏi tương tự, các quan hệ  
ngpháp, loi câu hỏi, đồng thi có thchuyn mt câu hi phc tp thành  
chui các câu hỏi đơn giản hơn.  
Ngcnh: Câu hỏi thường được gn vi ngcnh và câu trli cũng được  
đưa ra trong một ngcảnh xác định. Vic sdng các thông tin vngcnh  
1TREC: Text REtrieval Conference. http://trec.nist.gov/  
2 CLEF: The Cross-Language Evaluation Forum. http://www.clef-campaign.org/  
3 http://www.answers.com/  
4 http://start.csail.mit.edu/  
5 http://ask.com/  
4
giúp hthng hỏi đáp hiểu câu hi mt cách rõ ràng, loi bỏ được các nhp  
nhằng và tăng tính chính xác khi trả li câu hi.  
Ngun dliu: mt hthng hỏi đáp cho dù có hoạt động thông minh đến  
đâu cũng không thể tìm được chính xác câu trli nếu như câu trả lời đó  
không nm trong tp dliu. Chính vì thế, hthng hỏi đáp cần phi có  
ngun dliu phong phú, có thlà sách, báo chí hay các trang web. Tuy  
nhiên cần đảm bo ngun dliệu có đtin cy và thông tin chính xác cao.  
Trích xut câu trli: Vic trích xut câu trli phthuc vào nhiu yếu t:  
độ phc tp ca câu hi, loi câu hỏi có được tquá trình xlý câu hi, dữ  
liu cha câu trlời, phương pháp tìm kiếm và ngcnh,... Câu trli cho  
người dùng cn phải đảm bo chính xác và đầy đ.  
1.1.3. Các bước xử lý chung  
Các hthng hỏi đáp hin nay có kiến trúc khác nhau tùy thuc vào loi hthng  
hỏi đáp. Tuy nhiên các hthng hỏi đáp đều bao gm ba bước cơ bản như hình 1 [5].  
Skhác nhau gia các hthng hỏi đáp quá trình xlý trong từng bước, đặc bit  
cách tiếp cn trong việc xác định câu trli.  
Câu  
trli  
Thu thp  
tài liu  
Phân tích  
câu hi  
Trích xut  
câu trli  
Câu hi  
Hình 1. Các bước chung của hệ thống hỏi đáp  
Bước1 - Phân tích câu hi: Đây là bước đầu tiên ca hhỏi đáp. Đầu vào là câu  
hỏi dưới dng ngôn ngtnhiên. Tại bước này, hthng phân tích câu hỏi để to truy  
vn cho bước trích chn tài liu liên quan và tìm ra nhng thông tin hu ích cho bước  
trích xut câu trli  
Bước2 - Thu thp tài liu: Bước này sdng câu truy vấn được to ra ở bước  
phân tích câu hi, truy vn trên các công ctìm kiếm để tìm các tài liu phc vcho  
vic tìm kiếm câu trli.  
Bước3 - Trích xut câu trli: Bước này phân tích tp tài liu đã thu thập được  
ở bước 2 và sdng các thông tin hữu ích do bước phân tích câu hi cung cấp để tìm  
kiếm, trích chn và đưa ra câu trả li chính xác nht cho câu hi của người dùng.  
5
1.1.4. Tiêu chuẩn đánh giá  
Năm 2002, John Burger và cng s[7] đã tng kết mt số tư tưởng chung cho  
vic nghiên cu hthng hỏi đáp. Theo đó một hthng hỏi đáp được người dùng  
đánh giá là hữu ích nếu đáp ứng được các tiêu chun sau:  
Tính hp lý vthi gian (Timeliness): hthng cần đưa ra câu trli trong  
khong thi gian hp lý, ngay ckhi có nhiu ngưi dùng cùng truy nhp hệ  
thng. Hthng cn luôn cp nht dliệu để có thcung cấp cho người  
dùng câu trli chính xác, kcả đối vi nhng câu hi mang tính cht thi  
s.  
Tính chính xác: tính chính xác ca hthng hỏi đáp là cực kì quan trng,  
việc đưa ra câu trli sai còn tai hại hơn là không đưa ra câu trả li. Chính  
vì thế, khi nghiên cu vhthng hỏi đáp cần tp trung vào việc đánh giá  
tính đúng đắn ca câu trli. Trong đó bao gồm cả các phương pháp đphát  
hin các trường hp mà tp dliệu được xét không cha câu trli. Các  
thông tin mâu thun trong dliu cũng cần được tìm ra và các thông tin này  
cần được xlý mt cách phù hp và nhất quán. Để đạt được tính chính xác,  
hthng hỏi đáp cần kết hp cht chcác ngun tri thc (world knowledge)  
và cơ chế “bắt chước” vic suy luận thông thường.  
Tính khdng: thông thường, tri thc trong hthng hỏi đáp cần đáp ứng  
được như cầu của người dùng. Các ontology trên tng min cthvà  
ontology trên min mcần được tích hp trong hthng. Để tìm ra câu trả  
li thì các hhỏi đáp thường xét trên nhiu dliu khác nhau. Thông tin về  
câu trli có thnm trong dliệu văn bản, trong cơ sở dliu, trong các  
đoạn phim hay các nguồn đa phương tiện khác. Mt hthng phi đáp cần  
có khả năng khai phá câu trả li tcác ngun dliệu khác nhau và đưa ra  
câu trli bt kỳ định dạng nào mà người dùng mong muốn. Hơn nữa, hệ  
thng hỏi đáp nên có khả năng cho phép người dùng mô tngcnh ca câu  
hi và nên cung cp các thông tin gii thích, trích dn ngun cho câu trli.  
Tính hoàn chnh: khả năng đưa ra được câu trli hoàn chnh cho câu hi  
của người dùng chính là điều mà các hthng hỏi đáp hướng ti. Trong  
nhiều trường hp (câu hi vdanh sách, nguyên nhân, cách thc…), các  
phn ca câu trli nm ri rác trong một văn bản, thm chí trong nhiều văn  
6
bn. Vì vy cn phi hp nht các phn này da trên các thông tin liên kết  
để to ra câu trli hoàn chnh.  
Tính thích hp: Câu trli cho mt câu hi của người dùng cn phi thích  
hp vi ngcnh cth. Thông thường mt số trưng hp, hthng hỏi đáp  
có khả năng giao tiếp (interactive Q&A) có thlà cn thiết, trong đó chui  
các câu hỏi liên quan đến mt vấn đề sgiúp làm sáng tỏ thông tin mà người  
dùng đang hỏi. Việc đánh giá một hthng hỏi đáp cần hướng ti ngưi  
dùng bi ý kiến người dùng là đánh giá tốt nht cho tính thích hp ca mt  
hthng hỏi đáp.  
Các tiêu chuẩn trên được xem xét đến vi mong mun xây dựng được mt hệ  
thng hỏi đáp hoàn chnh. Tuy nhiên, không phi hthng nào cũng có khả năng  
thông minh và hoàn thiện như thế. Các nghiên cu vhthng hỏi đáp hiện nay đang  
tp trung vào xây dng hthng hỏi đáp có tính chính xác cao và có khả năng sử dng  
ngun dliu web khng ltrên Internet.  
1.1.5. Phân loại  
Da trên các tiêu chí khác nhau mà có các cách phân loi hthng hỏi đáp khác  
nhau như: phân loi theo min ng dng, theo khả năng trả li câu hi, theo cách tiếp  
cn gii quyết bài toán…  
1.1.5.1. Phân loại theo miền ứng dụng (domain)  
Khi phân loi theo min ng dng, hthng hỏi đáp được phân làm hai loại đó là  
Hthng hỏi đáp min đóng và Hthng hỏi đáp min m.  
Hthng hỏi đáp miền đóng (Closed Domain Question Answering): Hthng  
tp trung vào trli các câu hỏi liên quan đến mt min dliu cth(giáo dc, y tế,  
du lch ...). Xây dng hthng hỏi đáp miền đóng được coi là bài toán dễ hơn so với  
xây dng hthng hỏi đáp min mvì vic xlý ngôn ngtự nhiên thường dễ hơn rất  
nhiu do có thsdng các tri thc miền (thường là ontology ca min cth).  
Hthng hỏi đáp miền m(Open Domain Question Answering): hthng hi  
đáp miền mtrli các câu hi liên quan đến bt kì min dliu nào. Khó khăn cho  
hthng min mở đó chính là việc xây dng các tri thc nn cho vic trli cũng như  
phân tích câu hỏi, các phương pháp hiện nay thường sdng mt scác ontology khái  
quát hay các mng tri thức như: wikipedia, bách khoa từ điển... Các dng câu hi cho  
hthng hỏi đáp miền mlà rất đa dạng và câu trli không bó hp trong mt min  
7
dliu cthnào c. Chính vì thế mà đòi hi ca hthng hỏi đáp miền mlà phi  
bao quát được dliu thuc nhiu lĩnh vực khác nhau. Tuy nhiên cũng chính vì lý do  
đó mà dữ liu cho vic trích rút câu trli trong hthng hỏi đáp miền mlà rt  
phong phú và dthu thp.  
Hthng hỏi đáp  
Min mở  
Miền đóng  
Dliu có cu trúc  
Dliu phi cu trúc (text)  
Web  
Tp dliu ln  
Một văn bản đơn  
Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp  
Các nghiên cu hin nay vhthng hỏi đáp đang tập trung vào xây dng hệ  
thng hỏi đáp trên miền m, sdng ngun dliu phi cu trúc và bán cu trúc (kho  
văn bản ln hay dliệu web) để tìm câu trli. Các nghiên cu mi và các ci tiến  
những phương pháp cũ đang hướng đến mục đích sử dng ngun dliu web vốn đa  
dng, nhiu “nhiu” và trùng lp để tìm ra câu trli đang rất được quan tâm [5]  
(Hình 2).  
1.1.5.2. Phân loại theo hướng tiếp cận  
Hướng tiếp cn nông (shallow): Nhiều phương pháp sử dng trong hhỏi đáp  
dùng các kĩ thuật da trên từ khóa đla chn các câu, đọan văn trong các văn bản thu  
thập được, sau đó lc ly câu trlời. Phương pháp xếp hng cho các câu trlời thường  
được dựa trên đặc trưng cú pháp như là thứ tthoc vtrí từ và đặc điểm tương tự  
vi câu hi (ví dcác câu hi về tên người, địa danh, số lượng…). Đối với hướng tiếp  
cn nông thì có thsdng các mẫu để tìm ra các câu trli vi githiết mong mun  
8
rng câu trli có cùng cu trúc ging câu hi. Ví dvi câu hi “What is a X” thì ta  
có mu là “X is a Y” và có thtìm được câu trli là Y.  
Hướng tiếp cn sâu (deep): Trong trường hp các kĩ thuật sdng tkhóa hoc  
biến đổi cu trúc câu hỏi là chưa đủ để tìm ra câu trli thì cn sdng các kĩ thuật  
phân tích cú pháp, ngnghĩa, ngữ cnh phc tạp hơn để có thtrích chn hay xây  
dng câu trli. Các kĩ thuật đó bao gm nhn dng thc th(named-entity  
recognition), trích xut mi quan h, loi bnhp nhng ngnghĩa, … Các hthng  
này thường sdng các ngun tri thc có thtìm thy trong ontology như WordNet  
hay Suggested Upper Merged Ontology (SUMO) để làm tăng thêm khả năng lập lun  
thông qua các liên kết ngnghĩa và định nghĩa.  
1.1.5.3. Phân loại theo khả năng trả lời câu hỏi  
Hthng hỏi đáp có khả năng trả li các câu hỏi liên quan đến svt, hin  
tượng: hthng hỏi đáp thuộc loi này da trên vic trích chn ra câu trli có sn  
trong kho tài liệu để đưa ra câu trả li. Câu trli là các chui ký ttrong mt tài liu.  
Kthuật chính được sdng là xlý chui và tkhóa.  
Hthng hỏi đáp có khả năng lp lun: hthng hỏi đáp thuộc loi này có thtrả  
li các câu hi có tính chất suy đoán, các câu trli có thcó sn hoc n trong tài  
liu. Hthng cn trích ra các lun chng và sdng lp lun để tìm mi quan hgia  
câu hi và câu trli.  
Hthng hỏi đáp có khả năng giao tiếp với người dùng: hthng hỏi đáp thuộc  
loi này có khả năng trả li các câu hi dng chui và có khả năng lập luận để hiu  
được đầy đủ câu hi và tìm câu trli thích hp. Ví dcác câu hi của người dùng  
như: “Nhc sĩ Beethoven sinh năm nào?Ở đâu?Bắt đầu sáng tác nhạc năm nào?”.  
Hthng hỏi đáp trli các câu hi yêu cu khả năng tổng hp: câu trli  
thường nm trong nhiu tài liu khác nhau, chính vì thế mà hthng cn có khả năng  
tìm kiếm các phn ca câu trli và kết hp thành mt câu trli hoàn chnh. Câu hi  
thường là vdanh sách, vcách thc, nguyên nhân ... Hthng hỏi đáp danh sách  
thuc loi này. Khóa lun Phương pháp nâng cao chất lượng kết qutrli trong hệ  
hỏi đáp danh sách tiếng Vit tập trung vào phương pháp để nâng cao chất lượng cho  
hhỏi đáp danh sách. Phn tiếp theo sgii thiu chi tiết hơn về hthng hỏi đáp danh  
sách.  
9
1.2. Hthống hỏi đáp danh sách  
1.2.1. Giới thiệu  
Khái nim: Hthng hỏi đáp danh sách là hthng hỏi đáp, nhận đầu vào là câu  
hỏi dưới dng ngôn ngtnhiên và trvcâu trlời dưi dng mt danh sách. [28]  
Ví dcâu hi: “Ktên các thành phca Vit Nam?”  
Câu trli là “Hà Ni, Hi Phòng, Thanh Hóa, NghAn, …”  
Như đã tho lun trên, bài toán xây dng hhỏi đáp đã được nhiu hi nghị  
thường niên vtrích chn thông tin, khai phá dliu dành mt chủ đề riêng. Cthể  
đối vi hi nghTREC thì hthng hỏi đáp được gii thiệu đầu tiên đó là TREC-8  
(1999) [10]. Hhỏi đáp danh sách đã được đề cập đến ti TREC 2001 và TREC 2002,  
tuy nhiên chưa được nhiu nhà nghiên cu quan tâm bi hcòn tp trung vào chủ đề  
chính đó là về factoid Question Answering. Đến TREC 2003 thì hhỏi đáp danh sách  
đã được đưa vào làm một trong cách chủ đề chính, đây cũng là mt sự thúc đẩy cho  
vic nghiên cu vhthng hỏi đáp danh sách. Có thkể đến mt shthng hỏi đáp  
danh sách tiêu biểu như: FADA, Ephyra.  
Năm 2004, Hui Yang và Tat-Seng Chua đã gii thiu hthng FADA, mt  
hthng hỏi đáp danh sách dựa vào vic phân tích câu hi, phân cm, phân  
lớp các văn bản web và trích xut nội dung để tìm các câu trli khác nhau  
và đáng tin cậy.  
Hthng hỏi đáp danh sách Ephyra được N. Schlaefer, P. Gieselmann và G.  
Sautter gii thiu ti hi nghTREC 2006 [22]. Ephyra là mt hthng hi  
đáp miền mmm do, có thkết hp nhiu kĩ năng phân tích câu hỏi và  
trích chn câu trli các nhau, cũng như kết hp các ngun tri thc khác  
nhau. Kĩ thuật được sdng trong Ephyra bao gm hc và khp mu, phân  
tích loi câu trli và sdng các blọc để loi bỏ dư tha.  
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách  
Hhỏi đáp nói chung cũng như hệ hỏi đáp danh sách nói riêng đang nhận được  
nhiu squan tâm ca các nhà nghiên cứu. Đã có nhiều hướng tiếp cn khác nhau  
được đưa ra để gii quyết bài toán cho hhỏi đáp danh sách như hướng tiếp cn tìm  
câu trli cho hhỏi đáp danh sách dựa trên Githuyết phân phi [19]; hay vic so  
sánh và khp các cm tcho loi câu trli, xung quanh mt ngcnh ca các từ  
khóa ca câu hi hay từ đồng nghĩa; hthng hỏi đáp danh sách FADA dựa vào phân  
10  
tích câu hi, phân cm, phân lớp các văn bản web và trích chn nội dung để tìm ra các  
câu trlời khác nhau và đáng tin cậy; hay hướng tiếp cn sdng quan hệ thượng hạ  
danh (hyponym) [5]…  
Như đã bàn lun trên, mt thách thc khi nghiên cu và xây dng hthng hi  
đáp danh sách là làm sao có thtrvề được danh sách đầy đủ các kết qutrlời. Đây  
là thách thc rt ln vì có thtrong tp tài liu mà hthng thu thp về để xlý không  
chứa đủ tt ccác kết qutrli, hoc hthng không trích chọn được tt ccác kết  
qutrli có trong tập văn bản thu thập được. Hin nay, các nhà nghiên cu và xây  
dng hthng hỏi đáp danh sách cố gắng để có thtrvtp kết quả đầy đủ nht có  
th. R. Wang và cng s[25][28] đã đề xut ý tưởng nâng cao chất lượng cho tp câu  
trli ca hthng hỏi đáp danh sách (làm đầy đủ hơn tập kết qutrli) bng cách  
áp dụng phương pháp mở rng thc thể đối vi tp kết qutrlời được trvthệ  
thng hỏi đáp danh sách.  
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách  
Ngoài nhng vấn đ, nhng yêu cu, thách thc chung ca hthng hỏi đáp, việc  
nghiên cu và xây dng hthng hỏi đáp danh sách còn gp phi những khó khăn,  
thách thc riêng.  
Xác định tkhóa câu hi: Mt vấn đề khi phân tích câu hi trong hthng hi  
đáp danh sách đó chính là xác định đúng được tkhóa ca câu hi. Các câu hi trong  
hthng hỏi đáp danh sách thường yêu cu trvmt danh sách các thc thcó mt  
hoc một vài đặc điểm chung. Thông thường, tkhóa trong câu hi danh sách chính là  
đặc điểm chung đó. Ví dụ câu hi: “Ktên các hãng điện thoi?” Thì tkhóa trong câu  
hi này là “hãng điện thoi” và các thc thtrong danh sách câu trlời có đặc điểm  
chung đó là đều là “hãng điện thoi”. Hay câu hỏi “Tên các loài động vt có vú?” thì  
câu trlời được trvphi là danh sách các thc th(tên) có cùng một đặc điểm đó là  
“động vt có vú”. Chính vì thế việc xác định được tkhóa ca câu hi trong hthng  
hỏi đáp danh sách là một bước rt quan trng và có ảnh hưởng đến các bước sau ca  
hthng hỏi đáp cũng như đến kết qucâu trli cui cùng.  
Khả năng tổng hp: Không giống như nhiều hhỏi đáp khác, câu trả li ca hệ  
hỏi đáp danh sách thường không nm ti mt tài liu mà nm ri rác nhiu tài liu  
khác nhau. Chính vì thế, hthng hỏi đáp danh sách cần phi có khả năng trích chọn  
và tng hợp được câu trli tthông tin rt nhiu các ngun tài liu khác nhau.  
11  
La chn câu trli: Đối vi các câu hỏi thông thường, chcó mt câu trli,  
thì các văn bản scha một lượng ln các thông tin lp li vcâu trlời đó, chính vì  
vy có thla chn câu trli dựa vào thông tin được xut hin nhiu nht. Tuy nhiên,  
đối vi hthng hỏi đáp danh sách, câu trả li không phi chlà mt kết qumà là  
nhiu kết quả đáp ứng cho câu hi, chính vì thế mà khó có thloi bỏ được các câu trả  
li tiềm năng có tần sut xut hin nh. Vic la chn hay loi bcác thành phn trích  
chọn được cần được thc hin cn thn, vì có thsloi bmt thành phn trong câu  
trli, hoc thêm vào mt thành phần không đúng và làm cho kết qutrli không  
được chính xác.  
Trvcâu trlời đầy đủ: Mt vấn đề nữa đt ra khi nghiên cu và xây dng hệ  
thng hỏi đáp danh sách đó là làm sao có thtrích chn và trvề được tt ccác kết  
quả tương ứng vi câu hi. Yêu cầu này tương đương với yêu cu thu thập được tp tài  
liu chứa đủ tt ccác kết qucho câu hi và yêu cu khả năng trích chọn được tt cả  
các kết qucó trong tp tài liệu được xét. Đây cũng là vấn đề quan trng nht trong  
vic xây dng hthng hỏi đáp danh sách. Rất nhiu các nghiên cu tp trung vào  
vic bsung các kết qucho tp trli trong hthng hỏi đáp danh sách như nghiên  
cu ca Wang [28], … Chính vì thế, khóa lun tp trung vào bài toán bsung tp kết  
qutrli cho hthng hỏi đáp danh sách trong min dliu tiếng Vit.  
Tóm tắt chương 1: Chương này trình bày khái quát nhng nội dung cơ bản về  
hthng hỏi đáp và gii thiu vhthng hỏi đáp danh sách. Sang chương 2, khóa  
lun trình bày vcác nghiên cu liên quan trên thế gii cũng như tại Vit Nam vhệ  
thng hỏi đáp danh sách, mt số phương pháp tiêu biểu áp dng cho hthng hỏi đáp  
danh sách và gii thiu vnghiên cứu liên quan đến bài toán nâng cao chất lượng câu  
trli cho hthng hỏi đáp danh sách.  
12  
Chương 2. Các nghiên cu liên quan  
2.1. Một số hệ thống hỏi đáp danh sách điển hình  
Hthng hỏi đáp đã được chú trng nghiên cu tlâu, tuy nhiên trong thi gian  
gần đây, hệ thng hỏi đáp danh sách mới nhận đưc nhiu schú ý ca các nhà nghiên  
cu. Chính vì vy, mặc dù đã bước đầu có được mt skết qunhất định, nhưng các  
kết qunày vn còn nhiu hn chế. Theo phân tích ca Voorhees vkết quca hệ  
thng hỏi đáp danh sách tại TREC-12, hu hết kết qugp phi hai vấn đề lớn đó là độ  
hồi tưởng thp và các câu trli không tách biệt. Độ đo F1 trung bình chỉ được 21.3%  
trong đó F1 tt nht chỉ đạt 39.6% (Bng 1) [14]. Kết quca hthng hỏi đáp danh  
sách thấp như vậy cho thy hn chế khi chsdng cách trích chn thông tin (IR) và  
kĩ thuật xlý ngôn ngtnhiên truyn thống để tìm mt danh sách các câu trli.  
Bảng 1. 5 kết quả cao nhất tại TREC-12 (Voorhees, 2003)  
TREC-12 Run Tag  
LCCmainS03  
nusmml03r2  
MITCSAIL03c  
isi03a  
Avg F1  
0.396  
0.319  
0.134  
0.118  
0.097  
0.213  
BBN2003B  
Average  
Khả năng trả vmột danh sách đầy đủ cho câu hi danh sách chính là mt trong  
nhng mục tiêu hướng tới hàng đầu ca hthng hỏi đáp danh sách. Tuy nhiên, để tìm  
kiếm được một danh sách đầy đủ thì điều kiện đầu tiên là các kết quca câu trli  
phi xut hin trong tập văn bản được xét. Ngun dliu web chính là ngun tài liu  
có khả năng đáp ứng được nhu cầu đó. Chính vì thế hướng tiếp cn tìm kiếm các câu  
trli trên min dliệu web đang thu hút được nhiu squan tâm ca các nhà nghiên  
cu. Các nhà nghiên cu vhthng hỏi đáp đã tìm ra rt nhiều cách để sdng các  
tài nguyên Web như khai phá các mẫu bmt (surface pattern mining – Ravichandran  
13  
và các cng s, 2002), công thc hóa câu truy vn (query formulation – Yang, 2002),  
đánh giá câu trả li (answer validation - Magnini, 2002) cũng như tìm kiếm trc tiếp  
câu trlời trên các văn bản Web bng cách phân tích dliệu dư thừa (data redundancy  
analysis – Brill, 2001). Các hthống này đã chng minh rng vi sự giúp đỡ ca Web,  
thông thường các hthống đó có thể tăng kết qulên khong 25%-30% (Lin 2002).  
Năm 2004, Hui Yang, Tat-Seng Chua gii thiu hthng FADA, mt hthng  
hỏi đáp danh sách da trên vic phân tích câu hi, phân cm, phân lp các trang web  
và trích chn ngcảnh để tìm câu trli. FADA đã đạt được độ hồi tưởng là 0.422 và  
độ đo F1 là 0.464. Kết quca FADA là tốt hơn đáng kể so vi kết qutt nht ca hệ  
thng trong chủ đề vhthng hỏi đáp danh sách tại TREC-12.  
Ti hi nghTREC 2006, N. Schlaefer, P. Gieselmann và G. Sautter đã gii thiu  
hthng hỏi đáp Ephyra [22], đây là một hthng hỏi đáp miền mmm do, có thể  
trli nhiu loi câu hỏi, trong đó có các câu hi mà yêu cu câu trlời được trvlà  
mt danh sách. Kĩ thuật được sdng trong Ephyra bao gm hc và khp mu, phân  
tích loi câu trli và sdng các blọc để loi bỏ dư tha  
Năm 2008, Majid Razmara [19] đã trình bày về hướng tiếp cn gii quyết bài  
toán tìm câu trli cho câu hi danh sách da trên Githuyết phân phi  
(Distributional Hypothesis): các txut hin trong cùng mt ngcnh thì có xu hướng  
có cùng ngnghĩa (Harris, 1954). Majid Razmara đã githuyết rng:  
1. Các câu trli cho câu hi danh sách có cùng lp thc thngnghĩa  
(semantic entity class)  
2. Các câu trlời có xu hướng xut hin cùng trong các câu của các văn bản  
liên quan đến mục đích và câu hỏi.  
3. Các câu cha các câu trli có ngcảnh tương đương nhau.  
14  
Biểu đồ 1. Kết quả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007  
Biểu đồ 1 là kết quvề độ chính xác, độ hồi tưởng và độ đo F của mi loi câu  
hi trong tp kim thmà hthng của Majid Razmara đã đạt được ti hi nghị  
TREC-2007.  
Một phương pháp cũng đã được áp dng hiu quả để tìm câu trli cho hthng  
hỏi đáp danh sách đó là phương pháp trích chn quan hệ thượng hdanh. Mt số  
nghiên cu đã sdng các lut này: Hearst [20] sdng các mu quan hệ thượng hạ  
danh để trích chn các thc thcho tp thc thể được gán tên. Etzioni và cng s[24]  
gii thiu hthng KnowItAll cũng sử dng các mẫu để trích chn các thhin ca  
mt lp tngun dliệu web. Phương pháp sử dng các mu quan hệ thượng hdanh  
để tìm câu trli cho hthng hỏi đáp danh sách, cũng như cách áp dụng cho min dữ  
liu tiếng Vit sẽ được trình này sẽ được trình bày phn 3.2.1.  
Ti Vit Nam, Trn Mai Vũ và cng s[29] đã nghiên cu vhthng hỏi đáp  
cho min dliu tiếng Vit da vào kĩ thuật trích rút quan hngnghĩa hai ngôi bng  
cách kết hợp phương pháp Snowball của Agichtein, Gravano và phương pháp trích rút  
mi quan hsdng máy tìm kiếm ca Ravichandran, Hovy cho tập văn bản tiếng  
Vit. Thc nghiệm ban đầu ca mô hình cho thy hthng có thtrli chính xác  
được 89.7% câu hỏi người dùng đưa vào và khả năng đưa ra câu trả li là 91.4%.  
Phn tiếp theo, khóa lun trình bày vmt số phương pháp tiêu biểu đã được áp  
dng trong hthng hỏi đáp danh sách. Cthể là các phương pháp được áp dụng để  
xây dng hthng hỏi đáp danh sách FADA và hthng hỏi đáp Ephyra.  
15  
2.1.1. Hệ thống hỏi đáp danh sách FADA  
Hthng hỏi đáp danh sách FADA (Find All Distinct Answers) là mt trong  
nhng hthng hỏi đáp danh sách tiêu biểu sdng ngun dliệu web để trích chn  
ra các câu trli. FADA hướng đến mc tiêu tìm kiếm câu trli đầy đủ cho câu hi  
trong hthng hỏi đáp danh sách. Phương pháp trong FADA được đưa ra dựa vào vic  
quan sát thy rng các câu trli cho câu hỏi danh sách thường xut hin trong cùng  
mt danh sách hoc bng ca một trang Web, trong khi đó thì nhiu các trang web có  
thcha thông tin vcùng một trường hp. Phân bit riêng hai loi này: loi thnht  
được gi là Trang tp hp (Collection Page – CP) và loại hai được gi là Trang chủ đề  
(Topic Page – TP). Đối vi loi 1 – CP, vic cn làm là trích chn ni dung các danh  
sách, các bng từ trang web. Đối vi loi 2 – TP, cn tìm các trang web riêng bit liên  
quan đến các trường hp khác nhau trong câu trli. FADA da vào kĩ thuật phân tích  
câu hi, phân cm, phân lớp các văn bản web và trích chn nội dung để tìm các câu trả  
li riêng biệt và đáng tin cậy với độ hồi tưởng cao. Hthống FADA đã đạt được kết  
qukhá tt khi kim thvi tp ngliu ca TREC.  
Hthng hỏi đáp danh sách luôn hướng ti khả năng tìm được hết các kết quả  
tương ứng vi câu hỏi để cho câu trli đầy đủ chính xác. Điều này yêu cu (1) tìm  
kiếm hiu quả và đầy đủ và (2) trích chn được hết các câu trli khác biệt. Để có thể  
tìm kiếm hiu quthì phương pháp biến đổi câu hỏi được sdụng để có thể thu được  
các trang web cn thiết nhất. Đây là một bước quan trng, vì nếu câu truy vn quá  
chung chung thì sẽ thu được quá nhiu văn bản và hthng không thể có đủ tài nguyên  
để xlý toàn bộ các văn bản đó. Nếu câu truy vn li quá cththì có thlà sthu  
được rt ít tài liu hoc cũng có thể không thu được tài liu nào hu ích.  
Các trang web được phân thành bn loi da vào chức năng và đóng góp trong  
vic tìm kiếm danh sách trli: Trang tp hp (Collection Page), trang chủ đề (Topic  
Page), trang thích hp (Relevant Page) và trang không thích hp (Irrelevant Page)  
như bảng 2.  
16  
Bảng 2. Các lớp trang web  
Lp trang web  
Mô tả  
Collection Page  
Cha mt danh sách câu trli  
Trang tt nht thhin một trường hp cho câu  
trli  
Topic Page  
Liên quan đến một trường hp ca câu trli  
theo nghĩa là cung cp shtrhay phản đối  
ti Topic Page  
Relevant Page  
Irrelevant Page  
Không liên quan đến bt kì trường hp nào  
trong câu trli  
Da vào nhng phân tích trên, mt mô hình để tìm câu trli danh sách trên dữ  
liệu web đã được xây dng gồm 4 bước chính như sau:  
(1) Thu thp mt tp các văn bản web tt  
(2) Xác định các trang tp hp và phân bin các trang chủ đề để làm ngun dữ  
liu chính cho vic tìm câu trli.  
(3) Thc hin vic phân cm trên các trang web còn li dựa trên độ tương  
đồng vi các trang chủ đề riêng biệt để thiết lp các cụm tương ứng vi các  
trường hp riêng bit trong câu trli.  
(4) Trích chn câu trli tcác trang tp hp và các cm trang chủ đề.  
a. Biến đổi câu hi và thu thp các trang web  
FADA phân tích câu hỏi để xác định các tkhóa ca câu hi và loi câu trli  
mong mun. Sau đó sẽ xây dng các câu truy vn bng cách ghép các thành phn trích  
chọn được tcâu hi vi các mu kinh nghim cho câu hi danh sách. FADA thc  
hin cphân tích nông và phân tích đầy đủ (sâu). Bộ phân tích nông được sdng là  
btrc tuyến min phí memory-based chunker và bộ phân tích đầy đủ được sdng là  
MINIPAR6. Quá trình phân tích truy vấn được thc hiện như sau:  
6
17  
a) Loi bcác từ đầu (head words): Các từ đầu bao gm: “who, what, when,  
where, which, how, how much, how many, list, name, give, providel”, v.v.  
b) Tìm ra chngvà bngcủa các đoạn câu hi còn li bng cách phân tích  
nông.  
c) Ly ra tt ccác cm danh từ như là các mô ttiềm năng từ các phn còn li  
ca câu hỏi, thường là các cm gii thoc mệnh đề.  
d) Nhn dng thc thể định danh (Named entity recognition) cho kết quca  
cm mô tbng cách sdng NEParser, mt công cnhn dng thc thể  
tên được sdng trong hthng TREC-12 (Yang và các cng s, 2003).  
Công cnày gán các thẻ như “person”, “location”, “time”, “date”,  
“number”.  
Sau đó xây dng các câu truy vn phc vcho vic thu thp các trang web cn  
thiết. Mt trong nhng lut xây dng câu truy vn:  
(list|directoty|category|top|favorite)? (:|of)? <subj>  
<action>?<object>?<description1>? <description2>? …<descriptionN>?  
Vic chuyn câu hi ngôn ngtự nhiên ban đầu thành mt câu truy vn tt có thể  
nâng cao đáng kể khả năng tìm được câu trli tt. FADA sdng các câu truy vn  
này cho các máy tìm kiếm ni tiếng như Google, Alta Vista, Yahoo; sau đó lấy 1000  
kết qutrvề đầu tiên cho mi truy vn mi máy tìm kiếm. FADA ly nhiu trang  
web về như vậy là để phc vcho mục đích có thể tìm được tt ccác câu trli.  
Thông thường scó rt nhiều trang web dư thừa do thu thp tcùng một địa chliên  
kết. Các trang web dư thừa này sbloi bda vào địa chURL. Hthng cũng loại  
bỏ các file định dng không phải là HTML hay văn bản và nhng file mà có dung  
lượng quá nhhoc quá ln.  
b. Phân lp các trang web  
Trong FADA, hai bphân lớp được hun luyn là bphân lp trang tp hp  
(Collection Page classifier) phân loi các trang web vào các trang tp hp và bphân  
lp trang chủ đề (Topic Page classifier) phân loi các trang trong tp không phi trang  
tp hp thành các trang chủ đề và loi khác. Chai bphân lớp này đều thc thi sử  
dng cây quyết định C4.5 (Quinlan 1993). Vài lut quyết định như:  
a) OUT_Link >= 25 & NE > 78  
18  
b) Answer_NE >= 30 -> Class CP OUT_Link <= 25 &  
Answer_NE <= 5 & NE > 46 -> Class TP  
c) OUT_Link >= 25 & URL_Depth > 3 -> Others  
d) NE <= 4 -> Others  
c. Tìm các ngun cho câu trli  
Tại bước này, hthng la chn các trang chủ đề riêng bit da vào vic so sánh  
độ tương đồng gia các trang chủ đề. Sau đó, xác định và chuyn các trang thích hp  
(Relevant Pages) tOtherSet vào cụm thích đáng dựa trên độ tương đồng ca trang  
vi tp mi cm. Mi cụm tương ứng vi mt câu trli riêng bit. Trang chủ đề cung  
cấp cơ sở lp lun chính vcâu trli và các trang thích hp cung cp tài liu vcâu  
trlời đó. Theo thực nghim ca Hui Yang và Tat-Seng Chua thì tltrung bình phân  
cụm đúng là 54.1%. Bằng cách phân cm các trang web thì đã tránh được vic trli  
dư thừa (các câu trli là riêng biệt) và tăng cao khả năng tìm các câu trli riêng bit  
trong ngun dliu Web nhiu nhiu.  
d. Trích chn câu trli  
Tại bước này, hthng schuẩn hóa các văn bản html, sdng công cụ  
HtmlTidy7.  
Trích chn câu trli tcác trang tp hp (CPSet): để trích chn các câu trli  
tcác trang tp hp cn sdng các luật wrapper để lấy ra được ni dung mong  
muốn. Sau đó các câu trả lời được đối chiếu vào tp ngliệu TREC AQUAINT để ly  
vcác câu trli TREC (TREC answers) (Brill và cng s, 2001).  
Trích chn câu trli tcác cụm trong TPSet: Sau khi đã hoàn thành bước phân  
cm, phân tích trang chủ đề chính trong mi cụm. Trong trường hp tìm được nhiu  
đoạn cha các câu trli tiềm năng (answer candidates) khác nhau trong cùng mt  
trang chủ đề, ta schn câu trli tiềm năng từ đoạn mà có số lượng các loi thc thể  
tên là nhiu nht. Câu trlời được tìm thy trong trang chủ đề sẽ được đối chiếu vào  
kho ngliu hỏi đáp (Question Answering corpus) để ly ra các câu trli TREC.  
Trong trường hp da vào trang chủ đề mà không tìm thy câu trli TREC thì stiếp  
tc phân tích trang thích hp nht trong cụm đó, quá trình được lp lại cho đến khi tìm  
được câu trli có trong tp ngliu TREC hoc tt ccác trang thích hợp đã được  
phân tích.  
7 http://www.htmltrim.com/  
19  
Nhận xét hướng tiếp cn  
Bảng 3. Hiệu suất của tập kiểm thử trong TREC-12  
Avg P  
0.568  
0.406  
0.516  
-
Avg R  
0.264  
0.344  
0.422  
-
Avg F1  
0.319  
0.372  
0.464  
0.396  
Baseline  
FADA1 (w/o outgoing pages)  
FADA2 (w/ outgoing pages)  
TREC-12 best run  
Bng 3 so sánh hiu sut khi chy tp kim thtrong TREC-12 gia mt hệ  
thng trli câu hỏi danh sách cơ bản (baseline) vi FADA. Hàng baseline chính là  
kết qukhi chy trên mt hthống được sdng trong phn hỏi đáp tại TREC-12  
(Yang, 2003). Hthng này mrng từ hướng tiếp cn truyn thng IR/NLP cho hệ  
hỏi đáp thông thường để áp dng vào hhỏi đáp danh sách. Và đạt được độ đo F1  
trung bình là 0.319 và được xếp hng th2 trong phn hỏi đáp danh sách. Hai biến thể  
của FADA đã được test. Mt biến thkhông sdụng các trang được trỏ đến ttp các  
trang tp hợp như là các trang chủ đề tiềm năng (FADA1) và một biến thcó sdng.  
Hai biến thế này được sdụng để đánh giá hiệu quca các trang tp hp (CPs) trong  
hthng hỏi đáp danh sách. Với kết qunhư trong bng 3, có ththy rng các trang  
được các trang tp hp trỏ đến giúp nhiu cho vic tìm kiếm các câu trli.  
Ưu điểm: đã tn dụng được đặc điểm bán cu trúc của văn bản web. Vic tìm  
kiếm câu hi da vào tập văn bản web giúp cho khả năng tìm thy câu hỏi cao hơn,  
bi số lượng văn bản cũng như thông tin trên web là rất ln.  
Nhược điểm: chưa tận dụng được ni dung chính của các trang web, đây là thành  
phn mang thông tin nhiu nht trong dliu web. Số lượng câu trli cho các câu hi  
danh sách còn ít và chưa đ. Vi các câu hi mà khó có thtìm thy các kết qutrli  
trong cùng mt danh sách hay bng thì vic tìm câu trlời là khó khăn  
2.1.2. Hệ thống hỏi đáp Ephyra  
Hthng hỏi đáp Ephyra đạt kết qukhá tt ti TREC 2006 [13] và TREC 2007  
[12]. Thay vì chú trng tối ưu hóa một hướng tiếp cận đơn lẻ, Ephyra được áp dng  
kết hp mt vài kĩ thuật để phân tích câu hi và trích xut câu trlời để có thể đạt  
được kết qutt nht. Đối vi chức năng trả li cho các câu hi danh sách, hthng  
20  
được kết hợp phương pháp dựa trên vic phân tích loi câu trli và hc mẫu. Đối vi  
hướng tiếp cận xác định loi câu trli, hthống xác định loi ca câu trli tcây kế  
tha ca các loi thc thtên và la chn ththích hp (tagger) để trích xut các thc  
ththuc loại đó. Hướng tiếp cận này cho độ chính xác cao, tuy nhiên nếu không xác  
định được loi câu trli thì hthng scho kết qukhông chính xác. Chính vì thế  
hướng tiếp cn sdng hc mẫu đã được kết hp vào hthng, sdng các mu  
nguyên văn để phân lp và làm rõ câu hỏi để trích xut các câu trli.  
Ephyra được tchc kiểu đường ng bao gm các thành phần cơ bản để to truy  
vn, tìm kiếm và la chn câu trli. Đối vi các câu hi danh sách, hthng chuyn  
hóa câu hi thành dng câu hi yêu cu câu trli chlà mt thc thể, sau đó áp dụng  
kĩ thuật để tìm câu hỏi đơn đó. Nhiều lần như vậy, hthng tng hp li các kết quvà  
trvdanh sách kết qucho câu hỏi đó. Các bước trli câu hi ca hthng hỏi đáp  
Ephyra gm: chun hóa câu hi, to câu truy vn, tìm kiếm tài liu, trích chn câu trả  
li da vào loi câu trli, trích chn câu trli da vào so khp mu và la chn các  
kết qucho câu trli cui cùng.  
a. Chun hóa câu hi: Bchun hóa câu hi to ra hai thhin ca câu hi,  
mt thhiện được sdụng để phân tích câu hi vi các mẫu nguyên văn,  
mt thhiện để sinh ra câu truy vn phc vcho vic thu thp tài liu. Cả  
hai thhiện đều được loi bcác du câu không cn thiết. Đối vi thhin  
so khp mu, tt cả các động từ được thay thế bng dng nguyên thca  
chúng và tt ccác danh từ được chuyn vdng sít. Đối vi thhiện để  
to câu truy vn, các cấu trúc động tvi trợ động từ được thay để phù hp  
vi câu trlời tương ứng. Ví dụ “did … occur” được thay bng “occurred”.  
b. To câu truy vn và tìm kiếm tài liu: hthng trích chn các tkhóa tthể  
hin 2 ca câu hỏi để to mt truy vn “túi từ” đơn giản (simple “bag of  
words”) (Bsinh túi t). Hthng cũng xây dng các mu câu trli da  
vào câu hi, ví dụ như “Where was Mozart born?” sẽ được chuyn thành  
truy vẫn như “Mozart was born in”. Ephyra tìm kiếm trên Yahoo để thu thp  
các đoạn snippets (Hình 3) và sdng hthng trích xuất thông tin Indri để  
tìm kiếm trên tập văn bản AQUAINT. Indri được cu hình để thu vcác  
đoạn văn bản độc lp thay vì cả văn bản.  
21  

Tải về để xem bản đầy đủ

pdf 62 trang yennguyen 26/04/2025 30
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_phuong_phap_nang_cao_chat_luong_ket_qua_tra_loi_ch.pdf