Khóa luận Tự động đánh giá quan điểm người dùng

ĐẠI HC CÔNG NGHỆ  
ĐẠI HC QUC GIA HÀ NI  
----W—X----  
Kiu Thanh Bình  
TỰ ĐỘNG ĐÁNH GIÁ  
QUAN ĐIM NGƯỜI DÙNG  
KHÓA LUN TT NGHIP HCHÍNH QUY  
Ngành: Công NghThông Tin  
Hà Ni – 2010  
ĐẠI HC CÔNG NGHỆ  
ĐẠI HC QUC GIA HÀ NI  
----W—X----  
Kiu Thanh Bình  
TỰ ĐỘNG ĐÁNH GIÁ  
QUAN ĐIM NGƯỜI DÙNG  
KHÓA LUN TT NGHIP HCHÍNH QUY  
Ngành:  
Công NghThông Tin  
GV hướng dn: TS. Phm Bo Sơn  
Hà Ni – 2010  
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
Li mở đầu  
Vi sbùng nca ngun dliu trên Internet, nhng bài toán vxlý thông  
tin như: trích chn thông tin, tóm tt ni dung văn bn v.v… ra đời như mt nhu cu  
tt yếu. Thông tin trên mng thường gm 2 loi: svic và quan đim. Ngược vi loi  
quan đim, thông tin vsvic được rt nhiu công cgii quyết như máy tìm kiếm,  
lc thông tin, … Vi thông tin loi quan đim thì khó và ít hướng ti hơn tuy nhiên xét  
vmc độ quan trng thì thông tin loi này cn thiết hơn, nht là vi nhng công ty  
buôn bán sn phm. Đối vi h, ý kiến đánh giá vsn phm mà người dùng đưa ra là  
quan trng nht trong vic điu chnh và đưa ra nhng chiến lược buôn bán hiu qu.  
Ra đời như mt thiết yếu, hthng đánh giá quan đim người dùng đã được nghiên  
cu mnh mtrong my năm gn đây và cũng đưa ra được nhiu kết quả đáng mong  
đợi. Trong đó có phương pháp đưa ra được kết qukhá khquan như phương pháp sử  
dng kết hp phân lp da trên lut, hc giám sát và hc máy.  
i
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
Li cm ơn  
Trước tiên, em xin gi li cm ơn sâu sc nht đến thy Phm Bo Sơn, người  
đã không qun vt vhướng dn em trong sut thi gian làm khóa lun tt nghip va  
qua. Em cũng chân thành cm ơn mi người phòng HMI lab đặc bit là anh Nguyn  
Đạt đã luôn chbo mi khi em có nhng vn đề vướng mc.  
Em xin bày tli cm ơn sâu sc đến các thy cô giáo trong Trường Đại Hc  
Công Nghệ đã tn tình dy dem sut bn năm hc qua.  
Con xin cm ơn b, mvà gia đình đã luôn bên con, cho con động lc để làm  
vic tt hơn. Cm ơn tt cbn bè đã luôn sát cánh cùng tôi.  
Hà Ni, ngày 20 tháng 5 năm 2010  
Kiu Thanh Bình  
ii  
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
Mc lc  
Li mở đầu ..................................................................................................................... i  
Li cm ơn..................................................................................................................... ii  
Mc lc ......................................................................................................................... iii  
Danh sách hình v........................................................................................................ vi  
Danh sách bng........................................................................................................... vii  
Chương 1 Gii thiu.....................................................................................................1  
Chương 2 Các hướng tiếp cn cho bài toán đánh giá quan đim...........................3  
2.1 Xu hướng các cuc nghiên cu gn đây..............................................................3  
2.1.1 Xác định t, cm tquan đim...................................................................4  
2.1.2 Xác định chiu hướng t, cm tquan đim..............................................4  
2.1.3 Phân lp câu / tài liu chquan đim..........................................................7  
2.2 Nhng thách thc và công vic có thtrong tương lai .......................................9  
2.2.1 Các loi tkhác ..........................................................................................9  
2.2.2 Thut ngchquan đim ..........................................................................10  
2.2.3 Tính phủ định............................................................................................10  
2.2.4 Cp độ quan đim .....................................................................................11  
2.2.5 Sphc tp ca câu / tài liu....................................................................12  
2.2.6 Quan đim theo ngcnh.........................................................................13  
2.2.7 Tài liu không đồng nht ..........................................................................13  
2.2.8 Mt svn đề khác...................................................................................14  
Chương 3 Gii thiu GATE.......................................................................................15  
iii  
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
3.1 Tng quan vGATE ..........................................................................................15  
3.1.1 Mô hình kiến trúc ca GATE ...................................................................16  
3.1.2 Nhng khái nim cơ bn trong GATE......................................................18  
3.2 Xây dng plugin trên GATE..............................................................................18  
3.3 Các thành phn quan trng ca GATE.............................................................21  
3.3.1 Btừ đin (Gazetteers).............................................................................21  
3.3.2 Blut JAPE.............................................................................................22  
3.4 Các công cqun lý cht lượng........................................................................27  
3.4.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bn (Annotation  
Diff)........................................................................................................................27  
3.4.2 Công cụ đánh giá cht lượng ca hthng (Corpus Benchmark tool).....28  
Chương 4 Hthng đánh giá quan đim người dùng..............................................30  
4.1 Gii thiu hthng............................................................................................30  
4.2 Thu thp dliu và gán nhãn............................................................................31  
4.2.1 Thu thp dliu........................................................................................32  
4.2.2 Gán nhãn dliu.......................................................................................33  
4.3 Xây dng hthng đánh giá quan đim............................................................34  
4.3.1 Mô ttng quan hthng .........................................................................35  
4.3.2 Tin xlý..................................................................................................37  
4.3.3 Xây dng btừ đin .................................................................................38  
4.3.4 Xây dng blut.......................................................................................40  
Chương 5 Kết quthc nghim và phân tích li.....................................................46  
5.1 Tiến hành thc nghim ......................................................................................46  
5.2 Kết quthc nghim..........................................................................................47  
iv  
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
5.2.1 Kết quthc nghim đánh giá mc t...................................................47  
5.2.2 Kết quthc nghim đánh giá mc câu ................................................48  
5.2.3 Kết quthc nghim đánh giá mc văn bn theo tng Features ..........49  
5.2.4 Kết lun chung vkết quả đánh giá..........................................................53  
5.3 Phân tích li.......................................................................................................54  
5.3.1 Li do gán nhãn tloi (POS tag)............................................................54  
5.3.2 Li do lut.................................................................................................56  
5.3.3 Li do tách câu..........................................................................................57  
Chương 6 Tng kết và hướng phát trin................................................................59  
Tài liu tham kho.......................................................................................................60  
Phlc A. Annotation Guideline. ..............................................................................63  
Phlc B. Bng nhãn tloi tiếng Vit ....................................................................64  
v
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
Danh sách hình vẽ  
Hình 1 - Giao din ca GATE.......................................................................................16  
Hình 2 - Mô hình kiến trúc ca GATE [6]....................................................................17  
Hình 3 - Giao din thêm mt thành phn tích hp vào GATE......................................20  
Hình 4 - Chn các thành phn cho ng dng GATE ....................................................21  
Hình 5 - Giao din ca Annotation Diff........................................................................27  
Hình 6 - Giao din ca Corpus Benchmark tool ...........................................................28  
Hình 7 - Minh ha giao din hthng...........................................................................31  
Hình 8 - Nhng reviews do người dùng đánh giá trang tinvadung.vn.......................33  
Hình 9 - Gán nhãn dliu .............................................................................................34  
Hình 10 - Mô tchi tiết hthng đánh giá quan đim người dùng trên GATE............36  
Hình 11 - GATE sau khi POS Tag và Lookup..............................................................40  
Hình 12 - Li do POS Tag nh hưởng đến nhn dng t.............................................55  
Hình 13 - Li do POS tag nh hưởng đến tách câu.......................................................56  
Hình 14 - Li do viết lut nh hưởng đến nhn dng t...............................................57  
Hình 15 – Li do tách câu .............................................................................................58  
vi  
Tự động đánh giá ý kiến người dùng  
Kiu Thanh Bình  
Danh sách bng  
Bng 1 - Kết qunhn dng từ đánh giá trên tp hun luyn .......................................47  
Bng 2 - Kết qunhn dng từ đánh giá trên tp kim tra............................................47  
Bng 3 - Kết qunhn dng câu đánh giá trên tp hun luyn.....................................48  
Bng 4 - Kết qunhn dng câu đánh giá trên tp kim tra..........................................48  
Bng 5 - Kết quả đánh giá Acer Aspire 3935 trên tp hun luyn................................50  
Bng 6 - Kết quả đánh giá Apple Macbook Air MB543ZPA trên tp hun luyn .......50  
Bng 7 - Kết quả đánh giá Acer Aspire AS4736 trên tp hun luyn...........................51  
Bng 8 - Kết quả đánh giá Feature trên tp hun luyn ................................................51  
Bng 9 - Kết quả đánh giá Dell Inspiron 1210 trên tp kim tra ..................................51  
Bng 10 - Kết quả đánh giá Compaq Presario CQ40 trên tp kim tra ........................52  
Bng 11 - Kết quả đánh giá HP Pavilion dv3 trên tp kim tra ....................................52  
Bng 12 - Kết quả đánh giá Feature trên tp kim tra...................................................53  
vii  
Chương 1. Gii thiu bài toán đánh giá quan đim  
Kiu Thanh Bình  
Chương 1  
Gii thiu  
Hin nay nn công nghcàng ngày càng phát trin, đặc bit vi sra đời ca  
Web, lượng thông tin trên Web là mt kho tàng đồ svà nhim vca chúng ta là làm  
thế nào để khai thác kho tàng to ln đó. Chính vì nó quá khng lcho nên lượng thông  
tin rác cũng rt nhiu, vy làm thế nào để biết được cái gì là cn thiết và cái gì là dư  
tha. Các chuyên ngành như Web mining, NLP (Nature Language Processing), hay  
Machine Learning đều đi tìm câu trli cho câu hi đó tuy nhiên chúng cũng chtìm  
được câu trli cho nhng phn nhca câu hi mà thôi. Mi người quan tâm mt số  
lĩnh vc, mi người cn biết thông tin vmt vài thmà trên Web thì bao gm vô vàn  
thông tin thế nhưng lĩnh vc mà đa sngười đều quan tâm, tnhng nhà doanh  
nghip đến khách hàng - nhng người dùng đều quan tâm đó chính là sn phm.  
Người dùng thì quan tâm sn phm này có tt không, sn phm kia tt chnào và  
chnào không tt. Còn doanh nghip thì li thường quan tâm đến sn phm ca họ  
được mi người tiếp đón thế nào, nhng đim nào chưa tt để hbsung sa cha,  
hay phát huy thêm nhng đim người dùng quan tâm … Câu trli cho nhng câu hi  
này nm trong nghiên cu v“Opinion Mining” hay còn gi “phân tích quan đim  
người dùng”. Nghiên cu này ca chúng tôi xut phát tscn thiết ca doanh nghip  
và người dùng, sdng nhng công ccó ích nht để đánh giá mt cách chính xác  
nht vsn phm. Vi mi sn phm scó nhng đim tính năng riêng (Features) và  
nhim vca chúng tôi là tnhng review, comment, Feedback,… trên ngun dliu  
khng lWeb để đánh giá xem tính năng ca sn phm này được mi người tiếp đón  
thế nào.  
1
Chương 1. Gii thiu bài toán đánh giá quan đim  
Kiu Thanh Bình  
Hthng ca chúng tôi sdng dliu ttrên trang Web http//tinvadung.vn  
làm dliu chun để phát trin và kim thhthng. Chúng tôi gii quyết bài toán  
da trên hướng tiếp cn vlut và phân lp mc câu. Ở đây chúng tôi tm thi chia  
thành 2 loi đánh giá ca người dùng là hướng tích cc (positive) và hướng tiêu cc  
(negative). Hthng ca chúng tôi được xây dng trên nn GATE [3] – là mt  
framework giúp phát trin các thành phn xlý ngôn ngtnhiên, và được sdng  
vi dliu vmáy tính (laptop & desktop). Trong tương lai chúng tôi sphát trin hệ  
thng để đưa ra mt thước đo chính xác hơn vnhng đánh giá và mrng thêm vi  
các lĩnh vc khác.  
Phn còn li ca khóa lun được chia thành 5 chương:  
Chương 2: Chúng tôi gii thiu vnhng hướng tiếp cn cho bài toán tự động  
đánh giá quan đim người dùng, nhng công trình nghiên cu hin ti và nhng  
thách thc sgii quyết trong tương lai.  
Chương 3: Chúng tôi gii thiu mt cách tng quan vkhung làm vic GATE,  
và cách xây dng mt hthng tích hp trong GATE.  
Chương 4: Chúng tôi mô tchi tiết hthng tự động đánh giá quan đim người  
dùng trong văn bn tiếng Vit được xây dng trên khung làm vic GATE.  
Chương 5: Chúng tôi đưa ra nhng kết quthc nghim và phân tích nhng li  
vn còn tn ti.  
Chương 6: Chúng tôi đưa ra nhng kết lun vhthng và hướng phát trin hệ  
thng trong tương lai.  
2
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
Chương 2  
Các hướng tiếp cn cho  
bài toán đánh giá quan đim  
Vi sphát trin nhanh chóng ca tài nguyên mng, đặc bit là nhng quan  
đim trc tuyến (quan đim sn phm, quan đim phim nh,…) nhiu nghiên cu hin  
đang chú trng vào mng phân tích ý kiến, cũng được biết đến như mng đánh giá  
quan đim. Đó là mt chuyên ngành hc mi bao gm: trích xut thông tin (IR), xlý  
ngôn ngtnhiên (NLP) và ngôn nghc máy tính. Hthng đánh giá quan đim  
thường cgng tìm ra nhng t, cm tchý kiến, xác định chiu hướng ca nhng  
t, cm t, sau đó phân lp câu, đon hay toàn btài liu da trên nhng xu hướng  
quan đim đó. Bi vy, nhim vthông thường ca hthng đánh giá quan đim bao  
gm nhn biết t, cm tchquan đim và phân loi tài liu hoc câu theo các chiu  
hướng quan đim. Khác vi vic phân loi thloi hay chủ đề, vic phân loi quan  
đim đòi hi sam hiu vchiu hướng cm xúc trong bài viết. Mt skhía cnh  
mang tính thách thc trong đánh giá quan đim tn ti trong vic sdng nhng loi  
tkhác, vic xây dng thut ngquan đim, nhng mc độ quan đim khác nhau, sự  
phc tp ca câu ch, tngtrong nhng văn cnh khác nhau, vic phân loi quan  
đim trong bài viết phc tp… Mt sphương pháp đã được đề xut để gii quyết  
nhng vn đề trên, tuy nhiên trong tương lai scó nhiu nghiên cu hơn na nhm  
gii quyết trit để nhng thách thc đó.  
2.1 Xu hướng các cuc nghiên cu gn đây  
Tcách đây mt vài năm, vic đánh giá quan đim đã trthành chủ đề nóng  
gia các nhà nghiên cu xlý ngôn ngtnhiên và trích chn thông tin. Nhiu nlc  
3
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
ln dành cho vic nghiên cu mng này, có khá nhiu các bài báo được xut bn và  
nhng ng dng khác nhau có sdng hthng đánh giá quan đim được phát trin và  
đưa vào trong hot động thương mi. Mc dù các ng dng da trên hthng đánh giá  
quan đim có mc đích, vn đề trng tâm, đim ni bt khác nhau; tuy nhiên chúng  
thường được chia thành 3 phn chính: xác định t, cm tchquan đim; xác định xu  
hướng quan đim và phân loi câu hay văn bn chquan đim. Ba thành phn cơ bn  
này cũng là 3 thành phn cơ bn xây dng trên hthng ca chúng tôi.  
2.1.1 Xác định t, cm tquan đim  
Nhng t, cm tchquan đim là nhng tngữ được sdng để din tcm  
xúc, ý kiến người viết; nhng quan đim chquan đó da trên nhng vn đề mà anh ta  
hay cô ta đang tranh lun. Vic rút ra nhng t, cm tchquan đim là giai đon đầu  
tiên trong hthng đánh giá quan đim, vì nhng t, cm tnày là nhng chìa khóa  
cho công vic nhn biết và phân loi tài liu sau đó.  
ng dng da trên hthng đánh giá quan đim hin nay tp trung vào các từ  
chni dung câu: danh t, động t, tính tvà phó t. Phn ln công vic sdng từ  
loi để rút chúng ra (Hu và Liu, 2004a [12]; Turney, 2002 [22]). Vic gán nhãn tloi  
cũng được sdng trong công vic này, điu này có thgiúp cho vic nhn biết xu  
hướng quan đim trong giai đon tiếp theo. Nhng kĩ thut phân tích ngôn ngtự  
nhiên khác như xóa stopwords, stemming cũng được sdng trong giai đon tin xử  
để rút ra t, cm tchquan đim.  
2.1.2 Xác định chiu hướng t, cm tquan đim  
Trong phân tích quan đim, xu hướng ca nhng t, cm ttrc tiếp thhin  
quan đim, cm xúc ca người viết bài. Phương pháp chính để nhn biết xu hướng  
quan đim ca nhng t, cm tchcm nghĩ là da trên thng kê hoc da trên từ  
vng. Hthng ca chúng tôi dùng lut để xác định chiu hướng và tquan đim cũng  
chính là phương pháp da trên tvng.  
4
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
2.1.2.1 Sdng tính tvà phó từ  
Kiu Thanh Bình  
Nhng hthng hin ti dùng để nhn biết nhng tchquan đim hay xu  
hướng quan đim tp trung chyếu vào các tính tvà phó tvì chúng được xem là sự  
biu lrõ ràng nht ca tính chquan (Hatzivassiloglou and McKeown, 1997 [11];  
Wiebe and Bruce, 1999 [2]).  
Hu và Liu (2004a) [12] áp dng vic gán nhãn tloi và kĩ thut xlý ngôn  
ngtnhiên nhm rút ra nhng tính tcũng như nhng tchquan đim (đã được nói  
đến mc 2.1.1). Sau đó hxác định nhng du hiu quan đim vsn phm vì  
phương pháp ca htp trung vào vic phân loi quan đim da trên nhng du hiu.  
Họ định nghĩa mt câu mà cha mt hay nhiu du hiu sn phm và tchquan đim  
được xem là mt câu chquan đim.  
Sau đó vi mi mt câu trong dliu chquan đim, hrút ra tt cnhng tính  
từ được coi là nhng tchquan đim. Kết quthc nghim vic rút ra nhng câu  
đánh giá quan đim có độ chính xác (precision) khong 64.2% và recall là 69.3%.  
Hsdng WordNet (Fellbaum, 1998 [10]) để xác định các tính từ được rút ra  
mang chiu hướng tích cc (positive) hay tiêu cc (negative). Trong WordNet, các  
tính từ được tchc thành các cm tlưỡng cc; na cm thhai phn đầu là ttrái  
nghĩa ca cm thnht. Mi na cm là phn đầu ca tp từ đồng nghĩa chính, tiếp  
theo là tp từ đồng nghĩa kèm theo – nó đại din cho ngnghĩa tương tnhư nhng  
tính tquan trng. Ngược vi cách tiếp cn da trên từ đin, hsdng định hướng  
quan đim ca nhng từ đồng nghĩa và ttrái nghĩa để dự đoán định hướng ca các  
tính t. Hbt đầu vi mt danh sách khi đầu gm 30 tính tthông dng được chn  
thcông (bng tay). Sau đó sdng WordNet để dự đoán định hướng ca tt ccác  
tính ttrong danh sách tquan đim được rút ra bng cách tìm kiếm qua cm lưỡng  
cc để tìm ra liu các từ đồng nghĩa hay trái nghĩa có trong danh sách khi đầu hay  
không. Mt khi định hướng ca tính từ được dự đoán, nó sẽ được bsung vào danh  
sách khi đầu và có thể được sdng để xác định định hướng ca các tính tkhác.  
Trong phương pháp này, danh sách khi đầu sdn tăng lên khi sự định hướng ca các  
tính từ được nhn dng; và khi nó ngng gia tăng, tc qui mô ca danh sách khi đầu  
trùng vi qui mô ca danh sách tchquan đim, thì tt cả định hướng ca các tính từ  
đã được nhn biết và quá trình này kết thúc.  
5
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
Hatzivassiloglou và McKeown (1997) [11] đã dùng mt phương pháp để rút  
trích tự động các thông tin định hướng quan đim sdng các thông tin gián tiếp được  
thu thp ttp corpus khng lkhi hchra rng nhng từ đin như Wordnet không  
bao gm các thông tin định hướng quan đim và thiếu sliên kết trc tiếp gia các từ  
đồng nghĩa và trái nghĩa đặc bit khi chúng phthuc vmin xác định. Đầu tiên, họ  
rút ra tt ccác cách kết hp tính tttp corpus vi mi liên hhình thái hc phù  
hp. Sau đó hsdng mô hình lp tuyến tính hóa (log-linear) và kết hp thông tin từ  
nhng cách liên kết khác nhau để xác định liu hai tính từ được kết hp có cùng hướng  
quan đim hay không. Các tính từ được mô ttrên mt đồ thvi githuyết có mi  
liên hcùng hay không cùng hướng quan đim và sau đó được phân ra thành 2 nhóm  
định hướng nhkhác nhau bng cách sdng thut toán phân cm (clustering). Cui  
cùng hso sánh tn sxut hin trung bình ca mi nhóm tính tvà gán nhãn là nhóm  
có tn sxut hin cao hơn.  
Turney (2002) [22] sdng thông tin chung gia 2 từ để phân loi định hướng  
ca các tính thay phó t. Trước khi phân loi quan đim t, hsdng POS tagging  
để rút ra các tính tvà phó tda trên phương pháp tiếp cn ca Brill (1994) [1].  
Thông tin tương h(PMI) (Church and Hanks, 1989 [4]; Turney, 2001 [21]) là mt  
thước đo mc độ liên hvquan đim gia 2 từ được sdng. Định hướng quan đim  
ca mt thay cm tsau đó được tính toán theo PMI(x,“excellent”) và  
PMI(x,“poor”); sau đó thay cm từ đó được phân loi là “positive” nếu nó có độ  
liên hmnh vi “excellent” và “negative” trong trường hp còn li. Hla chn các  
t“excellent” và “poor” bi vì hai tnày được dùng thông dng để din tcác quan  
đim cui cùng ca các bài phê bình.  
Trong hthng ca chúng tôi, tính tvà phó tlà hai tloi rt hay được sử  
dng trong lut để nhn dng tquan đim. Nhng tquan đim thường tp trung chủ  
yếu vào hai loi tnày vì vy càng nhn dng chính xác được nhiu hai loi tnày hệ  
thng càng có độ chính xác cao.  
2.1.2.2 Sdng các động từ  
Các tính tvà phó từ đóng mt vai trò quan trng trong vic phân tích quan  
đim và là các loi tcó li thế trong vic nhn biết định hướng và rút ra các tchỉ  
6
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
quan đim trong các nghiên cu hin nay. Tuy nhiên, các loi tkhác, ví dnhư động  
tcũng được sdng để din tcm xúc hay ý kiến trong các bài viết.  
Nasukawa và Yi (2003) [15] xem xét rng bên cnh các tính tvà phó t, thì  
các động tcũng có thdin tquan đim trong hthng đánh giá quan đim ca h.  
Hphân loi các động tcó liên quan đến quan đim thành 2 loi. Loi thnht trc  
tiếp thhin quan đim tích cc hay tiêu cc, theo lý gii ca hthì “beat” trong “X  
beats Y”. Loi thhai không thhin quan đim trc tiếp nhưng dn đến nhng quan  
đim , ging như “is” trong “X is good”.  
Hsdng POS tagger da trên mô hình Markov (HMM) (Manning and  
Schutze, 1999 [14]) và phân tích cú pháp nông da trên lut (Neff et al., 2003) [16]  
cho bước tin xlý. Sau đó hphân tích tính phthuc vmt cú pháp gia các cm  
tvà tìm kiếm các cm tcó mt tchquan đim mà nó bnghĩa hoc được bổ  
nghĩa bi mt thut ngchth.  
Trong hthng ca chúng tôi động tcũng được chúng tôi xét đến nhưng dùng  
lut để xác định quan đim và không dùng phân tích cú pháp bi phân tích cú pháp  
cho tiếng Vit hin gicòn chưa có độ chính xác cao.  
2.1.3 Phân lp câu / tài liu chquan đim  
Vic phân lp câu / tài liu chquan đim là phân loi mt câu hay mt tài liu  
thành các loi ý kiến khác nhau: tích cc (positive) hay tiêu cc (negative), đôi khi ý  
kiến trung lp cũng được đưa vào. Vic phân lp câu chquan đim được áp dng khi  
tính đối lp trong mi câu thy rõ, còn vic phân loi tài liu chquan đim được áp  
dng khi xu hướng quan đim chung trong toàn btài liu được nhn mnh. Vic nhn  
biết xu hướng t/ cm tchquan đim được sdng trong phân lp câu / tài liu  
như trong Hu và Liu (2004a) [12]; trái li các tài liu khác (Pang, 2002 [17]) phân lp  
câu / tài liu chquan đim không có snhn biết ca mi tchquan đim.  
Hu và Liu (2004a) [12] dự đoán xu hướng câu chquan đim trong nghiên cu  
ca họ đối vi nhn xét ca người dùng. Vì nghiên cu ca htp trung vào quan  
đim chung về đặc đim riêng ca sn phm nên vic phân loi quan đim đối vi mi  
câu có quan đim được đưa vào sdng khi hcn tp hp các câu chý kiến đối vi  
7
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
cùng mt đặc đim để tìm ra ý kiến chung về đặc trưng ca sn phm. Hsdng xu  
hướng chiếm ưu thế ca các tchquan đim bng cách tính theo tính đối lp ca  
chúng để xác định xu hướng ca ccâu. Do vy nếu tng scác tchý kiến tích cc  
(hay tiêu cc) áp đảo sý kiến còn li thì câu đó sẽ được phân loi là theo quan đim  
tích cc (hay tiêu cc). Trong trường hp bng nhau, xu hướng trung bình ca tchỉ  
quan đim sát nht về đặc trưng sn phm hoc xu hướng ca câu chquan đim trước  
đó được sdng để phân loi. Độ chính xác ca hlà 84,2%.  
Turney (2002) [22] đã sdng mt thut toán phi giám sát đơn gin để phân  
loi quan đim trong nhng lĩnh vc khác nhau thành “recommended” hoc “not  
recommended”. Và sau đó rút ra các t/ cm tchquan đim da trên phương pháp  
tiếp cn ca Hatzivassiloglou và McKeown (1997) [11] và nhn biết xu hướng da  
trên phương pháp ca Turney (2001) [21]. Sau đó htính toán hướng ngnghĩa hc  
trung bình ca các tvà cm từ được rút ra ttoàn bbài phê bình. Nếu xu hướng  
bình quân đó là tích cc thì quan đim được phân loi là “recommended”, trường hp  
ngược li là “not recommended”. Độ chính xác ca thut toán này là 74,39%. Bước  
cui cùng ging như phương pháp tiếp cn ca Hu và Liu (2004a) [12] ngoi trvic  
hphân loi theo toàn btài liu thay cho tng câu.  
Trái li phương pháp tiếp cn ca Turney (2002) [22], Pang (2002) [17] sử  
dng hc máy có giám sát để phân loi nhng nhn xét vphim nh. Không cn phi  
phân lp các thay cm tchquan đim, hrút ra nhng đặc đim khác nhau ca  
các quan đim và sdng thut toán Naïve Bayes (NB), Maximum Entropy (ME) và  
Support Vector Machine (SVM) để phân lp quan đim. Phương pháp này đạt độ  
chính xác t78,7% đến 82,9%.  
Hthng ca chúng tôi vi mc đích da trên nhn dng tquan đim để phân  
loi câu tuy nhiên khác vi nhng câu thông thường. Chúng tôi còn tiến hành tách các  
câu ghép phc tp thành các câu đơn đơn gin phc vcho vic đánh giá Feature ca  
chúng tôi.  
8
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
2.2 Nhng thách thc và công vic có thtrong tương lai  
Nhng vn đề thách thc chính trong đánh giá quan đim còn tn ti trong vic  
sdng các tloi, vic xây dng các tngchquan đim, snhp nhng trong câu  
phủ định, mc độ ca tình cm (như excellent thì hơn good), các câu / văn bn phc  
tp, tngtrong văn cnh khác nhau,… Mt vài hướng tiếp cn đã được đưa ra để gii  
quyết nhng vn đề này và trong tương lai scó nhiu hướng nghiên cu gii quyết  
trit để tng thách thc này.  
2.2.1 Các loi tkhác  
Cho ti nay, phn ln các công vic đã đạt được trong phân tích quan đim tp  
trung vào các tloi : danh t, động t, tính tvà phó t, đặc bit là 2 loi tcui  
cùng. Tuy nhiên các loi tkhác cũng có thmang li tính hiu qutrong vic phân  
loi quan đim. Ví d, các liên tnhư “nhưng” ni 2 phn ca mt câu vi nhau  
nhưng li nhm nhn mnh phn đằng sau ch“nhưng”: “bphim hay nhưng khó  
hiu” có thể được phân loi là ý kiến trung lp, nếu chúng ta tính đơn gin giá trcác  
tchquan đim tích cc “hay” và chquan đim tiêu cc “ khó”; có lcâu đó được  
phân loi là quan đim tích cc nếu chúng ta nhìn vào tchquan đim “tt” gn nht  
vi từ đặc trưng “bphim” như trong Hu và Liu (2004a) [12]. Tuy nhiên, nếu chúng ta  
sdng liên t“nhưng” và cho mt trng lượng cao hơn ca phn câu sau chữ  
“nhưng” , trong trường hp này “khó”, thì câu đó li được phân loi đúng là quan  
đim tiêu cc. Ngoài t“nhưng” các tkhác cũng tương tnhư vy: “mc dù”, ”tuy  
thế mà” và “vn”... cũng có thể được sdng trong phân loi câu chquan đim.  
Vì công vic này khi áp dng vào tiếng Vit li không to ra được kết qukhả  
thi hơn nếu như không nói làm cho vic viết lut trlên phc tp hơn. Chính vì vy  
hthng ca chúng tôi không áp dng đối vi nhng tloi khác mà chtp  
trung vào 4 loi tcơ bn là: Danh t, Động t, đặc bit là Tính tvà Phó t.  
9
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
2.2.2 Thut ngchquan đim  
Nhiu công trình nghiên cu như (Nasukawa và Yi, 2003 [15]; Bruce và Wiebe,  
1999 [2]) định nghĩa các biu hin quan đim trong thut ngquan đim ca chính họ  
da trên biu thtính đối lp, POS tagging, hình thái tiêu chun và loi chủ đề (chthể  
hay đối tượng) đối vi các tchquan đim tương ng. Tuy nhiên, phương pháp này  
kém hp dn, thiếu hiu quvà có llà không chính xác. Cũng do mt thc tế là các  
thut ngquan đim độc lp này không có giá trcông khai, các nhóm phân tích quan  
đim không thcng tác vi nhau và như vy thì không thể đưa ra mt tài liu tiêu  
chun cho vic sdng trong tương lai. Tình hình không được ci thin mãi cho ti  
gn đây khi xut hin mt snghiên cu tp trung gii quyết vn đề này. Esuli và  
Sebastiani (2006) [9] xây dng mt hthng thut ngcó giá trthông dng trong vic  
đánh giá quan đim – SentiWordNet, mt WordNet (Fellbaum, 1998) [10] nhn mnh  
vào xu hướng quan đim ca các t. Hliên kết mi synset trong WordNet vi 3  
đim: Obj(s), Pos(s), và Neg(s) để chra các thut ngbao hàm tính khách quan, tích  
cc, tiêu cc như thế nào trong mi synset. Phương pháp ca hxây dng  
SentiWordNet da trên vic phân tích slượng nhng li nhn xét được kết ni vi  
các synset, và da trên kết quvvectơ đại din cho phân lp synset bán giám sát.  
Cách tiếp cn ca họ đã mrng khi lượng các công vic hin ti và cung cp mt  
công cmi trong phân tích quan đim; tuy nhiên, nhng thut ngnày chưa được  
phát trin. Nhiu đặc đim ca các thut ngtrong nhn biết tính chquan và xu  
hướng quan đim chưa được bsung để gii quyết các vn đề đang tn ti trong lĩnh  
vc này.  
Đối vi hthng tiếng Vit, hin chưa có mt tp thut ngchun dành cho  
công vic này. Chính vì vy hthng ca chúng tôi phi txây dng nhng thut ngữ  
này da trên kinh nghim gán nhãn bng cách thcông.  
2.2.3 Tính phủ định  
Khi có biu hin phủ định được kết hp, theo Nasukawa và Yi (2003) [15] sẽ  
làm đảo chiu tính quan đim. Hu và Liu (2004a) [12] sdng định hướng đối lp nếu  
ttiêu cc xut hin gn hơn xung quanh tchquan đim trong câu. Tuy nhiên,  
10  
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
không ging các công vic trong toán hc khi phủ định ca khng định là phủ định và  
ngược li, biu hin phủ định được cng thêm vào mt thay cm ttrong bài viết  
thc tế không ging vi vic đặt mt du “tr”(-) trước mt con s. Hay nói cách  
khác, phủ định ca khng định không hn là phủ định đối vi các thay cm t. Ví  
d, “mun” là negative, nhưng thêm mt ch“không” vào trước không làm cho  
“không mun” là positive vì “không mun” không bng vi “sm” là ttrái nghĩa vi  
“mun”. Vn đề này cũng vì mt thc tế rng nhiu cách tiếp cn sdng 2 tiêu  
chun: positive và negative (đôi khi là 3 tiêu chun bao gm cstrung lp) để din tả  
xu hướng quan đim trong khi các t/ cm tcó thcó các cp độ tính đối lp có các  
cp độ tính đối lp mà chúng ta sbàn lun mc sau 2.2.4.  
Trong hthng ca chúng tôi cũng xét đến nhng loi tnày tuy nhiên cũng  
chxét trong phm vi khi có 2 loi quan đim là positive và negative. Do đó mà khi  
xut hin nhng tphủ định hay còn gi là tlàm thay đổi quan đim thì chúng tôi  
thay đổi lp cho nhng tnhư vy.  
2.2.4 Cp độ quan đim  
Như trong Esuli và Sebastiani (2006) [9], mt vài nhim vliên quan đến cp  
độ quan đim trong hthng đánh giá quan đim. Nhim vthnht được gi là SO-  
polarity, nhm xác định ý kiến mang tính khách quan hay chquan (Pang và Lee,  
2004 [18]; Yu và Hatzivassiloglou, 2003 [26]). Nhim vthhai được gi là PN-  
polarity, nhm xác định ý kiến là tích cc hay tiêu cc; được din ttrong nhiu cách  
tiếp cn hin nay (Hatzivassiloglou và McKeown, 1997 [11]; Hu và Liu, 2004a [12];  
Pang, 2002 [17]; Pang và Lee, 2004 [18]; Turney và Littman, 2003 [24]; Turney và  
Littman, 2002 [23]). Tuy nhiên vic phân lp xu hướng quan đim chtheo positive và  
negative cũng ny sinh mt vài vn đề, mc độ mnh yếu, tính đối lp cũng cn được  
phân tích klưỡng.  
Bsung thêm vic phân lp các tthành các mc độ xu hướng quan đim khác  
nhau như đã được nhc đến trên, mt stbnghĩa (đặc bit các phó tnhư  
“rt”,”mt chút”,”hết sc”,”hơi”…) cũng có thể được dùng để xác định mc độ xu  
hướng quan đim ca câu. Cm t“rt hài lòng” và “ hơi hài lòng” sẽ được phân lp  
11  
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
thành rt tích cc và kém tích cc là thích hp nếu “rt” và “hơi” được phân tích và sử  
dng để xác định mc độ đối lp.  
Cp độ quan đim này làm cho vic xét mc độ đánh giá quan đim được chính  
xác hơn tuy nhiên trong hthng ca chúng tôi bước đầu chsdng 2 loi quan đim  
là positive và negative do vy vic xét cp độ quan đim ca chúng tôi chdng li 2  
lp này và không đi sâu hơn. Trong tương lai chúng tôi sphát trin hthng để có  
được thước đo sát vi mc độ đánh giá hơn.  
2.2.5 Sphc tp ca câu / tài liu  
Sphc tp ca câu là mt vn đề mang tính thách thc vi nhng nghiên cu  
hin nay vphân lp câu chquan đim. Các phương pháp như (Nasukawa và Yi,  
2003 [15]) chnhm cgng phân lp câu có cu trúc đơn. Vi nhng câu phc tp,  
hchcó thchia ct câu và gii quyết tng phn riêng l. Không phân tích theo toàn  
bcu trúc câu, toàn bquan đim có thbphân lp nhm và độ chính xác ca vic  
phân lp ktừ đó sbị ảnh hưởng. Đó cũng là vn đề xy ra trên hthng ca chúng  
tôi, vic dùng lut cũng phn nào phn ánh được quá trình phân tích câu tuy nhiên đối  
vi snhp nhng hay phc tp trong các thành phn câu thì khó có thhoàn thành tt  
được.  
Sphc tp ca tài liu có thto nên vn đề ln hơn đối vic phân lp tài liu  
chquan đim. Turney (2002) [22] chra rng trong quan đim phim nh, có thcó  
nhng quan đim khác nhau trong nhng phn khác nhau ca bài viết, da theo nhng  
khía cnh khác nhau ca bphim. Do đó skhó cho hthng phân lp quan đim để  
xác định xu hướng trung thc và quan đim ca người phê bình đối vi mi bphim.  
Thm chí mt trường hp ti thơn có thxy ra khi người viết sdng nhiu đon  
văn để din tanh ta (cô ta) ghét mt trong nhng din viên ca bphim như thế nào  
nhưng sdng chmt đon nhỏ để din tanh ta (cô ta) yêu thích bphim hơn tt c.  
Khi gp nhng tình hung như thế này, hthng rt dbli khi phân lp quan đim  
này là tiêu cc. Mt phương pháp có thgii quyết vn đề này là phân bit các khía  
cnh khác nhau ca mt tài liu, và phân lp quan đim vi slưu tâm ti các khía  
cnh hơn là phân lp theo toàn btài liu. Hu và Liu (2004a) [12] đã sdng phương  
12  
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
pháp này để phân bit các quan đim đối vi các đặc đim khác nhau ca cùng mt  
sn phm hay cùng mt tài liu.  
2.2.6 Quan đim theo ngcnh  
Các nghiên cu hin nay nhm nhn biết xu hướng quan đim ca các tkhông  
xem xét nhiu đến ngcnh. Mt sttrong các ngcnh khác nhau có thcó POS  
tags khác nhau và nghĩa khác nhau. Trong trường hp này, POS tagging là mt công  
ctt giúp nhn biết xu hướng quan đim. Tuy nhiên, cùng các ttrong nhng ngữ  
cnh khác nhau có thcó cùng POS tag nhưng li có nghĩa khác nhau và xu hướng  
quan đim khác nhau. T“poor” trong “ hiu sut hthng kém (poor)” là mt xu  
hướng quan đim tiêu cc, nhưng trong “ chúng ta nên giúp đỡ người nghèo(poor)” thì  
“poor” là mang tính trung lp. Khi gp phi nhng tình hung như vy, ý nghĩa rõ ràng  
ca tgiúp cho gii quyết vn đề. Mt khi chúng ta biết nghĩa rõ ràng ca t“poor”  
trong câu thnht nghĩa là kém cht lượng, trong khi trong câu thhai có nghĩa là có  
ít tin, vic nhn biết xu hướng quan đim đối vi t“poor” đã được gii quyết.  
Trường hp tnht vn có thxy ra khi cùng các ttrong các ngcnh khác  
nhau có cùng POS tag và cùng nghĩa nhưng li có xu hướng quan đim khác nhau. Ví  
d, “old” trong “the man is old” là tmang tính trung lp, trái li trong “the technique  
is old” thhin quan đim tiêu cc. Trong trường hp này, không may là cPOS  
tagging và vic nhn biết rõ nghĩa ca tcũng không thgii quyết. Cn nhiu thut  
toán và kĩ thut hơn na được phát trin để có thxlí vn đề này.  
Trong phương pháp xây dng hthng đánh giá quan đim da trên lut chúng  
tôi cũng sdng khá nhiu lut để mô tcho tng ngcnh. Ví dnhư khi nói đến giá  
cthì t“cao” mang nghĩa negative còn khi nói đến hthng t“cao” li thhin ý  
positive. Trong nhiu ngcnh hthng lut ca chúng tôi chy cũng khá hiu qu.  
2.2.7 Tài liu không đồng nht  
Các loi tài liu khác nhau, hoc thm chí cùng mt loi nhưng nói vcác lĩnh  
vc khác nhau có mc độ khó khác nhau trong vic phân loi quan đim. Theo như kết  
quả được nói đến trong Turney (2002) [22], độ chính xác ca vic phân lp là khác  
13  
Chương 2. Hướng tiếp cn cho bài toán đánh giá quan đim  
Kiu Thanh Bình  
nhau tùy theo quan đim trong nhng lĩnh vc khác nhau, vic phân lp đánh giá vxe  
ô tô và ngân hàng có độ chính xác cao hơn (tương ng 84% và 80%), trái li các quan  
đim về đin nh và các đim du lch có độ chính xác thp hơn (tương ng 65,83% và  
70,53%). Điu này cũng vì mc độ phc tp khác nhau ca câu (tài liu) ng vi các  
lĩnh vc đề cp khác nhau trong nhng tài liu đã được nói đến mc 2.2.5. Trong  
nhng nghiên cu sau này, kĩ thut phân tích ngôn ngtnhiên có thể được phát trin  
nhm mc đích xác định lĩnh vc ca tài liu, nhng người nghiên cu vphân lp  
quan đim có thsnâng cao hơn độ chính xác đối vi tng lĩnh vc này.  
Hthng ca chúng tôi hin đang chú trng vào đánh giá quan đim người  
dùng cho máy tính (laptop & desktop). Trong tương lai chúng tôi smrng thêm về  
ô tô & xe máy và đin thoi di động là nhng chủ đề nóng hin nay.  
2.2.8 Mt svn đề khác  
Bên cnh nhng vn đề đã nói trong mc trước (2.2.1 đến 2.2.7), còn có không  
ít vn đề thách thc khác như vic gii quyết các trích dn … vn chưa được xlí  
trong đánh giá quan đim. Vic nghiên cu trong tương lai cũng cn lưu tâm đến các  
vn đề này để nâng cao độ chính xác.  
14  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
Chương 3  
Gii thiu GATE  
GATE là framework giúp phát trin và trin khai các thành phn xlý ngôn  
ngtnhiên. GATE giúp các nhà khoa hc và phát trin theo 3 hướng:  
+) Xác định mt kiến trúc, hay mt cơ cu tchc cho phn mm xlý ngôn  
ng.  
+) Cung cp mt framework, hay mt lp thư vin thi hành kiến trúc và có thể  
được dùng để nhúng khnăng xlý ngôn ngvào các ng dng khác nhau.  
+) Cung cp mt môi trường phát trin xây dng trên framework to ra các  
công cthun tin cho phát trin các thành phn đồ ha.  
GATE do nhóm giáo sư Cunningham thuc trường đại hc Sheffield – Anh  
phát trin (H. Cunningham – 2002 [3]). Có thdownload phiên bn mi nht (version  
5.0) ca GATE min phí ti địa ch: http://gate.ac.uk/download/index.html.  
3.1 Tng quan vGATE  
Phn này chúng tôi strình bày nhng kiến trúc cơ bn và nhng khái nim cơ bn ca  
GATE. Đây là mt hình nh vGATE 5.0 [Hình 1]:  
15  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
Hình 1 - Giao din ca GATE  
3.1.1 Mô hình kiến trúc ca GATE  
Kiến trúc ca GATE gm nhiu tng và được liên kết vi nhau theo sơ đồ [Hình 2]:  
16  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
Hình 2 - Mô hình kiến trúc ca GATE [6]  
Tng hin th(IDE GUI Layer): hin thgiao din trc quan tương tác vi  
người dùng.  
Tng ng dng (Application Layer): để thêm các ng dng khác nhau. Có thể  
thêm hay gbcác ng dng bng cách đánh du vào các plugin cn thiết  
trong Manage CREOLE plugins.  
Tng xđịnh dng văn bn (Document Format layer): làm nhim vxlý  
cho các định dng văn bn khác nhau.  
Tng dliu (Corpus Layer): Đây là kho tài liu gm nhiu thành phn khác  
nhau như: tp dliu (Corpus) cha các văn bn (Document), ni dung văn bn  
(Document Content), …  
17  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
Tng xlý (Processing Layer): Gm các thành phn xlý khác nhau như: tách  
t(word segmentation), gán nhãn tloi (POS tag), nhn dng tquan đim,…  
Tng ngun ngôn ng(Language Resource Layer): gm nhiu tp dliu khác  
nhau như: tp từ đin (gazetteers), tp tvng (lexicon) v.v…  
Tng lưu tr(DataStore Layer): tng này lưu trdliu các dng khác nhau.  
Vcơ bn có thnói GATE chy khá tt trong công vic xlý ngôn ngtự  
nhiên tuy nhiên trong khi vn hành vn còn mt vài hn chế nhvgiao din chưa n  
định hay qun lý lưu trchưa tt…  
3.1.2 Nhng khái nim cơ bn trong GATE  
Mt skhái nim cơ bn được dùng trong GATE:  
Tp dliu (corpus): là mt tp gm mt hay nhiu văn bn (Documents).  
Văn bn (Document): là mt tp gm ni dung văn bn, tp nhãn (Annotation  
Set).  
Tp nhãn (Annotation Set): là mt tp hp nhiu nhãn (Annotations).  
Nhãn (Annotation): là mt tp các cu trúc gm có khóa (Id), vtrí đầu  
(startNode) vtrí cui (endNode) nhm xác định vtrí ca nhãn trong văn bn,  
kiu (Type) và tp các đặc trưng (FeatureMap).  
Tp đặc trưng (FeatureMap): là kiu tp hp (trong java nó có kiu Map) ca  
các đặc trưng.  
Đặc trưng (Features): là mt tp gm tên (kiu String) và giá tr(kiu Object).  
3.2 Xây dng plugin trên GATE  
Mt thành phn tích hp (Plugin) có thgm ba loi: thành phn ngôn ngữ  
(Language Resources), thành phn xlý (processing Resource), và thành phn thể  
18  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
hin (Visual Resource). Ví d: Hthng đánh giá quan đim người dùng ca chúng tôi  
gm các thành phn:  
Btừ đin – Coltech.Opinion.ListOpinion.  
Blut – Coltech.Opinion.Rule.  
Vic to ra mt thành phn xlý rt đơn gin, được thc hin qua các bước:  
To lp Plugin (tên thành phn xlý) kế tha (extends) tlp  
AbstractProcessingResource và thhin (implements) lp ProcessingResource.  
To file creole.xml khai báo thành phn xlý mi. Ví dvề  
Coltech.Opinion.Rule :  
<?xml version="1.0"?>  
<CREOLE-DIRECTORY>  
<CREOLE>  
<RESOURCE>  
<!-- Name of the PR that appears in GATE PR List -->  
<NAME>Coltech.Opinion.Rule</NAME>  
<!-- Jar where to look for the resource -->  
<JAR>VNOpinion.jar</JAR>  
<!-- Underlying class that implements the New Plugin -->  
<CLASS>VNOpinion</CLASS>  
<!-- Comment that appears when mouse hovers over the PR Name -->  
<COMMENT>A program demo the Vietnamese Natural Language  
Processing</COMMENT>  
</RESOURCE>  
</CREOLE>  
</CREOLE-DIRECTORY>  
Sau khi đã có thành phn tích hp (Plugin), có hai cách để thêm thành phn này vào  
khung làm vic ca GATE.  
19  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
Cách 1: đặt thư mc cha toàn bthành phn tích hp vào trong %GATE-  
HOME%/plugins. Chy lnh “bin/ant plugins.build”, hthng GATE stự  
động thêm thành phn tích hp vào hthng.  
Cách 2: Chn File -> Manage CREOLE plugins -> Add new CREOLE  
repository -> Select a directory và chn thư mc cha thành phn tích hp mi  
to (hình 3).  
Sau bước này, ta được mt thành phn tích hp mi hot động trên khung làm vic  
GATE. Và trong thành phn này ta có thchn nhng công vic cho nó [Hình 4].  
Hình 3 - Giao din thêm mt thành phn tích hp vào GATE.  
20  
Chương 3. Gii thiu GATE  
Kiu Thanh Bình  
Hình 4 - Chn các thành phn cho ng dng GATE  
3.3 Các thành phn quan trng ca GATE  
Trong GATE khi nói đến thành phn quan trng phi kể đến btừ đin  
(Gazetteers) và blut (Rule) – 2 thành phn làm lên skhác bit ca GATE.  
3.3.1 Btừ đin (Gazetteers)  
Btừ đin (gazetteers) gm mt tp hp các từ đin nhcha các từ được định  
nghĩa theo mt tiêu chí nào đó.  
Ví d:  
Theo tiêu chí loi tên riêng ta có thcó các từ đin:  
o từ đin theo tên người: Kiu Thanh Bình, Nguyn Bá Đạt, Nguyn Quc  
Đạt, …  
21  

Tải về để xem bản đầy đủ

pdf 75 trang yennguyen 04/05/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Tự động đánh giá quan điểm người dùng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_tu_dong_danh_gia_quan_diem_nguoi_dung.pdf