Khóa luận Mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ

ĐẠI HC QUC GIA HÀ NI  
TRƢỜNG ĐẠI HC CÔNG NGHỆ  
Vũ Minh Đức  
MRNG BDLIU HUN LUYN CHO QUÁ  
TRÌNH XLÝ NHP NHẰNG NGHĨA CỦA TỪ  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƢỜNG ĐẠI HC CÔNG NGHỆ  
Vũ Minh Đức  
MRNG BDLIU HUN LUYN CHO QUÁ  
TRÌNH XLÝ NHP NHẰNG NGHĨA CỦA TỪ  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bộ hƣớng dn: Tiến sĩ Nguyễn Phƣơng Thái  
HÀ NI - 2010  
Mrng bdliu cho quá trình xlý nhp nhằng nghĩa ca từ  
LI CẢM ƠN  
Lời đầu tiên, tôi xin bày tlòng biết ơn chân thành đến các thầy cô giáo trƣờng Đại  
hc Công Nghệ, Đại hc Quc Gia Hà Ni nói chung và các thy cô trong bmôn Khoa  
hc Máy Tính nói riêng. Trong sut bốn năm học tập trong trƣờng, các thy cô không  
nhng tn tình truyền đạt kiến thức mà còn luôn động viên giúp đỡ tôi trong hc tập cũng  
nhƣ trong cuộc sng.  
Đặc bit, tôi mun gi li cảm ơn sâu sắc đến thy giáo, tiến sĩ Nguyễn Phƣơng  
Thái, ngƣời đã tận tình chbảo, hƣớng dn tôi trong sut quá trình nghiên cu và hoàn  
thin khóa lun tt nghip.  
Tôi cũng xin cảm ơn các bạn sinh viên K51, đã luôn cùng tôi nghiên cu và hc tp,  
đã cho tôi những ý kiến đóng góp giá trị trong sut thi gian hc tập cũng nhƣ trong quá  
trình nghiên cứu đề tài khóa lun tt nghip.  
Cui cùng, tôi xin gi li cảm ơn sâu sắc đến gia đình và bạn bè, những ngƣời luôn  
động viên giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sng.  
Hà Nội, ngày 21 tháng 5 năm 2010  
Sinh viên  
Vũ Minh Đc  
i
 
Mrng bdliu cho quá trình xlý nhp nhằng nghĩa ca từ  
TÓM TT KHÓA LUN  
Trong các chủ đề thuộc lĩnh vực xlý ngôn ngtnhiên, xlý nhp nhằng nghĩa  
ca tlà mt chủ đề dành đƣợc nhiu squan tâm chú ý ca nhng nhà nghiên cu, phát  
trin, ng dng khoa hc máy tính. Lý do là mc dù nếu đứng mt mình, xlý nhp  
nhằng nghĩa của từ ít đem li li ích cthể trong đi sng hàng ngày, nhƣng nó lại có mt  
vai trò quan trng trong nhiu ng dng xlý ngôn ngtnhiên hữu ích khác nhƣ dịch  
máy, tìm kiếm thông tin, khai phá dliệu, … Do vậy đã có rất nhiu cách tiếp cận để gii  
quyết vấn đề xlý nhp nhằng nghĩa của từ đƣợc đƣa ra nhƣ sdng bcstri thc, áp  
dng các luật để xlý nhp nhng, hoc sdng các thut toán học máy có giám sát để  
phân lớp nghĩa của từ … Trong tất ccác cách tiếp cn trên, lớp phƣơng pháp dựa vào  
các thut toán hc máy có giám sát tỏ ra là có đƣợc mt kết quxlý nhp nhng tt  
nht. Tuy vy lớp phƣơng pháp này có một nhƣợc điểm đó là yêu cầu mt bdliu hun  
luyện (thƣờng là lớn) các trƣờng hp xut hin ca từ đã đƣợc gán nhãn nghĩa sẵn. Nếu  
phi chun bbdliu hun luyn này mt cách thcông thì ta phi tn rt nhiu công  
sc, thi gian và chi phí do vy tìm kiếm mt gii pháp cho phép tự động hóa giai đoạn  
này là mt nhu cu thc tế. Nm bắt đƣợc nhu cầu trên, đề tài khóa lun của tôi đƣợc thc  
hin nhm mục đích tìm hiểu phƣơng pháp xây dng mt hthng xlý nhp nhng  
nghĩa của từ, đóng vai trò nhƣ một công ccho phép mrng bdliu nhỏ đã gán  
nghĩa cho các trƣờng hp xut hin ca từ đang cần mrng dliu hun luyn thành  
mt bdliu hun luyện đủ lớn nhƣng chỉ đòi hỏi rt ít công sc của con ngƣời, htrợ  
cho quá trình xlý nhp nhằng nghĩa của nhng tmang ni dung trong ngôn ngtự  
nhiên.  
ii  
 
Mrng bdliu cho quá trình xlý nhp nhằng nghĩa ca từ  
MC LC  
iii  
 
Mrng bdliu cho quá trình xlý nhp nhằng nghĩa ca từ  
iv  
Mrng bdliu cho quá trình xlý nhp nhằng nghĩa ca từ  
DANH MC BNG BIU  
vii  
Chƣơng 1: Mở đầu  
Chƣơng 1: Mở đu  
1.1. Đặt vấn đề  
Xlý nhp nhằng nghĩa của tlà mt trong nhng vấn đề đƣợc rt nhiu nhà nghiên  
cứu trong lĩnh vực xlý ngôn ngtự nhiên quan tâm đến. Vấn đề này đƣợc nêu lên nhƣ  
mt bài toán riêng bit lần đầu tiên là vào những năm cuối thp k40 ca thế k20 và  
đƣợc coi nhƣ là một trong nhng vấn đề lâu đời nht của lĩnh vực xlý ngôn ngtự  
nhiên [1]. Nhận đƣợc nhiu squan tâm và tsớm nhƣ vậy là do xlý nhp nhằng nghĩa  
ca từ đóng vai trò quan trọng trong rt nhiu các bài toán khác ca xlý ngôn ngtự  
nhiên. Ta có thly ví dụ nhƣ trong dịch máy, hxlý nhp nhằng nghĩa của tlàm  
nhim vchọn đúng từ trong ngôn ngữ đích cho những ttrong ngôn nggc có các cách  
dch sang ngôn ngữ đích là khác nhau với các nghĩa khác nhau [1]. Ngoài ra ta có ththy  
sxut hin ca hxlý nhp nhằng nghĩa của ttrong các hthng tìm kiếm thông tin,  
khai phá dliu và rt nhiu các ng dng hu ích khác.  
Đƣợc quan tâm nhƣ vậy nên ta có ththy rt nhiều các phƣơng pháp xử lý nhp  
nhng nghĩa của từ đã đƣợc các nhà nghiên cứu đề xuất. Phƣơng pháp đầu tiên cn nói ti  
là phƣơng pháp sử dng bcstri thức để xlý nhp nhằng nghĩa của t. Nó không  
dùng đến các yếu tố trong văn bản mà hoàn toàn căn cứ vào bộ cơ sở tri thc có sn [1].  
Điểm yếu của phƣơng pháp này là bộ cơ sở tri thức thƣờng srt lớn, hơn nữa vi sự  
phc tp ca ngôn ngtnhiên thì vic dùng các luật để xlý nhp nhằng cũng chỉ đạt  
đƣợc độ chính xác có gii hn.  
Phƣơng pháp dùng các thuật toán không giám sát cũng đang là một hƣớng đi rất  
đƣợc chú ý để gii quyết bài toán xlý nhp nhằng nghĩa của t. Nó sphân cm các  
trƣờng hp xut hin ca từ trong văn bản và từ đó đƣa ra nghĩa của t[9]. Phƣơng pháp  
này có thlà một phƣơng pháp có nhiều ci tiến và hy vng phát triển trong tƣơng lai tuy  
nhiên trong hin ti nó vẫn chƣa phải phƣơng pháp có độ chính xác cao nht.  
Phƣơng pháp có độ chính xác phân lớp nghĩa ca tcao nht trong thời điểm hin  
ti vẫn là phƣơng pháp sdng các thut toán hc máy có giám sát [9]. Phƣơng pháp này  
da vào githiết rằng văn cảnh xung quanh cho ta đủ cơ sở để có thkết lun chính xác  
1
   
Chƣơng 1: Mở đầu  
nghĩa của mt t[1]. Và do sdng các hàm phân lp da trên các thut toán hc có  
giám sát, nó đòi hỏi phi có mt bdliu hun luyn gm các trƣờng hp xut hin ca  
từ đã đƣợc gán nghĩa trƣớc để hun luyn cho các hàm phân lp này. Bdliu hun  
luyn càng ln thì khả năng gán nghĩa chính xác cho từ đang cần xlý nhp nhằng nghĩa  
ca các hàm phân lp sau quá trình hun luyn scàng cao. Tuy vy, vic phi chun bị  
trƣớc bdliu hun luyn ln là một điểm trcủa phƣơng pháp này, đặc bit nếu công  
vic chun bdliu phi làm thủ công. Đó thực sslà mt công vic rt nng nhc, tn  
rt nhiu thi gian, công sc và có chi phí cao. Từ đó phát sinh nhu cầu phi có mt  
phƣơng pháp cho phép con ngƣời chcần gán nghĩa thủ công cho mt số lƣợng nhcác  
trƣờng hp xut hin ca từ mà đầu ra là mt bdliệu đủ ln, đủ chính xác để hun  
luyn các hàm phân lp xlý nhp nhằng nghĩa của t. Để đạt đƣợc các yêu cầu đó,  
phƣơng pháp này chỉ có thể đƣợc xây dng da vào sc mnh tự động ca máy tính, tc  
là, sdụng máy tính để mrng tự động bdliu hun luyn cho quá trình xlý nhp  
nhằng nghĩa ca t.  
Nói đến bài toán xlý nhp nhng nghĩa của tthì ta có xlý nhp nhằng nghĩa cho  
nhng tmang ni dung (ca câu, của văn bản) và cho nhng tchức năng (tức là nhng  
txut hin do yêu cu vmt ngpháp ca ngôn ngtnhiên). Vi các tchức năng  
(nhƣ “to”, “from”, “in”, ...) ta có thsdng các lut ngpháp hay nhiu yếu tkhác để  
xác định nghĩa của t. Tuy nhiên trong gii hn ca khóa lun này, ta chỉ xét đến các từ  
có cha ni dung (nhƣ “line”, “interest”, “hard”, “serve”, ...).  
1.2. Mục tiêu đề tài  
Nhng vấn đề đã nêu trên cho ta thấy đƣợc scn thiết ca vic nghiên cu, xây  
dng mt công chtrmrng bdliu hun luyn xlý nhp nhằng nghĩa của từ  
(mang ni dung) mt cách tự động. Yêu cu chính ca công cnày là htrnhững ngƣời  
chun bdliu xlý nhp nhng nghĩa ca tsao cho hbra công sc nhnht, thi  
gian ngn nhất nhƣng thu đƣợc vmt bdliu ln, chính xác, có khả năng sửa li mt  
phn những sai sót trong quá trình gán nghĩa cho từ trong bdliu.  
Tyêu cu thc tế đó, mục tiêu của đề tài khóa lun là trình bày mt thut toán bán  
giám sát xlý nhp nhằng nghĩa của từ đóng vai trò nhƣ một hthng mrng bdliu  
xlý nhp nhằng nghĩa của tmt cách tự động, do đó con ngƣời chcn chun bmt  
lƣợng dliu nhỏ đƣợc gán nghĩa cho các trƣờng hp xut hin ca từ đang cần gán  
2
 
Chƣơng 1: Mở đầu  
nghĩa cùng vi mt bdliệu chƣa gán nghĩa từ, ta sdụng phƣơng pháp này để mở  
rng bdliệu gán nghĩa ra mt cách tự động, cuối cùng thu đƣợc mt bdliu mi  
lớn hơn nhiều ln đồng thời có độ chính xác đủ tt, và có khả năng sa mt phn li có  
thcó trong dliu gán nghĩa ban đu.  
1.3. Đối tƣợng và phƣơng pháp nghiên cứu  
Đối tƣợng nghiên cu ca khóa lun là cách thc áp dng những đặc tính ca từ  
trong ngôn ngtnhiên vào quá trình mrng tự động bdliệu nghĩa của t(mang ni  
dung).  
Phƣơng pháp nghiên cứu là da vào bcông cxlý ngôn ngtnhiên (nltk) có  
sẵn để xây dng mt bcông ccho phép đƣa ra, kho sát, và khẳng định đƣợc mt cách  
thc cthể để mrng bdliu xlý nhp nhng nghĩa của t. Trong khóa lun, tiếng  
Anh đƣợc ly làm ví ddo tiếng Anh đƣợc coi là mt ngôn ngquc tế, nhu cu dch từ  
tiếng Anh ra các ngôn ngữ khác và ngƣợc li là khá cao. Tuy vậy, phƣơng pháp đƣợc  
trình bày có tháp dng cho các ngôn ngkhác ngoài tiếng Anh.  
3
 
Chƣơng 1: Mở đầu  
Dliu chun  
chƣa định dng  
Bdliệu văn  
bn  
Hun luyn bphân lp  
Naive Bayes  
nltk.classify.naivebayes  
Chun bdữ  
liu (định dng)  
Chun bdữ  
liu (lit kê,  
định dng)  
Công ctxd  
Công ctxd  
Phân lớp nghĩa  
nltk.classify.naivebayes  
Dliu gán  
nghĩa ban  
đầu ca từ  
đang xét  
Dliu chƣa  
gán nghĩa ca  
từ đang xét  
Gán lại nghĩa trong cùng  
văn bản, loi bỏ trƣờng  
hp có xác sut thp  
Dliu gán  
nghĩa ca từ  
đang xét (mở  
rng sau vòng  
lặp đầu tiên)  
Công ctxây dng  
Dliu gán  
nghĩa mở rng  
ca từ đang xét  
Điều kin dng  
Chƣa thỏa mãn điều  
kin dng, tiếp tc  
hun luyn  
Hình 1: Sơ đồ các dliu và công csdng trong nghiên cu, khảo sát phương pháp  
mrng dliu hun luyn cho quá trình xlý nhp nhằng nghĩa của từ  
4
   
Chƣơng 1: Mở đầu  
1.4. Cu trúc khóa lun  
Khóa luận đƣợc tchức thành các chƣơng nhƣ sau:  
Chƣơng 1: Mở đầu  
Chƣơng này nhằm nêu bt scn thiết, ý nghĩa thực tiễn, đối tƣợng, phƣơng  
pháp nghiên cu, mc tiêu của đề tài phƣơng pháp tự động mrng bdliu  
hun luyn cho quá trình xlý nhp nhằng nghĩa ca t.  
Chƣơng 2: Các đặc tính ca từ liên quan đến mrng bdliu xlý nhp  
nhng nghĩa của từ  
Chƣơng này chỉ ra những đặc tính ca từ liên quan đến nghĩa của nó, giúp ích  
cho quá trình mrng bdliu xlý nhp nhằng nghĩa của tmt cách tự động.  
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp  
nhằng nghĩa của từ  
Chƣơng này nêu lên các thuật toán hc máy có giám sát và bán giám sát đƣợc  
áp dụng trong phƣơng pháp mở rng bdliu xlý nhp nhằng nghĩa của từ đặc  
bit là khi chcó một lƣợng nhdliu hun luyện ban đầu. Đồng thi, da trên lý  
thuyết ca các thuật toán đã nêu để xem xét đến cách thc la chn và chuyển đổi  
nhng tthuc nhóm từ đồng xut hin ca từ đang cần gán nghĩa thành các thuc  
tính sdng cho quá trình phân lớp nghĩa ca từ đó.  
Chƣơng 4: Cấu trúc và định dng ca dliu  
Chƣơng này giới thiệu định dng dliu chuẩn dùng để hun luyn và kim  
thbxlý nhp nhằng nghĩa của tvà bdliu không gán nhãn dùng cho quá  
trình mrng tự động bdliu hun luyn chuẩn ban đu.  
Chƣơng 5: Công ckho sát, kiểm tra phƣơng pháp mrng bdliu xlý  
nhp nhằng nghĩa  
Chƣơng này giới thiệu sơ lƣợc vcông cụ đƣợc sdụng để nghiên cu, kim  
tra phƣơng pháp mrng bdliu xlý nhp nhằng nghĩa ca t.  
Chƣơng 6: Kết quthc nghim  
5
Chƣơng 1: Mở đầu  
Chƣơng này nêu kết quthc nghim. So sánh kết qukhi chdùng dliu  
hun luyện ban đầu và sau khi đã mở rộng đƣợc bdliu hun luyn. Ngoài ra,  
chƣơng này còn so sánh kết quthc nghim khi thay đổi mt vài la chn vtừ  
trong nhóm từ đồng xut hin vi từ đang cần xlý nhp nhng hoc khi thay đổi  
số lƣợng các trƣờng hp xut hin ca ttrong bdliu hun luyện ban đầu.  
Chƣơng 7: Kết lun  
Chƣơng này nêu lên và đánh giá những kết quả đã đạt đƣợc, đồng thời đƣa ra  
nhng công vic cần làm trong tƣơng lai để ci tiến mrộng thêm phƣơng pháp tự  
động mrng bdliu hun luyn xlý nhp nhằng nghĩa ca t.  
6
Chƣơng 2: Các đc tính ca từ liên quan đến mrng bdliu xlý nhp nhng nghĩa của từ  
Chƣơng 2: Các đặc tính ca từ liên quan đến mrng bdliu xử  
lý nhp nhng nghĩa của từ  
Đặc tính ca ttrong ngôn ngtnhiên có rt nhiu. Tuy nhiên ta chỉ quan tâm đến  
hai đặc tính giúp ích cho vấn đề mrng bdliu xlý nhp nhng đó là:  
Một nghĩa trong một nhóm từ đồng xut hin: Mt từ thƣờng chmang mt  
nghĩa khi xét trong trƣờng hợp nó đi kèm với cùng các tging nhau dù trong các câu  
khác nhau.  
Một nghĩa trong một văn bản: tc là mt từ thƣờng có xu hƣớng mang mt  
nghĩa trong một văn bản. Rt hiếm trƣờng hp có tmang hai hay nhiều nghĩa trong cùng  
một văn bản.  
Đƣơng nhiên nhƣ đã nói ở trên, hin tại ta đang chỉ xét đến nhng tmang ni  
dung, còn nhng tchức năng nằm ngoài phm vi nghiên cu ca khóa lun này.  
2.1. Một nghĩa trong một nhóm từ đồng xut hin  
Mt tcó thcó nhiều nghĩa và nghĩa của nó li phthuc vào văn cảnh mà nó  
đƣợc xét. Nhng txung quanh mt tchính là nhng ttạo ra văn cảnh cho từ đó.  
Chính vì vy, dù trong hai câu khác nhau, tvẫn thƣờng có cùng một nghĩa khi cùng đi  
kèm vi các từ đồng thi xut hin trên cả hai câu đó. Nhƣ vậy, đầu mi cho phép ta xác  
định nghĩa của từ đang cần xlý nhp nhng nghía chính là nhng txung quanh nó.  
Đặc tính một nghĩa trong một nhóm từ đồng xut hin nêu trên đã đƣợc  
Yarowsky[6] khảo sát và đánh giá. Tác ginày nghiên cu trên mt tập văn bản 380 triu  
tbao gm rt nhiu ngun và kết quả là độ chính xác trung bình của đặc tính một nghĩa  
trong mt nhóm từ đồng xut hin vào khong 95%. Tuy vậy, theo Yakowsky, đặc tính  
này phthuc vào loi nhóm từ đồng xut hin. Nó là một đặc tính rt mnh khi các tta  
căn cứ vào nm lin kvà theo thtvi từ đang cần gán nghĩa, tuy nhiên nó bgim dn  
tính đúng đắn theo khong cách. Loi từ ta căn cứ vào là loi tmang ni dung hay không  
cũng là một điểm chú ý. Cthlà theo nghiên cu của Yarowsky, độ chính xác của đặc  
tính một nghĩa trên một nhóm từ đồng xut hin đạt đến trên 97% đối vi nhng nhóm từ  
7
   
Chƣơng 2: Các đc tính ca từ liên quan đến mrng bdliu xlý nhp nhng nghĩa của từ  
đồng xut hin mà nhng tca nó gn k, theo thtvi từ đang cần gán nghĩa và là  
nhng tmang ni dung.  
Tnhng nhn xét rút ra tnghiên cu ca Yakowsky, ta thy rằng để áp dng hiu  
quả đƣợc đặc tính một nghĩa trong một nhóm từ đồng xut hin ta cn phi gii quyết  
đƣợc vấn đề là làm sao để chọn đƣợc các tcó giá trnht và sdng cách thc nào để  
chuyển đổi chúng thành các thuc tính sdng trong vic phân lớp nghĩa cho từ ta đang  
cần gán nghĩa.  
2.2. Một nghĩa trong một văn bản  
Mt từ thƣờng thng nht về nghĩa trong cùng một văn bản. Đặc tính này đƣợc  
nghiên cứu và đánh giá bởi Gale, Church và Yakowsky [4]. Các tác ginày tiến hành thử  
nghim bng cách chn ngu nhiên tbsách giáo khóa của Grolier (Grolier‟s  
Encyclopedia) mt b82 cp nhóm tcùng xut hin cho chín từ đa nghĩa là “antenna”,  
“campain”, “deposit”, “drum”, “hull”, “interior”, “knife”, “landscape”, và “marine”.  
Trong đó 54 cặp đƣợc chn cùng trong một văn bản. Hkết luận đƣợc là 94% nhng cp  
ca nhng từ đa nghĩa này chọn tcùng một văn bản là có cùng một nghĩa. Vi mt bộ  
văn bản khác là bộ văn bản Brown (Brown Corpus), các từ “antenna, drum, hullvà  
knifebloi bvì chcó một nghĩa trong bộ văn bản này. Tuy vy vi 108 cp nhóm từ  
cùng xut hin ca các tcòn lại nhƣ trong thử nghiệm trƣớc đó, các tác giả đã tiến hành  
thc nghim để khẳng định thêm đặc tính một nghĩa trên một văn bản. Kết qulà 96% các  
cp này có cùng một nghĩa. Cuối cùng Gale, Church và Yakowsky kết luận đƣợc rằng đặc  
tính một nghĩa trong một văn bản là chính xác. Tuy nhiên đặc tính này không mnh bng  
đặc tính một nghĩa trong một nhóm từ đồng xut hin. Tc là nó có thbbqua nếu các  
txung quanh, cùng xut hin vi từ đang cần gán nghĩa cho ta mt khẳng định đủ mnh  
về nghĩa của t(xác suất xác định da vào các yếu tố địa phƣơng lớn hơn một ngƣỡng  
nào đó)[7].  
Dù có độ ƣu tiên thấp hơn đặc tính một nghĩa trên một nhóm từ đồng xut hin  
nhƣng đặc tính một nghĩa trong một văn bản có vai trò và tính cht mang tính quyết định  
trong quá trình gán nghĩa tự động cho mt bdliệu chƣa gán nghĩa. Cụ thlà nó cho  
phép mrng bdliệu gán nghĩa ban đầu thành mt bdliu rt ln nhvào vic áp  
dng tính cht toàn cc của văn bản mà chda vào mt sdliu cc bộ đƣợc cung cp  
ban đầu là các trƣờng hp xut hin đã đƣợc gán thcông trƣớc vi các nghĩa ca từ đang  
8
 
Chƣơng 2: Các đc tính ca từ liên quan đến mrng bdliu xlý nhp nhng nghĩa của từ  
cần gán nghĩa. Hơn nữa, đặc tính này còn cho phép sa li có trong các dliu ban đầu  
hoc phát sinh trong quá trình tự động bị gán nghĩa sai. Chi tiết cách thc ng dụng đặc  
tính này trong phƣơng pháp mở rng bdliu cho quá trình xlý nhp nhằng nghĩa của  
tsẽ đƣợc trình bày trong phn thuật toán (chƣơng 3) của khóa lun.  
9
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu  
xlý nhp nhng  
3.1. Thut toán hc máy có giám sát Naive Bayes  
3.1.1. Gii thiu vNaïve Bayes  
Naive Bayes là mt thut toán phân lớp đơn giản nhƣng hiệu qu. Nó cho phép gán  
trc tiếp mt nhãn lp c (ở đây là một nghĩa của t) tmt tp thuộc tính đầu vào vi giả  
thiết là các thuc tính trong tp thuộc tính là độc lp vi nhau. Tc là xác suất đồng thi  
ca chúng bng tng các xác sut ca tng thuc tính:  
푝 푓  ,  ,    =   ( ) (1)  
1,  
2
=1  
Để gán nhãn cho mt tp các thuộc tính đầu vào, Naive Bayes sẽ xác định xác sut  
hu nghim ca nhãn lp c và bthuộc tính đầu vào F. Xác sut này theo công thc  
Bayes đƣợc tính nhƣ sau  
    
  ((    ) |)  
1 , 2 ,  
(|) = 푝 푐 (    )  =  
(2)  
1 , 2 ,  
(    )  
1 , 2 ,  
Nhƣ vậy, đầu tiên ta cn tính xác sut tiên nghim ca lp (). Xác suất này đƣợc  
xác định da vào các dliu hun luyện ban đầu. Nếu theo lý thuyết ta có thtính:  
푐표푢푛푡()  
    
  =  
(3)  
Vi count(c) là số các trƣờng hợp c đƣợc gán nhãn trong bdliu hun luyn và N  
là snhãn lp.  
Sau khi đã có đƣc xác sut tiên nghim (), ta cần xác định hai xác sut còn li:  
      
 
 
   =   ,  ,  ,  ) (4)  
1
2
    
 
 
  =   ,  ,  ,  (5)  
1
2
Nếu theo hai công thc trên thì vic tính toán hai xác sut này trong thc tế là rt  
khó. Tuy vy, theo githiết ca Naive Bayes về tính độc lp ca các thuc tính, ta có:  
      
            
      
   =           (6)  
1
2
10  
     
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
    
        
    
  =        (7)  
1
2
      
Khi này vic tính các xác sut    () trnên ddàng vi vic tính tng  
xác sut nh( |) ( ).  
Sau quá trình hun luyện, ta đã xác định đƣợc hết các xác sut tiên nghim (), các  
xác sut ca các thuc tính ( ) ( |). Lúc này, nếu đƣa vào một bthuc tính F,  
hàm phn lp Naive Bayes stính xác sut hu nghim ca tt ccác lớp đã đƣợc tính  
bng công thức (2) nhƣ đã trình bày ở trên. Lp nào có xác sut cao nht thì sẽ đƣợc chn  
làm nhãn gán cho tp thuộc tính đu vào F.  
Áp dng trong bài toán xlý nhp nhằng nghĩa của từ A đang xét, thì ta có c là một  
nghĩa thuộc C là tập các nghĩa của tA. Các f chính là các thuc tính chuyn hóa tcác  
tthuc nhóm từ đồng xut hin vi A.  
Githiết vsự độc lp ca các thuc tính, ngoài vic làm cho vic tính các xác sut  
trở nên đơn giản, còn có mt li ích khác. CthNaive Bayes chng li khá tt hin  
tƣợng mt nhãn lp do có quá nhiu trong bdliu hun luyn (() ln) mà có li thế  
hơn trong quá trình phân lớp. Ta ly ví d, nếu thuc tính f xut hin trong nhóm các  
thuc tính phân lp tA vi tn xut trong nghĩa c1 là 20%, nghĩa c2 là 12%, nghĩa c3 là  
7%. Nhƣ vậy, gisử dù nghĩa c3 có xác sut xut hin lớn hơn c1 tuy nhiên xác sut hu  
nghim ca c3 sphi nhân vi 0.07 còn c1 schphi nhân vi 0.2. Từ đó có khả năng  
trƣờng hp xut hiện đó của A vẫn đƣợc gán nhãn là c1.  
3.1.2. Ƣớc lƣng xác sut  
Mc dù vic tính các xác suất nhƣ trong công thức (3), (6) và (7) khá đơn giản và  
thun tin tuy vậy đó lại không phi là mt la chn tt trong thc tế. Ta hay xem xét  
công thc (3). Công thc này stính rất chính xác trong điều kin ta có mt tp hun  
luyện có đầy đủ các nghĩa và các nghĩa có tỉ lhoàn toàn ging trong thc tế. Tuy nhiên  
điều này gần nhƣ là không thể có đƣợc. Vì vy có thxảy ra hai trƣờng hp sau:  
Tp hun luyn thiếu một nghĩa trong thc tế:  
Điều này hoàn toàn có thxy ra vì vic thu thp mu trong thc tế không thể  
hoàn toàn đầy đủ đƣợc và trong trƣờng hp này gisử nghĩa còn thiếu là nghĩa c‟,  
nhƣ vậy theo công thc (3) ta có xác sut của nghĩa c‟ là:  
푐표푢푛푡( )  
    
   
=
= 0  
11  
 
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
Tc là nếu hàm phân lp ca ta gp một trƣờng hp trong thc tế có nghĩa c‟  
thì theo công thc (3) và công thc (1), xác sut ca nó theo hàm phân lp sbng  
0, skhông có một trƣờng hợp nào đƣợc gán nghĩa c‟ cả.  
Tp hun luyn chcó một nghĩa:  
Điều này ít xảy ra nhƣng không phải là không có. Khi đó theo công thức (3)  
xác sut của nghĩa đó sẽ bng 1. Điều này đƣơng nhiên không đúng với thc tế.  
Vic tính các xác sut trong các công thức (6) và (7) cũng gặp vấn đề gần tƣơng tự.  
Để gii quyết mt phần các trƣờng hp này ngƣời ta đề xut các bin pháp làm mn khác  
nhau. Các phƣơng pháp này không thể giúp tính toán hoàn toàn chính xác các xác sut  
nhƣng chúng cho phép loại bỏ các trƣờng hp xác sut bng 0 hoc bng 1.  
Sau đây là các phƣơng pháp làm mịn đƣợc mô tcthể để gii quyết các vấn đề gp  
phi vi công thc (3). Nhng vấn đề trong vic tính các xác sut trong các công thc (6)  
và (7) có thể đƣợc gii quyết một cách tƣơng tự.  
3.1.2.1. Ước lưng Laplace  
Ƣớc lƣợng Laplace là mt trong những ƣớc lƣợng xác suất đơn giản nht. Nó gisử  
rng mọi trƣờng hợp đều đã xảy ra ít nht mt ln.  
푐표푢푛(푐′) + 1  
    
 푐′ =  
 +  
Trong đó N là số các trƣờng hp trong tp hun luyn và B là số các nghĩa có thể có.  
3.1.2.2. Ước lưng hp lý cực đại  
Mt trong những điểm không tt của Ƣớc lƣợng Laplace là nó tính xác sut quá ln  
cho các nghĩa chƣa từng xảy ra. Ƣớc lƣợng hp lý cực đại hn chế bt mt phần đó là  
thay vì cộng 1 nhƣ Laplace, nó sẽ cng 0.5 cthể nhƣ sau.  
    
푐표푢푛  + 0.5  
    
   
=
 + 0.5  
3.1.2.3. Ước lưng Lidstone  
Cả ƣớc lƣợng Laplace và ƣớc lƣợng hp lý cực đại đều là trƣờng hợp đặc bit ca  
ƣớc lƣợng Lidstone  
    
푐표푢푛  +  
    
   
=
+    
12  
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
Trong đó  là mt số thƣờng đƣợc lấy trong đoạn [0, 1]. Ƣớc lƣợng Lidstone làm  
việc tƣơng tự nhƣ ƣớc lƣợng hp lý cực đại và ƣớc lƣợng Laplace. Nó chtốt hơn ở chỗ  
thay vì dùng hng scố định, nó sdng mt scó thể thay đổi đƣợc. Tuy vy, chyếu  
ca nó đó là làm sao để tính đƣợc s đó.  
3.1.2.4. Ước lưng Good Turing  
Ý tƣởng của ƣớc lƣợng Good Turing là ƣớc lƣợng các xác sut ca những nghĩa  
chƣa xuất hin bằng các nghĩa đã xuất hin mt ln. Vi Nc số các nghĩa đã xuất hin c  
lần, ta coi nhƣ nó đã xut hin c* ln  
 + 1  
 = ( + 1)  
 
Từ đó ta có p(c)  
   
    
  =  
3.2. Thut toán mrng bdliu xlý nhp nhằng nghĩa của từ  
3.2.1. Gii thiu  
Thut toán Naïve Bayes là thut toán hc khá hiu qu. Tuy vy, là mt thut toán  
hc có giám sát nên nhƣợc điểm ln nht ca nó là nó yêu cu bdliu hun luyn ln  
để có thể đạt đƣợc độ chính xác cao trong quá trình phân lp. Trong khi đó, mc tiêu ca  
khóa luận này là tìm cách để gim thiu công sc của con ngƣời trong quá trình gán nghĩa  
bng tay cho t. Ta chmun sdng mt bdliệu gán nghĩa ban đầu nh, mà nếu nhƣ  
thế và cố dùng Naïve Bayes để gán nghĩa thì ta lại không đảm bảo đƣợc tính chính xác  
ca bdliệu đầu ra. Do vy, ta cn phi có mt thut toán phi hp với Naïve Bayes để  
đảm bo dùng bdliu hun luyn không lớn nhƣng đchính xác vn mc yêu cu.  
Sau đây tôi sẽ trình bày mt thut toán cho phép mrng bdliệu đầu vào nhỏ  
ban đầu để cho kết quả đầu ra là mt bdliu ln hơn, cho phép xử lý nhp nhằng nghĩa  
ca tchính xác hơn. Phƣơng pháp này đã từng đƣợc Yakowsky mô tả nhƣng ông sử  
dng nó kèm vi thut toán hc máy danh sách quyết định[7]. Theo đó, ông sử dng mt  
danh sách các câu cha từ đang cần gán nghĩa và nhng câu có xác sut cao nht sẽ đƣợc  
xếp trên cùng, tiếp đó là các câu có xác suất nhỏ hơn. Tuy vậy, thut toán danh sách quyết  
13  
   
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
định thc ssgp vấn đề vtìm kiếm và sp xếp khi danh sách quyết định trnên ln  
hơn, mà điều này là điều ta đang mong mun do mục đích là mở rộng đƣợc bdliu.  
Một điểm hn chế khác na là danh sách quyết định chdựa vào trƣờng hp xut hin ca  
tcó xác sut cao nht, phù hp với trƣờng hợp đang cần gán nghĩa (phù hợp ở đây là có  
nhng từ đồng xut hin ging vi trƣờng hp xut hin ca từ đang cần gán nghĩa), do  
vy, khả năng phân lớp nghĩa của danh sách quyết định cũng bị hn chế. Vi nhng hn  
chế nói trên ca thut toán danh sách quyết định, tôi muốn đƣa ra một cách sdng mt  
hàm phân lp Naïve Bayes làm nhim vphân lớp nghĩa dựa vào các nhóm từ đồng xut  
hin ca từ đang cần gán nghĩa, đóng vai trò làm nhân cho thuật toán mrng bdliu  
xlý nhp nhng để phn nào ci tiện đƣợc hiu sut chung ca toàn bhthống, đồng  
thời tăng thêm độ chính xác cho bdliu hun luyn đƣợc mrng ở đầu ra.  
3.2.2. Các bƣớc ca thut toán  
Dliệu đầu vào ca thut toán là mt bdliu hun luyn nhcó các câu cha từ  
đang cần gán nghĩa nghĩa của từ đó đã đƣợc gán trƣớc. Thhai, ta cn có mt bdữ  
liệu chƣa đƣợc gán nghĩa của t. Bdliu này càng ln thì khả năng mở rng bdliu  
hun luyện ban đầu càng cao. Dliệu đầu ra ca thut toán là mt bdliu ln, mở  
rng tbdliu nhỏ ban đầu. Đi vào chi tiết, thuật toán có các bƣớc nhƣ sau.  
14  
 
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
Hun luyn bphân lp  
Dliu chun  
Bdliệu văn  
bn  
Naive Bayes (3.2.2.2)  
chƣa định dng  
Chun bdliu  
(liệt kê, định  
dng) (3.2.2.1)  
Phân lớp nghĩa cho từ  
Chun bdliu  
đang xét dựa vào nhóm từ  
đng xut hin (3.2.2.3)  
(định dng)  
(3.2.2.1)  
Dliu gán  
nghĩa ban đầu  
ca từ đang xét  
Gán lại nghĩa dựa vào đặc  
tình một nghĩa trong một  
văn bản (3.2.2.4 Bƣớc 1)  
Dliu chƣa  
gán nghĩa ca  
từ đang xét  
Dữ  
liu  
gán nghĩa  
Loi bnhững trƣờng hp  
có xác sut quá thp  
(3.2.2.4 Bƣớc 2)  
Dliu gán  
nghĩa ca từ  
đang xét (mở  
rng sau vòng  
lặp đầu tiên)  
mrng  
Dliu gán  
nghĩa mở rng  
ca từ đang xét  
Điều kin dng  
(3.2.2.5)  
Chƣa thỏa mãn điều  
kin dng, tiếp tc  
hun luyn  
Hình 2: Sơ đồ các bước của phương pháp mở rng bdliu hun luyn cho quá trình  
xlý nhp nhằng nghĩa của từ  
15  
 
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
3.2.2.1. Chun bdliu.  
Tại bƣớc này ta cn lit kê và định dng theo chun nhất định tt ccác câu có cha  
tcần gán nghĩa có trong bdliệu chƣa gán nghĩa và bộ dliệu đã gán nghĩa của t.  
Tuy liệt kê nhƣng ta vẫn phải có phƣơng thức để bo toàn quan hkhông thuc hoc cùng  
thuc một văn bản ca các câu. Đồng thi, chn luôn nhng tcó thcó khả năng đóng  
vai trò là nhng tthuc nhóm từ đồng xut hin, hay là nhng từ đóng vai trò làm văn  
cảnh cho phép ta căn cứ vào để gán nghĩa cho từ đang cần gán nghĩa. Các phƣơng pháp  
chn tthuc nhóm từ đồng xut hin tôi strình bày cthể ở phn sau của chƣơng này.  
Tuy nhiên, có một điểm cần lƣu ý là nếu ta chọn phƣơng pháp nào để ly tthuc nhóm  
từ đồng xut hin thì ta phi thng nhất phƣơng pháp đó cho cả bdliệu đã gán nghĩa  
và chƣa gán nghĩa để đạt đƣợc hiu qucao nht.  
3.2.2.2. Hun luyn bphân lp Naïve Bayes.  
Tdliu đã đƣợc liệt kê, định dng và chn tcó khả năng làm làm văn cảnh cho  
tcần gán nghĩa ca bdliu hun luyện ban đầu đã có từ bƣớc 3.2.2.1, ta tiến hành to  
các bthuc tính để hun luyn cho bphân lp Naïve Bayes. Theo đó mi ttrong  
nhóm từ đồng xut hin ca từ đang cần gán nghĩa sẽ đi kèm mt giá trị nào đó (giá trị  
này tùy theo cách chuyển đổi các ttnhóm các từ đồng xut hin sang tp các thuc  
tính) và mi cp (t, giá trị) đó trở thành mt thuc tính. Cách thc chuyển đổi thành  
thuc tính nhƣ thế nào còn tùy thuc vào loi thông tin nào ca ttrong nhóm từ đồng  
xut hin vi từ đang cần gán nghĩa mà ta mun gili. Phƣơng thức chuyển đổi thành  
các thuc tính là mt yếu tảnh hƣởng trc tiếp đến độ chính xác ca quá trình phân  
lớp nghĩa của tnên cn xem xét mt cách cn thn. Chi tiết cthvề các phƣơng thức  
này sẽ đƣợc trình bày phn sau của chƣơng này. Khi đã có đƣợc tp các thuc tính, thì  
tcác công thức đã nêu ở trên và các thuc tính (t, giá tr) có mt trong mỗi trƣờng hp  
xut hin ca t, ta ƣớc lƣợng đƣợc các xác sut hay các mu (model) cn thiết cho quá  
trình phân lp sau này (nhƣ đã trình bày ở phn 3.1).  
3.2.2.3. Phân lớp nghĩa ca t.  
Ta sdng bphân lớp Naïve Bayes đã đƣợc hun luyn ở trên để tiến hành gán  
nghĩa lại cho toàn bdliu bao gm cdliệu đã gán nghĩa và chƣa gán nghĩa. Bphân  
lp stính xác sut ca mỗi nghĩa trên mỗi trƣờng hp xut hin ca tvà chn nghĩa có  
xác sut cao nht. Việc gán nghĩa lại cphn dliu hun luyn là nhằm để gán lại nghĩa  
16  
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
cho nhng từ đã có thể bị gán nghĩa sai ban đầu hoc trong quá trình lặp sau này (Bƣớc  
3.2.2.4). Vic phân lớp nghĩa cho các trƣờng hp xut hin ca từ đang cần gán nghĩa  
trong bƣớc này hoàn toàn da vào các thuộc tính địa phƣơng hay các cp (t, giá tr) có  
đƣợc khi mã hóa nhóm từ đồng xut hin thành các thuc tính. Đây chính là bƣớc thhin  
rõ nht ng dng của đặc tính một nghĩa trong một nhóm từ đồng xut hin ca ttrong  
ngôn ngtnhiên.  
3.2.2.4. Gán lại nghĩa hoc loi bnhững trường hp sai nhvào các thuc tính toàn  
cc.  
Bƣớc này gồm có hai bƣớc nhsau:  
Gán lại nghĩa dựa vào đặc tính một nghĩa trong một văn bản:  
Bƣớc này dựa vào trƣờng hp xut hin ca từ đã đƣợc gán nghĩa có xác suất  
cao nht trong một văn bản. Nhƣ đã trình bày ở trên, đặc tính một nghĩa trong một  
văn bản ca tlà một đặc tính quan trng. Vì mt từ thƣờng mang một nghĩa trong  
một văn bản nên ta có thdựa vào đó để mrng bdliu hoc sa lỗi gán nghĩa  
có trong dliu. Những trƣờng hp xut hin ca từ đƣợc gán nghĩa có xác suất quá  
thấp thƣờng là không chính xác. Và khi đó khả năng nó mang nghĩa của trƣờng hp  
đƣợc gán nghĩa có xác suất cao nht ca văn bản là cao hơn. Nhƣ vậy ta thy rng,  
dựa vào đặc tính một nghĩa trong một văn bản ca t, ta vn có thể gán nghĩa đƣợc  
cho các trƣờng hp xut hin ca từ mà ta còn chƣa có thông tin ca chúng để gán  
nghĩa hoặc là các thông tin quá ít đến ni không thể gán nghĩa chính xác.  
Loi bỏ các trƣờng hp có xác sut quá thp:  
Dựa vào trƣờng hp xut hin ca từ đƣợc gán nghĩa có xác suất cao nht  
trong toàn bbdliu để loi bnhững trƣờng hp từ đƣợc gán nghĩa có xác suất  
nằm dƣi một ngƣỡng nào đó (so với xác sut cao nht kia). Chú ý rng bdliu ở  
đây là bộ dliu bao gm cdliệu gán nghĩa ban đầu và dliệu gán nghĩa mở  
rng tbdliệu văn bản chƣa gán nghĩa ở đầu vào.  
3.2.2.5. Bưc lp và điều kin kết thúc  
Các dliệu đƣợc gán nghĩa trong bƣớc 3.2.2.3 và đủ tiêu chuẩn để vƣợt qua bƣớc  
3.2.2.4 strthành dliu hun luyn cho bphân lớp và quá trình đƣợc lp li từ bƣớc  
3.2.2.2.  
17  
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
Vòng lp kết thúc khi sự thay đổi nhỏ hơn một số cho trƣớc nào đó. Chính xác nht  
thì ta sphi quan sát sự thay đổi các tham sca hàm phân lớp nhƣ các xác suất về  
nghĩa của t, các xác sut ca các thuc tính, các xác suất điều kin ca thuc tính và  
tng nhãn lớp (nghĩa của từ đang cần gán nghĩa). Tuy vy, vi sthuc tính ln khong  
vài trăm đến vài nghìn thì quan sát đƣợc sự thay đổi ca chúng không phi việc đơn gin.  
Mt cách dễ hơn để xác định điều kin kết thúc vòng lp là quan sát sự thay đổi về  
số lƣợng ca tp dliu mrng ở đầu ra. Vì khi bphân lớp đã ổn định, các tham số  
không còn thay đổi (hoặc thay đổi rt ít trong gii hạn nào đó) thì xác suất gán nghĩa cho  
các trƣờng hp xut hin trong toàn bdliu sẽ không thay đổi. Khi đó, tập các trƣờng  
hợp đƣợc gán nghĩa lại ca từ vƣợt qua ngƣỡng cho phép sẽ không còn thay đổi và kết  
qulà số lƣợng các trƣờng hp xut hin ca ttrong bdliu mrng ở đầu ra sẽ  
không thay đổi na. Cách này tuy dễ hơn và nhanh hơn nhiều nhƣng lại thiếu chính xác  
hơn so vi cách trƣớc.  
Ngoài cách thc xác định điều kin dng vòng lp thì một điểm khác cần lƣu ý ở  
đây là không nht thiết tt cả các trƣờng hp xut hin ca ttrong bdliu đã gán  
nghĩa ban đầu đều sxut hin trong tp dliệu đầu ra hoc chúng cũng có thxut hin  
nhƣng với nghĩa khác nghĩa đã đƣợc gán ban đầu. Điều này là do trong quá trình lp có  
thể trƣờng hợp đã gán nghĩa đó không còn đủ độ tin cy (xác sut nhỏ hơn nghƣỡng cho  
phép) nên đã bị loi ra khi tp dliu cui cùng hoặc đã bị gán nghĩa lại. Nhƣ vậy ta  
thy rng vi mt bdliệu chƣa gán nghĩa lớn, đầy đủ các nghĩa của tthì nếu trong tp  
dliu hun luyện ban đầu có một lƣợng nhdliu bị gán nghĩa sai thì trong quá trình  
mrng dliu, nó có thsbloi ra khi tp dliu cui cùng.  
Cui cùng, sau quá trình lp li nhiu ln việc gán nghĩa cho bdliu hn hp các  
trƣờng hp xut hiện đƣợc gán nghĩa và chƣa đƣợc gán nghĩa của tcần xét, ta đã thu  
đƣợc mt bdliu lớn hơn đƣợc gán nghĩa đầy đủ ca từ. Nhƣ vậy, ta đã giảm đƣợc rõ  
rt khối lƣợng công việc gán nghĩa thủ công trƣớc đây. Từ đó cho phép chúng ta có đƣợc  
các bdliu lớn hơn trƣớc đây nhiều ln trong mt thi gian ngắn hơn nhiều.  
3.3. La chn tcho nhóm từ đồng xut hin trên quan điểm lý thuyết  
Từ đặc tính ca tvà ca thut toán hc bán giám sát ly Naïve Bayes làm nhân,  
đóng vai trò phân lớp nghĩa của từ theo đặc tính một nghĩa trong một nhóm từ đồng xut  
hin trong mi vòng lp, ta quay li xem xét mt cách lý thuyết các la chn vcách chn  
18  
 
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
nhng tcho nhóm từ đồng xut hin ca từ đang cần gán nghĩa nhƣ thế nào. Ở đây có  
mt svấn đề nhƣ sau: thứ nht là chn từ ở khong cách nào; thhai là nhng từ đƣợc  
chn có cn xử lý trƣớc khi đƣa vào xử lý nhp nhằng nghĩa hay không; thba là la  
chn nhng thông tin nào của chúng để chuyn hóa thành thuc tính, và thhin nhng  
thông tin đó nhƣ thế nào.  
3.3.1. Khong cách lân cn ca từ đang cn xlý nhp nhằng nghĩa  
Đầu tiên là vấn đề chọn đƣợc nhng tnm trong khong cách thích hp vi từ  
đang cần gán nghĩa. Vì theo đặc tính một nghĩa trong một nhóm từ đồng xut hin ca t,  
các từ ở khong cách càng xa thì càng ít giá trtrong vic khẳng định nghĩa của t. Vì thế  
tôi chly trong khong cách 5 tso vi vtrí ca từ đang xét, tức là mt nhóm 10 tgm  
5 từ trƣớc, 5 tsau từ đang cần gán nghĩa sẽ đƣợc chn vào nhóm từ đồng xut hin ca  
nó.  
3.3.2. Xlý ttrong nhóm từ đng xut hin  
Ngoi trcác mo t, gii thay mt snhóm tchức năng khác, một từ thƣờng có  
nhiu thhin vmặt hình thái nhƣ số ít, snhiu ca danh từ, hay các động tcó các  
dng khác nhau khi có chnglà sít hoc các thời khác nhau … Vì vy, mt câu hi  
cần đặt ra là có tiến hành chuyển đổi vgc nguyên thca thay không. Cn xác định  
rõ là chuyển đổi vtnguyên thể ở đây là quá trình loại bcác hu tsao cho từ đƣợc  
cho trvdng nguyên th. Ví dụ nhƣ:  
Generations => generation  
Letters => letter  
Adding => add  
Easier => easy  
Vic này cho phép ta tránh xlý những trƣờng hp tbị thay đổi do các yêu cu về  
ngpháp ca ngôn ngữ nhƣng thực cht nó chlà mt t. Tức là nghĩa của nó về cơ bản  
không đổi. Mà thc chất nghĩa cơ bản ca tmi là yếu tố giúp xác định văn cảnh ca  
câu. Vic này có hai lợi ích nhƣ sau.  
19  
   
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
Li ích thnht ca việc này đó là ta giảm đƣợc số lƣợng các tthuc nhóm từ  
đồng xut hin (hay đúng hơn là giảm hiện tƣợng lp t) tc là giảm đƣợc số lƣợng các  
thuc tính (các cp (tsít, giá tr), (tsnhiu, giá tr), ... schcòn là 1 thuc tính (từ  
nguyên th, giá tr)). Điu này cho phép tăng tốc đca quá trình hun luyện và gán nghĩa  
của Naïve Bayes và tăng tốc độ hi tca thut toán xlý nhp nhằng nghĩa của tbán  
giám sát.  
Li ích thhai là cũng theo giả định về tính độc lp ca Naïve Bayes, sdng quá  
nhiu biến thca t(coi là tcha ni dung) trong nhóm từ đồng xut hin có thlàm  
gim hiu quphân lp vmt lý thuyết. Cthlà, gisử nhƣ ta có các biến thkhác  
nhau w, w‟, w‟‟ của tW và chúng đều đƣợc chọn để đƣa vào nhóm từ đồng xut hin  
phân lp cho mt tA có nghĩa c ở các trƣờng hp xut hin khác nhau ca A nhƣng khi  
chuyn hóa thành thuc tính chúng đều có giá trx thuc X (tc là thành các cp (w, x),  
(w‟,x), (w‟‟,x) (Tp giá trX ca x đƣợc xác định tùy thuc vào cách thc chuyển đổi  
thành thuc tính). Vì chlà nhng biến thca W nên chúng đều có nghĩa cW nào đó. Giả  
sử nhƣ tính chung tất ccác biến ththì W có ti 20% là thuc nhóm từ đồng xut hin  
ca A cùng đi kèm vi giá trx, tuy nhiên tính riêng tng biến ththì w có 10%, w‟ có  
6% và w‟‟ có 4%. Nhƣ vậy, khi phân lp, thay vì xác suất ƣớc lƣợng ca A có nghĩa c sẽ  
nhân vi 0.2 (là xác sut ( |)) (Wx là chthuc tính vi cp (W,x)) thì do W bchia  
thành các biến thvà do giả định độc lp ca Naïve Bayes mà khi này con sslà 0.1  
 
    
 
    
 
    
(   ), hoc 0.06 ( 푤′  ), hoc 0.04 ( 푤′′  ) lần lƣợt cho các trƣờng hp tA  
xut hin với (w, x), (w‟, x), (w‟‟, x). Nhƣ vậy, xác sut phân lp sgiảm đáng kể trong  
trƣờng hợp để nguyên nhng biến thhình thái ca các ttrong nhóm từ đồng xut hin  
so với trƣờng hp chúng ta chuyn nhng tnày vdng nguyên th.  
Tóm li, vmt lý thuyết, chuyn tvdng nguyên thcòn có thể giúp tăng thêm  
độ chính xác cho quá trình phân lp.  
3.3.3. Chuyển đổi ttrong nhóm từ đng xut hin thành thuc tính ca bphân lp  
Mt cách chuyển đổi đơn giản nht cho mt thuc tính tmt tthuc nhóm từ  
đồng xut hin đó là theo dạng nhphân. Theo cách này, nếu twi xut hin trong nhóm  
từ đồng xut hin ca một trƣờng hp xut hin ca từ c đang cần gán nghĩa thì ta có  
thuc tính (wi, 1), và ngƣợc li (wi, 0). Nhƣ vậy, cách chuyển đổi này cho phép thhin  
đƣợc thông tin twi có xut hin trong nhóm từ đồng xut hin hay không. Tuy vy, nếu  
20  
 
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rng bdliu xlý nhp nhng  
sdng cách này thì sxy ra rt nhiều trƣờng hp nhp nhng do có thcó nhiu nhóm  
từ đồng xut hin ca từ đƣợc gán nghĩa khác nhau nhƣng cùng có các từ ging nhau và  
chkhác vvtrí ca các ttrong nhóm. Khi đó theo cách chuyển đổi này, tt ccác  
nhóm này đều có cùng mt bthuộc tính. Điều này shn chế khả năng phân lớp chính  
xác ca Naïve Bayes.  
Cách chuyển đổi thhai khc phục nhƣợc điểm ca cách chuyển đổi theo dng nhị  
phân, đó là, ta sẽ căn cứ theo không chsxut hin ca tmà còn theo cvtrí ca từ để  
xác định các thuc tính. Cthlà nếu các txut hin trong nhóm từ đồng xut hin ca  
tc đang cần gán nghĩa theo tht:  
w1 w2 w3 w4 w5 c w6 w7 w8 w9 w10  
Thì ta scó bthuc tính: (w1, -5), (w2, -4), …, (w10, 5)  
Có ththy rng vi cách chuyển đổi thành thuộc tính nhƣ vậy, ta đã bảo toàn đƣợc  
thông tin vvtrí ca các ttrong nhóm từ đồng xut hin và không còn snhp nhng  
gia các nhóm từ đồng xut hin có cùng các tgiống nhau nhƣng khác về vtrí các t.  
Ngoài hai cách chuyển đổi ttrong nhóm từ đồng xut hin thành thuc tính nhƣ ở  
trên thì ta còn rt nhiu cách mã hóa thuc tính khác na cho phép giữ đƣợc nhiu thông  
tin hơn nữa ca các từ đồng xut hin vi tcần gán nghĩa ví dụ nhƣ các thông tin về từ  
loi chng hn. Sdng đƣợc thêm thông tin ca tloi sẽ giúp tăng thêm rất nhiều độ  
chính xác cho bphân lp Naive Bayes. Tuy vậy, đề tài khóa lun này không tp trung  
vào Naive Bayes và cách thức để hàm phân lớp này đạt đƣợc độ chính xác cao nht mà  
chyếu đặt trng tâm vào nghiên cu, kho sát phƣơng pháp mở rng bdliu. Chính  
vì vy tôi mun givic chn thuc tính mức đơn giản cho phép.  
21  

Tải về để xem bản đầy đủ

pdf 51 trang yennguyen 26/05/2025 150
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_mo_rong_bo_du_lieu_huan_luyen_cho_qua_trinh_xu_ly.pdf