Khóa luận Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng Việt

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Phm ThTâm  
SDNG PHƯƠNG PHÁP XP HNG TRONG  
BÀI TOÁN PHÂN CM TING VIT  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
\
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Phm ThTâm  
SDNG PHƯƠNG PHÁP XP HNG TRONG  
BÀI TOÁN PHÂN CM TING VIT  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: Th.S Trn ThOanh  
Cán bộ đồng hướng dn: CN Nguyn Minh Tun  
HÀ NI - 2009  
Li cm ơn  
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư  
Tiến sĩ Hà Quang Thy, Thc sĩ Trn ThOanh và Cnhân Nguyn Minh Tun,  
nhng người đã tn tình chbo và hướng dn tôi trong sut quá trình thc hin khóa  
lun tt nghip.  
Tôi chân thành cm ơn các thy cô đã to cho tôi nhng điu kin thun li để  
hc tp và nghiên cu ti trường đại hc Công ngh.  
Tôi xin gi li cm ơn ti các anh chvà các bn sinh viên trong phòng Công  
nghtri thc và tương tác người máy – trường ĐH Công ngh- ĐHQGHN đã to điu  
kin và giúp tôi tiến hành thc nghim ca khóa lun.  
Cui cùng, tôi mun gi li cm ơn vô hn ti gia đình, bn bè luôn bên cnh và  
động viên cũng như to nhng điu kin tt nht cho tôi trong sut quá trình thc hin  
khóa lun tt nghip.  
Sinh viên  
Phm ThTâm  
Tóm tt  
Cùng vi sgia tăng nhanh chóng vslượng các trang Web thì nhu cu vkhai  
phá dliu Web ngày càng nhn được squan tâm ca các nhà khoa hc và các nhóm  
nghiên cu. Trong lĩnh vc khai phá Web thì phân cm Web là mt trong nhng bài  
toán cơ bn và quan trng. Đây cũng là thành phn chu nhiu nh hưởng ca các đặc  
trưng ngôn ng.  
Khóa lun này tp trung nghiên cu vbài toán phân cm Web sdng phương  
pháp xếp hng. Trên cơ slý thuyết phân cm Web và la chn các đặc trưng ca  
tiếng Vit, khóa lun đã sdng phương pháp xếp hng các cm tquan trng vào  
phân cm các tài liu Web tiếng Vit và tiến hành thc nghim. Kết quthc nghim  
đánh giá theo các đặc trưng TFDF, độ dài (LEN), tương tni ti (ICS), entropy ni  
ti cm văn bn (CE) cho thy đặc trưng TFIDF và LEN có nh hưởng ln hơn so vi  
các đặc trưng khác.  
i
Mc lc  
Tóm tt..............................................................................................................................i  
Mc lc........................................................................................................................... ii  
Danh sách các bng ....................................................................................................... iv  
Danh sách các hình..........................................................................................................v  
Li mở đầu.......................................................................................................................1  
Chương 1. Khái quát vphân cm Web .........................................................................2  
1.1. Gii thiu vphân cm Web.......................................................................2  
1.1.1. Đặc đim bài toán phân cm web......................................................3  
1.1.2. Các yêu cu đối vi phân cm web...................................................4  
1.1.3. Mt số độ đo độ đánh giá ..................................................................5  
1.2. Mt sthut toán phân cm web ................................................................6  
1.2.1. Thut toán phân cm bottom-up (HAC - Hierarchical  
Agglomeraltive Clustering) ...............................................................7  
1.2.2. Thut toán phân cm top-down.........................................................9  
1.3. Đánh giá các thut toán phân cm ............................................................18  
Chương 2: Phân cm văn bn tiếng Vit.......................................................................19  
2.1. Đặc trưng ca tiếng Vit và tách ttrong tiếng vit.................................19  
2.1.1. Đặc trưng ca tiếng Vit..................................................................19  
2.1.2. Tách ttiếng Vit............................................................................21  
2.2. Mt snghiên cu vphân cm tiếng Vit ..............................................23  
2.2.1. Phân cm ttiếng Vit bng phương pháp hc máy cu trúc.........23  
2.2.2. Đánh giá cht lượng phân cm trong máy tìm kiếm tiếng Vit ......24  
2.2.3. Gom cm đồ thng dng vào vic rút trích ni dung chính ca  
khi thông đip trên din đàn tho lun...........................................26  
ii  
Chương 3. Phân cm văn bn sdng..........................................................................27  
phương pháp xếp hng cm tquan trng....................................................................27  
3.1. Khái quát bài toán .....................................................................................27  
3.1.1. Nhu cu vphân cm các kết qutìm kiếm....................................27  
3.1.2. Mô tbài toán và thut toán ............................................................29  
3.2. Trích các cm tquan trng .....................................................................31  
3.2.1. Đặc trưng TFIDF.............................................................................32  
3.2.2. Đặc trưng độ dài ..............................................................................33  
3.2.3. Đặc trưng tương tni ti cm .......................................................33  
3.2.4. Đặc trưng entropy ni ti cm.........................................................34  
3.2.5. Đặc trưng độc lp cm t................................................................34  
3.3. Xếp hng các cm tquan trng...............................................................35  
3.3.1. Hi qui tuyến tính............................................................................35  
3.3.2. Hi qui logistic ................................................................................36  
3.3.3. Hi qui htrvector (Support vector regression)...........................36  
Chương 4. Thc nghim và đánh giá ............................................................................38  
4.1. Dliu ca thc nghim...........................................................................38  
4.2. Cài đặt thc nghim ..................................................................................39  
4.2.1. Phn cng ........................................................................................39  
4.2.2. Phn mm ........................................................................................40  
4.3. Phương pháp đánh giá...............................................................................40  
4.4. Kết quthc nghim và đánh giá..............................................................40  
Kết lun..........................................................................................................................44  
Tài liu tham kho.........................................................................................................46  
iii  
Danh sách các bng  
Bng 1: Kết quphân cm vi truy vn “Vit Nam” [15] .............................................4  
Bng 2: Các tài liu cha cm từ ở các node ...............................................................16  
Bng 3: So sánh mt số đặc đim ca tiếng Vit và tiếng Anh.....................................21  
Bng 4: Các truy vn trong tp hun luyn ..................................................................38  
Bng 5: Scm tvà sgiá try=1 trong tp dliu hun luyn...............................39  
Bng 6: Độ chính xác khi sdng tng đặc trưng để xếp hng...................................41  
Bng 7: Độ chính xác ca tng truy vn.......................................................................42  
iv  
Danh sách các hình  
Hình 1: Minh ha để tính cosin ca hai vector...............................................................6  
Hình 2: Cây hu tmrng..........................................................................................16  
Hình 3: Kết qusau khi trn các tài liu ......................................................................17  
Hình 4: Thng kê vtách ttiếng Hoa và tiếng Vit [12]............................................22  
Hình 5: Hthng phân cm ttiếng Vit theo phương pháp hc máy cu trúc ..........24  
Hình 6: Ví dvi truy vn “Vit Nam” trên máy tìm kiếm google[14]........................28  
Hình 7: Ví dvi truy vn “Vit Nam” trên máy tìm kiếm Vivisimo[15] ....................28  
Hình 8: Biu đồ độ chính xác khi sdng tng đặc trưng để xếp hng.......................41  
Hình 9: Biu đồ độ chính xác ca tng truy vn...........................................................42  
v
Li mở đầu  
Internet được phát trin nhanh chóng và sinh ra mt khi lượng khng lcác dữ  
liu dng siêu văn bn (dliu Web), đã trthành mt kênh quan trng vmi thông  
tin ca đời sng. Chính vì vy, lĩnh vc khai phá Web có tc độ phát trin vượt bc,  
nhn được nhiu squan tâm ca các nhà khoa hc và các nhóm nghiên cu. Mt  
trong nhng bài toán quan trng trong lĩnh vc khai phá Web chính là phân cm Web  
[6]. Slượng các trang Web là rt ln và luôn luôn thay đổi, mi tài liu không chỉ  
liên quan đến mt khía cnh mà còn đề cp đến nhiu khía cnh khác nhau dn đến sự  
trùng lp thông tin gia các tài liu. Xut phát tnhng đặc đim này mà phân cm  
Web chnên thc hin trên các tài liu Web ca mt truy vn trvtmáy tìm kiếm.  
Sau đó kết qusẽ được tchc li cho người dùng theo các cm.  
Khóa lun vi đề tài “Sdng phương pháp xếp hng trong bài toán phân cm  
tiếng Vit” nghiên cu vphân cm Web, phân cm trong tiếng Vit và bài toán phân  
cm tài liu Web da vào vic xếp hng các cm tquan trng. Khóa lun cũng trình  
bày kết quđánh giá ban đầu vthc nghim ng dng kthut phân cm trên  
trong các tài liu web tiếng Vit.  
Khóa lun gm 4 chương vi ni dung các chương được miêu tnhư dưới đây:  
Chương 1: Khái quát vphân cm Web. Chương 1 trình bày nhng nét cơ bn  
nht vbài toán phân cm Web gm: định nghĩa và đặc đim ca bài toán, mt số độ  
đo độ đánh giá, các phương pháp phân cm phbiến, đánh giá vcác phương pháp.  
Chương 2: Phân cm văn bn tiếng Vit. Chương này strình bày vcác đặc  
đim ca tiếng Vit và các hướng tiếp cn trong vic tách ttiếng Vit, đồng thi cũng  
nêu ra mt số đề tài đã được nghiên cu vphân cm trong tiếng Vit.  
Chương 3: Phân cm văn bn sdng phương pháp xếp hng cm tquan  
trng. Ni dung chính ca chương này là kthut phân cm các kết qutrvca  
máy tìm kiếm da vào vic xếp hng các cm tquan trng. Chương này đưa ra nhu  
cu vphân cm kết qutìm kiếm, mô tvbài toán và thut toán cũng như nhng  
tính toán để gii quyết bài toán.  
Chương 4: Thc nghim và đánh giá trình bày các bước tiến hành thc nghim  
trên các tài liu Web tiếng Vit, vic thu thp dliu hun luyn, cài đặt thc nghim.  
Sau đó đưa ra kết quca thc nghim và đánh giá các kết qunày.  
1
Chương 1. Khái quát vphân cm Web  
1.1. Gii thiu vphân cm Web  
Trong thi gian gn đây, sphát trin nhanh chóng ca mng Internet đã to nên  
mt khi lượng khng lcác dliu dng siêu văn bn. Vì vy, ni dung khai phá  
Web rt được quan tâm. Và mt trong nhng bài toán quan trng trong lĩnh vc khai  
phá Web chính là bài toán phân cm Web. [6] Phân cm Web - nói mt cách khái quát  
- là vic tự động sinh ra các lp tài liu da vào stương tca các tài liu. Các lp  
tài liu ở đây là chưa biết trước, người dùng có thchyêu cu slượng các lp cn  
phân loi, hthng sẽ đưa ra các tài liu theo tng tp hp, tng cm, mi tp hp  
cha các tài liu tương tnhau.  
Phân cm Web – hiu mt cách đơn gin - là phân cm trên tp các tài liu được  
ly tWeb. Theo [6] có hai tình hung phân cm tài liu, đó là:  
Tình hung thnht là vic phân cm trên toàn bmt cơ sdliu (CSDL)  
có sn gm rt nhiu tài liu Web. Thut toán phân cm cn tiến hành vic  
phân cm toàn btp dliu thuc CSDL đó. Tình hung này thường được  
gi là phân cm không trc tuyến (off-line).  
Tình hung thhai thường được áp dng trên mt tp tài liu nhlà tp hp  
các tài liu do máy tìm kiếm trvtheo mt truy vn ca người dùng. Trong  
trường hp này, gii pháp phân cm được tiến hành kiu trc tuyến (on-line)  
theo nghĩa vic phân cm tiến hành theo tng bphn các tài liu nhn được.  
Khi đó, thut toán phi có tính cht “gia tăng” để tiến hành phân cm ngay  
khi chưa có đủ tài liu và phân cm tiếp theo cn không tiến hành vi dliu  
đã được phân cm. Do tp tài liu trên Web là vô cùng ln cho nên cách phân  
cm trc tuyến là thích hp hơn và phi đòi hi tính "gia tăng" ca thut toán  
phân cm.  
Vic xlý truy vn cũng như xếp hng các kết qutrvca máy tìm kiếm phụ  
thuc vào stính toán độ tương tgia tài liu và truy vn, gia các tài liu vi nhau.  
Mc dù các truy vn liên quan phn nào đến các tài liu cn tìm, nhưng nó thường quá  
ngn và dxy ra snhp nhng. Như đã biết, trung bình các truy vn trên Web chỉ  
gm hai đến ba tdo đó gây nên độ nhp nhng. Chng hn, truy vn star dn đến sự  
nhp nhng rt cao, các tài liu ly được liên quan đến astronomy, plants, animals,  
2
popular media and sports figures… Độ tương tgia các tài liu ca mt truy từ đơn  
như vy là khác nhau rt ln. Vì lẽ đó, nếu máy tìm kiếm phân cm các kết qutheo  
tng chủ đề thì người dùng có thhiu truy vn nhanh chóng hoc tìm vào mt chủ đề  
xác định.  
1.1.1. Đặc đim bài toán phân cm web  
Vic phân cm trc tuyến các tài liu Web kết qutrvtmáy tìm kiếm là rt  
khác so vi vic phân cm các tài liu thông thường. Mt đặc đim ca phân cm tài  
liu web chính là slượng các tài liu Web là vô cùng ln và ni dung luôn luôn thay  
đổi. Ngoài ra mt vn đề na là các hthng tìm kiếm thông tin là tương tác người  
dùng cho nên thi gian đáp ng ca hthng phi đủ nhanh, cthbài toán ở đây cn  
thi gian đáp ng cn tính bng giây [6]. Mi tài liu Web không chliên quan đến  
mt khía cnh cthnào đó mà đề cp đến nhiu khía cnh khác nhau. Chng hn như  
tài liu nói v“Vit Nam” cũng có thể đề cp đến cuc đời và snghip ca “Các  
danh nhân Vit Nam”. Cho nên tn ti strùng lp thông tin gia các tài liu, có  
nghĩa là mt tài liu có thliên quan đến nhiu ni dung khác nhau.  
Xut phát tnhng đặc đim đó nên vic phân cm chnên được thc hin trên  
tp các tài liu Web ca mi truy vn trvtmáy tmáy tìm kiếm. Sau đó kết quả  
sẽ được tchc li cho người sdng. Thông thường mt máy tìm kiếm phc vhàng  
triu truy vn mt ngày cho nên vic phân phi CPU cũng như bnhcho mi truy  
vn cn được rút ngn ti đa. Cho nên vic phân cm có thể được thc hin trên mt  
máy tách riêng ti đó chnhn các kết quca máy tìm kiếm như đầu vào, to ra các  
cm và biu din chúng cho người sdng [6].  
3
Vi câu truy vn “Vit Nam” máy tìm kiếm Vivisimo [15] trv254 kết qutìm kiếm  
vi 41 cm:  
Tên cm  
Skết quả  
Sn  
7
Tin tc  
Giáo  
27  
22  
21  
24  
20  
Hc  
Viet Nam  
Nghip  
Bng 1: Kết quphân cm vi truy vn “Vit Nam” [15]  
1.1.2. Các yêu cu đối vi phân cm web  
Để có thphân các tài liu Web thành các cm, vic đầu tiên là cn phi tính  
được độ tương t(hay độ tương đồng) gia các tài liu trên cơ sbiu din tài liu  
Web và xem xét các đo độ tương tgia chúng. Thut toán phân cm cn đưa ra các  
điu kin dng và gn nhãn cho các cm mt các thích hp nht. Căn cứ đặc đim và  
yêu cu ca bài toán phân cm Web thì phương pháp phân cm được la chn cn đáp  
ng được các yêu cu sau [6]:  
Tính phù hp: Phương pháp phi to nên các cm trong đó nhóm tài liu phù  
hp vi truy vn ca người dùng tách riêng vi các nhóm không phù hp khác.  
Tng hp phi dễ đọc: Tránh trường hp thay vì người dùng không phi xem  
xét danh sách các tài liu được phân hng li phi xem xét danh sách tài liu trong  
mt cm. Do đó phương pháp phi cung cp mô tngn gn và chính xác ca các  
cm.  
Tính đa hình: Vì các tài liu có nhiu chủ đề, nên tránh vic hn chế mt tài  
liu chthuc vmt cm.  
Sdng các mu thông tin: Phương pháp phi to ra các cm tt thm chí chỉ  
sdng các mu thông tin được trvbi máy tìm kiếm (thông thường các máy tìm  
4
kiếm chtrvcác mu thông tin mô tvtài liu). Điu này tránh cho vic người  
dùng phi chờ đợi hthng ti toàn btài liu gc tWeb, ti toàn btài liu gc là  
rt tn thi gian.  
Tc độ: Mt người sdng dù kiên nhn cũng chcó thxem xét khong  
100 tài liu trong danh sách các tài liu được phân hng. Hthng cn cho phép  
người dùng có thể đọc qua mt tp đủ ln các tài liu trong mt thi gian chp nhn  
được. Vì vy cn mt phương pháp phân cm khong 1000 mu thông tin trong vài  
giây.  
Tính gia tăng: Để tiết kim thi gian, phương pháp nên xlý tng mu thông  
tin ngay khi ly được tWeb để được kết qutc thi ng vi mi thi đim.  
1.1.3. Mt số độ đo độ đánh giá  
Độ đo đánh giá thut toán phân cm là mt tiêu chun được chra bi mt tp n  
tài liu D và mt tp các truy vn Q. Vi mi q Є Q, mt tp ca các tài liu phù hp  
Dq Є D được xác định bng tay. Giscó mt truy vn được gi đến hthng, mt  
danh sách được phân hng các tài liu (d1, d2, … dn) được trv. Các hthng tìm  
kiếm thông thường chhin thmt smc đầu tiên ca danh sách này. Tương ng vi  
danh sách như vy, có thtính mt danh sách phù hp (r1, r2,…rn) bi các s(0/1)  
trong đó ri =1 nếu di Є Dq và bng 0 trong các trường hp khác. Dưới đây là mt số độ  
đo độ đánh giá được trình bày như trong [6].  
Độ hi tưởng: Vi truy vn q, độ hi tưởng (recall) ti hng k 1 được xác  
định là tsca tt ccác tài liu phù hp bên trong (d1, d2, … dk):  
1
Recall (k) =  
ri  
D
1i k  
q
Độ chính xác và độ chính xác trung bình  
- Độ chính xác (precision) ti hng k là tsca k tài liu trên cùng tp tài  
liu mà tht sphù hp:  
1
Precision (k) =  
ri  
k
1i k  
- Mt cách đo khác là độ chính xác trung bình (Average Precision): Độ chính  
xác trung bình là tng ca độ chính xác ti mi vtrí phù hp trong danh  
sách đáp ng chia cho tng scác tài liu phù hp được chn. Độ chính xác  
5
trung bình bng 1 khi ly được toàn bcác tài liu phù hp và xếp loi  
chúng lên trên tt ccác tài liu không phù hp.  
1
r × precision (k )  
Average Precision =  
k
D q  
1k D  
Đo độ tương tự  
- Độ trùng lp: Độ trùng lp dùng để đo độ tương tca mt tài liu này vi  
tài liu khác hay vi mt truy vn. Cách trc tiếp nht là đo phn giao nhau  
ca các đặc trưng tương ng, ở đây là trùng lp ca các tkhóa. Đại lượng  
này cũng được gi là mc kết hp (coordination level):  
CoordLevel(q, d) = (Kq Kd )  
- Độ tương tCosin: Mt phương pháp khác có thể được sdng để đo độ  
tương tgia các tài liu là độ tương tcosin. Kthut cosin là mt kỹ  
thut (hay mt phương pháp tính) được bt ngun ttính toán vector. Trong  
thu nhn thông tin, công thc tính toán cosin được sdng để chra (để đo)  
mc độ tương tgia hai tài liu hoc gia tài liu và truy vn, (xem hình  
minh ha).  
θ
Hình 1: Minh ha để tính cosin ca hai vector  
Hai vector d j và Q càng gn nhau khi góc θ càng nhhay cosin ca góc đó càng  
ln. Có thdùng cosin ca góc θ làm độ tương tca hai vector, trong đó cosin ca  
góc gia hai vector được xác định như sau:  
v.w  
cos θ =  
v . w  
1.2. Mt sthut toán phân cm web  
Mt phương pháp nhm thi hành thut toán phân cm là phân hoch tp tài liu  
vào k tp con hoc các cm D1, …, Dk để làm cc tiu khong cách bên trong cm  
6
δ (d , d )  
hoc làm cc đại stương tbên trong cm  
i∑  
i∑  
1
2
d1 , d 2Di  
ρ(d1 , d2 )  
[].  
d1 , d2Di  
Nếu mt biu din bên trong ca các tài liu là có giá trthì biu din này cũng  
được dùng để xác định mt biu din ca các cm liên quan đến cùng mô hình. Chng  
hn, nếu các tài liu được biu din sdng mô hình không gian vector, mt cm ca  
các tài liu có thể được biu din bi trng tâm (trung bình) ca các tài liu vector.  
Khi mt biu din cm là có giá tr, mt mc tiêu có thphân hoch D thành D1, …,Dk  
ρ
ρ
δ (d , Di )  
ρ (d , D )  
để cc tiu hóa  
hoc cc đại hóa  
trong  
i∑  
i ∑  
i
dDi  
dDi  
đó Di là biu din vector ca cm i. Có thxem xét ti vic gán tài liu d cho cm i  
như vic đặt mt giá trBoolean zd,i là 1. Điu này có thphát sinh ra vic phân cm  
mm ti đó zd,i là mt sthc t0 đến 1. Trong bi cnh như vy, ta có thmun tìm  
ρ
ρ
δ(d, Di )  
ρ(d, D )  
z để cc tiu hóa  
d,i  
hoc cc đại hóa  
.
∑ ∑dD  
i dD  
i
i
i
i
Vic phân hoch có ththc hin theo hai cách. Bt đầu vi mi tài liu trong  
mt nhóm ca nó và kết hp các nhóm tài liu li vi nhau cho đến khi scác phân  
hoch là phù hp; cách này gi là phân cm bottom-up. Cách khác là có thkhai báo  
scác phân hoch mong mun và gán các tài liu vào các phân hoch; cách này gi là  
phân cm top-down [6].  
Có thxem xét mt kthut phân cm bottom-up da vào quá trình lp li vic  
trn các nhóm ca các tài liu tương tnhau cho đến khi đạt được scm mong mun,  
và mt kthut top-down slàm mn dn bng cách gn các tài liu vào các cm được  
thiết đặt trước. Kthut bottom-up thường chm hơn, nhưng có thể được sdng trên  
mt tp nhcác mu để khi to các cm ban đầu trước khi thut toán top-down tiến  
hành.  
1.2.1. Thut toán phân cm bottom-up (HAC - Hierarchical Agglomeraltive  
Clustering)  
Mc dù có rt nhiu các công thc ca vn đề phân cm, mt cách nhn thc đơn  
gin để tìm ra các cm là bt đầu vi tt ccác tài liu và tng bước kết ni chúng  
thành các nhóm ở đó độ tương tcác tài liu bên trong mi nhóm là cao, và ngng li  
khi đạt được scm mong mun[6].  
7
HAC (Hierarchical Agglomerative Clustering) được sdng rt rng rãi trong  
phân cm và các ng dng truy xut thông tin. Dưới đây là đon mã gica thut toán  
HAC [6].  
1. Đặt mi tài liu d là mt nhóm đơn {d}  
2. Đặt G là tp tt ccác nhóm  
3. while |G| > 1 do  
4. Chn Ґ, Δ Є G thông qua độ đo tính tương ts(Ґ, Δ)  
5. Loi bỏ Ґ, Δ khi G  
6. Đặt Ф= Ґ Δ  
7. Thêm Ф vào G  
8. end while  
Quá trình trn theo cp bc to thành cây gi là cây lược đồ. Thông thường, vic  
trn gia các nhóm vi độ tương ts(Ґ Δ) ln sthc hin trước. Giá trnày sẽ  
ngày càng nhhơn cho các ln trn sau. Người dùng có thct qua cây lược đồ ti  
mc thích hp để ly được scm mong mun. Các thut toán khác nhau cách  
chúng tính các giá trmong mun để trn Ґ Δ. Mt độ đo phbiến được sdng là  
độ tương tni ti ca Ґ Δ. Độ tương tni ti ca mt nhóm các tài liu Ф được  
định nghĩa là trung bình độ tương tca tng cp tài liu trong Ф[6] .  
2
s(φ ) =  
s(d , d )  
1
2
φ ( φ 1)  
d1 , d 2φ  
Trong đó độ đo cosin TFIDF được sdng phbiến cho các độ tương ts(d1, d2)  
ca các tài liu bên trong. Ngoài ra còn tn tài nhiu điu kin trn khác. Mt cách  
khác để trn các cp ca các cm (Ґ, Δ) là maximizes mind1Є Ґ,d2Є Δ s(d1, d2) hay  
(
s ( d 1 , d )) /( Γ . Δ )  
maxd1Є Ґ,d2Є Δ s(d1,d2) hay  
2
d 1∈ Γ , d 2 ∈ Δ  
Gistài liu d được biu din trong không gian vector là d (dùng luôn ký hiu  
d để biu din vector ca tài liu d). Nếu các tài liu đã được chun hóa thì s(d1, d2)  
được dùng là tích vô hướng ca (d1, d2). Vi bt kcm Ф các tài liu, thut toán duy  
trì mt vector đại din cho cm và tính  
.
p (φ ) =  
d
d φ  
Độ tích tca mt cm được tính theo công thc sau:  
8
p(φ), p(φ) φ  
φ (φ 1)  
s(φ) =  
và  
p(Ґ Δ) = <p(Ґ), p(Ґ)> + <p(Δ), p(Δ)> + 2<p(Ґ), p(Δ)>  
Vì vy để tính s(Ґ Δ) tp(Ґ) p(Δ) ti bước 4 ca thut toán HAC (trên)  
chphi mt thi gian để tính toán các tích vô hướng.  
Ngoài ra còn mt sphương pháp phân cm bottom up khác như là: Single-link,  
Group-average, Complete-link [1][9]:  
Single-link: vi phương pháp này, khong cách gia hai cng được định  
nghĩa là khong cách gia nhng đối tượng ging nhau nht gia hai nhóm  
D(r,s) = Min (d(i,j)) vi i thuc ra và j thuc s. Vi hai cm bt k, ta tính tt  
ccác khong cách gia hai phn tthuc hai cm, từ đó suy ra khong cách  
nhnht tìm được chính là khong cách gia hai cm. Ti mi bước, hai cm  
gn nhau nht sẽ được chn để ghép li vi nhau.  
Complete-link: Phương pháp này đối ngược vi single-link, khong cách gia  
các cm được định nghĩa là: D(r,s) = Max(d(i,j)) vi i thuc r, j thuc s. Hai  
cm có khong cách nhnht sẽ được chn để nhóm làm mt cm.  
Group-average: phân cm bng group-average đánh giá cht lượng phân cm  
da vào độ tương tgia tt ccác cm, nó tránh được thiếu sót ca hai  
phương pháp single-link và complete-link. Nó tính độ tương ttrung bình  
sim-ga ca tt ccác cp văn bn, bao gm ccác cp trong cùng mt cm,  
nhưng nhng độ tương ttính trong mt cùng mt cm không cha trong  
phép trung bình.  
1.2.2. Thut toán phân cm top-down  
Nếu kthut phân cm bottom-up da vào quá trình lp vic trn các cm tài  
liu tương tnhau đến khi đạt được scm mong mun thì kthut top-down li  
ngược li, gán các tài liu vào các cm được lp ttrước. Dưới đây strình bày hai  
thut toán phân cm theo kthut top-down là k-means và Sufix Tree Clustering.  
a. Thut toán k-means  
¾K-means vi gán “cng”  
Theo các nghiên cu được công b, kthut phân cm Bottom-up được sdng  
trc tiếp tn thi gian và không gian O(n2) và không thích hp cho các tp dliu ln.  
9
Nếu coi như đặt trước scm là k, kthut phân hoch Top-down thường được sử  
dng vì hiu quhơn [6]. Mt thut toán ni tiếng nht sdng kthut này là thut  
toán K-means. Tn ti hai dng ca thut toán k-means là dng cng và dng mm[6].  
Dng “cng” ánh xtài liu ti các cm theo mt trong hai giá tr0 hoc 1, dng  
“mm” ánh xtài liu ti các cm theo mt giá trtrong khong 0 và 1.  
Trong dng tng quát, thut toán k-means sdng các biu din ni ti cho các  
đối tượng được phân cm và chính các cm. Sdng phương pháp biu din vector  
cho tài liu và dùng vector trng tâm các tài liu thuc cm để thhin cho cm.  
Khi to mt cu hình ban đầu tùy ý (hoc được chn tmt tính toán ttrước)  
cho thut toán k-means, cha đựng tp các tài liu được chia thành k cm vi k vector  
trng tâm tương ng đã được tính. Quá trình thc hin thut toán theo mô tsau  
đây[6]:  
1. Khi to các trng tâm ca cm tcác vector được chn  
2. while có thtt hơn do  
3. for mi tài liu d do  
4. Tìm cm c ti đó trng tâm ca cm là gn nht vi d  
5. Gán d cho cm c  
6. end for  
7. for mi cm c do  
8. Tính li trng tâm ca cm c da vào các tài liu đã gán cho nó.  
9. end for  
10. end while  
Bước cơ bn (vòng lp while) trong thut toán k-means được gi là move-to-  
nearest. Tn ti mt scách thc đặt điu kin cho vic dng vòng lp. Mt điu kin  
dng vòng lp while ("có thtt hơn") thường được dùng là sau khi thc hin thân  
vòng lp while mà các cm là không thay đổi (hoc sthay đổi là không đáng k),  
hoc trng tâm ca cm di chuyn các khong không đáng ktrong các ln lp tiếp  
theo.  
¾Thut toán K-means vi gán “mm”  
Thay vì chrõ vic gán các tài liu cho các cm, dng “mm” ca k-means biu  
din mi cm c sdng mt vector μc trong không gian. Do không có mt srõ ràng  
10  
trong vic gán các tài liu cho các cm, μc không trc tiếp liên hvi các tài liu – ví  
dnó không cn thiết là trng tâm ca các tài liu. Mc đích ca k-means “mm” là  
2
tìm mt μc cho mi cm c để ti thiu hóa li lượng td minc d μc . Mt chiến  
lược đơn để gim li là đưa ra các vector trung bình là khong cách tcác tài liu đến  
cm gn nht[6]. Ta slp li vic quét qua các tài liu, và vi mi tài liu d, tích lũy  
mt Δμc cho cm μc gn d nht:  
nếu μc gn d nht  
η(d μ )  
c
Δ =  
μC  
các trường hp khác  
0
d
Sau khi quét mt ln qua tt ccác tài liu, tt ccác μc được cp nht đồng lot  
bi công thc μc Å μc + Δμc trong đó η được gi là learning rate. Nó duy trì mt sdữ  
liu ca quá khvà làm n định hthng. Chú ý mi tài liu d chchuyn vào mt μc  
trong mi đợt. Vic phân btài liu d không bgii hn đến chmt μc mà gn nó  
nht. Vic phân bcó thể được chia sgia nhiu tài liu, vic phân chia cho cm c  
quan htrc tiếp đến độ tương thin thi gia μc d. Ví dụ để có thlàm mm công  
thc tính Δμc trên như sau:  
2
1/ d μc  
Δμc =η  
(d μc )  
2
1/ d μ  
γ
γ
Hoc  
2
exp(d μc  
)
Δμc =η  
(d μc )  
2
exp(d μ  
)
γ
γ
Tn ti nhiu quy tc cp nht khác có thể được sdng. Gán “mm” không làm  
mt đi liên kết cht trong vic to nên phân bcác tài liu cho mt cm đơn đạt được  
mt cách tm[6].  
b. Thut toán STC (Suffix Tree Clustering)  
Theo [11][13] STC là thut toán phân cm da vào vic nhn dng các cm từ  
thường xuyên xut hin trong mt nhóm văn bn. Trong hoàn cnh ca chúng ta, mt  
cm tlà mt chui có trình tca mt hoc nhiu hơn mt t. Chúng ta định nghĩa  
11  
mt base cluster (cm cơ s) là mt tp hp các văn bn cùng chia smt cm tnào  
đó.  
Thut toán gm ba bước: (1) “làm sch” tài liu (document “learning”), (2) xác  
định các cm cơ s(base clusters) sdng cây hu t, (3) trn các cm cơ sto  
thành các cm.  
(1)Trong bước làm sch tài liu, xóa tt ccác hu tvà tin tca các tnếu có,  
đưa toàn bsnhiu vsít, loi bcác ký tkhông phi là mt t(như các thẻ  
HTML, hthng du chm câu), các ttrong tài liu được ginguyên vtrí.  
(2) Xác định các cm cơ s: Theo định nghĩa trong [13] thì cây hu tT là mt  
cây có hướng có gc, biu din mt chui s bt kcó chiu dài m vi đúng m nút lá.  
Mi cnh trên cây hu tố đều được gán nhãn bng mt chui con khác rng ca chui  
s. Các nhãn ca hai cnh bt kxut phát tmt nút chung phi bt đầu bng các ký  
tkhác nhau. Đối vi nút lá ca cây hu t, vic kết các nhãn ca các nút nm trên con  
đường đi tgc đến nút lá đó sto thành mt hu tca chui s.  
Như tên ca nó, cây hu tsbiu din các chui hu tca 1 thoc mt cm t.  
Chui hu tlà tp hp các đơn vthoc chcái cnh nhau đi sau thoc cm t.  
Đơn vtừ ở đây có thlà chcái nếu xây dng cây hu tcho t, và là tnếu xây  
dng cây hu tcho 1 cm  
Ly ví d: Tmisisippi có các hu tlà  
T1 = mississippi  
T2 = ississippi  
T3 = ssissippi  
T4 = sissippi  
T5 = issippi  
T6 = ssippi  
T7 = sippi  
T8 = ippi  
T9 = ppi  
T10 = pi  
12  
T11 = i  
Ta có thsp xếp li ttdãy hu ttrên như sau:  
T11 = i  
T8 = ippi  
T5 = issippi  
T2 = ississippi  
T1 = mississippi  
T10 = pi  
T9 = ppi  
T7 = sippi  
T4 = sissippi  
T6 = ssippi  
T3 = ssissippi  
Vic xây dng như trên giúp ta xây dng mt cây vi đặc đim là:  
Không có 2 nút nào cùng là con ca mt nút có nhãn cnh như nhau.  
Và có thể đưa ra tt ccác tp con vi các đơn vtliên tiếp có đơn vcui là  
đơn vcui ca t, cm từ được đưa vào phân tích.  
Có mt nút gc sinh ra cây  
Mi nút trong có ít nht 2 nút con  
Các nhãn được đặt phi có liên kết vi nhau.  
Vi mi hu tca s, tn ti mt nút có nhãn là s.  
Cây hu tố được tchc thành cây gm nhiu nút. Mi nút slưu trtt ccác thông  
tin vcác cm t( tn sxut hin trong tp văn bn, tn sxut hin trong tng văn  
bn) trong khi quan hgia chúng li nói lên stn ti ca các cm từ  
Trong phân cm, người ta sdng cây hu tmrng để phân tích các câu: [11] Cây  
hu tmrng là cây hu tnhm kết tt ccác hu tca các câu trong văn bn.  
13  
Tc là ta phân tích văn bn bng cây hu t, mi câu được coi là mt hu t, mi hu  
tca câu cũng là mt hu t. Mi nút có thlà 1 t, hoc là 1 cm từ đi lin. Sau đó  
xét tt ccác cm được coi là hu tvà xét quan hca chúng vi nhau để nhóm li  
thành mt cây.  
Ví dmt cây hu tvi tp hp các string là 3 câu: “cat ate cheese”, "mouse ate  
cheese too" , "cat ate mouse too". Phân tích vi cây hu tvi mi đơn vlà mt t. Ở  
trong văn bn gm 3 câu này scó các cm từ được đưa ra ln lượt như sau:  
1. cat [2]( 1 3)  
2. cat ate [2]( 1 3)  
3. cat ate cheese [1]( 3)  
4. cat ate mouse [1]( 1)  
5. cat ate mouse too [1]( 1)  
6. ate [3]( 1 2 3) (ate xut hin 3 ln trong c3 câu)  
7. ate cheese [2]( 2 3)  
8. ate cheese too [1]( 2)  
9. ate mouse [1]( 1)  
10.ate mouse too [1]( 1)  
11.cheese [2]( 2 3)  
12.cheese too [1]( 2)  
13.mouse [2]( 1 2)  
14.mouse ate cheese [1]( 2)  
15.mouse ate cheese too [1]( 2)  
16.mouse too [1]( 1)  
17.too [2]( 1 2]  
14  
và cây hu tchúng ta xây dng được slà  
tree1>|---cat ate cheese  
|---ate cheese  
|---cheese  
Tree2>|---mouse ate cheese too  
|---ate cheese too  
|--- cheese too  
|--- too  
Tree3>|---cat ate mouse too  
|---ate mouse too  
|--- mouse too  
|---too  
Coi mi hu tlà mt vector. Ta so sánh độ tương đồng gia các vetor và dùng các  
thut toán gom cm để gom các câu trong văn bn li và tng hp đưa ra vector đặc  
trưng cho câu. Cây cui cùng được đưa ra là  
TreeÆ|---cat ate|---cheese  
|
|
|----mouse  
|---ate|---cheese|---too  
|--- $  
|---mouse too  
|
|
|
|
|---mouse|---too  
|
|---ate cheese too  
|---cheese|---too  
|
|---$  
|---too  
15  
Hình 2: Cây hu tmrng  
Trong đó Node(a, b):  
a= hu tthuc câu  
b= sthtca ln xut hin  
chúng ta gán nhãn cho tt ccác nút trong ca cây. Mi nhãn này tương đương vi  
mt thoc mt cm tnhn được tcác cnh lin nhau tgc đến nhãn đó. Sau đó  
đánh giá các nút này.  
Node Cm từ  
Văn bn  
1, 3  
a
b
c
d
e
F
Cat ate  
Ate  
1, 2, 3  
1, 3  
Cheese  
Mouse  
Too  
2, 3  
2, 3  
Ate cheese 1, 2  
Bng 2: Các tài liu cha cm từ ở các node  
Và bng cách này, cm cơ sở được đưa ra da vào svăn bn mà cm tnày xut hin  
và sttrong cm. Công thc:  
S(B) = |B| * f  
16  
Trong đó: |B| là svăn bn trong cm cơ sB  
|P| slượng thp pháp trong cm P (have non zero score)  
zero score words: stopwords, quá ít(<3) hoc quá nhiu( >40%)  
hàm f không xác định vi các cm tđộ dài bng 1, là mt hàm tuyến tính vi  
nhng cm tđộ dài t2 đến 6 và skhông đổi vi nhng cm tdài hơn 6.  
(3)Mt vn đề đặt ra là các văn bn có thcha nhiu cm tging nhau. Vì thế  
vi cách phân cm cơ snhư trên thì vic 2 cm cơ scó chia schung mt svăn  
bn có xác sut khá ln. Để tránh vic trùng lp này chúng ta trn nhng cm có cha  
svăn bn dùng chung li thành mt cm. GisBm and Bn là 2 cm phân bit. Gi  
|BmBn| là tp hp các văn bn thuc c2 cm trên.  
Chúng ta định nghĩa độ tương tgia 2 cm là 1 nếu:  
|BmBn|/|Bm| >0.5 và  
|BmBn|/|Bn| > 0.5.  
Và là 0 trong trường hp còn li  
Hình 3: Kết qusau khi trn các tài liu  
Xét trong ví dtrên. Các thông số được thhin như hình trên. Mi nút là mt  
cm và mi cnh ni vi nhau thhin rng độ tương tgia 2 cm là ln hơn 1 tc là  
các cm có tn ti mt cnh ni có thhp li vi nhau thành mt cm. như vy sơ đồ  
trên thhin duy nht mt cm.  
17  
Xét trong trường hp ca ví dnày. Ta thy b (ate) là mt stopword, nút b sẽ  
được đánh giá là 0. Như vy các cnh ni tb cũng bbỏ đi và chúng ta có 3 cm  
được đưa ra là “mouse too” “cat ate” “ate cheese”  
1.3. Đánh giá các thut toán phân cm  
Như đã được gii thiu, thut toán AHC thường chm khi áp dng cho các tp tài  
liu ln. Các thut toán khác theo hướng này như Single-link Group-average có  
thi gian thc hin là O(n2), đồng thi thi gian kết ni hoàn toàn (complete-link) là  
O(n3). Các thut toán theo hướng này là quá chm so vi yêu cu ca bài toán phân  
cm Web. Mt đim đáng chú ý na đối vi các thut toán HAC là điu kin dng. Đã  
có rt nhiu đề xut về điu kin dng được đưa ra nhưng chyếu là da trên vic  
điu kin dng đã được xác định trước (chng hn, dng khi chcòn 5 cm). Điu kin  
dng đối vi các thut toán này (HAC) là cc kquan trng. Nếu như thut toán trn  
các cm “tt” vi nhau có thto ra kết qukhông theo mong mun ca người dùng.  
Trên Web, vi kết qutrvtheo truy vn là vô cùng đa dng (vslượng, độ ln,  
kiu và sphù hp ca các tài liu) thì điu kin dng không tt slàm cho kết qutrở  
nên nghèo nàn [6].  
Thut toán k-means thuc vào lp các thut toán phân cm thi gian tuyến tính  
và là nhng la chn tt nht để đáp ng yêu cu vtc độ ca bài toán phân cm on-  
line. Thi gian thc hin ca các thut toán này là O(nk) trong đó k là scác cm  
mong mun [6]. Thêm mt ưu đim ca thut toán K-means so vi HAC là vic đáp  
ng các yêu cu ca bài toán phân cm Web là nó có thto ra các cm có sgiao  
thoa. Đim yếu chính ca thut toán này là nó chy hiu qunht chkhi các cm  
mong mun là các min hình cu đối vi độ đo tương tự được dùng. Không có lý do gì  
để tin rng các tài liu sthuc vào các min cu. Vì vy thut toán có thlàm mt đi  
các thông tin có giá tr.  
Các thut toán như HAC hay K-means đều không là các thut toán gia tăng. Mt  
sthut toán gia tăng đã được phát trin như thut toán phân cm cây hu t(Suffix  
Tree Clustering - STC), vi thi gian thc hin O(n) trong đó n là kích thước ca tp  
tài liu[6].  
18  
Chương 2. Phân cm văn bn tiếng Vit  
2.1. Đặc trưng ca tiếng Vit và tách ttrong tiếng vit  
Có thnói, khai phá web là giao thoa ca khai phá dliu, xlý ngôn ngtự  
nhiên và Word-Wide-Web. Vì vy để có thlàm vic được vi các tài liu web tiếng  
Vit cn phi tìm hiu vcác đặc trưng ca tiếng Vit và vic tách ttiếng Vit.  
2.1.1. Đặc trưng ca tiếng Vit  
Tiếng Vit thuc ngôn ngữ đơn lp, tc là mi mt tiếng (âm tiết) được phát âm  
tách ri nhau và được thhin bng mt chviết. Đặc đim này thhin rõ rt tt cả  
các mt ngâm, tvng, ngpháp. Dưới đây trình bày mt số đặc đim ca tiếng  
Vit theo các tác giả ở Trung tâm ngôn nghc Vit Nam đã trình bày Error!  
Reference source not found..  
a. Đặc đim ngâm  
Tiếng Vit có mt loi đơn vị đặc bit gi là "tiếng", vmt ngâm, mi tiếng là  
mt âm tiết. Hthng âm vtiếng Vit phong phú và có tính cân đối, to ra tim năng  
ca ngâm tiếng Vit trong vic thhin các đơn vcó nghĩa. Nhiu ttượng hình,  
tượng thanh có giá trgi tả đặc sc. Khi to câu, to li, người Vit rt chú ý đến sự  
hài hoà vngâm, đến nhc điu ca câu văn.  
b. Đặc đim tvng:  
Mi tiếng nói chung là mt yếu tcó nghĩa. Tiếng là đơn vcơ sca hthng  
các đơn vcó nghĩa ca tiếng Vit. Ttiếng, người ta to ra các đơn vtvng khác  
để định danh svt, hin tượng..., chyếu nhphương thc ghép và phương thc  
láy.  
Vic to ra các đơn vtvng phương thc ghép luôn chu schi phi ca quy  
lut kết hp ngnghĩa, ví d: đất nước, máy bay, nhà lu xe hơi, nhà tan ca nát...  
Hin nay, đây là phương thc chyếu để sn sinh ra các đơn vtvng. Theo phương  
thc này, tiếng Vit trit để sdng các yếu tcu to tthun Vit hay vay mượn từ  
các ngôn ngkhác để to ra các t, ngmi, ví dnhư tiếp th, karaoke, thư đin tử  
(e-mail), thư thoi (voice mail), phiên bn (version), xa lthông tin, siêu liên kết văn  
bn, truy cp ngu nhiên, v.v.  
19  
Vic to ra các đơn vtvng phương thc láy thì quy lut phi hp ngâm  
chi phi chyếu vic to ra các đơn vtvng, chng hn như chôm cha, chng chơ,  
đỏng đa đỏng đảnh, thơ thn, lúng lá lúng liếng, v.v.  
Vn tvng ti thiu ca tiếng Vit phn ln là các từ đơn tiết (mt âm tiết, mt  
tiếng). Slinh hot trong sdng, vic to ra các tngmi mt cách ddàng đã to  
điu kin thun li cho sphát trin vn t, va phong phú vslượng, va đa dng  
trong hot động. Cùng mt svt, hin tượng, mt hot động hay mt đặc trưng, có  
thcó nhiu tngkhác nhau biu th. Tim năng ca vn tngtiếng Vit được phát  
huy cao độ trong các phong cách chc năng ngôn ng, đặc bit là trong phong cách  
ngôn ngnghthut. Hin nay, do sphát trin vượt bc ca khoa hc-kĩ thut, đặc  
bit là công nghthông tin, thì tim năng đó còn được phát huy mnh mhơn.  
c. Đặc đim ngpháp  
Tca tiếng Vit không biến đổi hình thái. Đặc đim này schi phi các đặc  
đim ngpháp khác. Khi tkết hp tthành các kết cu như ng, câu, tiếng Vit rt  
coi trng phương thc trt ttvà hư t.  
Vic sp xếp các ttheo mt trt tnht định là cách chyếu để biu thcác  
quan hcú pháp. Trong tiếng Vit khi nói “Anh ta li đến” là khác vi “Li đến anh  
ta”. Khi các tcùng loi kết hp vi nhau theo quan hchính phthì từ đứng trước  
givai trò chính, từ đứng sau givai trò ph. Nhtrt tkết hp ca tmà "cci"  
khác vi "ci c", "tình cm" khác vi "cm tình". Trt tchngữ đứng trước, vngữ  
đứng sau là trt tphbiến ca kết cu câu tiếng Vit.  
Phương thc hư tcũng là phương thc ngpháp chyếu ca tiếng Vit. Nhờ  
hư tmà thp “anh ca em” khác vi thp “anh và em”, “anh vì em”. Hư tcùng  
vi trt ttcho phép tiếng Vit to ra nhiu câu cùng có ni dung thông báo cơ bn  
như nhau nhưng khác nhau vsc thái biu cm. Ví d, so sánh các câu sau đây:  
- Ông y không hút thuc.  
- Thuc, ông y không hút.  
- Thuc, ông y cũng không hút.  
Ngoài trt ttvà hư t, tiếng Vit còn sdng phương thc ngữ điu. Ngữ điu  
givai trò trong vic biu hin quan hcú pháp ca các yếu ttrong câu, nhờ đó nhm  
đưa ra ni dung mun thông báo. Trên văn bn, ngữ điu thường được biu hin bng  
20  
du câu. Skhác nhau trong ni dung thông báo được nhn bit khi so sánh hai câu  
sau:  
- Đêm hôm qua, cu gãy.  
- Đêm hôm, qua cu gãy.  
Qua mt số đặc đim ni bt va nêu trên đây, chúng ta có thhình dung được  
phn nào bn sc và tim năng ca tiếng Vit  
2.1.2. Tách ttiếng Vit  
Các tác gi[6][12]rút ra mt số đặc đim ca ttiếng Vit như sau:  
- là đơn vcó ranh gii trùng vi hình vvà âm tiết  
- không có sbiến đổi hình thái trong quá trình sdng  
- là đơn vcó sn, được tái hin trong khi nói  
- có tính định hình hoàn chnh  
- Có thchia ttiếng vit thành hai loi: từ đơn và tphc  
Chính tnhng đặc đim này mà tách tlà mt khó khăn chính trong vic xlý  
các văn bn tiếng Vit. Mc dù được viết bng các ký tLa tinh mrng, tiếng Vit  
cũng có nhng đặc tính chung vi các ngôn ngữ Đông Nam Á khác như khó xác định  
ranh gii gia các tvà có các đim khác bit vphonetic, văn phm và ngnghĩa so  
vi tiếng Anh. Do đó, rt khó có tháp dng các kthut và hướng tiếp cn đã được  
nghiên cu và thnghim thành công trên tiếng Anh cho tiếng Vit nếu không xây  
dng thành công gii pháp cho vic tách ttrong văn bn tiếng Vit. Dưới đây là mt  
số đim khác bit chính gia tiếng Vit và tiếng Anh được trình bày trong [12].  
Đặc đim  
Đơn vcơ bn  
Tin t/Hu tố  
Tloi  
Tiếng vit  
Tiếng  
Tiếng Anh  
Từ  
Có  
Không có  
Not unanimous  
Được định nghĩa rõ  
Thp có nghĩa da vào  
ngcnh ca các tiếng  
Khong trng hoc  
du câu  
Ranh gii từ  
Bng 3: So sánh mt số đặc đim ca tiếng Vit và tiếng Anh  
21  
Nhng đặc đim này làm cho vic tách ttiếng vit trnên khó khăn hơn. Dưới  
đây là kết qukho sát vtách ttrong văn bn tiếng hoa và thng kê vtách ttiếng  
Vit được công bhin ti [12].  
Hình 4: Thng kê vtách ttiếng Hoa và tiếng Vit [12]  
Các hướng tiếp cn da trên “t”: được chia thành 3 nhóm: da vào thng kê,  
da vào từ đin và nhóm lai, nhm tách ttrng vn trong câu. Các gii pháp da theo  
hướng tiếp cn vào thng kê cn phi da vào thông tin thng kê như term, thay tn  
ský t. hay xác sut cùng xut hin trong mt tp dliu cơ s. Do đó, tính hiu quả  
ca các gii pháp này chyếu da vào dliu hun luyn cthể được sdng. Trong  
hướng tiếp cn da vào từ đin, các đon văn bn được đối sánh da vào từ đin. Vic  
xây dng từ đin các tvà ngpháp tiếng vit hoàn chnh là không khthi. Hướng  
tiếp cn lai áp dng nhiu cách khác nhau để tn dng ưu đim ca các gii pháp. Các  
hướng tiếp cn để phân loi văn bn tiếng vit da vào tchkhthi khi có mt btừ  
vng tt.  
22  

Tải về để xem bản đầy đủ

pdf 55 trang yennguyen 28/04/2025 140
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_su_dung_phuong_phap_xep_hang_trong_bai_toan_phan_c.pdf