Khóa luận Tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Lê Xuân Thành  
TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN  
TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
HÀ NỘI - 2010  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Lê Xuân Thành  
TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN  
TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: Công nghệ thông tin  
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành  
HÀ NỘI - 2010  
Lời cảm ơn  
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc nhất tới thầy giáo – TS.  
Nguyễn Trí Thành đã tận tình hướng dẫn, đôn đốc tôi trong suốt quá trình là khóa luận tốt  
nghiệp.  
Tôi xin được chân thành cảm ơn các thầy, cô và các cán bộ của trường Đại Học  
Công Nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.  
Tôi xin gửi lời cảm ơn tới ThS Nguyễn Thanh Bình, ThS Lê Văn Thanh và tập thể  
các anh chị em của công ty iTim đã động viên, khích lệ, tạo điều kiện cho tôi trong suốt  
quá trình làm khóa luận.  
Tôi cũng xin gửi lời cảm ơn tới các bạn trong tập thể lớp K51CD và K51CHTTT đã  
ủng hộ và khuyến khích tôi trong suốt quá trình học tập tại trường.  
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những  
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt  
nghiệp.  
Tôi xin chân thành cảm ơn!  
Sinh viên  
Lê Xuân Thành  
Tóm tt ni dung  
Trong hthng các website đin t, các trang tin tc chiếm mt vai trò hết sc quan  
trng, giúp con người cp nht nhng tin tc thi smi nht thun tin mi lúc mi nơi.  
Theo Hip hi các nhà xut bn trc tuyến (Online Publishers Association – OPA) thì  
phn ln thi gian trên Internet con người dùng để đọc tin tc1. Như vy, nhu cu cp  
nht tin tc ca con người là rt ln, và nếu người dùng chphi vào mt trang Web duy  
nht để cp nht được tt ccác tin tc thì stin dng hơn rt nhiu so vi vic phi truy  
cp vào nhiu trang.  
Khóa lun này tp trung vào vic nghiên cu và xây dng mt hthng tng hp tin  
tc, da trên bài toán trích xut thông tin ttài liu Web và bài toán phân lp văn bn.  
Khóa lun đưa ra mô hình gom tin tự động vi tính mrng cao, trình bày các bước xây  
dng mt hthng tng hp tin tc. Khóa lun cũng đã tiến hành chy các thc nghim  
đánh giá kết qu. Kết quả đánh giá cho thy cht lượng gom tin và phân loi là nhanh  
đáng tin cy.  
1
i
Mc lc  
Tóm tt ni dung .................................................................................................................i  
Mc lc ................................................................................................................................ii  
Bng các ký hiu viết tt ...................................................................................................iv  
Danh sách các hình.............................................................................................................v  
Danh sách các bng biu...................................................................................................vi  
Gii thiu.............................................................................................................................1  
Chương 1. Khái quát vcác trang tin tc và các hthng tng hp tin tc ca Vit  
Nam  
........................................................................................................................3  
1.1. Khái quát chung vcác báo đin t........................................................................3  
1.2. Khái quát chung vcác hthng tng hp tin tc..................................................3  
Chương 2. Cơ slý thuyết xây dng mô hình hthng tng hp và phân loi tin tự  
động  
........................................................................................................................8  
2.1. Xây dng crawler ....................................................................................................8  
2.1.1. Khái nim crawler...........................................................................................8  
2.1.2. Xây dng crawler .........................................................................................10  
2.2. Xây dng btrích chn thông tin..........................................................................11  
2.2.1. Trích chn thông tin trên tài liu Web..........................................................11  
2.2.2. Xây dng btrích chn tài liu Web............................................................11  
2.3. Xây dng bphân lp ...........................................................................................12  
2.3.1. Khái nim phân lp văn bn.........................................................................12  
2.3.2. Áp dng thut toán phân lp entropy cc đại xây dng bphân lp văn bn.  
......................................................................................................................14  
2.3.3. Phương pháp đánh giá hiu sut phân lp....................................................18  
Chương 3. Xây dng hthng tng hp và phân loi tin tự động ...........................21  
3.1. Cơ sthc tin.......................................................................................................21  
3.2. Xây dng mô hình hthng..................................................................................24  
3.2.1. Mô hình tng quan........................................................................................25  
3.2.2. Module chun hóa dliu hun luyn/kim tra mô hình.............................29  
3.2.3. Module phân lp...........................................................................................30  
3.2.4. Module sinh file hun luyn .........................................................................31  
3.3. Khnăng mrng ca hthng............................................................................32  
ii  
Chương 4. Thc nghim và đánh giá kết qu.............................................................34  
4.1. Môi trường phn cng và phn mm ....................................................................34  
4.1.1. Môi trường phn cng ..................................................................................34  
4.1.2. Công cphn mm.......................................................................................34  
4.2. Cu trúc Cơ sdliu...........................................................................................37  
4.3. Đánh giá cht lượng tng hp tin..........................................................................39  
4.4. Thc nghim và đánh giá hiu sut phân loi tin tự động ....................................39  
4.4.1. Xây dng tp dliu hun luyn và kim tra mô hình ................................39  
4.4.2. Thc nghim thnht...................................................................................41  
4.4.3. Thc nghim thhai.....................................................................................44  
Kết lun .............................................................................................................................47  
Tài liu tham kho............................................................................................................49  
iii  
Bng các ký hiu viết tt  
Ký hiu  
HTML  
URL  
Din gii  
HyperText Markup Language  
Uniform Resource Locator  
World Wide Web  
WWW  
CSDL  
Csdliu  
iv  
Danh sách các hình  
Hình 1. Minh ha li tng hp tin trang Baomoi.com…………………………………….5  
Hình 2. Minh ha li mt nh trang tintuc.xalo.vn………………………………………..7  
Hình 3. Sơ đồ cơ bn ca mt crawler đơn lung…………………………………………9  
Hình 4. Lược đồ chung xây dng bphân lp văn bn………………………………….13  
Hình 5a. Mô tphn ni dung cn ly trên trang tin 1…………………………………...21  
Hình 5b. Mô tphn ni dung cn ly trên trang tin 2…………………………………...22  
Hình 6. Mô hình cây DOM ca 2 detail-pages…………………………………………...22  
Hình 7a. Các đặc trưng cho phép trích chn thông tin bài báo 1………………………...23  
Hình 7b. Các đặc trưng cho phép trích chn thông tin bài báo2…………………………24  
Hình 8. Mô hình tng quan ca hthng tng hp và phân loi tin tc…………………25  
Hình 9. Đặc đim giúp loi tin thuc lp chưa quan tâm……………………….........…..28  
Hình 10. Module chun hóa dliu hun luyn/kim tra mô hình………………………29  
Hình 11. Module phân lp………………………………………………………………..31  
Hình 12. Module sinh file hun luyn……………………………………………………32  
v
Danh sách các bng biu  
Bng 1. Các nhóm tài liu sau phân lp………………………………………………….19  
Bng 2. Cu hình phn cng sdng trong thc nghim………………………………..34  
Bng 3. Các công cphn mm sdng trong thc nghim…………………………….34  
Bng 4. Mô tchc năng các lp trong các gói………………………………………….36  
Bng 5. Chi tiết CSDL……………………………………………………………….......38  
Bng 6. Các lp tài liu sdng trong thc nghim…………………………………….40  
Bng 7. Thng kê slượng tài liu dùng cho vic hc mô hình…………………………41  
Bng 8. Thng kê slượng tài liu thc nghim 1 dùng kim tra mô hình……………...42  
Bng 9. Kết quthc nghim 1…………………………………………………………..43  
Bng 10. Thng kê slượng tài liu thc nghim 2 dùng kim tra mô hình…………….44  
Bng 11. Kết quthc nghim 2…………………………………………………………45  
vi  
Gii thiu  
Trong gn hai mươi năm trli đây, cùng vi sphát trin bùng nca Internet mà  
đặc bit là World Wide Web (www) - hay còn gi tt là Web - mang li cho con người rt  
nhiu li ích. Đồng thi vi đó cũng là sbùng nvthông tin, giúp con người ddàng  
cp nht tin tc mi nht, nhưng hqusau đó là stiêu tn rt nhiu thi gian, khi  
nhng thông tin cn đối vi mt người dùng thuc mt ni dung cthli nm trên nhiu  
trang Web khác nhau. Ví dụ đối vi mt nhà đầu tư chng khoán, thông tin hquan tâm  
là các tin tc mi nht vthtrường chng khoán, vkết qugiao dch các sàn chng  
khoán, nhưng để được điu này thường hphi truy cp vào nhiu trang khác nhau để  
đủ thông tin. Như vy, nhu cu đặt ra cn có mt hthng tng hp tin tc nhanh  
nht và được phân chia theo các mc, phân mc rõ ràng, giúp thun tin hơn cho nhu cu  
thông tin ca người dùng. Điu này giúp người dùng thun tiên hơn cho vic tìm, cp nht  
các thông tin mà mình quan tâm mt cách thun tin nht, tiết kim thi gian nht. Điu  
này đặc bit có ý nghĩa trong cuc sng bn rn hin đại ngày nay.  
Để gii quyết được bài toán vhthng tng hp tin tc cn phi gii quyết được  
hai bài toán khác là trích xut thông tin ttài liu Web và phân lp tự động các văn bn  
Web – là hai bài toán được quan tâm rt nhiu các hi nghln vkhai phá dliu và  
xlý ngôn ngtnhiên [6],[9],[10],[14]. Khóa lun xây dng mt tp lut cho phép tự  
động gom và trích xut thông tin tcác trang tin tc ca Vit Nam, tin tc được ly vsẽ  
được gán nhãn tự động nhvào thut toán phân lp văn bn entropy cc đại (maximum  
entropy), và được ghi li vào CSDL, phc vcho vic xut bn tin.  
Khóa lun gm có 4 chương được mô tsơ bdưới đây:  
Chương 1: Khái quát vcác trang tin tc và các hthng tng hp tin tc ca Vit  
Nam. Gii thiu vcác trang báo đin t(trang tin tc) và các hthng tng hp tin tc.  
Đánh giá ưu và nhược đim ca các hthng đó.  
Chương 2: Cơ slý thuyết xây dng mô hình hthng tng hp và phân loi tin tự  
động. Gii thiu vcrawler, trích chn thông tin ttài liu Web, phân lp văn bn bng  
phương pháp entropy cc đại. Đồng thi chương này cũng gii thiu vphương pháp  
đánh giá hiu sut ca vic phân lp văn bn thông độ hi tưởng, độ chính xác và độ đo  
F1.  
1
Chương 3: Xây dng hthng tng hp và phân loi tin tự động. Nêu ra các cơ sở  
lý thc tin có tháp dng cho vic trích chn thông tin đối vi tài liu Web. Đưa ra mô  
hình hthng, các module, cách thc tương tác gia các module vi nhau. Từ đó nêu lên  
được tính mrng cao ca hthng.  
Chương 4: Thc nghim và đánh giá kết quđể đánh giá bài toán mô hình được  
xây dng trong chương 3. Kết quthc nghim cho thy hiu qutt ca hthng tng  
hp và phân loi tin tự động ca khóa lun.  
Phn kết lun tóm lược ni dung chính ca khóa lun và nêu lên định hướng ca  
khóa lun trong thi gian ti.  
2
Chương 1. Khái quát vcác trang tin tc và các hthng  
tng hp tin tc ca Vit Nam  
1.1. Khái quát chung vcác báo đin tử  
Hin nay, các website báo đin tca Vit Nam chiếm mt vai trò không ththiếu  
trong vic cung cp ti bn đọc các ni dung thông tin chính tr, xã hi, ththao, gii trí...  
mi nht. Điu này được thhin qua vic hai trang tin tc ln nht ca Vit Nam là  
vnexpress.net và dantri.com.vn liên tc nm trong top 10 websites được truy cp nhiu  
nht ti Vit Nam, theo xếp hng ca alexa.com.  
Mc dù vy các báo đin tca Vit Nam hin nay, vic phân lp (phân loi) tin tc  
thường được làm thcông bi người viết báo hoc người biên tp. Do vy nhu cu đặt ra  
là cn có mt hthng phân lp văn bn Tiếng Vit, cho phép gán nhãn cho các tài liu  
mt cách tự động. Khóa lun xin trình bày mt phương pháp cho phép phân lp các văn  
bn hay tài liu Web vào các lp, da vào mô hình được trvsau quá trình hun luyn,  
sẽ đưc trình bày khơn trong chương 2.  
1.2. Khái quát chung vcác hthng tng hp tin tc  
Khong hơn mt năm trli đây, các hthng tng hp tin tc ca Vit Nam phát  
trin rt mnh. Sau đây khóa lun xin lit kê ra mt shthng hin đang được xem là  
thành công nht, đều nm trong top 40 websites được truy cp nhiu nht Vit Nam theo  
xếp hng ca alexa.com.  
Baomoi.com: Có thnói baomoi.com là trang tng hp tin ni bt nht hin nay vi  
rt nhiu ưu đim ni tri so vi các hthng tng hp báo khác:  
Ưu đim:  
- Baomoi.com được biết đến như là trang tng hp ly tin tnhiu ngun nht, từ  
các báo đin tln tin tc tng hp trên đủ lĩnh vc cho đến các báo chchuyên vmt  
lĩnh vc (ví d: chchuyên vôtô-xe máy), hay đến ccác báo địa phương.  
- Baomoi.com còn được biết đến như là trang tng hp tin có crawler tt nht, tin  
tc sau khi xut hin trên trang gc, chsau mt vài phút đã có tin tng hp trên  
baomoi.com.  
3
- Htrtìm kiếm tin tc  
Nhược đim: baomoi.com cho phép người đọc xem mt tin chi tiết theo 2 cách,  
tuy nhiên c2 cách đều có nhng vn đề không tt:  
- Cách thnht là xem trang gc - website cha bài báo quan tâm thông qua trang  
ca baomoi.com. Như vy có nghĩa là báo mi đứng vai trò trung gian, nhn dliu từ  
webstie cha bài báo và gi nguyên vn đến cho người đọc. Cách làm này là cách phổ  
biến vi hu hết các tin ca baomoi.com, cách này không ti ưu cho người s, trong khi  
người sdng chcn xem ni dung tin thì vic xem ctrang gc như thế mang đến rt  
nhiu thông tin tha như các nh, các flash qung cáo, làm cho tc độ xem tin bchm,  
đặc bit đối vi nhng tin có clip thì tc độ xem clip là rt chm hoc có thdn đến hin  
tượng đơ” trình duyt.  
- Cách thhai, tin được ly vvà lưu trong CSDL ca baomoi.com, sau đó khi có  
yêu cu tin, thì tin sẽ được truy vn để trvkết quả ở trang chi tiết (detail-page), cách  
làm này ít phbiến hơn cách thnht. Cách làm này ca baomoi.com xut hin các li về  
trích xut tin, đối vi nhng bài viết có nhiu nh, thì nh sbị đẩy hết xung dưới cùng,  
sau phn kết thúc bài báo như trong Hình 1.  
4
Hình 1. Minh ha li tng hp tin trang Baomoi.com  
5
tintuc.xalo.vn:  
Ưu đim:  
- Tc độ ly tin ca tintuc.xalo.vn là rt nhanh, có thnói vtc độ thì  
tintuc.xalo.vn không hthua kém baomoi.com.  
- Tintuc.xalo.vn cho phép người đọc có thddàng truy cp đến bài báo gc  
nếu cn bng mt liên kết đặt phía dưới tiêu đề ở detail-page.  
Nhược đim:  
-
page-list khá nhiu tin ca tintuc.xalo.vn gp hin tượng mt nh minh  
ha  
tin247.com: Tc độ ly tin ca tin247.com là khá chm, tin tc sau khi xut hin ở  
trang gc khong vài gimi được cp nht trên trang tin ca tin247.com. Như vy  
thì nói chung không đáp ng được nhu cu cp nht tin tc nhanh chóng như 2 trang  
tng hp trên.  
6
Hình 2. Minh ha li mt nh trang tintuc.xalo.vn  
7
Chương 2. Cơ slý thuyết xây dng mô hình hthng  
tng hp và phân loi tin tự động  
chương này, khóa lun xin trình bày các bước xây dng mt hthng tng hp tin  
tc. Để có mt hthng tng hp tin tc tt hai điu phi quan tâm đầu tiên đó là xây  
dng mt crawler tt, và tiếp theo là xây dng cây phân lp đạt hiu qucao. Chính vì thế  
khóa lun đã tiến hành tham kho, đánh giá và la chn phương pháp phân lp hiu quả  
để áp dng cho hthng. Phương pháp entropy cc đại (Maximum Entropy) là phù hp  
hơn c[3],[16]. Trong các phương pháp phân lp văn bn ni tiếng nht được biết đến  
như Naïve Bayes, SVM và entropy cc đại, Naïve Bayes là phương pháp lâu đời nht và  
vi độ chính xác không cao nhưng li có tc độ phân lp là nhanh hơn entropy cc đại và  
SVM, ngược li thì SVM li là thut toán hin đại và được biết đến là phương pháp phân  
lp văn bn có độ chính xác là cao nht hin nay nhưng tc độ phân lp thì chm hơn so  
vi Naïve Bayes và entropy cc đại. Đối vi yếu tphân lp ca mt hthng tng hp  
tin tc thì cn phi cân bng được chai yêu tcht lượng phân lp tc độ. Vy khóa  
lun đi đến kết lun ssdng phương pháp entropy cc đại cho vic phân lp văn bn  
do entropy cc đại có thi gian thc thi không thua nhiu Naïve Bayes nhưng hiu quthì  
cũng rt tt, không thua kém nhiu so vi SVM [15],[16].  
Khóa lun cũng trình bày phương pháp đánh giá hiu quca cây phân lp da vào  
các độ đo là độ chính xác (P), độ hi tưởng (R) độ đo (F1).  
2.1. Xây dng crawler  
2.1.1. Khái nim crawler  
Kích thước quá ln và bn cht thay đổi không ngng ca Web đặt ra mt nhu cu  
mang tính nguyên tc là, cn phi cp nht không ngng tài nguyên cho các hthng trích  
chn thông tin trên Web. Thành phn crawler đáp ng được nhu cu này bng cách đi  
theo các siêu liên kết trên các trang Web để ti vmt cách tự động ni dung các trang  
Web. Web crawler khai thác sơ đồ cu trúc ca Web để duyt không gian Web bng cách  
chuyn ttrang Web này sang trang Web khác.  
8
start  
Initialize frontier with  
seed URLs  
[done]  
end  
Check for termination  
[not done]  
Pitch URL  
[no URL]  
from frontier  
[URL]  
Fetch page  
Parse page  
Add URLs  
to frontier  
Hình 3. Sơ đồ cơ bn ca mt crawler đơn lung [12]  
Hình vbiu din sơ đồ khi mt crawler đơn lung. Chương trình crawler yêu cu  
mt danh sách các URL chưa được thăm (frontier). Ban đầu frontier cha các URL ht  
nhân do người dùng hoc chương trình khác cung cp. Mi vòng lp crawling bao gm:  
ly ra các URL tiếp theo cn được ti vtfrontier, np trang Web tương ng vi URL  
đó bng giao thc HTTP, chuyn ni dung trang Web va được ti vcho phc vkho  
cha trang Web. Quá trình crawling được kết theo theo hai tình hung:  
- Đạt được điu kin dng cho trước, chng hn như slượng các trang Web được  
ti về đã đáp ng được yêu cu đặt ra.  
- Danh sách các URL ti frontier rng, không còn trang Web yêu cu crawler phi  
ti v. Lưu ý rng, điu kin frontier rng được tính vi mt độ trnào đó, bi có  
9
mt strường hp, bộ điu khin crawling chưa chuyn kp các dánh sách URL  
sti thăm.  
Hot động ca thành phn crawler có thể được xem như mt bài toán duyt đồ th.  
Toàn bthế gii được Web xem như mt đồ thln vi các đỉnh là các trang Web và các  
cung là các siêu liên kết. Quá trình ti mt trang Web và đi ti mt trang Web mi tương  
tnhư quá trình mrng mt đỉnh trong bài toán tìm kiếm trên đồ th[2].  
2.1.2. Xây dng crawler  
Đối vi mt trang Web X, mun tng hp được nhng tin tc mi nht ca nó,  
trước tiên cn gieo cho frontier mt ht ging là URL trang Home (hoc trang Portal) ca  
Web X đó.  
Ví dụ đối vi vnexpress.net thì trang Home có URL là:  
Dùng giao thc HTTP để ti vmã html - gi là Y - ca URL ht ging. Mã html Y  
cha rt nhiu các URL, trong đó chmt bphn nhURL là siêu liên kết đến các  
detail-page ca mt tin bài cthlà có giá tr, còn phn ln các URL có trong Y đều là  
liên kết không liên quan, chyếu là các liên kết qung cáo...  
Nếu đưa tt ccác siêu liên kết này vào frontier thì slà không ti ưu, do frontier  
phi duyt qua các URL không cha ni dung thông tin, như vy sẽ ảnh hưởng đến tc độ  
cp nht tin mi ca hthng, có thgp phi trường hp như tin247.com trên. Để ly  
được các URL cha ni dung thông tin cn thiết (phù hp), khóa lun đưa ra mt tp mu  
cho phép nhn dng thHTML cha siêu liên kết ti detail-page.  
Ví dụ đối vi báo vnexpress.net, tmã html ca trang Home có thddàng nhn  
biết được các tin có ni dung thông tin được cha trong các thHTML vi tên class như  
là link-topnews, folder-topnews, other-foldernews, link-othernews hay link-title. Tp dữ  
liu đặc trưng này giúp ddàng nhn din và ly ra các siêu liên kết cha ni dung thông  
tin đưa vào frontier.  
Để ly được các tin mi mt cách nhanh nht, crawler dng quá trình thêm vào URL  
vào frontier sau chmt ln duyt frontier ht ging. Sau khi toàn bURL thuc frontier  
được xlý hết, crawler được tm dng (delay) trong mt khong thi gian xác định trước  
khi lp li quá trình.  
10  
Vic xây dng crawler cũng chính là xây dng lut ly URL ttp các đặc trưng.  
2.2. Xây dng btrích chn thông tin  
2.2.1. Trích chn thông tin trên tài liu Web  
Web là dliu đin hình trong dliu bán cu trúc. Trích xut thông tin Web đó là  
vn đề trích xut các thành phn thông tin mc tiêu tnhng trang Web. Mt chương  
trình hay mt lut trích xut thường được gi là mt wrapper [4].  
Bài toán trích xut thông tin cho dliu bán cu trúc là rt hu dng bi vì nó cho  
phép thu thp và tích hp dliu tnhiu ngun để cung cp cho nhng dch vgiá trị  
gia tăng như : thu được nhng thông tin Web mt cách tùy ý, meta-search, hay các hệ  
thng tng hp tin tc. Ngày càng nhiu các công ty, các tchc phcp các thông tin ở  
trên Web, thì khnăng trích xut dliu tcác trang Web đó ngày càng trnên quan  
trng.  
Bài toán này đã được bt đầu nghiên cu vào gia nhng năm ca thp niên 1990  
bi nhiu công ty và các nhà nghiên cu [4].  
Thông tin bán cu trúc trên Web rt đa dng và phthuc vào cách lưu trvà trình  
bày ca tng webstie cthể  
Trích trng trông tin, dliu tnhng tài liu Web bán cu trúc là mt vn đề rt  
quan trng trong trích chn dliu nói chung. Các Website thường được trình bày theo  
nhiu cách rt đa dng, sdng nhiu định dng vbng biu, màu sc, font ch, hình  
nh,... nhm to ra sbt mt, thoi mái cho bn đọc.  
Đặc đim ca các thông tin, dliu tn ti dng bán cu trúc là ngoài nhng từ  
khóa (ngôn ngtnhiên) thì còn nhng cliu (evidence) khác như bng biu, danh  
sách, kích thước font ch, màu sc, định dng, các thHTML... giúp quá trình trích chn  
ddàng khthi hơn. Các phương pháp trích chn thông tin dng bán cu trúc cũng  
thường phi tn dng được hết các căn cnày.  
2.2.2. Xây dng btrích chn tài liu Web  
Đối vi mt trang tng hp tin tc, vic trích chn tài liu cn phi ly ra được các  
phn ni dung sau:  
- Phn bt đầu và kết thúc bài báo từ đó trích rút ra các ni dung kế tiếp.  
11  
- Tiêu đề bài báo  
- Tóm tt  
- nh minh ha  
- Phn thân bài báo  
Tương tvi vic trích rút ra các URL để đưa vào frontier như phn crawler (2.1.2).  
Xy dng btrích chn tài liu cũng là vic to ra mt tp gm các đặc trưng, cho phép  
nhn biết để trích rút được các ni dung cn thiết như trình bày trên. Chính tp các đặc  
trưng này, kết hp vi URL ht ging và tp các đặc trưng nhn biết URL cha ni dung  
thông tin (được trình bày trong phn 2.1.2) to nên mt tp dliu đầu vào, cho phép  
crawling, trích chn ra ni dung thông tin ca mt trang Web bt kì.  
2.3. Xây dng bphân lp  
2.3.1. Khái nim phân lp văn bn  
Phân lp là mt trong nhng mi quan tm nhiu nht ca con người trong quá trình  
làm vic vi mt tp hp đối tượng. Điu này giúp con người có thtiến hành vic sp  
xếp, tìm kiếm các đối tượng, mt cách thun li. Khi biu din đối tượng vào hthng  
thông tin, tính cht lp vn có ca đối tượng trong thc tế thường được biu din bng  
mt thuc tính “lp” riêng bit. Chng hn, trong hthng thông tin qun lý tư liu thuc  
thư vin, thuc tính vloi tư liu có min giá trlà tp tên chuyên nghành ca tư liu,  
gm các giá trnhư “Tin hc”, “Vt lý”,... Trước đây các công vic gán các giá trca  
thuc tính lp thường được làm mt cách thcông. Nhưng hiên nay, vi sbùng nca  
thông tin và các loi dliu, vic đánh thuc tính lp mt cách thcông là rt khó khăn,  
có thnói là không th. Do vy, cácphương pháp phân lp tự động, trong đó có phân lp  
văn bn là rt cn thiết và là mt trong nhng chủ đề chính ca khai phá dliu.  
Phân lp văn bn được các nhà nghiên cu định nghĩa thng nht như là vic gán  
tên các chủ đề (tên lp/nhãn lp) đã được xác định cho trước vào các văn bn da trên ni  
dung ca nó. Phân lp văn bn là công vic được sdng để htrtrong quá trình tìm  
kiếm thông tin (Information Retrieval), chiết lc thông tin (Information Extraction), lc  
văn bn hoc tự động dn đường cho các văn bn ti nhng chủ đề xác định trước.  
12  
Dliu văn  
bn  
Biu din ban đầu  
Biu din ban  
Tri thc  
Làm gim schiu  
hoc  
ngoài  
la chn thuc tính  
Hc  
Các công cụ  
phân lp  
Biu din cui  
quy np  
(1)  
Hình 4. Lược đồ chung xây dng bphân lp văn bn  
Hình 4 biu din mt lược đồ chung cho hthng phân lp văn bn, trong đó bao  
gm ba thành phn chính: thành phn đầu tiên là biu din văn bn, tc là chuyn các dữ  
liu văn bn thành mt dng có cu trúc nào đó. Thành phn thhai là hc quy np – sử  
dng các kthut hc máy để phân lp văn bn va biu din. Thành phn thba là tri  
thc ngoài – bsung các kiến thc thêm vào do người dung cung cp để làm tăng độ  
chính xác trong biu din văn bn hay trong quá trình hc máy. Trong nhiu trường hp,  
các phương pháp hc hthng phân lp có thbqua thành phn thba này.  
Thành phn thhai được coi là trung tâm ca mt hthng phân lp văn bn. Trong  
thành phn này, có nhiu phương pháp hc máy được áp dng như mô hình hc Bayes,  
cây quyết định, phương pháp k láng ging gn nht, SVM, entropy cc đại (maximum  
entropy),... là phù hp [2].  
13  
2.3.2. Áp dng thut toán phân lp entropy cc đại xây dng bphân  
lp văn bn  
Rt nhiu bài toán trong lĩnh vc xlý ngôn ngtnhiên (NLP) có thể được xem  
xét dưới dng các bài toán phân lp vi vic ước lượng xác sut có điu kin p a,b ca  
(
)
“lp” a (class) xut hin trong “ngcnh” b (context) hay nói cách khác là ước lượng xác  
sut xut hin ca a vi điu kin b. Ngcnh thường bao gm các tvà vic chn ngữ  
cnh phthuc theo tng bài toán cth. Ngcnh b có thlà mt từ đơn l, cũng có thể  
cha mt stxung quanh hoc các tcùng vi các nhãn cú pháp tương ng. Mt lượng  
văn bn ln scung cp rt nhiu thông tin vsxut hin đồng thi ca các lp a và ngữ  
cnh b, nhưng lượng văn bn đó chc chn skhông đủ để chra mt cách chính xác xác  
sut p a,b ca mi cp a,b vì các ttrong b thường nm ri rác. Do đó cn phi tìm  
(
)
(
)
mt phương pháp ước lượng (có thtin tưởng được) mô hình xác sut có điu kin  
p a,b sdng các cliu vsxut hin đồng thi ca lp a và ngcnh b. Mô hình  
(
)
xác sut entropy cc đại cung cp mt cách đơn gin để kết hp các cliu ngcnh  
khác nhau để ước lượng xác sut ca mt slp ngôn ngxut hin cùng vi mt sngữ  
cnh ngôn ng.  
2.3.2.1. Biu din các đặc trưng  
Theo [1],[7] các đặc trưng (feature) được biu din bng các mnh đề biu din  
thông tin ngcnh (context predicate). Nếu A là tp các lp thc hin phân lp và B là  
tp các ngcnh mà quan sát được, thì mnh đề biu din thông tin ngcnh là mt hàm  
được mô tnhư sau:  
cp : B {true, false}  
Hàm này trvgiá trtrue hoc false, phthuc vào sxut hin hoc không xut  
b
B
hin ca các thông tin hu ích trong mt sngcnh  
. Tp các mnh đề biu din  
thông tin ngcnh được sdng rt nhiu trong các bài toán tuy nhiên vi mi bài toán  
thì người thc nghim phi cung cp mt tp thông tin ngcnh riêng. Các mnh đề biu  
din thông tin ngcnh được sdng trong các đặc trưng – đó là mt hàm có dng như  
sau:  
f : A× B {0,1}  
14  
được mô tdưới dng:  
1  
if a = a' and cp b = true  
( )  
fcp,a' a,b =  
(
)
0
other  
Hàm này kim tra sxut hin đồng thi ca lp dự đoán a' vi mnh đề biu din  
thông tin ngcnh cp. Ví dnếu trong bài toán xut hin:  
- a' là lp “THETHAO”, b văn bn hin ti.  
- cp = [ văn bn hin ti cha cm t“bóng_đá” ].  
thì hàm đặc đim này strvgiá tr1 nếu như lp dự đoán a là “THETHAO”.  
2.3.2.2. Cách tiếp cn theo ngliu  
Cho rng tn ti mt tp dliu hun luyn T ={(a1,b ),...,(aN ,bN )} trong đó mt tp  
1
hp ln các ngcnh {b ,,bN } được gn nhãn tương ng trong tp hp các lp  
1
{a1,,aN }, sau đó tiến hành hc cho mô hình phân lp entropy cc đại trên tp dliu  
hun luyn đó. Ý tưởng tp dliu hun luyn bao gm các cp, mi cp là mt véc-tơ  
giá trlogic cùng vi mt lp tương ng rt phbiến và được sdng vi rt nhiu các  
thut toán được mô ttrong các tài liu vhc máy.  
Hc vi ước lượng likelihood cc đại trên mô hình mũ  
Để kết hp các cliu ta có thể đánh trng scho các đặc trưng bng cách sdng  
mt mô hình log-linear hay mô hình mũ:  
k
1
a,b  
λif ) (1)  
(
i
p a,b =  
(
)
Z b  
( )  
i=1  
k
a,b  
λ f  
(
)
i
Z b =  
( )  
∏  
i
a
i=1  
trong đó k là slượng các đặc trưng và Z b là biu thc chun hóa để đảm bo  
( )  
điu kin  
p
(
a
|
b
)
=
1
. Mi tham sλi tương ng vi mt đặc đim fi và có thể được  
a
hiu là “trng s” ca đặc đim tương ng (λi > 0). Khi đó xác sut p a,b là kết quả  
(
)
được chun hoá ca các đặc trưng có ý nghĩa vi cp a,b , tc là vi các đặc đim fi mà  
(
)
15  
fi (a,b) =1. Các trng số  
{λ  
1,,λk ca phân phi xác sut p* là phân phi xác sut phù  
}
hp nht vi tp dliu hun luyn có thxác định thông qua mt kĩ thut phbiến ca  
ước lượng likelihood cc đại:  
k
1
Q ={p | p(a | b) =  
λ f (a,b)  
}
i
i
Z(b)  
i=1  
L(p) =  
p(a,b)log p(a,b)  
a,b  
p*  
=
arg max L(q)  
q
Q
trong đó  
Q
là tp hp các mô hình ca dng log-linear, p(a | b) là xác sut thc  
là log-likelihood có điu kin ca tp dliu hun luyn T (được  
nghim trên tp T,  
L
(
p)  
chun hoá bi slượng skin hun luyn) và p* là phân phi xác sut ti ưu phthuc  
theo tiêu chun likelihood cc đại.  
Hc dưới mô hình entropy cc đại  
Trong khi có rt nhiu cách để kết hp các cliu dưới dng nào đó ca mt mô  
hình phân phi xác sut, dng (1) có tính tích cc riêng dưới hình mu entropy cc đại.  
Nguyên lý entropy cc đại trong [17] chra rng mô hình xác sut tt nht cho dliu là  
mô hình làm cc đại giá trentropy trong scác mô hình phân phi xác sut thomãn các  
cliu.  
2.3.2.3. Mô hình entropy c  
c  
đại có  
điu kin  
Trong hình mu được dùng để gii quyết bài toán đặt ra, có k đặc trưng và khi cho  
trước mt lp cùng vi mt ngcnh b B thì công vic là phi tìm mt ước lượng  
cho xác sut có điu kin p a,b . Trong các hình mu entropy cc đại có điu kin được  
a
A
(
)
sdng trong các nghiên cu [5],[8],[11],[13],[16],[18], li gii ti ưu p* là phân phi  
“không chc chn nht” (entropy đạt cc đại) thomãn k ràng buc trên các kì vng ca  
các đặc đim:  
p* = arg max H(p)  
p
P
H( p) =  
p(a,b)log p(a,b)  
a,b  
16  
P ={p | Ep fi = Ep fi ,i ={1...k}}  
E f =  
p(a,b) f (a,b)  
i
i
p
a,b  
E f =  
p(b)p(a,b) f (a,b)  
p
i
i
a,b  
Ở đây H p kí hiu cho entropy có điu kin được tính trung bình trên tp hun  
( )  
luyn, khác vi entropy kết hp, và xác sut biên ca b sdng ở đây là xác sut thc  
nghim  
sdng  
p ca fi  
, khác vi xác sut mô hình p b  
.
Ep fi là kì vng ca mô hình p ca fi , nó  
p(b)  
( )  
làm mt xác sut biên. Tương tnhư vy Ep fi là kì vng thc nghim ca  
trong mt smu hun  
p(b)  
.
p(a,b) kí hiu cho xác sut thc nghim ca  
a,b  
(
)
luyn nht định. Và cui cùng P kí hiu cho tp các mô hình xác sut thomãn các cứ  
liu quan sát được.  
2.3.2.4.  
Mố  
i quan h  
v
i likelihood c  
c
đại  
Thông thường hình mu likelihood cc đại và entropy cc đại là hai cách tiếp cn  
khác nhau trong mô hình hoá thng kê, nhưng chúng có cùng câu trli trong trường hp  
này. Có ththy rng vic ước lượng tham sca likelihood cc đại cho mô hình ca  
dng (1) tương đương vi vic ước lượng tham sca entropy cc đại trên tp các mô  
hình thomãn. Điu đó có nghĩa là:  
p* = arg max L(q) = argmax H(p)  
q
Q
p
P
Điu này được mô ttrong [3] sdng lý thuyết tha snhân lagrange và trong [11]  
vi các đối slý thuyết thông tin (đối vi trường hp p* là mt mô hình kết hp). Dưới  
tiêu chun likelihood cc đại, p* sphù hp vi dliu mc gn nht có th, trong khi  
đó dưới tiêu chun entropy cc đại, p* skhông giả định bt kì điu gì vượt quá nhng  
trông tin trong các ràng buc tuyến tính định nghĩa ra P. Trong [18] trình bày các chng  
minh cho thy rng điu kin p* = arg max L(q) là tương đương vi điu kin  
q
Q
p* = arg max H(p). Điu này rt quan trng để thy rng dng (1) không phi là đưa ra  
p
P
17  
mt cách không có căn c, li gii cho entropy cc đại p* = arg max H(p) phi có dng  
p
P
này. Stương đương này đã cung cp mt phương pháp mi cho phép ước lượng tham số  
cho các mô hình da trên nguyên lý entropy cc đại bng cách sdng các phép ước  
lượng tham scho likelihood cc đại.  
2.3.2.5. Các thut toán ước lượng tham số  
Cho tp hun luyn T ={(a1,b ),...,(aN ,bN )}  
.
1
Phân phi mũ:  
k
1
a,b  
λif  
(
)
i
p a | b =  
(
)
Z b  
( )  
i=1  
k
a,b  
trong đó  
λ
={  
λ
1...λk  
}
là tp trng s, Z b =  
( )  
λ f  
là tha schun hoá. Hun  
λ1...λk để cho phân  
(
)
i
∏  
i
a
i=1  
luyn mô hình entropy cc đại chính là ước lượng tp trng số  
phi trên đạt entropy cao nht.  
λ
=
{
}
Các thut toán phbiến được sdng bao gm: Thut toán GIS – Generalized  
Iterative Scaling được đưa ra trong [8]; Thut toán IIS – Improved Iterative Scaling –  
được đưa ra trong [11] là thut toán ước lượng tham sca mô hình mũ do các thành viên  
trong nhóm nghiên cu ti IBM’s T. J. Watson Research Center đưa ra vào nhng năm  
đầu ca thp k90; Thut toán L-BFGS – Limited memory BFGS – là phương pháp gii  
hn bnhcho phương pháp quasi-Newton.  
2.3.3. Phương pháp đánh giá hiu sut phân lp  
Vic đánh giá độ phân lp da trên vic áp dng mô hình đối vi các dliu thuc  
tp dliu kim tra Dtest , sdng mô hình cho tng trường hp dliu Dtest mà kết quả  
ra là lp c dbáo cho tng dliu. Hai độ đo được dùng phbiến để đánh giá cht lượng  
ca thut toán phân lp là độ hi tưởng (recall) R và đọ chính xác (precision) P. Ngoài ra,  
mt số độ đo kết hp được xây dng tcác độ đo này cũng được sdng, trong đó đin  
hình nht là độ đo F1. Phn dưới đây trình bày các tính toán chi tiết giá trca các độ đo  
hi tưởng và độ chính xác trong bài toán phân lp văn bn.  
18  
Xét trường hp lc lượng ca tp C các lp trong bài toán ln hơn hai (|C| > 2) vi  
lưu ý rng, trường hp tp C chgm có hai lp là đơn gin. Đối vi lp c, cho thc hin  
mô hình phân lp va được xác định vi các dliu thuc Dtest nhn được các đại lượng  
TP  
,
TNc  
,
FP  
,
FNc như bng dưới đây:  
Bng 1. Các nhóm tài liu sau phân lp  
Giá trthc tế  
c
c
Lp c  
Thuc lp c  
TP  
Không thuc lp c  
TNc  
Thuc lp c  
Không thuc lp c  
c
Giá trqua bộ  
phân lp  
FP  
FNc  
c
Din gii bng li cho tng giá trtrong bng:  
-
-
-
-
TP (true positives): slượng ví ddương (tài liu thc sthuc lp c) được  
c
thut toán phân lp gán cho giá trị đúng thuc lp c.  
TNc (true negatives): slượng ví dâm (tài liu thc skhông thuc c) nhưng li  
được thut toán phân lp gán cho giá trị đúng thuc lp c.  
FP (false positives): slượng ví ddương được thut toán phân lp gán cho giá  
c
trsai là không thuc lp c.  
FNc (false negatives): slượng ví dâm được thut toán phân lp gán cho giá trị  
sai là không thuc lp c.  
Khi đó, vi mi lp c, giá trcác độ đo Rc và  
TP TP  
P
được tính như sau:  
c
c
c
Rc =  
P =  
c
TP + FP  
TP +TNc  
c
c
c
Vi bài toán phân lp nhphân, các độ đo nói trên cho mt lp trong hai lp là đủ để  
đánh giá cht lượng bphân lp, tuy nhiên, trong trường hp bài toán phân lp K lp, các  
19  
độ đo trung bình được sdng bao gm trung bình mn (microaveraging) và trung bình  
thô (macroaveaging).  
Độ hi tưởng trung bình thô (macroaveraging recall):  
K
1
RM =  
R
c
K
c=1  
độ chính xác trung bình thô (macroaveaging precision):  
K
1
PM =  
P
c
K
c=1  
Độ hi tưởng trung bình mn (microaveraging recall):  
K
TP  
c
PM =  
c=1  
K
(TP + FP )  
c
c
c=1  
độ chính xác trung bình mn (microaveraging precision):  
K
TP  
c
PM =  
c=1  
K
(TP +TN )  
c
c
c=1  
Các độ đo trung bình mn được coi là các độ đo tt hơn để đánh giá cht lượng thut  
toán phân lp đa lp tài liu [2].  
20  
Chương 3. Xây dng hthng tng hp và phân loi tin  
tự động  
Vic xây dng hthng tng hp và phân loi tin tự động là vn đề quan trng nht  
ca khóa lun. chương này, khóa lun strình bày các bước xây dng mô hình hệ  
thng trên cơ slý thuyết được trình bày trong chương 2.  
3.1. Cơ sthc tin  
Hin nay, các trang Web đều được xây dng bi các ngôn nglp trình Web như  
PHP, ASP.NET,... Nó cho phép sinh ra siêu văn bn mt cách tự động. Khi mt tin tc  
được đăng ti trên mt báo đin t, thì nó tuân theo định dng HTML nht định được sinh  
ra tự động. Điu này có nghĩa là, khi biết mu để trích xut mt tin trong mt khuôn mu,  
thì cũng có thtrích xut được tin trang có cùng khuôn mu đó.  
Ví d: trang tin vnexpress.net, hai bài báo hình 5a và 5b là hai tin bài trong hai  
mc báo khác nhau  
Hình 5a. Mô tphn ni dung cn ly trên trang tin 1  
21  

Tải về để xem bản đầy đủ

pdf 59 trang yennguyen 04/05/2025 110
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_tu_dong_tong_hop_va_phan_loai_tin_trong_he_thong_t.pdf