Khóa luận Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Vũ Tiến Thành  
BÀI TOÁN TRÍCH XUT THÔNG TIN CHO DLIU  
BÁN CU TRÚC VÀ ÁP DNG XÂY DNG HTHNG  
TÌM KIM GIÁ CSN PHM  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Vũ Tiến Thành  
BÀI TOÁN TRÍCH XUT THÔNG TIN CHO DLIU  
BÁN CU TRÚC VÀ ÁP DNG XÂY DNG HTHNG  
TÌM KIM GIÁ CSN PHM  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: Th.S. Trn ThOanh  
Cán bộ đồng hướng dn: CN. Trn Mai Vũ  
HÀ NI – 2009  
Li cm ơn  
Li đầu tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến  
sĩ Hà Quang Thy, Thc sTrn ThOanh, Cnhân Trn Mai Vũ đã tn tình hướng dn  
tôi trong sut quá trình thc hin khoá lun tt nghip.  
Tôi chân thành cm ơn các thy, cô đã to cho tôi nhng điu kin thun li để tôi  
hc tp và nghiên cu ti trường Đại Hc Công Ngh.  
Tôi cũng xin gi li cm ơn ti các anh chvà các bn sinh viên trong nhóm “Khai  
phá dliu” đã giúp tôi rt nhiu trong vic thu thp và xlý dliu.  
Tôi xin gi li cm ơn ti các bn trong lp K50CA và K50CHTTT đã ng hộ  
khuyến khích tôi trong sut quá trình hc tp ti trường.  
Cui cùng, tôi mun được gi li cm ơn vô hn ti gia đình và bn bè, nhng  
người thân yêu luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt  
nghip.  
Tôi xin chân thành cm ơn !  
Sinh viên  
Vũ Tiến Thành  
Tóm tt ni dung  
Trích xut thông tin tdliu bán cu trúc là mt bài toán được squan tâm ti  
nhiu hi nghln trên thế gii [9],[10],[12],[13]. Bài toán này là mt thành phn không  
ththiếu trong các ng dng vthu thp và trích xut thông tin hin nay. Mt trong  
nhng ng dng đó là trích xut thông tin ca sn phm tcác trang thương mi đin tử  
để xây dng hthng tìm kiếm giá c, nhm cung cp thông tin tt nht đến người tiêu  
dùng.  
Khóa lun này tp trung nghiên cu bài toán trích xut thông tin tdliu web và  
áp dng để xây dng hthng tìm kiếm giá csn phm. Khóa lun xác định mt tp lut  
để gii quyết bài toán trích xut giá khi cho biết tên sn phm, và trên cơ sở đó, bài toán  
tự động trích xut thông tin vtên và giá ca sn phm được gii quyết. Khóa lun đưa ra  
các bước xây dng hthng tìm kiếm giá cho sn phm trên các trang web tiếng Vit,  
tiến hành các thc nghim trên hthng và đánh giá kết qu. Kết quthc nghim cho  
thy các thông tin được trích xut ththng là có độ tin cy.  
i
Mc lc  
Tóm tt ni dung .................................................................................................................i  
Mc lc ................................................................................................................................ii  
Bng các kí hiu và chviết tt.........................................................................................v  
Danh sách các hình............................................................................................................vi  
Danh sách bng biu ...................................................................................................... viii  
Gii thiu.............................................................................................................................1  
Chương 1. Khái quát bài toán trích xut thông tin cho dliu bán cu trúc ..............3  
1.1 Bài toán trích xut thông tin .......................................................................................3  
1.1.1 Gii thiu bài toán................................................................................................3  
1.1.2 Dliu ca bài toán .............................................................................................3  
1.1.3 Các hướng tiếp cn trong bài toán trích xut thông tin........................................4  
1.2 Bài toán trích xut thông tin cho dliu bán cu trúc................................................6  
1.2.1 Vn đề đặt ra vi bài toán ....................................................................................6  
1.2.2 Mt sphương pháp trích xut thông tin cho dliu bán cu trúc .....................6  
1.2.3 Phương pháp đánh giá..........................................................................................7  
1.2.4 ng dng ca bài toán trích xut thông tin cho dliu bán cu trúc..................8  
Chương 2. Mt sphương pháp sdng trong bài toán trích xut thông tin cho dữ  
liu bán cu trúc ...............................................................................................................10  
2.1 Trích xut thông tin da vào cây DOM....................................................................10  
2.1.1 Khái nhim cây DOM........................................................................................10  
2.1.2 Xây dng cây DOM...........................................................................................10  
2.1.3 Sdng cây DOM để trích xut thông tin.........................................................12  
2.2 Trích xut thông tin da theo các mu biu thc chính qui .....................................13  
ii  
2.2.1 Khái nim biu thc chính qui...........................................................................13  
2.2.2 Sdng biu thc chính qui để trích xut thông tin..........................................14  
2.3 Mt sgii thut trích xut thông tin cho dliu bán cu trúc................................14  
2.3.1 Hai kiu biu din ca các trang giàu dliu....................................................14  
2.3.2 Mt sgii thut đin hình ................................................................................15  
Chương 3. Áp dng bài toán trích xut thông tin bán cu trúc để xây dng hthng  
tìm kiếm giá csn phm ................................................................................................21  
3.1 Khái quát hthng tìm kiếm giá cca sn phm ...................................................21  
3.1.1 Khái nim...........................................................................................................21  
3.1.2 Các phương pháp xây dng ...............................................................................21  
3.1.3 Các hthng hin ti..........................................................................................22  
3.2 Cơ sthc tin..........................................................................................................23  
3.3 Cơ skhoa hc .........................................................................................................25  
3.3.1 Phân loi trang kinh doanh.................................................................................26  
3.3.2 Bài toán trích xut thông tin giá cca mt sn phm xác định. ......................27  
3.3.3 Bài toán tự động trích xut thông tin vtên và giá ca sn phm trong các trang  
kinh doanh sn phm...................................................................................................33  
3.4 Các bước xây dng hthng ....................................................................................37  
3.4.1 Mô hình hthng ...............................................................................................37  
3.4.2 Khnăng mrng ca hthng ........................................................................40  
Chương 4. Thc nghim và đánh giá kết qu................................................................41  
4.1 Môi trường phn cng và phn mm........................................................................41  
4.1.1 Cu hình phn cng ...........................................................................................41  
4.1.2 Công cphn mm ............................................................................................41  
4.2 Kết quthc nghim.................................................................................................44  
iii  
4.2.1 Thc nghim trích xut giá ca mt sn phm cho trước..................................44  
4.2.2 Thc nghim xác định website kinh doanh .......................................................49  
4.2.3 Thc nghim thu thp và trích xut thông tin tmt website...........................52  
4.2.4 Thc nghim khnăng thu thp thông tin ca hthng....................................53  
Kết lun .............................................................................................................................55  
Tài liu tham kho............................................................................................................57  
iv  
Bng các kí hiu và chviết tt  
Kí hiu  
Din gii  
HyperText Markup Language  
Uniform Resource Locator  
HTML  
URL  
XPath  
DOM  
W3C  
XML Path  
Document Object Model  
World Wide Web Consortium  
v
Danh sách các hình  
Hình 1. Ví dvtính cu trúc ca trang web bán cu trúc ..................................................4  
Hình 2. Ví dvbài toán nhn dng thc th......................................................................5  
Hình 3. Ví dvtrích xut ni dung chính ca trang Web..................................................8  
Hình 4. Ví dvhthng tìm kiếm giá c...........................................................................9  
Hình 5. Ví dxây dng cây DOM sdng hp o............................................................12  
Hình 6. Dng biu din ca trang list page ........................................................................15  
Hình 7. Dng biu din ca trang detail page ....................................................................15  
Hình 8. Chuyn đổi tmã HTML sang cây EC.................................................................16  
Hình 9. Ví dgii thut RoadRunner [12] .........................................................................20  
Hình 10. Trang gii thiu sn phm HP CQ60-203TX......................................................24  
Hình 11. Trang gii thiu sn phm HP CQ60-101TX......................................................24  
Hình 12. Biu din cây DOM ca mã HTML hai trang vsn phm HP..........................25  
Hình 13. Ví dvtrang kinh doanh thông thường.............................................................26  
Hình 14. Ví dvtrang rao vt..........................................................................................27  
Hình 15. Ví dvtrích xut giá trong mt trang web........................................................27  
Hình 16. Ví dvsn phm cha nhng giá không đúng .................................................29  
Hình 17. Ví dvtrích xut giá thc ca trang sn phm.................................................29  
Hình 18. Tp lut trích xut giá sn phm..........................................................................32  
Hình 19. Lut trích xut nh sn phm...............................................................................33  
Hình 20. Lut trích xut thông tin bo hành sn phm ......................................................33  
Hình 21. Kết qugoogle trvvi truy vn "nokia 1200"................................................35  
Hình 22. Kết qutrvca google vi query "nokia 1200" + "vnđ OR usd"...................36  
Hình 23. Mô hình tng quan ca hthng.........................................................................38  
Hình 24. Module xác định các website kinh doanh sn phm và các mu trích xut........39  
vi  
Hình 25. Module Thu thp dliu và trích xut thông tin.................................................40  
Hình 26. Trích xut các URL liên quan .............................................................................45  
Hình 27. Trang Web có snhp nhng giá c...................................................................48  
Hình 28. Trang Web có giá crõ ràng ...............................................................................49  
vii  
Danh sách bng biu  
Bng 1. Cu hình phn cng sdng trong thc nghim..................................................41  
Bng 2.Các phn mm sdng trong thc nghim ...........................................................42  
Bng 3. Mô tchương trình thc thi để trích xut giá sn phm.......................................43  
Bng 4. Kết quthc nghim trích xut giá thc ca mt sn phm.................................47  
Bng 5. Kết quthc nghim xác định website kinh doanh sn phm..............................51  
Bng 6. Kết quthc nghim trích xut sn phm.............................................................53  
Bng 7. Kết quthc nghim khnăng thu thp thông tin ca hthng...........................54  
Bng 8. Mt ssn phm trích xut được..........................................................................54  
viii  
Gii thiu  
Nhưng năm gn đây, cùng vi sphát trin mnh mca htng cơ smng cũng  
như công nghlưu trInternet đã trthành mt thành phn không ththiếu trong đời  
sng con người. Hàng lot các ng dng da trên nn tng ca Internet đã ra đời để phc  
vcho nhu cu, li ích ca con người. Ni bt lên trong các ng dng đó chính là các ng  
dng liên quan đến thương mi đin t. Thương mi đin tra đời giúp con người gim  
thiu ti đa thi gian cũng như chi phí khi tham gia giao dch hàng hóa.Tuy nhiên cùng  
vi sphát trin ca thông tin trên Internet thì các thông tin liên quan đến thương mi  
đin tcũng bùng nkhông kém, hàng lot các trang web bán hàng trc tuyến cùng vi  
nó là hàng triu sn phm và các thông tin liên quan đến sn phm làm cho con người khó  
khăn trong vic tìm kiếm. Các câu hi: Sn phm nào tt ? Giá cca hàng nào tt hơn ?  
Tìm kiếm thông tin ca sn phm ở đâu ?... làm con người khó khăn khi la chn mt sn  
phm cn giao dch. Gii pháp cho vn đề này đó chính là cn có mt hthng tìm kiếm  
phc vcho nhu cu tìm kiếm này ca con người các hthng này thường được biết đến  
vi tên gi hthng tìm kiếm giá csn phm.  
Chính tnhu cu thc tế đấy, hthng tìm kiếm giá cả đã được squan tâm ca rt  
nhiu công ty ln như Yahoo, Google, Amazon…bên cnh đó nó cũng được squan tâm  
ca công động nghiên cu khoa hc. Nhiu bài báo liên quan đến các thành phn ca hệ  
thng cũng xut hin trên nhiu hi nghln ca thế gii như: WWW1,  
SIGMOD2,…[1],[3],[7] hay các sn phm mang tính thương mi như: PriceScan, Kelkoo,  
Yahoo!Shopping... Mc dù đã tn ti khá nhiu các hthng như vy nhưng bài toán này  
vn đặt ra rt nhiu các thách thc hin nay. Do các hthng có sn hu hết thu thp dữ  
liu đều thông qua vic cung cp ca các ca hàng hay nhp dliu thu công, công vic  
này tn nhiu chi phí và thi gian. Nhiu nghiên cu đã được đưa ra để gim thiu chi phí  
này, hu hết các nghiên cu đều tp trung vào vic áp dng các phương pháp trích xut tự  
động da vào dliu bán cu trúc để xây dng các thành phn thu thp tự động thông tin  
trên các trang web bán hàng trc tuyến.  
Trên cscác nghiên cu đã có, lun văn cũng đã da trên định hướng xây dng  
thành phn trích xut thông tin tự động da vào trích xut thông tin trên dliu bán cu  
1 The International World Wide Web Conferences  
2 ACM Special Interest Group on Management of Data . http://www.sigmod.org  
1
trúc để đề xut ra mt mô hình hthng tìm kiếm giá csn phm. Và qua mô hình đã đề  
xut khóa lun đã tiến hành các thc nghim để đánh giá các kết quả đạt được ca mô  
hình.  
Khóa lun gm 4 chương ni dung được mô tsơ bdưới đây:  
Chương 1. Khái quát bài toán trích xut thông tin cho dliu bán cu trúc  
khái quát bài toán trích chn thông tin nói chung, các cách tiếp cn gii quyết  
bài toán thông qua min dliu (có cu trúc, không cu trúc và bán cu trúc) và  
gii thiu bài toán trích chn thông tin cho dliu bán cu trúc , phương pháp  
đánh giá khnăng trích xut thông tin thông qua độ hi tưởng (R), độ tin cây  
(P) và các ng dng thc tin ca bài toán.  
Chương 2. Mt sphương pháp sdng trong bài toán trích xut thông tin  
cho dliu bán cu trúc gii thiu vcác sdng cây DOM và biu thc chính  
qui để trích xut thông tin. Chương này cũng đề cp đến hai gii thut trích  
xut tiêu biu đó là gii thut da trên hthng Stalker và gii thut  
RoadRunner.  
Chương 3. Áp dng trích xut thông tin bán cu trúc để xây dng hthng tìm  
kiếm giá csn phm nêu khái nim vhthng tìm kiếm giá c, gii thiu các  
hthng hin ti. Chương này cũng đề cp đến cơ sthc tin vcông nghệ  
web hin ti , tcơ sthc tin kết hp vi bài toán trích xut thông tin tdữ  
liu bán cu trúc để xây dng cơ slý thuyết để trích xut thông tin giá cca  
sn phm, đưa ra mô hình ca hthng và nêu được tính mca hthng đề  
xut.  
Chương 4. Thc nghim và đánh giá kết quđể đánh giá các bài toán nêu ở  
phn cơ slý thuyết ti chương 3 vtrích xut giá cca sn phm. Kết quả  
thc nghim cho thy được hiu quca phương pháp trích xut giá csn  
phm.  
Phn kết lun tóm lược ni dung chính ca khóa lun và nêu định hướng phát  
trin trong thi gian ti.  
2
Chương 1. Khái quát bài toán trích xut thông tin cho dữ  
liu bán cu trúc  
Chủ đề chính ca khóa lun là áp dng bài toán trích xut thông tin cho dliu bán  
cu trúc để xây dng hthng tìm kiếm giá c. Chương này sgii thiu bài toán trích  
xut thông tin nói chung và bài toán trích xut thông tin cho dliu bán cu trúc nói  
riêng, từ đó đưa ra mt số ứng dng ca bài toán trích xut thông tin cho dliu bán cu  
trúc, đồng thi cũng gii thiu vphương pháp đánh giá khnăng trích xut thông qua độ  
hi tưởng (R), độ tin cy (P).  
1.1 Bài toán trích xut thông tin  
1.1.1 Gii thiu bài toán  
Trích xut thông tin là bài toán nhn dng nhng thành phn thông tin cthca  
mt văn bn, nhng thành phn này chính là ht nhân to nên ni dung ngnghĩa ca văn  
bn đó [6].  
Ví d: Vi mt báo cáo thi tiết ta có thtrích xut được thông tin vcác vùng, thi  
gian, nhit độ. Vi mt trang web vkinh doanh sn phm trc tuyến ta có thtrích xut  
được thông tin vtên sn phm, thuc tính ca sn phm và giá ca sn phm đó.  
1.1.2 Dliu ca bài toán  
Dliu thông thường được chia thành 3 dng cơ bn [17]:  
Dliu không cu trúc: Dliu không cu trúc thường dùng để chdliu ở  
dng tdo và không cn có cu trúc định nghĩa sn ví dnhư: ngôn ngtự  
nhiên.  
Dliu có cu trúc: Dliu có cu trúc thường dùng để chdliu lưu trtrong  
các hqun trcơ sdliu quan hnhư MS SQL server hay MySQL, trong đó  
các thc thvà các thuc tính được định nghĩa sn .  
Dliu bán cu trúc: Là dliu có cu trúc nhưng không hoàn toàn tường minh,  
nó không tuân theo nhng cu trúc, cách thc cu trúc ca bng và các mô hình  
dliu trong cơ sdliu nhưng nó cha nhng th, nhng đánh du ti nhng  
3
phn tngnghĩa riêng bit ca các bn ghi và các trường riêng bit bên trong  
dliu .  
Các trang web thông thường là mt dng tiêu biu ca dliu bán cu trúc, nhng  
thành phn có cu trúc trong trang web đó là dliu được ly ttng cơ sdliu (có  
cu trúc) bên dưới và hin thtrên web thông qua các thHTML…  
Hình 1: Mô tdliu bán cu trúc vtrang sn phm, dliu này cha tên các sn  
phm, giá sn phm và các thông tin chi tiết vsn phm. Các thông tin ng vi tng sn  
phm được mô tdưới dng mã HTML đã định trước. Dliu này được ly ttng cơ sở  
dliu (có cu trúc) bên dưới và hin thtrên trang web thông qua các thHTML. Đây  
chính là thành phn có cu trúc ca trang web.  
Cu trúc HTML  
ging nhau  
Hình 1. Ví dvtính cu trúc ca trang web bán cu trúc  
1.1.3 Các hướng tiếp cn trong bài toán trích xut thông tin  
Các bài toán trích xut thông tin thông thường được tiếp cn theo dliu mà bài  
toán đó xlý. Vì vy có nhng dng bài toán như sau:  
4
Dliu có cu trúc  
Đối vi dliu có cu trúc, vic trích xut thông tin là khá đơn gin. Vì các thông  
tin đã được biu din theo nhng định dng chun ca bng, thc th.. nên có thly  
được nhng thông tin cn thiết mt các ddàng da vào nhng truy vn.  
Ví d: dliu có cu trúc được lưu trtrong hqun trcơ sdliu MS SQL,  
MySQL có thtrích xut được nhng thông tin cn thiết da vào các lnh SQL như  
SELECT, JOIN.  
Dliu không cu trúc  
Đối vi dliu không cu trúc thì có mt sbài toán vtrích xut thông tin như  
nhn dng và trích xut thc th: tên người, tên tchc… Hình 2 là mt ví dvbài toán  
nhn dng thc th.  
Hình 2. Ví dvbài toán nhn dng thc thể  
Để gii quyết bài toán trích xut thc ththì có nhiu cách tiếp cn như HMM,  
SVM hay CRF…ngoài ra còn mt gii thut khá ni tiếng đó là gii thut DIPRE - Dual  
5
Iterative Pattern Relation Expansion ca BRin [8] trong vic trích xut cp thc thquan  
htên sách và tác giđối vi trang amazon.com.  
Dliu bán cu trúc  
Web là dliu đin hình trong dliu bán cu trúc. Trích xut thông tin web đó là  
vn đề trích xut các thành phn thông tin mc tiêu tnhng trang Web. Mt chương  
trình hay mt lut trích xut thường được gi là mt wrapper [2].  
Phương pháp trích xut này có nhiu hướng tiếp cn như sdng cây DOM [15].  
Phương pháp này sphân tích mã ngun HTML dưới dng mt cây các node, mi node là  
mt thHTML, quá trình trích xut thông tin sda vào đường đi tgc đến node cha  
thông tin cn trích xut.  
1.2 Bài toán trích xut thông tin cho dliu bán cu trúc  
1.2.1 Vn đề đặt ra vi bài toán  
Bài toán trích xut thông tin cho dliu bán cu trúc là rt hu dng bi vì nó cho  
phép chúng ta thu được và tích hp dliu tnhiu ngun để cung cp cho nhng dch  
vgiá trgia tăng như : thu được nhng thông tin Web mt cách tùy ý, hthng tìm kiếm  
giá c, hay meta-search. Ngày càng nhiu các công ty, các tchc phcp các thông tin ở  
trên Web, thì khnăng trích xut dliu tcác trang Web đó ngày càng trnên quan  
trng.  
Bài toán này đã được bt đầu nghiên cu vào gia nhng năm ca thp niên 1990  
bi nhiu công ty và các nhà nghiên cu [2].  
1.2.2 Mt sphương pháp trích xut thông tin cho dliu bán cu trúc  
Như ta đã nói vmt shướng tiếp cn mc 1.1.3 đối vi dliu bán cu trúc thì  
bài toán trích xut có mt sphương pháp đin hình như:  
Phương pháp thcông  
Quan sát mt trang Web và mã ngun ca nó, người lp trình stìm mt vài mu và  
viết chương trình để trích xut các dliu mc tiêu. Để làm đơn gin hơn cho người lp  
trình, mt vài ngôn ngmiêu tmu và các giao din người dùng đã được xây dng. Tuy  
nhiên vi phương pháp này thì không thlàm vic vi mt slượng ln các trang [2].  
6
Wrapper qui np  
Đây là phương pháp bán tự động. Nó được đề xut vào khong năm 1995-1996.  
Trong phương pháp này thì mt tp hp các lut trích xut được hc tmt bcác trang  
đã được gán nhãn bng tay. Sau đó các lut này sẽ được dùng để trích xut các thành phn  
dliu tnhng trang có định dng tương t. Mt sgii thut tiêu biu như: Stalker [5],  
WIEN [13] (được sdng trong máy tìm kiếm lycos).  
Phương pháp tự động  
Được đề xut trong năm 1998, phương pháp này tự động tìm các mu hoc các cu  
trúc để trích xut thông tin tnhng trang cho trước. Vì phương pháp này không cn đến  
sgán nhãn bng tay nên nó có thtrích xut được dliu tmt lượng khng lcác  
trang; mt sgii thut tiêu biu như RoadRunner [12], bootstrapping [1].  
1.2.3 Phương pháp đánh giá  
Để đánh giá cht lượng phương pháp trích xut thông tin cho dliu bán cu trúc  
người ta thường sdng mt số độ đo như độ hi tưởng (R), độ tin cy (P).  
Gissau khi sdng bài toán trích xut cho mt tp dliu gm n tài liu. Kết quả  
trích xut được là m tài liu.Kết qutrích xut đúng là q tài liu khi đó độ hi tưởng R và  
độ chính xác P sẽ được tính theo công thc (1) và (2).  
q
R
P
=
=
x 100  
%
(1)  
n
q
x 100 % (2)  
m
Ví d:  
Nếu tp dliu cn trích xut là 100 (tài liu).  
Dliu trích xut được là: 97 (tài liu).  
Dliu trích xut đúng là: 90 (tài liu) .  
90  
R
=
x 100 % = 90 %  
100  
90  
97  
P
=
x 100 % = 92,78 %  
7
1.2.4 ng dng ca bài toán trích xut thông tin cho dliu bán cu trúc  
Nhn dng và trích xut ni dung chính ca trang Web  
Vi mt trang web ngoài nhng thành phn mang thông tin chính thì còn nhng  
thành phn ít có ý nghĩa vmt thông tin như qung cáo, các menu.... Vic nhn dng và  
trích xut ni dung chính ca trang web giúp gim thiu vic lưu trthông tin và ti ưu  
kết qutrvtrong các máy tìm kiếm vì máy tìm kiếm chphi lưu ni dung chính ca  
trang web và tìm kiếm trong ni dung chính này. Hình 3 dưới đây là ví dtrích xut ni  
dung chính ca trang web. Các gii thut được đề xut như ContentExtractor và  
FeatureExtractor ca Debnath [9],[10].  
Ni dung chính  
Hình 3. Ví dvtrích xut ni dung chính ca trang Web  
8
Hthng tìm kiếm giá csn phm  
Hthng cho phép người sdng so sánh được giá cca sn phm mà họ  
mun mua. Hthng này phi duyt qua các trang web kinh doanh sn phm để  
trích xut các thông tin hu dng vsn phm. Hình 4 dưới đây là ví dvmt hệ  
thng tìm kiếm giá csn phm.  
Hình 4. Ví dvhthng tìm kiếm giá cả  
9
Chương 2. Mt sphương pháp sdng trong bài toán trích  
xut thông tin cho dliu bán cu trúc  
Chương 2 sgii thiu hướng tiếp cn trích xut sdng cây DOM [15],[6] và biu  
thc chính qui [2]. Đồng thi chương cũng trình bày hai gii thut trong bài toán trích  
xut thông tin cho dliu bán cu trúc cũng như các ưu nhược đim ca nó. Đây cũng  
chính là nhng tin đề để xây dng phương pháp trích xut giá csn phm.  
2.1 Trích xut thông tin da vào cây DOM  
2.1.1 Khái nhim cây DOM  
Theo W3C thì DOM (Document Object Model) là mt giao din lp trình ng dng  
(API) cho các văn bn HTML hp lvà các văn bn XML có cu trúc cht ch. Nó định  
nghĩa cu trúc logic ca các văn bn và cách thc mt văn bn được truy cp và thao tác  
[15]. Ví dvmt bng (table) được ly văn bn HTML:  
<TABLE>  
<TBODY>  
Dng biu din cây DOM ca mã HTML  
<TR>  
<TD>Shady Grove</TD>  
<TD>Aeolian</TD>  
</TR>  
<TR>  
<TD>Over the River,  
Charlie</TD>  
<TD>Dorian</TD>  
</TR>  
</TBODY>  
</TABLE>  
2.1.2 Xây dng cây DOM  
Xây dng cây DOM tnhng trang Web đầu vào là mt bước cn thiết trang nhiu  
gii thut trích xut dliu [2]. Có hai phương pháp cơ bn để xây dng các cây DOM.  
10  
- Sdng các thriêng bit  
Hu hết các thHTML làm vic trong mt cp. Mi cp cha mt thm<> và mt  
thẻ đóng </>. Bên trong mi cp thcó thcó nhng cp thkhác, kết qulà cu trúc trở  
nên chng chéo. Xây dng mt cây DOM tmt trang Web bng cách sdng mã  
HTML ca nó là mt vn đề cn thiết. Trong mt cây DOM, mi cp thlà mt node,  
nhng cp thẻ ẩn bên trong là node con ca node hin ti. Có hai nhim vcn thi hành  
đó là:  
¾ Làm sch mã HTML: Mt vài thkhông cn thẻ đóng (như <li>, <hr>,<p>) mc  
dù chúng có thẻ đóng. Bi vy mt thẻ đóng nên được chèn vào để tt ccác thẻ  
được cân bng. Các thẻ được định dng không tt cũng cn thiết được sa cha.  
Mt thsai thường là mt thẻ đóng, đó là thct ngang các khi n bên trong. Ví  
d: <tr> <td> </tr> </td>, srt khó để sa li trường hp này nếu  
tn ti schng chéo đa cp.  
¾ Xây dng cây: Chúng ta có thể đi theo các khi con ca các thHTML để xây  
dng được cây DOM.  
- Sdng các thvà các hp o (visual cue)  
Thay vì phân tích mã HTML để sa li, có thsdng sbiu din hoc các thông  
tin o (ví dnhư: địa chtrên màn hình mà các thẻ được biu din) để suy lun mi quan  
hcó cu trúc ca các thvà có thxây dng được cây DOM. Phương thc xây dng có  
thphân tích mã HTML thành cây DOM, min là trình duyt có thhin thị được đon  
đó mt cách chính xác.  
Trong mt trình duyt web, mi phn tHTML (cha đựng mt thm, các thuc  
tính tùy chn, ni dung HTML được nhúng tùy ý và mt thẻ đóng, thnày có ththiếu)  
được biu din như mt hình chnht. Thông tin o này có thly được sau khi mã  
HTML được biu din trên trình duyt. Mt cây DOM sau đó có thể được xây dng da  
vào các thông tin o này. Các bước xlý như sau:  
¾ Tìm 4 đường biên ca hình chnht ng vi mi phn tHTML thông qua vic  
công ctrình din ca trình duyt, ví d: Internet Explorer.  
¾ Theo stun tca các thmvà skim tra xem mt hình chnht có nm  
trong mt hình chnht khác không, để xây dng cây DOM.  
11  
Hình 5 là mt ví dminh ha vsdng visual cue:  
Mt đon mã HTML có 3 li. sdng thông tin o có thddàng xây dng được  
cây DOM.  
Hình 5. Ví dxây dng cây DOM sdng hp o  
2.1.3 Sdng cây DOM để trích xut thông tin  
Để trích xut được thông tin cn thiết mt node ca cây DOM, chúng ta cn chrõ  
đường đi tgc ca cây đến node cn trích xut thông tin. Đường đi này gi là mt XPath  
[16]hay mu trích xut.  
Trích xut thông tin web da vào cây DOM trước tiên vic trích xut này được hỗ  
trbi xây dng cây DOM cho mã HTML ca trang.  
Các mu trích xut có thể được làm rõ như đường dn tgc ca cây DOM đến  
node cha ni dung cn trích xut.  
Ví d:  
Đây là cây DOM ca mt đon mã HTML cha thông tin vcun sách, gm tên  
cun sách (title) và tên tác gi(author). Bài toán đặt ra là sdng cây DOM này trích  
xut các thông tin vtên sách và tác giviết sách. Mu trích xut được xây dng sau:  
12  
Sample DOM Tree Extraction  
HTML  
Element  
HEADER  
BODY  
Character-Data  
B
FONT  
Age of Spiritual  
Machines  
A
Ray  
Kurzwei  
Mu trích xut tên sách: HTMLÆBODYÆBÆCharacterData  
Mu trích xut tên tác gi: HTMLÆ BODYÆFONTÆAÆ CharacterData  
2.2 Trích xut thông tin da theo các mu biu thc chính qui  
2.2.1 Khái nim biu thc chính qui  
Mt biu thc chính qui có thể được sdng để mô hình mã hóa HTML [2]. Cho  
mt tp các ký talphabe và mt token “#text” không thuc , mt biu thc chính qui  
trên là mt chui trên {#text, *,?,|,(,)} được định nghĩa như sau :  
Mt chui rng ε và tt ccác phn ttrong {#text} đều là mt biu thc chính  
qui.  
Nếu A và B là mt biu thc chính qui, thì AB, (A|B) và (A)? cũng là mt biu thc  
chính qui, trong đó (A|B) tc là A hoc B và (A)? thc là (A|ε).  
Nếu A là mt biu thc chính qui, thì (A)* cũng là biu thc chính qui, trong đo  
(A)*= {ε, A, AA, AAA,…}.  
Chúng ta cũng sdng (A)+ để chA(A)*. Nếu biu thc chính qui không có cha  
(A|B) thì nó gi là biu thc chính qui kết hp tdo. Mt biu thc chính qui thường  
dùng để thhin mt mu trích xut.  
13  
2.2.2 Sdng biu thc chính qui để trích xut thông tin  
Vi mt biu thc chính qui, mt otomat hu hn trng thái có thể được xây dng  
được sdng để so khp sxut hin ca nó trong chui tun tcác trang web. Trong  
quá trình này, dliu có thể được trích xut.  
Ví d: Vi mã HTML như sau:  
<head>  
<meta http-equiv="Content-Language" content="en-us">  
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">  
<title>Tinh Tong cua cac so tu 1->n</title>  
</head>  
Để ly được phn tiêu đề ca đon mã này thì ta có thxây dng biu thc chính qui  
như sau: <head>.*?<title>(#text)</title>  
2.3 Mt sgii thut trích xut thông tin cho dliu bán cu trúc  
2.3.1 Hai kiu biu din ca các trang giàu dliu  
Các trang giàu dliu được chia thành hai loi thông qua sbiu din ca chúng [2]  
- List Page: là trang cha đựng mt vài danh sách ca các đối tượng. Hình 6 gii  
thiu mt list page. Có hai dng trang list, đó là trang list btrí theo chiu ngang  
hoc chiu dc. Bên trong mi vùng, bn ghi dliu được định dng sdng cùng  
mt mu và mu sdng trong hai vùng khác nhau là khác nhau [2].  
- Detail Page: là trang chgii thiu mt đối tượng đơn. Ví dhình 7 là mt trang  
detail page gii thiu vsn phm . Nó cha đựng tt ccác thuc tính ca sn phm  
như: tên, nh, giá, thông skthut, thi gian bo hành [2] .  
14  
Hình 6. Dng biu din ca trang list page  
Hình 7. Dng biu din ca trang detail page  
2.3.2 Mt sgii thut đin hình  
Hin nay tư tưởng ca phương pháp trích xut thcông không còn được sdng .  
Vì vy khóa lun chgii thiu phương pháp trích xut thông tin tự động và bán tự động  
cho “bài toán trích xut thông tin cho dliu bán cu trúc”.  
Phương pháp Wrapper qui np: đây là phương pháp trích xut bán tự động  
15  
Gii thut được nêu ra dưới đây là gii thut da trên hthng Stalker.  
- Mt ví dvtrích xut theo gii thut da trên hthng Stalker.  
Mt trang Web có thể được nhìn dưới dng có thtca token S (ví dnhư: các t,  
các svà các thHTML). Vic trích xut sdng mt cu trúc cây gi là cây  
EC(embedded catalog tree), đây là công cụ để mô hình dliu nhúng trong mt trang  
HTML. Gc ca cây là văn bn cha tt ccác token tun tS ca trang, ni dung ca  
mi node con là mt chui con ca node cha. Để trích xut mt node, Wrapper sdng  
miêu tcây EC ca trang đó và tp hp các lut trích xut.  
Hình 8 bên dưới là ví dschuyn đổi mt đon mã HTML sang cây EC. Chú ý  
rng chúng ta sdng LIST ở đây bi vì tp hp các địa chluôn luôn có tht.  
Hình 8. Chuyn đổi tmã HTML sang cây EC  
Vi mi node trong cây, Wrapper nhn dng hoc trích xut ni dung ca node từ  
cha ca nó, node cha là node cha đựng chui token ca tt ccác node con. Mi trích  
xut được thc hin bi 2 lut, Start Rule và End Rule. Start Rule chra sbt đầu ca  
node và End Rule chra skết thúc ca node. Phương thc này có tháp dng cho cả  
node lá và các node danh sách (list node).  
16  
Các lut trích xut da trên ý tưởng ca mneo (landmark). Mi mneo là mt  
chui các token liên tiếp và nó dùng để đánh du sbt đầu hay kết thúc ca mt phn tử  
mc tiêu. Dưới đây là mt đon mã HTML trong trang web.  
<p> Restaurant Name: <b>Good Noodles</b><br><br>  
<li> 205 Willow, <i>Glen</i>, Phone 1-<i>773</i>-366-1987</li>  
<li> 25 Oak, <i>Forest</i>, Phone (800) 234-7903 </li>  
<li> 324 Halsted St., <i>Chicago</i>, Phone 1-<i>800</i>-996-5023 </li>  
<li> 700 Lake St., <i>Oak Park</i>, Phone: (708) 798-0008 </li> </p>  
Để trích xut được tên ca quán ăn “Good Noodles” thì lut trích xut slà:  
Start Rule: R1: SkipTo(<b>) tc là hthng nên xut phát ở đim bt đầu ca trang  
và bqua tt ccác token cho đến khi chúng thy được th<b> đầu tiên. Các lut  
SkipTo(:) hoc SkipTo(i) đề không đúng. Vì theo cây EC trong hình 8 R1 là cha ca node  
name, như vy nó slà node gc. Node gc thì cha chui token tun tca ctrang  
Web.  
Tương tEnd Rule : R2: SkipTo (</b>) sxác định được đim kết thúc tên ca  
quán ăn.  
- Quá trình hc lut  
Trong hthng Wrapper qui np quá trình hc là mt quá trình chủ đạo.  
Khóa lun này strình bày gii thut hc ca wrapper để sinh ra các lut trích xut. Ý  
tưởng cơ bn ca gii thut hc lut như sau:  
Để sinh ra Start Rule cho mt node ca cây EC, mt vài token tin thay các đại  
din ca node được nhn dng như các mneo, chúng có thnhn dng đơn nht sbt  
đầu ca mt node. Để sinh ra End Rule cho mt node, mt vài token hu thay các đại  
din ca node được nhn dng như mt mneo. Tiến trình sinh Start Rule và End Rule là  
ging nhau.  
Cho trước mt tp các mu hun luyn đã được gán nhãn, gii thut hc ssinh ra  
các lut trích xut tng quan để trích xut tt ccác phn tmc tiêu (positive items) mà  
không trích xut các phn tkhác (nagertive items).  
17  
Sau quá trình này thì mt wrapper đã được sinh ra , nó sẽ được áp dng cho các  
trang web khác cha đựng các dliu tương tđược định dng cùng mt cách vi tp  
mu hun luyn.  
- Ưu đim và nhược đim  
ƒ Ưu đim:  
Người sdng chphi gán nhãn mt lượng nhcác dliu mu.Quá trình hc là  
quá trình tự động để sinh ra lut trích xut.  
ƒ Nhược đim:  
Nếu mt site thay đổi, làm sao để wrapper biết được sthay đổi đó?  
Nếu phát hin chính xác có sthay đổi, làm sao để tự động swrapper?  
Vì phương pháp này phthuc vào vic gán nhãn bng tay nên nó không phù hp  
cho trích xut mt lượng ln các trang. Ví d, nếu mt trang kinh doanh sn phm mun  
trích xut tt ccác các sn phm được bán trên Web, vic gán nhãn bng tay hu như là  
nhim vkhông th. Vic duy trì wrapper là vic làm rt tn kém, vì web là mt môi  
trường động. Các site thì luôn luôn thay đổi.  
Phương pháp trích xut tự động  
Để hn chế nhược đim ca Wrapper qui np, phương pháp trích xut tự động đã  
được nghiên cu rt nhiu. Vic trích xut tự động là hoàn toàn có thbi vì dliu trên  
mt website thường được mã hóa vi mt slượng mu cố định. Có thtìm nhng khuôn  
mu đó bng vic khai phá nhng mu lp li trong nhiu trang ca mt website.  
Trong mt vài ng dng, chúng ta cn trích xut dliu tcác trang detail-page, vì  
nhng trang này cha nhiu thông tin hơn. Ví d: trong mt trang list-page, thông tin ca  
mi sn phm thông thường chlà tên, nh và giá. Tuy nhiên nếu ng dng cn nhng  
thông tin miêu tsn phm thì chúng ta cn trích xut tnhng trang detail.  
Mt thut toán trích xut tự động khá tiêu biu mà có thtrích xut ctrang detail  
và trang list đó là RoadRunner.  
- Mô tgii thut  
18  
Đầu vào: Mt tp hp các trang mu, mi trang cha đựng mt hay nhiu bn ghi  
(mt trang có thlà list page hoc detail page).  
Đầu ra: Mt mu trích xut có thtrích xut được tt các các trang trong tp mu,  
trong gii thut này mu trích xut đó là biu thc chính qui kết hp tdo.  
- Phương thc tiếp cn  
Ban đầu, gii thut sly mt slượng ngu nhiên các trang vi mu trích xut W.  
Mu trích xut W sau đó được định nghĩa li bi vic kết hp có thtvi mã  
HTML ca mi trang pi khác trong tp mu, để gii quyết vn đề sai khác gia các mu  
trích xut ca các trang trong tp mu. Cui sung gii thut sinh ra mt wrapper chung có  
thtrích xut được tt ccác trang trong tp mu. Wrapper này sẽ được áp dng trích xut  
cho nhng trang khác có cu trúc tương tvi nhng trang trong mu  
Ssai khác xut hin khi mt vài token ca trang pi xut hin sai khác so vi W.  
Có hai kiu sai khác trong vic so khp đó là:  
¾ Ssai lch xâu văn bn (string mismatch) : Chúng biu ththông qua các trường  
dliu hay các mc.  
¾ Ssai khác gia các th(tag mismatch).  
Gii thut này được làm rõ trong hình 9 dưới đây:  
19  

Tải về để xem bản đầy đủ

pdf 71 trang yennguyen 06/04/2025 190
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_bai_toan_trich_xuat_thong_tin_cho_du_lieu_ban_cau.pdf