Khóa luận Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyn Hu Phương  
QUNG CÁO TRC TUYN HƯỚNG CÂU TRUY  
VN VI SGIÚP ĐỠ CA PHÂN TÍCH CHỦ ĐỀ  
VÀ KTHUT TÍNH HNG  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Nguyn Hu Phương  
QUNG CÁO TRC TUYN HƯỚNG CÂU TRUY  
VN VI SGIÚP ĐỠ CA PHÂN TÍCH CHỦ ĐỀ  
VÀ KTHUT TÍNH HNG  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bhướng dn: PGS. TS. Hà Quang Thy  
Cán bộ đồng hướng dn: CN. Nguyn Minh Tun  
HÀ NI - 2009  
Li cm ơn  
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến sĩ Hà  
Quang Thy và Cnhân Nguyn Minh Tun, người đã tn tình chbo và hướng dn tôi  
trong sut quá trình thc hin khoá lun tt nghip.  
Tôi chân thành cm ơn các thy, cô đã to cho tôi nhng điu kin thun li để hc tp và  
nghiên cu ti trường Đại Hc Công Ngh.  
Tôi cũng xin gi li cm ơn ti các anh chvà các bn sinh viên trong nhóm “Khai phá dữ  
liu” đã giúp đỡ và htrtôi rt nhiu vkiến thc chuyên môn và trong vic thu thp dữ  
liu.  
Cui cùng, tôi mun gi li cm vô hn ti gia đình và bn bè, nhng người thân yêu  
luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt nghip.  
Tôi xin chân thành cm ơn !  
Sinh viên  
Nguyn Hu Phương  
Tóm tt  
Qung cáo trên máy tìm kiếm hin đang là hình thc qung cáo thu hút được nhiu  
schú ý nht ngày nay, trong đó các qung cáo được hin thbên cnh kết qutìm kiếm  
theo truy vn ca người dùng. Điu này dn đến mt bài toán là làm thế nào để hin thị  
nhng qung cáo phù hp nht vi truy vn.  
Khóa lun này tp trung nghiên cu các phương pháp xếp hng qung cáo trên máy  
tìm kiếm theo độ phù hp vi truy vn, đề xut mô hình qung cáo sdng phân tích chủ  
đề ẩn và kĩ thut tính hng. Đồng thi đưa ra phương pháp biu din các qung cáo theo  
nhng đặc trưng mi, đặc trưng vchủ đề ẩn. Tiến hành thc nghim da trên vic sử  
dng query logs trong xây dng tp dliu hc, mô hình đã khai thác được các thông tin  
hu ích thành vi người dùng và đem li kết qukhá khquan. Độ chính xác trung bình  
ca kết quxếp hng vào khong 82%-84%.  
Mc lc  
Danh sách các hình  
Bng các tviết tt  
CPA  
CPC  
CPM  
CTR  
IDF  
Cost Per Action/Acquisition  
Cost Per Click  
Cost Per Mille/Thousand  
Cost Through Rate  
Inverse Document Frequencies  
Latent Dirichlet Allocation  
Latent Semantic Analysis  
Latent Semantic Indexing  
Probabilistic Latent Semantic Analysis  
Probabilistic Latent Semantic Indexing  
Pay Per Click  
LDA  
LSA  
LSI  
PLSA  
PLSI  
PPC  
TF  
Term Frequencies  
Li mở đầu  
Qung cáo trc tuyến đang ngày càng phát trin và đem li nhng khon li nhun  
khng ltrong các năm gn đây, lên đến 47.5 tỉ đô la [33]. Qung cáo trên máy tìm kiếm  
là hình thc qung cáo trc tuyến phbiến nht, trong đó các qung cáo được hin thbên  
cnh kết qutìm kiếm trvcho người dùng. Trong 5 năm gn đây, nhm tìm kiếm và  
đưa ra mt thtqung cáo phù hp nht, rt nhiu công trình trong nước cũng như trên  
thế gii đã được công b[11], [22], [24], [25], [27], [30].  
Lê Diu Thu [27] đã đi theo mt hướng tiếp cn mi trong qung cáo theo ngcnh  
bng vic mrng tp tkhóa qung cáo sdng kthut phân tích chủ đề ẩn. Tác giả  
đã chra nhng nh hưởng tích cc ca chủ đề ẩn trong vic tìm kiếm và xếp hng qung  
cáo.  
Khóa lun này tiếp tc xem xét bài toán xếp hng qung cáo trên máy tìm kiếm và  
đề xut mô hình xếp hng qung cáo sdng kthut phân tích chủ đề ẩn theo hướng  
tiếp cn mi. Khác vi cách tiếp cn [27], mô hình ca khóa lun này biu din qung  
cáo theo nhng đặc trưng vchủ đề ẩn và khai thác sgiúp đỡ ca query logs trong vic  
xây dng tp dliu hc và đã thu được nhng kết qukhquan. Khóa lun gm bn  
chương được mô tsơ bdưới đây:  
Chương 1. Khái quát vqung cáo trc tuyến trình bày vtình hình qung cáo  
trc tuyến trên thế gii cũng như ở Vit Nam, đồng thi gii thiu vhình thc qung cáo  
trên máy tìm kiếm và bài toán xếp hng qung cáo trên máy tìm kiếm.  
Chương 2. Các phương pháp qung cáo thông qua tìm kiếm trình bày nhng  
công trình đã được đưa ra trong nhng năm gn đây nhm gii quyết bài toán xếp hng  
qung cáo, chra ưu, nhược đim ca mi phương pháp.  
Chương 3. Hthng qung cáo trc tuyến sdng kĩ thut xếp hng và phân  
tích chủ đề ẩn. Chương này trình bày vkĩ thut xếp hng, phương pháp hc xếp hng  
SVM Rank, kĩ thut phân tích chủ đề ẩn và đề xut mô hình xếp hng qung cáo sdng  
chủ đề ẩn.  
Chương 4. Thc nghim và đánh giá mô hình trình bày vdliu được sdng,  
các giai đon xlý dliu và thc nghim, đưa ra kết quca mô hình, nhn xét và phân  
tích kết quthu được.  
1
 
Phn kết lun. Tng kết và tóm lược ni dung chính ca khóa lun.  
2
Chương 1. Khái quát vqung cáo trc tuyến  
1.1.Gii thiu vqung cáo  
Qung cáo là hình thc tuyên truyn, gii thiu hàng hoá, dch vnhm to shp  
dn và kích thích người mua để đẩy mnh vic bán hàng cũng như thc hin dch v.  
Trong chng mc nht định, qung cáo cũng có tác dng tích cc, tuy nhiên nó làm tăng  
giá cca hàng hoá. Trong nn kinh tế hàng hoá, chi phí vqung cáo thường rt ln.  
Hình thc qung cáo rt phong phú: áp phích đặc bit, đăng báo, phát thanh, vô tuyến  
truyn hình, đin nh, trin lãm chế phm, nhãn hiu sn xut, tkính bày hàng các ca  
hàng hay các xí nghip, thư tín, quà biếu [6].  
Theo mt tài liu khác, qung cáo là mt hin tượng phc tp, gn bó mt thiết vi  
xã hi, văn hóa, lch svà kinh tế, nó không tuân theo bt cmt định nghĩa đơn gin hay  
riêng bit nào. Mt vài khía cnh ca qung cáo rt phdng trong khi mt vài khía cnh  
khác li mang đặc trưng cthvvăn hóa. Qung cáo biến đổi tnghthut bán hàng cá  
nhân ti truyn thông gián tiếp, cung cp nhng thông tin mi nhm thuyết phc con  
người. Bên cnh nhng thông báo nhm mc đích bán hàng nó còn n cha nhng giá trị  
văn hóa và các ý kiến xã hi. Tùy thuc vào tng quan đim khác nhau, qung cáo có thể  
có tác dng tích cc hay tiêu cc ti xã hi và kinh tế [8].  
Cũng theo [39] thì cha đẻ ca hình thc qung cáo là mt người Ai Cp c. Ông ta  
đã dán tthông báo đầu tiên trên tường thành Thebes vào khong năm 3000 trước Công  
nguyên. Vài thế ksau đó, Hy Lp hình thc thông báo này trnên rt phbiến khi các  
thông tin dành cho công chúng được vlên các tm bng gtrưng bày qung trường  
thành ph. Nếu như các bng qung cáo đã phát trin nhanh sau sra đời ca phương  
pháp in (bc áp phích đầu tiên do Caxton, người Anh, in tnăm 1477), thì ha sĩ Pháp  
J.Chéret (1835-1932) li là người phát minh ra hình thc qung cáo hin đại. Đó là tờ  
qung cáo mt bui biu din năm 1867, gm mt câu ngn và mt hình nh màu mè gây  
n tượng mnh. Tuy nhiên, chính ha sĩ Italy L.Cappiello (1875-1942) mi là người đầu  
tiên thc sự đề cp ti áp phích qung cáo vi tm bin qung cáo ko chocolate "Klaus"  
ca ông năm 1903.  
3
 
Ngày nay qung cáo đã có nhng bước phát trin mi và được tiến hành thông qua  
các phương tin thông tin đại chúng như: truyn hình, báo chí, phát thanh, qung cáo qua  
bưu đin và đặc bit, là qung cáo trc tuyến qua Internet.  
1.2.Qung cáo trc tuyến  
Qung cáo trc tuyến là mt loi hình qung cáo được thhin trên Internet và đặc  
bit là các trang web [8]. Vic sdng Internet và World Wide Web ngày càng trnên  
phbiến, do vy Internet đã trthành mt trong nhng phương tin qung cáo quan trng  
nht ngày nay.  
Mt trong các li ích ca vic qung cáo trc tuyến là cho phép công bthông tin và  
ni dung ngay lp tc mà không bgii hn bi vtrí địa lý hay thi gian. Nó cho phép  
truyn đạt thông tin qung cáo mc độ toàn cu, ti mt lượng ln người dùng vi mt  
chi phí rt thp.  
Qung cáo trc tuyến đem li hiu quả đầu tư ln cho khách hàng qung cáo, nó cho  
phép tuchnh các qung cáo, bao gm ni dung và các trang web mà qung cáo sẽ được  
đăng lên. Mt ví dụ đó là, AdWords và AdSense ca Google cho phép qung cáo được  
hin thtrên các trang web có liên quan hoc hin thbên cnh kết qutìm kiếm trên máy  
tìm kiếm đối vi mt stkhóa được định nghĩa trước.  
Mt trong các ưu đim ca qung cáo trc tuyến là cách thc thanh toán, vic thanh  
toán được thc hin vi nhiu cách thc khác nhau, da vào phn ng ca người dùng đối  
vi qung cáo. Mt scách thc thanh toán như: CPM (Cost Per Mile/Thousand), CPV  
(Cost Per Visitor), CPC (Cost Per Click), CPA (Cost Per Action), CTR(Click Through  
Rate) [27].  
1.2.1. Tc độ tăng trưởng và thphn  
Năm 1994, qung cáo trc tuyến bt đầu xut hin trên trình duyt web thương mi  
đầu tiên, Netscape Navigator 1.0, dưới hình thc là các banner qung cáo [32]. Nhng  
qung cáo đầu tiên trên web là nhng ni dung tĩnh hay logo ca các công ty. Chúng  
thường xut hin ở đầu mi trang web vì đó thường là nơi dễ được quan sát nht.  
Khi công nghngày càng phát trin, mra nhiu cơ hi mi, rt nhiu hình thc  
qung cáo trc tuyến đã xut hin. Mt vài công ty tiến hành qung cáo thông qua web  
site bi nhng pop-up, như DoubleClick, AdForce và Windwire. Hcung cp mt vài  
4
 
thông tin hình nh và trình duyt web sthc thi mt scông vic khi người dùng click  
vào mt qung cáo [32].  
Mt thp niên sau khi xut hin, nhng người qung cáo trên thtrường Mĩ đã chi  
9.6 tỉ đô la cho qung cáo trc tuyến, năm 2004 tăng hơn 31.5% so vi năm 2003; so sánh  
vi 10% cho qung cáo trên truyn hình, 7.4 % cho nhng dch vqung cáo khác nói  
chung và 6.6% cho GDP ca nn kinh tế Mĩ (Hình 1). Theo báo cáo ca IAB [33] vào  
năm 2008, doanh thu tqung cáo trc tuyến đã đạt ti hơn 23 tỉ đô la vào cui năm  
2008.  
Hình 1. Doanh thu qung cáo trc tuyến na đầu và cui nhng năm t1999 đến 2008 ở  
Mĩ [33].  
Theo báo cáo mi nht ca Strategy Analytics [38], tng chi phí cho qung cáo trc  
tuyến trên toàn thế gii đã lên ti gn 47.5 tỉ đô la vào năm 2007 và có thvượt 100 tỉ đô  
la vào năm 2012.  
Nhng thông tin trên cho thy tc độ phát trin nhanh chóng ca qung cáo trc  
tuyến trong nhng năm qua và còn ha hn nhng mc doanh thu khng ltrong các năm  
ti.  
1.2.2. Các hình thc qung cáo trc tuyến  
Qung cáo trc tuyến có thể được phân loi thành hai loi: hp pháp (các mng  
qung cáo) và không hp pháp (spamming).  
5
 
Qung cáo spam thường xâm nhp vào hthng và được gi là Spyware, Adware  
hay qung cáo Pop-up. Ví d, khi mt trình duyt mi được m, pop-up qung cáo xut  
hin và chuyn hướng người dùng ti website qung cáo. Điu này gây nhiu bc xúc cho  
người dùng, vì vy nhiu trình duyt htrchc năng chn pop-up để gii hn các pop-  
up không hp pháp. Spyware và Adware thường là nhng ng dng mrng, mt vài  
trong schúng có thgây hi, ví dnhư Trojan.  
Nhng qung cáo hp pháp có thể được phân loi thành: Qung cáo trưng bày,  
email, phân loi và đấu giá, Lead Generation, đa phương tin và tìm kiếm. Chi tiết vcác  
hình thc qung cáo này có thtìm thy ti [27]. Dưới đây là biu đồ mô tthu nhp ca  
các loi này trong 6 tháng đầu ca năm 2007 và năm 2008 ti Mĩ [33].  
Hình 2. Phân loi doanh thu qung cáo trc tuyến trong 6 tháng đầu năm 2007 và 2008 ở  
Như chúng ta thy trên (Hình 2), search advertising, mà trong ni dung khóa lun  
này ta gi là qung cáo thông qua tìm kiếm, là loi hình qung cáo phbiến nht và có  
doanh thu ln nht ti thtrường Mĩ tnăm 2007 đến năm 2008. Nó chiếm 41% tng thu  
nhp tqung cáo trc tuyến trong 6 tháng đầu năm 2007 và 46% trong 6 tháng đầu năm  
2008.  
1.3.Qung cáo trc tuyến Vit Nam  
Cùng vi sphát trin ca qung cáo trc tuyến trên thế gii, qung cáo trc tuyến  
ti Vit Nam cũng tng bước phát trin và đã đạt được nhng thành công bước đầu.  
6
 
1.3.1. Tng quan vqung cáo trc tuyến Vit Nam  
1.3.1.1. Thphn  
Theo sliu ca Trung tâm Internet Vit Nam (VNNIC), hin có xp x19 triu  
người - chiếm 22,47% dân sVit Nam - thường xuyên tiếp cn vi lnternet. Slượng  
người sdng Internet đông đảo và tăng trưởng nhanh (năm 2007 có thêm 4 triu người  
sdng so vi 2006) là mt môi trường tim tàng để khai thác qung cáo trc tuyến.  
Tuy nhiên, qung cáo trc tuyến Vit Nam vn đang thi kmi khai phá và  
hình thành. Theo sliu ca Hip hi qung cáo Vit Nam (VAA), trên 80% thphn  
qung cáo trong nước thuc vcác đài truyn hình, sau đó là qung cáo trên n phm báo  
chí.  
Qung cáo trc tuyến Vit Nam có doanh thu vào khong 64 tVNĐ năm 2006,  
160 tVNĐ vào năm 2007 và trong nhng năm ti stăng trưởng 100% để đạt ti con số  
500 tVND vào năm 2010. Tuy nhiên doanh thu ca qung cáo trc tuyến trên tng  
ngành qung cáo ti VN mc khong 1,5% (2007) [4].  
1.3.1.2. Các hình thc qung cáo trc tuyến Vit Nam  
Vhình thc, qung cáo trc tuyến Vit Nam chyếu hướng ti vic qung cáo  
thương hiu vi hình thc logo/banner (Hình 3). Ti các website ln, logo/banner chi chít  
bt chp các tiêu chun vhiu qugây n tượng (nhiu nht 4 qung cáo/mt màn hình).  
Các dng qung cáo như qua tkhóa, qung cáo theo ngcnh, theo hành vi ... còn là  
nhng khái nim mi m. Và hin nay, cũng chưa có mt chun nào đối vi các mu thiết  
kế cho qung cáo trc tuyến (kích thước, vtrí ...). Điu này khiến khách hàng mt thêm  
nhiu thi gian và chi phí khi tiến hành qung cáo ti các website khác nhau [4].  
Khách hàng ca qung cáo trc tuyến mi chtp trung mt vài ngành. Kho sát  
ti nhng website có đông qung cáo nht, nhng doanh nghip đứng nhng vtrí đắt  
nht thường là các doanh nghip vin thông, ngân hàng, kế đến là các doanh nghip, cơ  
strong ngành đin máy, giáo dc, m thc.  
7
 
Hình 3. Qung cáo trc tuyến ti mt trang báo đin tVit Nam  
Ngoài ra, chưa có mt tchc đủ uy tín đóng vai trò trung gian để đánh giá mt  
cách khách quan vslượng người dùng ca các website cũng như hiu qukhi tiến hành  
qung cáo trc tuyến. Không ít các website đưa ra thông tin vslượng người dùng vi  
nhng con skhng l. Điu này khiến doanh thu ca qung cáo trc tuyến Vit Nam  
tp trung ti mt vài trang web có lượng truy cp cao nht (chyếu là các báo đin t,  
trang tin tc như VnExpress, Dân Trí, Vietnamnet, 24h.com.vn...) thay vì có thphân bổ  
các website đặc thù (du lch, gii trí, thương mi...).  
Vhình thc thanh toán, vn sdng nhng hình thc thanh toán truyn thng như  
qung cáo trên báo chí, stin người qung cáo trcho công ty qung cáo được tính theo  
kích thước ca banner, sln hin thqung cáo trên trang web cùng thhng ca trang  
web qung cáo (phương pháp CPM). Thhng ca các trang web thường được xác định  
bi mt vài công ctrên Internet, ví dalexa.com. Giá thành qung cáo được quyết định  
bi slượt người dùng truy cp vào website và vtrí ca banner.  
Nhng hình thc thanh toán khác như CPC hay CPA vn còn rt hiếm, cn phi có  
mt mng qung cáo đáng tin cy để cung cp nhng thông tin cho các hình thc thanh  
toán này. Đây là mt vn đề quan trng, nó gii thích nguyên nhân vì sao qung cáo theo  
ngcnh, theo hành vi, qung cáo trên máy tìm kiếm Vit Nam chưa phát trin. Tuy  
8
 
nhiên, mt vài công ty đã nm bt được điu này và họ đã đưa ra nhng mô hình thử  
nghim làm vic vi phương pháp CPC, ví dnhư Hura Ad1, daugia 247 – ECOM JSC2  
và VietAd3, các hthng này đã tng được đưa ra thnghim Vit Nam (tuy nhiên  
chúng đã bloi bỏ để ci tiến, theo VietnamNet ).  
Bng 1. Mt swebsite ln cung cp dch vqung cáo trc tuyến Vit Nam  
STT  
Tên  
Báo đin tVnexpress  
Địa chỉ  
1
2
3
4
5
6
7
8
9
Báo đin tVietnamNet  
Báo đin tThanh Niên  
Báo đin tDân Trí  
Báo đin tLao động  
Báo đin tVnMedia  
Ngôi sao  
Công ty Cphn Qung cáo dch vtrc tuyến www.24h.com.vn  
Công ty Truyn thông đa phương tin (VTC) www.vtc.com.vn  
Tóm li, qung cáo trc tuyến Vit Nam hin nay mi có slượng người tham gia  
ít i và chưa phong phú vhình thc. Các hình thc qung cáo chyếu là banner và được  
thanh toán da vào kich thước, vtrí banner và thhng ca trang web.  
1 http://ad.hurahost.com  
2 http://daugia247.com  
3 http://vietad.vn  
9
       
1.3.2. Nhng tài nguyên chưa được khai thác và thtrường qung cáo trc tuyến  
phn trước khóa lun đã gii thiu mt cái nhìn tng quan vqung cáo trc tuyến  
Vit Nam, tuy còn mi mnhưng đang được mrng và có nhiu tim năng. Trong  
phn này, khóa lun strình bày kĩ hơn vnhng tài nguyên chưa được khai thác và thị  
trường qung cáo trc tuyến, từ đó chra tim lc và nhng vn đề ni tri ca qung cáo  
trc tuyến ti Vit Nam trong các năm ti.  
1.3.2.1. Tc độ phát trin nhanh chóng ca thương mi đin tử ở Vit Nam  
Thương mi đin tlà mt nhân tquan trng ca qung cáo trc tuyến, đặc bit  
cho vic thanh toán ca các hthng qung cáo theo ngcnh, hành vi hay qung cáo  
qua máy tìm kiếm. Khi thương mi đin tphát trin, nhiu ngành thương mi khác có  
thddàng thc hin trao đổi thông qua internet to điu kin cho các công ty gii thiu  
sn phm ca hti khách hàng, htrcho sphát trin ca qung cáo trc tuyến.  
Vào đầu năm 2006, thương mi đin tử đã bt đầu phát trin, nhiu blut mi đã  
được ban hành. Cùng shtrca chính ph, thương mi đin tử ở Vit Nam ngày càng  
phát trin và có nhng bước tiến rõ rt.  
Đến cui năm 2008, kết quả điu tra vi 1600 doanh nghip trên cnước ca Bộ  
Công Thương cho thy, hu hết các doanh nghip đã trin khai ng dng thương mi đin  
tử ở nhng mc độ khác nhau. Đầu tư cho thương mi đin tử đã được chú trng và mang  
li hiu qurõ ràng cho doanh nghip [1].  
Các doanh nghip đã quan tâm ti vic trang bmáy tính, đến nay hu như 100%  
doanh nghip đều có máy tính. Tldoanh nghip có t11–20 máy tính tăng dn qua các  
năm và đến năm 2008 đã đạt trên 20%. Tldoanh nghip đã xây dng mng ni bnăm  
2008 đạt trên 88% so vi 84% ca năm 2007. Đến nay, có ti 99% sdoanh nghip đã  
kết ni Internet, trong đó kết ni băng thông rng chiếm 98%. Tldoanh nghip có  
website năm 2008 đạt 45%, tăng 7% so vi năm 2007. Tlwebsite được cp nht  
thường xuyên và có chc năng đặt hàng trc tuyến đều tăng nhanh.  
Mt trong nhng đim sáng nht về ứng dng thương mi đin tca doanh nghip  
là tlệ đầu tư cho phn mm tăng trưởng nhanh, chiếm 46% trong tng đầu tư cho công  
nghthông tin ca doanh nghip năm 2008, tăng gp 2 ln so vi năm 2007. Trong khi  
đó, đầu tư cho phn cng gim t55,5% năm 2007 xung còn 39% vào năm 2008. Sự  
10  
 
dch chuyn cơ cu đầu tư này cho thy doanh nghip đã bt đầu chú trng đầu tư cho các  
phn mm ng dng để trin khai thương mi đin tsau khi n định htng công nghệ  
thông tin. Doanh thu tthương mi đin tử đã rõ ràng và có xu hướng tăng đều qua các  
năm, 75% doanh nghip có ttrng doanh thu tthương mi đin tchiếm trên 5% tng  
doanh thu trong năm 2008. Nhiu doanh nghip đã quan tâm btrí cán bchuyên trách về  
thương mi đin t.  
1.3.2.2. Sbùng nca xã hi trc tuyến và các mng xã hi  
Thi gian gn đây, vic sdng công nghWorld Wide Web và thiết kế web cho  
phép người dùng chia sthông tin mt cách ddàng hơn ví dnhư nhng trang web  
mng xã hi, các trang wiki, blog và din đàn. Cùng vi đó, slượng người Vit Nam sử  
dng Internet cũng ngày càng tăng lên, to thành mt cng đồng trc tuyến rng ln gia  
nhng người Vit Nam. Theo VNNIC (VietNam Internet Association), vào tháng 3 năm  
2008, slượng người Vit Nam sdng Internet đã lên ti trên 19 triu người (chiếm  
19.41% dân s) và con snày đang ngày càng tăng lên [4]. Thtrường này ln hơn so vi  
Thái Lan, Philippines và Indonesia. Trong mt vài năm qua, các cng đồng trc tuyến  
đã được chng kiến sphát trin và cnh tranh ca các trang web mng xã hi, ví dnhư:  
Yahoo! 360 blog, Tamtay, Yobanbe, Cyworld, Zoomban,...  
Tuy nhiên, có mt khong cách ln vsphát trin ca thương mi đin tgia ở  
Vit Nam và các nước phát trin trên thế gii mà phn ln là thói quen người dùng và  
thu nhp.  
1.3.2.3. Thtrường qung cáo trc tuyến, cái nhìn lâu dài  
Tc độ phát trin nhanh chóng ca thương mi đin t, sbùng nca cng đồng  
trc tuyến và các cng thông tin web Vit Nam đã to nn tng vng chc cho sphát  
trin ca qung cáo trc tuyến. Trong thi gian gn đây, các nhà qung cáo ln như  
Yahoo và Google đã bt đầu quan tâm ti thtrường qung cáo trc tuyến ti Vit Nam,  
hbt đầu xây dng nhng chiến lược tiếp thvà các dch vkhác nhau cho người dùng  
Vit Nam. Theo VietnamNet, Google đã tiến hành dch các dch vca hsang tiếng  
Vit, ví dnhư dch vqung cáo AdWords4. Yahoo đang nm gislượng người dùng  
4 http://adwords.google.com/select/?hl=vi  
11  
 
Vit Nam ln nht (theo xếp hng talexa). Họ đã ra mt phiên bn yahoo tiếng Vit5 và  
phiên bn blog 360 plus nhm thu hút người dùng Vit Nam vào thtrường này. Nhng  
qung cáo vcác dch vmi ca họ được phát đi trên hthng truyn hình Vit Nam từ  
tháng 5 năm 2008 [27].  
Tuy nhiên, thtrường qung cáo trc tuyến đã thu hút không chcác công ty nước  
ngoài mà còn ccác công ty trong nước. Mt vài công ty mi đã bt đầu mrng thị  
trường và nhm ti qung cáo trc tuyến. Mt sbáo đin tử được biết đến nhiu nht ở  
Vit Nam như VnExpress và VietnamNet, thu nhp ca htqung cáo trc tuyến có tc  
độ tăng trưởng khá cao và VnExpress vn givtrí smt trong lĩnh vc qung cáo trc  
tuyến Vit Nam (Hình 4).  
Hình 4. Doanh thu tqung cáo trc tuyến ca VnExpress và VietnamNet trong 3  
năm 2004, 2005, 2006 [1].  
Tóm li, thtrường qung cáo trưc tuyến Vit Nam tuy vn còn giai đon mi  
phát trin, nhưng đã thu hút được rt nhiu schú ý ca ccác công ty trong nước cũng  
như ngoài nước. Điu này dn đến nhu cu vmt mng qung cáo trc tuyến Vit  
Nam, nhm htrcác hình thc qung cáo mi phát trin, ví dnhư qung cáo trên máy  
tìm kiếm hay qung cáo theo hành vi, ngcnh....  
Google và Yahoo đã đạt được nhng thành công ln trên thtrường thế gii, tuy  
nhiên rào cn vngôn ngvà văn hóa vn còn là mt hn chế để hcó thtiếp cn vi thị  
5 http://vn.yahoo.com/  
12  
   
trường Vit Nam. Mt bài hc tsthành công ca Baidu (máy tìm kiếm hàng đầu ca  
Trung Quc) đã chng trng nhng công ty qung cáo ln như Google và Yahoo không  
phi luôn luôn thành công thtrường khu vc, đặc bit là Châu Á [32]. Người dùng  
Vit Nam vn luôn chờ đợi mt mng tiếng Vit tcác công ty trong nước. Vic xây  
dng và phát trin qung cáo trc tuyến Vit Nam đã trthành mt yêu cu thiết yếu  
trong sphát trin lâu dài, và người Vit Nam ssm được chng kiến nhng bước phát  
trin mi trong thtrường qung cáo nhng năm tiếp theo.  
1.4. Qung cáo thông qua tìm kiếm  
Qung cáo thông qua tìm kiếm là hình thc qung cáo mà các qung cáo được hin  
thda vào các tkhóa hay các cm từ được xác định ttrước [22]. Qung cáo thông qua  
tìm kiếm bao gm các nhân tchính sau:  
- Ni dung qung cáo: ni dung qung cáo được người qung cáo cung cp cho các  
công ty qung cáo, ni dung qung cáo thường gm: tiêu đề, mô t, url, và các tkhóa  
tương ng vi qung cáo.  
- Chi phí cho mi tkhóa: là chi phí mà người qung cáo phi trcho công ty  
qung cáo đối vi tng tkhóa hay cm tcth.  
- Các quá trình kim tra tự động hoc bng tay nhm đảm bo ni dung qung cáo  
phù hp vi các tkhóa.  
- Tìm kiếm các qung cáo phù hp vi truy vn người dùng (qung cáo trên máy  
tìm kiếm) hay phù hp vi ni dung trang web (qung cáo theo ngcnh).  
- Hin thcác ni dung qung cáo theo thtphù hp.  
- Thu thp thông tin, đo sln click ca người dùng, xác định các hành động ca  
người dùng và yêu cu người qung cáo trtin theo các thông tin đó.  
Hình 5 là mt ví dvqung cáo trên máy tìm kiếm MSN, khi người dùng tìm kiếm  
vi tkhóa “hotel”, mt danh sách các qung cáo có liên quan ti khách sn sẽ được hin  
th.  
13  
 
Hình 5. Mô tni dung mt qung cáo [36]  
Hình 6 dưới đây mô tkiến trúc cơ bn ca mt hthng qung cáo thông qua tìm  
kiếm.  
Hình 6. Kiến trúc cơ bn ca hthng qung cáo thông qua tìm kiếm [27]  
Thông qua mng qung cáo (Advertising network) các qung cáo được hin thti  
người dùng tùy thuc vào ni dung trang web họ đang xem (vi qung cáo ngcnh) hay  
tùy thuc vào truy vn họ đang tìm kiếm (qung cáo trên máy tìm kiếm). Khi người dùng  
click vào qung cáo hay thc hin mt vài hành động như đăng ký, thanh toán… mng  
14  
 
qung cáo sghi nhn các hành động ca người dùng. Người qung cáo sphi trtin  
cho mng qung cáo tùy thuc vào các hành động đã được ghi nhn đó. Hin nay có rt  
nhiu mng qung cáo ni tiếng như: Google, Yahoo, MSN, Publisher Network (YPN),  
Amazon.com...  
Qung cáo thông qua tìm kiếm có hai loi chính: qung cáo trên máy tìm kiếm và  
qung cáo theo ngcnh.  
Qung cáo trên máy tìm kiếm là qung cáo được thc hin trên máy tìm kiếm, khi  
người dùng tìm kiếm theo mt truy vn, bên cnh kết qutìm kiếm, mt danh sách các  
qung cáo được hin thtương ng vi truy vn ca người dùng. Các qung cáo được sp  
xếp theo hai tiêu chí: độ phù hp vi truy vn và stin người qung cáo strcho công  
ty qung cáo cho vic hin thqung cáo ca h. Qung cáo trên máy tím kiếm là hình  
thc qung cáo trc tuyến phbiến nht hin nay.  
Qung cáo theo ngcnh khác vi qung cáo trên máy tìm kiếm, danh sách qung  
cáo thu được tvic so sánh các cm t, tkhóa ca qung cáo vi ni dung trang web  
được trvda theo độ phù hp ca ni dung trang web vi các qung cáo.  
Trong chai loi qung cáo nói trên, slượng các qung cáo được đưa ra cho mi  
ln hin ththường rt ít, t4 đến 5 qung cáo, người dùng thông thường chchú ý đến  
mt vài qung cáo đầu tiên, do vy yêu cu đối vi hthng qung cáo là: phi tìm ra  
nhng qung cáo phù hp nht vi truy vn ca người dùng và đưa chúng lên đầu danh  
sách. Mt bài toán được đặt ra là xếp hng các qung cáo trvtheo mc độ phù hp vi  
truy vn ca người dùng.  
Xếp hng qung cáo là mt bài toán nhn được rt nhiu squan tâm hin nay. Có  
rt nhiu phương pháp và mô hình đã được đưa ra, ví dnhư “mô hình qung cáo sdng  
phn hi liên quan” [11], “mô hình ước lượng CTR(Click Through Rate)” [25] hay cách  
tiếp cn “trích xut tkhóa qung cáo tni dung trang web” [30], “impedance coupling”  
[24] và “ranking optimization” [22]. Các phương pháp này sẽ được trình bày kĩ ở chương  
sau.  
15  
Chương 2. Các phương pháp qung cáo thông qua tìm  
kiếm  
Nhim vchính ca mt hthng qung cáo thông qua tìm kiếm là quyết định các  
qung cáo nào sẽ được hin thvà ththin thca chúng theo mc độ phù hp vi truy  
vn ca người dùng hay ni dung trang web (ngcnh). Khi người dùng tìm kiếm, mc  
đích chính ca hlà tìm kiếm nhng tài liu liên quan đến tkhóa chkhông phi tìm  
kiếm các qung cáo, do vy người dùng schthc schú ý đến qung cáo khi nhng  
qung cáo được đưa ra có tính phù hp cao vi điu mà hquan tâm. Mt khác, vic hin  
thcác qung cáo phù hp có thgiúp người dùng có thêm nhng thông tin hu ích, tiếp  
cn nhng dch vmong mun, ngược li nếu các qung cáo được đưa ra không phù hp  
có thlàm người dùng cm thy khó chu và gim mc độ hài lòng vi máy tìm kiếm.  
Trong 5 năm gn đây, có rt nhiu phương pháp trên thế gii và mt sphương  
pháp Vit Nam đã được công bnhm gii quyết vn đề này, dưới đây là mt số  
phương pháp ni bt.  
2.1.Mô hình trích xut tkhóa trong ni dung trang web  
Đây là mt mô hình ca qung cáo theo ngcnh. Da trên tư tưởng ca qung cáo  
trên máy tìm kiếm, ta có thcoi trang web hin ti như mt truy vn dài bao gm nhiu từ  
khóa. Yih và các cng s[30] đã đề xut mt mô hình hc giám sát cho phép trích xut  
các tkhóa trong ni dung trang web. Tiến hành hc tmt tp các trang web đã được  
định nghĩa các tkhóa ttrước, hxây dng mt bphân lp sdng hc máy vi thut  
toán hi quy logic (logistic regression).  
Để xác định nhng tkhóa và cm tmô tchính xác nht vtrang web hsdng  
mt vài phương pháp và tiến hành thc nghim để tìm ra phương pháp đem li kết qutt  
nht. Ba phương pháp được đưa ra đó là: MoS, MoC và DeS. M (Monolithic) nghĩa là sử  
dng toàn bcm ttrong trích chn. D (Decomposed) xem mi ttrong cm như mt  
cá thriêng bit. S (Separate) là coi mi thay cm tbt kging nhau hay khác nhau  
như các cá thriêng bit, và C (Combined) kết hp các t, cm tging nhau làm mt.  
Mt đim quan trng trong công trình ca họ đó là vic sdng 7.5 triu truy vn từ  
query logs ca MSN [36] như mt đặc trưng cho quá trình trích chn, cùng vi đó là 11  
16  
 
đặc trưng khác như tn sut xut hin ca tkhóa, đặc trưng thuc vngôn nghc (pos  
tagging), đặc trưng kim tra tđược viết hoa hay không, đặc trưng vsiêu văn bn (từ  
có nm trong mt liên kết hay không), tiêu đề trang, đặc trưng về độ dài các cm t, các  
câu,…  
Trong thc nghim, hsdng 828 trang web được ly tInternet Archive [34] để  
sdng cho quá trình hc và kim thhthng. Kết qucho thy hthng MoC (các  
cm ttương đương được kết hp làm mt) đem li kết qutt nht, trong khi đó MoS  
đem li kết quthp nht. Ngoài ra, hthng DeS (xem mi tnhư mt cá thriêng bit)  
đem li kết quthp hơn so vi hthng Monolothic(xem mi cm tnhư mt cá thể  
riêng bit). Độ chính xác ca hthng tt nht là 30.06% và ca hthng ti nht là  
13.01% .  
Để xác định sự đóng góp ca mi đặc trưng, htiến hành thc nghim trên cùng  
mt hthng vi các đặc trưng được thêm vào ln lượt. Kết quchra rng, đặc trưng  
query log và tn xut xut hin ca tkhóa đóng vai trò quan trng nht.  
Nghiên cu ca Yih và các cng s[30] cho thy mt hướng tiếp cn khác ca  
qung cáo theo ngcnh. Hthng ca hcho phép xếp hng các qung cáo da trên  
nhng tkhóa trích xut ra được ttrang web. Tuy nhiên độ phù hp ca các qung cáo  
da trên các tkhóa này vn chưa được kim chng qua thc nghim.  
2.2.Mô hình so khp vi tp tvng mrng (impedance coupling)  
Mt vn đề ca qung cáo theo ngcnh, đó là skhác bit vtvng gia trang  
web và các qung cáo. Ribeiro Neto và các cng s[24] đã tp trung vào vic gii quyết  
vn đề này bng cách mrng tp tvng ca các trang web.  
Nhìn chung, mt qung cáo thường ngn, cô đọng và tp trung vào mt chủ đề  
chính. Tuy nhiên, mt trang web li có ni dung ln hơn và thuc mt không gian ngữ  
cnh ln hơn. Mt trang web có thnói vrt nhiu chủ đề và vi các tkhóa khác nhau.  
Vn đề tìm kiếm nhng qung cáo phù hp vi mt trang web sdng nhng chủ đề có  
trong ni dung trang đang là mt vn đề cn được quan tâm.  
Ribeiro và các cng s[24] đã kho sát 10 phương pháp so khp các qung cáo và  
trang web. Htiến hành thc nghim vi mt cơ sdliu ln trên 93 nghìn qung cáo  
và 100 trang web.  
17  
 
Vi 5 phương pháp đầu tiên, hso sánh các trang web và qung cáo da vào mô  
hình véc tơ. Hng ca mi qung cáo được tính da trên độ tương đồng cosin gia qung  
cáo và trang web. Các đặc trưng được sdng là tiêu đề, mô tvà các tkhóa qung cáo.  
Phương pháp tt nht trong nhng phương pháp này là AAK, “so khp sdng các từ  
khóa qung cáo xut hin trong ni dung trang web”, kết quca phương pháp này được  
sdng để so sánh vi các phương pháp “impedance coupling”.  
Như đã gii thiu trên, có mt skhác bit ln gia tp tvng ca trang web và  
qung cáo. Để gii quyết vn đề này, Ribeiro và các cng s[24] mrng tp tvng  
ca trang web vi nhng tkhóa ly tcác trang web có ni dung tương tsdng mô  
hình Bayes. Nhng tkhóa mrng này có thxut hin trong tp tkhóa ca qung cáo  
và làm tăng hiu quca hthng. Hsdng 5 phương pháp so khp khác nhau gi là  
các phương pháp “impedance coupling”.  
Trong thc nghim, hsdng mt cơ sdliu vi 6 triu trang web để phc vụ  
cho vic mrng tp tvng. Kết quthu được khi sdng các ni dung đã được mở  
rng tt hơn so vi phương pháp AAK trên. Phương pháp tt nht được đưa ra đó là so  
khp sdng ni dung trang web mrng và ni dung ca trang web được qung cáo trỏ  
ti. Thc nghim ca Ribeiro-Neto và các cng sự đã chng trng, vic gim skhác  
bit vtp tvng gia trang web và qung cáo có thhtrtt cho vic tìm kiếm qung  
cáo phù hp vi ngcnh.  
2.3.Mô hình ti ưu xếp hng vi thut toán di truyn (Genetic Programming)  
Tnhng nghiên cu đã có được [24], Lacerda và các cng s[22] đã đưa ra mt  
hướng tiếp cn da trên thut toán di truyn để ti ưu hàm xếp hng. Sdng các đặc  
trưng khác nhau như tkhóa, tn sut xut hin ca t, độ dài văn bn và kích thước tp  
dliu, bng phương pháp hc máy, hxây dng mt hàm so khp nhm ti ưu độ phù  
hp gia trang web và các qung cáo. Hàm này được thhin dưới dng cây vi nút là  
các phép toán và các đặc trưng là các lá. Sdng tp dliu hc và đánh giá tương tự  
như ở [24], mô hình này đem li kết qutt hơn so vi phương pháp tt nht được mô tả  
ở đó là 61.7%.  
18  
 
2.4.Mô hình qung cáo sdng phn hi liên quan  
Da trên nhng nghiên cu vxlý truy vn và mrng câu truy vn, Andrei  
Z.Broder và các cng s[11] đã đưa ra mô hình qung cáo trên máy tìm kiếm sdng  
phn hi liên quan. Vi mt truy vn đầu vào gi là truy vn gc, Andrei Z.Broder tiến  
hành tìm kiếm trên các máy tìm kiếm và thu thp mt skết qutrong danh sách các kết  
quả đầu tiên. Ttruy vn gc và nhng kết quả đó, xây dng mt truy vn mi gi là truy  
vn qung cáo - và tiến hành tìm kiếm trên tp qung cáo đã có bng truy vn này. Cách  
tiếp cn này cho phép khai thác nhng thông tin mrng thu được tmáy tìm kiếm nhm  
to ra nhng đặc trưng giàu thông tin hơn cho vic tìm kiếm. Hơn na, vic sdng  
nhng đặc trưng mô ttoàn bqung cáo tt hơn so vi vic chsdng nhng tkhóa  
riêng bit ca nó, điu này còn giúp cho người qung cáo không phi xác định trước các  
tkhóa ca qung cáo.  
Truy vn qung cáo và các qung cáo được hbiu din thông quang 3 loi đặc  
trưng chính: tkhóa, phân lp và các cm tPrisma.  
- Tkhóa: htp hp tt ccác tkhóa riêng bit có trong tp qung cáo, la chn  
stkhóa phù hp, sdng mi tkhóa này như mt đặc trưng sau đó tiến hành tính  
trng scho các đặc trưng theo TF-IDF.  
- Phân lp: để tránh trường hp mt qung cáo và mt truy vn có sliên quan  
ln, nhưng chúng sdng các tkhác nhau để biu din, ngoài các tkhóa, hsdng  
mt đặc trưng mc cao hơn đó là phân lp ca truy vn. Sdng mt taxonomy ln về  
nhng chủ đề liên quan ti thương mi, xây dng bphân lp cho phép ánh xmt đon  
văn bn vi mt slp liên quan. Ttp kết qutìm được vi truy vn gc, htiến hành  
phân lp vi tng kết qu, sau đó chn ra nhng lp phù hp nht vi truy vn gc. Các  
lp này sẽ được sdng như các đặc trưng ca truy vn qung cáo, trng sti các đặc  
trưng sẽ được xác định bng độ tin cy trvtbphân lp.  
- Cm tPrisma: sdng công cca Altavista’s Prisma, đây là mt công ccho  
phép trích chn các cm tthường được sdng trên web, và mt tp các cm tPrisma  
cho tiếng anh gm 10 triu cm t, hxác định các cm tPrisma xut hin trong tp kết  
quca truy vn gc, la chn nhng cm tphù hp nht vi truy vn gc và sdng  
chúng như các đặc trưng cho truy vn qung cáo. Trng sti các đặc trưng được tính  
theo TF-IDF.  
19  
 
Trong thc nghim Andrei Z.Broder và các cng s[11] thiết lp 4 hthng khác  
nhau, vi các tham strn gia các loi đặc trưng là khác nhau trên mi hthng. Sử  
dng mt tp 700 truy vn, mi truy vn được xây dng như sau. Bt đầu vi tp tt cả  
các truy vn ca Yahoo trong tun t23-29, 2007. Chia 10 triu truy vn được tìm kiếm  
nhiu nht thành các nhóm theo tn sut tìm kiếm, la chn ngu nhiên 50 truy vn từ  
mi nhóm. Ngoài ra, ly ngu nhiên 200 truy vn trong snhng truy vn còn li (không  
thuc 10 triu truy vn nói trên). Vi mt truy vn, tìm 3 qung cáo đối vi mi hthng  
trên, tiến hành 9000 cp truy vn-qung cáo như vy. Mt nhóm gm 6 nhà phân tích,  
tt cả đều có khnăng tt vtiếng Anh, tiến hành đánh giá và phân chia mi kết quvào  
mt trong các nhóm: Perfect, Certainly Attractive, Probably Attractive, Somewhat  
Attractive, Probably Not Attractive, and Certainly Not Attractive. Để tính toán độ chính  
xác và độ hi tưởng, hcoi 4 nhóm đầu tiên là phù hp, và hai nhóm cui là không phù  
hp.  
Kết quthc nghim thu được được so sánh vi mô hình không sdng truy vn  
mrng (chsdng truy vn ban đầu) và có độ chính xác vượt tri. Độ chính xác ca  
mô hình 4 hthng ln lượt là 35%, 40%, 42% và 45 % so vi 16% ca mô hình không  
sdng vic mrng truy vn. Hình 7 mô tkiến trúc hthng ca h.  
Hình 7. Kiến trúc hthng qung cáo sdng phn hi liên quan [11]  
20  
 
Mô hình qung cáo sdng phn hi liên quan ca Andrei Z.Broder và các cng sự  
đã đưa ra được mt phương pháp mrng câu truy vn sdng các kết qutìm kiếm. Họ  
đã đề xut mt phương pháp xây dng các đặc trưng da trên nhng tri thc mrng, mô  
hình này giúp nhng người qung cáo không nht thiết phi định nghĩa rõ ràng nhng từ  
khóa tương ng vi qung cáo ca h.  
2.5.Mô hình ước lượng CTR (Click Through Rate)  
Da trên vic sdng CTR để xếp hng các qung cáo, Matthew Richardson và các  
cng s[25] đã đưa ra mt mô hình ước lượng CTR đối vi nhng qung cáo mi da  
trên nhng thông tin đã có ttrước. Nhng qung cáo vi CTR cao sẽ được xếp hng cao  
hơn so vi nhng qung cáo có CTR thp.  
Matthew Richardson xem xét vn đề ước lượng CTR vi mt tp các đặc trưng cho  
trước như mt bài toán hi quy và sdng hi quy logic (logistic regression) vi đầu ra là  
các xác sut tương ng vi các giá trị ước lượng nm trong khong [0, 1]. Các đặc trưng  
được sdng:  
Din mo qung cáo: có bao nhiêu ttrong tiêu đề, trong ni dung, ni dung có  
gm nhiu kí hiu, du câu hay không, sdng các tngn hay dài….  
Mc độ thu hút: tiêu đề, ni dung qung cáo có cha nhng tmô thành động  
như “mua”, “tham gia”, “đăng ký” hay không…  
Danh tiếng: URL có kết thúc bi .com, .net, .org… hay không, độ dài URL ra sao,  
URL gm nhiu đon hay ít đon, ví d: books.com stt hơn so vi  
books.something.com. URL có cha nhiu du shay các con shay không…  
Cht lượng trang web qung cáo trti: liu trang web có cha flash hay không,  
nhng phn nào được bao bi nh, có sdng stylesheet hay không, có nhiu  
qung cáo trên trang web hay không.  
Độ phù hp: liu tkhóa (bid-term) có xut hin trong tiêu đề, trong ni dung hay  
không, trong phn nào ca ni dung…  
Vi 5 loi đặc trưng nói trên, hsdng 81 đặc trưng. Ngoài ra còn sdng các đặc  
trưng sau:  
21  
 

Tải về để xem bản đầy đủ

pdf 65 trang yennguyen 17/06/2025 430
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_quang_cao_truc_tuyen_huong_cau_truy_van_voi_su_giu.pdf