Báo cáo Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

TRƯỜNG ………………….  
KHOA……………………….  
----------  
Báo cáo tốt nghiệp  
Đề tài:  
Phát triển một số phương pháp lọc  
thông tin cho hệ tư vấn  
LI CAM OAN  
Tôi xin cam oan ây là công trình nghiên cu ca riêng tôi. Các kt quꢄ  
ꢀưꢅc vit chung vi các tác gikhác ꢀꢇu ꢀưꢅc sꢈ ꢀꢉng ý ca ꢀꢉng tác gitrưꢆc  
khi ꢀưa vào lun án. Các kt qunêu trong lun án là trung thc và chưa tng  
ꢀưꢅc công btrong các công trình nào khác.  
Tác giꢂ  
Nguyn Duy Phương  
1
Li cm ơn  
Thc hin lun án tin slà mt ththách ln, òi hi skiên trì và tp  
trung cao ꢀꢏ. Tôi thc shnh phúc vi kt quꢄ ꢀꢒt ꢀưꢅc trong ꢀꢇ tài nghiên  
cu ca mình. Nhng kt quꢄ ꢀꢒt ꢀưꢅc không chlà nlc cá nhân, mà còn có  
shtrvà giúp ꢀꢖ ca tp thgiáo viên hưꢆng dn, nhà trưꢙng, bmôn, ꢀꢉng  
nghip và gia ình. Tôi mun bày ttình cm ca mình ꢀꢃn vi h.  
Trưꢆc tiên, tôi xin bày tsbit ơn sâu sc ꢀꢃn tp thgiáo viên hưꢆng  
dn PGS TS TMinh Phương và PGS TS inh Mnh Tưꢙng. ꢜưꢅc làm vic  
vi hai thy là mt cơ hi ln cho tôi hc hi phương pháp nghiên cu. Cm ơn  
hai thy rt nhiu vì shưꢆng dn tn tình, nghiêm túc và khoa hc.  
Tôi xin trân trng cm ơn Bmôn Khoa hc máy tính, Khoa Công nghꢍ  
thông tin, Phòng ào to, Ban giám hiu trưꢙng ꢜꢒi hc Công nghꢍ ꢀã to iu  
kin thun li cho tôi trong sut quá trình thc hin lun án.  
Tôi xin cm ơn tp thLãnh ꢀꢒo Hc Vin Công nghBưu chính Vin  
thông, cán b, ging viên khoa Công nghthông tin – Hc Vin Công nghꢍ  
Bưu chính Vin thông ã cvꢡ ꢀꢏng viên tôi trong quá trình nghiên cu.  
Tôi cm ơn tt cnhng ngưꢙi bn ca tôi, nhng ngưꢙi luôn chia svà cꢠ  
vtôi trong nhng lúc khó khn và tôi luôn ghi nhꢆ ꢀiu ó.  
Cui cùng, tôi xin bày tlòng bit ơn vô hn ꢀꢌi vi cha mvà gia ình ã  
luôn bên cnh ng h, giúp ꢀꢖ tôi.  
2
MC LC  
PHN Mꢦ ꢜU .........................................................................................................  
1. Tính cp thit ca lun án........................................................................... 11  
2. Mc tiêu ca lun án................................................................................... 12  
3. Các óng góp ca lun án........................................................................... 13  
4. Bcc ca lun án ...................................................................................... 15  
CHꢨƠNG 1. TNG QUAN VLC THÔNG TIN CHO HTVN .........16  
1.1. GII THIU CHUNG................................................................................ 16  
1.1.1. Kin trúc tng quát ca hthng lc thông tin .................................. 17  
1.1.2. Lc thông tin và truy vn thông tin..................................................... 18  
1.1.3. Hc máy và lc thông tin..................................................................... 19  
1.1.4. Lc thông tin và các htư vn............................................................ 21  
1.2. PHꢨƠNG PHÁP LC THEO NI DUNG.............................................. 24  
1.2.1. Bài toán lc theo ni dung.................................................................. 25  
1.2.2. Các phương pháp pháp lc theo ni dung............................................ 25  
1.2.2.1. Lc ni dung da vào bnh........................................................ 25  
1.2.2.2. Lc ni dung da vào mô hình...................................................... 28  
1.2.3. Nhng vn ꢀꢇ tn ti............................................................................. 29  
1.3. PHꢨƠNG PHÁP LC CNG TÁC.......................................................... 30  
1.3.1. Bài toán lc cng tác............................................................................. 30  
1.3.2. Các phương pháp lc cng tác............................................................. 32  
1.3.2.1. Lc cng tác da trên bnh....................................................... 32  
1.3.2.2. Lc cng tác da vào mô hình ..................................................... 35  
1.3.3. Nhng vn ꢀꢇ tn ti............................................................................. 38  
1.4. PHꢨƠNG PHÁP LC KT HP.............................................................. 39  
1.4.1. Bài toán lc kt hp .............................................................................. 39  
1.4.2. Các phương pháp lc kt hp............................................................... 40  
1.4.3. Nhng vn ꢀꢇ còn tn ti.................................................................... 42  
1.5. KT LUN ................................................................................................. 42  
3
CHꢨƠNG 2. LC CNG TÁC BNG PHꢨƠNG PHÁP HC A NHIM......  
2.1. ꢜꢴT VN ꢜꢪ............................................................................................. 44  
2.1.1. Vn ꢀꢇ dliu thưa ca lc cng tác .................................................. 44  
2.1.2. nh hưꢶng ca vn ꢀꢇ dliu thưa .................................................... 45  
2.1.3. Các phương pháp hn chvn ꢀꢇ dliu thưa................................... 46  
2.2. LC CNG TÁC BNG PHÂN LOI ................................................... 48  
2.2.1. Phát biu bài toán lc cng tác bng phân loi .................................. 48  
2.2.2. Phân loi bng phương pháp Boosting ............................................... 51  
2.3. PHÂN LOI VI CÁC ꢜꢴC TRNG CHUNG .................................... 56  
2.3.1. Phương pháp hc a nhim ................................................................. 56  
2.3.2. Boosting ꢀꢉng thi cho nhiu bài toán phân loi............................... 59  
2.3.2.1. Xây dng hàm mc tiêu................................................................ 59  
2.3.2.2. Xây dng bphân loi yu........................................................... 60  
2.2.2.3. ꢜꢏ phc tp thut toán.................................................................. 63  
2.4. THNGHIM VÀ KT QU................................................................. 65  
2.4.1. Phương pháp thnghim..................................................................... 65  
2.4.2. Dliu thnghim .............................................................................. 65  
2.4.3. So sánh và ánh giá da vào giá trMAE .......................................... 67  
2.4.4. Kt quthnghim.............................................................................. 67  
2.4.5. Phân tích kt qu.................................................................................. 69  
2.5. KT LUN ................................................................................................. 72  
CHꢨƠNG 3. LC KT HP DA TRÊN MÔ HÌNH ꢜꢼ TH............................  
3.1. VN ꢜꢪ LC KT HP........................................................................... 73  
3.2. LC CNG TÁC DA TRÊN MÔ HÌNH ꢜꢼ TH............................... 75  
3.2.1. Phương pháp biu din ꢀꢉ th.............................................................. 75  
3.2.2. Phương pháp dꢈ ꢀoán trên ꢀꢉ thNgưꢙi dùng- Sn phm ................ 76  
3.2.2.1. ꢿꣀch ꢀꢉꣁꣂꣃꢺ Ngưꢙi ꣄ꣅng-ꣁ꣆ꢄn phm ꣂꣃ꣇nh ꣈ꣀc ꢀꢉꣁꣂꣃꢺꣁcon .............. 78  
3.2.2.2. Phương ꣉ꣃꣀp dꢈꣁꢀ꣊ꣀn trên ꢀꢉꣁꣂꣃꢺG+................................................ 80  
3.2.2.3. Phương ꣉ꣃꣀp dꢈꣁꢀ꣊ꣀn trên ꢀꢉꣁꣂꣃꢺG- ................................................ 83  
4
3.2.2.4. Phương ꣉ꣃꣀp dꢈꣁꢀ꣊ꣀn theo tt ꣈ꢄꣁꢀꣀnh ꣋꣌ꣀ...................................... 85  
3.3. KT HP LC CNG TÁC VÀ LC NI DUNG ............................... 88  
3.3.1. Biu din ꢀꢉ thkt hp....................................................................... 88  
3.3.2. Xây dng liên kt ngưꢙi dùng và ni dung sn phm ....................... 91  
3.3.3. Phương pháp dꢈ ꢀoán .......................................................................... 95  
3.3.3.1. Lc cng tác da trên mô hình ꢀꢉ thkt hp............................. 95  
3.3.3.2. Lc ni dung da trên mô hình ꢀꢉ thkt hp............................ 95  
3.3.3.3. Phương pháp lc kt hp ꢀơn gin............................................... 96  
3.3.3.4. Phương pháp kt hp ꢀꢇ xut ....................................................... 96  
3.3.4. Thut toán lan truyn mng............................................................... 102  
3.4. THNGHIM VÀ KT QU............................................................... 103  
3.4.1. Dliu thnghim ............................................................................ 104  
3.4.2. Phương pháp thnghim................................................................... 105  
3.4.3. So sánh và ánh giá da vào Precision, Recall và F-measure......... 105  
3.4.4. Phân tích kt qu................................................................................ 107  
3.4.5. Trưꢙng hp dliu thưa.................................................................... 110  
3.5. KT LUN ............................................................................................... 111  
KT LUN....................................................................................................... 113  
DANH MC CÁC CÔNG TRÌNH CÔNG B............................................. 116  
TÀI LIU THAM KHO (TING VIT):.................................................... 117  
TÀI LIU THAM KHO (TING ANH):.................................................... 117  
PHLC 1 XÂY DNG HTHNG TVN LA CHN PHIM DA  
TRÊN MÔ HÌNH ꢜꢼ THKT HP.................................................................127  
5
DANH MC CÁC CHVIT TT  
KÝ HIU  
AM  
AU  
DIN GII  
Aspect Model (Mô hình ꢀꢺnh hưꢆng)  
Active User (Ngưꢙi dùng hin thi)  
CBF  
CF  
Content-Based Filtering (Lc da trên ni dung)  
Collaborative Filtering (Lc cng tác)  
DAC  
DBC  
DF  
Data Analyser Component (Thành phn phân tích dliu)  
Data-Based Concept (Nguyên lý da vào dliu)  
Degree of Freedom (Sbc tdo)  
EM  
Expectation Maximization (Cc ꢀꢒi kvng)  
Filtering Component (Thành phn lc)  
FC  
FMM  
IBL  
IDF  
IE  
Flexible Mixture Model (Mô hình pha trn linh hot)  
Instance-Based Learning (Hc da trên ví d)  
Inverse Document Frequency (Tn sut xut hin ngưꢅc)  
Information Extraction (ꢿꣀch thông tin)  
IF  
Information Filtering (Lc thông tin)  
IO  
Information Overload (Quá ꣂꢄi thông tin)  
Information Retrieval (Truy vn thông tin)  
K Neareast Neighbor (K ngưꢙi láng ging gn nht)  
KNN Pearson Correlation (Phương pháp K ngưꢙi láng ging gn  
nht da trên ꢀꢏ tương quan Pearson)  
IR  
KNN  
KPC  
LC  
Learning Component (Thành phn hc)  
LL  
Lazy Learning (Hc lưꢙi)  
LSE  
LSM  
MAE  
MBF  
MC  
Least Square Estimation (ꢨꢆc lưꢅng bình phương ti thiu)  
Latent Semantic Model (Mô hình ngngha n)  
Mean Absolute Error (Trung bình giá trtuyt ꢀꢌi li)  
Memory-Based Filtering (Lc da vào bnh)  
Multiclass Classification (Phân loi nhiu lp)  
Model-Based Filtering (Lc da vào mô hình)  
Machine Learning (Hc máy)  
MDBF  
ML  
MM  
Multinomial Model (Mô hình a thc)  
6
MMM  
MTL  
PCA  
RS  
Multinomial Mixture Model (Mô hình pha trn a thc)  
Multi Task Learning (Hc a nhim)  
Principal Components Analysis (Phân tích thành phn chính)  
Recommender System (Hthng tư vn)  
Standard Deviation (ꢜꢏ lch chun)  
SD  
SDP  
SE  
Sparsity Data Problem (Vn ꢀꢇ dliu thưa)  
Standard Error (Li chun)  
STL  
SVD  
SVM  
TF  
Single Task Learning (Phương pháp hc ꢀơn l)  
Singular Value Decomposition (Phân ꣐꣑ꣁgiá trriêng)  
Support Vector Machine (꣒ꣀy hꢕꣁtrꢅꣁ꣓꣔ctơ)  
Term Frequency (Tn sut)  
UMC  
URP  
User-Model Component (Thành phn mô hình ngưꢙi dùng)  
User Rating Profile (Hꢉꣁsơ ꢀꣀnh ꣋꣌ꣀꣁngưꢙi ꣄ꣅng)  
7
DANH MC CÁC HÌNH  
Hình 1.1. Kin trúc tng quát ca hthng lc thông tin....................................17  
Hình 1.2. Các thành phn ca hthng lc cng tác ...........................................31  
Hình 2.1. Thut toán GentleBoost.........................................................................52  
Hình 2.2. Phương pháp STL cho bn bài toán phân loi ꢀꢏc lp nhau...............58  
Hình 2.3. Phương pháp hc MTL cho bn bài toán phân loi ꢀꢉng thi............58  
Hình 2.4. Thut toán MC-Boost ci tin sdng ꢀ꣕c trưng chung cho nhiu bài  
toán...........................................................................................................................62  
Hình 2.5. Phương pháp duyt tp con các bài toán phân loi..............................64  
Hình 3.1. ꢜꢉ thNgưꢙi dùng- Sn phm ..............................................................76  
Hình 3.2. ꢜꢉ thG+ biu din các ánh giá thích hp..........................................79  
Hình 3.3. ꢜꢉ thG- biu din các ánh giá không thích hp. ..............................80  
Hình 3.4. Thut toán dꢈ ꢀoán trên ꢀꢉꣁꣂꣃꢺꣁG+.........................................................81  
Hình 3.5. Thut toán dꢈ ꢀoán trên ꢀꢉꣁꣂꣃꢺꣁG- .........................................................84  
Hình 3.6. Thut toán dꢈ ꢀoán trên tt cꢄ ꢀánh giá................................................86  
Hình 3.7. ꢜꢉ thkt hp ngưꢙi dùng và ni dung sn phm...............................90  
Hình 3.8. ꢜꢉ ththit lp liên kt gia ngưꢙi dùng và ꢀ꣕c trưng ni dung ........94  
Hình 3.9. Thut toán dꢈ ꢀoán trên ꢀꢉ thkt hp.................................................99  
Hình 3.10. Thut toán lan truyn mng...............................................................103  
Hình 3.11. Giá trF-Measure các mc ꢀꢏ thưa tht dliu...........................111  
8
DANH MC CÁC BNG  
Bng 1.1. Phân loi các phương pháp tư vn và mt snghiên cu in hình...23  
Bng 1.2. Ví dvma trn ánh giá ca lc cng tác..........................................31  
Bng 2.1. Ma trn ánh giá ngưꢙi dùng.................................................................45  
Bng 2.2. Ma trn ꢀꢝu vào ca lc cng tác..........................................................49  
Bng 2.3. Ma trn ꢀꢝu vào bài toán phân loi theo ngưꢙi dùng...........................50  
Bng 2.4. Ma trn ꢀꢝu vào bài toán phân loi theo sn phm..............................50  
Bng 2.5. Kt quthnghim vi MovieLens .....................................................68  
Bng 2.6. Kt quthnghim vi EachMovie .....................................................68  
Bng 2.7. Các tham sthng kê vi K=5 ánh giá bit trưꢆc..............................70  
ca tp dliu MovieLens......................................................................................70  
Bng 2.8. Các tham sthng kê vi K=10 ánh giá bit trưꢆc............................70  
ca tp dliu MovieLens......................................................................................70  
Bng 2.9. Các tham sthng kê vi K=20 ánh giá bit trưꢆc............................71  
ca tp dliu MovieLens......................................................................................71  
Bng 2.10. Các tham sthng kê vi K=5 ánh giá bit trưꢆc............................71  
ca tp dliu EachMovie .....................................................................................71  
Bng 2.11. Các tham sthng kê vi K=10 ánh giá bit trưꢆc .........................71  
ca tp dliu EachMovie .....................................................................................71  
Bng 2.12. Các tham sthng kê vi K=20 ánh giá bit trưꢆc .........................72  
ca tp dliu EachMovie .....................................................................................72  
Bng 3.1. Ma trn ánh giá R.................................................................................74  
Bng 3.2. Ma trn Sn phm – Ni dung Y...........................................................74  
Bng 3.3. Ma trn X biu din ánh ꢀꢉ thNgưꢙi dùng- Sn phm...................76  
Bng 3.4. Ma trn X+ biu din ꣈ꣀc ánh giá thích hp........................................79  
Bng 3.5. Ma trn X- biu din ꣈ꣀc ánh giá không thích hp............................80  
Bng 3.6. Ma trn ánh giá R.................................................................................89  
Bng 3.7. Ma trn Ngưꢙi dùng- Sn phm X........................................................89  
9
Bng 3.8. Ma trn Sn phm- Ni dung Y ............................................................90  
Bng 3.9. Giá trPrecision, Recall, F-Measure kim nghim trên tp  
MovieLens1 ...........................................................................................................106  
Bng 3.10. Giá trPrecision, Recall, F-Measure kim nghim trên tp  
MovieLens2 ...........................................................................................................107  
Bng 3.11. Kt qukim nghim paired t-test vi K=10 sn phm cn tư vn......  
trên tp MovileLens1 ............................................................................................108  
Bng 3.12. Kt qukim nghim paired t-test vi K=20 sn phm cn tư vn......  
trên tp MovileLens1 ............................................................................................109  
Bng 3.13. Kt qukim nghim paired t-test vi K=50 sn phm cn tư vn......  
trên tp MovieLens1..............................................................................................109  
Bng 3.14. Kt qukim nghim paired t-test vi K=10 sn phm cn tư vn......  
trên tp MovileLens2 ............................................................................................109  
Bng 3.15. Kt qukim nghim paired t-test vi K=20 sn phm cn tư vn......  
trên tp MovileLens2 ............................................................................................110  
Bng 3.16. Kt qukim nghim paired t-test vi K=50 sn phm cn tư vn......  
trên tp MovileLens2 ............................................................................................110  
10  
PHN Mꢌ ꢁꢋU  
1. Tính cp thit ca lun án  
Vn ꢀꢇ quá ti thông tin (Information Overload) ꢀưꢅc J.Denning nêu ra  
ln ꢀꢝu tiên vào nm 1982 [49]. Vi nhng lý lvà bng chng thuyt phc,  
Denning khng ꢀꢺnh khnng la chn thông tin hu ích ca ngưꢙi dùng máy  
tính sgp khó khn nghiêm trng bi sgia tng không ngng lưꢅng thông tin  
khng lꢉ ꢀꢃn thàng trm kênh truyn hình, hàng triu bng hình, sách, báo, tp  
chí, tài liu thông qua các hthng giao dch in t. Vn ꢀꢇ Denning công bꢌ  
ngay lp tc ꢀưꢅc cng ꢀꢉng các nhà khoa hc máy tính nhit tình hưꢶng ng và  
tp trung nghiên cu phương pháp hn chꢃ ꢄnh hưꢶng ca vn ꢀꢇ quá ti thông tin  
ꢀꢌi vi ngưꢙi dùng, thúc ꢀꢾy mt lnh vc nghiên cu mi ó là lc thông tin.  
Lc thông tin (Information Filtering) là lnh vc nghiên cu các quá trình  
꣘ꢚc ꣙ꢑꣁnhng thông tin không thích hp và cung cp thông tin thích hp ꢀꢃn vi  
mi ngưꢙi dùng. Lc thông tin ꢀưꢅc xem là phương pháp hiu quhn chtình  
trng quá ti thông tin ꢀưꢅc quan tâm nhiu nht hin nay.  
Lc thông tin ꢀưꢅc tip cn theo hai xu hưꢆng chính, ó là lc da trên tri  
thc và lc da trên dliu. Trong trưꢙng hp da vào tri thc, hthng thc  
hin lc thông tin bng cách sdng tp lut xây dng trưꢆc. Nhưꢅc im ca  
phương pháp này là ꢀꢗ ꢀưꢅc mt tp lut ꢀꢂ tt òi hi chi phí nhiu thi gian  
và kinh nghim ca chuyên gia; vic cp nht các lut không ththc hin ꢀưꢅc  
tꢈ ꢀꢏng vì ngun dliu vào thưꢙng không có cu trúc và luôn trong trng thái  
bin ꢀꢏng. Chính vì vy, lc da trên tri thc có xu hưꢆng ít ꢀưꢅc sdng.  
ꢜꢌi vi các hthng lc da trên dliu, các quy tc lc ꢀưꢅc xây dng tꢋ  
dliu mà hthng thu thp ꢀưꢅc bng các kthut thng kê hoc các thut toán  
hc máy. Cách tip cn này cho phép tꢈ ꢀꢏng cp nht các quy tc lc và không  
lthuc vào tri thc chuyên gia. Hthng lc da trên dliu có khnng thích  
nghi cao và tn dng ꢀưꢅc ngun dliu. Chính vì vy, cách tip cn này ꢀưꢅc  
quan tâm nghiên cu hơn so vi phương pháp da vào tri thc.  
11  
Htư vn (Recommender System) là hthng có khnng tꢈ ꢀꢏng phân  
tích, phân loi, la chn và cung cp cho ngưꢙi dùng nhng thông tin, hàng hóa  
hay dch vhquan tâm. Htư vn ꢀưꢅc xem như mt bin thꢗ ꢀin hình có  
vai trò quan trng trong lc thông tin. Nhiu htư vn ã ꢀưꢅc thương mi hóa và  
trin khai thành công, tiêu biu là htư vn ca các hãng Amazon.com,  
Netflix.com, Procter & Gamble.  
Htư vn ꢀưꢅc xây dng da trên hai kthut lc thông tin chính: Lc  
theo ni dung (Content-Based Filtering) và lc cng tác (Collaborative Filtering).  
Lc theo ni dung khai thác nhng khía cnh liên quan ꢀꢃn ni dung thông tin sn  
phm ngưꢙi dùng ã tng sdng hay truy nhp trong quá khꢁ ꢀꢗ to nên tư vn.  
Trái li, lc cng tác khai thác nhng khía cnh liên quan ꢀꢃn thói quen sdng  
sn phm ca cng ꢀꢉng ngưꢙi dùng có cùng sthích ꢀꢗ to nên tư vn.  
Trong quá trình nghiên cu và ng dng, bên cnh nhng vn ꢀꢇ chung  
ca bài toán lc thông tin thông thưꢙng, xut hin mt svn ꢀꢇ mang tính ꢀ꣕c  
thù ꢀꢌi vi thông tin tư vn như tính thưa tht dliu hun luyn, xlý ngưꢙi  
dùng mi, hàng hóa mi, yêu cu kt hp các dng thông tin khác nhau, làm vic  
vi dliu kích thưꢆc ln ꢀưꢅc cp nht thưꢙng xuyên. Mc dù ã có nhiu  
nghiên cu nhm ti ni dung này, nhưng ây vn là nhng vn ꢀꢇ nghiên cu  
m, có tính thi svà thu hút squa tâm ca cng ꢀꢉng nghiên cu.  
ꢜꢇ tài “Phát trin mt sphương pháp lc thông tin cho htư vnꢀưꢅc  
thc hin trong khuôn khlun án tin schuyên ngành khoa hc máy tính nhm  
góp phn gii quyt mt svn ꢀꢇ còn tn ti ca lc thông tin cho các htư vn.  
2. Mc tiêu ca lun án  
Mc tiêu ca lun án là nghiên cu áp dng, ci tin mt skthut hc  
máy nhm ci thin ꢀꢏ chính xác ca lc thông tin trong các htư vn. ꢜ꣕c bit,  
nghiên cu tp trung vào vic nâng cao kt qudꢈ ꢀoán nhu cu ngưꢙi dùng  
trong trưꢙng hp dliu thưa, cng như trong trưꢙng hp có cdliu sthích  
ngưꢙi dùng và thông tin ni dung sn phm.  
12  
3. Các óng góp ca lun án  
Đóng góp thnht ca lun án là đề xut áp dng mt kthut Boosting  
ci tiến cho nhiu bài toán phân loi vào lc cng tác [3, 81], bao gm:  
-
-
-
ꢜꢇ xut phương pháp gii quyt bài toán lc cng tác bng kthut  
Boosting da trên biu din dliu phù hp cho bài toán phân loi ca  
hc máy;  
p ꣄ꢧng kthut Boosting ꣈ꢄi tin cho nhiu bài toán phân loi bng  
phương pháp hc a nhim da trên gc quyt ꢀꢺnh (Decision Stump) cho  
꣘ꢚc cng ꣂꣀc nhm ꣃꢒn chꢃꣁꢄnh hưꢶng ꣈ꢂa vn ꢀꢇꣁdꢓꣁliu thưa;  
Thnghim và ánh giá kt quphương pháp ci tin, ꢀ꣕c bit chú trng  
ánh giá kt qudꢈ ꢀoán trong trưꢙng hp dliu thưa ca lc cng tác.  
Hu ht các phương pháp hc máy cho lc cng tác hin nay ꢀꢇu thc hin  
nhng nhim vhc ꢀơn l(Single Task Learning) vi githit dliu hun  
luyn và dliu kim tra ꢀưꢅc mô ttrong cùng mt không gian các giá trꢺ ꢀ꣕c  
trưng vi cùng mt phân b. Khi phân bthay ꢀꢠi, tp dliu hun luyn và dꢓ  
liu kim tra phi xây dng li. Trên thc t, vic làm này không phi lúc nào  
cng thc hin ꢀưꢅc làm cho kt qudꢈ ꢀoán các phương pháp kém tin cy.  
Mt khác, ti mi thi im, phương pháp chthc hin mt nhim vꢧ ꢀơn  
l, kt quca mi nhim vcthhoàn toàn ꢀꢏc lp vi các nhim vkhác.  
Chính vì vy, phương pháp tip cn này sgp khó khn khi dliu hun luyn  
thưa tht. ꢜꢗ gii quyt vn ꢀꢇ này, lun án ꢀꢇ xut áp dng phương pháp hc a  
nhim (Multi-Task Learning) cho lc cng tác nhm sdng tp thông tin chung  
gia các nhim vhc ꢀơn l. Tp thông tin chung tìm ꢀưꢅc óng vai trò chia sꢢ  
và bsung thông tin vào quá trình hun luyn cho mi ngưꢙi dùng khác nhau,  
góp phn nâng cao kt qudꢈ ꢀoán và hn chꢃ ꢀưꢅc nh hưꢶng ca tình trng dꢓ  
liu thưa trong lc cng tác.  
13  
Đóng góp thhai ca lun án là đề xut mt phương pháp lc kết hp da  
trên mô hình đồ th[2, 80], bao gm:  
-
Biu din mi liên hgia các ꢀꢌi tưꢅng tham gia hthng lc (Ngưꢙi  
dùng, sn phm và ni dung sn phm) da vào mô hình ꢀꢉ th;  
Xây dng phương pháp dꢈ ꢀoán cho lc cng tác da trên mô hình ꢀꢉ th.  
Xây dng phương pháp trích chn ꢀ꣕c trưng ni dung sn phm da trên  
thói quen sdng sn phm ca ngưꢙi dùng;  
-
-
-
-
-
Cá nhân hóa nh hưꢶng ca các ꢀ꣕c trưng ni dung ꢀꢌi vi thói quen sꢐ  
dng sn phm ca ngưꢙi dùng;  
Áp dng thut toán lan truyn mng trên ꢀꢉ thkt hp ꢀꢗ dꢈ ꢀoán, phân  
bcác sn phm cho mi ngưꢙi dùng;  
Thnghim và ánh giá kt quphương pháp ꢀꢇ xut.  
ꢜꢗ tn dng li thca mi phương pháp lc, lun án ꢀꢇ xut phương pháp  
kt hp gia lc cng tác và lc ni dung da trên biu din ꢀꢉ thcác ꢀꢌi tưꢅng  
tham gia quá trình lc, bao gm: ngưꢙi dùng, sn phm, ánh giá ngưꢙi dùng và  
ni dung sn phm.  
ꢜꢗ tránh nhng hn chca các phương pháp lc kt hp trưꢆc ây (phương  
pháp trích chn ꢀ꣕c trưng ni dung chda vào ni dung sn phm), lun án ꢀꢇ  
xut phương pháp trích chn ꢀ꣕c trưng ni dung da vào thói quen ngưꢙi dùng  
ꢀꢌi vi sn phm. Da trên phương pháp này, nhng ꢀ꣕c trưng ni dung ꢀưꢅc  
xem là quan trng vi mi ngưꢙi dùng ꢀưꢅc gili ꢀꢗ phc vmc tiêu dꢈ ꢀoán.  
Vic tìm ra nhng ꢀ꣕c trưng có nh hưꢶng quan trng ꢀꢃn thói quen ngưꢙi dùng  
không chlàm gim chi phí tính toán ca phương pháp (vì slưꢅng các ꢀ꣕c trưng  
ni dung quan trng ꢀꢌi vi mi ngưꢙi dùng còn li rt ít), mà còn loi bꢑ ꢀưꢅc  
nhng ꢀ꣕c trưng không nh hưꢶng hoc nh hưꢶng không tt ꢀꢃn thói quen sꢐ  
dng sn phm ca ngưꢙi dùng.  
Phương pháp dꢈ ꢀoán ꢀưꢅc ꢀưa vbài toán tìm kim trên ꢀꢉ thkhông chꢔ  
tn dng ꢀưꢅc các thut toán hiu qutrên ꢀꢉ thmà còn tn dng ꢀưꢅc mi liên  
hgián tip gia các ꢀꢌi tưꢅng tham gia hthng.  
14  
Phương pháp lc kt hp ꢀꢇ xut ꢀưꢅc thnghim và áp dng cho hthng  
tư vn la chn phim ã cho li kt qudꢈ ꢀoán tt. Hthng cho phép xem,  
ánh giá, bình lun và gi ý nhng phim ꢀưꢅc xem hp vi sthích ng vi mi  
ngưꢙi dùng. Hthng gm bn chc nng chính: Chc nng cp nht, phân tích  
thông tin ngưꢙi dùng và sn phm; chc nng hc; chc nng lc và chc nng tư  
vn. Trong ó, chc nng hc và lc ꢀưꢅc thc hin theo phương pháp lc kt  
hp ꢀꢇ xut.  
4. Bcc ca lun án  
Ni dung lun án ꢀưꢅc xây dng thành ba chương và mt phlc, trong ó:  
Chꢔơng 1. gii thiu tng quan vlc thông tin. Trình bày nhng nghiên  
cu cơ bn ca lc thông tin, các phương pháp lc thông tin cho htư vn và  
nhng vn ꢀꢇ cn tip tc nghiên cu ca mi phương pháp. Trên cơ nhng  
nghiên cu cơ bn, xác ꢀꢺnh rõ hưꢆng nghiên cu ca ꢀꢇ tài. Mt kt qunghiên  
cu cơ bn ca ꢀꢇ tài ꢀưꢅc công btrong [4].  
Chꢔơng 2. trình bày phương pháp hn chꢃ ꢄnh hưꢶng ca vn ꢀꢇ dliu  
thưa trong lc cng tác bng phương pháp hc a nhim. Ni dung trình bày  
trong chương này ꢀưꢅc tng hp da trên kt ꣜꣝ꢄnghiên cu ꢀ꣑ꣁcông bꢌꣁtrong [3,  
81].  
Chꢔơng 3. trình bày phương pháp kt hp gia lc cng tác và lc ni dung  
da trên mô hình ꢀꢉ th. Ni dung trình bày trong chương này ꢀưꢅc tng hp tꢋ  
kt qunghiên cu ꢀ꣑ꣁcông bꢌꣁtrong [2, 80]. Cui cùng là mt skt lun và ꢀꢇ  
xut các nghiên cu tip theo.  
Phn phlc. trình bày thit kvà xây dng ng dng cho phương pháp lc  
kt hp ꢀưꢅc ꢀꢇ xut trong Chương 3.  
15  
CHƯƠNG 1  
TNG QUAN VLC THÔNG TIN CHO HTƯ VN  
Chương này trình bày nhng vn ꢀꢇ tng quan vlc thông tin, các  
phương pháp lc thông tin cho htư vn cùng vi nhng hn chtn ti mi  
phương pháp. Trên cơ snhng nghiên cu cơ bn, xác ꢀꢺnh rõ hưꢆng nghiên  
cu cthca ꢀꢇ tài. Nhng kt qunghiên cu ca ꢀꢇ tài s꣖ ꢀưꢅc trình bày  
trong các chương tip theo ca lun án.  
Do lc thông tin là lnh vc nghiên cu có phm vi rng ln, sau khi trình  
bày ngn vlc thông tin nói chung, lun án tp trung trình bày vào chꢂ ꢀꢇ  
nghiên cu chính ca lun án ó là vn ꢀꢇ lc trong các htư vn.  
1.1. GII THIU CHUNG  
Lc thông tin (IF) là lnh vc nghiên cu các quá trình cung cp thông tin  
thích hp, ngn nga và gbthông tin không thích hp cho mi ngưꢙi dùng  
[75, 99]. Thông tin ꢀưꢅc cung cp (còn ꢀưꢅc gi là sn phm) có thlà vn bn,  
trang web, phim, nh, dch vhoc bt kdng thông tin nào ꢀưꢅc sn sinh ra tꢋ  
các phương tin truyn thông. Phm vi ng dng ca lc thông tin tri rng  
trong nhiu ng dng thc tkhác nhau ca khoa hc máy tính. ng dng tiêu  
biu nht ca lc thông tin ꢀưꢅc kꢗ ꢀꢃn là lc kt qutìm kim trong các ꣟ꣀy  
ꣂ꣠m kim (Search Engine), lc e-mail da trên ni dung thư ꣓꣇ꣁ hsơ ngưꢙi  
dùng, lc thông tin vn bn trên các máy chꢂ ꢀꢗ cung cp thông tin cho tp thꢗ  
hoc cá nhân thích hp, loi bnhng trang thông tin có nh hưꢶng không tt  
ꢀꢌi vi ngưꢙi dùng. ꢜ꣕c bit, lc thông tin có vai trò quan trng cho các hꢍ  
thng tư vn (RS) ng dng trong thương mi in t.  
Các hthng lc thông tin có thkhác nhau vnguyên lý, phương pháp,  
kthut, phm vi ng dng nhưng ꢀꢇu thc hin mc tiêu cung cp cho ngưꢙi  
dùng nhng thông tin cn thit nht, loi bnhng thông tin không có giá trꢺ  
hoc không thích hp ꢀꢌi vi ngưꢙi dùng. Nguyên lý phbin ꢀưꢅc dùng trong  
16  
lc thông tin là nguyên lý da vào dliu (Data-Based) và nguyên lý da vào tri  
thc (Knowledge-Based) [99]. Các phương pháp lc có thꢗ ꢀưꢅc thc hin da  
vào ni dung thông tin sn phm hoc lc da trên thói quen sthích ngưꢙi  
dùng. Các kthut lc ꢀưꢅc phát trin da trên nn tng tlnh vc truy vn  
thông tin (Information Retrieval), tách thông tin (Information Extraction), phân  
loi thông tin (Information Classificarion). Phm vi ng dng ca các hthng  
lc ꢀưꢅc áp dng cho tt ccác mô hình thương mi in tthc t: Khách hàng  
- Khách hàng (Customer to Customer), Nhà cung cp - Khách hàng (Business to  
Customer), Nhà cung cp - Nhà cung cp (Business to Business) [75].  
1.1.1. Kin trúc tng quát ca hthng lc thông tin  
Mt hthng lc thông tin tng quát bao gm bn thành phn cơ bn  
[99]: Thành phn phân tích dliu (Data Analyser Component), thành phn mô  
hình ngưꢙi dùng (User Model Component), thành phn hc (Learning  
Component) và thành phn lc ( Filtering Component).  
Thành phn mô  
hình ngưꢙi dùng  
Thông tin ꢀ꣕c tꢄ  
ngưꢙi dùng  
Nhà cung cp  
thông tin  
Ngưꢙi dùng  
Phn hi  
ngưꢙi dùng  
Sn phm  
phù hp vi  
ngưꢙi dùng  
Thông tin các  
sn phm  
Hsơ ngưꢙi  
dùng  
Cp nht thông  
tin hun luyn  
Biu din Thông  
tin sn phm  
Thành phn  
hc  
Thành phn  
phân tích dꢓ  
liu  
Thành phn lc  
Biu din Thông  
tin sn phm  
Hình 1.1. Kiến trúc tng quát ca hthng lc thông tin.  
Thành phn phân tích dliu (DAC) có nhim vthu thp dliu vsn  
phm tcác nhà cung cp thông tin (ví dtài liu, thư ꢀin t, sách, báo, tp  
chí, phim, nh...). Dliu vsn phm ꢀưꢅc phân tích và biu din theo mt  
khuôn dng thích hp, sau ó chuyn ꢀꢃn bphn lc như Hình 1.1.  
17  
Thành phn mô hình người dùng (UMC) có th“hin” hoc “n” dùng ꢀꢗ ly  
thông tin vngưꢙi dùng, như gii tính, tui, nơi sinh sng và thông tin ngưꢙi  
dùng ã truy vn trưꢆc ó ꢀꢗ to nên hsơ ngưꢙi dùng. Hsơ ngưꢙi dùng  
sau khi to ra ꢀưꢅc chuyn ꢀꢃn thành phn hc ꢀꢗ thc hin nhim vhun  
luyn.  
Thành phn hc (LC) thc hin hun luyn trên tp hsơ và phn hi ca  
ngưꢙi dùng theo mt thut toán hc máy cth. Thut toán hc ly dliu tꢋ  
thành phn mô tngưꢙi dùng; ly dliu vsn phm ã ꢀưꢅc biu din tꢋ  
thành phn lc kt hp vi thông tin phn hi ngưꢙi dùng ꢀꢗ thc hin nhim  
vhun luyn. Kt ququá trình hc ꢀưꢅc chuyn li cho bphn lc ꢀꢗ  
thc hin nhim vtip theo.  
Thành phn lc (FC) là thành phn quan trng nht ca hthng, có nhim  
vxem xét sphù hp gia hsơ ngưꢙi dùng và biu din dliu sn phm  
ꢀꢗ ꢀưa ra quyt ꢀꢺnh phân bsn phm. Nu dliu sn phm phù hp vi  
hsơ ngưꢙi dùng, sn phm s꣖ ꢀưꢅc cung cp cho ngưꢙi dùng ó. Trong  
trưꢙng hp ngưꢅc li, hthng loi bsn phm khi danh sách nhng sn  
phm phân bcho ngưꢙi dùng. Ngưꢙi dùng nhn ꢀưꢅc nhng sn phm thích  
hp, xem xét, ánh giá, phn hi li cho thành phn hc ꢀꢗ phc vquá  
trình lc tip theo.  
1.1.2. Lc thông tin và truy vn thông tin  
Belkin và Croft [75] nhìn nhn lc thông tin và truy vn thông tin như hai  
mt ca cùng mt vn ꢀꢇ. Chính vì vy, nhiu ꢀ꣕c trưng cơ bn ca lc thông tin  
có thtìm thy trong lnh vc truy vn thông tin (IR). Tuy nhiên, ta có thphân  
bit skhác bit gia hai hthng này thông qua vic so sánh mt sꢌ ꢀ꣕c trưng  
cơ bn dưꢆi ây.  
Kiu người dùng. Hthng truy vn thông tin áp ng nhu cu cho tt cꢄ  
ngưꢙi dùng ti mi thi im mà không cn quan tâm ꢀꢃn hlà ai. Trái  
18  
li, lc thông tin quan tâm ꢀꢃn nhng ngưꢙi dùng thưꢙng xuyên sdng  
hthng dùng, có hsơ rõ ràng, có mi quan tâm dài hn ꢀꢌi vi hꢍ  
thng và luôn nhn ꢀưꢅc thông tin thích hp ththng mi thi im.  
Biu din nhu cu thông tin. Hthng truy vn thông tin biu din nhu  
cu ngưꢙi dùng bt kdưꢆi dng mt câu truy vn. Lc thông tin biu  
din nhu cu ngưꢙi dùng lâu dài hthng dưꢆi dng mt hsơ ngưꢙi  
dùng. Hsơ ngưꢙi dùng không chghi li các ꢀ꣕c trưng thông tin cá nhân,  
mà còn bao hàm các ꢀ꣕c trưng liên quan ꢀꢃn lch struy cp hay thói  
quen sdng thông tin ca ngưꢙi dùng này.  
Mc tiêu hthng. Hthng truy vn thông tin quan tâm ꢀꢃn các phương  
pháp cung cp thông tin thích hp cho mi ngưꢙi dùng phù hp vi truy  
vn ca ngưꢙi dùng này. Lc thông tin quan tâm ꢀꢃn các phương pháp gꢖ  
bdliu hơn là vic nlc tìm kim thêm dliu. Cng vì lý do này,  
lc thông tin ꢀưꢅc xem là phương pháp gim ti thông tin chính ꢀưꢅc  
quan tâm nht hin nay.  
Cơ sdliu. Hthng truy vn thông tin thc hin cung cp thông tin  
trên các cơ sdliu tnh. Lc thông tin cung cp thông tin trên cơ sdꢓ  
liu ꢀꢏng, có cu trúc khác nhau và thưꢙng xuyên bin ꢀꢠi.  
Phm vi tương tác. Hthng truy vn không quan tâm ꢀꢃn stương tác  
gia nhng ngưꢙi dùng khác nhau. Lc thông tin quan tâm ꢀꢃn stương  
ꢀꢉng theo sthích, thói quen hay nhng ꢀ꣕c trưng xã hi, tnhiên khác  
nhau ca tp ngưꢙi dùng. Hthng luôn có mt mô hình ngưꢙi dùng ꢀꢗ  
gili nhng ꢀ꣕c trưng cn thit cho mi ngưꢙi dùng.  
1.1.3. Hc máy và lc thông tin  
Hc máy (Machine Learning). Hc máy là lnh vc nghiên cu ca trí  
tunhân to tp trung vào vic ra quyt ꢀꢺnh hoc phát hin tri thc da trên  
dliu [1, 85, 97]. Các kthut hc máy ꢀưꢅc sdng trong vic dꢈ ꢀoán (ví  
19  
ddꢈ ꢀoán nhu cu ngưꢙi dùng), phân loi, xp hng (ví dphân loi, xp  
hng thông tin, phân loi ngưꢙi dùng).  
Lc thông tin có cùng chung mc tiêu vi hc máy (ML) ó là cung cp  
thông tin cn thit cho mi ngưꢙi dùng da trên nhng gì có thhc tnhng  
kinh nghim ca cng ꢀꢉng trong quá kh. Chính vì vy, thành phn lc thông  
tin ꢀưꢅc xây dng theo hai cách tip cn chính ca hc máy: lc da trên tri  
thc lc da trên dliu.  
Lc da trên tri thc (KBC). Thông tin ꢀưꢅc lc bng cách sdng  
các lut. Mi lut biu din nhu cu thông tin ngưꢙi dùng hoc mt mu thông  
tin cn lc. Mi quyt ꢀꢺnh lc s꣖ ꢀưꢅc thc hin nu nhng iu kin ca lut  
ꢀưa ra ꢀưꢅc tha mãn. Ví dtrong hthng lc thư ꢀin t, mi lut có thꢗ  
ꢀưꢅc ꢀꢺnh ngha và áp dng cho các trưꢙng tiêu ꢀꢇ thư (Ngưꢙi gi, ngày gi,  
chꢂ ꢀꢇ...).  
im quan trng ca cách tip cn này là các lut do ngưꢙi dùng  
(chuyên gia) cung cp da trên kinh nghim hay tri thc ca mình. u im  
ca cách tip cn này là hthng s꣖ ꢀơn gin hơn do không cn sdng các k꣚  
thut hc tꢈ ꢀꢏng. Nhưꢅc im là vic xây dng các lut lc tt òi hi nhiu  
thi gian, kinh nghim ca chuyên gia. Vic cp nht các lut cng không thꢗ  
thc hin tꢈ ꢀꢏng. Do nhưꢅc im này, lc da trên tri thc có xu hưꢆng ít  
ꢀưꢅc sdng.  
Lc da trên dliu (DBC). Khác vi lc da trên tri thc, trong cách  
tip cn da trên dliu, các quy tc cho thành phn lc ꢀưꢅc xây dng tdꢓ  
liu mà hthng thu thp ꢀưꢅc bng cách sdng kthut thng kê hoc các  
thut toán hc máy. Cách tip cn này cho phép to ra và cp nht quy tc lc  
thông tin mà không cn ti tri thc chuyên gia, ꢀꢉng thi cht lưꢅng lc có thꢗ  
tt hơn so vi cách tip cn da trên tri thc, ꢀ꣕c bit khi có lưꢅng dliu ln  
và thưꢙng xuyên bin ꢀꢏng.  
20  
Do vic thu thp dliu ngày càng nhanh và d, lc da trên dliu  
ang dn trthành cách tip cn chính trong lc thông tin. Chính vì vy, lun  
án stp trung nghiên cu kthut lc thông tin cho htư vn da trên cách  
tiếp cn này.  
1.1.4. Lc thông tin và các htvn  
Htvn (RS) là trưꢙng hp riêng ca các hthng lc thông tin. Da  
trên thông tin ã có vngưꢙi dùng, htư vn xem xét trong slưꢅng rt ln  
hàng hóa hay thông tin và tư vn cho ngưꢙi dùng mt danh sách ngn gn  
nhưng ꢀꢝy ꢀꢂ nhng hàng hóa mà ngưꢙi dùng có khnng quan tâm [25, 26,  
40, 51, 53, 54, 67, 70, 83].  
Sdng htư vn trong các ng dng thương mi in tshtrꢅ  
khách hàng không cn thc hin các thao tác tìm kim sn phm, mà chcn  
la chn hàng hóa hoc dch vꢧ ưa thích do hthng cung cp. iu này s꣖  
làm gia tng nng lc mua, bán ca toàn bhthng. Chính vì lý do này, hàng  
lot các công ty a quc gia (Amazon.com, Netflix.com, CDNOW, J.C. Penney,  
Procter & Gamble..) ã ꢀꢝu tư và phát trin thành công công nghtư vn ꢀꢗ  
gia tng hthng khách hàng và bán hàng qua mng [7].  
Do là trưꢙng hp riêng ca hthng lc tin, htư vn có nhiu ꢀ꣕c im  
ca hlc tin tiêu biu. Tuy nhiên, do ꢀ꣕c im ca dliu, ngưꢙi dùng và ni  
dung, htư vn cng như các kthut ꢀưꢅc sdng có mt skhác bit nht  
ꢀꢺnh. Tùy vào phương pháp lc tin, các htư vn ꢀưꢅc phân loi thành ba loi:  
Tư vn da vào phương pháp lc theo ni dung (Content-Based Filtering  
Recommendation), tư vn da vào phương pháp lc cng tác (Collaborative  
Filtering Recommendation) và tư vn da vào phương pháp lc kết hp (Hybrid  
Filtering Recommendation)[36, 107].  
21  
Phương pháp tư vn da vào lc ni dung: Hthng tư vn cho ngưꢙi  
dùng nhng sn phm mi có ni dung tương tvi mt ssn phm hꢚ  
ã tng mua hoc tng truy nhp trong quá kh.  
Phương pháp tư vn da vào lc cng tác: Ngưꢙi dùng s꣖ ꢀưꢅc tư vn  
mt ssn phm ca nhng ngưꢙi có sthích ging hꢚ ꢀã tng ưa thích  
trong quá kh.  
Phương pháp tư vn da vào lc kết hp: Hthng tư vn cho ngưꢙi  
dùng nhng sn phm tương tvi mt ssn phm hꢚ ꢀã tng mua  
hoc tng truy nhp trong quá khvà sn phm ca nhng ngưꢙi có sꢶ  
thích ging hꢚ ꢀã tng ưa thích trong quá kh.  
Mi phương pháp lc áp dng cho các htư vn ꢀưꢅc phân thành hai  
hưꢆng tip cn [36, 107]: lc da vào bnh(Memory-Based Filtering) và lc  
da vào mô hình (Model-Based Filtering).  
Các phương pháp lc da vào bnh(MBF) [21, 22, 29, 52, 57, 63, 64,  
69]: ây là phương pháp lưu li toàn bcác ví dhun luyn. Khi cn  
dꢈ ꢀoán, hthng tìm các ví dhun luyn ging trưꢙng hp cn dꢈ  
oán nht và ꢀưa ra tư vn da trên các ví dnày. Trưꢙng hp tiêu biu  
ca lc da vào bnhlà thut toán K ngưꢙi láng ging gn nht  
(KNN). u im chính ca phương pháp tip cn này là ꢀơn gin, dcài  
ꢀ꣕t. Tuy nhiên, phương pháp này có thi gian lc chm do vic dꢈ ꢀoán  
òi hi so sánh và tìm kim trên toàn blưꢅng ngưꢙi dùng và sn phm.  
Phương pháp lc da trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,  
41, 43, 45, 90, 95, 96, 108, 109, 121]. Trong phương pháp này, dliu  
ꢀưꢅc sdng ꢀꢗ xây dng mô hình rút gn, ví dmô hình xác sut hay  
cây quyt ꢀꢺnh. Mô hình này sau ó ꢀưꢅc sdng ꢀꢗ ꢀưa ra các tư vn.  
Phương pháp này cho phép thc hin vic dꢈ ꢀoán nhanh, do quá trình  
dꢈ ꢀoán thc hin trên mô hình ã hc trưꢆc ó.  
22  
Bng 1.1 thng kê mt snghiên cu tiêu biu các phương pháp lc  
thông tin cho htư vn [36].  
Bng 1.1. Phân loi các phương pháp tư vn và mt snghiên cu in hình  
PHƯƠNG PHÁP TƯ VN DA VÀO LC NI DUNG  
Lc ni dung da vào bnhꢤ  
Các kthut thông dng:  
Lc ni dung da vào mô hình  
Các kthut thông dng:  
Mô hình mng Bayes  
Mô hình phân cm  
Tn sut xut hin ngưꢅc  
Phân cm (Clustering)  
Mô hình cây quyt ꢀꢺnh  
Mô hình mng nơ ron nhân to  
Nhng nghiên cu đin hình:  
Pazzani [74]  
Nhng nghiên cu đin hình:  
Balabanovic và Shoham [69]  
Pazzani và Billsus [73]  
Mooney và Roy [92]  
Billsus và Pazzani [30]  
Zhang và các cng s[113]  
PHƯƠNG PHÁP TƯ VN DA VÀO LC CNG TÁC  
Lc cng tác da vào bnhꢤ  
Các kthut thông dng:  
K ngưꢙi láng ging gn nht (K-  
Nearest Neighbour) sdng ꢀꢏ  
tương tcosin hoc các ꢀꢏ  
tương quan.  
Lc cng tác da vào mô hình  
Các kthut thông dng:  
Mô hình mng Bayes  
Mô hình phân cm  
Mô hình cây quyt ꢀꢺnh  
Mô hình mng nơ ron nhân to  
Mô hình hi qui tuyn tính  
Mô hình thng kê  
Phân cm  
ꢜꢏ tương quan gián tip  
(Indirect Similarity)  
Mô hình ꢀꢉ thꢺ  
Nhng nghiên cu đin hình:  
Resnick và các cng s[83]  
Breese và các cng s[52]  
Nakamura và Abe [11]  
M. Deshpande and G. Karypis  
[72]  
Nhng nghiên cu đin hình:  
Nakamura và Abe [11]  
Umyarov và Alexander  
Tuzhilin [15, 16, 17]  
Ungar và Foster [68]  
Aggarwal và các cng s[24]  
Chien và George [114]  
Condliff và các cng s[71]  
Kumar và các cng s[89]  
Shani và các cng s[41]  
Hofmann [95, 96]  
Sarwar và các cng s[21]  
Yu và các cng s[63, 64]  
Herlocker và các cng s[55]  
Wang và các cng s[57]  
Bell và Koren [86]  
Desrosiers và Karypis [24]  
Marlin [18]  
23  
Goldberg và các cng s[62]  
Si và Jin [66]  
Getoor và Sahami [65]  
Huang và các cng s[119]  
DeCoste [31]  
Nikovski và Kulev [33]  
Su và các cng s[105, 106,  
107]  
PHƯƠNG PHÁP TƯ VN DA VÀO LC KT HP  
Lc kt hp da vào bnhꢤ  
Các kthut thông dng:  
Lc kt hp da vào mô hình  
Các kthut thông dng:  
Hp nht mô hình biu din dꢓ  
liu.  
Thp tuyn tính kt qudꢈ  
oán ca chai phương pháp.  
Kt hp các ꢀ꣕c tính ca lc  
cng tác vào lc ni dung.  
Kt hp các ꢀ꣕c tính ca lc ni  
dung vào lc cng tác.  
Hp nht mô hình dꢈ ꢀoán.  
Hp nht mô hình biu din dꢓ  
liu và mô hình dꢈ ꢀoán.  
Hp nht lc cng tác và lc ni  
dung trong cùng mô hình.  
Nhng nghiên cu đin hình:  
Gunawardana và Meek [8]  
Billsus và Pazzani [29]  
Lazanas và Karacapilidis [10]  
Popescul và các cng s[12]  
Hofmann [96]  
Nhng nghiên cu đin hình:  
Basu và các cng s[23]  
Claypool và các cng s[70]  
Soboroff và Nicolas [46]  
Billsus và Pazzani [30]  
Tran và Cohen [98]  
Huang và các cng s[120,  
121, 122]  
Su và các cng s[104]  
Balisico và Hofmann [47]  
Good và các cng s[76]  
Melville và các cng s[82]  
Adomavicius và các cng sꢈ  
[37, 38, 39]  
Anand và Bharadwaj [28]  
Formatted: Indent: Left: 0,63 cm  
1.2. PHƯƠNG PHÁP LC THEO NI DUNG  
Lc theo ni dung là phương pháp thc hin da trên vic so sánh ni  
dung thông tin hay mô thàng hóa, nhm tìm ra nhng sn phm tương tvi  
nhng gì mà ngưꢙi dùng ã tng quan tâm ꢀꢗ gii thiu cho hnhng sn  
phm này [4, 6, 19, 69, 73, 84, 92]. Các phương pháp tip cn cho lc theo ni  
dung có ngun gc tlnh vc truy vn thông tin, trong ó mi sn phm ꢀưꢅc  
biu din bng mt hsơ sn phm, mi ngưꢙi dùng ꢀưꢅc biu din bng mt  
24  
hsơ ngưꢙi dùng. Phương pháp dꢈ ꢀoán ni dung nguyên bn ca sn phm  
thc hin da vào vic xem xét các hsơ sn phm có mc ꢀꢏ phù hp cao vi  
hsơ ngưꢙi dùng [84].  
1.2.1. Bài toán lc theo ni dung  
Bài toán lc theo ni dung ꢀưꢅc phát biu như sau. Cho P= {p1, p2,.., pN}  
là tp gm N sn phm. Ni dung sn phm pP ꢀưꢅc ký hiu là Content(p)  
ꢀưꢅc biu din thông qua tp K ꢀ꣕c trưng ni dung ca P. Tp các ꢀ꣕c trưng  
sn phm p ꢀưꢅc xây dng bng các kthut truy vn thông tin ꢀꢗ thc hin  
mc ích dꢈ ꢀoán nhng sn phm khác tương tvi p.  
Cho U = {u1, u2,.., uM} là tp gm M ngưꢙi dùng. Vi mi ngưꢙi dùng  
uU, gi ContentBasedProfile(u) là hsơ ngưꢙi dùng u. Hsơ ca ngưꢙi  
dùng u thc cht là lch struy cp hoc ánh giá ca ngưꢙi ó ꢀꢌi vi các sn  
phm. ContentBasedProfile(u) ꢀưꢅc xây dng bng cách phân tích ni dung  
các sn phm mà ngưꢙi dùng u ã tng truy nhp hoc ánh giá da trên các  
kthut truy vn thông tin.  
Bài toán lc theo ni dung khi ó là dꢈ ꢀoán nhng sn phm mi có ni  
dung thích hp vi ngưꢙi dùng da trên tp hsơ sn phm Content(p) và hꢉ  
sơ ngưꢙi dùng ContendBasedProfile(u).  
1.2.2. Các phꢔơng pháp pháp lc theo ni dung  
Như ꢀã trình bày trên, lc theo ni dung ꢀưꢅc tip cn theo hai xu hưꢆng:  
lc da trên bnhvà lc da trên mô hình. Ni dung cthcác phương pháp  
ꢀưꢅc thc hin như dưꢆi ây.  
1.2.2.1. Lc ni dung da vào bnhꢤ  
Lc ni dung da vào bnhlà phương pháp sdng toàn btp hsơ sn  
phm và tp hsơ ngưꢙi dùng ꢀꢗ thc hin hun luyn và dꢈ ꢀoán. Trong phương  
pháp này, các sn phm mi ꢀưꢅc tính toán và so sánh vi tt chsơ ngưꢙi  
dùng. Nhng sn phm mi có mc ꢀꢏ tương tcao nht vi hsơ ngưꢙi dùng s꣖  
25  
ꢀưꢅc dùng ꢀꢗ tư vn cho ngưꢙi dùng này. Phương pháp này còn ꢀưꢅc gi là hc  
lười (Lazy Learning) hay hc da trên ví d(Instance-Based Learning) trong các  
tài liu vhc máy [97].  
ꢜꢗ thc hin lc theo ni dung, ta cn gii quyt hai vn ꢀꢇ: thnht là biu  
din Content(p) dưꢆi dng vector trng scác ꢀ꣕c trưng ni dung, thhai là tính  
ꢀꢏ tương tgia hsơ ngưꢙi dùng và hsơ sn phm.  
Phꢔơng pháp biu din hsơ sn phm:  
Phương pháp ưꢆc lưꢅng trng scác ꢀ꣕c trưng thông dng nht thưꢙng  
ꢀưꢅc sdng là phép o tn sut kt hp vi tn sut xut hin ngưꢅc (Term  
Frequency / Inverse Document Frequency). Phương pháp ꢀưꢅc thc hin như sau.  
Gi fi,j là sln ꢀ꣕c trưng ni dung ki xut hin trong sn phm pj. Khi ó tn  
sut TFi,j ca ꢀ꣕c trưng ni dung ki trong sn phm pj ꢀưꢅc xác ꢀꢺnh theo công  
thc (1.1).  
fi, j  
TF =  
(1.1)  
i, j  
maxz fz, j  
ꢦ ꢀây, max z fz, j là sln xut hin nhiu nht ca ꢀ꣕c trưng ni dung kz  
trong sn phm pj.  
Tuy nhiên, nhng ꢀ꣕c trưng ni dung xut hin trong nhiu sn phm không  
ꢀưꢅc dùng ꢀꢗ xem xét mc ꢀꢏ tương tgia các sn phm, thm chí nhng ꢀ꣕c  
trưng ni dung này không cha ꢀꢈng nhiu thông tin phn ánh ni dung sn  
phm. Chính vì vy, tn sut xut hin ngưꢅc IDFi, kt hp vi tn sut TFi,j cho  
phép ta chú ý nhiu hơn ꢀꢃn nhng ꢀ꣕c trưng ni dung có trong sn phm này  
nhưng ít xut hin trong các sn phm khác.  
Phương pháp xác ꢀꢺnh tn sut xut hin ngưꢅc ꢀưꢅc thc hin như sau. Giꢄ  
shN sn phm cn ꢀưꢅc phân bhoc tư vn cho ngưꢙi dùng và ꢀ꣕c trưng  
ni dung ki xut hin trong ni sn phm. Tn sut xut hin ngưꢅc IDFi ca ꢀ꣕c  
trưng ni dung ki có tn sut xut hin trong sn phm pj TFi,j ꢀưꢅc xác ꢀꢺnh  
theo công thc (1.2), mc ꢀꢏ quan trng hay trng sca ꢀ꣕c trưng ni dung ki  
ꢀưꢅc xác ꢀꢺnh theo công thc (1.3).  
26  
N
ni  
IDF = log  
(1.2)  
(1.3)  
i
wi, j = TF × IDF  
i, j  
i
Trong công thc 1.2, nu ni N hay ꢀ꣕c trưng ni dung ki xut hin trong ꢀꢒi  
a scác sn phm cn phân bꢠ ꢀꢃn ngưꢙi dùng thì trng swi,j 0. Nói cách  
khác, nhng ꢀ꣕c trưng ni dung có trong mi sn phm thì ꢀ꣕c trưng ó không  
cha nhiu ni dung thông tin phn ánh sn phm. Ngưꢅc li, nu ꢀ꣕c trưng ni  
dung chxut hin trong mt sn phm thì ni = 1, khi ó wi, j = TFi,j. Như vy,  
nhng ꢀ꣕c trưng ni dung chxut hin mt loi sn phm và không xut hin ꢶ  
nhng sn phm khác thì nhng ꢀ꣕c trưng ni dung này cha nhiu ni dung  
quan trng ꢀꢌi vi sn phm.  
Bng cách ưꢆc lưꢅng này, mi sn phm pjP ꢀưꢅc biu din như mt véc  
tơ trng scác ꢀ꣕c trưng ni dung Content(pj) = (w1,j, w2,j,..,wK,j). Trong ó, K là sꢌ  
lưꢅng ꢀ꣕c trưng ni dung ca toàn bsn phm.  
Phꢔơng pháp biu din hsơ ngꢔꢃi dùng:  
Mi hsơ ngưꢙi dùng ContentBasedProfile(u) cng ꢀưꢅc biu din bng  
mt véc tơ trng scác ꢀ꣕c trưng ni dung (w1,u, w2,u,.., wK,u) , trong ó mi wk,u  
biu thmc ꢀꢏ quan trng ca ꢀ꣕c trưng ni dung k ꢀꢌi vi ngưꢙi dùng u. Véc tơ  
trng s(w1,u, w2,u,.., wK,u) ꢀưꢅc tính toán bng các kthut khác nhau tvéc tơ  
hsơ sn phm ã ꢀưꢅc ngưꢙi dùng thưꢙng xuyên truy cp hoc ánh giá.  
Balabanovic [69] tính toán véctơ trng smi hsơ ngưꢙi dùng  
ContentBasedProfile(u) bng cách ly trung bình cng véc tơ trng sContent(pj)  
trên các tài liu pjP mà ngưꢙi dùng ã tng truy cp hoc ánh giá. Pazzani [74]  
sdng bphân loi Bayes ưꢆc lưꢅng khnng ging nhau ca sn phm và ꢀꢇ  
xut thut toán Winnow thc hin trong nhng trưꢙng hp có nhiu ꢀ꣕c trưng ni  
dung.  
27  
Xác ꢒꢫnh mc ꢒꢣ tꢔơng t:  
Vi cách biu như trên, véctơ trng scác ꢀ꣕c trưng ni dung sn phm  
ContentBasedProfile(u) và Content(p) có cùng schiu và ưꢆc lưꢅng theo cùng  
mt phương pháp (trong trưꢙng hp này là TF-IDF). Vic xác ꢀꢺnh mc ꢀꢏ thích  
hp ca mi sn phm pP cho ngưꢙi dùng u ꢀưꢅc xem xét theo mc ꢀꢏ ging  
nhau gia véc tơ hsơ ngưꢙi dùng uU và véc htơ sn phm pP.  
r(u, p) = Sim(ContentBased Profile(u),Content(p))  
(1.4)  
Phương pháp ưꢆc lưꢅng mc ꢀꢏ ging nhau gia véc tơ hsơ ngưꢙi dùng  
uU và véc tơ hsơ sn phm pP ꢀưꢅc dùng phbin là tìm cosin ca hai véc  
tơ trng sꢌ  
và  
.
wu  
wp  
w u .w p  
(
)
r (u, p) = cos w u , w p  
=
w u × w p  
2
2
(1.5)  
K
i=1 wi,u wi, p  
=
,
K
K
i=1 wi2,u  
i=1 wi2, p  
ꢦ ꢀây, K slưꢅng ꢀ꣕c trưng ni dung ca hthng. Trong công thc 1.5,  
nu cosin ca hai véc tơ gn vi 1, hay góc to bi hai véc tơ này nhthì mc ꢀꢏ  
tương tgia hsơ ngưꢙi dùng và hsơ sn phm càng cao. Ngưꢅc li, nu cosin  
ca hai véc tơ gn vi 0, hay góc to bi hai véc tơ ln thì mc ꢀꢏ phù hp ca  
sn phm vi hsơ ngưꢙi dùng càng thp. Vi cách o này, nu ngưꢙi dùng u  
truy nhp nhiu sn phm liên quan ꢀꢃn mt chꢂ ꢀꢇ nào ó thì hthng lc theo  
ni dung sphân bnhng sn phm ca chꢂ ꢀꢇ ꢀó cho ngưꢙi dùng u.  
Ngoài cosin, các ꢀꢏ ꢀo tương tkhác như khong cách Euclid hay ꢀꢏ tương  
quan Pearson cng ꢀưꢅc sdng trong nhng nghiên cu khác nhau.  
1.2.2.2. Lc ni dung da vào mô hình  
Lc ni dung da trên mô hình là phương pháp sdng tp hsơ sn phm  
và tp hsơ ngưꢙi dùng ꢀꢗ xây dng nên mô hình hun luyn. Mô hình dꢈ ꢀoán  
sau ó ssdng kt quca mô hình hun luyn ꢀꢗ sinh ra tư vn cho ngưꢙi  
28  
dùng. Trong cách tip cn này, lc ni dung có thsdng các kthut hc máy  
như mng Bayes, phân cm, cây quyt ꢀꢺnh, mng nơron nhân to ꢀꢗ to nên dꢈ  
oán.  
Pazzani và Billsus [73] sdng bphân loi Bayes da trên nhng ánh giá  
thích” hoc “không thích” ca ngưꢙi dùng ꢀꢗ phân loi các sn phm. Trong ó,  
phương pháp ưꢆc lưꢅng xác sut sn phm pj có thuc lp Ci hay không da vào  
tp các ꢀ꣕c trưng ni dung k1,j ,..,kn,j ca sn phm ó.  
(1.6)  
P
(
Ci | k1, j & k2, j &..& kn, j  
)
Panzanni và Billsus githit các ꢀ꣕c trưng ni dung xut hin ꢀꢏc lp nhau,  
vì vy xác sut trên tương ng vi:  
P(C ) P(k |C )  
(1.7)  
i
x, j  
i
x
P (kx,j| Ci) và P (Ci) có thꢗ ưꢆc lưꢅng da vào tp dliu hun luyn. Do  
vy, sn phm pj ꢀưꢅc xem là thuc lp Ci nu xác sut  
(
)
có giá trcao nht thuc lp này.  
P Ci | k1, j & k2, j &.. & kn  
,
j
Solombo [42] ꢀꢇ xut mô hình lc thích nghi, trong ó chú trng ꢀꢃn vic  
quan sát mc phù hp ca tt ccác sn phm. Zhang [112] ꢀꢇ xut mô hình ti  
ưu tp các sn phm tương tda vào giá trngưꢖng. Trong ó, giá trngưꢖng  
ꢀưꢅc ưꢆc lưꢅng da trên tp sn phm thích hp và tp tài liu không thích hp  
vi mi hsơ ngưꢙi dùng.  
1.2.3. Nhng vn ꢒꢬ tn ti  
Mc dù lc theo ni dung ã áp dng thành công cho nhiu ng dng lc  
vn bn, tuy vy phương pháp vn tn ti mt svn ꢀꢇ cn tip tc nghiên cu  
gii quyt [36, 107].  
Vn đề trích chn đặc trưng. Lc theo ni dung ktha và phát trin da  
chyu vào các phương pháp trích chn ꢀ꣕c trưng trong lnh vc truy vn  
thông tin. ꢜꢗ có mt tp các ꢀ꣕c trưng ꢀꢝy ꢀꢂ, ni dung tài liu phi ꢀưꢅc  
biu din dưꢆi ꣄ꢒng ꣉ꣃꣅꣁhp ꢀꢗ máy tính có thtꢈ ꢀꢏng phân tích, tính  
toán trng scác ꢀ꣕c trưng ni dung hoc phi ꢀưꢅc thc hin bán tꢈ  
ꢀꢏng. Phương pháp skhó áp dng trong nhng trưꢙng hơp vic trích  
29  

Tải về để xem bản đầy đủ

pdf 136 trang yennguyen 25/04/2025 30
Bạn đang xem 30 trang mẫu của tài liệu "Báo cáo Phát triển một số phương pháp lọc thông tin cho hệ tư vấn", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbao_cao_phat_trien_mot_so_phuong_phap_loc_thong_tin_cho_he_t.pdf