Luận văn Nghiên cứu giải pháp lọc nội dung Internet tại máy tính cá nhân và xây dựng phần mềm

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Phm Tiến Dũng  
NGHIÊN CU GII PHÁP  
LC NI DUNG INTERNET TI MÁY TÍNH CÁ NHÂN  
VÀ XÂY DNG PHN MM  
LUẬN VĂN THẠC SĨ  
Hà Ni – 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Phm Tiến Dũng  
NGHIÊN CU GII PHÁP  
LC NI DUNG INTERNET TI MÁY TÍNH CÁ NHÂN  
VÀ XÂY DNG PHN MM  
Ngành : Công nghThông tin  
Chuyên ngành : Hthng Thông tin  
Mã s: 60 48 05  
LUẬN VĂN THẠC SĨ  
NGƯỜI HƯỚNG DN KHOA HC:  
PGS. TS. HÀ QUANG THY  
Hà Ni - 2009  
LỜI CAM ĐOAN  
Tôi xin cam đoan nội dung bn luận văn chưa từng được công bhay xut bn  
dưới bt khình thc nào và cũng không được sao chép tbt kmt công trình  
nghiên cu nào.  
Toàn bộ ứng dng thnghiệm đều do tôi tthiết kế và xây dng.  
Nếu sai tôi xin hoàn toàn chu trách nhim.  
Hà Ni, tháng 08 năm 2009  
Người cam đoan  
Phm Tiến Dũng  
LI CẢM ƠN  
Em xin chân thành cảm ơn các Thầy giáo, Cô giáo trong khoa Công nghệ  
thông tin và các cán b, nhân viên phòng Đào tạo Sau đại học, trường Đại hc  
Công nghệ, Đại hc Quc gia Hà Nội đã luôn nhit tình giúp đỡ và tạo điều kin tt  
nht cho em trong quá trình hc tp tại trường.  
Xin chân thành cảm ơn các anh, chị và các bn hc viên lp Cao hc K12T3 -  
trường Đại hc Công ngh- Đại hc Quc gia Hà Nội đã luôn động viên, giúp đỡ  
và nhit tình chia svi em nhng kinh nghim hc tp, công tác trong sut khoá  
hc.  
Đặc bit em xin bày tlòng biết ơn sâu sắc đến thy giáo PGS.TS. Hà Quang  
Thy đã tn tình giúp đỡ em định hướng xây dng, nghiên cu phát trin và hoàn  
chnh luận văn.  
Mặc dù đã có nhiu cgng, song bài luận văn không tránh khỏi nhng khiếm  
khuyết do shn hp vthi gian và điều kin nghiên cu. Em chân thành mong  
nhận được nhng ý kiến đóng góp quý báu ca các thy cô giáo nhằm giúp đề tài  
ca luận văn ngày mt hoàn thin và có tính phdụng trong tương lai.  
MC LC  
MC LC.........................................................................................................................i  
DANH SÁCH HÌNH V................................................................................................. ii  
MỞ ĐẦU........................................................................................................................ iii  
Chương 1 - TNG QUAN LC NI DUNG INTERNET ...............................................1  
1.1. Đánh giá tình hình nghiên cu thuc lĩnh vực đề tài ...............................................1  
1.1.1. Thế gii ...........................................................................................................1  
1.1.2. Ti Vit Nam ...................................................................................................3  
1.2. Thc trng lc ni dung truy cp hin nay..............................................................4  
Chương 2 - MT SNỘI DUNG CƠ BẢN VỀ PHƯƠNG PHÁP LỌC INTERNET......7  
2.1. Bin pháp lc .........................................................................................................7  
2.2. Phương pháp lọc.....................................................................................................8  
2.2.1. Lọc địa chIP...................................................................................................8  
2.2.2. Lọc địa chURL ..............................................................................................9  
2.2.3. Lc tkhóa......................................................................................................9  
2.2.4. Lc cm t.....................................................................................................10  
2.2.5. Lc nh..........................................................................................................10  
2.3. Vtrí thc hin lc................................................................................................11  
2.3.1. Lc ti cng Internet quc gia........................................................................11  
2.3.2. Lc ti cng Internet mng LAN....................................................................11  
2.3.3. Lc thông qua bên thba...............................................................................12  
2.3.4. Lc ti máy tính cá nhân ................................................................................12  
Chương 3 - GII PHÁP LC NI DUNG INTERNET.................................................13  
3.1. Gii pháp ti cng Internet quc gia .....................................................................13  
3.1.1. Kiến trúc hthng..........................................................................................13  
3.1.2. Hoạt động ......................................................................................................15  
3.1.3. Phân tích các thành phn................................................................................16  
3.2. Gii pháp ti cng Internet ca mng LAN...........................................................19  
3.2.1. Kiến trúc tng quan........................................................................................19  
3.2.2. Gii thuật và cơ chế hoạt động.......................................................................19  
3.3. Gii pháp trc tiếp trên máy tính cá nhân .............................................................24  
3.3.1. User mode: ly ni dung tlp ng dng (Application).................................25  
3.3.2. User Mode: ly ni dung tlp phiên (Session).............................................29  
3.3.3. Kernel mode: ly ni dung tlp mng (IP) ..................................................32  
3.3.4. Kernel mode: cơ chế nghe lén (sniffer) ..........................................................35  
3.4. Đề xut gii pháp..................................................................................................36  
3.4.1. Đánh giá gii pháp trc tiếp ...........................................................................36  
3.4.2. Đề xut ..........................................................................................................37  
Chương 4 - GII PHÁP LC NI DUNG VÀ XÂY DNG PHN MM TI MÁY  
TÍNH CÁ NHÂN............................................................................................................39  
4.1. Gii thut..............................................................................................................39  
4.2. Hoạt động.............................................................................................................40  
4.3. Phân tích các thành phn ......................................................................................41  
4.3.1. Thành phn ly dliu...................................................................................41  
4.3.2. Thành phn phân tích ni dung gói tin ...........................................................45  
4.3.3. Thành phn tách, tng hp gói tin thành phiên giao dch................................48  
4.3.4. Thành phn lc cth, lc loi tr.................................................................51  
4.3.5. Thành phn lc ni dung................................................................................52  
4.3.6. Thành phn qun lý ng dng........................................................................54  
4.3.7. Thành phn ghi log truy cp...........................................................................56  
4.3.8. Thành phn qun lý lut truy cp ...................................................................56  
4.4. Chương trình thnghim .....................................................................................57  
4.4.1. Kết quả chương trình thnghim...................................................................57  
4.4.2. So sánh với chương trình cùng loi ................................................................58  
KT LUN ....................................................................................................................60  
TÀI LIU THAM KHO...............................................................................................61  
DANH SÁCH HÌNH VẼ  
Hình 2.1. Lc ti cng Internet quc gia .........................................................................11  
Hình 2.2. Lc thông qua bên thba ................................................................................12  
Hình 2.3. Lc ti máy tính cá nhân .................................................................................12  
Hình 3.1. Hthống tưởng la hin ti ca các ISP ..........................................................14  
Hình 3.2. Kiến trúc hthng lc ni dung Internet ti ISP ..............................................15  
Hình 3.3. Gateway Filter lc cho mt mng LAN...........................................................19  
Hình 3.4. Sơ đồ gii thut lc cho mng LAN 1..............................................................20  
Hình 3.5. Sơ đồ gii thut lc cho mng LAN 2..............................................................22  
Hình 3.6. Sơ đồ gii thut lc cho mng LAN 3..............................................................23  
Hình 3.7. Sơ đồ gii thut lc cho mng LAN 4..............................................................24  
Hình 3.8. Ni dung kim soát ly tca strình duyt...................................................26  
Hình 3.9. Sơ đồ gii thut User mode (ly ni dung lp ng dng).................................27  
Hình 3.10. Hook Firewall User Mode..........................................................................30  
Hình 3.11. Sơ đồ gii thut User mode (ly ni dung lp phiên).....................................31  
Hình 3.12. Các chế độ Hook Firewall trên Windows ......................................................33  
Hình 3.13. Sơ đồ gii thut Kernel mode (ly ni dung lp IP).......................................34  
Hình 4.1. Sơ đồ gii thut lc ni dung trc tiếp trên máy tính cá nhân...........................39  
Hình 4.2. Phân lp xlý gói tin ......................................................................................41  
Hình 4.3. Sơ đồ xlý tng quát gii pháp lc ni dung...................................................42  
Hình 4.4. Quy trình ghi log truy cp ...............................................................................42  
Hình 4.5. Cu trúc dliu tng Transport .......................................................................43  
Hình 4.6. Cu trúc dliu tng Network.........................................................................44  
Hình 4.7. Cu trúc dliu tng DataLink........................................................................44  
Hình 4.8. Cu trúc gói tin ly dliu..............................................................................45  
Hình 4.9. Các gói tin dng thô và đưc phân tích theo tng lp mng.............................47  
Hình 4.10. Dliu tng TCP/IP ca mt gói tin..............................................................48  
Hình 4.11. Header file nh..............................................................................................48  
Hình 4.12. Header file text/html......................................................................................49  
Hình 4.13. Gói tin đu tiên ca mt phiên giao dch........................................................49  
Hình 4.14. Tham sSeq và Ack......................................................................................49  
Hình 4.15. Tham sSeq và Ack gói tin kế tiếp ...............................................................50  
Hình 4.16. Tng hợp các gói tin đơn lẻ thành phiên giao dch.........................................50  
Hình 4.17. Trích đoạn danh sách lọc đang được áp dng cho mng VNN.......................51  
Hình 4.18. Gói tin request(Get).......................................................................................52  
Hình 4.19. Ánh xtên tiến trình và cổng tương ứng........................................................55  
Hình 4.20. Ánh xchi tiết PID (Process number) và scng ..........................................55  
Hình 4.21. Tng hp ghi log...........................................................................................56  
Hình 4.22. Cp nht lut truy cp tserver .....................................................................57  
MỞ ĐẦU  
Mạng Internet ra đời và phát trin thành mt kho dliu khng l, bao gm  
đầy đủ các khía cnh về văn hoá, chính trị, khoa hc - kthut,... Vi sự đa sắc  
màu văn hoá trên thế giới, đa tín ngưỡng, đa lối sống, đa tư duy,… đã làm cho  
thông tin trên Internet luôn song hành tính tích cc và tiêu cc trong ni tại. Ưu thế  
tcông nghInternet làm cho sc thâm nhp ca kênh thông tin quan trọng này đối  
với người sdng rt rng ln và nhanh chóng. Các khía cnh xu - độc hi trong  
xã hi cũng theo đường Internet để thâm nhp vào mỗi gia đình, mỗi con người.  
Chính vì lý do đó, công việc htrqun lý và đảm bo an toàn – an ninh thông tin  
trên mạng Internet đã trthành mi quan tâm ca mỗi gia đình, mi tchc, mi  
quc gia.  
Về phương diện gia đình, mi quan tâm ca các bc phụ huynh là ngăn ngừa  
vic thâm nhập các trang Web độc hại đối vi con em mình. Về phía cá nhân người  
sdng, khai thác được nhng thông tin tích cc và ngăn ngừa tiếp xúc web độc  
hi do vô tình hay cý.  
Trong nhng năm gần đây, lĩnh vực nghiên cu phát trin hthng lc ni  
dung htrqun lý và đảm bo an toàn – an ninh thông tin trên mng Internet nhn  
được sự quan tâm đặc bit hu hết các quc gia trên thế gii.  
Ti Vit Nam, gii pháp cp quốc gia đã được Nhà nước chỉ đạo các ban  
ngành liên quan nghiên cứu và đề xut. Tuy nhiên trước thc tế nhu cu cn gii  
pháp lc ni dung truy cp của người sdng Internet, tìm hiu và xây dng gii  
pháp lc ni dung truy cp trc tiếp trên máy tính cá nhân hiện đang là mục tiêu  
nghiên cu ca nhiu cá nhân, tp thể và đây chính là mục tiêu ca luận văn này.  
Chương thứ nht ca luận văn trình bày tng quan vlc ni dung Internet  
trên thế gii và ti Vit Nam, phân tích thc trng vlc ni dung truy cp hin nay  
trên phương diện về chính sách quy định của Nhà nước cũng như yêu cầu đặt ra đối  
vi các công cphn mm.  
Chương thứ hai ca luận văn trình bày các nội dung cơ bản liên quan đến vn  
đề lc ni dung truy cp Internet, bao gm: bin pháp lọc, phương pháp lọc và vtrí  
thc hin lc.  
Da trên vic phân tích vvtrí thc hin lc nội dung đã trình bày trong  
chương hai, chương thứ ba trình bày vcác gii pháp lc ni dung truy cp ti cng  
Internet Quc gia, ti cng Internet ca mng LAN và gii pháp trc tiếp trên máy  
tính cá nhân.  
Cuối cùng, chương thứ tư trình bày vgii pháp và xây dựng chương trình lc  
ni dung truy cp Internet tại máy tính cá nhân. Trong các trường hp thnghim,  
chương trình đã hoạt động đúng chức năng đặt ra.  
Chương 1 - TNG QUAN LC NI DUNG INTERNET  
1.1. Đánh giá tình hình nghiên cu thuc lĩnh vực đề tài  
1.1.1. Thế gii  
Hu hết các nước trên thế gii đều xây dng và thc hin các chính sách quc  
gia van toàn – an ninh Internet, trong đó đặc bit chú ý ti vấn đề lc ni dung  
trên Internet. Ngoài mt scông bvvấn đề lc nội dung đối với nước M[ 1 ],  
mt scông trình nghiên cu vlc ni dung trên Internet điển hình đối vi mt số  
nước khác đã được tchc The OpenNet Initiative - ONI (Tchc cng tác, phi  
hp nghiên cu ca the Citizen Lab thuc Munk Centre for International Studies ti  
University of Toronto) tng hp và công bti trang Web với địa chỉ  
http://www.opennetinitiative.net/. Đây là một tchc có nhim vụ điều tra nghiên  
cu vtình trng giám sát và lc thông tin trên thc tế ti các quốc gia, để từ đó tìm  
ra nhng ảnh hưởng đến chquyền đất nước, các tác động đến người sdng,... Để  
đạt được mục đích đó, ONI sử dng mt cách tiếp cn kết hợp các phương tiện kỹ  
thut tiên tiến (các công cgiám sát mng tinh vi, các kthuật đánh giá phù hợp  
vi tng hoàn cnh cth,…) và năng lực vtri thức địa phương dựa trên quan hệ  
hp tác gia các nhà nghiên cu và chuyên gia trên toàn thế gii.  
Một điều đặc biệt đáng chú ý, do tm quan trng ca vic bảo đảm an toàn-an  
ninh thông tin trên mng din rng nói chung và mng Internet nói riêng, hu hết  
chính phủ các nước đều thành lp các cơ quan cp nhà nước tiến hành các hot  
động nghiên cu và triển khai đối với công tác đảm bo an toàn an ninh Internet,  
trong đó có vấn đề lc ni dung trên Internet.  
Mỹ được coi là quc gia xut phát ca công nghInternet, vấn đề bảo đảm an  
toàn an ninh trên mng Internet của nước Mỹ đã được đề cập đến ngay tnhng  
ngày đầu xut hiện Internet. Đồng thi với các đạo lut an ninh mng trong các  
giao dịch điện t, vấn đề lc nội dung Internet, đặc biệt đối vi vic truy nhp  
Internet ca trẻ em, đưc quan tâm rt sm.  
Trong báo cáo được công bvào tháng 12/2005, Marcia S. Smith [ 1 ] đã tng  
hợp và phân tích các văn bản pháp lý điển hình của nước Mvvấn đề lc Internet  
1
đối vi trem bao gồm các văn bản the 1996 Communications Decency Act (CDA),  
the 1998 Child Online Protection Act (COPA), the 2000 Children’s Internet  
Protection Act (CIPA - http://www.ala.org/CIPA/), the 2002 “Dot Kids” Act (P.L.  
107-317) the 2003 “Amber Alert” Act (P.L. 108-21). Thêm na, có ti 21 bang  
của nước Mbsung các lut lc Internet áp dụng cho các trường phổ thông và thư  
vin công cng, bao gm cả đòi hi bt buc phi sdng các blc Internet. Hai  
bang Texas và Utah còn có các đạo luật riêng đối vi nhà cung cp dch vInternet  
hoc nhà cung cp máy tính về các điều khoản đm bảo cơ chế lc Internet.  
Vic sdng Internet ca trẻ em đã đặt ra cho các bc phhuynh thêm nhiu  
mi quan tâm, lo lng vcác him ha mới, trong đó có hiện tượng trem sdng  
“blog” để đưa nhật ký cá nhân trên mng. Vì vậy, các gia đình Mỹ đã sdng các  
phương tin kthuật để đảm bo an toàn truy nhp Internet cho con em mình. Theo  
kết qunghiên cu ca Amanda Lenhart, số lượng gia đình có trvthành niên kết  
ni Internet trc tuyến đã sdng blọc Internet ngày càng tăng và đạt ti 54%  
vào tháng 3-2005. Hin nay, hu hết các trường học và thư viện trên khắp nước Mỹ  
đều sdng nhng hthng lc Internet có quy lut lc ràng buc trong lut lc  
(National Conference of State Legislatures).  
Nhiu sn phm phn mm lc nội dung đã được công bố và được sdng từ  
rt sm. Dán The InFoPeople Project kết thúc vào năm 2001 [ 1 ], cung cp mt  
cái nhìn tng quát vhoạt động lc ni dung trên Internet tại nước Mỹ, đặc biệt đã  
cung cấp các đánh giá xác đáng về các sn phm phn mm lc ni dung điển hình  
như CyberPatrol, i-Gear, i-Prism, N2H2, S4F, SmartFilter, Web Inspector,  
WebSense, X-Stop.  
Tuy là nước có hthống phương tiện hiện đại trong việc đảm bo an ninh  
quốc gia, nhưng trong không ít tình hung, chính quyn Mỹ đã phi sdng nhiu  
giải pháp đa dạng, trong đó có các giải pháp về pháp lý, để tiến hành công vic lc  
nội dung thông tin trên các đường truyn thông tin công cng.  
Tóm li, trên cả phương diện an ninh quc gia cũng như phương diện an toàn  
truy nhp Inernet ca công dân (đặc biệt đối vi trẻ em), nước Mỹ đã trin khai  
nhiu gii pháp vpháp lý, vkhoa hc và công nghtrong vic mrng các hình  
thc lọc Internet. Theo đó, nhiều dự án đã được trin khai và nhiu phn mềm đã  
được phát trin.  
2
1.1.2. Ti Vit Nam  
Sau khi Nghị đnh 55/2001/NĐ-CP ra đời Internet Vit Nam phát trin mnh  
đã khẳng định ltrình phcp và xã hi hoá Internet của nhà nước đã đi đúng  
hướng. Nhnhng chính sách qun lý hp lý và phù hp vi xu thế phát trin cũng  
như với quan điểm rt mi “qun lý phi theo kp yêu cu ca sphát trin”,  
Internet Việt Nam đã phát trin vi tốc độ chóng mặt, giá cước Internet liên tc  
được gim xung, số lượng người sdụng Internet gia tăng ngày càng nhanh đặc  
bit là khách hàng thuc nhóm thuê bao cá nhân hộ gia đình.  
Theo sliu thng kê ca Trung tâm Thông tin mng Internet Vit Nam  
(VNNIC) [ 18 ], tính đến hết tháng 04/2008, số lượng thuê bao Internet Vit Nam  
đã đạt con s5,6 triu thuê bao, khong 19,5 triệu người sdụng Internet, đạt mt  
độ 23,12%. Trong đó các điểm truy cp Internet công cộng đã phát trin nhanh  
chóng, tính riêng ISP VDC đã có tới hơn 20.000 điểm truy cập là đại lý chính thc,  
chưa tính đến các điểm truy cp không phi là đại lý. Tình hình truy cp tại đây rất  
tự do, không được qun lý cht chẽ, các đại lý cũng không thể theo dõi qun lý ni  
dung truy cp ca khách hàng, không tchức nào đứng ra đảm bo vni dung  
truy cp ở đây là lành mạnh. Tình trng truy cp tự do như hin nay ảnh hưởng rt  
ln ti tình hình an ninh xã hi.  
Song hành vi sphát trin ca Internet là nhng vấn đề tiêu cc: các hot  
động phm pháp trên Internet có ảnh hưởng xấu đến an ninh trt t, an ninh quc  
gia, vi phm luật pháp và văn hóa Việt nam ngày càng gia tăng.  
Mt trái ca vic phát trin phcp thông tin ti những điểm truy cp công  
cng thhin ra và đã được xã hi quan tâm, tuy nhiên mt mng khác ca Internet  
cũng đang ảnh hưởng rt ln ti xã hội đó là các thuê bao cá nhân hộ gia đình. Vn  
đề có thxảy ra đối với người sdng cá nhân khi truy cp vào Internet:  
o Vô tình tiếp xúc với thông tin độc hi: vào nhầm địa ch, virus, spyware,…  
o Hn chế tiếp xúc của con em trong nhà đối vi thông tin Internet.  
o Nhu cu qun lý struy cp thông tin ti các phòng máy: trường hc, điểm  
cung cp dch vInternet công cộng, cơ quan tổ chc,…  
Đa phần người dùng Internet cá nhân ti Vit Nam hiện nay đều không được  
bo vệ đúng mức trước các thông tin độc hi khi tiếp xúc với môi trường Internet.  
Đứng trước sphát trin như vũ bão ca Internet như hiện nay, vic qun lý  
3
ni dung truy cp là mt vấn đề cp bách cần được quan tâm xlý kp thi. Nhng  
trang web được coi là trái vi lut pháp Vit Nam trên Internet là rt ln (web  
“đen”), đặc bit là chúng luôn phát trin, thay hình đổi dng, khiến cho việc đưa ra  
mt chun thế nào là một trang web đen rất khó khăn. Vic truy cập web đen, thông  
tin độc hại, phát tán virus... hiện đang không được kim soát tại các điểm truy cp  
internet công cng, cá nhân hộ gia đình. Chvi mt vài tkhóa qua các công cụ  
tìm kiếm, hàng nghìn trang web vi ni dung trái vi pháp lut Vit Nam đã hin  
thra. Số lượng các web đen bằng tiếng Vit thi gian gần đây xuất hin ngày càng  
nhiu. Các gii pháp kthut kết hp vi kim tra hành chính đã được tiến hành  
nhưng hiu qucông vic hin tại không đạt được như mong muốn. Internet là  
không biên gii, nếu nhng nội dung đồi trụy, phi đạo đức vi phm pháp luật được  
đặt ti các máy chủ ở nước ngoài thì vic xlý gp rt nhiều khó khăn, thm chí là  
không th.  
Do đó, để kim soát tốt hơn tình trạng này, cn phải kết hp vic ci tiến gii  
pháp kthut vi các công tác hành chính, giáo dc ý thc... Trong đó, ci tiến giải  
pháp kỹ thut được coi là giải pháp trước nht. Các nhà cung cp dch vISP là các  
đơn vị có trách nhim ở đây. Nhiều ý kiến cho rng cn phát trin mạnh hơn nữa  
các hthng lc web đen ở ngay cng Internet quc gia, yêu cu các nhà cung cp  
dch vụ đường truyn (IXP) và cung cp dch vInternet (ISP) thiết lp hthng  
tường la hu hiu. Tuy nhiên, các gii pháp đang áp dụng hin nay vẫn không đủ  
để phong ta những web độc hi, vn cc kỳ linh động (thường xuyên đổi địa chỉ  
tên miền và địa chỉ IP..., vượt qua tường la). Mt khác, vic lc tcng quc gia -  
nơi tập trung lưu lượng thông tin khng lqua li - gây ảnh hưởng đến tốc độ ca  
hthống, đối vi nhng hthng tường la hin nay việc đầu tư nâng cấp trang  
thiết bị không đáp ứng kp vi tiến độ phát trin ca Internet.  
1.2. Thc trng lc ni dung truy cp hin nay  
Hin nay do tốc độ phát trin nhanh chóng ca Internet vi nhiu kết nối băng  
rng, nhu cầu đường truyn quc tế gia tăng, hệ thng tường la ca các ISP không  
đáp ứng được yêu cu và thường xuyên bquá ti dn ti bqua không lc các  
trang web độc hi. Vấn đề xlý web đen hin đang là yêu cu bc xúc và là mi  
quan tâm hàng đu ca toàn xã hi.  
Ti Vit Nam, nhu cu có mt gii pháp phn mm htrcho các vphụ  
huynh bo vcon em mình khỏi các thông tin độc hại, giúp cho các điểm Internet  
4
công cng ngăn chặn đưc các truy cp vào trang web đen, giúp cho người dùng cá  
nhân tránh vô tình truy cập web đen,… là rt cn thiết. Đó là giải pháp tối ưu, tin  
dụng, đáp ứng được phần đa nhu cầu cá nhân sdng Internet hin nay trong lúc  
đợi các nhà cung cp dch vụ ISP và Nhà nước xây dng được mt gii pháp tng  
th, thng nht.  
Lc Internet nói chung (lc ni dung nói riêng) liên quan ti vic hn chế khả  
năng thâm nhập Internet của người dùng để ngăn chặn vic truy nhp ti các trang  
Web có ni dung xu. Vic lc ni dung vhình thc có vmâu thun vi quan  
nim tdo khai thác thông tin trên Internet vì vy vic hn chế khả năng thâm nhp  
Internet cần được đảm bo bng pháp lut. Chính vì lẽ đó, cùng với vic nghiên  
cu, phát triển các phương tiện lc ni dung trên Web, mi quc gia cũng cần xây  
dng mt hthống văn bản pháp lý đối vi vic lc thông tin nhằm đảm bo tính  
hp thc ca mi hoạt động cn thiết liên quan.  
Hành đng của nhà nước đối vi vấn đchng truy cập web đc hi  
Các cơ quan chức năng rất quan tâm đến tình hình qun lý ni dung truy cp  
Internet, liên tc đưa ra những qui định vqun lý truy cp Internet. Cthhóa sự  
quan tâm đó là Thông tư 02 (02/2005/TTLT-BCVT-VHTT-CA-KHĐT), có qui  
định "Quyn và nghĩa vụ của đại lý Internet": các đại lý cần cài đặt chương trình  
phn mm quản lý đồng thi thc hin các gii pháp kthuật đảm bảo ngăn chặn  
người sdng truy cập đến các trang web có ni dung xấu trên Internet. Đại lý  
Internet chỉ được cung cp ni dung thông tin về người sdụng cho các cơ quan  
Nhà nước có thm quyn.  
Thông tư liên tịch s02/2005/TTLT-BCVT-VHTT-CA-KHĐT về quản lý đại  
lý Internet ra đời tạo điều kiện thúc đẩy phát triển đại lý Internet theo đúng quy  
định ca pháp luật, hướng dẫn tăng cường qun lý vic phát hành, khai thác, sử  
dng thông tin qua Internet và các hoạt động khác theo quy định ca pháp lut,  
ngoài ra giúp ngăn ngừa hoạt động vi phm pháp lut thông qua vic sdng dch  
vInternet tại các đại lý Internet công cng. Nhim vụ đặt ra ở đây cho các cơ quan  
qun lý là đảm bo sphát trin, phát huy tối đa hiệu quca Internet, mang tri  
thc nhân loi phc vcho snghip công nghip hóa, hiện đại hóa đất nước, đồng  
thi hn chế thp nht nhng ảnh hưởng tiêu cc của Internet. Văn bản này khi đi  
vào cuc sng scó tính hiu lc và hiu ququản lý đại lý Internet rt cao. Tuy  
nhiên vi sphát trin ca Internet Vit Nam vic giám sát hoạt động của các đại  
5
lý Internet theo yêu cu qun lý của cơ quan Nhà nước nếu không có công ckỹ  
thut hiu quthì rất khó khăn.  
Trong khi các cơ quan chức năng đang xây dựng gii pháp tng thxlý vn  
đề này thì người dùng Internet tìm đến vi các công c(phn cng và phn mm)  
nhằm ngăn chặn web độc hại. Các chương trình này hoạt động theo mt snguyên  
tắc chung như lc theo địa chỉ IP, địa chURL, theo tkhóa có trong ni dung ca  
website,....  
Khái niệm website độc hi  
Hin tại Web độc hại đưc chia ra làm hai dng: thnht là nhng trang web  
cha nhng ni dung bo lc, khiêu dâm… nhng ni dung trái với văn hóa của  
Vit Nam; thứ hai đó là nhng trang web mang tính chính tr, mang tính cht phá  
hoi an ninh quc gia.  
Như đã trình bày trên, việc đánh giá thế nào là một trang web độc hại đang  
là vấn đề chưa hoàn toàn rõ ràng. Bi ltrên thc tế, nhiều trường hp rất khó để  
đánh giá nội dung một trang web có độc hi hay không. Ví dnhiu trang web có  
thể là độc hi với đối tượng học sinh nhưng lại không độc hi vi những đối tượng  
khác, có nhng trang web có tính giáo dc vgii tính li dbnhm là trang web  
đen…  
Tuy nhiên những đánh giá mang tính tương đối nếu áp dng vào thc tế để  
ngăn chặn cũng có thể hn chế được đa số các trang web độc hi, vi hiu sut trên  
80% có thể coi là đạt yêu cu qun lý [ 3 ].  
6
Chương 2 - MT SNỘI DUNG CƠ BẢN VỀ PHƯƠNG PHÁP  
LC INTERNET  
Để có thxây dựng được chương trình lc ni dung truy cp Internet thì trước  
hết phi hiu rõ bn cht ca ni dung Internet. Vì vậy, chương này sẽ tp trung  
nghiên cu nhng nội dung liên quan đến hình thái lọc như biện pháp lọc, phương  
pháp lc và vtrí thc hin. Từ đó có thxây dựng được chương trình lc ni dung  
truy cp Internet.  
2.1. Bin pháp lc  
Căn cứ vào các yêu cầu đặt ra đối vi lc ni dung truy cp Internet, có thể  
chia bin pháp lc thành mt sloi cthể như sau [ 1, 3, 4, 5, 6, 15 ]:  
Lc cth(inclusion filtering): người dùng chỉ được phép truy cp nhng thông  
tin đã được cho phép, nm trong một danh sách được hiu theo nghĩa “danh sách  
trng”, thông thường là một danh sách các địa chỉ web được phép truy nhp.  
Nhng thông tin nằm ngoài danh sách này đều bcm chn.  
Lc loi tr(exclusion filtering): người dùng sbchn lung thông tin nm  
trong mt danh sách, gi là “danh sách đen”, thông thường là mt danh sách các  
địa chỉ web không được phép truy nhp. Tt cnhng thông tin không liên quan  
đến danh sách này đều đưc phép truy cp.  
Phân tích ni dung: hn chế và ngăn chặn người dùng nhng thông tin cha  
nhng ni dung cm theo nhng tiêu chuẩn đã được đề ra.  
Chúng ta có thnhn thy rng hai cách tiếp cận đầu cho khả năng thi hành  
đơn giản nếu cho trước mt danh sách trng hoc một danh sách đen. Tuy nhiên,  
trong thc tế thì khó khăn gặp phải chính là bài toán xác định chính xác các danh  
sách như vậy và luôn đưa đến mt kết quhoc là lọc không đầy đủ (xut hin liên  
tục các trang web “đen” mới trên Internet) hoc hn chế min truy cp thông tin  
Internet (danh sách “trng”quá hn chế, không tương thích với sự tăng trưởng  
không ngng ca Internet). Cách tiếp cn lc thông qua phân tích nội dung được  
tiến hành nhcác kthut “hiu” ni dung ca thông tin trên web để ngăn chặn các  
7
thông tin có ni dung xu. Công vic “hiểu” và đánh giá thông tin được ti vcho  
phép vic lc Internet có tính công phu và hoàn hảo hơn nhưng lại đòi hi khi  
lượng tính toán lớn để xem xét tng nội dung được ti v. Tuy nhiên, do tính cht  
công phu ca cách tiếp cn lc ni dung và sự tăng trưởng không ngng về năng  
lc tính toán mà cách tiếp cn lc thông qua phân tích nội dung ngày càng được  
phát trin mnh.  
Vic trin khai công nghlc ni dung phthuc rt nhiu vào ngcnh và vị  
trí tiến hành. Chúng ta có thchia làm ba mc lc thông tin chính sau:  
Mc cc b: mức này được thhin thông qua các phn mềm cài đt trong các  
máy tính cá nhân vi mt mục đích sử dng trong mt phm vi nhỏ như gia đình,  
công ty có quy mô nhv.v. (blc mức này được gi là client-based filter).  
Mc tchc: mc này cần đến nhng gii pháp lc ni dung cho mt mng cỡ  
va, ví dụ như một mng intranet trong một trường hc, mt công ty cln, v.v.  
(blc mức này được gi là server-based filter).  
Mc quc gia: yêu cu mức này đòi hi rt nhiu yếu tkhác nhau vcông  
nghvà kthuật để đạt được khả năng lọc ni dung mạng xương sống  
(backbone) ca vic truy cp Internet ca cmt quc gia  
Phương tiện lc nội dung được thi hành bng cphn cng ln phn mm,  
trong đó nòng cốt là các phương tin phn mm. Lori Bowen Ayre và ©2005  
TopTenREVIEWS, Inc. đã cung cp danh sách các sn phm phn mm lc Internet  
thông dng nhất. Đồng thi, vic thiết đặt cơ chế an ninh mng, mức cao hơn là  
cơ chế lc ni dung Internet, cũng đã được tiến hành trên các thiết bphn cng, có  
thkể đến mt sthiết bị như Draytek Vigor2900, Planet VRT-311, mt ssn  
phm CISCO...  
2.2. Phương pháp lc  
Trên cơ sở phân tích lung dliu trong quá trình truy cp Internet, mt cách  
tương đối, phương pháp lọc được chia ra thành các loi sau:  
2.2.1. Lc địa chIP  
Tt ccác ni dung và thông tin trên mng đều được trao đổi dưới dng chui  
các gói tin. Mi gói tin có các địa chIP nguồn/đích, Port nguồn/đích, giao thc sử  
dng. Lc gói được thc hin thông qua cơ chế kim tra các thông tin trên ca tt  
8
ccác gói và chn chúng nếu chúng đến tcác trang web bcm.  
Lc gói tin có thể được thc hin ti các router bi các nhà cung cp dch vụ  
ISP, thông qua kim soát thông tin về địa chIP nguồn/đích. Hiện nay có mt số  
loi router có ththc hin lc gói mà không gây ra bt khiu ứng suy thoái đối  
vi công vic định tuyến ca nó.  
Vấn đề chính của cơ chế lc gói ti ISP là hoạt động da vào địa chIP, mi  
địa chỉ IP đại din cho mt máy tính, không phi là mt trang web do đó lọc gói  
bng cách sdng IP có thchn mt số lượng lớn các trang web lưu trữ trên máy  
chhợp pháp. Đã có nhiu trang web cộng đồng bchn, chng hạn như yahoo bị  
chn bi bản thân yahoo lưu trữ mt sforum cha ni dung không lành mnh,  
phản động [ 3 ].  
Đồng thi vic lc gói ti ISP còn có những khó khăn khác nếu như thực hin  
trên mt quy mô lớn. Các router được sdng bởi các ISP để liên kết mng  
Internet chcó gii hn không gian nhất định cho việc định tuyến nên vic bsung  
các định tuyến lc địa chIP slàm gim nhanh chóng năng lực hoạt động ca  
router.  
Đối vi nhà cung cp dch vInternet thì cn có htng mng hoạt động luôn  
luôn ổn định do đó cơ chế lọc gói không được sdng rng rãi.  
2.2.2. Lọc địa chURL  
Phbiến và hiu qucao hơn lọc gói là hình thc lc da trên các URL, đảm  
bo không lc nhng trang web hợp pháp nhưng trên cùng một địa chIP. Lc  
URL có thể đưc sdng vi chai hình thc bao gm lc cthvà lc loi tr.  
Thc hin lc URL có thể được tiến hành đối vi tng phn ca mt website.  
Các thành phn cơ cấu địa chURL ca trang Web cho phép lc truy cp vào toàn  
bcác trang web, hoc chcác phn ca trang web.  
Ngoài ngun gc lc gói và URL, lc ni dung còn có thsdụng phương  
pháp như các từ khóa tìm kiếm, phân tích hình nh.  
2.2.3. Lc tkhóa  
Quét ni dung truy cp Internet vào máy tính và tìm các từ mà được lit kê  
trong một danh sách đen. Một trang web bchn nếu nó có cha bt ctnào trong  
danh sách chặn đó. Hình thc lc từ được áp dụng đối vi cnhng yêu cu  
9
(request) được gửi đi từ máy tính để đảm bo truy cập đối vi tkhóa cấm được  
lc ngay từ đầu.  
Các trang web khiêu dâm thương mại cn phải được tìm thy mt cách dễ  
dàng được tìm thy bi các khách hàng tiềm năng và các công cụ tìm kiếm mà họ  
sdụng để lướt web. Mt trong những cơ chế của các trang web là để thêm mt số  
khả năng tìm kiếm từ khóa để trang Web ca h, thm chí nếu hkhông thc sự  
hin th. Nhng tnày sẽ được chn ca trang Web crawlers, thêm vào danh mc  
được sdng bi các công ctìm kiếm ca họ và sau đó có thể được tìm thy bng  
cách web surfers. Do đó lọc tkhóa áp dng triệt để đối vi các tkhóa xut hin  
trong trang web tìm kiếm hay thmeta ca ni dung các trang web truy cp.  
Mt số nhược đim vi lc tkhóa:  
Hchkim tra ni dung dng văn bản, không thc hin kiểm tra đối vi các  
hình nh. Cthể đối vi nhng trang web khiêu dâm như tiếng Nga, tiếng Nht có  
cnhng tnội địa và hình nh thc scn lc thì nhng tkhoá tiếng Anh, tiếng  
Vit hoàn toàn mt tác dng.  
Khác na, lc tkhóa gặp trường hp tkhóa cn lc nm trong cm tcó  
nghĩa khác và trong nhng bi cnh khác nhau scó nghĩa không cn phi lc.  
2.2.4. Lc cm từ  
Lc cm tlà một trường hp mrng ca lc tkhóa. Lc cm tthc hin  
kim soát ni dung truy cp thông qua mt cm t, không phi xem xét tng tmt  
xut hin trong cm từ đó. Với bin pháp lọc này đạt kết quả cao hơn nhiều so vi  
lc tkhóa, hn chế tối đa trường hp phát sinh ca vic tkhóa có nghĩa khác  
nhau trong bi cnh khác nhau.  
2.2.5. Lc nh  
nh là mt phn quan trng ca Internet ngày nay. Thông kê cho thy khong  
hơn 70% các trang web có chứa nh và trung bình có 19 nh trong mt trang  
HTML [ 2 ]. Ảnh thường được sdụng để trang web trnên hp dn. Tuy nhiên  
nh cũng chứa các nội dung độc hại như khiêu dâm, phản động. Do đó kỹ thut lc  
nh hiu qulà mt phn quan trng trong gii pháp lc ni dung trên Internet.  
Nhn thy gia các nh cha các vùng da ln và các nh khiêu dâm có mi  
tương quan với nhau, do đó trong các giải pháp lc ni dung nh thường được chia  
10  
thành các giai đon [ 2 ]:  
o Phát hin màu sc da trong ảnh là bước xử lý đầu tiên trong quá trình phân  
tích ni dung nh.  
o Kế tiếp là giai đoạn trích trn thuc tính tcác vùng da đã được phát hin.  
Thi gian tính toán cũng là yếu tcần quan tâm do đó quá trình trích chn  
thuc tính cn cân bng gia mức độ chi tiết ca các thuc tính và thời gian để tính  
toán các thuc tính. Các thuộc tính được ly ra từ ảnh sẽ là đầu vào cho blc nh  
[ 2 ].  
2.3. Vtrí thc hin lc  
Lc có thdin ra trên mt máy tính cá nhân, trên mt máy chca doanh  
nghip, ti mt công ty cung cp dch vinternet, hoc trên mt hthng lc ca  
bên thba.  
2.3.1. Lc ti cng Internet quc gia  
Các gii pháp lc cũng được thiết kế để hoạt động tại ISP nhưng do đặc tính  
về đảm bo hoạt động ti ISP nên hin nay các gii pháp lc hin chthc hin hn  
chế đối với danh sách địa chỉ IP đen.  
Hình 2.1. Lc ti cng Internet quc gia  
Qun trviên stiếp nhn danh sách các trang web bcm tcác nhà cung cp  
blc phn mm hay các cơ quan quản lý Nhà nước, biên son cho phù hp và cp  
nht vào hthng.  
Đề xuất đối vi gii pháp lc ti cng internet quc gia cần đảm bo hot  
động đầy đủ chức năng lọc và không ảnh hưởng ti hiệu năng của hthng.  
Lc ti nhà cung cp dch vISP có độ an toàn rt cao do chy trên mt hệ  
thng an toàn [ 1, 3, 4 ].  
2.3.2. Lc ti cng Internet mng LAN  
Tương tự như lọc ti cng Internet quốc gia nhưng quy mô hệ thng nhỏ hơn  
11  
rt nhiu. Tùy thuộc đối vi quy mô hthng mng LAN thành phn phân ti trong  
phn mm lc nội dung được sdụng, đảm bo hoạt động truy cp Internet ca  
người sdng không ảnh hưởng bi hthng.  
2.3.3. Lc thông qua bên thba  
Trong trường hp này, các truy cp Internet sẽ được trao đổi thông qua bên  
thba, nơi mà các yêu cầu sẽ được kiểm tra đối vi mt blọc danh sách. Để có  
được điều này, trình duyt của người sdụng đầu cui phải được cu hình để trỏ  
đến bên thba và skhông thtruy cập vào Internet mà không đi qua bên thứ ba.  
Hình 2.2. Lc thông qua bên thba  
Hình thc lc này đòi hi hthng bên thba thiết kế đặc bit có thbao gm  
ctrình duyệt riêng cài đặt trên máy tính người sdng [ 4 ].  
2.3.4. Lc ti máy tính cá nhân  
Đa số các gii pháp lc hiện nay được thiết kế để chy trên các máy tính cá  
nhân. Kthut lc thc hin kết hợp các phương pháp lc phbiến trên (mc 1.2).  
Blut lc mi nhất được cp nhật định ktcác nhà cung cp phn mm.  
Lc tại máy tính cá nhân ưu điểm vngun lực dư thừa máy tính, thi gian xử  
lý thc, tiết kiệm chi phí đầu tư phần cng.  
Tuy nhiên, lc ti máy tính cá nhân là gii pháp ít tin cy nht do phn mm  
hoạt động trong môi trường không bo mt, dbvô hiu hóa.  
Hình 2.3. Lc ti máy tính cá nhân  
12  
Chương 3 - GII PHÁP LC NI DUNG INTERNET  
Trong chương hai đã trình bày vmt snội dung cơ bản ca phương pháp  
lc ni dung Internet: bin pháp lọc, phương pháp lọc và vtrí thc hin lc. Vi  
mi nội dung đã trình bày đặc trưng và phân tích về kthut. Đó là cơ sở cho phn  
tiếp sau, phn trình bày vcác gii pháp lc ni dung Internet ti ba cấp độ khác  
nhau: cng Internet quc gia, cng Internet cho mng LAN và ti máy tính cá nhân.  
3.1. Gii pháp ti cng Internet quc gia  
3.1.1. Kiến trúc hthng  
Hthống tường la ti các ISP hin ti.  
Hin nay các nhà cung cp dch vInternet ti Việt Nam đều đang sử dng hệ  
thống tường lửa để qun lý, kim soát lung dliệu vào ra. Cơ chế hthống tường  
la hin ti về cơ bản được xây dng da trên kthut phân tích các lung thông  
tin vào/ra ti mt cng Internet thông qua địa chnguồn và địa chỉ đích. Tại đó, các  
danh sách trng (danh sách các địa chIP không cn lc) và danh sách đen (danh  
sách các địa chIP cn lc), các địa chsẽ được sdng trong vic xây dng tp  
lut các chính sách liên quan đến vic qun lý các lung thông tin vào/ra. Nếu địa  
chyêu cu nằm trong hai danh sách đó, hệ thng tường la này stquyết định  
lc hay không tuthuộc vào địa chỉ đó có nằm trong danh sách đen hay trắng  
tương ng [ 1, 3 ].  
13  
BlackList  
WhiteList  
Tường la ISP  
Người dùng  
Hình 3.1. Hthống tưởng la hin ti ca các ISP  
Hthng lc ni dung ti ISP.  
Vic lc các truy cp web ti ISP là mt gii pháp tng thvì nó đảm bo cho  
toàn bhthng mạng hoàn toàn đồng nht vmt lc ni dung truy cp web. Vi  
gii pháp lc ti ISP, mi struy cp vào/ra đều được kim soát bi tường la. Tuy  
nhiên các tường la ISP hin chcó thể đáp ứng được vic lọc theo địa chIP (tng  
Network), mà nhng trang web đen có thể thay đổi IP thường xuyên và vi mức độ  
tăng trưởng thuê bao như hiện nay thì vic nâng cp hthng tường la là không  
đáp ứng yêu cu.  
Do đó cần có gii pháp thay thế cho tường la hin nay ti ISP: khi mt gói tin  
ti sẽ được xác định xem có nằm trong danh sách đen hay trắng không, khi đó hệ  
thng sthc hin vic lc ngay. Nếu không, lung dliu yêu cu sẽ được định  
hướng đến hthng lc nội dung để hthng này quyết định cơ chế kim duyt  
thích đáng. Sơ đồ qun lý các luồng thông tin được minh ha như hình dưới đây sẽ  
đảm bo lọc đầy đủ hơn (URL, IP, nội dung) và ddàng thun tin trong vic nâng  
cp hthng khi cn thiết. Kiến trúc mt hthng lc ni dung tại ISP cơ bản bao  
gm các thành phn như sau [ 1, 3, 14, 15, 16, 17 ]:  
14  
Hình 3.2. Kiến trúc hthng lc ni dung Internet ti ISP  
3.1.2. Hoạt động  
Trong quá trình sdng Internet, dliệu trao đổi giữa người sdng và  
Internet sẽ được truyn ti qua (1) và (2). Dliệu được kim soát bi hthng  
tường la lc ni dung ca ISP cung cp dch v.  
Dliệu đưc tường la kiểm soát theo cơ chế sau:  
Gói tin đầu tiên từ người dùng gi yêu cu truy cp Internet và ngược li sẽ  
được tường la xử lý đưa vào nhánh (3):  
o Thông tin của gói tin (IP,URL) được thành phn Lc cth, lc loi trừ  
kim tra trong Kho dliu lc.  
o Nếu gói tin có thông tin vIP, URL tn ti trong kho thì thành phn Lc cụ  
th, lc loi trsgi kết qutheo nhánh (3) vBquyết định để thc hin  
chn truy cp (danh sách đen) hoc chuyn tiếp các gói tin còn li không qua  
kim soát ca tường la (danh sách trng).  
o Trong trường hợp ngược li, gói tin sẽ được chuyn tiếp qua (5) đến thành  
phn Proxy cache để tường la tiếp tc kim soát vmt ni dung đối vi  
truy cp này.  
15  
Trong trường hp gói tin thnht có thông tin vIP, URL không tn ti trong  
Kho dliu lc, tgói tin th2 trở đi ca tiến trình sẽ được tường la xử lý đưa  
vào nhánh (6):  
o Thành phn Proxy cache thc hin tng hp các gói tin và chuyn tiếp qua  
(7) ti thành phn Lc ni dung.  
o Thành phn Lc ni dung trên cơ sở dliệu đã được tng hp thc hin kim  
tra ni dung thông qua Tp lut:  
o Kiu dliu: nh, text, movie,…  
o Tvà cm t: bao gm trng s.  
o Biu thc tính điểm: các t, cm tcó trng số (âm, dương) được đưa  
vào biu thc để tính toán vi một ngưỡng cho trước.  
o Căn cứ vào kết quả phân tích thông tin đạt được, thành phn Lc ni dung  
gi kết quphân tích vBquyết định qua (9) và căn cứ vào các tiêu chí đặt  
ra sbsung IP,URL vào Kho dliu lc qua (10).  
Bquyết định:  
o Bquyết định có thc hin chuyn tiếp các gói tin vào nhánh (3) hoc nhánh  
(6) theo tính chất gói tin đưa vào.  
o Trên cơ sở kết qucác thành phn Lc cth, lc loi trLc ni dung  
trra, Bquyết định squyết định truy cập đang thực hiện được tiếp tc hay  
chn lại. Ngoài ra để đảm bo hthng tường la đáp ứng thi gian thc,  
nếu quá ngưỡng cho phép mà chưa có kết qutrra tcác thành phn khác  
thì Bquyết định stự đưa ra quyết định da trên kết quhin có và gi  
thông báo cho các thành phn liên quan qua (3), (9).  
3.1.3. Phân tích các thành phn  
Bquyết đnh  
Bquyết định là thành phn trung tâm ca tường la lc ni dung. Hoạt động  
ca các thành phn khác trong tường la đều được kim soát bi thành phn này.  
Chức năng chính của Bquyết định là đưa ra các quyết định liên quan ti hot  
động ca tường la, bao gm:  
o Quyết định gói tin có thuc din cn tường la xlý hay không.  
16  
o Quyết định gói tin sẽ được chuyn tiếp cho các thành phn khác (theo nhánh  
(3) hoc nhánh (6)).  
o Quyết định công vic tường la phi thc hin tiếp trên cơ sở kết qutrvề  
tnhánh (3) và nhánh (9): trong đó kết qutrvtnhánh (9) là kết qutrc  
tiếp ca các bphn trong thành phn Lc ni dung (bphn xlý vkiu  
dliu, xlý vtvà cm t, …)  
o Quyết định công vic ca tường la phi thc hin khi các thành phn gi  
kết quchậm hơn thời gian quy định.  
o Quyết định các phn dliu đã qua kim duyt được chuyn tới người sử  
dng khi dliệu chưa tp hợp đầy đủ.  
Lc cth, lc loi trừ  
Thành phn lc cth, lc loi trlà thành phần cơ bản ca hthống tường  
la lc ni dung. Thành phn này thc hin vic lc trang web theo chức năng cơ  
bn: lọc theo địa chỉ IP và địa chURL. Vic duy trì thành phần cơ bản ca hệ  
thống tường la trong hthống tường la lc nội dung đảm bo cho vic kim soát  
các trang web đã biết được thc hin vi thi gian là nhanh nht.  
Các địa chỉ IP, URL được lưu trữ trong Kho dliu lọc và được phân thành  
hai loại: danh sách đen và danh sách trắng. Mi truy cp của người dùng ra Internet  
sẽ được kim soát mt ln bi thành phn Lc cth, lc loi trthông qua gói tin  
đầu tiên đi qua. Các kết quả đạt đưc:  
o IP, URL ca gói tin nằm trong danh sách đen: truy cập của người dùng bị  
chn li.  
o IP, URL ca gói tin nm trong danh sách trng: truy cp của người dùng là  
hp pháp, mi gói tin tiếp theo trong tiến trình truy cp sẽ được chuyn tiếp  
qua mà không cn phi kim soát.  
o IP, URL ca gói tin không nm trong 2 danh sách: gói tin sẽ được chuyn  
sang thành phn Lc nội dung để tiếp tc kim soát các gói tin tiếp theo ca  
tiến trình truy cp.  
Trong trường hp kết quả đạt được là trường hp 3: do thông tin IP, URL ca  
các gói tin tiếp theo hoàn toàn ging với gói tin đầu nên vic không cn sdng  
thành phn Lc cth, lc loi trừ để kim soát sgim thiu thi gian btrì hoãn  
khi duyt web của người dùng do hthng lc ni dung gây ra.  
17  
Kho dliu lọc được bsung, cp nhật thường xuyên tkết quca thành  
phn Lc ni dung.  
Proxy cache:  
Proxy cache là cách gi tt ca “Web proxy cache”, chức năng chính của nó là  
thc hiện lưu trữ các trang web được truyn qua nó, và khi có mt yêu cu mi về  
trang web đó thì sẽ được đáp ứng nhanh hơn. Proxy cache đã làm giảm đáng kể về  
băng thông và thời gian đáp ứng yêu cu của người dùng khi duyt web. Đây được  
coi là vấn đề chu trong gii quyết vấn đề lưu lượng Internet. Bi vì trang web  
lúc này đã được lưu lại trên máy ch(proxy) cc bnên khi có mt yêu cu mi ti  
trang web nó sẽ được đáp ứng ngay tmáy chcc b. Hiệu năng của máy chủ  
(proxy) càng được thhin rõ nét khi có nhiều trang web được duyt trên cùng mt  
địa chỉ website. Proxy cache có cơ chế lưu trữ các hình nh và file con ca các  
trang web đã được duyt qua, khi người sdng chuyn qua duyt mt trang web  
mới nhưng trên cùng site đó, nếu trong trang web mi có sdng li các hình nh  
đã có ca trang web cũ thì proxy cache stự động cung cp tới người sdng mà  
không qua vic ly li tsite.  
Trong hthống tường la lc nội dung proxy cache được sdng vi các  
mục đích sau:  
o Tng hp các gói tin thành mt trang web có ni dung hoàn chnh cung cp  
đầu vào cho thành phn lc ni dung.  
o Tăng tốc độ trong vic phân tích các trang web khác trên cùng mt site: do  
không phi ly li những file đã có.  
o Gim thiu thi gian btrì hoãn khi duyt web của người dùng do hthng  
lc ni dung gây ra.  
Lc ni dung:  
Thành phn Lc ni dung là thành phn chính của tường la lc ni dung.  
Một tường lửa thông thường sthc hin lc các trang web thông qua thông tin đã  
biết của trang web đó (IP, URL). Tuy nhiên, số lượng trang web thì rt ln và  
không ngng phát trin nên nhiều trang web đi qua được tường lửa thông thường  
mà không được kim soát vni dung. Thành phn Lc ni dung là thành phn bổ  
sung cho tường lửa thông thường, thc hin nhim vkim soát nhng trang web  
hiện đang chưa có thông tin lưu trữ trong Kho dliu lc.  
18  
Đối với tường la lc ni dung thì mọi trang web đều được kim duyt, tuy  
nhiên những trang web được kim duyt bi thành phn Lc ni dung schmang  
tính tương đối bi các thut toán lc ni dung hiện nay đều chưa đạt độ chính xác  
tuyệt đối.  
Thành phn lc ni dung bao gm nhiu thành phn con, mi thành phn thc  
hin mt chức năng riêng bit: xlý dliu dng text, dng hình nh, dng nén,…  
3.2. Gii pháp ti cng Internet ca mng LAN  
3.2.1. Kiến trúc tng quan  
Về cơ bản gii pháp lc ni dung cho mt mng LAN ca một đơn vị (trường  
hc, doanh nghiệp, điểm truy cp Internet công cng,…) tương tự như hthng lc  
ni dung tại ISP nhưng có quy mô nhỏ hơn [ 3, 14, 15, 16, 17 ].  
Mt hthng lc ni dung bao gm các thành phn:  
o Bquyết định.  
o Lc cth, lc loi tr.  
o Proxy cache.  
o Lc ni dung.  
Hình 3.3. Gateway Filter lc cho mt mng LAN  
3.2.2. Gii thuật và cơ chế hoạt động  
Gii thut lc ni dung (text/html) cho cng Internet ca mt mng LAN (hin  
đang được công ty Điện toán và Truyn sliu áp dng triển khai trên 20.000 đại  
lý Internet công cng):  
19  
Hình 3.4. Sơ đồ gii thut lc cho mng LAN 1  
20  

Tải về để xem bản đầy đủ

pdf 71 trang yennguyen 30/05/2025 90
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Nghiên cứu giải pháp lọc nội dung Internet tại máy tính cá nhân và xây dựng phần mềm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_nghien_cuu_giai_phap_loc_noi_dung_internet_tai_may.pdf