Luận văn Phá dữ liệu ứng dụng trong đào tạo

1
TRƯỜNG ………………….  
KHOA……………………….  
----------  
Báo cáo tốt nghiệp  
Đề tài:  
PHÁ DỮ LIỆU ỨNG DỤNG TRONG ĐÀO TẠO  
2
MC LC  
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ...................................... 5  
DANH MỤC CÁC HÌNH V............................................................................ 6  
LỜI MỞ ĐẦU.................................................................................................... 7  
Chương 1 .......................................................................................................... 9  
TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC............ 9  
1.1. Khái niệm phát hiện tri thức và khai phá dữ liệu ...................................... 9  
1.2. Các bước trong quá trình phát hiện tri thức[7]........................................ 10  
1.3. Kiến trúc hệ thống khai phá dữ liệu........................................................ 12  
1.4.1. Cơ sở dữ liệu quan h...................................................................... 12  
1.4.2. Kho dữ liệu...................................................................................... 12  
1.4.3. Cơ sở dữ liệu không gian ................................................................. 13  
1.4.4. Cơ sở dữ liệu văn bản ...................................................................... 13  
1.4.5. Dữ liệu Web..................................................................................... 13  
3
1.5. Các phương pháp khai phá dữ liệu ......................................................... 13  
1.5.1. Các thành phần của giải thuật khai phá dữ liệu ................................ 14  
1.5.2. Phương pháp suy diễn / quy nạp ...................................................... 16  
1.5.3. Phương pháp ứng dụng K-láng giềng............................................... 16  
1.5.4. Phương pháp sử dụng cây quyết định và luật[14]............................. 17  
1.5.5. Phương pháp phát hiện luật kết hợp ................................................. 18  
1.6. Các nhiệm vụ trong khai phá dữ liệu...................................................... 19  
1.6.1. Phát hiện các luật tối ưu truy vấn ngữ nghĩa..................................... 20  
1.6.2. Phát hiện sự phụ thuộc Cơ sở dữ liệu............................................... 20  
1.6.3. Phát hiện sự sai lệch......................................................................... 21  
1.6.4. Phát hiện luật kết hợp....................................................................... 21  
1.6.5. Mô hình hoá sự phụ thuộc................................................................ 21  
1.6.6. Mô hình hoá nhân qu...................................................................... 22  
1.6.7. Phân cụm, nhóm .............................................................................. 22  
1.6.8. Phân lớp........................................................................................... 23  
1.6.9. Hồi quy............................................................................................ 23  
1.6.10. Tổng hợp ....................................................................................... 23  
1.7. Các thách thức và giải pháp cơ bản ........................................................ 24  
1.7.1. Thách thc....................................................................................... 24  
1.7.2. Một số giải pháp .............................................................................. 25  
1.8. Kết luận.................................................................................................. 25  
Chương 2 ........................................................................................................ 26  
CƠ SỞ LÝ THUYẾT CỦA LUẬT KẾT HỢP, MỘT SỐ THUẬT TOÁN  
PHÁT HIỆN LUẬT KẾT HỢP..................................................................... 26  
2.1. Lý thuyết về luật và luật kết hợp ............................................................ 26  
2.1.1. Luật thừa.......................................................................................... 26  
2.1.2. Luật kết hợp..................................................................................... 27  
2.1.3. Một số tính chất của luật kết hợp[6]................................................. 30  
2.1.4. Phát biểu bài toán khai phá luật kết hợp[8] ...................................... 31  
2.1.5. Một số hướng tiếp cận trong khai phá luật kết hợp........................... 32  
2.2. Các đặc trưng của luật kết hợp ............................................................... 34  
2.2.1. Không gian tìm kiếm của luật .......................................................... 34  
4
2.2.2. Độ hỗ trợ của luật ............................................................................ 36  
2.3.Một số giải thuật cơ bản khai phá các tập phổ biến ................................. 36  
2.3.1.Kỹ thuật BFS .................................................................................... 37  
2.3.2.Kỹ thuật DFS.................................................................................... 44  
2.5. Thuật toán AIS....................................................................................... 44  
2.5.1. Bài toán đặt ra.................................................................................. 44  
2.5.2. Thuật toán AIS................................................................................. 45  
2.6. Thuật toán SETM................................................................................... 47  
2.6.1. Bài toán đặt ra.................................................................................. 47  
2.6.2. Thuật toán SETM ............................................................................ 47  
2.7. Thuật toán CHARM[9] .......................................................................... 50  
2.7.1. Tư tưởng thuật toán CHARM .......................................................... 50  
2.7.1.1. Cơ sở lý thuyết .......................................................................... 50  
2.7.2.2. Bài toán đặt ra............................................................................ 52  
2.7.2. Thuật toán CHARM......................................................................... 53  
2.8. Kết luận.................................................................................................. 56  
Chương 3 ........................................................................................................ 57  
ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP TRONG ĐÀO TẠO .............. 57  
3.1. Bài toán.................................................................................................. 57  
3.2. Đặc tả dữ liệu......................................................................................... 58  
3.3. Chương trình thử nghiệm minh họa........................................................ 63  
3.4. Kết luận .............................................................................................. 66  
KẾT LUẬN...................................................................................................... 67  
PHỤ LỤC ........................................................................................................ 68  
TÀI LIỆU THAM KHẢO................................................................................ 77  
5
DANH MC CÁC KÝ HIU, CÁC CHVIT TT  
Tviết tt  
ADO  
BFS  
Tiếng Anh  
Activate X Data Object  
Breadth First Search  
Ck  
Tiếng Vit  
Tìm kiếm theo brng  
Tp các K – itemset ng cử  
Độ tin cy  
Ck  
Conf  
confidence  
CSDL  
DFS  
Database  
Cơ sdliu  
Depth First Search  
Data Warehouse  
item  
Tìm kiếm theo độ sâu  
Kho dliu  
DW  
Item  
Khon mc  
Itemset  
itemset  
Tp các khon mc  
Tp gm K mc  
K- itemset K- itemset  
KDD  
Knowledge Discovery and  
Kthut phát hin tri thc và khai  
phá dliu  
Data Mining  
Lk  
Lk  
Tp các K - itemset phbiến  
Độ tin cy ti thiu  
Minconf  
Minsup  
MOLAP  
OLAP  
Minimum Confidence  
Minimum Support  
Multidimensional OLAP  
Độ htrti thiu  
Phân tích đa chiu trc tuyến  
Phân tích trc tuyến  
On Line Analytical  
Processing  
ROLAP  
Record  
Supp  
TID  
Relational OLAP  
Phân tích quân htrc tuyến  
Bn ghi  
record  
suppport  
Độ htrợ  
Transaction Indentification  
Structured Query Language  
Sematics Query Optimization  
Định danh giao tác  
Ngôn ngvấn đáp chuẩn  
SQL  
SQO  
TC  
Tính cht  
6
DANH MC CÁC HÌNH VẼ  
Hình 1.1: Các bước trong quá trình phát hiện tri thức ....................................................11  
Hình 1.2: Kiến trúc hệ thống khai phá dữ liệu ................................................................12  
Hình 1.3: Ví dụ mô hình khai phá dữ liệu .......................................................................15  
Hình 1.4: Ví dụ cây quyết định.........................................................................................17  
Hình 1.5: Ví dụ về luật kết hợp ........................................................................................19  
Hình 1.6: Ví dụ Form nhập liệu........................................................................................24  
Bảng 2.1: Ví dụ về một cơ sở dữ liệu dạng giao dịch - D...............................................28  
Bảng 2.2 : Các tập phổ biến trong cơ sở dữ liệu ở bảng 1 với độ hỗ trợ tối thiểu 50% 28  
Hình 2.3: Dàn cho tập I = {1,2,3,4} .................................................................................34  
Hình 2.4: Cây cho tập I = {1, 2, 3, 4} ..............................................................................35  
Hình 2.5: Hệ thống hóa các giải thuật..............................................................................37  
Bảng 2.6: Ví dụ thuật toán Apriori...................................................................................42  
Bảng 2.7. Ví dụ thuật toán AIS ........................................................................................46  
Bảng 2.8: Ví dụ thuật toán SETM....................................................................................50  
Bảng 2.9: Tập các giao dịch trong ví dụ thuật toán CHARM ........................................53  
Bảng 2.10: Tập mục phổ biến trong ví dụ minh hoạ thuật toán CHARM.....................54  
Hình 2.11: Thuật toán CHARM sắp xếp theo thứ tự từ điển..........................................54  
Hình 2.12: Sắp xếp theo độ hỗ trợ tăng dần ....................................................................55  
Hình 3.1: Trường Đại học Dân lập Hải phòng ................................................................57  
Bảng 3.2: Ví dụ CSDL điểm của sinh viên......................................................................59  
Bảng 3.3: Dữ liệu đã chuyển đổi từ dạng số sang dạng logic.........................................60  
Bảng 3.4: Bảng ký hiệu tên các môn học.........................................................................63  
Hình 3.5: Sơ đồ quan hệ CSDL điểm sinh viên ..............................................................63  
Hình 3.6: Giao diện chương trình chính ..........................................................................63  
Hình 3.7: Phần kết nối CSDL...........................................................................................64  
Hinh 3.8: Form cập nhật điểm sinh viên..........................................................................64  
Hình 3.9: Form cập nhật thêm sinh viên..........................................................................64  
Hình 3.10: Phần dữ liệu đã được mã hoá.........................................................................65  
Hình 3.11: Phần tạo luật kết hợp dùng thuật toán Apriori..............................................65  
Hình 3.12: Phần mô phỏng thuật toán với dữ liệu nhập vào từ bàn phím.....................66  
7
LI MỞ ĐẦU  
Ngày nay công nghthông tin luôn luôn phát trin và không ngng đi mi, cùng  
vi sphát triển đó là các hệ thng thông tin phc vvic tự động hoá trong các lĩnh  
vc của con người cũng được trin khai vượt bậc. Điều đó đã to ra nhng dòng dữ  
liu khng l. Nhiu hqun trCSDL mnh cũng đã ra đời giúp chúng ta khai thác  
hiu qunguồn tài nguyên đã thu thập được.  
Với lượng dliu, thông tin thu thập được ngày càng nhiều như vậy đòi hi  
chúng ta phi trích rút ra nhng thông tin tim n nhằm đưa ra các quyết định đúng  
đắn trong công vic. Xut phát tthc tiễn đó, vào những m cui ca thế k20 khai  
phá dliệu ra đời. Đây là một lĩnh vực nghiên cu khá mi mca ngành khoa hc  
máy tính và khai phá tri thức (KDD). Nó đã thu hút squan tâm ca rt nhiều người ở  
các lĩnh vực khác nhau như : các hệ CSDL, thng kê, nhn dng, máy hc, trí tunhân  
to...  
Khai phá dliu sdng các công cphân tích dliệu như: truy vấn, báo cáo,  
dch vphân tích trc tuyến (OLAP, ROLAP, MOLAP) để tìm ra các mu có giá trị  
trong kho dliu. Khai phá dliệu đã và đang được ng dng thành công vào các  
ngành thương mại, tài chính, kinh doanh, sinh hc, y hc, giáo dc, vin thông...  
Khai phá lut kết hp tCSDL lớn đưc khởi xướng từ năm 1993, nó đã và đang  
được nghiên cu, phát trin mnh vì khnăng tìm được các lut có ích, từ đó có những  
dbáo giúp chúng ta có kế hoạch các hướng phát triển cho tương lai.  
Vic khai phá lut kết hp ng dụng vào trong công tác đào tạo còn chưa được  
nghiên cu và ng dng tối đa. Để từng bước nâng cao khả năng ứng dng khai phá  
lut kết hp vào gii quyết nhng công việc trong công tác đào tạo đạt hiu qucao,  
bng nhng kinh nghim thc tế và qua kiến thc thu thập được trong những năm theo  
hc ti khoa Công nghệ Thông tin trường đại hc Quc Gia Hà Ni, nghiên cu ging  
dy tại trường đại hc Dân Lp Hi Phòng, chính vì vy tác gichọn đề tài “KHAI  
PHÁ DLIU NG DỤNG TRONG ĐÀO TẠO”. Ni dung chính của đề tài là đi  
sâu vào tìm hiu mt sthut toán khai phá lut kết hp và áp dng thut toán kinh  
điển Apriori ng dụng trong công tác đào tạo của trường đại hc Dân lp Hi Phòng.  
Kết qunghiên cu scung cp các thông tin htrcho sinh viên la chn môn hc,  
ngành học, hướng nghiên cứu, đồng thi htrcán bộ làm công tác tư vấn đào tạo,  
cán bphòng đào tạo được thun lợi hơn trong công tác đào tạo.  
Ni dung ca luận văn gồm 3 chương và phần phlc:  
8
Chương 1: TNG QUAN VKHAI PHÁ DLIU VÀ PHÁT HIN TRI  
THC. Chương này đề cập đến các giai đoạn ca quy trình phát hin tri thc, các vn  
đề chính ca khai phá dliệu, các phương pháp, các nhiệm vtrong khai phá dliu.  
Chương 2: CƠ SỞ LÝ THUYT CA LUT KT HP, MT STHUT  
TOÁN PHÁT HIN LUT KT HP. Chương này trình bày mt svấn đề chính ca  
khai phá lut kết hp: lý thuyết lut kết hp, bài toán khai phá và phát hin lut kết  
hợp, các phương pháp phát hin lut kết hp, mt sthuật toán điển hình gii quyết  
vấn đề, phân tích độ phc tp ca bài toán.  
Chương 3: NG DNG KHAI PHÁ LUT KT HP TRONG ĐÀO TO.  
Ni dung của chương là áp dụng kthut khai phá lut kết hợp vào trong đào tạo ca  
trường Đại hc Dân lp Hi phòng. ng dng này nhằm đưa ra dự báo htrcho công  
tác đào tạo của trưng.  
Phn phlục đưa ra một smodul của chương trình ng dng. Cui cùng là kết  
lun li nhng kết quả đạt được của đề tài và hướng phát triển trong tương lai.  
9
Chương 1  
TNG QUAN KHAI PHÁ DLIU  
VÀ PHÁT HIN TRI THC  
1.1. Khái nim phát hin tri thc và khai phá dliu  
Việc dùng các phương tiện tin học để tchức và khai thác các CSDL đã được  
phát trin tnhững năm 60, nhiều CSDL đã được tchc, phát trin và khai thác ở  
mi qui mô và khp các lĩnh vực hoạt động ca xã hi. Vi sphát trin mnh mca  
máy tính và các mng viễn thông, người ta đã xây dựng được nhiu hCSDL ln tp  
trung hoc phân tán, nhiu hqun trCSDL mnh vi các công cphong phú và  
thun tiện giúp con người khai thác có hiu qucác ngun tài nguyên dliu trong các  
hoạt đng kinh tế xã hi.  
Tuy nhiên từ đầu thập niên 90, con người mi thc sự bước vào giai đoạn bùng  
nthông tin. Nháp dng các công nghvà kthut mi, rt nhiu các thiết btiên  
tiến ra đời có khả năng hỗ trợ đắc lc cho vic thu thập, lưu trữ và khai thác dliu.  
Các thiết bị lưu trữ vi tốc độ cao, dung lượng lớn như đĩa từ, CD/DVD-ROM, thiết bị  
điều khin txa, vtinh nhân tạo… đã giúp con người hàng ngày thu thập được hàng  
chục, hàng trăm gigabytes dữ liu.  
Sphát trin nhanh chóng ca một lượng ln dliệu được thu thập và lưu trữ  
trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thhiểu được chúng  
nếu không có nhng công chtrtt. Kết qulà, dliu thu thập được trong mt  
lượng lớn CSDL đã trthành những đống dliệu mà ít khi được xem xét đến. Do vy,  
việc đưa ra những quyết định thường không da vào nhng thông tin hoc dliu thu  
thập được mà chda vào nhn thức, suy đoán của người đưa ra quyết định. Đơn giản  
là vì hkhông có nhng công cgiúp cho vic ly ra nhng tri thc từ lượng ln dữ  
liu. Tình huống này đã đặt chúng ta trong hoàn cnh nhiu dliệu nhưng thiếu thông  
tin, thiếu tri thc. Vi mt khối lượng ln dliệu như vậy rõ ràng là các phương pháp  
thcông truyn thng áp dụng để phân tích dliệu như chia bảng không còn là phù  
hp na. Và có mt kthut mới ra đời đó là kỹ thut khai phá tri thức trong cơ sdữ  
kiu (Knowledge Discovery in Database) gi tt là KDD.  
Thut ngữ KDD được đưa ra vào năm 1989 với ý nghĩa là thc hin các xử lý để  
tìm ra các tri thc trong CSDL và mục đích nhấn mạnh đến các ng dng mc cao  
hơn của khai phá dliu (data mining). Khai phá dliệu thường được dùng trong các  
lĩnh vực thống kê, đánh giá dữ liu và các hthng qun lý dliu.  
10  
Chúng ta có thphân bit một cách tương đối gia phát hin tri thc trong CSDL  
và khai phá dliệu. KDD để chmt quá trình tng thbao gm nhiều bước nhm  
phát hin ra các tri thc hu ích trong dliu còn khai phá dliu chtp trung vào  
vic ng dng các thut toán nhm phát hin các mu tdliu mà không có thêm các  
bước ca quá trình KDD như bước kết hp vi tri thức đã có hoặc bước đánh giá kết  
quả thu được. Các bước thêm vào này rt cn thiết để thy rõ được rng nhng thông  
tin thu được tdliu là thc shữu ích. Đi vi quá trình khai phá dliu, nhiu khi  
các mẫu thu được nhthc hin mt ng dụng nào đó không có giá trị hoc không  
phc vcho mục đích nào. Như vy, mt quá trình phát hin tri thc tdliệu được  
đặc trưng bằng các bước lp chính là lp li các ng dng theo mt thut toán khai phá  
dliu cthvà hiu các mẫu thu được tthut toán này  
Định nghĩa: “KDD là mt quá trình không tầm thường ca việc xác định các  
mu mi, có giá tr, có hiu qusdụng và cơ bản hiểu được trong cơ sở dliu”.[7]  
Còn các nhà thng kê thì xem Khai phá dliệu như là một qui trình phân tích  
được thiết kế để thăm dò một lượng cc ln các dliu nhm phát hin ra các mu  
thích hp và/hoc các mi quan hmang tính hthng gia các biến và sau đó sẽ hp  
thc hoá các kết qutìm đưọc bng cách áp dng các mẫu đã phát hiện được cho các  
tp con mi ca dliu. Qui trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây  
dng mô hình hoặc định nghĩa mẫu, hp thc/kim chng.  
1.2. Các bước trong quá trình phát hin tri thc[7]  
Phát hin tri thc bao gm nhiều giai đoạn được lặp đi lp li nhiu ln mà không  
cn phân bit từng bước trong quá trình thc hin.  
1. Giai đoạn 1: Hình tnh, xác định và định nghĩa bài toán. Là vic tìm hiu lĩnh vực  
ng dng từ đó hình thành bài toán, xác định các nhim vcn phi hoàn thành.  
Bước này squyết định cho việc rút ra được các tri thc hu ích và cho phép chn  
các phương pháp khai phá dữ liu thích hp vi mục đích ứng dng cùng vi bn  
cht ca dliu.  
2. Giai đoạn 2: Thu thp và tin xlý ( xlý thô). Bước này còn được gi là tin xử  
lý dliu nhm loi bnhiu (dliệu dư thừa), làm sch dliu, xlý và khc  
phc vấn đề thiếu hoc tha dliu, biến đổi dliu và rút gn dliu nếu cn  
thiết. Bước này thường chiếm nhiu thi gian nhất (bước quan trng) trong toàn bộ  
quy trình phát hin tri thc.  
11  
3. Giai đoạn 3: Biến đổi dliu, chn la mt số phương pháp. Phân loại  
(Classification), hi quy (Regression), phân nhóm (Clustering), quy np, tng hp  
kết qu(Summarization).  
Giải thích kết quả  
và đánh giá mẫu  
Tri thức và  
cách sử dụng  
Khai phá dữ liệu  
Biến đổi dữ liệu  
Thu thập và tiền xử lý  
Hình thành, xác định và  
Mẫu và  
mô hình  
định nghĩa vấn đề  
Dữ liệu  
đã được  
Dữ liệu đã  
biến đổi  
được tiền xử  
lý  
Mục  
tiêu dữ  
liệu  
Internet,...  
Kho dữ liệu  
Hình 1.1: Các bước trong quá trình phát hin tri thc  
4. Giai đoạn 4: Khai phá dliu, hay nói cách khác là trích chn, chiết xut ra các  
mu hay các mô hình tim ẩn dưới các dliu có ý nghĩa, hiểu được. Giai đoạn này  
rt quan trng, bao gồm các công đoạn như: chức năng, nhiệm vvà mục đích khai  
phá dliệu, dùng phương pháp khai phá nào là thích hợp?.  
5. Giai đoạn 5: Gii thích kết quả và đánh giá các mẫu hay mô hình. Các mu và mô  
hình này là kết qucủa giai đoạn 3 trong quy trình. Đây là công đoạn không thể  
thiếu trong quá trình khai phá tri thc.  
6. Giai đoạn 6: Hiu và sdng tri thức đã tìm được, đặc bit là làm sáng tcác mô tả  
và dự đoán. Các bước trên có thlặp đi lặp li mt sln, kết quả thu được có thể  
được ly trên tt ccác ln thc hin.  
Tóm li: Quá trình phát hin tri thc ttrong kho dliu (KDD – Knowledge  
Discovery Database) là quá trình chiết xut ra tri thc tkho dliu mà trong đó khai  
phá dliệu là công đoạn quan trng nht.  
12  
1.3. Kiến trúc hthng khai phá dliu  
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính  
như trong hình.  
1- Kho dữ liệu: là một tập các cơ sở dữ liệu, các công cụ làm sạch dữ liệu và tích  
hợp dữ liệu có thể thực hiện trên chúng.  
2- Cơ sở tri thức: là yếu tố tri thức được dùng để đánh giá các mẫu kết quả khai  
phá được.  
Hình 1.2: Kiến trúc hthng khai phá dliu  
3- Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ: mô tả, kết hợp,  
phân lớp, phân nhóm dữ liệu.  
4- Công cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và tương tác với  
các modul khai phá dữ liệu để tập trung vào các thuộc tính cần quan tâm.  
5- Biểu diễn dạng đồ hoạ: modul này giao tiếp giữa người dùng và hệ thống khai  
phá dữ liệu.  
1.4. Các loại dữ liệu sử dụng  
1.4.1. Cơ sở dliu quan hệ  
Các CSDL quan hlà mt trong nhng kho cha phbiến nhiu thông tin nht  
và là dng dliu chyếu để nghiên cu khai phá dliu.  
1.4.2. Kho dliu  
13  
Kho dliu (Data Warehouse) cha thông tin thu thp tnhiu nguồn, được lưu  
trtrong một lược đồ hp nht. Kho dliệu được tchc theo các chủ đề và cung cp  
tính lch s, tng hp cao vi cu trúc vt lý là CSDL quan hhoc khi dliu nhiu  
chiu. Kho dliệu là môi trường tt nht cho khai phá dliu hoạt đng hiu qu.  
1.4.3. Cơ sở dliu không gian  
CSDL không gian cha các thông tin có quan hvmặt không gian như CSDL  
địa lý, CSDL nh vtinh và y hc…Dliệu được biu din theo dng mã vch, cha  
bản đồ bit n- chiu hoc bản đồ các điểm pixel. Bản đồ có thể được biu din thành  
dạng vectơ trong đó đường ph, cu, toà nhà, h…Khai phá dliu có thphát hin  
mu bng cách mô tả đặc trưng của ngôi nhà gn mt vị trí nào đó như hồ chng hn.  
Nói chung, các khi dliu không gian có thtchức thành cáu trúc đa chiều và phân  
cp.  
1.4.4. Cơ sở dliệu văn bản  
CSDL văn bản cha các mô ttừ như các câu, đoạn. Có nhiu CSDL văn bản có  
tính phi cấu trúc như các trang Web hoặc na cấu trúc như các message mail, trang  
XML…Để phát hiện các đặc tchung ca các lớp đối tượng, tkhoá, ni dung liên  
quan, đối tượng văn bản…các phương pháp khai phá dữ liu cn tích hp vi các kỹ  
thut ly thông tin và xây dng từ đin, từ điển đồng nghĩa…  
1.4.5. Dliu Web  
Dliu Word Wide Web cung cp các dch vthông tin trc tuyến toàn cầu là cơ  
hi phong phú vi nhiu thách thc mi cho khai phá dliu. Khai phá dliu Web  
vi các mục đích như:  
Khai phá nội dung Web để phát hin ra các tri thc tni dung các trang  
Web  
Khai phá cu trúc Web: phát hin mô hình nn tng cu trúc liên kết.  
Khai phá sdng Web: phát hin thông tin tcác phiên làm vic truy  
nhp của người dùng. Khi nm bắt được các mu tra cu trang có thsp  
xếp li các liên kết và đưa các quảng cáo vào những trang mà người dùng  
thường quan tâm  
1.5. Các phương pháp khai phá dữ liu  
Khai phá dliu là lĩnh vực mà con người luôn tìm cách đạt được mực đích sử  
dng thông tin ca mình. Quá trình khai phá dliu là quá trình phát hin mu, trong  
14  
đó phương pháp khai phá dữ liệu để tìm kiếm các mẫu đáng quan tâm theo dạng xác  
định. Có thkể ra đây một vài phương pháp như: sdng công ctruy vn, xây dng  
cây quyết đnh, da theo khong cách (K-láng ging gn), giá trtrung bình, phát hin  
lut kết hp, … Các phương pháp trên có thể được phỏng theo và được tích hp vào  
các hthống lai để khai phá dliu theo thng kê trong nhiều năm nghiên cứu. Tuy  
nhiên, vi dliu rt ln trong kho dliu thì các phương pháp này cũng đối din vi  
thách thc vmt hiu quvà quy mô.  
1.5.1. Các thành phn ca gii thut khai phá dliu  
Gii thut khai phá dliu bao gm 3 thành phần chính như sau: biểu din mô  
hình, kiểm định mô hình và phương pháp tìm kiếm.  
Biu din mô hình: Mô hình được biu din theo mt ngôn ngữ L nào đó để miêu  
tcác mu có thể khai thác được. Mô tmô hình rõ ràng thì hc máy sto ra mu có  
mô hình chính xác cho dliu. Tuy nhiên, nếu mô hình quá ln thì khả năng dự đoán  
ca hc máy sbhn chế. Như thế slàm cho vic tìm kiếm phc tạp hơn cũng như  
hiểu được mô hình là không đơn giản hoc skhông thcó các mu tạo ra được mt  
mô hình chính xác cho dliu. Ví d: mô tcây quyết định sdng phân chia các nút  
theo một trường dliệu, chia không gian đầu vào thành các siêu phng song song vi  
trc các thuộc tính. Phương pháp cây quyết định như vậy không thể khai phá được dữ  
liu dng công thc “X = Y” dù cho tp hc có quy mô ln thế nào đi nữa. Vì vy,  
vic quan trọng là người phân tích dliu là cn phi hiểu đầy đủ các githiết miêu t.  
Một điều cũng khá quan trọng là người thiết kế gii thut cũng phải din tả được các  
githiết mô tả nào được to ra bi gii thut nào. Khả năng miêu tả mô hình càng ln  
thì càng làm tăng mức độ nguy him do bhc quá và làm giảm đi khả năng dự đoán  
các dliệu chưa biết. Hơn nữa, vic tìm kiếm scàng trlên phc tạp hơn và việc gii  
thích mô hình cũng khó khăn hơn.  
Mô hình ban đầu được xác định bng cách kết hp biến đầu ra (phthuc) vi  
các biến đc lp mà biến đu ra phthuộc vào. Sau đó phải tìm nhng tham smà bài  
toán cn tp trung gii quyết. Vic tìm kiếm mô hình sẽ đưa ra được mt mô hình phù  
hp vi tham số được xác định da trên dliu (trong mt số trưng hp khác thì mô  
hình và các tham slại thay đổi để phù hp vi dliu). Trong mt số trường hp, tp  
các dliệu được chia thành tp dliu hc và tp dliu th. Tp dliu học được  
dùng để làm cho tham sca mô hình phù hp vi dliu. Mô hình sau đó sẽ được  
đánh giá bằng cách đưa các dữ liu thvào mô hình và thay đổi các tham scho phù  
hp nếu cn. Mô hình la chn có thể là phương pháp thống kê như SASS, … một số  
gii thut hc máy (ví dụ như cây quyết định và các quyết định hc có thy khác),  
15  
mng neuron, suy diễn hướng tình hung (case based reasoning), các kthut phân  
lp.  
Hình 1.3: Ví dmô hình khai phá dliu  
Kiểm định mô hình (model evaluation): Là việc đánh giá, ước lượng các mô hình  
chi tiết, chun trong quá trình xlý và phát hin tri thc vi sự ước lượng có dbáo  
chính xác hay không và có thomãn cơ sở logic hay không? Ước lượng phải được  
đánh giá chéo (cross validation) với vic mô tả đặc điểm bao gm dbáo chính xác,  
tính mi l, tính hu ích, tính hiểu được phù hp vi các mô hình. Hai phương pháp  
logic và thng kê chun có thsdng trong mô hình kiểm định.  
Phương pháp tìm kiếm: Phương pháp này bao gồm hai thành phn: tìm kiếm  
tham svà tìm kiếm mô hình. Trong tìm kiếm tham s, gii thut cn tìm kiếm các  
tham số để tối ưu hóa các tiêu chuẩn đánh giá mô hình vi các dliệu quan sát được  
và vi mt mô tmô hình đã định. Vic tìm kiếm không cn thiết đối vi mt sbài  
toán khá đơn giản: các đánh giá tham số tối ưu có thể đạt được bằng các cách đơn gin  
hơn. Đối vi các mô hình chung thì không có các cách này, khi đó giải thut “tham  
lam” thường được sdng lặp đi lặp li. Ví dụ như phương pháp giảm gradient trong  
gii thut lan truyền ngược (backpropagation) cho các mng neuron. Tìm kiếm mô  
hình xy ra giống như một vòng lặp qua phương pháp tìm kiếm tham s: mô tmô  
hình bị thay đổi to nên mt hcác mô hình. Vi mi mt mô tmô hình, phương  
pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình. Các phương  
pháp tìm kiếm mô hình thường sdng các kthut tìm kiếm heuristic vì kích thước  
ca không gian các mô hình có thể thường ngăn cản các tìm kiếm tng thể, hơn nữa  
các giải pháp đơn giản (closed form) không dễ đạt được.  
16  
1.5.2. Phương pháp suy diễn / quy np  
Mt CSDL là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể  
được suy din từ kho thông tin đó. Có hai kỹ thuật chính để thc hin vic này là suy  
din và quy np.  
Phương pháp suy diễn: Nhm rút ra thông tin là kết qulogic ca các thông tin  
trong CSDL. Ví dụ như toán tử liên kết áp dng cho bng quan h, bảng đầu cha  
thông tin vcác nhân viên và phòng ban, bng thhai cha các thông tin vcác phòng  
ban và các trưởng phòng. Như vậy ssuy ra được mi quan hgia các nhân viên và  
các trưởng phòng. Phương pháp suy diễn da trên các skiện chính xác để suy ra các  
tri thc mi tcác thông tin cũ. Mẫu chiết xuất được bng cách sdụng phương pháp  
này thường là các lut suy din.  
Phương pháp quy np: phương pháp quy nạp suy ra các thông tin được sinh ra từ  
CSDL. Có nghĩa là nó ttìm kiếm, to mu và sinh ra tri thc chkhông phi bắt đầu  
vi các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các thông  
tin hay các tri thc cp cao din tvề các đối tượng trong CSDL. Phương pháp này  
liên quan đến vic tìm kiếm các mu trong CSDL. Trong khai phá dliu, quy np  
được sdng trong cây quyết đnh và to lut.  
1.5.3. Phương pháp ứng dng K-láng ging  
Smiêu tcác bn ghi trong tp dliu khi trvào không gian nhiu chiu là rt  
có ích đối vi vic phân tích dliu. Vic dùng các miêu tnày, ni dung ca vùng  
lân cận được xác định, trong đó các bản ghi gần nhau trong không gian được xem xét  
thuc vlân cn (hàng xóm – láng ging) ca nhau. Khái niệm này được dùng trong  
khoa hc kthut vi tên gi K-láng ging gần, trong đó K là số láng giềng được sử  
dụng. Phương pháp này rất hiu quả nhưng lại đơn giản. Ý tưởng thut toán hc K-  
láng ging gn là “thc hiện như các láng ging gn ca bạn đã làm”.  
Ví dụ: Để dự đoán hoạt động ca cá thể xác định, K-láng ging tt nht ca cá  
thể được xem xét, và trung bình các hoạt động ca các láng ging gần đưa ra được dự  
đoán về hoạt động ca cá thể đó.  
Kthut K-láng ging gn là một phương pháp tìm kiếm đơn giản. Tuy nhiên, nó  
có mt smt hn chế gii hn là phm vi ng dng của nó. Đó là thuật toán này có  
độ phc tp tính toán là lutha bc 2 theo sbn ghi ca tp dliu.  
Vấn đề chính liên quan đến thuc tính ca bn ghi. Mt bn ghi gm nhiu thuc  
tính độc lp, nó bng một điểm trong không gian tìm kiếm có schiu ln. Trong các  
không gian có schiu ln, giữa hai điểm bt khầu như có cùng khoảng cách. Vì thế  
17  
mà kthut K-láng ging không cho ta thêm mt thông tin có ích nào, khi hu hết các  
cặp điểm đều là các láng ging. Cuối cùng, phương pháp K-láng giềng không đưa ra lý  
thuyết để hiu cu trúc dliu. Hn chế đó có thể được khc phc bng kthut cây  
quyết đnh.  
1.5.4. Phương pháp sử dng cây quyết định và lut[14]  
Vi kthut phân lp da trên cây quyết định, kết quca quá trình xây dng  
mô hình scho ra mt cây quyết định. Cây này được sdng trong quá trình phân lp  
các đối tượng dliệu chưa biết hoặc đánh giá độ chính xác ca mô hình. Tương ứng  
vi hai giai đoạn trong quá trình phân lp là quá trình xây dng và sdng cây quyết  
định.  
Quá trình xây dng cây quyết định bắt đầu tmột nút đơn biểu din tt ccác  
mu dliệu. Sau đó, các mẫu sẽ được phân chia một cách đệ quy da vào vic la  
chn các thuc tính. Nếu các mu có cùng mt lp thì nút strở thành lá, ngược li ta  
sdng một độ đo thuộc tính để chn ra thuc tính tiếp theo làm cơ sở để phân chia  
các mu ra các lp. Theo tng giá trca thuc tính va chn, ta to ra các nhánh  
tương ứng và phân chia các mẫu vào các nhánh đã to. Lp li quá trình trên cho ti  
khi tạo ra được cây quyết đnh, tt ccác nút triển khai thành lá và được gán nhãn.  
Hình 1.4: Ví dcây quyết đnh  
Quá trình đệ quy sdng li khi một trong các điều kiện sau được tha mãn:  
Tt ccác mu thuc cùng mt nút.  
Không còn mt thuộc tính nào để la chn.  
18  
Nhánh không cha mu nào.  
Phn ln các gii thut sinh cây quyết định đều có hn chế chung là sdng  
nhiu bnhớ. Lượng bnhsdng tlthun với kích thước ca mu dliu hun  
luyn. Một chương trình sinh cây quyết định có htrsdng bnhngoài song li  
có nhược điểm vtốc độ thc thi. Do vy, vấn đề ta bt cây quyết định trnên quan  
trng. Các nút lá không ổn định trong cây quyết đnh sẽ được ta bt.  
Kthut tỉa trước là vic dng sinh cây quyết định khi chia dliu không có ý  
nghĩa.  
1.5.5. Phương pháp phát hiện lut kết hp  
Phương pháp này nhm phát hin ra các lut kết hp gia các thành phn dliu  
trong CSDL. Mẫu đầu ra ca gii thut khai phá dliu là tp lut kết hp tìm được.  
Ta có thly mt ví dụ đơn giản vlut kết hợp như sau: sự kết hp gia hai thành  
phn A và B có nghĩa là sxut hin ca A trong bn ghi kéo theo sxut hin ca B  
trong cùng bản ghi đó: A => B.  
Cho một lược đồ R={A1, …, Ap} các thuc tính vi min giá tr{0,1}, và mt  
quan hr trên R. Mt lut kết hợp trên r được mô tả dưới dng X=>B vi X R và B  
R\X. Vmt trc giác, ta có thphát biu ý nghĩa của luật như sau: nếu mt bn ghi  
ca bng r có giá tr1 ti mi thuc tính thuc X thì giá trca thuc tính B cũng là 1  
trong cùng bản ghi đó. Ví dụ như ta có tập CSDL về các điểm ca sinh viên, các dòng  
tương ứng vi các các sinh viên, các cột tương ứng với các điểm các môn hc thì giá  
tr1 ti ô (Trn Thu Hà, lp trình C đạt 8) xác định rằng sinh viên đó cũng đạt (Trn  
Thu Hà, hệ điều hành đạt 7).  
Cho W R, đặt s(W, r) là tn sxut hin ca W trong r được tính bng tlca  
các hàng trong r có giá tr1 ti mi ct thuc W. Tn sxut hin ca lut X=>B trong  
r được định nghĩa là s(X {B}, r) còn gọi là độ htrca luật, độ tin cy ca lut là  
s(X {B}, r)/s(X, r). Ở đây X có thgm nhiu thuc tính, B là giá trkhông cố định.  
Nhvy mà không xy ra vic to ra các lut không mong muốn trước khi quá trình  
tìm kiếm bắt đầu. Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo  
hàm mũ của số lượng các thuc tính ở đầu vào. Do vy cn phi chú ý khi thiết kế dữ  
liu cho vic tìm kiếm các lut kết hp.  
Nhim vca vic phát hin các lut kết hp là phi tìm tt ccác lut X=>B sao  
cho tn sca lut không nhỏ hơn ngưỡng σ cho trước và độ tin cy ca lut không  
nhỏ hơn ngưng θ cho trước. Tmt CSDL ta có thtìm được hàng nghìn và thm chí  
hàng trăm nghìn các lut kết hp.  
19  
Ta gi mt tp con X R là thường xuyên trong r nếu tha mãn điều kin s(X,r)  
≥ σ. Nếu biết tt ccác tập thường xuyên trong r thì vic tìm kiếm các lut rt ddàng.  
Vì vy, gii thut tìm kiếm các lut kết hợp trước tiên đi tìm tt ccác tập thường  
xuyên này, sau đó tạo dng dn các lut kết hp bng cách ghép dn các tp thuc tính  
da trên mức độ thường xuyên.  
Các lut kết hp có thlà mt cách hình thức hóa đơn giản. Chúng rt thích hp  
cho vic to ra các kết qucó dliu dng nhphân. Gii thut tìm kiếm các lut kết  
hp to ra slut ít nht phi bng vi scác tp phbiến và nếu như một tp phổ  
biến có kích thước K thì phi có ít nht là 2K tp phbiến. Thông tin vcác tp phổ  
biến được sdụng để ước lượng độ tin cy ca các tp lut kết hp.  
Hình 1.5: Ví dvlut kết hp  
1.6. Các nhim vtrong khai phá dliu  
Do sphát trin mnh mca các loi hthng phát hin tri thc trong CSDL  
(KDD) theo yêu cu nhằm đáp ứng những đòi hi trong nhiu lĩnh vực khác nhau, vic  
phát hin tri thc cũng trở lên đa dạng hơn. Do đó, nhiệm vca phát hin tri thc  
trong CSDL cũng trở lên phong phú và có thphát hin rt nhiu kiu tri thc khác  
nhau. Một trong các bước đầu tiên trong quá trình phát hin tri thc trong CSDL là  
quyết định xem loi kiến thc nào mà thut toán phát hin tri thc trong CSDL cn  
phi kết xut tdliệu. Do đó, việc phân loi và so sánh các kiu nhim vphát hin  
tri thc trong CSDL là vấn đề đáng quan tâm nhằm to ra mt hthng phát hin tri  
thc trong CSDL hu ích. Ta sxem xét mt skiu nhim vphát hin tri thc sau:  
20  
1.6.1. Phát hin các lut tối ưu truy vấn ngnghĩa  
Các lut tối ưu truy vấn CSDL thông thường thc hin mt phép biến đổi cú  
pháp, hay sp xếp li thtca các phép toán quan htrong mt truy vn và sn sinh  
ra mt truy vn hiu quả hơn. Các phép biến đổi này thường da trên lý thuyết đại số  
quan h. Các luật được biến đổi trli cùng mt câu trlời như câu truy vấn ban đầu ở  
bt ktrng thái nào của CSDL. Ngược li, lut tối ưu truy vn ngnghĩa biến đổi các  
câu truy vấn ban đầu thành mt truy vn mi bng cách thêm vào hoặc xoá đi các mối  
liên kết bng vic sdng các tri thc CSDL ngnghĩa bao gồm các ràng buc vtính  
toàn vn và sphthuộc hàm để sn sinh ra các câu truy vn hiu quả hơn. Như vậy  
câu truy vấn đã biến đổi cũng trli cùng câu trli giống như câu truy vấn ban đầu  
trong bt ktrng thái nào ca CSDL thomãn kiến thc vngnghĩa được sdng  
trong phép biến đổi. Các hthng phát hin lut SQO có thể được chia thành ba lp:  
Các hthống hướng truy vn (hthống báo cáo) trong đó thuật toán phát hin tri thc  
trong CSDL nhm phc vcác truy vn CSDL thc của người dùng;  
1. Các hthống hướng dliu (hthng tác nghiệp) trong đó thuật toán phát  
hin tri thc trong CSDL chyếu phc vsphân bdliu trong trng  
thái hin thi ca CSDL;  
2. Các hthng li kết hợp các đặc tính ca chthống hướng truy vn và  
hướng dliu.  
Một đặc tính quan trng ca các lut SQO, khác vi các kiu phát hin tri thc  
khác, là vic chn các thuộc tính để tng hp mt SQO cn phải tính đến chi phí liên  
quan như dùng phương pháp truy cập nào và sơ đồ chstrong hqun trCSDL.  
Vic này là cn thiết để tiết kim thi gian xlý truy vn. Mt thut toán phát hin tri  
thc trong CSDL loại này đòi hi phi xem xét tối ưu chi phí.  
1.6.2. Phát hin sphthuộc Cơ sở dliu  
Trong mô hình dliu quan hệ, chúng ta đã nghiên cu quan htrong CSDL  
quan hệ không tính đến quan hgia các thuc tính. Các quan hệ này thường được thể  
hin thông qua sphthuc dliu hoc ràng buc toàn vn. Ở đây sẽ sdng thut  
ngphthuộc CSDL để chsphthuc dliu kiu này. Sphthuộc CSDL được  
sdng trong thiết kế và duy trì một CSDL. Phương pháp phát hiện tự động các sự  
phthuc CSDL này chính là mt kiu nhim vca khai phá dliu.  
21  
1.6.3. Phát hin ssai lch  
Nhim vnày nhm phát hin ssai lệch đáng kể gia ni dung ca tp con dữ  
liu thc và nội dung mong đợi. Hai mô hình sai lch hay dùng là mô hình sai lch  
theo thi gian và sai lch nhóm. Sai lch theo thi gian là sthay đổi có ý nghĩa của  
dliu theo thi gian. Sai lch theo nhóm là skhác nhau không chờ đợi gia dliu  
trong hai tp con dliu, ở đây tính đến cả trưng hp tp con này thuc trong tp con  
kia, nghĩa là xác định dliu trong mt nhóm con của đối tượng có khác đáng kể so  
vi toàn bộ đối tượng không. Theo cách này, các sai sót dliu hay ssai lch so vi  
giá trị thông thường được phát hin.  
1.6.4. Phát hin lut kết hp  
Ta xét mt ví d: Xét mt tp các mt hàng trong mt gimua hàng. Vấn đề đặt  
ra là tìm nhng mi liên quan gia các mt hàng trong gihàng.  
Mt cách chi tiết hơn, xét một tp các thuc tính nhphân vi mt tp các b,  
mi bộ đưc gi là mt gi. Các thuc tính nhị phân được gi là các mc hay các mt  
hàng trong gimà mi mc chnhn mt trong hai giá trị đúng hoặc sai tuthuc vào  
khách hàng có mua mặt hàng đó trong giao dịch hay không. Trên thc tế, loi dliu  
này rt phbiến và được gi là dliu giỏ. Chúng thường được thu thp thông qua  
công nghmã s, mã vch trong các hoạt động kinh doanh siêu th.  
Mt giao dch có thcha mt skhon mc, tp hp tt ccác khon mc sẽ  
thuc vào một không gian T nào đó mà mỗi giao dịch khi đó là một tp con ca T. Ta  
cn phát hin nhng mối tương quan quan trọng hoc mi quan h, mi kết hp trong  
scác khon mc cha trong các giao dch ca mt dliệu nào đó sao cho sự xut  
hin ca mt skhomục nào đó trong giao dịch skéo theo sxut hin ca mt số  
khon mc khác trong cùng mt giao dịch đó.  
Mt lut kết hp là mt quan hcó dng X Y, trong đó, X và Y là tập các  
khon mc và X Y = . Mi lut kết hợp được đặc trưng bởi độ htrợ (sup) và độ  
tin cậy (conf). sup được định nghĩa như tỷ lsgithomãn cX và Y trên toàn bsố  
giỏ. conf được xác định như tỷ lsgithomãn cX và Y trên toàn bchthomãn  
X. Ta stìm hiu lut kết hp phn sau.  
1.6.5. Mô hình hoá sphthuc  
Nhim vụ này liên quan đến vic phát hin sphthuc trong scác thuc tính.  
Nhng phthuộc này thường được biu thị dưới dng lut “nếu thì”: “nếu (tiên đề là  
đúng) thì (kết luận là đúng)”. Về nguyên tc, cả tiên đề và kết lun ca luật đều có thể  
22  
là skết hp logic ca các giá trthuc tính. Trên thc tế, tiên đề thường là nhóm các  
giá trthuc tính và kết lun chlà mt giá trthuc tính. Hthng có thphát hin các  
lut vi phn kết lun nhiu thuộc tính. Điu này khác vi lut phân lớp trong đó tất cả  
các lut cn phi có cùng mt thuộc tính do người dùng chra trong kết lun.  
Quan hphthuc cũng có thể biu diễn dưới dng Bayes. Đó là một đồ thcó  
hướng, không chu trình. Các nút biu din các thuc tính và trng sca cung biu  
diễn đmnh ca sphthuc giữa các nút đó.  
1.6.6. Mô hình hoá nhân quả  
Nhim vụ này liên quan đến vic phát hin mi quan hnhân qutrong thuc  
tính. Các lut nhân qucũng là các lut “nếu - thì” ging các lut phthuộc, nhưng  
mạnh hơn. Luật phthuộc đơn giản chra mt mối tương hỗ giữa tiên đề và kết lun  
ca lut mà không có ý nghĩa nhân quả trong quan hệ này. Do đó, cả tiên đề và kết  
lun có thquan hệ dưới sự ảnh hưởng ca mt biến thba, tc là mt thuc tính hoc  
ở trong tiên đề hoc có trong kết lun. Lut nhân qukhông chchra mối tương  
quan giữa tiên đề và kết lun mà còn cho biết tiên đề thc sto ra kết lun và mi  
quan hgia hai thành phn này là trc tiếp. Tp các mi quan hnhân qucó thể  
được biu diến bằng đồ thnhân qu.  
Thut toán phát hin các lut nhân quCAUDISCO áp dng các phép kim tra  
sự độc lp thng kê ca tng cp thuộc tính. Sau đó, đối vi các thuc tính phthuc  
ln nhau, thut toán sẽ xác định mi quan hcó là xác thc, tiềm năng hay chỉ là mt  
liên kết gito, không phthuc vào tập các điều kin thomãn bi quan hnhân qu.  
Các quan hnhân qucn phthuc vào thi gian theo nghĩa là nguyên nhân  
trước kết qu(kết lun). Nguyên nhân và kết quả đều có ít nht mt skin thi gian  
đi kèm và thời gian ca kết quphải đi sau thời gian ca nguyên nhân. Mc dù yếu tố  
thi gian làm rõ ý nghĩa nhân quả nhưng hệ thống thường khó phân bit các liên kết  
gito.  
1.6.7. Phân cm, nhóm  
Mt nhim vca các hthng phát hin tri thức là phân tích các đối tượng dữ  
liu dạng như các giỏ hàng mà không quan tâm ti lp ca chúng. Các hthng này  
phi tphát hin ra các lp và sinh ra một sơ đphân nhóm ca tp dliệu đó.  
Tuy nhiên, chất lưng ca vic phân nhóm này là mt vn dkhó có thể xác định  
được. Bài toán phân nhóm xác định các nhóm da vào quan hnhiu - nhiu, tc là  
bt kthuc tính nào cũng có thể được sdụng để xác định các nhóm và để dbáo  
các giá trthuộc tính khác. Điều này trái với cách xác định nhiu - một liên quan đến  
23  
nhim vphân lớp các đối tượng, trong đó, một thuộc tính được xem như lớp và tt cả  
các thuộc tính khác được sdụng để phán đoán giá trị cho thuc tính lp.  
1.6.8. Phân lp  
Trong nhim vphân lp, mi bdliu theo dng gimua hàng thuc vmt  
lớp nào đó đã được xác định trước. Các bdliu bao gm tp các thuc tính dbáo  
và mt thuc tính phân lp cth. Lp ca bộ được chra bi giá trca thuc tính lp  
mà người dùng xác định trước.  
Ta xét ví dsau: Gis, mi bdliu biu din các thông tin vnhân viên,  
trong đó các thuộc tính dbáo là tui, gii tính, trình độ hc vn,... của nhân viên đó  
và thuc tính phân lp là trình độ lãnh đạo ca nhân viên. Mc tiêu ca thut toán  
phân lp là tìm ra mi quan hệ nào đó giữa các thuc tính dbáo và thuc tính phân  
lp, từ đó sử dng mi quan hệ này để dbáo lp cho các bdliu mi khác cùng  
khuôn dng.  
Trong trường hp nhng kiến thức được phát hin biu diễn dưới dng các lut  
thì khuôn dng ca lut có thlà: “nếu các thuc tính dbáo ca mt bdliu thoả  
mãn các điều kin của tiên đề, thì bdliệu đó có lớp chra trong kết lun”.  
1.6.9. Hi quy  
Vkhái nim, nhim vhồi quy tương tự như phân lớp. Điểm khác nhau chính là  
chthuộc tính để dbáo là liên tc chkhông phi ri rc. Vic dbáo các giá trị  
số thường được làm bởi các phương pháp thống kê cổ điển, chng hạn như hồi quy  
tuyến tính. Tuy nhiên, các phương pháp mô hình hoá cũng được sdng, chng hn  
như cây quyết định, trong đó nút lá là mô hình tuyến tính phát sinh tp các lp giả  
(pseudo - class) có giá trthuộc tính đích tương tự nhau, sau đó sử dụng phương pháp  
quy nạp để thay thế các lp trong lut quy np bng thp các giá trca thuc tính  
lp cho các bdliu theo lut.  
1.6.10. Tng hp  
Nhim vtng hp chính là sn sinh ra các mô tả đặc trưng cho một lp. Mô tả  
này là mt kiu tng hp, tóm tt mô tả các đặc tính chung ca tt c(hoc hu hết)  
các bdliu dng gimua hàng thuc mt lp.  
Các mô tả đặc trưng thể hiện dưới dng lut có dng sau: ”nếu mt bdliu  
thuc vmt lớp đã chỉ ra trong tiên đề, thì bdliệu đó có tất ccác thuộc tính đã  
nêu trong kết lun”. Cần lưu ý là các lut này có nhng đặc trưng khác biệt so vi lut  
24  
phân lp. Lut phát hiện đặc trưng cho một lp chsn sinh khi các bdliệu đã  
thuc vlớp đó.  
1.7. Các thách thc và giải pháp cơ bản  
1.7.1. Thách thc  
Cơ sở dliu rt ln: các CSDL với hàng trăm trường và bng, hàng triu bn  
ghi, chiếm nhiu gigabyte và terabyte.  
Kích thước chiu ln: Tp dliu ln có nhiu thuc tính và biến nên schiu  
của bài toán tăng làm cho không gian tìm kiếm mẫu tăng rất nhanh. Nếu giscó 3  
mu thuc tính, mi thuc tính có 2 giá trthì scác bn ghi là 23=8 và smu slà  
3*3*3=27. Nếu có p thuc tính, mi thuc tính có d giá trthì smu dliu là dp  
Biến động dliu và tri thc: Sự thay đổi nhanh chóng dliu làm cho các mu  
đã phát hiện trước đây có thể không còn đúng. Hơn nữa các độ đo biến trong các  
CSDL ng dng có thể thay đổi, bxoá, hoặc tăng lên theo độ đo mới. Các gii pháp  
có thể là các phương pháp gia tăng để cp nht các mu.  
Thiếu dliu và tha dliệu: Đây là vấn đề có thnói rất khó khăn cho việc khai  
phá dliệu. Thông thường các htác nghip chỉ quan tâm đến các dliu cần đgii  
quyết các hoạt động tác nghip hàng ngày, các dliệu khác chưa chú trọng thu thp  
hoặc người thao tác không nhp vào, nếu hcm thấy chưa dùng để làm gì. Hu hết  
các thiết kế dliu trong các htác nghip vthuế cũng như bảo him các sliu về  
tài chính, tài sn, thu nhp, vn, doanh s, hoc khai báo chi tiết tình trng sc khoẻ  
thường được bqua mc dù các thiết kế dliu cũng như các Form nhập liệu đều đã  
được cài đặt.  
Hình 1.6: Ví dForm nhp liu  
25  
1.7.2. Mt sgii pháp  
Có thut toán hiu quả và đmm dẻo để tăng bộ nh.  
Ly ví dmu: Chn lc các bdliệu đặc trưng và tốt nht.  
Gim chiu: Chn lc các thuc tính thích hp cho mục đích khai phá.  
Tn dng các xlý song song: Hin nay, do giá thành các thiết bphn cng  
không cao lm, có tháp dng các gii pháp song song cho vic khai phá dữ  
liu: Phân chia nhim v. dliu cho nhiu bxlý thc hiện đồng thi.  
1.8. Kết lun  
Nội dung chương đã tìm hiu quá trình phát hin tri thc và các vấn đề khai phá  
dliu. Phát hin tri thc (KDD) là mt quá trình rút ra tri thc tdliu mà trong đó  
khai phá dliệu là giai đoạn chyếu. Khai phá dliu là nhim vkhám phá các mu  
có ích tsố lượng ln dliu, ở đó dữ liu có thể được lưu trữ trong các CSDL, kho  
dliu hoặc kho lưu trữ thông tin khác. Nó là mt lĩnh vực còn mi m, phát trin từ  
các lĩnh vực như hệ thng CSDL, kho dliu, thng kê, hc máy, trc quan hoá dữ  
liu…Khám phá tri thc bao gm nhiều giai đoạn trong đó giai đoạn khai phá dliu  
là giai đoạn quan trng nhất. Chương này đã tóm tt mt số phương pháp phổ biến  
dùng để khai phá dliu và phân tích vic khai phá dliệu. Trong các phương pháp  
khai phá dliu, phát hin các lut kết hp là mt lĩnh vực đang được quan tâm  
nghiên cu nhiu. Phn này sẽ được trình bày rõ hơn trong chương sau.  
26  
Chương 2  
CƠ SỞ LÝ THUYT CA LUT KT HP, MT STHUT  
TOÁN PHÁT HIN LUT KT HP  
2.1. Lý thuyết vlut và lut kết hp  
2.1.1. Lut tha  
a. Đnh nghĩa: Xét lut r: XY thuc tp các lut {R} ca một cơ stri thc.  
Luật r được gi là lut tha nếu vi các lut còn li thuc tp R {r} nếu chúng ta  
có thsuy ra mt lut r: XY  
Một định nghĩa khác: Gọi R: tp lut của cơ sở tri thc; r thuc R: XY; (X)R-  
{r}: tp các mệnh đề suy ra tX bng các lut thuc R-{r}; lut r: XY thuc R gi là  
tha nếu Y thuc (X)R-{r}  
Ví d: Xét tp lut sau:  
R1: AB  
R2: BC  
R3: CD  
R4: AD  
Trong các lut trên, ta thy lut R4: AD là tha bi vì: TR1, R2, R3, ta có:  
ABCD  
Thuật toán xác định (X)R-{r}  
1. Bước 1: Ket qua:= X;  
2. Bước 2: Với mọi r thuộc R, nếu vế trái r thuộc kết quả thì ket qua:= ket qua   
Vephai(r)  
3. Bước 3: Lp lại bước 2 cho đến khi nào ket qua không thay đổi nữa. Khi đó ta  
có (X)R-{r}  
b. Thut toán loi blut tha:  
Tư tưởng thut toán gồm các bước sau:  
1. Bước 1: t R = R {r}, từ định nghĩa của lut tha trên, chúng ta có thut  
toán kim tra lut r: X Y có tha trong tp các lut R hay không:  
27  
2. Bước 2: Xác định (X)R = (Aj| Aj là các mệnh đề có thsuy din tX da  
trên tp lut R)  
3. Bước 3 : Kim tra nếu Y thuc (X)R hay không:  
nếu đúng: thì lut r là thừa đối vi tp R  
ngưc li: thì lut r không thừa đối vi tp R  
Gii thut chính loi blut tha:  
Bước 1: Xét lut r trong tp lut R, kim tra r có thừa đối vi tp R - {r} không?  
Bước 2 : Nếu tha thì R= R {r}; lp lại bước 1 vi lut khác.  
Bước 3: Lp lại cho đến khi không còn blut nào na.  
2.1.2. Lut kết hp  
Cho mt tp I = {I1, I2,...,Im} là tp gm m khon mc (item), còn được gi là  
các thuc tính (attribute). Các phn ttrong I là phân bit nhau. X I đưc gi là tp  
mc (itemset). Nếu lực lượng ca X bng k (tc là |X| = k) thì X được gi là k-itemset.  
Mt giao dịch (transaction) T được định nghĩa như một tp con (subset) ca các  
khon mc trong I (T I). Tương tự như khái niệm tp hp, các giao dịch không được  
trùng lặp, nhưng có thể ni rng tính cht này ca tp hp và trong các thut toán sau  
này, người ta đều githiết rng các khon mc trong mt giao dch và trong tt ccác  
tp mc (item set) khác, có thể coi chúng đã được sp xếp theo thttừ điển ca các  
item.  
Gi D là CSDL ca n giao dch và mi giao dịch được đánh nhãn vi một định  
danh duy nht (Unique Transasction IDentifier-TID). Nói rng, mt giao dch T D  
htr(support) cho mt tp X I nếu nó cha tt ccác item ca X, nghĩa là X T,  
trong mt số trường hợp người ta dùng ký hiệu T(X) để chtp các giao dch htrợ  
cho X. Kí hiu support(X) (hoc supp(X), s(X)) là tlphần trăm của các giao dch hỗ  
trX trên tng các giao dch trong D, nghĩa là:  
T D X T  
supp(X) =  
D
Ví dvề cơ sdliu D (dng giao dch) : I = {A, B, C, D, E}, T = {1, 2, 3, 4, 5,  
6}. Thông tin vcác giao dch cho bng sau :  
28  
Định danh giao dịch (TID)  
Tập mục (itemset)  
A B D E  
1
2
3
4
5
6
B C E  
A B D E  
A B C E  
A B C D E  
B C D  
Bng 2.1: Ví dvmột cơ sdliu dng giao dch - D  
Tp phbiến (frequent itemset): Support ti thiu minsup( 0, 1] (Minimum  
Support) là mt giá trị cho trước bởi người sdng. Nếu tp mc X I có supp(X)   
minsup thì ta nói X là mt tp phbiến-frequent itemset (hoc large itemset). Mt  
frequent itemset được sdụng như một tập đáng quan tâm trong các thuật toán, ngược  
li, nhng tp không phi frequent itemset là nhng tập không đáng quan tâm. Trong  
các trình bày sau này, ta ssdng nhng cm từ khác như “X có support tối thiu”,  
hay “X không có support ti thiu” cũng để nói lên rng X tha mãn hay không tha  
mãn support(X) minsupp.  
Ví d: Với cơ sở dliu D cho bng 1, và giá trị ngưng minsupp = 50% slit  
kê tt ccác tp phbiến (frequent-itemset) như sau :  
Các tập mục phổ biến  
Độ hỗ trợ (supp) tương ứng  
100% (6/6)  
B
E, BE  
83% (5/6)  
A, C, D, AB, AE, BC, BD, ABE  
67% (4/6)  
AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6)  
Bng 2.2 : Các tp phbiến trong cơ sở dliu bng 1  
với độ htrti thiu 50%  
Một số tính chất (TC) liên quan đến các frequent itemset:  
TC 1. support cho tt ccác subset: nếu A B, A, B là các itemset thì supp(A)   
supp(B) vì tt ccác giao dch ca D support B thì cũng support A.  
29  
TC 2. Nếu mt item A không có support ti thiu trên D nghĩa là support(A) <  
minsupp thì mt superset B ca A skhông phi là mt frequent vì support(B)   
support(A) < minsup.  
TC 3. Nếu item B là frequent trên D, nghĩa là support(B) minsup thì mi subset  
A ca B là frequent trên D vì support(A) support(B) > minsup.  
Định nghĩa luật kết hợp: Một luật kết hợp có dạng R: X Y, trong đó X, Y là  
các itemset, X, Y I và X Y = . X được gọi là tiên đề và Y được gọi là hệ quả của  
luật.  
Mt snhn xét :  
. Lut X Y tn ti một độ htrsupport - supp. Supp(X Y) được định  
nghĩa là khả năng mà tập giao dch htrcho các thuc tính có có trong  
cX ln Y, nghĩa là: Support(XY) = support(XY).  
. Lut X Y tn ti một độ tin cy c (confidence - conf). Conf c được định  
nghĩa là khả năng giao dịch T htrX thì cũng hỗ trY. Nói cách khác c  
biu thsphần trăm giao dch có cha luôn Y trong snhng giao dch  
có cha X.  
. Ta có công thức tính conf c như sau: conf(X Y) = p(Y I | X I ) =  
p(Y T X T) sup p(X Y)  
p(X T)  
sup p(X )  
. Ta nói rng, lut X Y là thotrên D nếu vi mt support ti thiu  
minsup và một ngưỡng cofidence ti thiểu minconf cho trước nào đó mà:  
Support(X  
Y) minsup và confidence(X Y) minconf  
Chú ý rng, nếu lut X Y mà thotrên D thì cả X và Y đều phi là các  
Frequent Itemset trên D và khi xét mt lut có thohay không, thì csupport và  
confidence của nó đều phi quan tâm, vì mt lut có thconfidence = 100% >  
minconf nhưng có thể là nó không đạt support ti thiu minsup.  
Khi khai phá các lut kết hp, có 2 vấn đề chính cn phi gii quyết :  
. Thnhất, đó là độ phc tp ca gii thut. Số lượng luật tăng theo cấp độ  
lutha cùng vi số lượng các mc (item). Tuy nhiên, các gii thut hin  
nay có thgim bt không gian tìm kiếm này dựa trên các ngưỡng ti  
thiểu để đánh giá đhiu quca lut.  
. Thhai, các lut tt (tối ưu) phải được ly ra ttp hp các lut tìm được.  
Điều này rt khó bi vì tp hp các lut tìm được là rt lớn, trong đó số  
30  
lượng các lut có thể dùng được li chiếm tlvô cùng nh. Các nghiên  
cứu liên quan đến vn đề thhai hu hết chú trng vào việc giúp người  
dùng duyt tp lut cũng như việc phát triển các độ đo chất lượng ca lut.  
2.1.3. Mt stính cht ca lut kết hp[6]  
Trưc hết ta phi gisrng vi lut X  
Y, X có thlà rng, còn Y phi luôn  
support(X Y)  
1  
khác rng và X Y vì nếu không thì: confidence(XY) =  
Ta có các tính cht sau :  
support(X)  
1) Nếu X  
Z và Y Z là thotrên D, thì không nht thiết là XY Z.  
Để ý đến trường hp X Y = và các giao dch trên D htrZ nếu và chnếu  
chúng htrX hoc htrợ Y. Khi đó support(XY) = 0 và cofidence(X Y) = 0.  
Tương tự ta cũng có : Nếu X Y và Z Z không thsuy ra X YZ.  
2) Nếu lut XY Z là thotrên D thì X Z và Y Z có thkhông thotrên  
D.  
Chng hn, khi Z là có mt trong mt giao dch chnếu cả X và Y đều có mt  
trong giao dịch đó, nghĩa là support(X Y)=support(Z). Nếu support cho X và Y ln  
hơn support(XY), thì 2 lut trên skhông có confidence yêu cu. Tuy nhiên, nếu  
X
YZ là thotrên D thì có thsuy ra X Y và X Z cũng thoả trên D Vì  
support(XY) ≥ support(XYZ) và support(XZ) ≥ support(XYZ).  
3) Nếu X Y và Y Z là thotrên D thì không thkhẳng định rng X Z cũng  
giữ đưc trên D.  
GisT(X)T(Y) T(Z) và confidence(X Y) = confidence(Y Z) =  
minconf. Khi đó ta có confidence(X Z) = minconf < minconf vì minconf <1, nghĩa  
là lut X Z không có cofidence ti thiu.  
4) Nếu lut A (L-A) không có confidence ti thiu thì cũng không có luật nào  
trong các lut B  
BA.  
(L-B) có confidence ti thiểu trong đó L-A.B là các intemset và  
Tht vy, theo tính cht TC1, vì BA. Nên support(B) ≥ support(A) và theo định  
nghĩa của confidence, ta có :  
sup port(L)  
sup port(B)  
sup port(L)  
sup port(A)  
confidence(B (L-B)) =  
<minconf.  

Tải về để xem bản đầy đủ

pdf 78 trang yennguyen 13/06/2025 50
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Phá dữ liệu ứng dụng trong đào tạo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_pha_du_lieu_ung_dung_trong_dao_tao.pdf