Khóa luận Nghiên cứu ứng dụng bộ công cụ Business Intelligence trong việc xử lý số liệu của hệ quản trị cơ sở dữ liệu MySQL

ĐẠI HC QUC GIA HÀ NI  
TRƢỜNG ĐẠI HC CÔNG NGHỆ  
Trƣơng Vĩnh Long  
NGHIÊN CU NG DNG BCÔNG CỤ  
BUSINESS INTELLIGENCE TRONG VIC XLÝ  
SLIU CA HQUN TRỊ CƠ SỞ DLIU  
MYSQL  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƢỜNG ĐẠI HC CÔNG NGHỆ  
Trƣơng Vĩnh Long  
NGHIÊN CU NG DNG BCÔNG CỤ  
BUSINESS INTELLIGENCE TRONG VIC XLÝ  
SLIU CA HQUN TRỊ CƠ SỞ DLIU  
MYSQL  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: Công nghthông tin  
Cán bộ hƣớng dn: TS. Nguyn Hà Nam  
Cán bộ đồng hƣớng dn: ThS. Nguyn Thu Trang  
HÀ NI - 2010  
LI CẢM ƠN  
Trước tiên em xin gi li cảm ơn sâu sắc ti TS. Nguyn Hà Nam và ThS. Nguyn  
Thu Trang đã tận tình chbảo, giúp đỡ em hoàn thành luận văn này.  
Em xin chân thành cảm ơn các thầy cô trong bmôn Các hthống thông tin, trường  
Đại hc Công ngh- Đại hc Quc gia Hà nội đã tạo điều kin cho em thc hiện đề tài.  
Đồng thi, em xin cảm ơn các thầy cô giáo trường Đại hc Công nghệ đã dạy bo, giúp  
đỡ em trong 4 năm học va qua.  
Cui cùng em xin cảm ơn những người thân trong gia đình và bạn bè đã động viên,  
giúp đỡ em trong quá trình hc tp và thc hin hoàn lun văn.  
Xin chân thành cảm ơn!  
Sinh viên  
Trương Vĩnh Long.  
TÓM TT  
Ngày nay, việc lưu trữ, xlý dliệu để tng hp thông tin, htrra quyết định đã  
trnên phbiến đối vi nhiu tchc sn xut, kinh doanh. Có nhiều phương pháp để  
đáp ứng yêu cầu này, trong đó Business Intelligence(BI- gii pháp qun trdoanh nghip  
thông minh) là mt gii pháp tiêu biểu, được nhiu tchc la chn.  
Khóa lun này gii thiu mt vài nét tng quan vkho dliu, hthng xlý phân  
tích trc tuyến và bcông cBusiness Intelligence. Tiếp đó là việc triển khai cài đặt, ng  
dng Business Intelligence, cthlà sdng bcông cPentaho trong vic xây dng báo  
cáo và khai phá dliu da trên hqun trị cơ sở dliu MySQL kết hp phn mm  
Weka.  
Danh sách các hình  
Hình 1 Cu trúc hthng kho dliu .. ................................. .............................. 3  
Hình 2 Dòng dliu trong kho dliu.................................. .............................. 4  
Hình 3 - ng dng kho dliu trong Business Intelligence..... .............................. 5  
Hình 4 Ví dvcây quyết định. .......... ................................. .............................. 9  
Hình 5 Thành phn ca hBusiness Intelligence................... ............................ 12  
Hình 6 Cu trúc ca Pentaho Business Intelligence............... ............................ 19  
Hình 7 – Cơ sở dliu vcác thành ph................................. ............................ 23  
Hình 8 Thiết lp Data Source .... .......... ................................. ............................ 24  
Hình 9 Thiết lp Constraint ....... .......... ................................. ............................ 25  
Hình 10 Mô tả báo cáo thu được sdng Pentaho ................ ............................ 26  
Hình 11 Mô tbng dliu vkhách hàng trong ngân hàng. ............................ 27  
Hình 12 - Ti dliu lên Weka tMySQL............................... ............................ 28  
Hình 13 Chn blc MathExpression . ................................. ............................ 29  
Hình 14 – Thay đổi thông scho blc MathExpression ........ ............................ 30  
Hình 15 Sdụng MathExpression để gán li giá trị cho trường THU NHAP.... 30  
Hình 16 Chn blc NumericToNominal ............................. ............................ 31  
Hình 17 Chn blc AddValues.......... ................................. ............................ 32  
Hình 18 Thiết lp thông scho blc AddValues ................ ............................ 32  
Hình 19 Sdng chức năng Replace Value trong phần Edit. ............................ 33  
Hình 20 La chn giá trcn thay thế .. ................................. ............................ 34  
Hình 21 La chn giá trthay thế......... ................................. ............................ 34  
Hình 22 La chn xây dng cây quyết đnh theo J48............ ............................ 35  
Hình 23 - Cây quyết định thu được khi dùng Classifier J48..... ............................ 36  
Hình 24 La chn xây dng lut kết hp theo thut toán Apriori ...................... 37  
Hình 25 Kết quả thu được khi to lut kết hp sdng thut toán Apriori........ 38  
Bng tkhóa  
OLAP  
MOLAP  
ROLAP  
HOLAP  
BI  
Online Analysis Processing  
Multidimensional Online Analysis Processing  
Relational Online Analysis Processing  
Hybird Online Analysis Processing  
Business Intelligence  
Mục lục  
Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL  
Chƣơng 1 : KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ  
SỞ DỮ LIỆU MYSQL  
1.1. Kho dữ liệu  
1.1.1. Khái niệm kho dữ liệu  
Theo William Inmon [12], kho dliu là mt bdliệu có các đặc tính : hướng chủ  
đề, có tính tích hp, ổn định, dliu gn vi thời gian, thường được sdng trong các hệ  
thng htrquyết đnh.  
Kho dliệu thường bao gm :  
- Mt hoc nhiu công cụ để chiết xut dliu tcác dng cu trúc dliu khác  
nhau.  
- Cơ sở dliu tích hợp hướng chủ đề, ổn định được tng hp thông qua vic lp  
các bng dliu.  
Mt kho dliu có thể được coi là mt hthng thông tin vi nhng thuc tính sau:  
• Là một cơ sở dliệu được thiết kế dành cho nhim vphân tích, sdng các dliu  
tcác ng dng khác nhau.  
• Hỗ trcho mt số ngưi dùng có liên quan, có sdng ti các thông tin liên quan.  
• Nội dung được cp nhật thường xuyên, chyếu theo hình thc bsung thông tin.  
• Chứa các dliu trong lch svà hin ti nhm cung cấp các xu hướng thông tin.  
• Chứa các bng dliệu có kích thước ln.  
• Một câu hỏi thường trvmt tp kết quả liên quan đến toàn bbng và các liên kết  
nhiu bng.  
1.1.2. Các đặc tính của kho dữ liệu  
Hƣớng chủ đề : Kho dliu có thchứa lượng dliu lên tới hàng trăm Gigabyte,  
được tchc theo nhng chủ đề chính. Kho dliu không chú trng vào giao tác và vic  
xlý giao tác. Thay vào đó, kho dliu tp trung vào vic mô hình hóa, phân tích dliu  
1
       
Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL  
nhm htrcho nhà qun lý ra quyết định. Do đó, các kho dữ liu thưng cung cp mt  
khung nhìn tương đối đơn giản bng cách loi bt nhng dliu không cn thiết trong  
quá trình ra quyết đnh.  
Tính tích hp : Kho dliu thường được xây dng bng cách tng hp dliu từ  
nhiu ngun khác nhau, ví dụ các cơ sở dliu, nhng bn ghi giao tác trc tuyến hoc  
thm chí là tnhng file dliệu độc lp. Nhng dliu này tiếp tục được làm sch,  
chuẩn hóa để đảm bo snhất quán, sau đó đưa vào kho dữ liu.  
Ổn định : Dliu trong kho dliệu thường được lưu trữ lâu dài, ít bsửa đổi, chủ  
yếu dùng cho vic truy xut thông tin nên có độ ổn định cao. Hai thao tác chyếu tác  
động ti kho dliu là : nhp dliu vào và truy xut.  
Dliu gn vi thi gian : Do có tính ổn định, kho dliệu thường lưu trữ dliu  
ca hthng trong khong thi gian dài, cung cấp đủ sliu cho các mô hình nghip v,  
dbáo, kho sát nhng chtiêu cn quan tâm.  
1.1.3. Cấu trúc hệ thống kho dữ liệu  
Hthng kho dliệu thường bao gm 3 tng như trong hình 1:  
Tầng đáy : là nơi lấy dliu tnhiu ngun khác nhau sau đó làm sạch, chun hóa,  
lưu trữ tp trung.  
Tng gia : thc hin các thao tác vi kho dliu thông qua dch vOLAP (OLAP  
server). Có thể cài đặt bng Relational OLAP, Multidimensional OLAP hay kết hp cả  
hai mô hình trên thành mô hình Hybrid OLAP.  
Tng trên : thc hin vic truy vn, khai phá thông tin.  
2
 
Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL  
Hình 1 Cu trúc hthng kho dliu [6].  
1.1.4. Dòng dữ liệu trong kho dữ liệu  
Do kho dliu chứa lượng dliu ln, đồng thi hn chế thao tác sửa đổi nên rt  
thích hp cho vic phân tích dài hn và báo cáo. Các thao tác vi dliu ca kho dliu  
chyếu dựa trên cơ sở là Mô hình dliệu đa chiều (multidimensional data model),  
thường áp dng cho các khi dliu (data cube). Khi dliu là trung tâm ca vấn đề cn  
phân tích, bao gm mt hay nhiu tp dkin (fact) và các dkiện được to ra tnhiu  
chiu (dimension) dkin khác nhau.  
3
 
Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL  
Hình 2 Dòng dliu trong kho dliu [5].  
1.1.5. Ứng dụng của kho dữ liệu  
Kho dliệu được đưa vào ba mảng ng dng chính.  
Theo như cách khai thác truyền thống đối với cơ sở dliu, kho dliệu được sử  
dụng để khai thác thông tin bng các công cthc hin truy vn và báo cáo. Nhvic dữ  
liệu thô đã được chuyn sang thành các dliu ổn định, có chất lượng nên kho dliệu đã  
giúp nâng cao kthut biu din thông tin truyn thng. Dliệu đầu vào ca các kthut  
này được đặt vào mt ngun duy nht, giúp loi bnhiu li sinh ra do phi thu thp và  
biu din thông tin tnhiu nguồn khác nhau đồng thi gim bt schm trdo phi ly  
dliu tnhững phân đoạn khác nhau, tránh cho người dùng phi viết nhng truy vn  
SQL quá phc tp.  
Vi cách thhai, các kho dliu được sdng để htrcho phân tích trc  
tuyến(OLAP). Trong khi ngôn ngSQL và các công cxây dng báo cáo truyn thng  
chcó thmô tnhững gì có trong cơ sở dliu thì phân tích trc tuyến có khả năng phân  
tích dliệu, xác định xem githuyết đúng hay sai. Tuy nhiên, phân tích trc tuyến li  
4
 
Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL  
không có khả năng đưa ra được các githuyết. Ngoài ra, sdng OLAP còn giúp phân  
tích tng hp dliệu, đưa ra kết qubng các báo cáo hoc bng biu trc quan.  
Cách thứ ba để khai thác kho dliu là da trên các kthut khai phá dliệu. Đây  
là một phương pháp mới, đáp ứng được cnhng yêu cu trong nghiên cu khoa hc  
cũng như yêu cầu trong thc tin. Các kết quả thu được mang nhiu tính dbáo, dự đoán,  
dùng trong vic xây dng kế hoch, chiến lưc.  
Các lĩnh vực hin ti áp dng kho dliu  
- Thương mại điện t.  
- Kế hoch hoá ngun lc doanh nghip (ERP - Enterprise Resource Planning).  
- Qun lý quan hkhách hàng (CRM - Customer Relationship Management)  
- Chăm sóc sức khe.  
- Vin thông.  
Hình 3 - ng dng kho dliu trong Business Intelligence [5].  
5
Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL  
1.2. Hệ quản trị cơ sở dữ liệu MySQL  
1.2.1. Giới thiệu MySQL  
MySQL là hqun trị cơ sở dliu mã ngun mphbiến nht thế giới và được  
các nhà phát trin ng dng rất ưa chuộng. MySQL có tốc độ cao, ổn định và dsdng,  
có tính khchuyn, hoạt động trên nhiu hệ điều hành, cung cp mt hthng ln các  
hàm tin ích mnh.Vi tốc độ và tính bo mt cao, MySQL rt thích hp cho các ng  
dng có truy cập cơ sở dliu thông qua Internet. Ta có thti MySQL qua Internet, có  
nhiu phiên bn cho các hệ điều hành khác nhau: phiên bn Win32 cho các hệ điều hành  
dòng Windows, Linux, Mac OS X, Unix, FreeBSD, NetBSD, Novell NetWare, SGI Irix,  
Solaris, SunOS. MySQL là mt trong nhng ví drất cơ bản vhqun trcơ sở dliu  
quan hsdng ngôn ngtruy vn có cu trúc (SQL).  
1.2.2. Ƣu điểm và nhƣợc điểm của MySQL  
Hqun trị cơ sở dliu MySQL có những ƣu điểm ni bt :  
+ MySQL là hqun trị cơ sở dliu có tốc độ nhanh, đáng tin cậy, có thhot  
động trên nhiu hthng.  
+ MySQL là hqun trị cơ sở dliu mã ngun mmiễn phí, kích thước nh.  
+ Nhờ đội ngũ phát triển năng động, tích cc, các phiên bn MySQL ngày càng  
hon thin, bsung nhiu chức năng mới.  
Tuy nhiên, MySQL vn còn mt shn chế nhất đnh :  
+ MySQL hoạt động tốt đối vi nhng cơ sở dliu va và nhỏ nhưng chưa hỗ trợ  
tốt cho các cơ sdliệu có kích thước rt ln.  
+ Trong các phiên bản trước phiên bn 5.0, MySQL không htrROLE, COMMIT  
và Stored procedure.  
+ Các giao tác (transaction) khi xlý vn còn gp sai sót.  
6
     
Chương 2 – Phương pháp khai phá dữ liệu  
Chƣơng 2 : PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU  
2.1. Khái niệm khai phá dữ liệu  
Theo Frawley, Piatetski-Shapiro và Matheus [2] : Khai phá dliu là một bước  
trong quá trình Phát hin tri thức trong cơ sở dliu, thi hành mt thut toán khai phá dữ  
liệu để tìm ra các mu tdliu theo khuôn dng thích hp.  
Vbn cht, khai phá dliệu liên quan đến vic phân tích các dliu và sdng  
các kthuật để tìm ra các mu hình có tính chính quy trong tp dliu.  
2.2. Các thành phần của giải thuật khai phá dữ liệu  
Gii thut khai phá dliu bao gm 3 thành phần chính như sau: biểu din mô  
hình, đánh giá mô hình, tìm kiếm mô hình.  
Biu din mô hình: Mô hình được biu din bng mt ngôn ngữ L để mô tcác  
mu có thể khai thác được. Nếu smô tbhn chế quá mc thì skhông thdùng các  
mô hình tạo ra để hc hoc skhông thtạo ra được mt mô hình chính xác cho dliu.  
Vic quan trọng là người phân tích dliu cn phi hiểu đầy đủ các githiết mô t. Mt  
điều cn thiết khác là người thiết kế gii thut cn phi din tả được rng các githiết mô  
tả nào được to ra bi gii thut nào. Khả năng mô tả mô hình càng lớn thì càng làm tăng  
nguy cơ quá trình học diễn ra vượt mc và làm giảm đi khả năng dự đoán các dữ liu  
chưa biết. Hơn na, vic tìm kiếm scàng trnên phc tạp hơn vic gii thích mô hình  
cũng khó khăn hơn.  
Mô hình ban đầu được xác định bng cách kết hp biến đầu ra (phthuc) vi các  
biến độc lp mà biến đầu ra phthuộc vào. Sau đó phải tìm nhng tham smà bài toán  
cn tp trung gii quyết. Vic tìm kiếm mô hình sẽ đưa ra được mt mô hình phù hp vi  
các tham số được xác định da trên dliu. Trong mt số trường hp, tp dliệu được  
chia thành tp dliu hc và tp dliu th. Tp dliu học được sdụng để làm cho  
các tham sca mô hình phù hp vi dliu. Mô hình sau đó sẽ được đánh giá bằng cách  
đưa các dữ liu thử vào mô hình và thay đổi li các tham scho phù hp nếu cn. Mô  
hình la chn có thể là phương pháp thống kê như SASS, v.v…, một sgii thut hc  
máy, mng neuron, suy diễn hướng tình hung, các kthut phân lp.  
7
     
Chương 2 – Phương pháp khai phá dữ liệu  
Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chun ca  
quá trình phát hin tri thc hay không. Việc đánh giá độ chính xác dự đoán dựa trên đánh  
giá chéo. Đánh giá chất lượng mô tả liên quan đến độ chính xác dự đoán, độ mi, khả  
năng sử dng, khả năng hiểu được ca mô hình. Chai chun thng kê và chun logic  
đều có thể được sdụng để đánh giá mô hình. Việc đánh giá mô hình được thc hin qua  
kim tra dliu (trong mt số trường hp kim tra vi tt ccác dliu, trong mt số  
trường hp khác chkim tra vi dliu th). Ví dụ như đối vi mng neuron, việc đánh  
giá mô hình được thc hin da trên vic kim tra dliu (bao gm cdliu hc và dữ  
liu thử), đối vi nhim vdự đoán thì việc đánh giá mô hình ngoài kim tra dliu còn  
phi dựa trên đchính xác ca dự đoán.  
Phƣơng pháp tìm kiếm: phương pháp tìm kiếm bao gm hai thành phn: tìm  
kiếm tham svà tìm kiếm mô hình. Trong tìm kiếm tham s, gii thut cn phi tìm kiếm  
các tham số để tối ưu hóa các tiêu chuẩn đánh giá mô hình với các dliệu quan sát được  
và vi mt mô tả mô hình đã định. Vic tìm kiếm là không cn thiết đối vi mt sbài  
toán trong đó các đánh giá tham số tối ưu có thể đạt được bằng các cách đơn giản hơn.  
Đối vi các mô hình chung, gii thuật “tham lam” thường được sdng lặp đi lặp li.  
Tìm kiếm mô hình xy ra giống như một vòng lặp qua phương pháp tìm kiếm tham s:  
mô tmô hình bị thay đổi to nên mt hcác mô hình. Vi mỗi mô hình, phương pháp  
tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình. Các phương pháp tìm  
kiếm mô hình thường sdng các kthut tìm kiếm heuristic vì kích thước ca không  
gian các mô hình có thể thường ngăn cản các tìm kiếm tng th.  
Hai phương pháp khai phá dữ liu phbiến được trình bày phn sau là Cây quyết  
định và Phát hin lut kết hp.  
2.3. Cây quyết định  
Cây quyết định: Cây quyết định là mt mô ttri thc dạng đơn giản nhm phân các  
đối tượng dliu thành mt slp nhất định. Các nút của cây được gán nhãn là tên các  
thuc tính, các cạnh được gán các giá trcó thca các thuc tính, các lá mô tcác lp  
khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương  
ng vi các giá trca thuc tính trong đối tượng lá. Hình 4 mô tmt mẫu đầu ra có  
8
 
Chương 2 – Phương pháp khai phá dữ liệu  
thca quá trình khai phá dliệu dùng phương pháp cây quyết định vi tp dliu khách  
hàng xin vay vn. Hai nút của cây được gán nhãn là “Nợ” và “Thu nhập”, các cạnh được  
gán nhãn tương ứng để so sánh Nvi giá trn, Thu nhp vi giá trị t. Các đối tượng lá  
ng với đường đi trong cây, ví dụ lá ngoài cùng bên trái ng với các đối tượng có N< n  
và Thu nhập < t và không được cho vay.  
Hình 4 Ví dvcây quyết định.  
To lut: Các luật được to ra nhm suy din mt smu dliệu có ý nghĩa về mt  
thng kê. Các lut có dng NU P THÌ Q, vi P là mệnh đề đúng với mt phn trong  
cơ sở dliu, Q là mệnh đề dự đoán. Ví dụ ta có mt mu phát hiện được bằng phương  
pháp to lut: nếu giá 1 gói bánh giảm đi 5000 đồng thì số lượng bánh bán ra sẽ tăng thêm  
5%. Nhng luật như thế này được sdng rt rng rãi trong vic mô ttri thc trong hệ  
chuyên gia. Chúng có điểm thun li là dhiểu đi với người sdng.  
Cây quyết định và luật có ưu điểm là hình thc mô tả đơn giản, mô hình suy din  
khá dhiểu đối với người sdng. Tuy nhiên, gii hn ca chúng là chcó thbiu din  
được mt sdng chức năng và vì vậy gii hn vcả độ chính xác ca mô hình. Nếu mở  
rng không gian của mô hình để cho phép có nhiu mô tả hơn thì mô hình sẽ dự đoán tốt  
hơn nhưng lại rt khó hiểu. Cho đến nay, đã có rất nhiu gii thut suy din sdng các  
lut và cây quyết định được áp dng trong hc máy và trong thng kê.  
Đối vi quy mô lớn, người ta dựa trên các phương pháp đánh giá mô hình theo xác  
sut vi các mức độ mô hình phc tp khác nhau. Các phương pháp tìm kiếm “tham  
lam”, liên quan đến việc tăng và rút gọn các lut và các cu trúc cây, chyếu được sử  
dụng để khai thác không gian siêu mũ của các mô hình. Cây và lut chyếu được sdng  
9
Chương 2 – Phương pháp khai phá dữ liệu  
cho vic mô hình hóa dự đoán, phân lớp và hi quy. Chúng cũng có thể được áp dng cho  
vic tóm tt và mô hình hóa các mô t.  
2.4. Phát hiện các luật kết hợp  
Phương pháp này nhằm phát hin ra các lut kết hp gia các thành phn dliu  
trong cơ sở dliu. Mẫu đầu ra ca gii thut khai phá dliu là tp lut kết hp tìm  
được. Ta có thly mt ví dụ đơn giản vlut kết hợp như sau: sự kết hp gia hai thành  
phần A và B có nghĩa là sự xut hin ca A trong bn ghi kéo theo sxut hin ca B  
trong cùng bản ghi đó: A B.  
Cho một lược đồ R={A1, …, Ap} các thuc tính vi min giá tr{0,1}, và mt quan  
hr trên R. Mt lut kết hợp trên r được mô tả dưới dng XB vi XR và BR\X. Về  
mt trc giác, ta có thphát biểu ý nghĩa của luật như sau: nếu mt bn ghi ca bng r có  
giá tr1 ti mi thuc tính thuc X thì giá trca thuộc tính B cũng là 1 trong cùng bản  
ghi đó.  
Cho W R, đặt s(W,r) là tn sxut hin của W trong r được tính bng tlca các  
hàng trong r có giá tr1 ti mi ct thuc W. Tn sxut hin ca lut XB trong r được  
định nghĩa là s(X{B}, r) còn gọi là độ htrca luật, độ tin cy ca lut là s(X{B},  
r)/s(X, r). Ở đây X có thể gm nhiu thuc tính, B là giá trkhông cố định. Nhvy mà  
không xy ra vic to ra các lut không mong muốn trước khi quá trình tìm kiếm bắt đầu.  
Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của số lượng  
các thuc tính ở đầu vào. Do vy cn phi chú ý khi thiết kế dliu cho vic tìm kiếm các  
lut kết hp.  
Nhim vca vic phát hin các lut kết hp là phi tìm tt ccác lut XB sao  
cho tn sca lut không nhỏ hơn ngưỡng σ cho trước và độ tin cy ca lut không nhỏ  
hơn ngưỡng θ cho trước. Tmột cơ sở dliu ta có thể tìm được hàng nghìn và thm chí  
hàng trăm nghìn các luật kết hp.  
Ta gi mt tp con XR là thường xuyên trong r nếu thỏa mãn điều kiện s(X, r)≥σ.  
Nếu biết tt ccác tập thường xuyên trong r thì vic tìm kiếm các lut rt ddàng. Vì  
vy, gii thut tìm kiếm các lut kết hợp trước tiên đi tìm tất ccác tập thường xuyên  
10  
 
Chương 2 – Phương pháp khai phá dữ liệu  
này, sau đó tạo dng dn các lut kết hp bng cách ghép dn các tp thuc tính da trên  
mức độ thường xuyên.  
Các lut kết hp có thlà mt cách hình thức hóa đơn giản. Chúng rt thích hp cho  
vic to ra các kết qucó dliu dng nhphân. Hn chế cơ bản của phương pháp này  
là các quan hcn phải thưa theo nghĩa không có tập thưng xuyên nào cha nhiều hơn  
15 thuc tính. Gii thut tìm kiếm các lut kết hp to ra slut ít nht phi bng vi số  
các tập thường xuyên, và nếu như một tập thường xuyên có kích thước K thì phi có ít  
nht là 2K tập thường xuyên. Thông tin vcác tập thường xuyên được sdụng để ước  
lượng độ tin cy ca các tp lut kết hp.  
11  
Chương 3 – Bộ công cụ Business Intelligence  
Chƣơng 3 : BỘ CÔNG CỤ BUSINESS INTELLIGENCE  
3.1. Business Intelligence  
3.1.1. Khái niệm Business Intelligence  
Business Intelligence (BI - gii pháp qun trdoanh nghip thông minh) là mt quy  
trình, công nghcho phép tchc, doanh nghip khai thác dliu tnhiu ngun khác  
nhau vkhách hàng, thị trường, nhà cung cấp, đối tác, nhân s... và phân tích, sdng  
các dliệu đó thành các nguồn thông tin có ý nghĩa nhằm htrvic ra quyết định. Công  
nghBI cung cp mt cách nhìn toàn cnh vhoạt động ca doanh nghip tquá kh,  
hin ti và các dự đoán tương lai. Mục đích của BI là htrcho doanh nghip ra quyết  
định tốt hơn, vì vậy mt hthng BI còn có thể được coi là hthng htrquyết đinh.  
3.1.2. Các thành phần chính của hệ Business Intelligence  
Dliu dùng trong hthng BI là dliu tng hp tnhiu ngun, nhiều định dng,  
phân tán và có tính lch sử. Đồng thi vic phân tích dliu trong BI không phi là nhng  
phân tích đơn giản mà là nhng kthut trong khai phá dliu dùng để phân lp, phân  
cm, hay dự đoán. Vì vy BI có mi quan hrt cht chvi kho dliu và khai phá dữ  
liu.  
Hình 5 Thành phn ca hBusiness Intelligence [1].  
12  
       
Chương 3 – Bộ công cụ Business Intelligence  
Các thành phần cơ bản ca hthống Business Intelligence được mô tả như trong  
hình 5.  
Data Warehouse (Kho dliu): Cha dliu tng hp vhoạt động kinh doanh,  
khách hàng, nhân sự …của doanh nghip.  
Data Mining (Khai phá dliu): Các kthut dùng để khai phá dliu và phát hin  
tri thức như phân lớp, phân nhóm, phát hin lut kết hp, dự đoán,…nhằm tng hp thông  
tin hu ích cung cp cho vic phân tích ra quyết định.  
Business Analyst (Phân tích kinh doanh) : Các nhà lãnh đạo doanh nghiệp đưa ra  
nhng quyết đnh chiến lược đi vi hoạt động kinh doanh ca doanh nghip.  
3.1.3. Lợi ích của Business Intelligence đối với doanh nghiệp  
Tiết kim chi phí : Thông thường để biết được lí do vì sao kết qukinh doanh tháng  
này gim so với tháng trước, nhà qun lý thưng phi tìm hiu qua nhiu kênh thông tin  
khác nhau tphòng kế toán ti phòng kinh doanh.., nhiu khi tiêu tn khá nhiu thi gian,  
ngun lc. Còn vi gii pháp BI, tn dụng ưu thế có thphân tích sâu theo nhiu chiu,  
nhà qun lý có thể tìm ngay được nguyên nhân bgiảm doanh thu là do đâu, cụ thvùng  
min nào mà hầu như không cn nhờ đến bt cai. Trong bi cnh hin nay, vic giúp  
doanh nghip truy xut nhanh gọn thông tin được coi như một gii pháp giúp tiết kim chi  
phí, nâng cao hiu quhoạt động.  
Chn lc mt hàng kinh doanh : Bằng cách đo lường các chsố đánh giá hiệu quả  
hoạt động chcht vsln bo hành, các mt hàng bán chm nht hay skhách hàng  
mua và tổng doanh thu bán được tnhng mặt hàng đó, BI giúp nhà qun lý biết được  
nhng mt hàng kém hiu qu, làm tiêu tn nhiu chi phí cho các hoạt động htr, tn  
kho để từ đó ra quyết định loi bhay ci tiến thành mt sn phm mi.  
Phân tích hiu quca các chƣơng trình khuyến mãi, qung cáo : Thông qua  
vic thu thp thông tin vsố lượng hàng bán, doanh thu, chi phí, skhách hàng mi, số  
sn phẩm bán được... của các chương trình khuyến mãi, qung cáo hthng BI sẽ đưa ra  
báo cáo phân tích vmức độ hiu qucủa chương trình, từ đó nhà quản lý sbiết được  
chương trình dạng nào mang li hiu qucao nhất để áp dng li cho nhng ln sau.  
Ngoài ra, da trên nhng bng kho sát, dliu vbán hàng, BI có thcho biết tác động  
13  
 
Chương 3 – Bộ công cụ Business Intelligence  
ca nhng hoạt động đó như thế nào sau mi kqung cáo, tung ra sn phm, dch vụ  
mi.  
Nâng cao năng lực ca nhân viên kinh doanh : Trong doanh nghip có nhiu kênh  
phân phi, nhiều chi nhánh đại lý, nhân viên kinh doanh được tchc thành nhiu cp  
nên việc đo lường và đánh giá hiệu qulàm vic ca nhân viên mt cách chính xác  
thường khó khăn và tốn nhiu thời gian. Để đánh giá đúng phải da trên nhiu tiêu chí:  
doanh s, skhách hàng mới tìm được, và phi có trng sriêng cho tng kênh bán  
hàng.. Vi shtrca hthng BI, nhà qun lý có thể đo lường nhiều tiêu chí đánh giá,  
từ đó có những quyết định thưởng phạt, điều chnh nhân schính xác.  
Nâng cao hiu quphc vkhách hàng : Nm bt thông tin khách hàng nhiu  
góc độ khác nhau sgiúp doanh nghip phc vkhách hàng tốt hơn. Hệ thng BI cung  
cp cho doanh nghip cái nhìn tng thvkhách hàng bng cách phân loi khách hàng  
theo nhiều tiêu chí khác nhau: độ tui, giới tính, nơi sinh sống, thu nhập, doanh thu... để  
doanh nghip có thcung cp nhng sn phm phù hp vi nhu cu ca hhay có thể  
thiết kế những chương trình khuyến mãi, qung cáo riêng cho nhng khu vc mà nhng  
đối tượng đó tập trung đông nhất.  
Đánh giá đối thcnh tranh, mrng thị trƣờng : Đối vi thị trường cnh tranh  
gay gt như hiện nay, nhà qun lý không nhng phi nm rõ tình hình ca doanh nghip  
mình mà cn phải đánh giá được tim lc của đối thcnh tranh trong ngành, nắm được  
danh sách nhng khách hàng tiềm năng để mrng thphn, tìm kiếm thêm khách hàng  
mi. Thông qua vic thu thp thông tin tbên ngoài doanh nghip, BI có thể đưa ra báo  
cáo so sánh doanh thu, số lượng khách hàng... ca doanh nghip so với các đối thkhác  
trong ngành. Hoặc khi đối thtung ra một chương trình khuyến mãi nào đó, doanh nghiệp  
sdng hthng BI để đo lường doanh thu và skhách hàng ca mình, từ đó đối chiếu  
vi mức độ lôi cun của chương trình, nếu skhách hàng giảm đáng kể nhưng doanh thu  
vn không gim nhiu chng tỏ chương trình của đối thchthu hút nhng khách hàng có  
giá trthấp, và ngược lại là chương trình thành công. Từ đó doanh nghiệp có thhọc được  
ở đối thvà có những hành động để kéo nhng khách hàng có giá trcao vphía mình.  
14  
Chương 3 – Bộ công cụ Business Intelligence  
3.1.4. Các công cụ Business Intelligence  
Các công cBusiness Intelligence là các phn mm ng dụng được thiết kế để báo  
cáo, phân tích và trình bày dliu. Các công cnày sẽ đọc dliệu đã được lưu trữ từ  
trước trong các kho dliu hoc chdliu. Các công cBusiness Intelligence rất đa  
dng và có mt trên hu hết các hệ điều hành. Nhtính tin dng và khả năng tạo báo  
cáo, phân tích dliu chuyên nghip nên các công cụ Business Intelligence thường được  
áp dng trong các tchc kinh doanh, thng kê.  
Các công cụ Business Intelligence được chia thành nhng loi chính sau :  
-
-
Bng tính  
Phn mm truy vn, báo cáo (công ctrích chn, sp xếp, tng kết, trình din dữ  
liu)  
-
-
-
-
-
-
OLAP (xlý phân tích trc tuyến)  
Bảng điều khin kthut số  
Khai phá dliu  
Khai phá xlý  
Hqun lý hoạt đng kinh doanh  
Hthng thông tin cc bộ  
Mt scông cBusiness Intelligence min phí,mã ngun mtiêu biu : InetSoft,  
InfoZoom, JasperSoft, MicroStrategy, Pentaho, Openl,…  
3.1.5. Kết hợp Business Intelligence và MySQL  
Hin nay trên thị trường giải pháp BI đã xuất hin nhiu bsn phm ca các hãng  
lớn như : Oracle Enterprise BI Server (Oracle), SAP Business Objects Enterprise (SAP),  
QL Server Analysis Service (Microsoft)…Các sản phẩm này đều đã tập trung gii quyết  
các yêu cầu đối vi mt hthng BI hoàn chnh. Tuy nhiên, mt cn trlớn đối vi các  
doanh nghip mun tiếp cn các gii pháp này chính là vấn đề tài chính. Kinh phí để xây  
dng hthống BI cũng như cơ sở dliệu tương ứng là không nhỏ. Đồng thi, các hệ  
15  
   
Chương 3 – Bộ công cụ Business Intelligence  
thống này thường đi kèm với những cơ sở dliệu tương đối phc tạp như Oracle, MS  
SQL Server, đòi hỏi phi có nhng nhân sự được đào tạo tốt để vn hành.  
Tn dng li thế ca MySQL, hqun trị cơ sở dliu mà ngun mmin phí, mt  
snhà sn xuất đã cho ra đời các bsn phẩm BI trong đó sử dng hqun trị cơ sở dữ  
liệu MySQL. Đây là giải pháp tt cho nhng doanh nghip va vnh. Vi kinh phí yêu  
cu thp, hthng BI kết hp MySQL vn thc hin gần như đầy đủ các chức năng : xây  
dng báo cáo, khai phá dliu, phân tích trc tuyến ….đáp ứng cho vic htrra quyết  
định ca nhà qun lý.  
Trong thc tế, BI mang li li ích rõ nét nht cho các doanh nghip ngành hàng tiêu  
dùng, gii khát, thc phm khi mà yếu tvthời gian được đặt lên hàng đầu. Trên thế  
giới, BI đã trở thành công cqun trquen thuc ca nhiu tên tui lớn như: BMW,  
Coca-Cola, Unilever… Còn tại Vit Nam, mt scông ty lớn đã và đang triển khai BI và  
coi đó như một li thế ca mình. Trong thi gian ti, khi nhng bsn phm BI kết hp  
MySQL đã khắc phục được vấn đề vtài chính, gii pháp này chc chn sẽ được áp dng  
rng rãi.  
3.2. Kỹ thuật OLAP  
3.2.1. Khái niệm OLAP  
Xử lý phân tích trực tuyến (OLAP - Online Analitical Proccessing) là phương pháp để  
trả lời những truy vấn đa chiều một cách nhanh chóng. OLAP là một phần của hệ  
Business Intelligence, cùng với báo cáo quan hệ và khai phá dữ liệu. Nó cho phép người  
sdng phân tích dliu qua vic ct lát (slice) dliu theo nhiu khía cnh khác nhau,  
khoan xung (drill down) mc chi tiết hơn hay cuộn lên (roll up) mc tng hợp hơn của  
dliu. Bn cht ct lõi ca OLAP là dliệu được ly ra tkho dliu hoc tDatamart  
(kho dliu chủ đề) sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong  
mt kho dliệu đa chiều. Đối tượng chính ca OLAP là khi, mt sbiu diễn đa chiều  
ca dliu chi tiết và tng th. Mt khi bao gm mt bng skin (Fact), mt hoc  
nhiu bng chiều (Dimensions), các đơn vị đo (Measures) và các phân hoạch (Partitions).  
Những ứng dụng tiêu biểu của OLAP : báo cáo bán hàng, báo cáo marketing, báo cáo  
16  
   
Chương 3 – Bộ công cụ Business Intelligence  
quản lý, dự thảo ngân sách, báo cáo tài chính,….Thuật ngữ OLAP có thể coi là một biến  
thể nhỏ của thuật ngữ cơ sở dữ liệu truyền thống OLTP (Xử lý giao tác trực tuyến).  
Trong khi Data warehouse và data mart lưu trữ dliu cho phân tích, thì OLAP là  
kthut cho phép các ng dng client truy xut hiu qudliu này. OLAP cung cp  
nhiu lợi ích cho người phân tích, ví d:  
- Cung cp mô hình dliệu đa chiều trc quan cho phép ddàng la chọn, định  
hướng và khám phá dliu.  
- Cung cp mt ngôn ngtruy vn phân tích, cung cp sc mạnh để khám phá các  
mi quan htrong dliu kinh doanh phc tp. Dliệu được tính toán trước đối  
vi các truy vấn thường xuyên nhm làm cho thi gian trli rất nhanh đối vi các  
truy vấn đặc bit.  
- Cung cp các công cmạnh giúp người dùng to các khung nhìn mi ca dliu  
da trên mt tập các hàm tính toán đặc bit.  
OLAP được đặt ra để xlý các truy vấn liên quan đến lượng dliu rt ln mà nếu  
cho thc thi các truy vn này trong hthng OLTP skhông thcho kết quhoc smt  
rt nhiu thi gian.  
3.2.2. Các thành phần trong hệ thống OLAP  
Khi (Cube) : Khi là phn tchính trong xlý phân tích trc tuyến, là tp con dữ  
liu tkho dliệu, được tchc và tng hp trong các cấu trúc đa chiều. Để xác định  
mt khi, ta chn mt bảng Fact và các đơn vị đo lường đồng nht (các ct stheo sự  
quan tâm của người dùng khi) trong bảng Fact. Sau đó chọn các chiu, mi chiu gm  
mt hay nhiu ct tbng liên quan khác. Các chiu cung cp mô trõ ràng bởi các đơn  
vị đo lường được chia ra của người dùng khi.  
Chiu (Dimension) : Các chiu là cách mô tchng loại mà theo đó các dữ liu số  
trong khối được phân chia để phân tích. Khi xác định mt chiu, chn mt hoc nhiu ct  
ca mt trong các bng liên kết (bng chiu). Nếu ta chn các ct phc tp thì tt ccn  
có quan hvi nhau, chng hn các giá trca chúng có thể được tchc theo hthng  
phân cấp đơn. Để xác định hthng phân cp, sp xếp các ct tchung nht ti cthể  
17  
 
Chương 3 – Bộ công cụ Business Intelligence  
nht. Ví d: mt chiu thời gian (Time) được to ra tcác cột Năm, Qúy, Tháng, Ngày  
(Year, Quarter, Month và Day).  
Mi ct trong chiu góp phn vào mt cấp độ cho chiu. Các cấp độ được sắp đặt  
theo nét riêng biệt và được tchc trong hthng cp bc mà nó tha nhn các con  
đường hp logic cho việc đào sâu (drill_down).  
Chiu có phân cp : Phân cp là ct sng ca vic gp dliu hay nói mt cách  
khác là da vào các phân cp mà vic gp dliu mi có ththc hiện được. Phn ln  
các chiều đều có mt cấu trúc đa mức hay phân cp. Nếu chúng ta làm nhng quyết định  
vgiá sn phẩm để tối đa doanh thu thì chúng ta cần quan sát nhng dliu vdoanh  
thu sn phẩm đưc gp theo giá sn phm, tức là chúng ta đã thực hin mt cách gp. Khi  
cn làm nhng quyết định khác thì chúng ta cn thc hin nhng phép gộp tương ứng  
khác. Như vậy có thcó quá nhiu tiến trình gp. Thế nên các tiến trình gp này cn phi  
được thc hin mt cách rt ddàng, linh hoạt để có thhtrnhng phân tích không  
hoạch định trước. Điều này có thể được gii quyết trên cơ sở có strgiúp ca nhng  
phân cp rng và sâu.  
Roll_up và Drill_down : Da trên phân cp theo chiu, tmt mức dưới, chúng ta  
có thcun lên (Roll_up) các mc trên, thc hin mt phép gộp, để có được kết qa tng  
hợp hơn. Và từ mt mc trên, có thkhoan sâu xung (Drill_down) các mức dưới, để có  
các kết quchi tiết hơn.  
Các đơn vị đo lƣờng (Measures) : Các đơn vị đo của khi là các ct trong bng  
Fact. Các đơn vị đo lường xác định nhng giá trstbảng Fact mà được tng hp phân  
tích như định giá, trgiá, hoc số lưng bán.  
3.3. Pentaho Business Intelligence Server  
3.3.1. Tổng quan về Pentaho  
Pentaho là mt bphn mm mã ngun mở trong lĩnh vực Business Intelligence. Bộ  
phn mm Pentaho BI Suite Enterprise Edition cung cp các ng dng toàn din vbáo  
cáo, phân tích OLAP, dashboard, phân tích dliu, khai phá dliu và mt hthng nn  
tảng BI. Điều này giúp cho Pentaho trthành bcông cBI mã ngun mrng rãi nht  
18  
   
Chương 3 – Bộ công cụ Business Intelligence  
trên thế gii. Pentaho có tính linh hot cao, có thể được nhúng trong ng dng khác, tùy  
biến các bài toán BI, hoc triển khai như một ng dng hoàn chnh tích hp nn tng BI.  
Pentaho là mt trong nhng nhà sn xuất tiên phong trong lĩnh vực phn mm BI  
thương mại mã ngun m. Qua nhiều năm, sản phm của Pentaho đã được ti vtrên 3  
triệu lượt và được trin khai cho các công ty vi các quy mô khác nhau, tcác tchc  
nhcho ti The Global 2000.  
Hình 6 Cu trúc ca Pentaho Business Intelligence [12].  
3.3.2. Khả năng và lợi ích của Pentaho  
Pentaho htrtheo chun Java trên nn mã ngun mnên có thhoạt động trên  
nhiều môi trường khác nhau. Ngoài ra, Pentaho dtích hp vi dliu ngun, cng và  
ng dng khác sdng mã ngun m.  
19  
 
Chương 3 – Bộ công cụ Business Intelligence  
Khả năng tùy biến rng sdng API, web service, sửa đổi các khung mu hay thm  
chí sửa đổi mã ngun giúp cho vic trin khai, phát trin ddàng. Các tiến trình có thể  
được nhúng vào để BI xlý, và tích hp vi qui trình kinh doanh bên ngòai.  
Kết hp kim tra theo dõi hoạt động ca người sdng, sthc hin và struy  
nhp ni dung, luôn đảm bo tính toàn vn, chính xác và ổn đnh ca dliu.  
3.4. Mondrian OLAP Server  
3.4.1. Mondrian  
Mondrian là mt máy chOLAP mã ngun mhtrcho vic xây dng nhng ng  
dng Business Intelligence trên nền web. Mondrian được viết trên nn Java, không yêu  
cu hệ lưu trữ ngoài, đọc dliu trc tiếp thqun trị cơ sở dliu quan hvà sdng  
bộ đệm để đưa ra câu trả li cho nhng truy vn mt cách nhanh chóng. Nó cho phép  
phân tích các tp hp dliu lớn trong các cơ sở dliu SQL.  
3.4.2. Schema Workbench  
Mondrian Schema Workbench là mt ng dng cho phép to và thnghim các  
OLAP cube mt cách trc quan. Bcông cMondrian sxlý các yêu cu MDX kèm  
theo các giản đồ ROLAP. Nhng tp giản đồ này là những mô hình XML được to ra  
theo mt cấu trúc đặc bit. Nhng mô hình XML có thể được xem như là những cu trúc  
giống như cube, sử dng nhng bng FACT và bng DIMENSION có sn trong hqun  
trị cơ sở dliu quan h(RDBMS). Nó không yêu cu phi có mt cube thc snào, chỉ  
cn mô hình dliệu được khi to.  
Schema Workbench cung cp các chức năng sau :  
- Biên tp giản đồ kết hp vi các ngun dliu.  
- Kim tra các truy vn MDX thông qua giản đồ và cơ sở dliu.  
- Kim tra cu trúc của cơ sdliu.  
20  
     
Chương 3 – Bộ công cụ Business Intelligence  
3.5. Weka – Khai phá dữ liệu  
Weka (viết tt ca Waikato Environment for Knowledge Analysis) là môi trường  
thnghim khai phá dliu do các nhà khoa hc thuộc trường Đại hc Waitako, NZ,  
khởi xướng và được sự đóng góp của rt nhiu nhà nghiên cu trên thế gii. Weka là  
phn mm mã ngun m, cung cp công ctrực quan và sinh động cho mọi người tìm  
hiu vkhai phá dliu. Weka cung cp nhiu gii thut khác nhau vi nhiều phương  
thc cho quá trình xử lý để ước lượng kết qubằng sơ đồ vi bt kì mt dliu nào.Weka  
còn cho phép các gii thut hc mi phát trin có thtích hợp vào môi trường ca nó. Hệ  
thống được viết bng ngôn nglp trình Java và chạy được trên hu hết các hệ điều  
hành.  
Weka có những tính năng chính sau:  
- Bao gm nhiu công cụ đa dạng để thay đổi tp dliu, xlý dliu, gii thut  
học và phương pháp đánh giá.  
- Giao diện đhọa người dùng (trc quan hóa dliu).  
- Môi trường đso sánh các gii thut hc.  
Weka ly dliu từ các file có định dng .arff, .cvs , hoc tmt bng trong cơ sở  
dliu.Tp dliu có thể được tin xlý, cho vào trong một sơ đồ, phân chia các lp kết  
quvà thc hin nó mà không cn viết bt cmột chương trình nào.  
21  
 

Tải về để xem bản đầy đủ

pdf 50 trang yennguyen 06/06/2025 120
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Nghiên cứu ứng dụng bộ công cụ Business Intelligence trong việc xử lý số liệu của hệ quản trị cơ sở dữ liệu MySQL", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_nghien_cuu_ung_dung_bo_cong_cu_business_intelligen.pdf