Khóa luận Áp dụng kỹ thuật olap và kho dữ liệu trong dự báo tài chính

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Vũ Ngc Anh  
ÁP DNG KTHUT OLAP VÀ KHO DLIU  
TRONG DBÁO TÀI CHÍNH  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Các hthng thông tin  
HÀ NI - 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Vũ Ngc Anh  
ÁP DNG KTHUT OLAP VÀ KHO DLIU  
TRONG DBÁO TÀI CHÍNH  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Các hthng thông tin  
Cán bhướng dn: TS. Nguyn Hà Nam  
Cán bộ đồng hướng dn: Ths. Nguyn Thu Trang  
HÀ NI - 2010  
Li cm ơn  
Trước tiên tôi xin gi li cm ơn và lòng biết ơn sâu sc ti TS.Nguyn Hà Nam và  
Ths.Nguyn Thu Trang đã tn tình chbo và hướng dn tôi trong sut quá trình thc hin  
khóa lun tt nghip.  
Tôi xin chân thành cm ơn các thy, các cô đã to cho tôi nhng điu kin thun li để  
hc tp và nghiên cu ti trường Đại Hc Công Ngh.  
Tôi xin cm ơn các bn trong nhóm làm “Data Warehouse và OLAP” đã cùng tho lun  
và trao đổi và giúp tôi rt nhiu trong quá trình thu thp tài liu.  
Tôi xin gi li cm ơn vô hn ti gia đình, bn bè, nhng người thân yêu đã luôn bên  
cnh động viên tôi trong sut quá trình thc hin khóa lun.  
Tôi xin chân thành cm ơn!  
Sinh viên  
Vũ Ngc Anh  
4
Mc lc  
Mc lc .......................................................................................................................1  
Danh sách các hình......................................................................................................3  
Bng tviết tt ............................................................................................................5  
Li mở đầu ..................................................................................................................6  
Chương 1. Gii thiu kho dliu và dliu tài chính..................................................7  
1.1. Dliu trong lĩnh vc tài chính ......................................................................7  
1.2. Kho dliu (Data warehouse) ........................................................................8  
1.2.1. Kho dliu ..............................................................................................8  
1.2.2. Mc đích ca kho dliu.........................................................................9  
1.2.3. Li ích ca kho dliu.............................................................................9  
1.2.4. Thành phn ca kho dliu ...................................................................10  
1.2.5. Cu trúc ca kho dliu.........................................................................11  
1.2.6. Mô hình thc thtrong kho dliu ........................................................12  
1.2.7. Các lĩnh vc ng dng ca kho dliu ..................................................15  
Chương 2. Kthut phân tích OLAP .........................................................................16  
2.1. Gii thiu OLAP ..........................................................................................16  
2.2. Mô hình dliu đa chiu ..............................................................................16  
2.3. Kiến trúc khi (Cube) ca OLAP..................................................................18  
2.4. So sánh OLAP và OLTP...............................................................................19  
2.5. Các thành phn ca OLAP............................................................................20  
2.6. Chuyn đổi dliu tOLTP ti OLAP ........................................................21  
2.7. Các mô hình lưu trhtrOLAP.................................................................22  
2.7.1. Mô hình Multidimentional OLAP (MOLAP) .........................................22  
2.7.2. Mô hình Relational OLAP (ROLAP) .....................................................23  
2.7.3. Mô hình Hybird OLAP (HOLAP)..........................................................24  
2.7.4. So sánh các mô hình...............................................................................25  
Chương 3. Bcông cPentaho..................................................................................26  
3.1 Tng quan ....................................................................................................26  
3.2 Các khnăng BI ca pentaho........................................................................26  
1
3.3 Nhng đặc tính và li ích..............................................................................29  
Chương 4. Gii thiu bài toán trin khai trên Pentaho và kết quả đạt được ................33  
4.1. Gii thiu bài toán ........................................................................................33  
4.2. Thu thp,xlý dliu...................................................................................33  
4.3. To data warehouse ......................................................................................36  
4.4. Xlý dliu bng kthut OLAP ...............................................................42  
4.4.1. To cube ................................................................................................42  
4.4.2. Analysis View........................................................................................43  
Kết lun.....................................................................................................................52  
Tài liu tham kho .....................................................................................................53  
2
Danh sách các hình  
Hình 1. Các thành phn ca kho dliu .......................................................................11  
Hình 2. Mô hình sao ......................................................................................................13  
Hình 3. Mô hình bông tuyết ..........................................................................................14  
Hình 4. Mô hình chòm sao ............................................................................................15  
Hình 5. Mô phng các chiu trong kinh doanh .............................................................17  
Hình 6. Mô hình dliu MOLAP .................................................................................22  
Hình 7. Mô hình dliu ROLAP ..................................................................................23  
Hình 8. Mô hình dliu HOLAP..................................................................................24  
Hình 9. Cu trúc Pentaho...............................................................................................26  
Hình 10. Dliu tgiá ..................................................................................................33  
Hình 11. Dliu giá vàng .............................................................................................34  
Hình 12. Dliu giá du ...............................................................................................35  
Hình 13. Dliu chsVnIndex...................................................................................35  
Hình 14. Dliu tng hp.............................................................................................36  
Hình 15. Mô hình kho dliu .......................................................................................37  
Hình 16. Spoon workspace............................................................................................37  
Hình 17. Spoon nhp dliu.........................................................................................38  
Hình 18. Combination Lookup/Update .........................................................................38  
Hình 19. Thay đổi thuc tính.........................................................................................39  
Hình 20. Kết ni cơ sdliu.......................................................................................39  
Hình 21. To bng Dim_time........................................................................................40  
Hình 22. To bng dim_factor.......................................................................................40  
Hình 23. To Table Output............................................................................................41  
3
Hình 24. To bng fact_price ........................................................................................41  
Hình 25. Nhp dliu ...................................................................................................42  
Hình 26. Kết ni cơ sdliu.......................................................................................42  
Hình 27. Kiến trúc Cube................................................................................................43  
Hình 28. Repository Login............................................................................................43  
Hình 29. Kết ni cơ sdliu.......................................................................................44  
Hình 30. Khung làm vic Pentaho.................................................................................45  
Hình 31. Chn schema và cube .....................................................................................45  
Hình 32. Dliu schema và cube..................................................................................45  
Hình 33. Ni dung phân tích .........................................................................................46  
Hình 34. Chn Measures ...............................................................................................46  
Hình 35. Chn factor .....................................................................................................46  
Hình 36. Chn năm phân tích........................................................................................47  
Hình 37. Chn chi tiết ngày tháng.................................................................................47  
Hình 38. Chn loi biu đồ............................................................................................48  
Hình 39. Biu đồ tgiá USD/VND...............................................................................48  
Hình 40. Biu đồ giá vàng.............................................................................................49  
Hình 41. Biu đồ giá du...............................................................................................49  
Hình 42. Biu đồ chsVnIndex ..................................................................................50  
Hình 43. Biu đồ giá vàng và giá du ...........................................................................50  
Hình 44. Biu đồ tgiá và giá vàng ..............................................................................51  
Hình 45. Biu đồ giá vàng và VNIndex ........................................................................51  
4
Bng tviết tt  
OLAP  
MOLAP  
ROLAP  
HOLAP  
BI  
Online Analysis Processing  
Multidimensional Online Analysis Processing  
Relational Online Analysis Processing  
Hybird Online Analysis Processing  
Business Intelligence  
OLTP  
OnLine Transaction Processing  
5
Li mở đầu  
Cùng vi vic áp dng rng rãi công nghthông tin vào trong hu hết các lĩnh vc  
trong đời sng, kinh tế, xã hi đó là vic dliu thu nhn được qua thi gian ngày  
càng nhiu.Vì vy, yêu cu thiết yếu đặt ra đối vi các doanh nghip đó là vic khai  
thác các dliu này mt các hiu quả để phc vcho vic kinh doanh ngày càng tt  
hơn.  
Khóa lun này vi đề tài Áp dng kthut OLAP và kho dliu trong báo cáo tài  
chính” gii thiu vkho dliu, phương pháp OLAP và ng dng trong phân tích biên  
động giá du, giá vàng và chsVNIndex bng công cPentaho.  
Khóa lun gm bn chương:  
Chương 1. Gii thiu kho dliu và dliu tài chính gii thiu về đc đim ca dữ  
liu tài chính, gii thiu tng quan vkho dliu, cu trúc kho dliu, các thành  
phn ca kho dliêu, cách thiết kế kho dliu và ng dng ca kho dliu.  
Chương 2. Gii thiu tng quan vOLAP gii thiu tng quan vkthut OLAP, các  
mô hình lưu trhtrkthut OLAP, ưu đim và nhược đim ca các mô hình. Các  
bước để chuyn dliu tOLTP sang OLAP.  
Chương 3. Gii thiu bcông cPentaho gii thiu tng quan bcông cPentaho,  
kiến trúc, công ngh, và các tin ích ca Pentaho.  
Chương 4. Gii thiu bài toán trin khai trên Pentaho và kết quả đạt được trin khai  
Pentaho trên mt bài toán thc, áp dng kthut kho dliu và kthut OLAP để  
thc hin  
Phn kết lun tng kết và tóm lược nhng kết qu, đóng góp chính ca khóa lun.  
6
Chương 1. Gii thiu kho dliu và dliu tài chính  
1.1. Dliu trong lĩnh vc tài chính  
Vi đặc đim tính toán chính xác, nhanh chóng, khách quan nên công nghệ  
thông tin được áp dng khá rng rãi trong lĩnh vc tài chính trt sm.  
Dliu trong lĩnh vc tài chính có đặc đim sau:  
- Luôn luôn biến đổi  
- Dliu phân tán  
- Giao dch chng chéo  
- Slượng giao dch ln  
Do đó, cn có mt chiến lược lưu trdliu mt cách hiu qu.Nhng hthng đáp  
ng được các đặc đim trên thuc nhóm hthng xlý giao dch trc tuyến OLTP  
(OnLine Transaction Processing)[4].  
Các ng dng xlý giao dch trc tuyến – OLTP (OnLine Transaction Processing)  
là nhng ng dng giúp người dùng truy cp trc tiếp thông tin theo hình thc ng  
dng Client/Server. OLTP bao gm mt dãy lnh: thu nhn (gathering) dliu đầu  
vào, xlý (processing) dliu, và cp nht (updating) dliu cũ vi dliu mi được  
nhp và xlý.  
OLTP là phương thc hiu qukhi người dùng mun:  
- Xlý các dliu đơn vi slượng và tn skhông thể ước lượng.  
- Truy cp tc thì vào dliu đã được cp nht, phn ánh các giao dch trước đó.  
- Thay đổi dliu tc thì để phn ánh giao dch va xlý.  
Các chc năng cơ bn ca OLTP[4]: cùng vi khnăng truy cp và cp nht các dữ  
liu chia s, các hthng OLTP còn htrcác user khnăng truy cp trc tuyến  
(online), khnăng truy cp tc thi (availability), khnăng phn hi nhanh chóng  
(response), và tiết kim chi phí đối vi tng transaction (low cost).  
Để trli các câu hi đơn gin trong quá trình kinh doanh như doanh thu ca tháng  
7
này bao nhiêu? Tháng này bán được bao nhiêu sn phm… nhng sn phm vsliu  
chi tiết được hthng OLTP trli 1 cách nhanh chóng.Nhưng đối vi các nhà qulý  
cp cáo trong doanh nghip, hkhông yêu cu nhng dliu quá chi tiết như vy. Họ  
yêu cu mun biết nhng thông tin mang tính hoch định và lãnh đạo ví dnhư: mt  
hàng này đang bán chy khu vc này liu có bán chy khu vc khác không?...Nếu  
trli các câu hi này hthng OLTP thì srt khó và hiu quthp vì dliu ca  
OLTP quá chi tiết, lưu trphân tánĐể gii quyết vn đề này, hthng data  
warehouse (kho dliu) ra đời cùng vi các kthut OLAP, Data mining (khai phá dữ  
liu) để có thgiúp được người qun trcp cao trli các câu hi mà hyêu cu.  
1.2. Kho dliu (Data warehouse)  
1.2.1. Kho dliu  
Data warehouse - kho dliu là 1 tp hp thông tin cơ bn trên máy vi tính mà  
chúng có tính quyết định đến vic thc hin thành công bước đầu trong công vic kinh  
doanh[1].  
Mt kho dliu, gi mt cách chính xác hơn là kho thông tin (information  
warehouse), là mt cơ sdliu hướng đối tượng được thiết kế vi vic tiếp cn các ý  
kiến trong mi lĩnh vc kinh doanh. Nó cung cp các công cụ để đáp ng thông tin cn  
thiết cho các nhà qun trkinh doanh ti mi cp độ tchc - không nhng chlà  
nhng yêu cu dliu phc hp, mà còn là điu kin thun tin nht để đạt được vic  
ly thông tin nhanh, chính xác. Mt kho dliu được thiết kế để người sdng có thể  
nhn ra thông tin mà hmun có và truy cp đến bng nhng công cụ đơn gin[9].  
Mt kho dliu là mt spha trn ca nhiu công ngh, bao gm các cơ sdữ  
liu đa chiu và mi quan hgia chúng, kiến trúc chkhách, giao din người dùng đồ  
ha và nhiu na. Dliu trong kho dliu không ging dliu ca hệ điu hành là  
loi chcó thể đọc nhưng không chnh sa được. Hệ điu hành to ra, chnh sa và xóa  
nhng dliu sn xut mà nhng dliu này cung cp cho kho dliu. Nguyên nhân  
chính cho sphát trin mt kho dliu là hot động tích hp dliu tnhin ngun  
khác nhau vào mt kho dliu đơn lvà dày đặc mà kho này cung cp cho vic phân  
tích và ra quyết định trong công vic kinh doanh.  
Đối vi mt scông vic kinh doanh thông tin là ngun tài nguyên có giá trrt  
ln thì mt kho dliu tương đối ging như mt nhà kho cha hàng. Hệ điu hành to  
8
ra nhng phn dliu và np chúng vào kho. Mt sphn được tóm tt trong thành  
phn thông tin và được ct vào kho. Người sdng kho dliu đưa ra nhng yêu cu  
được cung cp sn phm được to ra tcác thành phn và các phân đon được lưu  
trong kho.  
Mt kho dliu được xác định đúng hướng, hot động hiu qucó thtrở  
thành mt công ccnh tranh có giá trcao trong kinh doanh.  
1.2.2. Mc đích ca kho dliu  
Mc tiêu chính ca kho dliu là đạt nhng mc tiêu sau:  
- Phi có khnăng đáp ng mi thông tin yêu cu ca người dùng  
- Htrnhân viên ca tchc thc hin tt, hiu qucông vic ca họ  
- Giúp các tchc xác định, qun lý, điu hành các dán, nghip vmt cách hiu  
quvà chính xác.  
- Tíc hp dliu và siêu dliu tnhiu ngun khác nhau.  
Mun đạt được các mc tiêu trên thì kho dliu phi:  
- Nâng cao cht lượng dliu bng cách làm sch và hướng chủ đề nht định  
- Tng hp và kết ni dliu  
- Đồng bhóa các ngun dliu  
- Phân định và đồng nht các hcơ sdliu tác nghip  
- Qun lý siêu dliu  
- Cung cp thông tin được tích hp, tóm tt hoc được liên kết, tchc theo các chủ  
đề  
- Dùng trong các hthng htrra quyết định.  
1.2.3. Li ích ca kho dliu  
To ra nhng quyết định có nh hưởng ln. Mt kho dliu cho phép trích rút  
tài nguyên nhân lc và máy tính theo yêu cu để cung cp các câu truy vn và các báo  
cáo da vào cơ sdliu hot động và sn xut. Điu này to ra stiết kim đáng k.  
9
Có kho dliu cũng trích rút tài nguyên khan hiếm ca hthng sn xut khi thc thi  
mt chương trình quá lâu hoc các báo cáo và các câu truy vn phc hp.  
Công vic kinh doanh trnên thông minh hơn. Tăng thêm cht lượng và tính  
linh hot ca vic phân tích kinh doanh do phát sinh tcu trúc dliu đa tng ca  
kho dliu, đó là nơi cung cp dliu được sp xếp tmc độ chi tiết ca công vic  
kinh doanh cho đến mc độ cao hơn - mc độ tng quát. Đảm bo được dliu chính  
xác và đáng tin cy do đảm bo được là trong kho dliu chcha duy nht dliu có  
cht lượng cao và n định (trusted data).  
Dch vkhách hàng được nâng cao. Mt doanh nghip có thgigìn mi quan  
hvi khách hàng tt hơn do có mi tương quan vi dliu ca tt ckhách hàng qua  
mt kho dliu riêng.  
Tái sáng to nhng tiến trình kinh doanh. Scho phép phân tích không ngng  
thông tin kinh doanh thường cung cp shiu biết mi mt ca phương thc kinh  
doanh do đó có thlàm ny sinh ra nhng ý kiến cho ssáng to ra nhng tiến trình  
này li. Chkhi xác định chính xác các nhu cu tkho dliu thì mi giúp ta đánh giá  
được nhng hn chế và mc tiêu kinh doanh mt cách chính xác hơn.  
Tái sáng to hthng thông tin. Mt kho dliu là nn tng cho các yêu cu dữ  
liu trong mi lĩnh vc kinh doanh, nó cung cp mt chi phí nh hưởng nghĩa là đưa ra  
thói quen cho cho chai schun hóa dliu và schun hóa hot động ca hệ điu  
hành theo chun quc tế.  
1.2.4. Thành phn ca kho dliu  
Chi tiết hin hành  
Trung tâm ca kho dliu là chi tiết hin hành ca nó. Đó là nơi mà phn ln  
dliu được lưu tr. Chi tiết hin hành đến trc tiếp thệ điu hành và có thể được  
lưu trnhư dliu thô hoc như stp hp ca dliu thô.  
10  
Data Marts  
and Cubes  
Source  
Relational  
Data Store  
Clients  
Hình 1. Các thành phn ca kho dliu  
Chi tiết hin hành là phn lõi dliu mc thp nht trong kho dliu. Mi thc  
thdliu trong chi tiết hin hành là mt bc nh chp nhanh, ti mt thi đim, là sự  
minh ha khi dliu chính xác. Chi tiết hin hành là đặc trưng thai đến năm năm. Sự  
chính xác ca chi tiết hin hành xy ra thường xuyên như điu kin cn thiết để  
cung cp nhng yêu cu trong kinh doanh.  
Hthng bn ghi  
Mt hthng bn ghi là ngun dliu tt nht hoc phi nht (rightest data)  
dùng để nuôi dưỡng kho dliu. Dliu phi nht là dliu hp thi nht, đầy đủ  
nht, chính xác nht, và có sthích nghi vcu trúc nht trong kho dliu. Dliu  
phi nht thường đóng nht đối vi ngun ghi nhn trong môi trường sn xut. Trong  
nhng trường hp khác, mt hthng bn ghi có thlà mt nơi dùng để cha dliu  
tng hp.  
1.2.5. Cu trúc ca kho dliu  
Mt kho dliu có thcó mt vài phn ca cu trúc sau:  
11  
Kho dliu mc vt lý  
Cơ sdliu mc vt lý trong tt cdliu ca kho dliu được lưu tr, theo  
cùng vi metada và tiến trình xlý logic cho vic lc, tchc và đóng gói dliu, xử  
lý dliu chi tiết.  
Kho dliu mc logic  
Cũng cha đựng metadata bao gm nhng lut kinh doanh và xlý logic cho  
vic lc, tchc, đóng gói và xlý dliu, nhưng không cha đựng dliu tht s.  
Thay vào đó nó cha đựng nhng thông tin cn thiết để truy cp dliu bt cnơi  
đâu.  
Kho dliu thông minh hay dliu theo chủ đề (Data mart)  
Là tp con ca mt kho dliu din rng. Đin hình là nó cung cp nhng  
thành phn ln (phân khu, vùng, chc năng,…). Nói tóm li, Data mart như là nhng  
phn chuyên bit hóa ca kho dliu.  
1.2.6. Mô hình thc thtrong kho dliu  
Mô hình thc thmi quan hệ được sdng phbiến trong mô hình cơ sdữ  
liu OLTP. Tuy nhiên, mô hình cơ sdliu ER này không thích hp cho vic thiết  
kế kho dliu vì phi truy vn ti quá nhiu bng khác nhau. Hu hết các kho dliu  
sdng mô hình sao (star schema). Mô hình này chgm duy nht mt bng skin  
và mt bng chiu (dimention) cho mi chiu. Trong bng skin scó các trường  
khóa ngoài liên kết vi khóa chính ca các bng chiu. Ví dvmô hình sao:  
12  
Products  
Orders  
Fact Table  
OrderNo  
ProdNo  
OrderNo  
ProdName  
ProdDescr  
Category  
CategoryDescr  
UnitPrice  
QOH  
OrderDate  
SalespersionID  
CustomerNo  
ProdNo  
Custormers  
CustomerNo  
CustomerName  
CustomerAddress  
City  
DateKey  
CityName  
Quantity  
Date  
TotalPrice  
DateKey  
Date  
Month  
Year  
Salespersons  
SalespersonID  
SalespersonName  
City  
City  
CityName  
State  
Quota  
Country  
Hình 2. Mô hình sao  
Mô hình sao không htrtt cho các bng cha các thuc tính phân cp. Mô  
hình bông tuyết (SnowFlake Schema) đưa ra gii pháp cho mô hình sao khi bng có  
thuc tính phân cp.  
13  
Orders  
Products  
Category  
Fact table  
OrderNo  
ProdNo  
OrderDate  
OrderNo  
ProdName  
ProdDescr  
Category  
UnitPrice  
QOH  
CategoryName  
CategoryDescr  
SalespersonID  
CustomerNo  
DateKey  
CityName  
ProdNo  
Customers  
CustomerNo  
CustomerName  
CustomerAddress  
City  
Quantity  
TotalPrice  
Date  
Month  
Year  
DateKey  
Date  
Month  
Month  
Year  
Salesperson  
SalespersonID  
SalespersonName  
City  
City  
State  
Quota  
CityName  
State  
Hình 3. Mô hình bông tuyết  
Điu này giúp cho vc bo trì các bng chiu tt hơn. Tuy nhiên cu trúc mc định  
trong sơ đồ sao ca các bng chiu có ththích hp hơn khi duyt các chiu.  
Sơ đồ chòm sao (fact constellation) là mt ví dcho cu trúc phc tp khi có  
nhiu hơn 1 bng skin. Mi sơ đồ sao có thxây dng thành sơ đồ chòm sao (ví dụ  
bng cách chia tách các lược đồ sao gc thành các lược đồ sao mà mi chúng được mô  
ttrên các cp khác nhau ca các chiu phân cp). Các kiến trúc sơ đồ chòm sao bao  
gm nhiu bng skin và được chia scho nhiu bng chiu.  
14  
Hình 4. Mô hình chòm sao  
1.2.7. Các lĩnh vc ng dng ca kho dliu  
Các lĩnh vc hin ti có ng dng data warehouse bao gm:  
- Thương mi đin t.  
- Kế hoch hóa ngun lc doanh nghip.  
- Qun lý quan hkhách hàng.  
- Chăm sóc sc khe.  
- Vin thông.  
15  
Chương 2. Kthut phân tích OLAP  
2.1. Gii thiu OLAP  
OLAP là mt kthut sdng các thhin dliu đa chiu gi là các khi  
(cube) nhm cung cp khnăng truy xut nhanh đến dliu ca kho dliu. To khi  
(cube) cho dliu trong các bng chiu (dimension table) và bng skin (fact table)  
trong kho dliu và cung cp khnăng thc hin các truy vn tinh vi và phân tích cho  
các ng dng client – theo Hari Mailvaganam [5].  
Trong khi kho dliu và data mart lưu trdliu cho phân tích, thì OLAP là kỹ  
thut cho phép các ng dng client truy xut hiu qudliu này. OLAP cung cp  
nhiu li ích cho người phân tích, cho ví dnhư:  
- Cung cp mô hình dliu đa chiu trc quan cho phép ddàng la chn, định  
hướng và khám phá dliu.  
- Cung cp mt ngôn ngtruy vn phân tích, cung cp sc mnh để khám phá các  
mi quan htrong dliu kinh doanh phc tp.  
- Dliu được tính toán trước đối vi các truy vn thường xuyên nhm làm cho  
thi gian trli rt nhanh đối vi các truy vn đặc bit.  
- Cung cp các công cmnh giúp người dùng to các khung nhìn mi ca dữ  
liu da trên mt tp các hàm tính toán đặc bit.  
OLAP được đặt ra để xlý các truy vn liên quan đến lượng dliu rt ln mà  
nếu cho thc thi các truy vn này trong hthng OLTP skhông thcho kết quhoc  
smt rt nhiu thi gian.  
2.2. Mô hình dliu đa chiu  
Các nhà qun lý kinh doanh có khuynh hướng suy nghĩ theo “nhiu chiu”  
(multidimensionally). Ví dnhư hcó khuynh hướng mô tnhng gì mà công ty làm  
như sau:  
“Chúng tôi kinh doanh các sn phm trong nhiu thtrường khác nhau, và chúng tôi  
đánh giá hiu quthc hin ca chúng tôi qua thi gian”.  
Nhng người thiết kế kho dliu thường lng nghe cn thn nhng từ đó và họ  
thêm vào nhng nhn mnh đặc bit ca hnhư:  
“Chúng tôi kinh doanh các sn phm trong nhiu thtrường khác nhau, và chúng tôi  
đánh giá hiu quthc hin ca chúng tôi qua thi gian”.  
16  
Suy nghĩ mt cách trc giác, vic kinh doanh như mt khi (cube) dliu, vi các  
nhãn trên mi cnh ca khi (xem hình bên dưới). Các đim bên trong khi là các giao  
đim ca các cnh. Vi mô tkinh doanh trên, các cnh ca khi là Sn phm, Thị  
trường, và Thi gian. Hu hết mi người đều có thnhanh chóng hiu và tưởng tượng  
rng các đim bên trong khi là các độ đo hiu qukinh doanh mà được kết hp gia  
các giá trSn phm, Thtrường Thi gian [5].  
Saûn phaåm  
Thôøi gian  
Thò tröôøng  
Hình 5. Mô phng các chiu trong kinh doanh  
Mt khi dliu (datacube) thì không nht thiết phi có cu trúc 3 chiu (3-D),  
nhưng vcơ bn là có thN chiu (N-D). Nhng cnh ca khi được gi là các  
chiu (dimensions), mà đó là các mt hoc các thc thể ứng vi nhng khía cnh mà  
tchc mun ghi nhn. Mi chiu có thkết hp vi mt bng chiu (dimension  
table) nhm mô tcho chiu đó. Ví d, mt bng chiu ca Sn phm có thcha  
nhng thuc tính như Ma_sanpham, Mo_ta, Ten_sanpham, Loai_SP,… mà có thể  
được chra bi nhà qun trhoc các nhà phân tích dliu. Vi nhng chiu không  
được phân loi, như Thi gian, hthng kho dliu scó thtự động phát sinh  
tương ng vi bng chiu (dimension table) da trên loi dliu. Cn nói thêm rng,  
chiu Thi gian trên thc tế có ý nghĩa đặc bit đối vi vic htrquyết định cho các  
khuynh hướng phân tích. Thường thì nó được mong mun có mt vài tri thc gn lin  
vi lch và nhng mt khác ca chiu thi gian.  
Hơn na, mt khi dliu trong kho dliu phn ln được xây dng để đo hiu  
quca công ty. Do đó mt mô hình dliu đa chiu đặc thù được tchc xung quanh  
mt chủ đề được thhin bi mt bng skin (fact table) ca nhiu độ đo shc  
(là các đối tượng ca phân tích). Ví d, mt bng skin có thcha smt hàng bán,  
thu nhp, tn kho, ngân sách,… Mi độ đo shc phthuc vào mt tp các chiu  
cung cp ngcnh cho độ đo đó. Vì thế, các chiu kết hp vi nhau được xem như xác  
định duy nht độ đo, là mt giá trtrong không gian đa chiu. Ví dnhư mt kết hp  
17  
ca Sn phm, Thi gian, Thtrường vào 1 thi đim là mt độ đo duy nht so vi các  
kết hp khác.  
Các chiu được phân cp theo loi. Ví dnhư chiu Thi gian có thể được mô tả  
bi các thuc tính như Năm, Quý, Tháng Ngày. Mt khác, các thuc tính ca mt  
chiu có thể được tchc vào mt lưới mà chra mt phn trt tca chiu. Vì thế,  
cũng vi chiu Thi gian có thể được tchc thành Năm, Quý, Tháng, Tun Ngày.  
Vi ssp xếp này, chiu Thi gian không còn phân cp vì có nhng tun trong năm  
có ththuc vnhiu tháng khác nhau.  
Vì vy, nếu mi chiu cha nhiu mc tru tượng, dliu có thể được xem từ  
nhiu khung nhìn linh động khác nhau. Mt sthao tác đin hình ca khi dliu như  
roll-up (tăng mc độ tru tượng), drill-down (gim mc độ tru tượng hoc tăng mc  
chi tiết), slice and dice (chn và chiếu), và pivot (định hướng li khung nhìn đa chiu  
ca dliu), cho phép tương tác truy vn và phân tích dliu rt tin li. Nhng thao  
tác đó được biết như Xlý phân tích trc tuyến (OnLine Analytical Processing –  
OLAP).  
Nhng nhà ra quyết định thường có nhng câu hi có dng như “tính toán và xếp  
hng tng slượng hàng hoá bán được theo mi quc gia (hoc theo mi năm)”. Họ  
cũng mun so sánh hai độ đo shc như slượng hàng bán ngân sách được tng  
hp bi cùng các chiu. Như vy, mt đặc tính để phân bit ca mô hình dliu đa  
chiu là nó nhn mnh stng hp ca các độ đo bi mt hoc nhiu chiu, mà đó là  
mt trong nhng thao tác chính yếu để tăng tc độ xlý truy vn.  
2.3. Kiến trúc khi (Cube) ca OLAP  
Đối tượng chính ca OLAP là khi (cube), mt thhin đa chiu ca dliu chi  
tiết và tng hp. Mt khi bao gm mt ngun dliu (Data source), các chiu  
(Dimensions), các độ đo (Measures) và các phn dành riêng (Partitions). Các khi  
được thiết kế da trên yêu cu phân tích ca người dùng. Mt kho dliu có thhtrợ  
nhiu khi khác nhau như khi Bán hàng, khi Bng kim kê…  
Dliu ngun ca mt khi chra nơi cha kho dliu cung cp dliu cho khi.  
Các chiu (dimension) được ánh xtcác thông tin ca các bng chiu (dimension  
table) trong kho dliu vào các mc phân cp, ví dnhư chiu Địa lý thì gm các  
mc như Lc địa, Quc gia, Tnh-Thành ph. Các chiu có thể được to mt cách độc  
lp và có thchia sgia các khi nhm xây dng các khi ddàng và để chc chn  
rng thông tin tng hp cho phân tích luôn n định. Ví d, nếu mt chiu chia smt  
18  
phân cp sn phm và được sdng trong tt ccác khi thì cu to ca thông tin tng  
hp vsn phm sẽ ổn định gia các khi sdng chiu đó.  
Mt chiu o (virtual dimension) là mt dng đặc bit ca chiu mà ánh xcác  
thuc tính tcác thành viên (member) ca mt chiu khác để sau đó có thể được sử  
dng trong các khi. Ví d, mt chiu o ca thuc tính kích thước sn phm cho phép  
mt khi (cube) tng hp dliu như slượng sn phm bán được theo kích thước,  
hoc như slượng áo bán được theo kiu và theo kích thước. Các chiu o (virtual  
dimension) và các thuc tính thành viên được đánh giá là cn thiết cho các truy vn và  
chúng không đòi hi phi có các khi lưu trvt lý.  
Các độ đo (measure) xác định các giá trstbng skin (fact table) mà được  
tng hp cho phân tích như giá bán, chi phí hoc slượng bán.  
Các phn dành riêng (partition) là các vt cha lưu trữ đa chiu, gidliu ca  
khi. Mi khi cha ít nht mt partition, và dliu ca khi có thkết hp tnhiu  
partition. Mi partition có thly dliu mt ngun dliu khác nhau và có thlưu  
trong mt vtrí riêng bit (separate). Dliu ca mt partition có thể được cp nht  
độc lp vi các partition khác trong mt khi. Ví d, dliu ca mt khi có thể được  
chia theo thi gian, vi mt partition cha dliu ca năm hin hành, mt partition  
khác cha dliu ca năm trước, và mt partition thba cha tt cdliu ca các  
năm trước na.  
Các partition ca mt khi có thể được lưu trữ độc lp trong các cách thc khác  
nhau vi các mc độ tng kết khác nhau. Các partition không thhin đối vi người  
dùng, đối vi hmt khi (cube) là mt đối tượng đơn, và chúng cung cp các tuỳ  
chn đa dng để qun lý dliu OLAP.  
Mt khi o (virtual cube) là mt khung nhìn lun lý (logic) ca các phn chia ca  
mt hoc nhiu khi. Mt khi o có thể được sdng để ni (join) các khi khác  
nhau để chia smt chiu chung nào đó, ví dnhư có thkết gia khi Bán hàng và  
khi Kho nhm các mc đích phân tích đặc bit nào đó trong khi duy trì các khi tách  
bit cho đơn gin. Các chiu (dimension) và các độ đo (measure) có thể được chn từ  
các khi được kết để thhin trong khi o.  
2.4. So sánh OLAP và OLTP  
Đặc trưng ca các ng dng OLTP (On-Line Transaction Processing) là các tác vụ  
xlý tự động ghi chép dliu xlý tác vca mt tchc như ghi nhn đơn đặt hàng  
và các giao dch ngân hàng (chúng là nhng công vic hàng ngày ca tchc thương  
mi) mà cn phi đọc hoc cp nht mt vài mu tin da trên khoá chính ca chúng[5].  
19  
Nhng tác vụ đó có cu trúc, được lp li, bao gm các giao dch ngn, ti gin và tách  
bit, yêu cu dliu chi tiết và mi cp nht. Các cơ sdliu tác nghip có xu  
hướng tvài trăm megabyte đến hàng gigabyte kích thước và chlưu trcác dliu  
hin hành. Tính nht quán và khnăng phc hi ca cơ sdliu là then cht, và ti  
đa thông lượng giao dch là thước đo chính yếu. Vì thế cơ sdliu được thiết kế để  
ti thiu các xung đột trùng lp.  
Còn kho dliu, mc tiêu là htrquyết định cho các nhà qun lý. Tính chi tiết và  
riêng lca các mu tin thì ít quan trng hơn tính lch s, tng kết và hp nht ca dữ  
liu. Do đó, kho dliu thường cha dliu hp nht tmt hoc nhiu cơ sdliu  
tác nghip và được thu thp qua mt thi gian dài. Kết qulà kích thước kho dliu  
có khuynh hướng tvài trăm gigabyte đến hàng terabyte so vi các cơ sdliu tác  
nghip. Kho dliu htrcác truy vn phc tp vi thi gian hi đáp nhanh, các truy  
vn phc tp có thtruy xut hàng triu mu tin và thc hin nhiu ln các thao tác  
quét, kết và tng hp. Đối vi kho dliu, slượng truy vn đưa vào và thi gian hi  
đáp quan trng hơn slượng giao dch đưa vào. Mà OLAP là mt trong nhng công  
ccho phép thc hin hiu qucác truy vn này.  
Căn cvào đó, các cơ sdliu tác nghip được xây dng để htrtt các tác vụ  
OLTP, vì thế nếu cgng thc thi các truy vn OLAP phc tp đối vi các cơ sdữ  
liu tác nghip scho kết qulà hiu quthc hin không thchp nhn được.  
2.5. Các thành phn ca OLAP  
Nhng thành phn mà OLAP sdng để thc hin các dch vbao gm:  
- Ngun dliu: Các cơ sdliu OLTP và các ngun dliu hp lkhác cha  
các dliu có thchuyn đổi thành dliu OLAP trong kho lưu tr.  
- Kho trung gian: là nơi lưu trvà xlý dliu được tp hp, sau đó được sp  
xếp, sàng lc, chuyn đổi thành dliu OLAP hu ích.  
- Máy chlưu tr: Các máy tính chy cơ sdliu liên kết cha các kho dliu  
cho kho lưu tr, và các máy chqun lý dliu OLAP (warehouse server).  
- ng dng thông minh: Các bcông cng dng thc hin truy vn dliu  
OLAP và cung cp các báo cáo và thông tin cho người ra quyết định ca doanh  
nghip (Business Intelligence).  
- Siêu dliu: Các đối tượng như các bng biu trong cơ sdliu OLTP, các  
khi trong kho lưu trdliu, và các bn ghi mà ng dng tham chiếu ti các đon  
dliu khác nhau.  
20  
2.6. Chuyn đổi dliu tOLTP ti OLAP  
Để chuyn đổi dliu OLTP sang dliu OLAP trong kho dliu được thc hin  
thông qua các qui trình sau:  
-Hp nht dliu: tt ccác dliu liên quan ti các mc đặc trưng (sn phm,  
khách hàng, hay nhân viên) phi có khnăng hp nht tnhiu hthng OLTP ti  
mt hthng OLAP đơn. Quy trình hp nht phi gii quyết được skhác nhau về  
mã hoá gia các hthng OLAP, phù hp vi các dliu chung được sdng cả  
hai hthng có thbng cách so sánh các trường tương t, có thbiến đổi dliu  
lưu trtnhiu loi dliu khác nhau trong mi hthng OLTP thành mt loi dữ  
liu duy nht được sdng trong hthng OLAP.Các hthng cung cp các dữ  
liu đầu vào cho mt hthng OLAP không nht thiết phi là các hthng OLTP  
truyn thng mà có thể được lưu trữ ở nhiu dng hp l, chng hn như các bn  
ghi Microsoft Excel trong mt tp được chia s.  
-Quét dliu: Vic hp nht dliu OLTP vào mt kho dliu (data  
warehouse) to điu kin quét dliu. Mt shthng OLTP đánh vn các đề mc  
khác nhau, hoc quá trình hp nht có thgây ra các li chính t. Skhông thng  
nht này phi được chnh sa trước khi dliu có thể được nhp vào kho lưu trữ  
phc vcho hthng OLAP.  
-Tp hp dliu: Dliu OLTP ghi nhn tt ccác chi tiết ca transaction.  
OLAP chtruy vn nhng dliu tng kết cn thiết, hoc các dliu được tp hp  
bng mt squy tc nht định. Ví d, mt truy vn ly tng doanh thu hàng tháng  
cho mi sn phm trong năm trước schy nhanh hơn nếu cơ sdliu chcó các  
dòng tng kết doanh thu hàng ngày (hoc tng gi) ca mi sn phm, so vi truy  
vn phi quét tt ccác bn ghi chi tiết trong vòng 1 năm. Mc độ tp hp dliu  
trong kho lưu trphthuc vào slượng các yếu tthiết kế (ging như lp trình  
hướng đối tượng).  
-Sp xếp dliu: Khi dliu OLTP được chuyn vào kho lưu tr, chúng sẽ  
phi được biến đổi theo cách sp xếp hp lý hơn đối vi nhu cu phân tích nhm  
đưa ra quyết định và hn chế tiêu phí thi gian. Quá trình thiết lp kho lưu trbao  
gm cvic sp xếp li dliu OLTP, lưu trong các bng biu liên kết, thành dữ  
liu OLAP được lưu trong các khi đa chiu. Dliu sau đó được ti vào kho lưu  
tr.  
-Truy cp và phân tích dliu: Khi dliu đã được ti vào kho lưu tr, OLAP  
cung cp khnăng truy cp, xem, và phân tích dliu vi độ linh hot và hiu quả  
21  
cao. OLAP trình bày dliu thông qua mô hình dliu tnhiên và trc quan, giúp  
cho người sdng xem và hiu mt cách tt nht nhng thông tin trong kho lưu  
tr. Từ đó cho phép người sdng nhn biết được giá trca dliu.  
2.7. Các mô hình lưu trhtrOLAP  
Dch vOLAP htrnhiu mô hình lưu trdliu khác nhau, mi mô hình có các  
ưu và khuyết đim riêng, chúng được sdng tutheo mc đích khai thác.  
2.7.1. Mô hình Multidimentional OLAP (MOLAP)  
Mô hình OLAP đa chiu (MOLAP) lưu trdliu cơ s(là dliu tcác bng  
ca kho dliu hoc data mart) và thông tin tng hp (là các độ đo được tính toán từ  
các bng) trong các cu trúc đa chiu gi là các khi (cube). Các cu trúc này được lưu  
bên ngoài cơ sdliu data mart hoc kho dliu.  
Dliu trong môi  
trường OLAP  
Mysql  
Oracle  
Other  
MOLAP  
data  
Hình 6. Mô hình dliu MOLAP  
Lưu trcác khi (cube) trong cu trúc MOLAP là tt nht cho các truy vn tng hp  
dliu thường xuyên mà cn thi gian hi đáp nhanh. Ví d, tng sn phm bán được  
ca tt ccác vùng theo quý.  
Ưu đim ca mô hình MOLAP:  
- Thc thi nhanh: khi trong MOLAP thu hi dliu nhanh và ti ưu hóa  
hot động[15].  
- Có ththc hin các phép toán phc tp: mi tính toán được to ra trước  
khi khi to ra [15].  
22  
Nhược đim ca mô hình MOLAP:  
- Gii hn lượng dliu có thxlý: Bi vì tt ccác tính toán được sinh  
ra khi xây dng khi, do đó nó không thbao gm lượng dliu ln  
trong khi ca chính nó. Điu này không có nghĩa là dliu tkhi  
không thể được xây dng tmt lượng dliu ln. Điu này có th,  
nhưng nó chtóm tt thông tin cha trong chính nó [15].  
- Yêu cu đầu tư thêm: Công nghto khi thường được độc quyn và  
không tn ti trong tchc nào. Vì vy, để sdng công nghMOLAP  
cn phi đầu tư bsung thêm vn và nhân lc [15].  
2.7.2. Mô hình Relational OLAP (ROLAP)  
Mô hình OLAP quan h(ROLAP) lưu trdliu cơ svà thông tin tng hp  
trong các bng quan h. Các bng này được lưu trtrong cùng cơ sdliu như là các  
bng ca data mart hoc kho dliu.  
Hình 7. Mô hình dliu ROLAP  
Lưu trcác khi trong cu trúc ROLAP là tt nht cho các truy vn dliu  
không thường xuyên. Ví dnhư nếu 80% người dùng truy vn chdliu trong vòng  
mt năm trli đây, các dliu cũ hơn mt năm sẽ được đưa vào mt cu trúc  
ROLAP để gim không gian đĩa bchiếm dng, hơn na còn để loi trdliu trùng  
lp.  
Ưu đim ca mô hình ROLAP:  
- Có thxlý lượng dliu ln: Kích thước gii hn ca ROLAP phthuc  
vào kích thước ca cơ sdliu ngn. Nói cách khác, bn thân công nghệ  
ROLAP không có gii hn vkích thước dliu [15].  
23  
- Có thvn dng chc năng vn có ca cơ sdliu quan h: Cơ sdliu  
quan hthường đi kèm vi rt nhiu chc năng. Công nghROLAP có thtn  
dng các chc năng này, tiết kim chi phí [15].  
Nhược đim ca ROLAP:  
- Hiu sut xlý thp: Mi báo cáo ROLAP thường được tp hp dliu từ  
nhiu bng khác nhau, điu này slàm cho hiu quca ROLAP thp khi dữ  
liu ln, phân tán [15].  
- Gii hn bi chc năng ca SQL: Bi vì công nghROLAP chyếu da vào  
vic to ra các câu lnh SQL để truy vn cơ sdliu. Mà báo cáo da trên  
truy vn SQL trong mt strường hp không đạt được hiu qumong mun.  
Các nhà phát trin đã khc phc điu này bng các to ra các công chtrợ  
ngoài giúp người dùng to ra các chc năng ca riêng h[15].  
2.7.3. Mô hình Hybird OLAP (HOLAP)  
Mô hình OLAP lai (HOLAP) là skết hp gia MOLAP và ROLAP.  
Hình 8. Mô hình dliu HOLAP  
Lưu trcác khi (cube) trong cu trúc HOLAP là tt nht cho các truy vn tng hp  
dliu thường xuyên da trên mt lượng ln dliu cơ s. Ví d, chúng ta slưu trữ  
dliu bán hàng theo hàng quý, hàng năm trong cu trong MOLAP và dliu hàng  
tháng, hàng tun và hàng ngày trong cu trúc ROLAP[15].  
Li ích ca vic lưu trtrong cu trúc HOLAP là:  
- Ly dliu trong khi (cube) nhanh hơn bng cách sdng xlý truy vn tc  
độ cao ca MOLAP.  
- Tiêu thít không gian lưu trhơn MOLAP.  
- Tránh trùng lp dliu.  
24  
2.7.4. So sánh các mô hình  
Bng sau so sánh tng hp ba mô hình lưu trhtrOLAP:  
MOLAP ROLAP  
HOLAP  
Lưu trdliu cơ sở  
Khi  
Khi  
Bng quan hBng quan hệ  
Bng quan hKhi  
Lưu trthông tin tng hp  
Hiu sut thc hin truy vn Nhanh nht Chm nht  
Nhanh  
Tiêu thkhông gian lưu trNhiu  
Chi phí bo trì Cao  
Thp  
Thp  
Trung bình  
Trung bình  
25  
Chương 3. Bcông cPentaho  
3.1 Tng quan  
Bcông cPentaho open BI cung cp mt cái nhìn toàn cnh vkhnăng kinh  
doanh thông minh (BI) ca doanh nghip bao gm: lp biu báo, phân tích, biu đồ,  
tích hp dliu, và là mt hBI mã ngun mphbiến nht thế gii. Sn phm ca  
Pentaho được các doanh nghip hàng đầu sdng như: MySql, Motorola, Terra  
Industries, DivX…[6]  
Bcông cpentaho có các công c:  
- Report designer  
- Design studio  
- Aggregation designer  
- Metadata editer  
- Pentaho data integartion  
- Schema wordbench  
Cu trúc ca Pentaho:  
Hình 9. Cu trúc Pentaho  
3.2 Các khnăng BI ca pentaho  
26  
Pentaho giúp người dùng:  
Báo cáo:  
Các tchc sdng báo cáo tnhiu ngun nên báo cáo là ct lõi và được khai  
thác đầu tiên trong kinh doanh thông minh. Báo cáo Pentaho cho phép các doanh  
nghip truy cp, định dng và phân phi thông tin ddàng đến nhân viên, khách hàng  
và các đối tác.  
- Linh hot trong trin khai tnhng báo cáo đơn đến các báo cáo dng web tích hp  
trong kinh doanh thông minh ca doanh nghip.  
- Htrnhiu ngun dliu như OLAP, hay ngun dliu da trên XML.  
- Xut dliu linh hot ra PDF, HTML, Microsoft Excel, Rich Text Format, hay text  
thun túy.  
- Wizard htrthiết kế báo cáo ddàng và nhanh chóng.  
- Phiên bn chuyên nghip vi nhiu chc năng như phân nhóm, đăng ký, tích hp  
thư mc, kim duyt …  
Phân tích:  
Pentaho Analysis là mt công cphân tích đắc lc giúp người dùng đưa ra  
nhng quyết định có hiu qunht. Ví d: Báo cáo cho biết tình hình bán có khuynh  
hướng gim hơn so vi mong đợi thì các tri thc ddàng phát hin ra nguyên nhân vn  
đề bng cách đặt các câu hi sau:  
- Vn đề ảnh hưởng đến mt dòng sn phm hay mt khu vc nào đó?  
- Skhác nhau gia sphi hp này vi nhng phi hp khác mà không có vn đề  
là gì?  
- Vn đề liên quan vi nhng hàng bán ở đó là gì? Nhng chiến dch tiếp th? Hay  
cái gì khác?  
Pentaho Analysis giúp trli nhng câu hi kinh doanh bng cách:  
- Giúp người dùng ddàng khai thác thông tin kinh doanh bng cách kéo, th, xem  
chi tiết hay lp bng kim tra chéo dliu.  
- Trli nhanh các truy vn phân tích phc tp.  
- Gii quyết các câu hi phc tp nhanh chóng.  
27  

Tải về để xem bản đầy đủ

pdf 57 trang yennguyen 06/04/2025 160
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Áp dụng kỹ thuật olap và kho dữ liệu trong dự báo tài chính", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_ap_dung_ky_thuat_olap_va_kho_du_lieu_trong_du_bao.pdf