Luận văn Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ trợ giúp quyết định dựa vào dữ liệu

BGIÁO DC VÀ ĐÀO TO  
TRƯỜNG ĐẠI HC BÁCH KHOA HÀ NI  
-----------------------------------------------------  
LUN VĂN THC SĨ KHOA HC  
PHƯƠNG PHÁP XLÝ PHÂN TÍCH  
TRC TUYN ÁP DNG TRONG XÂY DNG  
HTRGIÚP QUYT ĐỊNH DA VÀO DLIU  
CHUYÊN NGÀNH: XLÝ THÔNG TIN VÀ TRUYN THÔNG  
TRN ĐÌNH CHIN  
NGƯỜI HƯỚNG DN KHOA HC: GS.TS. NGUYN THÚC HI  
HÀ NI 2006  
- 2 -  
MC LC  
Danh mc hình v................................................................................................5  
Danh sách các thut ngvà tviết tt.......................................................6  
Li mở đầu...............................................................................................................7  
Chương I. Khai thác dliu và xlý phân tích trc tuyến................10  
1.1. Gii thiu các phương pháp khai thác dliu.....................................................10  
1.2. Xlý phân tích trc tuyến (OLAP)......................................................................11  
1.3. Nguyên tc ca OLAP............................................................................................12  
1.3.1. Khung nhìn đa chiu .........................................................................................12  
1.3.2. Tính trong sut (Transparency) ........................................................................12  
1.3.3. Khnăng truy nhp được..................................................................................13  
1.3.4. Thc hin vic to báo cáo đồng nht ..............................................................13  
1.3.5. Kiến trúc khách/ch(Client/Server) .................................................................13  
1.3.6. Cu trúc chung cho các chiu (Generic Dimensionality).................................13  
1.3.7. Làm vic vi ma trn.........................................................................................14  
1.3.8. Htrnhiu người sdng.............................................................................14  
1.3.9. Phép toán gia các chiu không hn chế..........................................................14  
1.3.10. Thao tác tp trung vào dliu........................................................................14  
1.3.11. To báo cáo linh hot .....................................................................................15  
1.3.12. Không hn chế schiu và các mc kết hp dliu ......................................15  
Chương II. Kho dliu (Data Warehouse) ..............................................16  
2.1. Các thành phn kho dliu ..................................................................................16  
2.1.1. Siêu dliu (Metadata).....................................................................................17  
2.1.2. Các ngun dliu .............................................................................................17  
2.1.3. Hthng xlý giao dch trc tuyến (OLTP) ....................................................18  
2.1.3.1. Nhng đặc đim ca hthng OLTP ........................................................19  
2.1.3.2. Các công cthu thp, làm sch và chuyn đổi dliu ngun...................20  
2.1.4. Cơ sdliu ca kho dliu ...........................................................................22  
2.1.5. Kho dliu........................................................................................................23  
2.1.5.1. Định nghĩa..................................................................................................23  
2.1.5.2. Đặc đim dliu trong kho dliu ...........................................................24  
2.1.6. Kho dliu chủ đề (Datamart) .........................................................................25  
2.2. Sdng kho dliu ...............................................................................................26  
2.3. Phương pháp xây dng kho dliu......................................................................28  
2.4. Thiết kế CSDL cho kho dliu.............................................................................29  
2.4.1. Gin đồ hình sao (Star).....................................................................................29  
2.4.2. Gin đồ hình tuyết rơi (Snowflake)...................................................................32  
2.4.3 Gin đồ kết hp..................................................................................................33  
2.4.4. Nhng vn đề liên quan ti thiết kế gin đồ hình sao.......................................34  
2.4.4.1. Đánh chs................................................................................................34  
2.4.4.2. Chthvmc............................................................................................35  
2.4.5. Nhng nhân tthiết kế cn phi được cân nhc...............................................35  
2.5. Qun trkho dliu...............................................................................................37  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 3 -  
Chương III. Tiếp cn và phân tích đa chiu trong xlý phân tích  
trc tuyến..............................................................................................................39  
3.1. Tiếp cn đa chiu....................................................................................................39  
3.2. Phân tích đa chiu ..................................................................................................40  
3.3. Kiến trúc khi ca OLAP (OLAP Cube Architecture) ......................................42  
3.3.1. Gii thiu kiến trúc khi ...................................................................................42  
3.3.2. Khi (Cube).......................................................................................................43  
3.3.2.1. Xác định khi.............................................................................................44  
3.3.2.2. Xlý các khi............................................................................................45  
3.3.2.3. Khi o (Virtual Cube) ..............................................................................46  
3.3.3 Chiu (Dimension) .............................................................................................46  
3.3.3.1. Xác định các chiu.....................................................................................48  
3.3.3.2. Chiu có phân cp......................................................................................48  
3.3.3.3. Phân cp chiu ...........................................................................................49  
3.3.3.4. Roll_up và Drill_down da trên phân cp chiu .......................................50  
3.3.3.5. Các chiu o (Virtual Dimensions)............................................................50  
3.3.4. Các đơn vị đo lường (Measures).......................................................................51  
3.3.5. Các phân hoch (Partitions).............................................................................51  
3.3.6. Các phương pháp lưu trdliu (MOLAP, ROLAP, HOLAP) .......................53  
3.3.6.1. MOLAP (Multidimensional OLAP)..........................................................53  
3.3.6.2. ROLAP (Relational OLAP).......................................................................54  
3.3.6.3. HOLAP (Hybrid OLAP)............................................................................55  
3.4. Thut toán chshoá các khung nhìn trong xlý phân tích trc tuyến kho dữ  
liu...................................................................................................................................55  
3.4.1. Mt skhái nim cơ bn ...................................................................................56  
3.4.1.1. Các khi dliu con (Subcubes) ...............................................................56  
3.4.1.2. Câu truy vn (Queries)...............................................................................56  
3.4.1.3. Chs(Indexes).........................................................................................57  
3.4.1.4. Quan htính toán và phthuc .................................................................58  
3.4.2. Thut toán chn View và Index.........................................................................61  
3.4.2.1. Ước tính kích thước ca mi View............................................................61  
3.4.2.2. Ước tính kích thước ca chsIndex........................................................61  
3.4.2.3. Xác định bài toán.......................................................................................62  
3.4.2.4. Gii quyết bài toán.....................................................................................63  
3.3.5 Kết lun..............................................................................................................66  
Chương IV. Htrgiúp quyết định da vào dliu.............................67  
4.1. Htrgiúp quyết định...........................................................................................67  
4.1.1. Gii thiu ..........................................................................................................67  
4.1.2. Htrgiúp quyết định ......................................................................................68  
4.1.3. Phân loi các htrgiúp quyết định................................................................69  
4.2. Htrgiúp quyết định da vào dliu................................................................71  
4.2.1. Tiếp cn kho dliu và OLAP..........................................................................71  
4.2.2. Trgiúp quyết định da vào dliu trên cơ skho dliu và OLAP.............73  
4.2.3. Tiến trình trgiúp quyết định da vào dliu cho bài toán cth.................75  
4.3. Xây dng cu trúc thông tin htrvic ra quyết định ......................................77  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 4 -  
4.3.1. Vai trò ca cu trúc thông tin ...........................................................................77  
4.3.2. Các yếu tố ảnh hưởng .......................................................................................78  
4.3.2.1. Các yêu cu thông tin.................................................................................78  
4.3.2.2. Mc độ tích hp.........................................................................................80  
4.3.3. Mô hình tchc thông tin .................................................................................81  
4.3.3.1. Các yêu cu thông tin và năng lc ca hthng thông tin ........................81  
4.3.3.2. Mc độ tích hp hthng..........................................................................83  
4.3.4. Kết lun.............................................................................................................84  
4.4. Dch vtrgiúp quyết định ca Microsoft..........................................................85  
4.4.1. Kho dliu Microsoft .......................................................................................85  
4.4.1.1. Microsoft Data Warehousing Framework .................................................86  
4.4.1.2. Sphc tp ca dliu .............................................................................87  
4.4.1.3. Li ích đối vi vic kinh doanh.................................................................88  
4.4.1.4. Mô hình dliu..........................................................................................88  
4.4.1.5. Các hình thc lưu tr.................................................................................89  
4.4.2. Kiến trúc dch vtrgiúp ra quyết định ca Microsoft....................................90  
4.4.3. Các vn đề trong vic trin khai Microsoft DSS...............................................91  
4.4.3.1. Xây dng mô hình dliu OLAP cho Microsoft DSS..............................91  
4.4.3.2. Lưu trmm do .......................................................................................93  
4.4.3.3. Chuyn thông tin ti người sdng ..........................................................97  
4.4.3.4. Khnăng ca các công cOLAP............................................................100  
4.5. Hướng nghiên cu phát trin: Htrgiúp quyết định phân tán ....................102  
Chương V. Xây dng hthng trgiúp quyết định da vào dliu  
bng công cAnalysis Services..................................................................106  
5.1. Mc tiêu ca hthng..........................................................................................106  
5.2. Yêu cu vhthng..............................................................................................106  
5.3. Chc năng chính ca hthng............................................................................107  
5.3.1. Chc năng to lp CSDL đa chiu .................................................................109  
5.3.2. Chc năng phân tích và hin thdliu.........................................................109  
5.4. Gii thiu hthng...............................................................................................110  
5.4.1. Khi động Analysis Manager..........................................................................110  
5.4.2. Cài đặt cơ sdliu và ngun dliu (Database & Data Source)...............110  
5.4.3. To khi...........................................................................................................111  
5.4.4. Lưu trvà xlý khi.......................................................................................114  
5.4.5. Khi o tăng cường khnăng xlý và bo mt .............................................117  
5.4.6. To khi o......................................................................................................118  
5.4.7. Hin thdliu khi........................................................................................120  
5.4.8. Ví dminh ha ................................................................................................121  
Phn kết lun.....................................................................................................122  
Tài liu tham kho...........................................................................................124  
Tóm tt lun văn..............................................................................................125  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 5 -  
Danh mc hình vẽ  
Hình 1.1. Kho dliu và OLAP  
Hình 2.1. Mô hình kho dliu  
Hình 2.2. Gin đồ hình sao và hình tuyết rơi  
Hình 3.1. Mô hình dliu đa chiu  
Hình 3.2. Mô hình dliu khi  
Hình 3.3. Gin đồ khi hình sao  
Hình 3.4. Gin đồ khi hình tuyết rơi  
Hình 3.5. Sơ đồ mô hình đa khi  
Hình 3.6. Phân cp chiu Sn_phm  
Hình 3.7. Cây phân cp đối xng  
Hình 3.8. Roll_up và Drill_down theo phân cp chiu  
Hình 4.1. Phân loi các Hthông tin qun lý  
Hình 4.2. Kho dliu và hthng OLAP  
Hình 4.3. Tiến trình trgiúp quyết định da vào dliu cho bài toán cthể  
Hình 4.4. Ma trn Yêu cu/Năng lc  
Hình 5.1. Kiến trúc htrgiúp quyết định da vào dliu  
Hình 5.2. Chc năng htrgiúp quyết định da vào dliu  
Hình 5.3. To DataSource cho các khi trong Database  
Hình 5.4. Chn bng Fact  
Hình 5.5. Chn đơn vị đo  
Hình 5.6. To chiu  
Hình 5.7. Chn các mc ca chiu  
Hình 5.8. Chn kiu lưu trữ  
Hình 5.9. Tăng tc độ thc hin  
Hình 5.10. Xlý khi  
Hình 5.11. Chn các khi cho khi o  
Hình 5.12. Chn đơn vị đo cho khi o  
Hình 5.13. Chn chiu cho khi o  
Hình 5.14. Hin thdliu khi  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 6 -  
Danh sách các thut ngvà tviết tt  
Cơ sdliu  
CSDL  
DBA  
DM  
DSS  
HOLAP  
DataBase Administrator  
DataMart  
Qun trcơ sdliu  
Kho dliu chủ đề  
Htrgiúp quyết định  
OLAP ghép  
Decision Support System  
Hybrid OLAP  
Trích xut, chuyn và np  
dliu  
ETL  
Extract Transformation Load  
LS  
Legacy System  
Hthng đã có sn  
MIS  
Management Information System Hthông tin qun lý  
MOLAP  
MSS  
OLAP  
OLTP  
Multidimensional OLAP  
Management Support System  
On-Line Analysis Processing  
On-Line Transaction Processing  
Relational DataBase Management  
System  
OLAP đa chiu  
Hhtrqun lý  
Xlý phân tích trc tuyến  
Xlý giao dch trc tuyến  
RDBMS  
Hqun trCSDL quan hệ  
ROLAP  
SA  
Relational OLAP  
Subject Area  
OLAP quan hệ  
Vùng chủ đề  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 7 -  
Li mở đầu  
Các hot động sn xut, kinh doanh hin nay luôn cn có sự đáp ng  
nhanh nhy, tc thi đối vi các thay đổi liên tc, vì vy các nhà qun lý buc  
phi thường xuyên ra cùng lúc nhiu quyết định đúng đắn (mà chúng sẽ ảnh  
hưởng đáng kể đến xu hướng hot động và scnh tranh ca doanh nghip)  
mt cách nhanh chóng. Do đó vn đề trgiúp quyết định trnên rt cn thiết.  
Người ta cn phi thu thp, tng hp và phân tích dliu tnhiu ngun khác  
nhau mt cách nhanh và hiu quthì mi có thra được nhng quyết định  
nhanh chóng và phù hp. Điu này dn đến vic cn phát trin nhng hệ  
thng tinh thông biết cách làm thế nào để trích chn và phân tích dliu cho  
người sdng.  
Hin nay có rt nhiu phn mm cung cp cho người sdng nhng  
khnăng truy vn và lp các báo cáo thông tin, đặc bit là các hqun trị  
CSDL quan h. Tuy nhiên CSDL quan hvi cu trúc hai chiu (dòng và ct)  
không được thiết kế để cung cp các quan đim đa chiu trên dliu đầu vào  
ca các phân tích phc tp. Sdng các hthng này, chúng ta sgp rt  
nhiu khó khăn và bt tin trong vic tchc dliu đa chiu vào các bng  
hai chiu, không thtrin khai dliu phân tích vi slượng ln, công cụ  
phân tích để to ra các dliu quyết định không mnh, thun tin, linh hot,  
nhanh chóng và nht là không ddàng để sdng đối vi các nhà qun lý,  
nhng người ra quyết định.  
Như vy, vic xây dng mt hthng mi có khnăng tchc dliu  
đa chiu và có khnăng phân tích dliu linh hot để trli được các truy  
vn đa chiu mt cách ddàng, nhanh chóng nhm htrcho vic ra quyết  
định ca các nhà qun lý là cn thiết.  
Mc đích ca đề tài:  
Lun văn đề cp đến vic nghiên cu xây dng mt htrgiúp quyết  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 8 -  
định da vào dliu, sdng phương pháp lun xlý phân tích trc tuyến  
(OLAP). Đề tài stp trung vào hai công vic chính là nghiên cu vn đề tổ  
chc cơ sdliu đa chiu, phân tích và hin thdliu để trgiúp ra quyết  
định.  
Htrgiúp quyết định theo cách tiếp cn này có thgiúp các nhà qun  
lý thiết lp mt mô hình OLAP cho ng dng cthca mình trong vic tổ  
chc cơ sdliu đa chiu và ddàng điu chnh hot động phân tích, tìm  
kiếm thông tin theo nhng khía cnh khác nhau ca dliu nhm thu thp  
được ti đa dliu cn thiết để từ đó đưa được nhng quyết định tt nht mt  
cách nhanh chóng.  
Không ging vi các htrgiúp quyết định truyn thng thường được  
xây dng vi mc đích đưa ra gii pháp ti ưu cho mt bài toán cth, trong  
mt phm vi ng dng hp, htrgiúp quyết định da vào dliu hướng đến  
vic giúp người sdng có thkhai thác được ti đa khnăng tim n ca  
mt khi lượng dliu ln, nhm thu được nhng thông tin tng hp ở đủ các  
khía cnh khác nhau ca dliu, để từ đó có thra các quyết định đúng mt  
cách nhanh chóng. Do đặc đim này, phm vi ng dng ca htrgiúp quyết  
định da vào dliu là rng. Nó có thể được sdng để trgiúp quyết định  
cho các bài toán khác nhau, trong nhng lĩnh vc khác nhau.  
Bcc ca lun văn:  
Toàn blun văn được trình bày trong 5 chương:  
Chương 1: Gii thiu các phương pháp khai thác dliu, các ni dung  
cơ bn vxlý phân tích trc tuyến.  
Chương 2: Trình bày các lý thuyết chung vkho dliu và mô hình  
kho dliu, phương pháp xây dng và thiết kế CSDL cho kho dliu.  
Chương 3: Trình bày phương pháp tiếp cn và phân tích đa chiu trong  
xlý phân tích trc tuyến.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 9 -  
Chương 4: Gii thiu Htrgiúp quyết định da vào dliu vi hai  
thành phn chính là kho dliu và xlý phân tích trc tuyến. Tiến  
trình trgiúp quyết định da vào dliu. Xây dng cu trúc thông tin  
để htrvic ra quyết định và gii thiu vdch vtrgiúp quyết định  
ca Microsoft. Hướng nghiên cu phát trin.  
Chương 5: Xây dng hthng vi chc năng to lp cơ sdliu đa  
chiu và phân tích hin thdliu.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 10 -  
Chương I. Khai thác dliu và xlý phân tích trc tuyến  
1.1. Gii thiu các phương pháp khai thác dliu  
Khai thác dliu là quá trình phát hin ra nhng mi quan hliên  
thuc, các mô hình và các khuynh hướng mi (Patterns & Trends) bng vic  
kho sát mt slượng ln dliu được lưu trtrong các kho (Repository) sử  
dng các công nghvnhn dng mu cũng như các kthut thng kê và  
toán hc. Khai thác dliu có thhiu là kthut khoan dliu theo chiu  
sâu và tng hp dliu theo chiu ngược li, là quá trình đào xi xem xét dữ  
liu dưới nhiu góc độ nhm tìm ra các mi liên hgia các thành phn dữ  
liu và phát hin ra nhng xu hướng, hình mu, kinh nghim quá khtim n  
trong kho dliu. Vì vy nó rt phù hp vi mc đích phân tích dliu htrợ  
điu hành và ra quyết định.  
Phn ln các phương pháp khai thác dliu đều da trên các lĩnh vc  
như hc máy, thng kê và các công ckhác. Mt skthut thường dùng là  
mng Nơ-ron (Neuron Network), gii thut di truyn (Genetic Algorithms) và  
xlý phân tích trc tuyến (OLAP).  
Xlý phân tích trc tuyến chính là vic sdng kho dliu cho mc  
đích trgiúp quyết định. Ý tưởng mô phng các chiu trong dliu có thể  
được mrng: mt bng vi n thuc tính có thể được xem như mt không  
gian n chiu. Người qun lý thường đặt nhng câu hi mà có thphân tích  
trong nhng phân tích đa chiu. Các thông tin này không phi dphân tích  
khi bng được biu din hai chiu và CSDL quan hchun không thể đáp ng  
tt công vic này. Trong trường hp như vy, sdng OLAP tra thích hp.  
Cũng có mt skhác nhau gia các công cOLAP và khai thác dliu  
đó là công cOLAP không thhc, chúng không to nên tri thc mi và  
không tìm kiếm được gii pháp mi. Như vy có skhác nhau cơ bn gia tri  
thc đa chiu và kiu tri thc mà mt người có thly ra được tmt CSDL  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 11 -  
thông qua khai thác dliu.  
Hình 1.1. Kho dliu và OLAP  
1.2. Xlý phân tích trc tuyến (OLAP)  
OLAP là mt chc năng thông minh trong xlý nghip v, làm cho các  
thông tin có thhiu được ddàng. OLAP khiến cho người sdng đầu cui  
(End-User) có thhiu được bn cht bên trong thông qua vic truy nhp  
nhanh, tương tác ti các khung nhìn nhiu dng ca thông tin được chuyn  
đổi tcác dliu thô để phn ánh sự đa dng nhiu chiu.  
OLAP là mt công nghphân tích dliu thc hin nhng công vic  
sau:  
Đưa ra mt khung nhìn Logic, nhiu chiu ca dliu trong kho dữ  
liu. Khung nhìn này hoàn toàn không phthuc vào vic dliu được  
lưu trnhư thế nào (có thể được lưu trtrong mt kho dliu nhiu  
chiu hay mt kho dliu quan h).  
Thường liên quan ti nhng truy vn phân tích tương tác dliu. Sự  
tương tác thường là phc tp, liên quan ti vic khoan sâu xung nhng  
mc dliu chi tiết hơn hoc cun lên mc dliu cao hơn mc tng  
hp hoc kết hp.  
Cung cp khnăng thiết lp mô hình phân tích bao gm tính toán tl,  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 12 -  
nhng biến đổi... liên quan ti nhng đại lượng shoc dliu là con  
squa nhiu chiu.  
To ra stng hp và kết hp, phân cp và dùng nhng mc tng hp,  
kết hp đó cho mi phép giao ca các bng theo chiu.  
Htrnhng mô hình chc năng cho vic dbáo, phân tích các xu  
hướng và phân tích thng kê.  
Ly và hin thdliu theo nhng bng 2 chiu hay 3 chiu, theo biu  
đồ hay đồ th, ddàng xoay đổi các trc cho nhau. Khnăng xoay là  
quan trng vì người sdng cn phân tích dliu tnhng cách nhìn  
khác nhau và sphân tích theo mi cách nhìn sdn đến mt câu hi  
khác, câu hi này sẽ được kim tra tính đúng đắn da trên mt cách  
nhìn khác vdliu đó.  
Đáp ng nhng câu trli nhanh vì vy quá trình phân tích không bị  
ct ngang và thông tin không bcũ.  
Sdng mt kho dliu đa chiu, lưu trdliu theo các mng (lưu ý  
là mng lưu trnhng phn tcùng kiu khác vi bn ghi là các phn  
tkhác kiu nhau). Nhng mng này là sbiu din Logic ca các  
chiu ca công vic.  
1.3. Nguyên tc ca OLAP  
1.3.1. Khung nhìn đa chiu  
Đối vi người thc hin thì cách nhìn ca hvi công vic là nhiu  
chiu vbn cht. Vì vy mô hình OLAP phi là đa chiu vbn cht. Nhng  
người sdng có ththao tác ddàng trên nhng mô hình dliu đa chiu  
như vy.  
1.3.2. Tính trong sut (Transparency)  
Công cphân tích cn phi trong sut vi người sdng. OLAP nên  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 13 -  
tn ti trong mt kiến trúc hthng m, cho phép các công cphân tích có  
thể được nhúng vào bt knơi nào mà người sdng mong mun mà không  
có mt stác động ngược li nào vi các chc năng ca công ctrên máy  
ch.  
1.3.3. Khnăng truy nhp được  
Công cOLAP phi ánh xạ được gin đồ Logic ca chính nó ti kho  
dliu vt lý hn tp, truy nhp ti dliu và thc hin mi chuyn đổi cn  
thiết để đưa ra mt khung nhìn đơn gin, mch lc và đồng nht cho người sử  
dng. Dliu vt lý ca hthng thuc kiu này trnên trong sut vi người  
sdng và chlà mi quan tâm ca công c.  
1.3.4. Thc hin vic to báo cáo đồng nht  
Khi slượng các chiu tăng thì năng sut báo to báo cáo gim đi.  
1.3.5. Kiến trúc khách/ch(Client/Server)  
Thành phn Server ca các công cOLAP cn phi đủ thông minh đến  
mc mà nhiu Client có thể được truy nhp ti mt cách ddàng và có thlp  
trình tích hp. Server thông minh phi có đủ khnăng để ánh xvà xây dng  
dliu tnhng cơ sdliu vt lý và Logic khác hn nhau. Điu đó rt cn  
thiết để đảm bo tính trong sut và xây dng mt lược đồ mc khái nim,  
Logic, vt lý chung.  
1.3.6. Cu trúc chung cho các chiu (Generic Dimensionality)  
Mi chiu ca dliu phi cân bng gia cu trúc và khnăng thc  
hin ca nó. Thường chtn ti mt cu trúc chung cho tt ccác chiu. Mi  
chc năng được áp dng cho mt chiu cũng có tháp dng cho các chiu  
khác.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 14 -  
1.3.7. Làm vic vi ma trn  
Cu trúc vt lý ca OLAP Server cn phi biến đổi cho phù hp vi mô  
hình phân tích cthể được to ra và ti vào để vic qun lý các ma trn là ti  
ưu nht. Khi làm vic vi các ma trn, OLAP Server phi có khnăng suy  
lun và tìm ra cách lưu trdliu hiu qunht. Các phương pháp truy nhp  
vt lý cũng được thay đổi thường xuyên và cung cp nhng cơ chế khác nhau  
như tính toán trc tiếp, cây nhphân, kthut băm hoc skết hp tt nht  
nhng kthut như vy.  
1.3.8. Htrnhiu người sdng  
Nhng công cca OLAP phi cung cp truy nhp đồng thi (ly dữ  
liu ra và cp nht), tính toàn vn và an toàn để htrcho nhng người sử  
dng làm vic đồng thi vi cùng mt mô hình phân tích hoc to ra nhng  
mô hình khác nhau tcùng mt dliu.  
1.3.9. Phép toán gia các chiu không hn chế  
Trong phân tích dliu đa chiu, tt ccác chiu được to ra và có vai  
trò như nhau. Các công cOLAP qun lý nhng tính toán liên quan ti các  
chiu và không yêu cu người sdng phi định nghĩa nhng phép toán đó.  
Vic tính toán đòi hi phi định nghĩa các công thc tùy thuc vào mt ngôn  
ng, ngôn ngnày phi cho phép tính và thao tác vi mt slượng chiu bt  
kmà không bhn chế bi mi quan hgia các phn t, không liên quan  
ti sthuc tính chung ca dliu ca mi phn t.  
1.3.10. Thao tác tp trung vào dliu  
Nhng thao tác như định hướng li đường dn xây dng dliu hoc  
khoan sâu xung theo các chiu hoc các hàng được thc hin bng hành  
động trc tiếp trên nhng phn tca mô hình phân tích mà không đòi hi  
phi sdng nhng Menu hay ngt cho giao din vi người sdng. Nhng  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 15 -  
chiu được định nghĩa trong mô hình phân tích cha tt cthông tin mà người  
sdng cn để thc hin nhng hành động chu.  
1.3.11. To báo cáo linh hot  
Vi vic sdng OLAP Server và các công cca nó, mt người sử  
dng đầu cui có ththao tác, phân tích, đồng bhoá và xem xét dliu theo  
bt kcách nào mà người đó mong mun, bao gm cvic to ra nhng  
nhóm Logic hoc btrí nhng hàng, ct, phn tcnh nhng phn tkhác.  
Nhng phương tin to báo cáo cũng phi cung cp tính linh hot và đưa ra  
nhng thông tin đã được đồng btheo bt kcách nào mà người sdng  
mun hin thchúng.  
1.3.12. Không hn chế schiu và các mc kết hp dliu  
Mt OLAP Server có thcha được ít nht là 15 chiu trong mt mô  
hình phân tích thông thường nht. Mi chiu cho phép mt slượng không  
gii hn các mc tng hp và kết hp dliu do người sdng định nghĩa và  
đưa ra cách xây dng các mc đó.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 16 -  
Chương II. Kho dliu (Data Warehouse)  
Hin nay hu hết các tchc đều đang phi đương đầu vi sthay đổi  
ca thtrường. Người ta thy rng để có thể đưa ra mt quyết định đúng đắn,  
trước hết phi có khnăng truy nhp ti tt ccác loi thông tin nhanh chóng.  
Đối vi mt tchc nào đó, để có thcó quyết định đúng đắn, cn nghiên cu  
cnhng dliu quá kh, phân tích nhm định ra toàn bcác xu hướng có  
th. Trong bi cnh công nghthông tin phát trin, dliu được tp trung  
trong nhng cơ sdliu khng l, nhu cu truy cp vào tt ccác thông tin  
là cn thiết. Cách có hiu qunht để trgiúp nhu cu truy nhp thông tin là  
tchc kho dliu (Data Warehouse).  
2.1. Các thành phn kho dliu  
Các thành phn cu thành kho dliu cung cp mt khung cơ bn để  
trao đổi vkiến trúc, cu trúc và các chiến lược ca kho dliu.  
Hình 2.1. Mô hình kho dliu  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 17 -  
2.1.1. Siêu dliu (Metadata)  
Trong vic tchc kho dliu, không chnhng người dùng đầu cui  
mà ngay cnhng nhân viên qun trị đều cn truy nhp toàn bthông tin  
trong bng gm các đối tượng cũng như các thuc tính. Do đó hmun biết  
mt svn đề:  
Có thtìm thy dliu ở đâu?  
Tn ti nhng loi thông tin, dliu nào?  
Dliu thuc loi nào, có dng ra sao?  
Trong các cơ sdliu khác nhau thì dliu có liên quan vi nhau  
như thế nào?  
Dliu được ly từ đâu và nó thuc ai qun lý?  
Vì vy hình thành mt dng cơ sdliu khác được gi là Metadata  
nhm mô tcu trúc ni dung ca cơ sdliu chính. Trong môi trường cơ  
sdliu phc hp, mt Metadata phù hp là không ththiếu bi nó định ra  
cu trúc cơ sdliu tác nghip và ccu trúc kho dliu. Mt vn đề xut  
hin thường xuyên là khnăng giao tiếp vi người sdng vnhng thông  
tin bên trong kho dliu và cách thc chúng được truy nhp. Chính Metadata  
là cách để người sdng và các ng dng có thtiếp cn được vi nhng  
thông tin được lưu trtrong kho dliu. Nó có thể định nghĩa tt ccác phn  
tdliu và các thuc tính ca chúng.  
Metadata cn được thu thp khi kho dliu được thiết kế và xây dng.  
Metadata phi có sn cho tt cnhng người sdng kho dliu để hướng  
dn hdùng kho dliu. Ngoài ra các công ctrgiúp cũng được thiết lp và  
cn được đánh giá.  
2.1.2. Các ngun dliu  
Bao gm các hthng trong và ngoài ca mt tchc, rt phong phú  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 18 -  
vchng loi. Các hthng nm trong được coi như các hthng ngun hoc  
các hthng đã có sn.  
Hthng đã có sn (Legacy System - LS): là mt hthng tác nghip.  
Hthng này đã tng được phát trin, sdng các công nghcó sn và  
vn phù hp vi các nhu cu. Các hthng này có thể được thc hin  
trong nhiu năm và có lkhông có hoc có rt ít minh chng bng tài  
liu.  
Dliu ngoài: là dliu không nm trong các hthng tác nghip ca  
mt tchc, là nhng dliu do người sdng đầu cui yêu cu.  
Các LS được phát trin để phc vcho các dán. Các ng dng được  
phát trin cùng vi dliu mà các dliu này li đáp ng nhiu nhu cu khác  
nhau. Cùng là mt dliu nhưng li có tên khác nhau hoc thuc các hthng  
đo lường khác nhau. Kết qucui cùng là các ngun dliu cn được đánh  
giá và các định nghĩa cn được đưa vào Metadata để nhm ti các vn đề sau:  
Xác định các ngun khác nhau, các cu trúc file khác nhau, các nn  
(Platform) khác nhau.  
Hiu được dliu nào có trong các hthng ngun đang tn ti, các  
định nghĩa ca dliu và bt kcác lut nào cho dliu.  
Phát hin sgiao nhau vthông tin ca các hthng khác nhau.  
Quyết định dliu tt nht trong các hthng. Mi hthng cn được  
đánh giá để quyết định hthng nào có dliu rõ ràng và chính xác  
hơn.  
2.1.3. Hthng xlý giao dch trc tuyến (OLTP)  
Dliu phát sinh tcác hot động hàng ngày được thu thp, xđể  
phc vcông vic cthca mt tchc thường được gi là dliu tác  
nghip và hot động thu thp xlý loi dliu này được gi là xlý giao  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 19 -  
dch trc tuyến (OLTP).  
Dliu ti các CSDL tác nghip được ly tnhiu ngun khác nhau  
nên dbnhiu, hn tp dn đến dliu không sch, không toàn vn. Do đó  
vic kim tra dliu, làm sch dliu phi được tiến hành ngay ti đây nhm  
bo đảm tính toàn vn, tính đúng đắn ca dliu để phc vcho vic xây  
dng kho dliu và trgiúp ra quyết định sau này.  
2.1.3.1. Nhng đặc đim ca hthng OLTP  
Trgiúp slượng ln người sdng đồng thi trong vic thêm mi,  
sa đổi dliu.  
Din ttrng thái thay đổi bt buc ca tchc nhưng không lưu li  
lch sca nó.  
Cha đựng slượng ln các dliu, bao gm dliu tng quát để  
kim soát thc hin.  
Được điu chnh để đáp ng nhanh vic thc hin.  
Cung cp cơ shtng công nghệ để htrcác thao tác thường ngày  
ca mt tchc.  
Chính tnhng đặc đim này, nếu chúng ta sdng OLTP cho phân  
tích trc tuyến thì thường gp nhng khó khăn sau:  
Các yêu cu phân tích, tng hp nhng khi lượng ln dliu nh  
hưởng ti khnăng ca hthng.  
Sthc hin ca hthng khi đáp ng nhng yêu cu phân tích phc  
tp có thchm hoc không n định, cung cp shtrkhông đầy đủ  
cho người sdng trong phân tích trc tuyến.  
Sthay đổi dliu thường xuyên gây trngi cho tính tin cy ca  
thông tin phân tích.  
An ninh trnên phc tp hơn khi phân tích trc tuyến được kết hp vi  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 20 -  
xlý giao dch trc tuyến.  
Kho dliu vi nhim vtchc dliu cho mc đích phân tích đã  
gii quyết được các khó khăn trên bng vic cung cp nhng khóa chính, các  
kho dliu có th:  
Kết hp dliu tnhng ngun dliu hn tp vào trong mt cu trúc  
đơn thun nht.  
Tchc dliu trong nhng cu trúc đơn gin đáp ng hiu quca  
các yêu cu có tính phân tích hơn là cho vic xlý giao dch.  
Cha dliu thay đổi, hp l, chc chn và hp lý hoá trong phân tích.  
Cung cp dliu n định.  
Được cp nht định kdliu bsung hơn là nhng giao dch thường  
xuyên.  
Cung cp mt cơ sdliu được tchc phù hp cho OLAP hơn là  
cho OLTP.  
2.1.3.2. Các công cthu thp, làm sch và chuyn đổi dliu ngun  
Mt yêu cu quan trng là sdng nhng dliu đã được tinh chế từ  
nhng hthng tác nghip và đưa chúng vào mt khuôn dng thích hp cho  
các ng dng thông tin. Nhng công cnày thc hin tt ccác công vic  
chuyn đổi, tóm tt nhng thay đổi quan trng, nhng thay đổi vcu trúc và  
nhng cô đọng cn thiết cho schuyn đổi dliu riêng rthành thông tin có  
thể được dùng trong nhng công chtrquyết định. Nó sinh ra nhng  
chương trình và kim soát nhng câu lnh Cobol, ngôn ngJLC, Unix Script  
và ngôn ngữ định nghĩa dliu SQL cn thiết để chuyn dliu vào kho dữ  
liu tnhiu hthng tác nghip khác nhau. Ngoài ra nó cũng duy trì  
Metadata. Các chc năng chính bao gm:  
Loi bnhng dliu không mong mun tnhng cơ sdliu tác  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 21 -  
nghip.  
Chuyn đổi thành nhng tên và nhng định nghĩa dliu chung.  
Tính toán các tng và dliu đã được chuyn hóa.  
Thiết lp nhng mc định cho các dliu bmt.  
Làm cho nhng thay đổi về định nghĩa dliu ngun trnên thích hp.  
Nhng công cnày có thtiết kim được mt cách đáng kthi gian  
và sc lc. Tuy nhiên nhiu công ccó sn mi chcó ích cho vic tinh chế  
nhng dliu đơn gin do đó vic phát trin nhng thtc tinh chế có khả  
năng tubiến là cn thiết. Các công đon thc hin bao gm:  
a. Trích ly dliu  
Trích ly dliu là xđể ly các dliu đã được xác định trước ra  
khi các hthng tác nghip và các ngun dliu ngoài. Vic trích ly dữ  
liu ngun có thể được hoàn thành bi các công vic: đọc ngun mt cách  
trc tiếp, đọc mt nh ca ngun hoc đọc Log.  
Có mt scông cvà các trình tin ích phc vcho quá trình trích ly  
dliu. Các vn đề xung quanh vic trích ly dliu bao gm cơ cu thi  
gian trong đó dliu được trích ly và hiu quca vic trích ly dliu đó.  
Vi mi phương thc trích chn dliu, Metadata luôn đóng vai trò  
quan trng trong quá trình xlý. Metadata mu bao gm: các định nghĩa ca  
hthng ngun, các khuôn dng vt lý, phương thc và bn lit kê vic trích  
ly dliu. Có thdùng các công choc thc hin bng tay để thu được  
Metadata.  
Có thphát hin ra nhng thay đổi được thc hin đối vi dliu trong  
hthng LS thông qua vic đọc Log. Nhng thay đổi đó là các hành động  
chèn thêm, cp nht và xoá cũng như thông tin ca ct hoc hàng liên quan.  
Toàn bnhng thay đổi được ghi li và sau đó được áp dng theo trt tmà  
các thay đổi đó đã được thc hin trong hthng tác nghip.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 22 -  
b. Tinh chế dliu  
Dliu sau khi được trích xut sẽ được tinh chế thông qua các công  
vic làm sch (Cleaning), chuyn đổi (Transforming) và tích hp. Các công  
cụ đó có ththc hin trên mt tp các thông số đã được xác định trước, trên  
Logic mhoc trin khai các thut toán thông minh. Các thut toán thông  
minh Heuristic vi tp lut mrng mô phng suy din ca con người làm  
cho vic điu tra tiến hành nhanh hơn.  
Trước khi có thchuyn đổi và tích hp dliu, nên thiết lp hthng  
đo lường và chun hoá các định/ngnghĩa. Mc đích ca vic chuyn đổi và  
tích hp là chuyn dliu thành thông tin và làm cho chúng dhiu, dsử  
dng hơn đối vi người sdng.  
Các định nghĩa ca dliu phi chính xác, đầy đủ, tin cy và có giá tr.  
Nếu dliu đã được đưa vào kho dliu không đúng thì sau đó phi quan  
tâm ti vic xem xét li. Vic này liên quan nhiu ti vic tchc. Các câu  
hi cn đặt ra trước khi thay đổi cái cũ là: các thay đổi có hp pháp và đúng  
quy cách không? Có thể đáp ng được nhng thay đổi này không? Thay đổi  
có phi là lâu dài không? Nếu câu trli là có cho c3 câu hi trên thì thay  
đổi đó là có ththc hin được.  
2.1.4. Cơ sdliu ca kho dliu  
Cơ sdliu tp trung là mt nn tng cơ bn ca môi trường kho dữ  
liu. Cơ sdliu này hu hết được cài đặt da trên công nghca Hthng  
qun trcơ sdliu quan h(RDBMS). Tuy nhiên vic cài đặt mt kho dữ  
liu da trên kthut ca RDBMS truyn thng bràng buc bi mt thc tế  
là vic cài đặt RDBMS truyn thng đã được ti ưu hoá đối vi vic xlý cơ  
sdliu giao dch. Nhng thuc tính tt yếu ca kho dliu như kích crt  
ln, xlý các truy vn đặc bit và scn thiết to ra nhng khung nhìn linh  
hot cho người sdng bao gm vic tp hp, kết hp nhiu bng và khoan  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 23 -  
sâu (Drill_down) trthành nhng định hướng cho các cách tiếp cn khác  
nhau ti cơ sdliu ca kho dliu. Nhng cách tiếp cn đó bao gm:  
Thiết kế CSDL quan hsong song.  
Mt cách tiếp cn mi để làm tăng tc độ RDBMS truyn thng là cách  
sdng mt cu trúc chsbqua kim tra các bng quan h.  
Các cơ sdliu đa chiu da trên công nghcơ sdliu phbiến  
hoc được cài đặt sdng trên nn RDBMS quen thuc. Cơ sdliu  
đa chiu được thiết kế để khc phc nhng gii hn tn ti trong kho  
dliu gây ra do bn cht ca mô hình dliu quan h. Cách tiếp cn  
này gn lin vi các công cxlý phân tích trc tuyến thc hin như  
mt đối tác ca các kho dliu đa chiu. Các công cnày gp li thành  
mt nhóm công ctruy vn, to báo cáo, phân tích và đào xi dliu.  
2.1.5. Kho dliu  
2.1.5.1. Định nghĩa  
“Kho dliu (Data Warehouse) là tp hp ca các CSDL tích hp,  
hướng chủ đề, được thiết kế để htrcho chc năng trgiúp quyết định mà  
mi đơn vdliu đều liên quan ti mt khong thi gian cth”.[1]  
Kho dliu thường có dung lượng rt ln, ti hàng trăm Gigabyte hay  
thm chí hàng Terabyte dliu được tchc, lưu trvà phân tích phc vụ  
cho vic cung cp các dch vthông tin liên quan đến yêu cu ca mt tổ  
chc nào đó. Kho dliu phc vcho vic phân tích vi kết qumang tính  
thông tin cao. Các hthng thông tin thu thp, xlý dliu loi này còn gi  
là Hxlý phân tích trc tuyến (OLAP).  
Mt kho lưu trdliu thường được sdng như cơ scho mt hệ  
thng htrquyết định. Nó được thiết kế để khc phc nhng vn đề vp  
phi khi mt tchc cgng thc hin chiến lược phân tích có sdng cùng  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 24 -  
mt cơ sdliu đã được sdng cho xlý giao dch trc tuyến.  
2.1.5.2. Đặc đim dliu trong kho dliu  
Kho dliu là mt tp hp dliu có nhng tính cht sau:  
a. Dliu có tính tích hp  
Mt kho dliu là mt khung nhìn thông tin mc toàn th, thng  
nht các khung nhìn khác nhau thành mt khung nhìn ca mt chủ đề. Ví d,  
hthng OLTP truyn thng được xây dng trên mt vùng phc vvic kinh  
doanh. Mt hthng bán hàng và Marketing có thcó chung mt dng thông  
tin vkhách hàng, nhưng các vn đề vtài chính thì li cn mt khung nhìn  
khác. Mt kho dliu scó mt khung nhìn toàn thvmt khách hàng,  
khung nhìn đó bao gm các phn dliu khác nhau ttài chính đến  
Marketing.  
Tính tích hp thhin chdliu tp hp trong kho dliu được thu  
thp tnhiu ngun và trn ghép vi nhau to thành mt ththng nht.  
b. Dliu gn thi gian và có tính lch sử  
Mt kho cha dliu bao hàm mt khi lượng ln dliu mang tính  
lch s. Dliu được lưu trthành mt lot các Snapshort, mi Snapshort  
phn ánh nhng giá trca dliu ti mt thi đim nht định thhin mt  
khung nhìn ca mt vùng chủ đề trong mt giai đon. Do vy nó cho phép  
khôi phc li lch svà so sánh mt cách chính xác các giai đon khác nhau.  
Yếu tthi gian đóng vai trò như mt phn ca khoá để bo đảm tính đơn  
nht và cung cp đặc trưng vthi gian cho dliu.  
c. Dliu chỉ đọc  
Dliu trong kho dliu là dliu chỉ đọc, có thể được kim tra và  
không được sa đổi bi người sdng.  
d. Dliu không biến động  
Thông tin trong kho dliu được ti vào sau khi dliu trong hthng  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 25 -  
điu hành được cho là quá cũ. Không biến động thhin ch: dliu được  
lưu trlâu dài trong kho dliu. Mc dù có thêm dliu mi nhp vào nhưng  
dliu cũ trong kho vn không bxoá, điu đó cho phép cung cp thông tin  
vmt khong thi gian dài, cung cp đủ sliu cn thiết cho các mô hình  
nghip vphân tích, dbáo.  
e. Dliu tng hp và chi tiết  
Dliu chi tiết là thông tin mc thp nht được lưu trtrong kho dữ  
liu. Dliu tác nghip là thông tin mc thp nht cho mt tchc. Dliu  
tác nghip thun tuý không được lưu trtrong kho dliu. Dliu tng hp  
được tích li qua nhiu giai đon khác nhau.  
2.1.6. Kho dliu chủ đề (Datamart)  
Kho dliu chủ đề (Datamart - DM) là CSDL có nhng đặc đim  
ging vi kho dliu nhưng vi quy mô nhhơn và lưu trdliu vmt  
lĩnh vc, mt chuyên ngành. Các Datamart có thể được hình thành tmt tp  
con dliu ca kho dliu hoc cũng có thể được xây dng độc lp và sau  
khi xây dng xong các Datamart có thể được kết ni, tích hp li vi nhau to  
thành kho dliu.  
Datamart là mt kho dliu thcp gm các dliu tích hp ca kho  
dliu. Datamart được hướng ti mt phn ca dliu, thường được gi là  
mt vùng chủ đề (SA) được to ra dành cho mt nhóm người sdng. Dữ  
liu trong Datamart cho thông tin vmt chủ đề xác định, không phi vtoàn  
bcác hot động nghip vụ đang din ra trong mt tchc. Thhin thường  
xuyên nht ca Datamart là mt kho dliu riêng rtheo phương din vt lý,  
thường được lưu trtrên mt Server riêng trong mt mng cc bphc vụ  
cho mt nhóm người nht định. Đôi khi Datamart vi công nghOLAP to ra  
các quan htheo dng hình sao đặc bit hoc nhng siêu khi (Hypercube) dữ  
liu cho vic phân tích ca mt nhóm người có cùng mi quan tâm trên mt  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 26 -  
phm vi dliu. Có thchia Datamart ra làm 2 loi: Datamart độc lp và  
Datamart phthuc.  
Datamart phthuc cha nhng dliu được ly tkho dliu và  
nhng dliu này sẽ được trích lc, tinh chế, tích hp li mc cao hơn để  
phc vmt chủ đề nht định.  
Datamart độc lp không ging như Datamart phthuc, nó được xây  
dng trước kho dliu và dliu được ly tcác ngun dliu tác nghip.  
Phương pháp này đơn gin hơn và chi phí thp hơn nhưng đổi li có nhng  
đim yếu. Mi Datamart độc lp có cách tích hp riêng do đó dliu tnhiu  
Datamart khó đồng nht vi nhau.  
Datamart thhin hai vn đề: tính n định khi mt Datamart nhban  
đầu ln lên nhanh chóng theo nhiu chiu và stích hp dliu. Vì vy khi  
thiết kế Datamart phi chú ý ti tính n định ca hthng, sự đồng nht ca  
dliu và vn đề vkhnăng qun lý.  
2.2. Sdng kho dliu  
Kho dliu được sdng theo ba cách chính:  
Theo cách khai thác truyn thng, kho dliu được sdng để khai  
thác các thông tin bng các công cvn đáp và báo cáo. Tuy nhiên, nhờ  
có vic xut ra, tng hp và chuyn đổi tcác dliu thô sang dng  
các dliu cht lượng cao và có tính n định, kho dliu đã giúp nâng  
cao các kthut biu din thông tin truyn thng (hi đáp và báo cáo).  
Bng cách to ra mt tng n gia người dùng và CSDL, các dliu  
đầu vào ca kthut này được đặt vào mt ngun duy nht. Vic hp  
nht này loi bỏ được rt nhiu li sinh ra do vic phi thu thp và biu  
din thông tin trt nhiu ngun khác nhau cũng như gim bt được sự  
chm trdo phi ly các dliu bphân đon trong các CSDL khác  
nhau, tránh cho người dùng khi nhng câu lnh phc tp. Tuy nhiên  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 27 -  
đây mi chlà cách khai thác vi kthut cao để đưa ra các dliu tinh  
và chính xác hơn chchưa đưa ra được dliu “tri thc”.  
Các kho dliu được sdng để htrcho phân tích trc tuyến  
(OLAP). Trong khi ngôn ngtruy vn chun SQL và các công clàm  
báo cáo truyn thng chcó thmiêu tnhng gì có trong CSDL thì  
phân tích trc tuyến có khnăng phân tích dliu, xác định xem giả  
thuyết đúng hay sai. Tuy nhiên phân tích trc tuyến li không có khả  
năng đưa ra được các githuyết. Hơn na, kích thước quá ln và tính  
cht phc tp ca kho dliu làm cho nó rt khó có thsdng cho  
nhng mc đích như đưa ra các githuyết tcác thông tin mà chương  
trình ng dng cung cp (ví dnhư khó có thể đưa ra được githuyết  
gii thích được hành vi ca mt nhóm khách hàng).  
Trước đây, kthut hc máy thường được sdng để tìm ra nhng giả  
thuyết tcác thông tin dliu thu thp được. Tuy nhiên thc nghim  
cho thy chúng thhin khnăng rt kém khi áp dng vi các tp dữ  
liu ln trong kho dliu. Phương pháp thng kê tuy ra đời đã lâu  
nhưng không có gì ci tiến để phù hp vi sphát trin ca dliu.  
Đây chính là lý do ti sao mt khi lượng ln dliu vn chưa được  
khai thác và thm chí được lưu chyếu trong các kho dliu không  
trc tuyến (Offline). Điu này đã to nên mt lhng ln trong vic hỗ  
trphân tích và tìm hiu dliu, to ra khong cách gia vic to ra và  
vic khai thác dliu đó. Trong khi đó càng ngày người ta càng nhn  
thy rng nếu được phân tích thông minh thì dliu slà mt ngun tài  
nguyên quí giá. Từ đó người ta đã đưa ra mt phương pháp mi đáp  
ng cnhu cu trong khoa hc cũng như trong hot động thc tin, đó  
chính là công nghkhai phá dliu (Data Mining). Đây chính là ng  
dng chính thba ca kho dliu.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 28 -  
2.3. Phương pháp xây dng kho dliu  
Xây dng kho dliu va là mt tiến trình công vic và cũng đồng thi  
là mt kiến trúc nhm thc hin các ni dung như: la chn, chuyn đổi, lưu  
chuyn, bo toàn tính toàn vn, tích hp, làm sch dliu, đưa dliu từ  
nhiu ngun dliu tác nghip vào hthng qun lý cơ sdliu để phc vụ  
các quá trình ra quyết định. Kiến trúc ca các kho dliu cung cp nhiu khả  
năng mm do, nhiu khnăng mrng để phc vcho các ng dng hin  
có cũng như cho các ng dng mi trong tương lai. Kho dliu gm các  
thành phn thiết yếu sau:  
Các ngun dliu tác nghip ODS (Operational Data Sources).  
Chuyn đổi và xut ra dliu (Data Conversion and Extraction).  
Tóm lược và làm giu dliu (Data Sumaization & Data Enrichment).  
Hthng qun lý các CSDL ca kho dliu (Database Management  
System - DBMS).  
Qun lý các siêu dliu.  
Các công c(Tools) truy nhp và phân tích.  
Quá trình xây dng kho dliu có thbt đầu bng vic xây dng các  
Datamart, có nghĩa là sau khi xây dng xong các Datamart ta tiến hành kết  
ni, tích hp chúng vi nhau to thành kho dliu. Theo cách này, Datamart  
chính là mô hình và là bước đầu tiên ca quá trình xây dng kho dliu.  
Cách thhai, ta có thxây dng kho dliu trước sau đó to ra các Datamart.  
Mi phương pháp đều có thun li và khó khăn ca nó, tùy điu kin cthta  
la chn hay kết hp các phương pháp cho phù hp.  
Phương pháp phân tích, thiết kế và quá trình xây dng kho dliu có  
thể được chia thành các giai đon, trong mi giai đon có các bước:  
- Giai đon kho sát  
Bước 1: Xác định chiến lược và xây dng kế hoch  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 29 -  
Bước 2: Kho sát, đánh giá hin trng hthng  
- Giai đon phân tích thiết kế  
Bước 3: Phân tích, thiết kế hthng và xây dng mu thnghim  
(Prototype)  
- Giai đon xây dng, phát trin hthng  
Bước 4: Trin khai xây dng hthng  
Bước 5: Khai thác và duy trì hthng  
2.4. Thiết kế CSDL cho kho dliu  
Mt vài phương pháp và công cphc vtt cho vic to ra các hệ  
thng tác nghip gn như là không phù hp vi nhng yêu cu khác nhau ca  
kho dliu. Điu này rt đúng trong các hthng qun trcơ sdliu. Hệ  
thng OLTP truyn thng được thiết kế mt cách đơn gin không phù hp vi  
nhng yêu cu ca phương pháp kho dliu. Nhng dán dùng phương pháp  
kho dliu buc phi la chn gia mt mô hình dliu và mt gin đồ dữ  
liu liên quan trc quan cho vic phân tích nhưng nghèo nàn vthhin. Mt  
gin đồ - mô hình là cách thc hin tt hơn nhưng không phù hp lm cho  
vic phân tích. Khi phương pháp kho dliu được tiếp tc phát trin thì  
nhng cách tiếp cn mi cho vic thiết kế gin đồ dliu phù hp hơn vi  
vic phân tích được hình thành và đó là điu ct yếu dn đến thành công ca  
phương pháp kho dliu. Mt gin đồ được chp nhn sdng rng rãi cho  
phương pháp kho dliu là gin đồ hình sao.  
2.4.1. Gin đồ hình sao (Star)  
Vic phân tích, dbáo đòi hi nhng gin đồ CSDL chyếu tp trung  
vào nhng truy vn mà bn cht là đa chiu và hướng mng (Array-oriented).  
Như vy, công nghCSDL chính ca kho dliu là RDBMS. Ta sxem xét  
vic thiết kế gin đồ dliu khi gn lin nó vi công nghCSDL quan h.  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  
- 30 -  
Gin đồ hình sao được đưa ra ln đầu tiên bi Raph Kimball như là mt  
la chn thiết kế CSDL cho kho dliu. Trong gin đồ hình sao, dliu được  
xác định và phân loi theo 2 kiu: skin (bng Fact: đối tượng trung tâm) và  
phm vi (các bng Dimension: các bng liên kết). Trong gin đồ hình sao chỉ  
có mt bng liên quan trc tiếp ti hu hết các bng còn li đó là bng Fact và  
là bng cha yếu tct lõi cn được phân tích. Nó được gi là gin đồ hình  
sao bi vì các skin nm trung tâm ca mô hình và được bao quanh bi  
các phm vi liên quan, rt ging vi các đim ca mt ngôi sao. Các skin  
là các đại lượng sca công vic. Các phm vi là các blc hoc các ràng  
buc ca nhng skin này. Ví d: thông tin vkhách hàng như tên, địa chỉ  
là mt phm vi, trong khi đó thông tin bán hàng cho khách hàng đó là mt sự  
kin.  
Hình 2.2. Gin đồ hình sao và hình tuyết rơi  
Vi gin đồ hình sao, người thiết kế có thddàng mô phng nhng  
chc năng ca CSDL đa chiu. Sphi chun hóa có thcoi là stin kết ni  
Lun văn tt nghip cao hc chuyên ngành Xlý Thông tin và Truyn thông khoá 2004 - 2006  

Tải về để xem bản đầy đủ

pdf 125 trang yennguyen 26/04/2025 30
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ trợ giúp quyết định dựa vào dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_phuong_phap_xu_ly_phan_tich_truc_tuyen_ap_dung_tron.pdf