Luận văn Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ trợ giúp quyết định dựa vào dữ liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-----------------------------------------------------

LUẬN VĂN THẠC SĨ KHOA HỌC

PHƯƠNG PHÁP XỬ LÝ PHÂN TÍCH

TRỰC TUYẾN ÁP DỤNG TRONG XÂY DỰNG

HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU

CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG

TRẦN ĐÌNH CHIẾN

NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS. NGUYỄN THÚC HẢI

HÀ NỘI 2006

- 2 -

MỤC LỤC

Danh mục hình vẽ................................................................................................5

Danh sách các thuật ngữ và từ viết tắt.......................................................6

Lời mở đầu...............................................................................................................7

Chương I. Khai thác dữ liệu và xử lý phân tích trực tuyến................10

1.1. Giới thiệu các phương pháp khai thác dữ liệu.....................................................10

1.2. Xử lý phân tích trực tuyến (OLAP)......................................................................11

1.3. Nguyên tắc của OLAP............................................................................................12

1.3.1. Khung nhìn đa chiều .........................................................................................12

1.3.2. Tính trong suốt (Transparency) ........................................................................12

1.3.3. Khả năng truy nhập được..................................................................................13

1.3.4. Thực hiện việc tạo báo cáo đồng nhất ..............................................................13

1.3.5. Kiến trúc khách/chủ (Client/Server) .................................................................13

1.3.6. Cấu trúc chung cho các chiều (Generic Dimensionality).................................13

1.3.7. Làm việc với ma trận.........................................................................................14

1.3.8. Hỗ trợ nhiều người sử dụng.............................................................................14

1.3.9. Phép toán giữa các chiều không hạn chế..........................................................14

1.3.10. Thao tác tập trung vào dữ liệu........................................................................14

1.3.11. Tạo báo cáo linh hoạt .....................................................................................15

1.3.12. Không hạn chế số chiều và các mức kết hợp dữ liệu ......................................15

Chương II. Kho dữ liệu (Data Warehouse) ..............................................16

2.1. Các thành phần kho dữ liệu ..................................................................................16

2.1.1. Siêu dữ liệu (Metadata).....................................................................................17

2.1.2. Các nguồn dữ liệu .............................................................................................17

2.1.3. Hệ thống xử lý giao dịch trực tuyến (OLTP) ....................................................18

2.1.3.1. Những đặc điểm của hệ thống OLTP ........................................................19

2.1.3.2. Các công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn...................20

2.1.4. Cơ sở dữ liệu của kho dữ liệu ...........................................................................22

2.1.5. Kho dữ liệu........................................................................................................23

2.1.5.1. Định nghĩa..................................................................................................23

2.1.5.2. Đặc điểm dữ liệu trong kho dữ liệu ...........................................................24

2.1.6. Kho dữ liệu chủ đề (Datamart) .........................................................................25

2.2. Sử dụng kho dữ liệu ...............................................................................................26

2.3. Phương pháp xây dựng kho dữ liệu......................................................................28

2.4. Thiết kế CSDL cho kho dữ liệu.............................................................................29

2.4.1. Giản đồ hình sao (Star).....................................................................................29

2.4.2. Giản đồ hình tuyết rơi (Snowflake)...................................................................32

2.4.3 Giản đồ kết hợp..................................................................................................33

2.4.4. Những vấn đề liên quan tới thiết kế giản đồ hình sao.......................................34

2.4.4.1. Đánh chỉ số ................................................................................................34

2.4.4.2. Chỉ thị về mức............................................................................................35

2.4.5. Những nhân tố thiết kế cần phải được cân nhắc...............................................35

2.5. Quản trị kho dữ liệu...............................................................................................37

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 3 -

Chương III. Tiếp cận và phân tích đa chiều trong xử lý phân tích

trực tuyến..............................................................................................................39

3.1. Tiếp cận đa chiều....................................................................................................39

3.2. Phân tích đa chiều ..................................................................................................40

3.3. Kiến trúc khối của OLAP (OLAP Cube Architecture) ......................................42

3.3.1. Giới thiệu kiến trúc khối ...................................................................................42

3.3.2. Khối (Cube).......................................................................................................43

3.3.2.1. Xác định khối.............................................................................................44

3.3.2.2. Xử lý các khối............................................................................................45

3.3.2.3. Khối ảo (Virtual Cube) ..............................................................................46

3.3.3 Chiều (Dimension) .............................................................................................46

3.3.3.1. Xác định các chiều.....................................................................................48

3.3.3.2. Chiều có phân cấp......................................................................................48

3.3.3.3. Phân cấp chiều ...........................................................................................49

3.3.3.4. Roll_up và Drill_down dựa trên phân cấp chiều .......................................50

3.3.3.5. Các chiều ảo (Virtual Dimensions)............................................................50

3.3.4. Các đơn vị đo lường (Measures).......................................................................51

3.3.5. Các phân hoạch (Partitions).............................................................................51

3.3.6. Các phương pháp lưu trữ dữ liệu (MOLAP, ROLAP, HOLAP) .......................53

3.3.6.1. MOLAP (Multidimensional OLAP)..........................................................53

3.3.6.2. ROLAP (Relational OLAP).......................................................................54

3.3.6.3. HOLAP (Hybrid OLAP)............................................................................55

3.4. Thuật toán chỉ số hoá các khung nhìn trong xử lý phân tích trực tuyến kho dữ

liệu...................................................................................................................................55

3.4.1. Một số khái niệm cơ bản ...................................................................................56

3.4.1.1. Các khối dữ liệu con (Subcubes) ...............................................................56

3.4.1.2. Câu truy vấn (Queries)...............................................................................56

3.4.1.3. Chỉ số (Indexes).........................................................................................57

3.4.1.4. Quan hệ tính toán và phụ thuộc .................................................................58

3.4.2. Thuật toán chọn View và Index.........................................................................61

3.4.2.1. Ước tính kích thước của mỗi View............................................................61

3.4.2.2. Ước tính kích thước của chỉ số Index........................................................61

3.4.2.3. Xác định bài toán.......................................................................................62

3.4.2.4. Giải quyết bài toán.....................................................................................63

3.3.5 Kết luận..............................................................................................................66

Chương IV. Hệ trợ giúp quyết định dựa vào dữ liệu.............................67

4.1. Hệ trợ giúp quyết định...........................................................................................67

4.1.1. Giới thiệu ..........................................................................................................67

4.1.2. Hệ trợ giúp quyết định ......................................................................................68

4.1.3. Phân loại các hệ trợ giúp quyết định................................................................69

4.2. Hệ trợ giúp quyết định dựa vào dữ liệu................................................................71

4.2.1. Tiếp cận kho dữ liệu và OLAP..........................................................................71

4.2.2. Trợ giúp quyết định dựa vào dữ liệu trên cơ sở kho dữ liệu và OLAP.............73

4.2.3. Tiến trình trợ giúp quyết định dựa vào dữ liệu cho bài toán cụ thể .................75

4.3. Xây dựng cấu trúc thông tin hỗ trợ việc ra quyết định ......................................77

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 4 -

4.3.1. Vai trò của cấu trúc thông tin ...........................................................................77

4.3.2. Các yếu tố ảnh hưởng .......................................................................................78

4.3.2.1. Các yêu cầu thông tin.................................................................................78

4.3.2.2. Mức độ tích hợp.........................................................................................80

4.3.3. Mô hình tổ chức thông tin .................................................................................81

4.3.3.1. Các yêu cầu thông tin và năng lực của hệ thống thông tin ........................81

4.3.3.2. Mức độ tích hợp hệ thống..........................................................................83

4.3.4. Kết luận.............................................................................................................84

4.4. Dịch vụ trợ giúp quyết định của Microsoft..........................................................85

4.4.1. Kho dữ liệu Microsoft .......................................................................................85

4.4.1.1. Microsoft Data Warehousing Framework .................................................86

4.4.1.2. Sự phức tạp của dữ liệu .............................................................................87

4.4.1.3. Lợi ích đối với việc kinh doanh.................................................................88

4.4.1.4. Mô hình dữ liệu..........................................................................................88

4.4.1.5. Các hình thức lưu trữ .................................................................................89

4.4.2. Kiến trúc dịch vụ trợ giúp ra quyết định của Microsoft....................................90

4.4.3. Các vấn đề trong việc triển khai Microsoft DSS...............................................91

4.4.3.1. Xây dựng mô hình dữ liệu OLAP cho Microsoft DSS..............................91

4.4.3.2. Lưu trữ mềm dẻo .......................................................................................93

4.4.3.3. Chuyển thông tin tới người sử dụng ..........................................................97

4.4.3.4. Khả năng của các công cụ OLAP............................................................100

4.5. Hướng nghiên cứu phát triển: Hệ trợ giúp quyết định phân tán ....................102

Chương V. Xây dựng hệ thống trợ giúp quyết định dựa vào dữ liệu

bằng công cụ Analysis Services..................................................................106

5.1. Mục tiêu của hệ thống..........................................................................................106

5.2. Yêu cầu về hệ thống..............................................................................................106

5.3. Chức năng chính của hệ thống............................................................................107

5.3.1. Chức năng tạo lập CSDL đa chiều .................................................................109

5.3.2. Chức năng phân tích và hiển thị dữ liệu.........................................................109

5.4. Giới thiệu hệ thống...............................................................................................110

5.4.1. Khởi động Analysis Manager..........................................................................110

5.4.2. Cài đặt cơ sở dữ liệu và nguồn dữ liệu (Database & Data Source)...............110

5.4.3. Tạo khối...........................................................................................................111

5.4.4. Lưu trữ và xử lý khối.......................................................................................114

5.4.5. Khối ảo tăng cường khả năng xử lý và bảo mật .............................................117

5.4.6. Tạo khối ảo......................................................................................................118

5.4.7. Hiển thị dữ liệu khối........................................................................................120

5.4.8. Ví dụ minh họa ................................................................................................121

Phần kết luận.....................................................................................................122

Tài liệu tham khảo...........................................................................................124

Tóm tắt luận văn..............................................................................................125

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 5 -

Danh mục hình vẽ

Hình 1.1. Kho dữ liệu và OLAP

Hình 2.1. Mô hình kho dữ liệu

Hình 2.2. Giản đồ hình sao và hình tuyết rơi

Hình 3.1. Mô hình dữ liệu đa chiều

Hình 3.2. Mô hình dữ liệu khối

Hình 3.3. Giản đồ khối hình sao

Hình 3.4. Giản đồ khối hình tuyết rơi

Hình 3.5. Sơ đồ mô hình đa khối

Hình 3.6. Phân cấp chiều Sản_phẩm

Hình 3.7. Cây phân cấp đối xứng

Hình 3.8. Roll_up và Drill_down theo phân cấp chiều

Hình 4.1. Phân loại các Hệ thông tin quản lý

Hình 4.2. Kho dữ liệu và hệ thống OLAP

Hình 4.3. Tiến trình trợ giúp quyết định dựa vào dữ liệu cho bài toán cụ thể

Hình 4.4. Ma trận Yêu cầu/Năng lực

Hình 5.1. Kiến trúc hệ trợ giúp quyết định dựa vào dữ liệu

Hình 5.2. Chức năng hệ trợ giúp quyết định dựa vào dữ liệu

Hình 5.3. Tạo DataSource cho các khối trong Database

Hình 5.4. Chọn bảng Fact

Hình 5.5. Chọn đơn vị đo

Hình 5.6. Tạo chiều

Hình 5.7. Chọn các mức của chiều

Hình 5.8. Chọn kiểu lưu trữ

Hình 5.9. Tăng tốc độ thực hiện

Hình 5.10. Xử lý khối

Hình 5.11. Chọn các khối cho khối ảo

Hình 5.12. Chọn đơn vị đo cho khối ảo

Hình 5.13. Chọn chiều cho khối ảo

Hình 5.14. Hiển thị dữ liệu khối

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 6 -

Danh sách các thuật ngữ và từ viết tắt

Cơ sở dữ liệu

CSDL

DBA

DM

DSS

HOLAP

DataBase Administrator

DataMart

Quản trị cơ sở dữ liệu

Kho dữ liệu chủ đề

Hệ trợ giúp quyết định

OLAP ghép

Decision Support System

Hybrid OLAP

Trích xuất, chuyển và nạp

dữ liệu

ETL

Extract Transformation Load

LS

Legacy System

Hệ thống đã có sẵn

MIS

Management Information System Hệ thông tin quản lý

MOLAP

MSS

OLAP

OLTP

Multidimensional OLAP

Management Support System

On-Line Analysis Processing

On-Line Transaction Processing

Relational DataBase Management

System

OLAP đa chiều

Hệ hỗ trợ quản lý

Xử lý phân tích trực tuyến

Xử lý giao dịch trực tuyến

RDBMS

Hệ quản trị CSDL quan hệ

ROLAP

SA

Relational OLAP

Subject Area

OLAP quan hệ

Vùng chủ đề

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 7 -

Lời mở đầu

Các hoạt động sản xuất, kinh doanh hiện nay luôn cần có sự đáp ứng

nhanh nhạy, tức thời đối với các thay đổi liên tục, vì vậy các nhà quản lý buộc

phải thường xuyên ra cùng lúc nhiều quyết định đúng đắn (mà chúng sẽ ảnh

hưởng đáng kể đến xu hướng hoạt động và sự cạnh tranh của doanh nghiệp)

một cách nhanh chóng. Do đó vấn đề trợ giúp quyết định trở nên rất cần thiết.

Người ta cần phải thu thập, tổng hợp và phân tích dữ liệu từ nhiều nguồn khác

nhau một cách nhanh và hiệu quả thì mới có thể ra được những quyết định

nhanh chóng và phù hợp. Điều này dẫn đến việc cần phát triển những hệ

thống tinh thông biết cách làm thế nào để trích chọn và phân tích dữ liệu cho

người sử dụng.

Hiện nay có rất nhiều phần mềm cung cấp cho người sử dụng những

khả năng truy vấn và lập các báo cáo thông tin, đặc biệt là các hệ quản trị

CSDL quan hệ. Tuy nhiên CSDL quan hệ với cấu trúc hai chiều (dòng và cột)

không được thiết kế để cung cấp các quan điểm đa chiều trên dữ liệu đầu vào

của các phân tích phức tạp. Sử dụng các hệ thống này, chúng ta sẽ gặp rất

nhiều khó khăn và bất tiện trong việc tổ chức dữ liệu đa chiều vào các bảng

hai chiều, không thể triển khai dữ liệu phân tích với số lượng lớn, công cụ

phân tích để tạo ra các dữ liệu quyết định không mạnh, thuận tiện, linh hoạt,

nhanh chóng và nhất là không dễ dàng để sử dụng đối với các nhà quản lý,

những người ra quyết định.

Như vậy, việc xây dựng một hệ thống mới có khả năng tổ chức dữ liệu

đa chiều và có khả năng phân tích dữ liệu linh hoạt để trả lời được các truy

vấn đa chiều một cách dễ dàng, nhanh chóng nhằm hỗ trợ cho việc ra quyết

định của các nhà quản lý là cần thiết.

Mục đích của đề tài:

Luận văn đề cập đến việc nghiên cứu xây dựng một hệ trợ giúp quyết

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 8 -

định dựa vào dữ liệu, sử dụng phương pháp luận xử lý phân tích trực tuyến

(OLAP). Đề tài sẽ tập trung vào hai công việc chính là nghiên cứu vấn đề tổ

chức cơ sở dữ liệu đa chiều, phân tích và hiển thị dữ liệu để trợ giúp ra quyết

định.

Hệ trợ giúp quyết định theo cách tiếp cận này có thể giúp các nhà quản

lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ

chức cơ sở dữ liệu đa chiều và dễ dàng điều chỉnh hoạt động phân tích, tìm

kiếm thông tin theo những khía cạnh khác nhau của dữ liệu nhằm thu thập

được tối đa dữ liệu cần thiết để từ đó đưa được những quyết định tốt nhất một

cách nhanh chóng.

Không giống với các hệ trợ giúp quyết định truyền thống thường được

xây dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong

một phạm vi ứng dụng hẹp, hệ trợ giúp quyết định dựa vào dữ liệu hướng đến

việc giúp người sử dụng có thể khai thác được tối đa khả năng tiềm ẩn của

một khối lượng dữ liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các

khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định đúng một

cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trợ giúp quyết

định dựa vào dữ liệu là rộng. Nó có thể được sử dụng để trợ giúp quyết định

cho các bài toán khác nhau, trong những lĩnh vực khác nhau.

Bố cục của luận văn:

Toàn bộ luận văn được trình bày trong 5 chương:

• Chương 1: Giới thiệu các phương pháp khai thác dữ liệu, các nội dung

cơ bản về xử lý phân tích trực tuyến.

• Chương 2: Trình bày các lý thuyết chung về kho dữ liệu và mô hình

kho dữ liệu, phương pháp xây dựng và thiết kế CSDL cho kho dữ liệu.

• Chương 3: Trình bày phương pháp tiếp cận và phân tích đa chiều trong

xử lý phân tích trực tuyến.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 9 -

• Chương 4: Giới thiệu Hệ trợ giúp quyết định dựa vào dữ liệu với hai

thành phần chính là kho dữ liệu và xử lý phân tích trực tuyến. Tiến

trình trợ giúp quyết định dựa vào dữ liệu. Xây dựng cấu trúc thông tin

để hỗ trợ việc ra quyết định và giới thiệu về dịch vụ trợ giúp quyết định

của Microsoft. Hướng nghiên cứu phát triển.

• Chương 5: Xây dựng hệ thống với chức năng tạo lập cơ sở dữ liệu đa

chiều và phân tích hiển thị dữ liệu.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 10 -

Chương I. Khai thác dữ liệu và xử lý phân tích trực tuyến

1.1. Giới thiệu các phương pháp khai thác dữ liệu

Khai thác dữ liệu là quá trình phát hiện ra những mối quan hệ liên

thuộc, các mô hình và các khuynh hướng mới (Patterns & Trends) bằng việc

khảo sát một số lượng lớn dữ liệu được lưu trữ trong các kho (Repository) sử

dụng các công nghệ về nhận dạng mẫu cũng như các kỹ thuật thống kê và

toán học. Khai thác dữ liệu có thể hiểu là kỹ thuật khoan dữ liệu theo chiều

sâu và tổng hợp dữ liệu theo chiều ngược lại, là quá trình đào xới xem xét dữ

liệu dưới nhiều góc độ nhằm tìm ra các mối liên hệ giữa các thành phần dữ

liệu và phát hiện ra những xu hướng, hình mẫu, kinh nghiệm quá khứ tiềm ẩn

trong kho dữ liệu. Vì vậy nó rất phù hợp với mục đích phân tích dữ liệu hỗ trợ

điều hành và ra quyết định.

Phần lớn các phương pháp khai thác dữ liệu đều dựa trên các lĩnh vực

như học máy, thống kê và các công cụ khác. Một số kỹ thuật thường dùng là

mạng Nơ-ron (Neuron Network), giải thuật di truyền (Genetic Algorithms) và

xử lý phân tích trực tuyến (OLAP).

Xử lý phân tích trực tuyến chính là việc sử dụng kho dữ liệu cho mục

đích trợ giúp quyết định. Ý tưởng mô phỏng các chiều trong dữ liệu có thể

được mở rộng: một bảng với n thuộc tính có thể được xem như một không

gian n chiều. Người quản lý thường đặt những câu hỏi mà có thể phân tích

trong những phân tích đa chiều. Các thông tin này không phải dễ phân tích

khi bảng được biểu diễn hai chiều và CSDL quan hệ chuẩn không thể đáp ứng

tốt công việc này. Trong trường hợp như vậy, sử dụng OLAP tỏ ra thích hợp.

Cũng có một sự khác nhau giữa các công cụ OLAP và khai thác dữ liệu

đó là công cụ OLAP không thể học, chúng không tạo nên tri thức mới và

không tìm kiếm được giải pháp mới. Như vậy có sự khác nhau cơ bản giữa tri

thức đa chiều và kiểu tri thức mà một người có thể lấy ra được từ một CSDL

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 11 -

thông qua khai thác dữ liệu.

Hình 1.1. Kho dữ liệu và OLAP

1.2. Xử lý phân tích trực tuyến (OLAP)

OLAP là một chức năng thông minh trong xử lý nghiệp vụ, làm cho các

thông tin có thể hiểu được dễ dàng. OLAP khiến cho người sử dụng đầu cuối

(End-User) có thể hiểu được bản chất bên trong thông qua việc truy nhập

nhanh, tương tác tới các khung nhìn nhiều dạng của thông tin được chuyển

đổi từ các dữ liệu thô để phản ánh sự đa dạng nhiều chiều.

OLAP là một công nghệ phân tích dữ liệu thực hiện những công việc

sau:

• Đưa ra một khung nhìn Logic, nhiều chiều của dữ liệu trong kho dữ

liệu. Khung nhìn này hoàn toàn không phụ thuộc vào việc dữ liệu được

lưu trữ như thế nào (có thể được lưu trữ trong một kho dữ liệu nhiều

chiều hay một kho dữ liệu quan hệ).

• Thường liên quan tới những truy vấn phân tích tương tác dữ liệu. Sự

tương tác thường là phức tạp, liên quan tới việc khoan sâu xuống những

mức dữ liệu chi tiết hơn hoặc cuốn lên mức dữ liệu cao hơn ở mức tổng

hợp hoặc kết hợp.

• Cung cấp khả năng thiết lập mô hình phân tích bao gồm tính toán tỉ lệ,

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 12 -

những biến đổi... liên quan tới những đại lượng số hoặc dữ liệu là con

số qua nhiều chiều.

• Tạo ra sự tổng hợp và kết hợp, phân cấp và dùng những mức tổng hợp,

kết hợp đó cho mỗi phép giao của các bảng theo chiều.

• Hỗ trợ những mô hình chức năng cho việc dự báo, phân tích các xu

hướng và phân tích thống kê.

• Lấy và hiển thị dữ liệu theo những bảng 2 chiều hay 3 chiều, theo biểu

đồ hay đồ thị, dễ dàng xoay đổi các trục cho nhau. Khả năng xoay là

quan trọng vì người sử dụng cần phân tích dữ liệu từ những cách nhìn

khác nhau và sự phân tích theo mỗi cách nhìn sẽ dẫn đến một câu hỏi

khác, câu hỏi này sẽ được kiểm tra tính đúng đắn dựa trên một cách

nhìn khác về dữ liệu đó.

• Đáp ứng những câu trả lời nhanh vì vậy quá trình phân tích không bị

cắt ngang và thông tin không bị cũ.

• Sử dụng một kho dữ liệu đa chiều, lưu trữ dữ liệu theo các mảng (lưu ý

là mảng lưu trữ những phần tử cùng kiểu khác với bản ghi là các phần

tử khác kiểu nhau). Những mảng này là sự biểu diễn Logic của các

chiều của công việc.

1.3. Nguyên tắc của OLAP

1.3.1. Khung nhìn đa chiều

Đối với người thực hiện thì cách nhìn của họ với công việc là nhiều

chiều về bản chất. Vì vậy mô hình OLAP phải là đa chiều về bản chất. Những

người sử dụng có thể thao tác dễ dàng trên những mô hình dữ liệu đa chiều

như vậy.

1.3.2. Tính trong suốt (Transparency)

Công cụ phân tích cần phải trong suốt với người sử dụng. OLAP nên

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 13 -

tồn tại trong một kiến trúc hệ thống mở, cho phép các công cụ phân tích có

thể được nhúng vào bất kỳ nơi nào mà người sử dụng mong muốn mà không

có một sự tác động ngược lại nào với các chức năng của công cụ trên máy

chủ.

1.3.3. Khả năng truy nhập được

Công cụ OLAP phải ánh xạ được giản đồ Logic của chính nó tới kho

dữ liệu vật lý hỗn tạp, truy nhập tới dữ liệu và thực hiện mọi chuyển đổi cần

thiết để đưa ra một khung nhìn đơn giản, mạch lạc và đồng nhất cho người sử

dụng. Dữ liệu vật lý của hệ thống thuộc kiểu này trở nên trong suốt với người

sử dụng và chỉ là mối quan tâm của công cụ.

1.3.4. Thực hiện việc tạo báo cáo đồng nhất

Khi số lượng các chiều tăng thì năng suất báo tạo báo cáo giảm đi.

1.3.5. Kiến trúc khách/chủ (Client/Server)

Thành phần Server của các công cụ OLAP cần phải đủ thông minh đến

mức mà nhiều Client có thể được truy nhập tới một cách dễ dàng và có thể lập

trình tích hợp. Server thông minh phải có đủ khả năng để ánh xạ và xây dựng

dữ liệu từ những cơ sở dữ liệu vật lý và Logic khác hẳn nhau. Điều đó rất cần

thiết để đảm bảo tính trong suốt và xây dựng một lược đồ mức khái niệm,

Logic, vật lý chung.

1.3.6. Cấu trúc chung cho các chiều (Generic Dimensionality)

Mỗi chiều của dữ liệu phải cân bằng giữa cấu trúc và khả năng thực

hiện của nó. Thường chỉ tồn tại một cấu trúc chung cho tất cả các chiều. Mọi

chức năng được áp dụng cho một chiều cũng có thể áp dụng cho các chiều

khác.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 14 -

1.3.7. Làm việc với ma trận

Cấu trúc vật lý của OLAP Server cần phải biến đổi cho phù hợp với mô

hình phân tích cụ thể được tạo ra và tải vào để việc quản lý các ma trận là tối

ưu nhất. Khi làm việc với các ma trận, OLAP Server phải có khả năng suy

luận và tìm ra cách lưu trữ dữ liệu hiệu quả nhất. Các phương pháp truy nhập

vật lý cũng được thay đổi thường xuyên và cung cấp những cơ chế khác nhau

như tính toán trực tiếp, cây nhị phân, kỹ thuật băm hoặc sự kết hợp tốt nhất

những kỹ thuật như vậy.

1.3.8. Hỗ trợ nhiều người sử dụng

Những công cụ của OLAP phải cung cấp truy nhập đồng thời (lấy dữ

liệu ra và cập nhật), tính toàn vẹn và an toàn để hỗ trợ cho những người sử

dụng làm việc đồng thời với cùng một mô hình phân tích hoặc tạo ra những

mô hình khác nhau từ cùng một dữ liệu.

1.3.9. Phép toán giữa các chiều không hạn chế

Trong phân tích dữ liệu đa chiều, tất cả các chiều được tạo ra và có vai

trò như nhau. Các công cụ OLAP quản lý những tính toán liên quan tới các

chiều và không yêu cầu người sử dụng phải định nghĩa những phép toán đó.

Việc tính toán đòi hỏi phải định nghĩa các công thức tùy thuộc vào một ngôn

ngữ, ngôn ngữ này phải cho phép tính và thao tác với một số lượng chiều bất

kỳ mà không bị hạn chế bởi mối quan hệ giữa các phần tử, không liên quan

tới số thuộc tính chung của dữ liệu của mỗi phần tử.

1.3.10. Thao tác tập trung vào dữ liệu

Những thao tác như định hướng lại đường dẫn xây dựng dữ liệu hoặc

khoan sâu xuống theo các chiều hoặc các hàng được thực hiện bằng hành

động trực tiếp trên những phần tử của mô hình phân tích mà không đòi hỏi

phải sử dụng những Menu hay ngắt cho giao diện với người sử dụng. Những

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 15 -

chiều được định nghĩa trong mô hình phân tích chứa tất cả thông tin mà người

sử dụng cần để thực hiện những hành động cố hữu.

1.3.11. Tạo báo cáo linh hoạt

Với việc sử dụng OLAP Server và các công cụ của nó, một người sử

dụng đầu cuối có thể thao tác, phân tích, đồng bộ hoá và xem xét dữ liệu theo

bất kỳ cách nào mà người đó mong muốn, bao gồm cả việc tạo ra những

nhóm Logic hoặc bố trí những hàng, cột, phần tử cạnh những phần tử khác.

Những phương tiện tạo báo cáo cũng phải cung cấp tính linh hoạt và đưa ra

những thông tin đã được đồng bộ theo bất kỳ cách nào mà người sử dụng

muốn hiển thị chúng.

1.3.12. Không hạn chế số chiều và các mức kết hợp dữ liệu

Một OLAP Server có thể chứa được ít nhất là 15 chiều trong một mô

hình phân tích thông thường nhất. Mỗi chiều cho phép một số lượng không

giới hạn các mức tổng hợp và kết hợp dữ liệu do người sử dụng định nghĩa và

đưa ra cách xây dựng các mức đó.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 16 -

Chương II. Kho dữ liệu (Data Warehouse)

Hiện nay hầu hết các tổ chức đều đang phải đương đầu với sự thay đổi

của thị trường. Người ta thấy rằng để có thể đưa ra một quyết định đúng đắn,

trước hết phải có khả năng truy nhập tới tất cả các loại thông tin nhanh chóng.

Đối với một tổ chức nào đó, để có thể có quyết định đúng đắn, cần nghiên cứu

cả những dữ liệu quá khứ, phân tích nhằm định ra toàn bộ các xu hướng có

thể. Trong bối cảnh công nghệ thông tin phát triển, dữ liệu được tập trung

trong những cơ sở dữ liệu khổng lồ, nhu cầu truy cập vào tất cả các thông tin

là cần thiết. Cách có hiệu quả nhất để trợ giúp nhu cầu truy nhập thông tin là

tổ chức kho dữ liệu (Data Warehouse).

2.1. Các thành phần kho dữ liệu

Các thành phần cấu thành kho dữ liệu cung cấp một khung cơ bản để

trao đổi về kiến trúc, cấu trúc và các chiến lược của kho dữ liệu.

Hình 2.1. Mô hình kho dữ liệu

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 17 -

2.1.1. Siêu dữ liệu (Metadata)

Trong việc tổ chức kho dữ liệu, không chỉ những người dùng đầu cuối

mà ngay cả những nhân viên quản trị đều cần truy nhập toàn bộ thông tin

trong bảng gồm các đối tượng cũng như các thuộc tính. Do đó họ muốn biết

một số vấn đề:

• Có thể tìm thấy dữ liệu ở đâu?

• Tồn tại những loại thông tin, dữ liệu nào?

• Dữ liệu thuộc loại nào, có dạng ra sao?

• Trong các cơ sở dữ liệu khác nhau thì dữ liệu có liên quan với nhau

như thế nào?

• Dữ liệu được lấy từ đâu và nó thuộc ai quản lý?

Vì vậy hình thành một dạng cơ sở dữ liệu khác được gọi là Metadata

nhằm mô tả cấu trúc nội dung của cơ sở dữ liệu chính. Trong môi trường cơ

sở dữ liệu phức hợp, một Metadata phù hợp là không thể thiếu bởi nó định ra

cấu trúc cơ sở dữ liệu tác nghiệp và cả cấu trúc kho dữ liệu. Một vấn đề xuất

hiện thường xuyên là khả năng giao tiếp với người sử dụng về những thông

tin bên trong kho dữ liệu và cách thức chúng được truy nhập. Chính Metadata

là cách để người sử dụng và các ứng dụng có thể tiếp cận được với những

thông tin được lưu trữ trong kho dữ liệu. Nó có thể định nghĩa tất cả các phần

tử dữ liệu và các thuộc tính của chúng.

Metadata cần được thu thập khi kho dữ liệu được thiết kế và xây dựng.

Metadata phải có sẵn cho tất cả những người sử dụng kho dữ liệu để hướng

dẫn họ dùng kho dữ liệu. Ngoài ra các công cụ trợ giúp cũng được thiết lập và

cần được đánh giá.

2.1.2. Các nguồn dữ liệu

Bao gồm các hệ thống trong và ngoài của một tổ chức, rất phong phú

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 18 -

về chủng loại. Các hệ thống nằm trong được coi như các hệ thống nguồn hoặc

các hệ thống đã có sẵn.

• Hệ thống đã có sẵn (Legacy System - LS): là một hệ thống tác nghiệp.

Hệ thống này đã từng được phát triển, sử dụng các công nghệ có sẵn và

vẫn phù hợp với các nhu cầu. Các hệ thống này có thể được thực hiện

trong nhiều năm và có lẽ không có hoặc có rất ít minh chứng bằng tài

liệu.

• Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của

một tổ chức, là những dữ liệu do người sử dụng đầu cuối yêu cầu.

Các LS được phát triển để phục vụ cho các dự án. Các ứng dụng được

phát triển cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu cầu khác

nhau. Cùng là một dữ liệu nhưng lại có tên khác nhau hoặc thuộc các hệ thống

đo lường khác nhau. Kết quả cuối cùng là các nguồn dữ liệu cần được đánh

giá và các định nghĩa cần được đưa vào Metadata để nhắm tới các vấn đề sau:

• Xác định các nguồn khác nhau, các cấu trúc file khác nhau, các nền

(Platform) khác nhau.

• Hiểu được dữ liệu nào có trong các hệ thống nguồn đang tồn tại, các

định nghĩa của dữ liệu và bất kỳ các luật nào cho dữ liệu.

• Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau.

• Quyết định dữ liệu tốt nhất trong các hệ thống. Mỗi hệ thống cần được

đánh giá để quyết định hệ thống nào có dữ liệu rõ ràng và chính xác

hơn.

2.1.3. Hệ thống xử lý giao dịch trực tuyến (OLTP)

Dữ liệu phát sinh từ các hoạt động hàng ngày được thu thập, xử lý để

phục vụ công việc cụ thể của một tổ chức thường được gọi là dữ liệu tác

nghiệp và hoạt động thu thập xử lý loại dữ liệu này được gọi là xử lý giao

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 19 -

dịch trực tuyến (OLTP).

Dữ liệu tại các CSDL tác nghiệp được lấy từ nhiều nguồn khác nhau

nên dễ bị nhiễu, hỗn tạp dẫn đến dữ liệu không sạch, không toàn vẹn. Do đó

việc kiểm tra dữ liệu, làm sạch dữ liệu phải được tiến hành ngay tại đây nhằm

bảo đảm tính toàn vẹn, tính đúng đắn của dữ liệu để phục vụ cho việc xây

dựng kho dữ liệu và trợ giúp ra quyết định sau này.

2.1.3.1. Những đặc điểm của hệ thống OLTP

• Trợ giúp số lượng lớn người sử dụng đồng thời trong việc thêm mới,

sửa đổi dữ liệu.

• Diễn tả trạng thái thay đổi bắt buộc của tổ chức nhưng không lưu lại

lịch sử của nó.

• Chứa đựng số lượng lớn các dữ liệu, bao gồm dữ liệu tổng quát để

kiểm soát thực hiện.

• Được điều chỉnh để đáp ứng nhanh việc thực hiện.

• Cung cấp cơ sở hạ tầng công nghệ để hỗ trợ các thao tác thường ngày

của một tổ chức.

Chính từ những đặc điểm này, nếu chúng ta sử dụng OLTP cho phân

tích trực tuyến thì thường gặp những khó khăn sau:

• Các yêu cầu phân tích, tổng hợp những khối lượng lớn dữ liệu ảnh

hưởng tới khả năng của hệ thống.

• Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức

tạp có thể chậm hoặc không ổn định, cung cấp sự hỗ trợ không đầy đủ

cho người sử dụng trong phân tích trực tuyến.

• Sự thay đổi dữ liệu thường xuyên gây trở ngại cho tính tin cậy của

thông tin phân tích.

• An ninh trở nên phức tạp hơn khi phân tích trực tuyến được kết hợp với

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 20 -

xử lý giao dịch trực tuyến.

Kho dữ liệu với nhiệm vụ tổ chức dữ liệu cho mục đích phân tích đã

giải quyết được các khó khăn trên bằng việc cung cấp những khóa chính, các

kho dữ liệu có thể:

• Kết hợp dữ liệu từ những nguồn dữ liệu hỗn tạp vào trong một cấu trúc

đơn thuần nhất.

• Tổ chức dữ liệu trong những cấu trúc đơn giản đáp ứng hiệu quả của

các yêu cầu có tính phân tích hơn là cho việc xử lý giao dịch.

• Chứa dữ liệu thay đổi, hợp lệ, chắc chắn và hợp lý hoá trong phân tích.

• Cung cấp dữ liệu ổn định.

• Được cập nhật định kỳ dữ liệu bổ sung hơn là những giao dịch thường

xuyên.

• Cung cấp một cơ sở dữ liệu được tổ chức phù hợp cho OLAP hơn là

cho OLTP.

2.1.3.2. Các công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn

Một yêu cầu quan trọng là sử dụng những dữ liệu đã được tinh chế từ

những hệ thống tác nghiệp và đưa chúng vào một khuôn dạng thích hợp cho

các ứng dụng thông tin. Những công cụ này thực hiện tất cả các công việc

chuyển đổi, tóm tắt những thay đổi quan trọng, những thay đổi về cấu trúc và

những cô đọng cần thiết cho sự chuyển đổi dữ liệu riêng rẽ thành thông tin có

thể được dùng trong những công cụ hỗ trợ quyết định. Nó sinh ra những

chương trình và kiểm soát những câu lệnh Cobol, ngôn ngữ JLC, Unix Script

và ngôn ngữ định nghĩa dữ liệu SQL cần thiết để chuyển dữ liệu vào kho dữ

liệu từ nhiều hệ thống tác nghiệp khác nhau. Ngoài ra nó cũng duy trì

Metadata. Các chức năng chính bao gồm:

• Loại bỏ những dữ liệu không mong muốn từ những cơ sở dữ liệu tác

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 21 -

nghiệp.

• Chuyển đổi thành những tên và những định nghĩa dữ liệu chung.

• Tính toán các tổng và dữ liệu đã được chuyển hóa.

• Thiết lập những mặc định cho các dữ liệu bị mất.

• Làm cho những thay đổi về định nghĩa dữ liệu nguồn trở nên thích hợp.

Những công cụ này có thể tiết kiệm được một cách đáng kể thời gian

và sức lực. Tuy nhiên nhiều công cụ có sẵn mới chỉ có ích cho việc tinh chế

những dữ liệu đơn giản do đó việc phát triển những thủ tục tinh chế có khả

năng tuỳ biến là cần thiết. Các công đoạn thực hiện bao gồm:

a. Trích lấy dữ liệu

Trích lấy dữ liệu là xử lý để lấy các dữ liệu đã được xác định trước ra

khỏi các hệ thống tác nghiệp và các nguồn dữ liệu ngoài. Việc trích lấy dữ

liệu nguồn có thể được hoàn thành bởi các công việc: đọc nguồn một cách

trực tiếp, đọc một ảnh của nguồn hoặc đọc Log.

Có một số công cụ và các trình tiện ích phục vụ cho quá trình trích lấy

dữ liệu. Các vấn đề xung quanh việc trích lấy dữ liệu bao gồm cơ cấu thời

gian trong đó dữ liệu được trích lấy và hiệu quả của việc trích lấy dữ liệu đó.

Với mọi phương thức trích chọn dữ liệu, Metadata luôn đóng vai trò

quan trọng trong quá trình xử lý. Metadata mẫu bao gồm: các định nghĩa của

hệ thống nguồn, các khuôn dạng vật lý, phương thức và bản liệt kê việc trích

lấy dữ liệu. Có thể dùng các công cụ hoặc thực hiện bằng tay để thu được

Metadata.

Có thể phát hiện ra những thay đổi được thực hiện đối với dữ liệu trong

hệ thống LS thông qua việc đọc Log. Những thay đổi đó là các hành động

chèn thêm, cập nhật và xoá cũng như thông tin của cột hoặc hàng liên quan.

Toàn bộ những thay đổi được ghi lại và sau đó được áp dụng theo trật tự mà

các thay đổi đó đã được thực hiện trong hệ thống tác nghiệp.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 22 -

b. Tinh chế dữ liệu

Dữ liệu sau khi được trích xuất sẽ được tinh chế thông qua các công

việc làm sạch (Cleaning), chuyển đổi (Transforming) và tích hợp. Các công

cụ đó có thể thực hiện trên một tập các thông số đã được xác định trước, trên

Logic mờ hoặc triển khai các thuật toán thông minh. Các thuật toán thông

minh Heuristic với tập luật mở rộng mô phỏng suy diễn của con người làm

cho việc điều tra tiến hành nhanh hơn.

Trước khi có thể chuyển đổi và tích hợp dữ liệu, nên thiết lập hệ thống

đo lường và chuẩn hoá các định/ngữ nghĩa. Mục đích của việc chuyển đổi và

tích hợp là chuyển dữ liệu thành thông tin và làm cho chúng dễ hiểu, dễ sử

dụng hơn đối với người sử dụng.

Các định nghĩa của dữ liệu phải chính xác, đầy đủ, tin cậy và có giá trị.

Nếu dữ liệu đã được đưa vào kho dữ liệu không đúng thì sau đó phải quan

tâm tới việc xem xét lại. Việc này liên quan nhiều tới việc tổ chức. Các câu

hỏi cần đặt ra trước khi thay đổi cái cũ là: các thay đổi có hợp pháp và đúng

quy cách không? Có thể đáp ứng được những thay đổi này không? Thay đổi

có phải là lâu dài không? Nếu câu trả lời là có cho cả 3 câu hỏi trên thì thay

đổi đó là có thể thực hiện được.

2.1.4. Cơ sở dữ liệu của kho dữ liệu

Cơ sở dữ liệu tập trung là một nền tảng cơ bản của môi trường kho dữ

liệu. Cơ sở dữ liệu này hầu hết được cài đặt dựa trên công nghệ của Hệ thống

quản trị cơ sở dữ liệu quan hệ (RDBMS). Tuy nhiên việc cài đặt một kho dữ

liệu dựa trên kỹ thuật của RDBMS truyền thống bị ràng buộc bởi một thực tế

là việc cài đặt RDBMS truyền thống đã được tối ưu hoá đối với việc xử lý cơ

sở dữ liệu giao dịch. Những thuộc tính tất yếu của kho dữ liệu như kích cỡ rất

lớn, xử lý các truy vấn đặc biệt và sự cần thiết tạo ra những khung nhìn linh

hoạt cho người sử dụng bao gồm việc tập hợp, kết hợp nhiều bảng và khoan

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 23 -

sâu (Drill_down) trở thành những định hướng cho các cách tiếp cận khác

nhau tới cơ sở dữ liệu của kho dữ liệu. Những cách tiếp cận đó bao gồm:

• Thiết kế CSDL quan hệ song song.

• Một cách tiếp cận mới để làm tăng tốc độ RDBMS truyền thống là cách

sử dụng một cấu trúc chỉ số bỏ qua kiểm tra các bảng quan hệ.

• Các cơ sở dữ liệu đa chiều dựa trên công nghệ cơ sở dữ liệu phổ biến

hoặc được cài đặt sử dụng trên nền RDBMS quen thuộc. Cơ sở dữ liệu

đa chiều được thiết kế để khắc phục những giới hạn tồn tại trong kho

dữ liệu gây ra do bản chất của mô hình dữ liệu quan hệ. Cách tiếp cận

này gắn liền với các công cụ xử lý phân tích trực tuyến thực hiện như

một đối tác của các kho dữ liệu đa chiều. Các công cụ này gộp lại thành

một nhóm công cụ truy vấn, tạo báo cáo, phân tích và đào xới dữ liệu.

2.1.5. Kho dữ liệu

2.1.5.1. Định nghĩa

“Kho dữ liệu (Data Warehouse) là tập hợp của các CSDL tích hợp,

hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định mà

mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể”.[1]

Kho dữ liệu thường có dung lượng rất lớn, tới hàng trăm Gigabyte hay

thậm chí hàng Terabyte dữ liệu được tổ chức, lưu trữ và phân tích phục vụ

cho việc cung cấp các dịch vụ thông tin liên quan đến yêu cầu của một tổ

chức nào đó. Kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính

thông tin cao. Các hệ thống thông tin thu thập, xử lý dữ liệu loại này còn gọi

là Hệ xử lý phân tích trực tuyến (OLAP).

Một kho lưu trữ dữ liệu thường được sử dụng như cơ sở cho một hệ

thống hỗ trợ quyết định. Nó được thiết kế để khắc phục những vấn đề vấp

phải khi một tổ chức cố gắng thực hiện chiến lược phân tích có sử dụng cùng

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 24 -

một cơ sở dữ liệu đã được sử dụng cho xử lý giao dịch trực tuyến.

2.1.5.2. Đặc điểm dữ liệu trong kho dữ liệu

Kho dữ liệu là một tập hợp dữ liệu có những tính chất sau:

a. Dữ liệu có tính tích hợp

Một kho dữ liệu là một khung nhìn thông tin ở mức toàn thể, thống

nhất các khung nhìn khác nhau thành một khung nhìn của một chủ đề. Ví dụ,

hệ thống OLTP truyền thống được xây dựng trên một vùng phục vụ việc kinh

doanh. Một hệ thống bán hàng và Marketing có thể có chung một dạng thông

tin về khách hàng, nhưng các vấn đề về tài chính thì lại cần một khung nhìn

khác. Một kho dữ liệu sẽ có một khung nhìn toàn thể về một khách hàng,

khung nhìn đó bao gồm các phần dữ liệu khác nhau từ tài chính đến

Marketing.

Tính tích hợp thể hiện ở chỗ dữ liệu tập hợp trong kho dữ liệu được thu

thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.

b. Dữ liệu gắn thời gian và có tính lịch sử

Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu mang tính

lịch sử. Dữ liệu được lưu trữ thành một loạt các Snapshort, mỗi Snapshort

phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một

khung nhìn của một vùng chủ đề trong một giai đoạn. Do vậy nó cho phép

khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau.

Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn

nhất và cung cấp đặc trưng về thời gian cho dữ liệu.

c. Dữ liệu chỉ đọc

Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc, có thể được kiểm tra và

không được sửa đổi bởi người sử dụng.

d. Dữ liệu không biến động

Thông tin trong kho dữ liệu được tải vào sau khi dữ liệu trong hệ thống

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 25 -

điều hành được cho là quá cũ. Không biến động thể hiện ở chỗ: dữ liệu được

lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng

dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin

về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình

nghiệp vụ phân tích, dự báo.

e. Dữ liệu tổng hợp và chi tiết

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ

liệu. Dữ liệu tác nghiệp là thông tin mức thấp nhất cho một tổ chức. Dữ liệu

tác nghiệp thuần tuý không được lưu trữ trong kho dữ liệu. Dữ liệu tổng hợp

được tích lại qua nhiều giai đoạn khác nhau.

2.1.6. Kho dữ liệu chủ đề (Datamart)

Kho dữ liệu chủ đề (Datamart - DM) là CSDL có những đặc điểm

giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một

lĩnh vực, một chuyên ngành. Các Datamart có thể được hình thành từ một tập

con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau

khi xây dựng xong các Datamart có thể được kết nối, tích hợp lại với nhau tạo

thành kho dữ liệu.

Datamart là một kho dữ liệu thứ cấp gồm các dữ liệu tích hợp của kho

dữ liệu. Datamart được hướng tới một phần của dữ liệu, thường được gọi là

một vùng chủ đề (SA) được tạo ra dành cho một nhóm người sử dụng. Dữ

liệu trong Datamart cho thông tin về một chủ đề xác định, không phải về toàn

bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện thường

xuyên nhất của Datamart là một kho dữ liệu riêng rẽ theo phương diện vật lý,

thường được lưu trữ trên một Server riêng trong một mạng cục bộ phục vụ

cho một nhóm người nhất định. Đôi khi Datamart với công nghệ OLAP tạo ra

các quan hệ theo dạng hình sao đặc biệt hoặc những siêu khối (Hypercube) dữ

liệu cho việc phân tích của một nhóm người có cùng mối quan tâm trên một

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 26 -

phạm vi dữ liệu. Có thể chia Datamart ra làm 2 loại: Datamart độc lập và

Datamart phụ thuộc.

Datamart phụ thuộc chứa những dữ liệu được lấy từ kho dữ liệu và

những dữ liệu này sẽ được trích lọc, tinh chế, tích hợp lại ở mức cao hơn để

phục vụ một chủ đề nhất định.

Datamart độc lập không giống như Datamart phụ thuộc, nó được xây

dựng trước kho dữ liệu và dữ liệu được lấy từ các nguồn dữ liệu tác nghiệp.

Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những

điểm yếu. Mỗi Datamart độc lập có cách tích hợp riêng do đó dữ liệu từ nhiều

Datamart khó đồng nhất với nhau.

Datamart thể hiện hai vấn đề: tính ổn định khi một Datamart nhỏ ban

đầu lớn lên nhanh chóng theo nhiều chiều và sự tích hợp dữ liệu. Vì vậy khi

thiết kế Datamart phải chú ý tới tính ổn định của hệ thống, sự đồng nhất của

dữ liệu và vấn đề về khả năng quản lý.

2.2. Sử dụng kho dữ liệu

Kho dữ liệu được sử dụng theo ba cách chính:

• Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai

thác các thông tin bằng các công cụ vấn đáp và báo cáo. Tuy nhiên, nhờ

có việc xuất ra, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng

các dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp nâng

cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo cáo).

Bằng cách tạo ra một tầng ẩn giữa người dùng và CSDL, các dữ liệu

đầu vào của kỹ thuật này được đặt vào một nguồn duy nhất. Việc hợp

nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và biểu

diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự

chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các CSDL khác

nhau, tránh cho người dùng khỏi những câu lệnh phức tạp. Tuy nhiên

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 27 -

đây mới chỉ là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh

và chính xác hơn chứ chưa đưa ra được dữ liệu “tri thức”.

• Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến

(OLAP). Trong khi ngôn ngữ truy vấn chuẩn SQL và các công cụ làm

báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL thì

phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả

thuyết đúng hay sai. Tuy nhiên phân tích trực tuyến lại không có khả

năng đưa ra được các giả thuyết. Hơn nữa, kích thước quá lớn và tính

chất phức tạp của kho dữ liệu làm cho nó rất khó có thể sử dụng cho

những mục đích như đưa ra các giả thuyết từ các thông tin mà chương

trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyết

giải thích được hành vi của một nhóm khách hàng).

• Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả

thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên thực nghiệm

cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ

liệu lớn trong kho dữ liệu. Phương pháp thống kê tuy ra đời đã lâu

nhưng không có gì cải tiến để phù hợp với sự phát triển của dữ liệu.

Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa được

khai thác và thậm chí được lưu chủ yếu trong các kho dữ liệu không

trực tuyến (Offline). Điều này đã tạo nên một lỗ hổng lớn trong việc hỗ

trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra và

việc khai thác dữ liệu đó. Trong khi đó càng ngày người ta càng nhận

thấy rằng nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài

nguyên quí giá. Từ đó người ta đã đưa ra một phương pháp mới đáp

ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn, đó

chính là công nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng

dụng chính thứ ba của kho dữ liệu.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 28 -

2.3. Phương pháp xây dựng kho dữ liệu

Xây dựng kho dữ liệu vừa là một tiến trình công việc và cũng đồng thời

là một kiến trúc nhằm thực hiện các nội dung như: lựa chọn, chuyển đổi, lưu

chuyển, bảo toàn tính toàn vẹn, tích hợp, làm sạch dữ liệu, đưa dữ liệu từ

nhiều nguồn dữ liệu tác nghiệp vào hệ thống quản lý cơ sở dữ liệu để phục vụ

các quá trình ra quyết định. Kiến trúc của các kho dữ liệu cung cấp nhiều khả

năng mềm dẻo, nhiều khả năng mở rộng để phục vụ cho các ứng dụng hiện

có cũng như cho các ứng dụng mới trong tương lai. Kho dữ liệu gồm các

thành phần thiết yếu sau:

• Các nguồn dữ liệu tác nghiệp ODS (Operational Data Sources).

• Chuyển đổi và xuất ra dữ liệu (Data Conversion and Extraction).

• Tóm lược và làm giầu dữ liệu (Data Sumaization & Data Enrichment).

• Hệ thống quản lý các CSDL của kho dữ liệu (Database Management

System - DBMS).

• Quản lý các siêu dữ liệu.

• Các công cụ (Tools) truy nhập và phân tích.

Quá trình xây dựng kho dữ liệu có thể bắt đầu bằng việc xây dựng các

Datamart, có nghĩa là sau khi xây dựng xong các Datamart ta tiến hành kết

nối, tích hợp chúng với nhau tạo thành kho dữ liệu. Theo cách này, Datamart

chính là mô hình và là bước đầu tiên của quá trình xây dựng kho dữ liệu.

Cách thứ hai, ta có thể xây dựng kho dữ liệu trước sau đó tạo ra các Datamart.

Mỗi phương pháp đều có thuận lợi và khó khăn của nó, tùy điều kiện cụ thể ta

lựa chọn hay kết hợp các phương pháp cho phù hợp.

Phương pháp phân tích, thiết kế và quá trình xây dựng kho dữ liệu có

thể được chia thành các giai đoạn, trong mỗi giai đoạn có các bước:

- Giai đoạn khảo sát

Bước 1: Xác định chiến lược và xây dựng kế hoạch

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 29 -

Bước 2: Khảo sát, đánh giá hiện trạng hệ thống

- Giai đoạn phân tích thiết kế

Bước 3: Phân tích, thiết kế hệ thống và xây dựng mẫu thử nghiệm

(Prototype)

- Giai đoạn xây dựng, phát triển hệ thống

Bước 4: Triển khai xây dựng hệ thống

Bước 5: Khai thác và duy trì hệ thống

2.4. Thiết kế CSDL cho kho dữ liệu

Một vài phương pháp và công cụ phục vụ tốt cho việc tạo ra các hệ

thống tác nghiệp gần như là không phù hợp với những yêu cầu khác nhau của

kho dữ liệu. Điều này rất đúng trong các hệ thống quản trị cơ sở dữ liệu. Hệ

thống OLTP truyền thống được thiết kế một cách đơn giản không phù hợp với

những yêu cầu của phương pháp kho dữ liệu. Những dự án dùng phương pháp

kho dữ liệu buộc phải lựa chọn giữa một mô hình dữ liệu và một giản đồ dữ

liệu liên quan trực quan cho việc phân tích nhưng nghèo nàn về thể hiện. Một

giản đồ - mô hình là cách thực hiện tốt hơn nhưng không phù hợp lắm cho

việc phân tích. Khi phương pháp kho dữ liệu được tiếp tục phát triển thì

những cách tiếp cận mới cho việc thiết kế giản đồ dữ liệu phù hợp hơn với

việc phân tích được hình thành và đó là điều cốt yếu dẫn đến thành công của

phương pháp kho dữ liệu. Một giản đồ được chấp nhận sử dụng rộng rãi cho

phương pháp kho dữ liệu là giản đồ hình sao.

2.4.1. Giản đồ hình sao (Star)

Việc phân tích, dự báo đòi hỏi những giản đồ CSDL chủ yếu tập trung

vào những truy vấn mà bản chất là đa chiều và hướng mảng (Array-oriented).

Như vậy, công nghệ CSDL chính của kho dữ liệu là RDBMS. Ta sẽ xem xét

việc thiết kế giản đồ dữ liệu khi gắn liền nó với công nghệ CSDL quan hệ.

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006

- 30 -

Giản đồ hình sao được đưa ra lần đầu tiên bởi Raph Kimball như là một

lựa chọn thiết kế CSDL cho kho dữ liệu. Trong giản đồ hình sao, dữ liệu được

xác định và phân loại theo 2 kiểu: sự kiện (bảng Fact: đối tượng trung tâm) và

phạm vi (các bảng Dimension: các bảng liên kết). Trong giản đồ hình sao chỉ

có một bảng liên quan trực tiếp tới hầu hết các bảng còn lại đó là bảng Fact và

là bảng chứa yếu tố cốt lõi cần được phân tích. Nó được gọi là giản đồ hình

sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi

các phạm vi liên quan, rất giống với các điểm của một ngôi sao. Các sự kiện

là các đại lượng số của công việc. Các phạm vi là các bộ lọc hoặc các ràng

buộc của những sự kiện này. Ví dụ: thông tin về khách hàng như tên, địa chỉ

là một phạm vi, trong khi đó thông tin bán hàng cho khách hàng đó là một sự

kiện.

Hình 2.2. Giản đồ hình sao và hình tuyết rơi

Với giản đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những

chức năng của CSDL đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối

Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006