Khóa luận Áp dụng phương pháp trích chọn thuộc tính đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Phƣơng Nhung

ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC

TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ

PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Phƣơng Nhung

ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC

TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ

PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hƣớng dẫn: TS. Nguyễn Hà Nam

HÀ NỘI - 2009

Lời cảm ơn

“Để hoàn thành khóa luận này, tôi xin gửi lời cảm ơn chân thành tới quý thầy cô

trong trường Đại học Công Nghệ - ĐHQGHN đã tận tình chỉ bảo tôi trong suốt bốn năm

học đại học. Tôi cũng xin cảm ơn sự hướng dẫn nhiệt tình của thầy Nguyễn Hà Nam,

cùng sự giúp đỡ của anh Đặng Tất Đạt – sinh viên cao học khoa Toán Tin trường Đại

học Tự Nhiên, ĐHQGHN.

Tôi cũng thầm biết ơn sự ủng hộ của gia đình, bạn bè – những người thân yêu luôn

luôn là chỗ dựa tinh thần vững chắc cho tôi.”

Hà Nội, tháng 05 năm 2009.

Sinh viên

Trần Phương Nhung

Tóm tắt khóa luận

Trong khóa luận này tôi áp dụng thuật toán di truyền (Genetic Algorithm) để bước

đầu cải tiến hiệu quả phân lớp của phương pháp minimax probability machine (MPM).

Phần đầu tôi xin giới thiệu tổng quan về khái niệm khai phá dữ liệu. Tiếp đó, tôi sẽ trình

bày về cơ sở lý thuyết của thuật toán di truyền và phương pháp phân lớp minimax

probability machine. Cuối cùng, tôi sẽ mô tả chi tiết về quá trình xây dựng hệ thống có

ứng dụng thuật toán di truyền trong phân lớp minimax probability machine để chuẩn đoán

bệnh ung thư. Mô hình phân lớp mới này sẽ được chạy thử trên một số cơ sở dữ liệu lớn

và đưa ra những số liệu thống kê để có thể thấy được hiệu quả của hệ thống so với

phương pháp phân lớp chỉ sử dụng minimax probability machine.

1

Mục lục

Giới thiệu.........................................................................................................................8

Chương 1: Giới thiệu về khai phá dữ liệu....................................................................10

1.1. Khai phá dữ liệu là gì?......................................................................................10

1.2. Tại sao phải tiến hành khai phá dữ liệu?...........................................................10

1.3. Quá trình khai phá dữ liệu ................................................................................11

1.4. Kiến trúc điển hình của một hệ khai phá dữ liệu...............................................12

1.5. Các bài toán khai phá dữ liệu điển hình............................................................13

1.6. Các lĩnh vực liên quan đến khai phá dữ liệu .....................................................15

1.7. Các ứng dụng điển hình của khai phá dữ liệu ...................................................15

1.8. Các thách thức với khai phá dữ liệu..................................................................16

1.9. Kết luận............................................................................................................16

Chương 2: Trích chọn thuộc tính phù hợp..................................................................17

2.1. Giới thiệu .........................................................................................................17

2.2. Mô hình trong bài toán trích chọn.....................................................................18

2.2.1. Các mô hình trong trích chọn....................................................................18

2.2.2. Đánh giá hai mô hình Filter và Wrapper...................................................19

2.2.2.1.

2.2.2.2.

Mô hình Filter....................................................................................19

Mô hình Wrapper...............................................................................19

2.3. Một số kỹ thuật xử lý........................................................................................20

2.3.1. Bộ sinh tập con (Feature Subset Generator)..............................................20

2.3.2. Bộ đánh giá tập con đặc trưng (Feature Subset Evaluator).......................21

2.3.3. Thuật toán học điều khiển (Central machine learning algorithm)..............22

2.4. Kết luận............................................................................................................22

2

Chương 3: Genetic algorithms .....................................................................................23

3.1. Giới thiệu...........................................................................................................23

3.2. Động lực ............................................................................................................23

3.3. Thuật giải di truyền ............................................................................................24

3.3.1. Nội dung thuật toán .......................................................................................24

3.3.2. Thể hiện các giả thuyết ..................................................................................26

3.3.3. Các toán tử di truyền .....................................................................................27

3.3.4. Hàm thích nghi và sự chọn lọc.......................................................................29

Chương 4: Minimax probability machine ...................................................................31

4.1. Giới thiệu...........................................................................................................31

4.2. Nội dung thuật toán............................................................................................31

4.3. Ưu điểm và nhược điểm của minimax probability machine ................................32

4.4. Các phiên bản cải tiến của minimax probability machine ...................................32

4.4.1. Minimum error minimax probability machine (MEMPM) ..............................32

4.4.2. Biased minimax probability machine (BMPM)...............................................34

Chương 5: Phương pháp đề nghị.................................................................................35

5.1. Tổng quan về phương pháp ..............................................................................35

5.1.1. Mô tả phương pháp...................................................................................35

5.1.2. Mô hình bài toán.......................................................................................36

5.2. Mô tả dữ liệu sử dụng.......................................................................................36

5.3. Các module trong hệ thống và giao diện của chương trình................................37

5.3.1. Chi tiết các module của Genetic Algorithm ...............................................37

5.3.2. Chi tiết các module của minimax probability machine...............................41

5.4. Thực nghiệm và phân tích kết quả ....................................................................43

5.4.1. Phương pháp đánh giá...................................................................................43

5.4.2. Phân tích kết quả ...........................................................................................44

3

5.4.2.1. Kết quả thực hiện phân lớp trên bộ dữ liệu ban đầu.................................44

5.4.2.2. Kết quả thực hiện phân lớp trên bộ dữ liệu giảm chiều (outData.mat)......45

5.4.2.3. So sánh kết quả 4 trường hợp kiểm thử....................................................51

5.4.2.4. Kết luận...................................................................................................52

Chương 6: Tổng kết......................................................................................................53

4

Danh sách các hình

Hình 1.1: Quá trình phát hiện tri thức trong cơ sở dữ liệu [2]. ........................................12

Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu [2].....................................13

Hình 1.3: Tính đa/ liên ngành của khai phá dữ liệu [2]...................................................15

Hình 2.1: Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp [6]. .........17

Hình 2.2: Mô hình Filter [6]...........................................................................................18

Hình 2.3: Mô hình Wrapper [6]......................................................................................18

Hình 3.1: Các toán tử chung cho thuật giải di truyền [20]...............................................28

Hình 4.1: Mô tả sự khác nhau giữa MEMPM (h.1) và MPM (h.2) với cùng xác suất tiên

nghiệm cho 2 lớp. [17]....................................................................................................34

Hình 5.1: Mô hình kết hợp thuật toán di truyền và phương pháp phân lớp MPM............36

Hình 5.2: 6 bước thực hiện để tìm ra chromosome tốt nhất.............................................38

Hình 5.3: Giá trị của hàm đánh giá tại mỗi thế hệ...........................................................39

Hình 5.4: Hình ảnh biểu diễn hàm đánh giá của GA tại mỗi thế hệ.................................40

Hình 5.5: Kết quả quá trình tối ưu tập thuộc tính của dữ liệu ban đầu.............................41

Hình 5.6: Giao diện kết quả của bộ phân lớp minimax probability machine. ..................42

Hình 5.7: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp

1)....................................................................................................................................46

Hình 5.8: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp

2)....................................................................................................................................47

Hình 5.9: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp

3)....................................................................................................................................49

Hình 5.10: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường

hợp 4). ............................................................................................................................50

Hình 5.11: So sánh kết quả phân lớp trung bình trong 4 trường hợp kiểm thử và kết quả

phân lớp của dữ liệu gốc.................................................................................................51

5

Danh sách các bảng

Bảng 3.1: Thuật giải di truyền mẫu. [20] ........................................................................24

Bảng 5.1: Mô tả bảng dữ liệu sử dụng (file Stomach_Full.mat)......................................37

Bảng 5.2: Kết quả phân lớp trên bộ dữ liệu ban đầu .......................................................44

Bảng 5.3: Kết quả phân lớp trong trường hợp 1..............................................................45

Bảng 5.4: Kết quả phân lớp trong trường hợp 2..............................................................46

Bảng 5.5: Kết quả phân lớp trong trường hợp 3..............................................................48

Bảng 5.6: Kết quả phân lớp trong trường hợp 4..............................................................49

6

Bảng các từ viết tắt

Biased Minimax Probability Machine

BMPM

GA

Genetic Algorithm

Genetic Algorithms

Gas

Las Vegas

LV

Matlab

Matrix Laboratory

MPM

Minimax Probability Machine

Minimum Error Minimax Probability Machine

Online Analytical Processing

MEMPM

OLAP

7

Giới thiệu

Những năm gần đây, các cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho

con người. Song hành cùng sự phát triển nhanh chóng của công nghệ thông tin và những

ứng dụng của nó trong đời sống, kinh tế và xã hội, lượng dữ liệu thu thập ngày càng nhiều

theo thời gian, dẫn đến việc xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích

thước lớn. Trong xã hội hiện đại, thông tin được coi như sức mạnh và là yếu tố quyết định

thành công trong mọi lĩnh vực, do đó việc tìm ra thông tin hữu ích trong khối dữ liệu

khổng lồ được xem như mục tiêu hàng đầu của mọi tổ chức và cá nhân.

Trong khóa luận này, tôi sẽ ứng dụng kỹ thuật chọn lựa tập các thuộc tính có ích trong

bài toán trích chọn để nhằm cải thiện hiệu quả phân lớp dữ liệu, là nền tảng cho hệ thống

chuẩn đoán bệnh ung thư. Hệ thống này sẽ được huấn luyện với tập dữ liệu về các bệnh

nhân có từ trước và khi có dữ liệu của bệnh nhân mới, hệ thống sẽ tự động đưa ra chuẩn

đoán người đó có bị bệnh hay không? Tôi sử dụng phương pháp phân lớp Minimax

Probability Machine (MPM) kết hợp cùng thuật toán di truyền (Genetic Algorithm) để

xây dựng hệ thống này. Với mục đích làm tăng độ chính xác của quá trình phân lớp dữ

liệu và giảm thời gian huấn luyện của bộ phân lớp, tôi sử dụng thuật toán di truyền để lựa

chọn tập thuộc tính tốt nhất của tập dữ liệu ban đầu nhằm tìm ra bộ dữ liệu phù hợp nhất

cho đầu vào của bộ phân lớp MPM. Kết quả thực nghiệm đã chứng minh rằng phương

pháp phân lớp sử dụng thuật toán di truyền để tối ưu tập thuộc tính cho kết quả tốt hơn

phương pháp truyền thống.

Nội dung chính của khóa luận bao gồm sáu chương, với nội dung cụ thể như sau:

Chương 1 tập trung mô tả về khai phá dữ liệu (data mining), giới thiệu những bài toán

điển hình trong khai phá dữ liệu cũng như những ứng dụng rộng rãi của lĩnh vực này.

Cuối cùng là những thách thức đặt ra cho quá trình khai phá dữ liệu.

Chương 2 có nội dung chủ yếu trình bày về khái niệm trích chọn thuộc tính phù hợp,

những mô hình trích chọn điển hình và một số kỹ thuật xử lý trong quá trình trích chọn.

Chương 3 giới thiệu về cơ sở lý thuyết cũng như những bước thực hiện của thuật toán di

truyền. Thuật toán này được sử dụng để tìm ra tập các thuộc tính phù hợp nhất với thuật

toán MPM sẽ được trình bày ở chương sau.

8

Chương 4 sẽ mô tả phương pháp phân lớp minimax probability machine. Phân tích

những mặt mạnh và yếu của phương pháp này để đề ra những cải tiến nhằm nâng cao hiệu

quả phân lớp của minimax probability machine.

Chương 5 trình bày chi tiết quá trình xây dựng mô hình dự kiến của tôi bao gồm phân lớp

minimax probability machine kết hợp với thuật toán di truyền. Phần còn lại của chương

dùng để mô tả quá trình đánh giá chất lượng, từ đó đưa ra những phân tích kỹ thuật và kết

luận về hiệu quả của mô hình.

Chương 6 tóm tắt lại những kết quả đã đạt được của khóa luận, đồng thời nêu ra những

mặt còn hạn chế trong phương pháp đề nghị và những hướng nghiên cứu có thể trong

tương lai nhằm cải tiến hiệu quả của phương pháp này.

9

Chương 1: Giới thiệu về khai phá dữ liệu

1.1. Khai phá dữ liệu là gì?

Có khá nhiều định nghĩa về khai phá dữ liệu, nhưng định nghĩa đơn giản nhất là khai

phá dữ liệu là việc trích rút thông tin hay tri thức mới và có ích từ nguồn dữ liệu khổng lồ

(Frawley, Piatetski-Shapiro và Matheus) [1].

Ngoài ra, khai phá dữ liệu còn có thể hiểu là trích rút các thông tin có ích từ những dữ

liệu không tường minh, hoặc trích rút lấy những thông tin không biết trước và tiềm tàng

trong dữ liệu. Cũng có thể hiểu, khai phá dữ liệu là việc phân tích khảo sát một cách tỉ mỉ

số lượng lớn dữ liệu bằng các phương pháp tự động hoặc bán tự động nhằm tìm ra các

thông tin hay tri thức có ích.

Có thể nhận xét rằng, khái niệm khai phá dữ liệu là khá rộng lớn, nhưng không phải

tất cả mọi công việc liên quan đến dữ liệu đều được coi là khai phá dữ liệu, chẳng hạn

như những việc xử lý truy vấn đơn giản như tra cứu một số điện thoại, hay thống kê ra

những học sinh giỏi của một lớp, thì không thể coi đó là khai phá dữ liệu. Nhưng những

công việc như gom nhóm các tài liệu trả về từ máy tìm kiếm theo từng ngữ cảnh thì lại

được xem là khai phá dữ liệu. Chính vì sự phong phú và đa dạng này mà dẫn đến thực

trạng là tồn tại một số quan niệm khác nhau về chuyên ngành nghiên cứu gần gũi nhất với

lĩnh vực khai phá dữ liệu. Tài liệu này của tôi tán thành quan điểm về khai phá dữ liệu của

Frawley, Piatetski-Shapiro và Matheus [1].

1.2. Tại sao phải tiến hành khai phá dữ liệu?

Trong những năm gần đây, khai phá dữ liệu trở thành một lĩnh vực nghiên cứu rộng

rãi trong ngành công nghiệp thông tin, nguyên nhân chủ yếu là do khối lượng khổng lồ

của dữ liệu mà con người tạo ra, đi kèm với nó là sự cần thiết của việc rút trích tri thức từ

những dữ liệu đó. Thông tin và tri thức có thể được áp dụng vào nhiều lĩnh vực từ phân

tích thị trường tài chính, phát hiện giả mạo, cho đến điều khiển sản xuất và nghiên cứu

khoa học.

Nhìn vào hai lĩnh vực sinh ra nhiều dữ liệu nhất đó là thương mại và khoa học. Trong

lĩnh vực thương mại, hàng ngày hàng giờ con người đang tạo ra, thu thập và lưu trữ lại rất

nhiều dữ liệu, như dữ liệu web, dữ liệu về thương mại điện tử, dữ liệu về việc thanh toán

tại các cửa hàng và các dữ liệu thanh toán trong các tài khoản… Tính cạnh tranh trong

10

kinh doanh là rất cao, cho nên việc phân tích dữ liệu để cung cấp dịch vụ tốt hơn, có nhiều

tiện ích cho khách hàng, và đón bắt chính xác nhu cầu của khách hàng rất quan trọng.

Trong lĩnh vực khoa học, dường như lượng dữ liệu sinh ra và thu thập lại còn lớn hơn

nhiều, lên tới hàng GB/giờ, chẳng hạn như dữ liệu từ vệ tinh, từ các ảnh chụp vũ trụ và từ

các mô phỏng thử nghiệm khoa học. Khai phá dữ liệu giúp các nhà khoa học trong việc

phân lớp dữ liệu và hỗ trợ trong việc đưa ra các quyết định.

Cùng với sự phát triển của khoa học, của ngành cơ sở dữ liệu không thể không kể đến

là sự phát triển của ngành công nghiệp máy tính, người ta đã tạo ra những phương tiện

lưu trữ lớn hơn, những máy tính rẻ hơn, tốc độ cao hơn, trợ giúp cho quá trình thu thập dữ

liệu cũng như khai phá chúng.

Trong quá trình tác nghiệp, người ta thường phải đưa ra các quyết định, tuy nhiên, với

lượng dữ liệu khổng lồ như thế, người ta không thể sử dụng hết, hoặc nếu muốn sử dụng

thì phải mất thời gian quá nhiều, như vậy có nguy cơ đánh mất cơ hội. Do đó, việc sử

dụng máy tính để khai phá dữ liệu nhằm giúp đỡ con người trong công việc càng được

thúc đẩy mạnh mẽ, làm sao với các dữ liệu đã thu thập được có thể đưa ra hành động

mang lại lợi ích tối đa.

1.3. Quá trình khai phá dữ liệu

Ở một góc độ nào đó, khái niệm khai phá dữ liệu và khai phá tri thức nhiều khi được

coi là một. Tuy nhiên, nếu xét kỹ thì khai phá dữ liệu chỉ là một khâu quan trọng trong

khai phá tri thức [1]. Một quá trình phát hiện tri thức trong cơ sở dữ liệu bao gồm các giai

đoạn chính sau [2]:

(1) Làm sạch dữ liệu (Data Cleaning): Khử nhiễu và các dữ liệu mâu thuẫn.

(2) Tích hợp dữ liệu (Data Integration): Kết hợp nhiều nguồn dữ liệu khác nhau.

(3) Lựa chọn dữ liệu (Data Selection): Chắt lọc lấy những dữ liệu liên quan đến nhiệm

vụ phân tích sau này.

(4) Biến đổi dữ liệu (Data Transformation): Biến đổi dữ liệu thu được về dạng thích

hợp cho quá trình khai phá.

(5) Khai phá dữ liệu (Data Mining): Sử dụng những phương pháp thông minh để khai

thác dữ liệu nhằm thu được các mẫu mong muốn.

(6) Đánh giá kết quả (Pattern Evaluation): Sử dụng các độ đo để đánh giá kết quả thu

được.

11

(7) Biểu diễn tri thức (Knowledge Presentation): Sử dụng các công cụ biểu diễn trực

quan để biểu diễn những tri thức khai phá được cho người dùng.

Đánh giá &

Trình diễn

Tri thức

Khai phá

dữ liệu

Mẫu

Lựa chọn &

Chuyển dạng

Dữ liệu

chuyển

dạng

Kho dữ

liệu

Làm sạch &

Tích hợp

Dữ liệu

Hình 1.1: Quá trình phát hiện tri thức trong cơ sở dữ liệu [2].

Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi

từ kết quả của các giai đoạn sau.

1.4. Kiến trúc điển hình của một hệ khai phá dữ liệu

Trong kiến trúc điển hình của một hệ khai phá dữ liệu (hình 1.2), các nguồn dữ liệu

cho hệ thống khai phá dữ liệu bao gồm cơ sở dữ liệu, hoặc kho dữ liệu, hoặc World Wide

Web, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu dữ liệu nói trên.

Cơ sở tri thức bao chứa các tri thức hiện có về miền ứng dụng, được sử dụng trong

thành phần khai phá dữ liệu để tăng tính hiệu quả của thành phần này. Một số tham số của

thuật toán khai phá dữ liệu tương ứng sẽ tinh chỉnh theo tri thức miền sẵn có từ cơ sở tri

thức trong hệ thống. Cơ sở tri thức còn được sử dụng trong việc đánh giá các mẫu đã khai

phá được xem chúng có thật sự đúng đắn hay không, trong đó có đối chứng với các tri

12

thức đã có trong cơ sở tri thức. Nếu mẫu khai phá được thực sự là hấp dẫn thì được bổ

sung vào cơ sở tri thức để phục vụ cho hoạt động tiếp theo của hệ thống.

Giao diện người dùng

Đánh giá mẫu khai phá được

Cơ sở tri

thức

Thành phần khai phá dữ liệu

Phục vụ Cơ sở dữ liệu/ Kho dữ

Làm sạch, tích hợp và chọn lựa dữ liệu

Kiểu kho

chứa thông tin

Cơ sở dữ

liệu

World

Wide

Kho dữ

liệu

Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu [2].

1.5. Các bài toán khai phá dữ liệu điển hình

Hai mục tiêu chủ yếu của khai phá dữ liệu là dự báo (prediction) và mô tả

(description). Dự báo dùng một số biến hoặc trường trong trong cơ sở dữ liệu để dự đoán

về giá trị chưa biết hoặc về giá trị sẽ có trong tương lai của các biến. Mô tả hướng tới việc

tìm ra các mẫu mô tả dữ liệu.

Dự báo và mô tả được thể hiện thông qua các bài toán cụ thể sau [2]:

 Mô tả khái niệm (Summarization)

Mục đích của bài toán là tìm ra các đặc trưng và tính chất của các khái niệm. Điển

hình cho bài toán này là các bài toán như tổng quát hóa, tóm tắt, các đặc trưng dữ liệu

ràng buộc.

13

 Quan hệ phụ thuộc (Dependency relationship)

Một trong những vấn đề của phát hiện mối quan hệ là làm rõ ràng và nguyên nhân.

Bài toán tìm luật kết hợp là một đại diện điển hình, thực hiện việc phát hiện ra mối

quan hệ giữa các thuộc tính (các biến), có dạng ở phụ thuộc hàm trong cơ sở dữ liệu

quan hệ.

 Phân lớp (Classification)[5]

Phân lớp còn được gọi là học máy có giám sát (supervised learning). Với một tập

các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân

loại sẽ học ra bộ phân loại (classifier) dùng để phân dữ liệu mới vào trong những lớp

(còn gọi là loại) đã được định trước. Một số phương pháp điển hình là cây quyết định,

luật phân lớp, mạng neuron.

 Phân cụm (Clustering)

Phân cụm còn được gọi là học máy không giám sát (unsupervised learning), thực

hiện việc nhóm dữ liệu thành các lớp mới để có thể phát hiện các mẫu phân bố. Phân

cụm chỉ là bái toán mô tả hướng tới việc nhận biết một tập hữu hạn các loại hoặc các

cụm để mô tả dữ liệu. Các loại (cụm) có thể rời nhau và toàn phần (tạo nên phân

hoạch) hoặc chồng chéo lên nhau [3].

 Phân đoạn (Segmentation)

Về bản chất phân đoạn là tổ hợp của phân cụm và phân lớp, trong đó phân cụm

được tiến hành trước và sau đó là phân lớp.

 Hồi quy (Regression)

Hồi quy là học một hàm ánh xạ dữ liệu nhằm tìm và xác định giá trị thực của một

biến.

 Mô hình phụ thuộc (Dependency modeling)

Bài toán xây dựng mô hình phụ thuộc hướng tới việc tìm ra một mô hình mô tả sự

phụ thuộc có ý nghĩa giữa các biến. Mô hình phụ thuộc gồm hai mức: mức cấu trúc

của mô hình mô tả (thường dưới dạng đồ thị) và mức định lượng.

 Phát hiện biến đổi và độ lệch (Change and Deviation Detection)

Tập trung vào việc phát hiện hầu hết sự thay đổi có ý nghĩa dưới dạng độ đo đã

biết trước hoặc giá trị chuẩn.

14

1.6. Các lĩnh vực liên quan đến khai phá dữ liệu

Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực như thống kê, trí tuệ nhân

tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức cho

các hệ chuyên gia, quan sát dữ liệu... Đặc biệt khai phá dữ liệu rất gần gũi với lĩnh vực

thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,

luật. Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP –

Online Analytical Processing) cũng liên quan chặt chẽ với khai phá dữ liệu [2].

Các kỹ thuật truyền thống không còn thích hợp với các loại dữ liệu bị lỗi, bị nhiễu hay

dữ liệu nhiều chiều và các hệ dữ liệu tự nhiên phân tán hay hỗn tạp. Do đó khi kết hợp với

nhau, hình thành lĩnh vực mới, đó là khai phá dữ liệu.

Thống kê

Hệ thống cơ

sở dữ liệu

Khai phá

Học máy

Trực quan hóa

dữ liệu

Thuật toán

Các bộ môn

khác

Hình 1.3: Tính đa/ liên ngành của khai phá dữ liệu [2].

1.7. Các ứng dụng điển hình của khai phá dữ liệu

Ứng dụng của khai phá dữ liệu được chia thành hai lớp chính bao gồm các ứng dụng

phân tích – hỗ trợ ra quyết định và lớp các lĩnh vực ứng dụng khác.

 Lớp các ứng dụng trong phân tích dữ liệu và hỗ trợ ra quyết định bao gồm các ứng

dụng trong [2] [4]:

- Thông tin thương mại: Phân tích dữ liệu Marketing, khách hàng; Phân tích đầu

tư; Phê duyệt cho vay vốn hay phát hiện gian lận.

- Thông tin kỹ thuật: Điều khiển và lập trình lịch; Quản trị mạng.

15

- Bảo hiểm y tế.

- Viễn thông.

- Thể thao

 Lớp các lĩnh vực ứng dụng điển hình khác được kể đến là khai phá văn bản, khai

phá Web, khai phá dữ liệu sinh học và khai phá dữ liệu dòng.

1.8. Các thách thức với khai phá dữ liệu

 Cơ sở dữ liệu lớn.

 Số chiều lớn.

 Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù

hợp.

 Dữ liệu bị thiếu hoặc bị nhiễu.

 Quan hệ giữa các trường phức tạp.

 Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.

 Tích hợp với các hệ thống khác [2] [4] …

1.9. Kết luận

Qua các vấn đề đã trình bày, chúng ta nhận thấy với một lượng dữ liệu thực tế nhỏ và

với mục đích bài toán cụ thể nhưng ta có thể tiếp cận theo nhiều hướng khác nhau của

cùng một phương pháp khai phá dữ liệu và đạt được kết quả khác nhau, điều đó càng làm

sáng tỏ khả năng ứng dụng thực tế to lớn đồng thời với những thách thức đối với kỹ thuật

khai phá dữ liệu trong các bài toán kinh tế - xã hội và trong nhiều lĩnh vực khác.

16

Chương 2: Trích chọn thuộc tính phù hợp

2.1. Giới thiệu

Trích chọn đặc trưng (Feature Selection) là phương pháp chọn ra một tập con tốt nhất

từ tập các đặc trưng đầu vào bằng cách lọai bỏ những đặc trưng có rất ít hoặc không có

thông tin dự đoán.

Trích chọn đặc trưng có vai trò quan trọng trong việc chuẩn bị và lựa chọn dữ liệu cho

quá trình khai phá dữ liệu. Nó sẽ làm giảm kích cỡ của không gian đặc trưng, loại bỏ dư

thừa hay nhiễu của dữ liệu. Phương pháp này có thể tìm chính xác những tập con đặc

trưng có khả năng dự đoán, do đó giúp cải thiện đáng kể kết quả thu được trong các mô

hình phân lớp.

Về cơ bản, quá trình trích chọn đặc trưng bao gồm bốn bước cơ bản: sinh tập con

(subset generation), đánh giá tập con (subset evaluation), kiểm tra điều kiện dừng của quá

trình trích chọn (stopping criterion) và kết quả (result validation).

Subset

Generation

Evaluation

Original

Set

Goodness of Subset

YES

NO

Result

Validation

Stopping

Criterion

Hình 2.1: Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp [6].

Subset generation là một thủ tục tìm kiếm. Về cơ bản, nó sinh ra một tập con của tập

các đặc trưng để đánh giá. Giả sử có N đặc trưng trong tập dữ liệu gốc, thì số lượng các

tập con tiềm năng là 2ⁿ. Vì một tập con tối ưu các điểm đặc trưng không phải là duy nhất

nên số lượng các tập con có thể thỏa mãn là rất lớn, do đó quá trình tìm kiếm trong trích

chọn đặc trưng sẽ tốn nhiều thời gian và công sức. Mỗi tập con được sinh ra cần phải

được đánh giá và so sánh với những tập con tốt nhất đã được tìm thấy trước. Nếu tập con

tìm thấy sau là tốt hơn thì nó sẽ được thay thế cho tập con tốt nhất trước đây. Nếu không

17

có một điều kiện dừng hợp lý thì quá trình tìm kiếm các tập con tốt nhất sẽ được xem như

là vô hạn. Một quá trình trích chọn đặc trưng có thể dừng khi thỏa mãn một trong những

điều kiện đánh giá sau: (a) chọn đủ số lượng đã được xác định trước của tập đặc trưng, (b)

thỏa mãn số lần đã được xác định trước của quá trình lặp lại. (c) ở một khía cạnh (điều

kiện) nào đó tập con mới được đánh giá là không tốt hơn tập con trước, (d) tập con được

bộ đánh giá cho là tốt nhất [6].

2.2. Mô hình trong bài toán trích chọn

2.2.1.Các mô hình trong trích chọn

Trích chọn đặc trưng thật sự là lý tưởng trong lựa chọn tập con đặc trưng tối ưu từ

một tập ứng cử để mô tả khái niệm mục tiêu trong hệ thống học. Độ tốt của một tập con

đặc trưng có thể được đánh giá qua nhiều cách khác nhau, nhờ đó mà có nhiều mô hình

khác nhau được đưa ra trong phương pháp trích chọn. Điển hình là hai mô hình: Filter và

Wrapper [10].

Filter

A

3

1

2

Hình 2.2: Mô hình Filter [6]

Wrapper Model

1

A

3

2

4

Hình 2.3: Mô hình Wrapper [6]

Giải thích hình vẽ:

A: Tập đặc trưng đầu vào.

1: Bộ sinh tập con (Feature Subset Generator).

18

2: Bộ đánh giá (Feature Subset Evaluator).

3: Các thuật toán học máy (Followed Machine learning Algorithm)

4: Thuật toán học máy điều khiển (Central Machine learning Algorithm).

Mô hình Filter đánh giá mỗi cá thể bằng một vài tiêu chuẩn hay độ đo nào đó, rồi

chọn ra tập con các thuộc tính được đánh giá cao nhất. Nhìn chung, Filter coi tiến trình

của trích chọn thuộc tính như tiến trình thực thi trước, sau đó mới sử dụng thuật toán để

phân lớp.

Wrapper sử dụng một thuật toán tìm kiếm để đánh giá tập con các thuộc tính coi như

là một nhóm hơn là một cá thể riêng lẻ. Cốt lõi của mô hình Wrapper là một thuật toán

máy học cụ thể. Nó đánh giá độ tốt của những tập con đặc trưng tùy theo độ chính xác học

của tập con, điều này xác định thông qua một tiêu chí nào đó. Những thuật toán tìm kiếm

cũng sử dụng hàm đánh giá kinh nghiệm (heuristics) để hướng dẫn việc tìm kiếm tập

trung vào các đối tượng có triển vọng.

2.2.2.Đánh giá hai mô hình Filter và Wrapper

2.2.2.1. Mô hình Filter

 Ưu điểm:

- Không có xử lý học máy trong quá trình lựa chọn các đặc trưng.

- Dễ dàng nhận diện và thời gian tiêu thụ ít hơn mô hình Wrapper.

 Nhược điểm:

- Hiệu suất sản sinh các tập con đặc trưng là không đảm bảo vì nó thường đánh

giá một tập con đặc trưng chỉ dựa trên đặc trưng nhỏ thiên về nguyên lý mà

không tính tới độ chính xác của kết quả học máy.

- Kết quả thu được bị giảm sút về độ chính xác học ở những giai đoạn sau vì các

hàm đánh giá hiện thời được sử dụng thường thiên về giá trị ở một vài phạm vi,

do đó sẽ không đánh giá một cách khách quan tầm quan trọng của các đặc trưng.

2.2.2.2. Mô hình Wrapper

 Ưu điểm:

- Đảm bảo hiệu suất của kết quả học hơn mô hình Filter.

 Nhược điểm:

- Ít được sử dụng hơn môt hình Filter trên thực tế vì:

19

. Tiến trình học tốn kém về thời gian đến mức thời gian thực hiện đưa ra bởi

một thuật toán sử dụng mô hình Wrapper là không chấp nhận được.

. Với một hệ thống kích thước cực lớn, mô hình này không thực tế do phạm

vi của nó buộc phải thu nhỏ lại trước khi thuật toán học máy được áp dụng.

. Kết quả đánh giá của mô hình phụ thuộc nhiều vào thuật toán học máy điều

khiển.

2.3. Một số kỹ thuật xử lý

2.3.1.Bộ sinh tập con (Feature Subset Generator)

Tùy từng chiến lược cụ thể, bộ sinh tập con sẽ tạo ra những tập con đặc trưng từ một

tập đầu vào tương ứng. Đầu ra của bộ sinh sẽ xác định thuật toán trích chọn đặc trưng

của việc tìm đường và tìm kiếm phạm vi trong một không gian đặc trưng tương ứng. Nói

chung, bộ sinh có hai chiến lược để sản sinh ra những tập con đặc trưng:

 Đầy đủ (Completely): Một bộ khởi tạo đầy đủ có thể sản sinh ra tất cả các tập con

từ một tập đặc trưng đầu vào, do vậy phạm vi tìm kiếm của chiến lược này là NP

đầy đủ, tuy nhiên điều này không phải lúc nào cũng chứng tỏ tìm kiếm vét cạn là

cần thiết trong thực tế, bởi vì một số công nghệ như: đường biên và rẽ nhánh có thể

được áp dụng để lược bớt phạm vi tìm kiếm tốt nhất. Bởi vậy nếu là thuật toán

trích chọn với bộ khởi tạo đầy đủ, thực nghiệm chỉ ra rằng không gian tìm kiếm

lớn nhất là O(2^k). Mà đối với hầu hết những hệ thống học máy thực, điều này là

không cần thiết phải đánh giá tất cả những tập con từ một tập đặc trưng tương ứng.

Thường thì, thuật toán trích chọn với bộ khởi tạo đầy đủ có thể tìm ra một tập con

đặc trưng tối ưu của hệ thống học máy nhưng đòi hỏi thời gian thực thi phức tạp.

Liu H. [10] đã đưa ra bộ khởi tạo đầy đủ đặc biệt mà sản sinh một cách ngẫu nhiên

ra những tập con đặc trưng dựa vào thuật toán Las Vegas (LV). Thuật toán LV có

thể tìm kiếm trên toàn bộ không gian đáp án rồi sau đó đưa ra kết quả tối ưu đảm

bảo. Tuy nhiên khác với những bộ khởi tạo đầy đủ khác, đối với một ứng dụng

thực tế, khả năng thực thi của bộ khởi tạo Liu là hoàn toàn thay đổi, nó phụ thuộc

nhiều vào quá trình phân chia dữ liệu ngẫu nhiên trong toàn bộ hệ thống học máy.

 Kinh nghiệm (Heuristically): Để lược bớt không gian tìm kiếm, bộ khởi tạo kinh

nghiệm sản sinh ra các tập con đặc trưng dựa vào những chiến lược dựa theo kinh

nghiệm nào đó. Có ba kỹ thuật tìm kiếm tập con điển hình là:

20

- Lựa chọn tiến (Forward Selection): Các tập con đặc trưng được khởi tạo

trước hết là rỗng (null), sau đó liên tục gán những tính năng tốt nhất hiện

thời cho tập con đó cho đến khi không còn tính năng nào nữa hay các điều

kiện thực thi đưa ra đã được tiếp nhận hết.

- Lược bỏ lùi (Backward Elimination): Các tập con đặc trưng được khởi tạo

trước hết là đầy đủ các đặc trưng, sau đó loại bỏ lần lượt những đặc trưng

kém nhất hiện thời từ các tập con đó, cho đến khi không còn đặc trưng nào

hoặc các điều kiện thực thi đưa ra đã được triệt tiêu hết.

- Lựa chọn hai hướng (Bi – direction Selection): Các tập con đặc trưng được

khởi tạo trước hết là rỗng, đầy, hoặc sản sinh ngẫu nhiên một tập con đặc

trưng, sau đó liên tục hoặc là gán tính năng tốt nhất hiện thời cho tập con đó

hoặc là triệt tiêu tính năng kém nhất từ các tập con đó. Để từ đó đưa ra

những giá trị định hướng tốt nhất ở mỗi lần lặp lại đó. Quá trình tiếp tục cho

tới khi tất cả điều kiện được đưa ra từ trước đã được tiếp nhận hết.

Bộ phận khởi tạo dựa trên kinh nghiệm giảm thiểu phạm vi tìm kiếm đa thức số mũ,

do đó giảm thời gian thực hiện thuật toán phức tạp trong phương pháp trích chọn. Tuy

nhiên, thuật toán chỉ đưa ra một lượng nhỏ kết quả tối ưu, khi thực hiện tìm đường và tìm

kiếm phạm vi của bộ phận khởi tạo, kết quả này được đảm bảo thông qua những thuật

toán này.

2.3.2.Bộ đánh giá tập con đặc trưng (Feature Subset Evaluator)

Hiệu suất của một tập con đặc trưng được đánh giá dựa trên cơ sở nào đó mà bộ đánh

giá đạt được. Bộ đánh giá của những mô hình thuật toán khác nhau là khác nhau. Bộ

đánh giá của mô hình Filter thường là các hàm đánh giá, trong khi của mô hình Wrapper

là độ học chính xác đạt được bởi quá trình thực thi thuật toán học máy điều khiển trên hệ

thống học.

 Hàm đánh giá

Những hàm đánh giá điển hình dùng để đo đạc và phân biệt khả năng phân lớp của

những đặc điểm khác nhau trên các mẫu. Thực tế, các hàm đánh giá khác nhau

thường được dùng hiện nay như: xấp xỉ chất lượng (Approximation Quality), độ

quan trọng của thuộc tính (Feature Importance), trọng số của thuộc tính (Feature

Weight).

 Học chính xác

21

Trong mô hình Wrapper, để ước lượng độ học máy chính xác, trước hết, các mẫu

của huấn luyện phải được chia ngẫu nhiên làm hai tập dữ liệu, bao gồm: tập huấn

luyện và tập kiểm tra, trong đó, cấu trúc của hai hệ thống con có cùng đặc điểm và

được tạo ra bởi bộ sinh; sau đó mô hình được huấn luyện (training) để tìm ra tham

số tối ưu và các tham số này được kiểm chứng lại nhờ quá trình kiểm tra kết quả

học thông qua tập kiểm tra (Validation set). Hiển nhiên, độ chính xác đạt được

trong trường hợp này là giá trị ngẫu nhiên, nó phụ thuộc lớn vào kết quả của việc

chia mẫu. Để tăng mức độ ổn định của việc ước lượng độ chính xác học máy, bộ

đánh giá của mô hình Wrapper thường được sử dụng cùng kỹ thuật kiểm tra chéo

(Cross Validation) [11].

2.3.3.Thuật toán học điều khiển (Central machine learning algorithm)

Trong mô hình Wrapper, thuật toán học máy điều khiển có ảnh hưởng lớn tới ước

lượng độ chính xác học của một tập con đặc trưng. Do vậy, thuật toán đóng vài trò quyết

định trong mô hình Wrapper. Thuật toán thường được chọn ở ví trí trung tâm mô hình

thường là: ID3, CN2, C4.5 …

2.4. Kết luận

Trích chọn được xem như bước tiền xử lý dữ liệu. Phương pháp này lọc ra những đặc

trưng tốt nhất, đồng thời loại bỏ nhiễu, giảm bớt chiều trong dữ liệu. Hai mô hình phổ

biến trong phương pháp trích chọn thuộc tính đặc trưng là Filter và Wrapper. Mỗi mô

hình đều có những ưu điểm và nhược điểm riêng. Tùy từng yêu cầu và trường hợp cụ thể

mà ta có thể áp dụng một trong hai mô hình này.

22

Chương 3: Genetic algorithms

3.1. Giới thiệu

Thuật toán di truyền là thuật toán tối ưu ngẫu nhiên dựa trên cơ chế chọn lọc tự nhiên

và tiến hóa di truyền. Thuật toán di truyền được ứng dụng đầu tiên trong hai lĩnh vực

chính: tối ưu hóa và học máy. Trong lĩnh vực tối ưu hóa thuật toán di truyền được phát

triển nhanh chóng và ứng dụng trong nhiều lĩnh vực khác nhau như tối ưu hàm, xử lý ảnh,

bài toán hành trình người bán hàng, nhận dạng hệ thống và điều khiển. Thuật toán di

truyền cũng như các thuật toán tiến hóa nói chung, hình thành dựa trên quan niệm cho

rằng, quá trình tiến hóa tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó đã mang

tính tối ưu. Quan niệm này có thể xem như một tiên đề đúng, không chứng minh được,

nhưng phù hợp với thực tế khách quan. Quá trình tiến hóa thể hiện tính tối ưu ở chỗ, thế

hệ sau bao giờ cũng tốt hơn (phát triển hơn, hoàn thiện hơn) thế hệ trước bởi tính kế thừa

và đấu tranh sinh tồn.

3.2. Động lực

Thuật giải di truyền cung cấp một phương pháp học được thúc đẩy bởi sự tương tự với

sự tiến hóa sinh học. Thay vì tìm kiếm các giả thuyết từ tổng quát đến cụ thể hoặc từ đơn

giản đến phức tạp, GAs tạo ra các giả thuyết kế tiếp bằng cách lặp việc đột biến và việc

tái hợp các phần của giả thuyết được biết hiện tại là tốt nhất. Ở mỗi bước, một tập các giả

thuyết được gọi là quần thể hiện tại được cập nhật bằng cách thay thế vài phần nhỏ quần

thể bởi cá thể con của các giả thuyết tốt nhất ở thời điểm hiện tại. Sự phổ biến của GAs

được thúc đẩy bởi các yếu tố sau:

 Tiến hóa là một phương pháp mạnh và thành công cho sự thích nghi bên trong các

hệ thống sinh học.

 GA có thể tìm kiếm trên các không gian giả thuyết có các phần tương tác phức tạp,

ở đó ảnh hưởng của mỗi phần lên toàn thể độ thích nghi giả thuyết khó có thể mô

hình hóa.

 Thuật giải GA có thể được thực hiện song song và có thể tận dụng thành tựu của

phần cứng máy tính.

23

3.3. Thuật giải di truyền

3.3.1. Nội dung thuật toán

Bài toán dành cho GAs là tìm kiếm trên không gian các giả thuyết ứng cử để xác định

giả thuyết tốt nhất. Trong GAs “giả thuyết tốt nhất” được định nghĩa như là một giả

thuyết tối ưu hóa một đại lượng số được định nghĩa trước cho bài toán sắp tới, được gọi là

độ thích nghi của giả thuyết. Ví dụ, nếu tác vụ học hỏi là bài toán xấp xỉ một hàm chưa

biết cho tập mẫu huấn luyện gồm dữ liệu đầu vào và dữ liệu đầu ra, thì độ thích nghi có

thể được định nghĩa như là độ chính xác của giả thuyết trên dữ liệu huấn luyện này. Nếu

tác vụ là học chiến lược chơi cờ, độ thích nghi có thể là số ván thắng của chiến lược này

khi đấu với các chiến lược khác trong quần thể hiện tại.

Mặc dù các thuật giải di truyền được thực hiện thay đổi theo bài toán cụ thể, nhưng

chúng chia sẻ chung cấu trúc tiêu biểu sau: Thuật giải hoạt động bằng cách cập nhật liên

tục tập giả thuyết – được gọi là quần thể. Ở mỗi lần lặp, tất cả các cá thể trong quần thể

được ước lượng tương ứng với hàm thích nghi. Rồi quần thể mới được tạo ra bằng cách

lựa chọn có xác suất các cá thể thích nghi tốt nhất từ quần thể hiện tại. Một số trong

những cá thể được chọn được đưa nguyên vẹn vào quần thể kế tiếp. Những cá thể khác

được dùng làm cơ sở để tạo ra các cá thể con bằng cách áp dụng các tác động di truyền:

lai ghép và đột biến.

Bảng 3.1: Thuật giải di truyền mẫu. [20]

GA (Fitness, Fitness_threshold, p, r, m)

{

// Fitness: hàm gán thang điểm ước lượng cho một giả thuyết.

// Fitness_threshold: Ngưỡng xác định tiêu chuẩn dừng giài thuật tìm kiếm.

// p: Số cá thể trong quần thể giả thuyết.

// r: Phân số cá thể trong quần thể được áp dụng toán tử lai ghép ở mỗi bước.

// m: Tỉ lệ cá thể bị đột biến.



Khởi tạo quần thể: P  Tạo ngẫu nhiên p cá thể giả thuyết

Ước lượng: Ứng với mỗi h trong P, tính Fitness(h)

while [max Fitness(h)] < Fitness_threshold do

Tạo thế hệ mới, P_S

1. Chọn cá thể: chọn theo xác suất (1 – r)p cá thể trong quần thể P thêm vào P_S. Xác

suất Pr(h_i) của giả thuyết h_ithuộc P được tính bởi công thức:

24

Fitness(h_i)

퐏퐫 h_i=

p

_j=1Fitness(h_j)

r p

2

2. Lai ghép: chọn lọc theo xác suất

cặp giả thuyết từ quần thể P, theo Pr(h_i) đã

tính ở bước trên. Ứng với mỗi cặp <h₁, h₂>, tạo ra hai con bằng cách áp dụng toán tử

lai ghép. Thêm tất các các con vào P_S.

3. Đột biến: Chọn m% cá thể của P_Svới xác suất cho mỗi cá thể là như nhau. Ứng với

mỗi cá thể biến đổi một bit được chọn ngẫu nhiên trong cách thể hiện của nó.

4. Cập nhật: P  P_S.

5. Ước lượng: Ứng với mỗi h trong P, tính Fitness(h)

Trả về giả thuyết trong P có độ thích nghi cao nhất.



}

Quần thể gồm p cá thể. Ở mỗi lần lặp, quần thể kế tiếp P_Sđược hình thành từ việc lựa

chọn theo xác suất các giả thuyết hiện tại theo độ thích nghi của chúng và bằng cách thêm

vào các giả thuyết mới. Các giả thuyết mới được tạo ra bằng cách áp dụng toán tử lai ghép

cho cặp giả thuyết thích nghi nhất và bằng cách tạo ra các đột biến điểm đơn trong thế hệ

giả thuyết kết quả. Quá trình này được lặp cho đến khi các giả thuyết thích hợp được phát

hiện. Các toán tử lai ghép và đột biến tiêu biểu được định nghĩa trong bảng kế tiếp.

Một thuật giải di truyền mẫu được mô tả trong bảng 3.1. Các đầu vào cho thuật giải

này bao gồm hàm tính độ thích nghi để tính hạng cho các giả thuyết ứng cử, một giá trị

ngưỡng được định nghĩa cấp độ thích nghi có thể chấp nhận để kết thúc thuật giải, kích

thước quần thể, và các tham số quyết định các quần thể kế tiếp được tạo ra như thế nào:

phần quần thể bị thay thế ở mỗi thế hệ và tỉ lệ đột biến.

Lưu ý trong thuật giải này, ở mỗi bước lặp qua vòng lặp chính tạo ra một thế hệ mới

các giả thuyết dựa vào quần thế hệ hiện tại. Trước tiên, một số giả thuyết được chọn từ

quần thể hiện tại để đưa vào thế hệ kế tiếp. Những giả thuyết này được chọn theo xác suất,

ở đây xác suất của giả thuyết được tính bởi [20]:

퐹푖푡푛푒푠푠 푕_푖

Pr 푕_푖=

푝

퐹푖푡푛푒푠푠 푕

푗

푗=1

Vì vậy, xác suất để giả thuyết được chọn tỉ lệ với độ thích nghi của nó và tỉ lệ nghịch

với độ thích nghi của các giả thuyết cạnh tranh khác trong quần thể hiện tại.

Một khi các cá thể này của thế hệ hiện tại đã được chọn để đưa vào quần thể thế hệ kế

tiếp, các cá thể thêm vào được tạo ra dùng toán tử lai ghép. Lai ghép, được định nghĩa chi

25

tiết trong phần kế tiếp, lấy hai giả thuyết từ thế hệ hiện tại và tạo ra hai giả thuyết con

bằng cách kết hợp các phần của hai giả thuyết cha. Các giả thuyết cha được chọn theo xác

suất từ quần thể hiện tại, sử dụng hàm xác suất được định nghĩa ở trên. Sau khi các cá thể

mới được tạo ra từ hoạt động lai ghép này, quần thế thế hệ mới bây giờ có đủ số lượng

thành viên mong muốn. Lúc này, một phân số m nào đó các cá thể này được chọn một

cách ngẫu nhiên và tất cả các đột biến ngẫu nhiên được thực hiện để thay đổi các cá thể

này.

3.3.2. Thể hiện các giả thuyết

Các giả thuyết trong GAs thường được thể hiện dưới dạng chuỗi các bit, để chúng có

thể dễ dàng được thực hiện bởi các toán tử di truyền là đột biến và lai ghép [14]. Các giả

thuyết được thể hiện bởi chuỗi bit này có thể khá phức tạp. Ví dụ, tập các luật if-then có

thể dễ dàng được thể hiện theo cách này, bằng cách chọn một cách thức mã hóa các luật

để phân bố các chuỗi con riêng cho mỗi điều kiện trước và điều kiện sau của luật.

Để thấy các luật if-then có thể được mã hóa bằng các chuỗi bit như thế nào, trước tiên

hãy xem chúng ta có thể sử dụng chuỗi bit như thế nào để mô tả ràng buộc trên giá trị của

thuộc tính đơn. Lấy một ví dụ [20], hãy xem xét thuộc tính Outlook, thuộc tính này có thể

lấy bất kì giá trị nào trong ba giá trị: Sunny, Overcast hoặc Rain. Một cách rõ ràng để thể

hiện ràng buộc cho Outlook là dùng một chuỗi bit có chiều dài 3, mỗi vị trí bit tương ứng

với một trong ba giá trị có thể của nó. Đặt giá trị 1 ở một vài vị trí để chỉ ra rằng thuộc

tính được phép lấy giá trị tương ứng. Ví dụ, chuỗi 010 thể hiện ràng buộc Outlook phải

lấy giá trị thứ hai trong các giá trị này, hay là Outlook = Overcast. Một cách tương tự,

chuỗi 011 thể hiện ràng buộc tổng quát hơn là cho phép hai giá trị có thể, hay là Outlook

= Overcast ∪ Rain. Chú ý 111 thể hiện ràng buộc có thể tổng quát nhất, chỉ ra rằng chúng

ta không quan tâm giá trị nào trong các giá trị có thể của nó mà thuộc tính giữ.

Đưa ra phương pháp này để thể hiện các ràng buộc trên thuộc tính đơn, các liên kết

của các ràng buộc trên nhiều thuộc tính có thể dễ dàng được thể hiện bằng cách nối các

chuỗi bit tương ứng. Ví dụ, xem xét thuộc tính thứ hai, Wind có thể lấy giá trị Strong

hoặc Weak. Điều kiện trước của luật chẳng hạn như:

푂푢푡푙표표푘 = 푂푣푒푟푐푎푠푡 ∪ 푅푎푖푛 ∩ (푊푖푛푑 = 푆푡푟표푛푔)

Có thể được biểu diễn bởi chuỗi bit có chiều dài là 5 sau:

Wind

Outlook

26

10

011

Các điều kiện sau của luật (chẳng hạn như PlayTennis = yes) có thể được thể hiện theo

kiểu tương tự. Vì vậy, toàn bộ luật có thể được mô tả bởi móc nối các chuỗi bit mô tả các

điều kiện đầu, cùng với chuỗi bit mô tả điều kiện sau của luật. Ví dụ, luật

IF Wind = Strong THEN PlayTennis = yes

sẽ được thể hiện bởi chuỗi:

Outlook

Wind

10

PlayTennis

10

111

ở đây 3 bit đầu tiên mô tả ràng buộc “không quan tâm” trên Outlook , hai bit kế tiếp

mô tả ràng buộc trên Wind, và hai bit cuối cùng mô tả điều kiện sau của luật (ở đây chúng

ta giả sử PlayTennis có thể lấy giá trị Yes hoặc No). Chú ý chuỗi bit thể hiện luật chứa

một chuỗi con cho mỗi thuộc tính trong không gian giả thuyết, thậm chí thuộc tính không

bị ràng buộc bởi các điều kiện trước. Điều này tạo ra một chuỗi bit có chiều dài cố định để

thể hiện các luật, trong đó các chuỗi con ở các vị trí cụ thể mô tả các ràng buộc trên các

thuộc tính cụ thể. Đưa ra cách thể hiện này cho các luật đơn, chúng ta có thể thể hiện tập

các luật bằng cách móc nối các thể hiện chuỗi bit của các luật riêng biệt.

Trong thiết kế mã hóa chuỗi bit cho một vài không gian giả thuyết, thật là hữu ích để

sắp xếp cho mọi chuỗi bit tuân thủ theo cú pháp để thể hiện một giả thuyết được định

nghĩa tốt. Để mô tả, chú ý cách mã hóa luật ở đoạn trên, chuỗi bit 111 10 11 thể hiện luật

có điều kiện trước không ràng buộc thuộc tính mục tiêu PlayTennis. Nếu tránh xem xét

giả thuyết này, chúng ta có thể mượn một cách mã hóa khác (ví dụ phân bố chỉ một bit

cho điều kiện sau để chỉ định giá trị là Yes hoặc No), thay đổi các toán tử di truyền để

tránh một cách tường minh việc xây dựng các chuỗi bit như thế, hoặc đơn giản gán một

độ thích nghi rất thấp cho các chuỗi bit như vậy.

3.3.3. Các toán tử di truyền

Những thế hệ sau trong GAs được quyết định bởi tập các toán tử tái hợp và đột biến

các cá thể được chọn từ quần thể hiện tại. Các toán tử GAs tiêu biểu để thực hiện các giả

thuyết chuỗi bit được mô tả trong bảng 3.1. Các toán tử này tương ứng với các phiên bản

được ý tưởng hóa của các hoạt động di truyền trong tiến hóa sinh học. Hai toán tử phổ

biến nhất là lai ghép và đột biến.

27