Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Hoàng Tuấn Ninh  
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP  
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU  
SẢN XUẤT KINH DOANH CHO VNPT  
LUẬN VĂN THẠC SĨ  
HÀ NỘI – 2009  
ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Hoàng Tuấn Ninh  
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP  
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU  
SẢN XUẤT KINH DOANH CHO VNPT  
Ngành: Công nghệ thông tin  
Chuyên ngành: Hệ thống thông tin  
số: 60 48 05  
LUẬN VĂN THẠC SĨ  
NGƯỜI HƯỚNG DẪN KHOA HỌC  
TS.Đỗ Văn Thành  
HÀ NỘI - 2009  
- i -  
LỜI CAM ĐOAN  
Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay  
xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một  
công trình nghiên cứu nào.  
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.  
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.  
Hà Nội, ngày tháng  
năm 2009  
Người thực hiện đề tài  
Hoàng Tuấn Ninh  
- ii -  
LỜI CẢM ƠN  
Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông  
tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn  
và có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này.  
Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng  
như các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi  
những kiến thức bổ ích trong thời gian học tập tại trường.  
Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính  
Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này.  
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những  
người đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm  
luận văn.  
Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu  
sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn.  
Tôi xin chân thành cảm ơn !  
- iii -  
TÓM TẮT NỘI DUNG LUẬN VĂN  
Luận văn được trình bày làm 3 chương chính với các nội dung như sau:  
Chương I: Khảo cứu các phương pháp dự báo số liệu  
Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu  
một số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy  
phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu…  
Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo  
Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương  
pháp mng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp  
thiết kế mạng nơron nhân tạo.  
Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương  
pháp mạng nơron nhân tạo  
Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của  
VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng  
dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả  
thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất,  
khuyến nghị.  
- iv -  
MỤC LỤC  
MỤC LỤC.................................................................................................................iv  
DANH SÁCH HÌNH V...........................................................................................vi  
DANH SÁCH BẢNG BIỂU.....................................................................................vii  
BẢNG THUẬT NGỮ..............................................................................................viii  
MỞ ĐẦU ...................................................................................................................ix  
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG  
SẢN XUẤT KINH DOANH DOANH NGHIỆP ....................................................11  
1. Tổng quan các phương pháp dự báo ..................................................................11  
1.3. Dự báo định lượng bằng các phương pháp hồi quy.............................................16  
1.3.1.Hồi quy tuyến tính và hồi quy bội...............................................................16  
1.1.2. Hồi quy phi tuyến tính...............................................................................17  
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian .......................................18  
1.4.1. Khái niệm chuỗi thời gian.........................................................................18  
1.4.2. Phân tích, dự báo chuỗi thời gian .............................................................19  
1.4. Dự báo bằng phương pháp phân lớp dữ liệu.......................................................21  
1.4.1. Phương pháp phân lớp dliu..................................................................21  
1.4.2. Độ chính xác phân lớp..............................................................................21  
CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON  
NHÂN TẠO..............................................................................................................24  
2.1. Mạng nơron nhân tạo .......................................................................................24  
1). Khái quát về mạng nơron .....................................................................................24  
2.2 . Mô hình của mạng nơron nhân tạo ................................................................25  
2.4. Thuật toán lan truyền ngược sai số .....................................................................30  
2.5. Thiết kế mạng nơron ...........................................................................................32  
1)  
Bước 1: Lựa chọn biến ..............................................................................33  
2). Bước 2: Thu thập dữ liệu...............................................................................34  
3). Bước 3: Tiền xử lý dữ liệu .............................................................................34  
4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá...........................37  
5). Bước 5: Xác định mô hình mạng nơron .........................................................38  
6). Bước 6: Xác định hàm đánh giá sai số...........................................................43  
7). Bước 7: Huấn luyện mạng nơron...................................................................43  
8). Bước 8: Thực thi............................................................................................48  
CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG  
PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ...................................................50  
- v -  
3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT  
..................................................................................................................................50  
3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD ....50  
3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT ...........................50  
3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo..........................52  
3.3. Giải pháp dự báo định lượng kết quả SXKD của VNPT ................................58  
3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng...............58  
3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu ......................................61  
3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT...............62  
3.3.4. Phần mềm công cụ hỗ trợ dự báo..............................................................63  
3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT ..........................72  
3.4.1. Xác định các biến dự báo..........................................................................72  
3.4.2. Thu thập dữ liệu........................................................................................72  
3.4.3. Tiền xử lý dữ liệu ......................................................................................72  
3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyện..........................................74  
3.4.5. Xác định mô hình mạng nơron..................................................................76  
3.4.6. Xác định hàm đánh giá sai số ...................................................................79  
3.4.7. Huấn luyện mạng nơ ron...........................................................................79  
3.4.8. Dự báo số liệu...........................................................................................81  
3.5. Kết quả thử nghiệm ..........................................................................................82  
a.  
b.  
c.  
Thử nghiệm với số liệu điện thoại cố định .................................................83  
Thử nghiệm với dữ liệu mạng Internet.......................................................86  
Thử nghiệm với dữ liệu mạng di động .......................................................87  
3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT .....................................88  
3.6.1. Sơ đồ phân rã chức năng ..........................................................................88  
3.6.2. Biểu đồ ngữ cảnh......................................................................................88  
3.6.3. Sơ đồ phân rã chức năng ..........................................................................89  
3.6.4. Sơ đồ quan hệ ...........................................................................................90  
3.6.5. Thiết kế dữ liệu logic.................................................................................91  
3.6.6. Thiết kế chức năng xem số liệu..................................................................95  
3.6.7. Thiết kế chức năng xây dựng mô hình.......................................................96  
3.6.8. Thiết kế chức năng dự báo số liệu.............................................................96  
3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện.............................................97  
KẾT LUẬN ..............................................................................................................98  
TÀI LIỆU THAM KHẢO .....................................................................................100  
- vi -  
DANH SÁCH HÌNH VẼ  
Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp................. 16  
Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout.. 22  
Hình 3. Mô hình phi tuyến của một nơron ..................................................... 26  
Hình 4. Kết quả biến đổi afine của ngưỡng.................................................... 27  
Hình 5. Hai mô hình phi tuyến của nơron ...................................................... 28  
Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng.............. 36  
Hình 7. Phương pháp kiểm tra cửa sổ trượt.................................................... 38  
Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500....... 42  
Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron ............. 45  
Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron ................... 47  
Hình 11. Mô hình Hệ thống dự báo số liệu ................................................... 58  
Hình 12. Mô hình Trích chọn dữ liệu............................................................ 59  
Hình 13. Mô hình Làm sạch, chuẩn hóa dữ liệu............................................ 60  
Hình 14. Xây dựng mô hình dữ liệu.............................................................. 60  
Hình 15. Mô hình Dự báo giá trị mới............................................................ 61  
Hình 16. Màn hình chương trình YALE ....................................................... 64  
Hình 17. Mô hình xử lý một cây toán tử của Yale ........................................ 69  
Hình 18. Màn hình chương trình WEKA...................................................... 70  
Hình 19. Cấu trúc kho dữ liệu SXKD của VNPT.......................................... 73  
Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liu.................................... 89  
Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệu....................... 90  
Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu .......................... 95  
Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình................ 96  
Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệu ...................... 96  
Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện ...... 97  
- vii -  
DANH SÁCH BẢNG BIỂU  
Bảng 1. So sánh YALE và WEKA................................................................. 71  
Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 ................... 83  
Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 ................. 83  
Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 ................... 83  
Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 ................... 83  
Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7 ............................. 84  
Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7 ........................... 84  
Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7 ............................. 84  
Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7 ............................. 84  
Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7 ........................ 85  
Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7 ........................ 85  
Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7 ........................ 85  
Bảng 13. Độ chính xác trung bình theo chu k.............................................. 86  
Bảng 14. Độ chính xác trung bình theo chỉ tiêu............................................. 86  
- viii -  
BẢNG THUẬT NGỮ  
Từ viết tắt  
Tiếng Anh  
AutoRegressive Integrated  
Tiếng Việt  
Tích hợp trung bình trượt tự hồi  
ARIMA  
Moving Average  
qui  
CSDL  
DM  
Cơ sở dữ liệu  
Kho dữ liệu chủ đề  
Kho dữ liệu  
Data mart  
DW  
Data warehouse  
Knowlegde Discovery in  
Databases  
KDD  
Khám phá tri thức trong CSDL  
KPDL  
MLP  
Khai phá dữ liệu  
Multilayer Perceptron  
Mạng nơron đa lớp  
Seasonal AutoRegressive  
Integrated Moving Average  
Tích hợp trung bình trượt tự hồi  
qui theo mùa vụ  
SARIMA  
VNPT  
Vietnam Posts and  
Telecomunications Coporation  
Tập đoàn Bưu chính Viễn  
thông Việt Nam  
- ix -  
MỞ ĐẦU  
Trong nền kinh tế tri thức, ưu thế cạnh tranh luôn thuộc về những doanh  
nghiệp nắm bắt đầy đủ, kịp thời và khai thác có hiệu quả thông tin. Các doanh  
nghiệp thành công trên thế giới đều đã và đang không ngừng đầu tư cho công cụ  
quản lý tri thức của mình ở nhiều cấp độ khác nhau, ở mức thấp là các công cụ  
báo cáo, phân tích tình hình tài chính… dựa vào thông tin từ phần mềm kế toán  
ở mức độ cao là ứng dụng công nghệ Khai phá dữ liệu nhằm khai thác các  
kho dữ liệu giúp nhà quản lý phân tích về giá thành, thị trường và khách hàng,…  
Công nghệ Khai phá dữ liệu có thể được triển khai nhanh chóng dựa trên nền  
tảng phần cứng và phần mềm sẵn có đáp ứng yêu cầu khai thác thông tin của  
doanh nghiệp, nâng cao hiệu quả sử dụng thông tin từ nguồn tài nguyên sẵn có  
và mang lại lợi ích to lớn cho doanh nghiệp.  
Tại Việt Nam, hiện tại đã có nhiều tổ chức, doanh nghiệp trong nước nhận  
thức được tầm quan trọng và lợi ích của công nghệ Khai phá dữ liệu. Một số tổ  
chức, doanh nghiệp đã xây dựng các kho dữ liệu lưu trữ toàn bộ thông tin của tổ  
chức, doanh nghiệp như: Kho dữ liệu của Kho bạc nhà nước, Kho dữ liệu Ngân  
sách nhà nước của Bộ Tài chính, Kho dữ liệu của Ngân hàng Nhà nước… Tuy  
nhiên, việc khai thác dữ liệu từ kho tài nguyên đồ sộ này vẫn chưa đạt hiệu quả  
mong muốn do chưa phát triển được công cphù hợp, chưa trích chọn và phân  
tích được những dữ liệu xác đáng. Để đạt được những thông tin mong muốn từ  
những nguồn dữ liệu lớn đòi hỏi phải có những đổi mới về mặt kỹ thuật.  
Là một trong những doanh nghiệp đi đầu trong việc đẩy mạnh khai thác  
và sử dụng thông tin hỗ trợ hoạt động quản lý điều hành và sản xuất kinh doanh,  
Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) đã có một số phần mềm ứng  
dụng hỗ trợ quản lý điều hành sản xuất kinh doanh như: Hệ thống Báo cáo  
nhanh, Hệ thống báo cáo tài chính, Hệ thống quản lý tài sản, Hệ thống quản lý  
dự án Internet trường học… Sự ra đời của “Hệ thống phần mềm báo cáo số liệu  
và thông tin phục vụ quản lý, điều hành sản xuất kinh doanh tại Cơ quan Tập  
đoàn” (Hệ thống VRS) đã giúp đáp ứng được nhu cầu báo cáo thông tin một  
cách thống nhất, hệ thống, chính xác và cập nhật, thay thế hiệu quả cho phương  
thức báo cáo, tổng hợp số liệu bằng giấy tờ. Đồng thời Hệ thống VRS được đưa  
vào sử dụng đã cung cấp một khối lượng thông tin lớn khó có thể xử lý bằng  
những phương pháp thủ công hiện có, từ đó đặt ra nhu cầu về một hệ thống phần  
mềm có thể hỗ trợ xử lý hiệu quả những thông tin này.  
- x -  
Đề tài “Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu  
SXKD cho VNPT” được phát triển nhằm mục đích hỗ trợ phân tích, tổng hợp và  
xử lý kho dữ liệu, thông tin một cách tự động, chính xác và có thể được tích hợp  
với các ứng dụng hỗ trợ quản lý sản xuất kinh doanh đang hoạt động khác. Kết  
quả nghiên cứu của đề tài sẽ hỗ trợ tích cực cho công tác xử lý số liệu và dự báo  
tình hình SXKD của Tập đoàn, đồng thời góp phần đẩy mạnh công tác ứng dụng  
công nghệ thông tin vào các hoạt động quản lý điều hành sản xuất kinh doanh tại  
Cơ quan Tập đoàn.  
Hà Nội 10-2009  
Người thực hiện đề tài  
- 11 -  
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ  
HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP  
1. Tổng quan các phương pháp dự báo  
Trong những năm gần đây, sự phát trin mạnh mẽ của CNTT và ngành công  
nghip phn cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ  
thống thông tin tăng lên một cách nhanh chóng. Bên cạnh đó vic tin học hoá  
mt cách mạnh mẽ các hoạt động sản xut, kinh doanh cũng như nhiều nh vc  
hoạt động khác đã tạo ra mt lượng dliệu lưu trữ khng l. Hàng triu CSDL  
đã được sử dụng trong các hoạt động sản xut, kinh doanh, quản lí..., trong đó có  
nhiu CSDL cc ln cGigabyte, thm chí là Terabyte. Sự bùng nổ này đã dn  
ti mt yêu cu cp thiết là cn có nhng thut và công cụ mi để tự động  
chuyển đổi lượng dliu khng lkia thành các tri thc có ích. Từ đó, các kĩ  
thut Khai phá dliệu đã ra đi và trở thành mt nh vc thi sự của nn CNTT  
thế gii hin nay.  
1.1. Tổng quan về dự báo  
* Dự báo là gì?  
Dự báo là một nhận định về tương lai. Những nhận định này có thể có nền  
tảng vững chắc hoặc có thể thiếu những nền tảng cơ sở thuyết phục; chúng có  
thể chính xác hoặc không chính xác trong từng trường hợp cá biệt hoặc tính  
trung bình; chúng có thể chi tiết hoặc không chi tiết; chúng có thể dựa trên mô  
hình hoặc mang tính thông tin. Các dự báo được đưa ra bằng những phương  
pháp với hệ hàng trăm phương trình ước lượng kinh tế lượng được kiểm định  
chặt chẽ cho tới những phương pháp gần như không có một cơ sở nào để quan  
sát được. Do vậy, dự báo là một chủ đề rất rộng. Trong lịch sử, hầu hết các  
phương pháp mà con người nghĩ ra về hoạt động “tiên đoán” tương lai có thể  
mang lại điều gì đều đã được thử nghiệm.  
* Có thể dự báo những gì?  
Bởi vì dự báo chỉ đơn giản là một nhận định về tương lai nên chúng ta có thể  
dự báo bất kỳ điều gì, có thể là dự báo lạm phát chỉ số giá tiêu dùng của tháng  
tới, dự báo thời tiết ngày mai, mực nước biển tính trung bình dâng cao thêm bao  
nhiêu sau 20 năm nữa hoặc dân số của trái đất vào ngày hôm đó hay như giá trị  
của chỉ số VN index tại thời điểm đầu năm 2010. Chúng ta không khẳng định  
rằng các kết quả dự báo nhất thiết là hữu ích.  
* Mức độ tin cậy của chúng ta đối với các dự báo là như thế nào?  
- 12 -  
Mức độ tin cậy của dự báo phụ thuộc vào cơ sở xây dựng dự báo này tốt đến  
mức độ nào? Những dự báo đơn thuần sẽ không mang lại độ tin cậy cao, những  
dự báo dựa trên các cách tiếp cận đã được kiểm định đúng đắn có thể mang lại  
nhiều hy vọng hơn. Thật không may là ngay cả khi nó được dựa trên những cách  
tiếp cận này thì dường như vẫn chưa đủ. Tương lai quá bất định chính là khó  
khăn của dự báo. Có hai điều trái ngược nhau mà ta có thể vận dụng từ câu nói  
của Maxine Singer rằng: "Bởi vì những thứ mà chúng ta không biết rằng chúng  
ta không biết nên tương lai rất khó đoán định. Nhưng một vài bước phát triển có  
thdự báo được, hoặc ít nhất là có thể tưởng tượng được dựa trên những gì  
chúng ta đã biết".  
* Tính chất của dự báo  
- Dự báo mang tính xác suất: Mỗi đối tượng dự báo đều vận động theo một  
quy luật hay một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển  
nó luôn luôn chịu sự tác động của môi trường hay yếu tố bên ngoài. Bản thân  
môi trường hay các yếu tố tác động không phải đứng im mà luôn luôn trong  
trạng thái vận động và phát triển không ngừng. Chính vì điều này nên dự báo  
không thể hoàn toàn chính xác mà chỉ mang tính xác suất.  
- Dự báo mang tính đa phương án: Mỗi dự báo được thực hiện dựa trên  
những tập hợp các giả thiết nhất định - dự báo có điều kiện. Tập hợp các giả  
thiết như vậy gọi là phông dự báo. Do vậy dự báo có thể được tiến hành trên các  
phông dự báo khác nhau do những nguyên nhân chủ quan và khách quan khác  
nhau dẫn tới có nhiều phương án dự báo khác nhau.  
* Chức năng của dự báo  
- Chức năng tham mưu: Trên cơ sở đánh gíá thực trạng, phân tích xu hướng  
vận động và phát triển trong quá khứ, hiện tại và tương lai, dự báo sẽ cung cấp  
thông tin cần thiết, khách quan làm căn cứ cho việc ra quyết định quản lý và xây  
dựng chiến lược, kế hoạch phát triển sản xuất kinh doanh,... Người quản lý và  
hoạch định chiến lược, kế hoạch có nhiệm vụ phải lựa chọn trong số các phương  
án có thể có, tìm ra các phương án có tính khả thi cao nhất, có hiệu quả cao nhất.  
Để thực hiện tốt chức năng này dự báo phải thực sự đảm bảo tính khách quan,  
khoa học và tính độc lập tương đối với các cơ quan quản lý và hoạch định chính  
sách.  
- Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dự báo tiên  
đoán các hậu quả có thể nảy sinh trong quá trình thực hiện nhằm giúp doanh  
- 13 -  
nghiệp kịp thời điều chỉnh mục tiêu cũng như cơ chế tác động quản lý để đạt  
hiệu quả kinh tế - xã hội cao nhất.  
1.2. Phương pháp luận tổng quát về dự báo  
Để thiết lập một dự báo, về cơ bản, chúng ta có các bước tiến hành sau đây:  
a) Xác định vấn đề dự báo và mốc thời gian xa nhất của dự báo  
b) Hiểu vấn đề cần được dự báo, xây dựng hệ thống mô tả vấn đề cần được  
dự báo và nhận ra những biến số then chốt của hệ thống;  
c) Thu thập các số liệu cần thiết phục vụ cho dự báo và Đề xuất các giả thiết  
xuất phát của dự báo;  
d) Tiến hành dự báo và kiểm nghiệm tính đúng đắn của dự báo  
f) Ứng dụng kết quả dự báo  
* Xác định vấn đề dự báo:  
Công việc đầu tiên là phát biểu vấn đề cần được dự báo một cách rõ ràng và  
chính xác. Điều này dường như là đương nhiên nhưng thật ra sự nhấn mạnh tầm  
quan trọng của nó là rất cần thiết vì rất có thể xảy ra tình trạng vấn đề đặt ra lúc  
đầu, đến một giai đoạn nào đó của quá trình dự báo, lại bắt đầu được nhận thức  
là chưa đủ rõ ràng, các công việc tiếp theo do đó không thể đặt ra một cách cụ  
thể để có thể được giải quyết, và chúng ta lại phải quay trở lại việc xác định vấn  
đề.  
Một vấn đề khác là cần xác định mốc thời gian xa nhất của dự báo. Có nhiều  
nhân tố chi phối sự lựa chọn này, như thời hạn ra quyết định, khả năng quyết  
định và các phương tiện hành động, v.v... Không có một phương pháp xác định  
nào có thể giúp ta làm tốt việc này. Kinh nghiệm thực tiễn và sự nhạy cảm là  
những yếu tố có thể đóng góp vào sự lựa chọn tối ưu. Các dự báo đã có về các  
vấn đề khác nhau rõ ràng là một nguồn tham khảo quan trọng.  
Xét một số dự báo lớn được đưa ra trong mấy năm gần đây, thí dụ như  
"Theo dõi tương lai, nghiên cứu về các kịch bản của nền kinh tế thế giới, 1990-  
2015" của Cục Kế hoạch Trung ương của Hà Lan, "Dự án 2025" do hãng Coates  
& Jarratt, Inc. biên soạn, các báo cáo "Trạng thái tương lai" công bố hàng năm  
từ 1997 của "Dự án Thiên niên kỷ" thuộc Hội đồng Đại học Liên Hợp quốc.  
Trong các dự báo này, mốc thời gian xa nhất của dự báo được lựa chọn là  
khoảng 25 năm. Một số dự báo khác, thí dụ như "Tương lai của nước Anh năm  
2010" của hãng Applied Futures công bố năm 1989, "Nước Anh năm 2010" của  
Policy Studies Institute công bố năm 1991, "Nền an ninh của châu Âu năm  
- 14 -  
2010" của P. Leclerc và B. Gentric năm 1991, mốc thời gian xa nhất dự báo  
được lựa chọn là 20 năm. Song lại có những dự báo có mốc thời gian hơn, tới 40  
năm, thí dụ như "Nhà ở năm 2030" do Trung tâm Khoa học và Kỹ thuật về Nhà  
ở và Cục Môi trường và Quản lý Năng lượng của Pháp xây dựng trong thời gian  
1991-93.  
* Hiểu vấn đề cần được dự báo, xây dựng hệ thống và phát hiện các biến số  
then chốt  
Công việc tiếp theo là xác định trạng thái của hệ thống mô tả vấn đề cần  
được dự báo, cụ thể là tìm ra tất cả các biến số có ảnh hưởng đến vấn đề được  
nghiên cứu hoặc chịu ảnh hưởng của vấn đề được nghiên cứu, phân tích các  
quan hệ giữa các biến số đó, và cuối cùng thu gọn phạm vi của hệ thống về một  
số biến số có tính chất cơ bản - các biến số then chốt.  
Có thể giao việc lập danh mục các biến số xác định trạng thái của hệ cho  
một người. Song để tránh sự chủ quan quá đáng, công việc này nên được tiến  
hành bởi một nhóm công tác có tính chất đa ngành và sử dụng các cách làm như  
gửi bảng câu hỏi để lấy ý kiến, phỏng vấn chuyên gia, v.v...  
Để phân tích các quan hệ giữa các biến số, phương pháp thường được sử  
dụng là phân tích cấu trúc gồm ba bước cơ bản như sau:  
ˉ Thống kê các biến số;  
ˉ Lập ma trận phân tích cáu trúc và đồ thị độ phát động - mức phụ thuộc;  
ˉ Phát hiện các biến số then chốt.  
* Thu thập dữ liệu phục vụ dự báo và đề xuất các giả thiết/giả thuyết cho dự báo  
Thu thập dữ liệu là một công việc rất nặng nề vì đối với mỗi biến số, ta cần  
phải trả lời 3 câu hỏi sau đây:  
Diễn biến của biến số trong quá khứ ?  
Xu hướng phát triển của biến số đó trong tương lai ?  
Những điểm uốn hay gián đoạn có thể có làm thay đổi xu hướng phát triển  
của biến số ?  
Để trả lời các câu hỏi này, ta cần xem xét 5 vấn đề sau đây:  
Xác định những chỉ tiêu có thể sử dụng một cách thích hợp để mô tả diễn  
biến của biến số được xét. Thí dụ như để mô tả mức sống của dân cư, có thể xét  
khả năng sử dụng chỉ tiêu tổng sản phẩm trong nước (GDP) hay tổng sản phẩm  
xã hội (GNP); để đánh giá năng lực đổi mới công nghệ của một quốc gia, có thể  
- 15 -  
sử dụng chỉ tiêu số sáng chế đăng ký; để đánh giá mức độ chuyển đổi cơ cấu lao  
động có thể sử dụng chỉ tiêu số lượng lao động được đào tạo nghề theo các  
ngành kinh tế, để đánh giá nguồn nhân lực chất lượng cao có thể sử dụng chỉ  
tiêu số lượng và chất lượng đào tạo từ bậc cao đẳng, đại học trở lên, v.v...  
Xét khả năng có được dữ liệu (định tính cũng như định lượng), độ tin cậy  
của chúng và, nếu có thể, mức độ cân đối cần phải có.  
Xác định các chuỗi thời gian (các giá trị của chỉ tiêu sắp xếp theo trình tự  
thời gian) cần theo dõi. Điều này có ý nghĩa quan trọng vì chuỗi thời gian của  
một biến số kinh tế - xã hội nào đó là phản ánh quy luật biến đổi của biến số đó  
trong quá khứ và hiện tại, nếu chuỗi thời gian đủ dài ta mới có căn cứ để ngoại  
suy hay dự báo giá trị của biến số đó trong tương lai.  
Để hình thành các giả thiết/giả thuyết cho dự báo: cần giải thích các diễn  
biến trong quá khứ; nói cách khác, tìm hiểu nguyên nhân của các hệ quả đã quan  
sát được. Rõ ràng là sự giải thích nguyên nhân không đúng sẽ dẫn đến những dự  
báo vô lý. Thí dụ như có rõ những nguyên nhân đã dẫn đến tốc độ tăng trưởng  
cao của nền kinh tế Việt Nam trong mấy năm vừa qua, chúng ta mới có thể có  
được những dự báo đáng tin về tốc độ này trong những năm sắp tới, chưa nói  
những điều chỉnh cần thiết do sự thay đổi của những nhân tố bên ngoài.  
Đề xuất các giả thiết về sự phát triển của các biến số trong tương lai; nói  
riêng, về khả năng xuất hiện những điểm uốn hay gián đoạn so với xu hướng "tự  
nhiên" và, nếu có thể, xác suất xuất hiện các điểm uốn hay gián đoạn đó.  
* Tiến hành dự báo và kiểm nghiệm kết quả dự báo  
Trong phần lớn các trường hợp rất cần phải kiểm nghiệm kết quả dự báo so  
với thực tế. Nó là cơ sở để chấp nhận dự báo và ứng dụng vào thực tiễn.  
* Ứng dụng dự báo  
Mục đích cuối cùng của dự báo là nhằm phục vụ quá trình xây dựng chiến  
lược, kế hoạch sản xuất kinh doanh và phục vụ quá trình ra quyết định, điều  
hành, quản lý của người lãnh đạo doanh nghiệp..  
Hiện tại có rất nhiều pháp dự báo về hoạt động sản xuất kinh doanh khác  
nhau (xem hình 1). Phân tiếp theo của Chương này chỉ giới thiệu tóm tắt một số  
phương pháp dự báo định lượng điển hình cho doanh nghiệp.  
- 16 -  
PHƯƠNG PHÁP  
DỰ BÁO  
PHƯƠNG PHÁP  
ĐỊNH TÍNH  
PHƯƠNG PHÁP  
ĐỊNH LƯỢNG  
Các mô hình  
nhân quả  
Các mô hình  
chuỗi thời gian  
- Lấy ý kiến của ban lãnh đạo  
- Lấy ý kiến của bộ phận bán  
hàng  
-Phương pháp lấy ý kiến của  
người tiêu dùng  
-Hồi quy  
- Làm trơn hàm mũ  
-Phân lớp  
-Phân tích tương  
quan,  
- Trung bình trượt tích hợp  
thồi qui (ARIMA) và  
ARIMA theo mùa v;  
- Mô hình thồi quy véc tơ  
VAR, ….  
-….  
-Phương pháp chuyên gia  
Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp  
1.3. Dự báo định lượng bằng các phương pháp hồi quy  
1.3.1.Hồi quy tuyến tính và hồi quy bội  
Hồi quy tuyến tính: Đây là dạng đơn giản nhất trong các phương pháp hồi quy.  
Ở dạng này, dữ liệu được mô hình hoá theo đường thẳng. Theo mô hình này,  
một biến ngẫu nhiên Y (biến trả lời - response variable) sẽ được tính bằng một  
hàm tuyến tính của một biến ngẫu nhiên X khác (biến dự báo – predictor  
variable) theo công thức[8]:  
Y = + X  
trong đó độ biến thiên của Y là không đổi, gọi là các hệ số hồi quy. Các  
hệ số này có thể được tính ra bằng phương pháp bình phương tối thiểu. Cho n  
mẫu hay điểm dữ liệu dưới dạng (x1 , y1), (x2 , y2),…, (xn , yn), các hệ số hồi quy  
có thể được ước lượng bằng phương pháp trên theo phương trình:  
n
(xi x)(yi y)  
i1  
n
(xi x)2  
i1  
y x  
- 17 -  
ở đây  
là giá trị trung bình của x1, x2,…, xn y là giá trị trung bình của  
x
y1,y2,…,yn.  
Hồi quy bội: là mở rộng của hồi quy tuyến tính với nhiều hơn một biến dự báo.  
Nó cho phép biến trả lời được mô hình hoá như là một hàm tuyến tính của một  
véc tơ nhiều chiều. Một ví dụ cho hồi quy bội với 2 biến dự báo X1 và X2 là:  
Y = + 1X1 + 2X2  
Các hệ số , 1, 2 vẫn có thể tính được bằng phương pháp bình phương tối  
thiểu.  
1.3.2. Hồi quy phi tuyến tính  
Với hồi quy tuyến tính, chúng ta đã có thể mô hình hoá những dữ liệu tuyến  
tính. Nhưng với dữ liệu không tuyến tính thì như thế nào ? Dưới đây là một số  
dạng hồi quy phi tuyến thường được sử dụng :  
- Hồi quy theo hàm log: logY = a + b * X  
Cho thấy xu thế tăng (hoặc giảm) theo tốc độ tăng %.  
- Hồi quy theo hàm parabol: Y = a + b * X + c * X2  
Cho thấy xu thế lúc đầu tăng (hoặc giảm) chậm, song về sau thì mạnh hơn  
- 18 -  
- Hồi quy theo hàm tăng trưởng (hàm logistic): Y=[a/(1+e(a-bX))]+b  
Xu thế này có hình chữ S, tức là lúc đầu tăng chậm (đường cong không  
dốc nhiều), sau đó tăng mạnh (đường cong dốc), sau đó lại tăng chậm lại (tiến  
đến mức bão hoà)  
- Hồi quy theo hàm vòng đời:  
Y=a/[1+e(a-bX)+f(d-cX)]  
Xu thế hàm vòng đời tương tự với xu thế hàm tăng trưởng ở 3 giai đoạn  
đầu (lúc đầu tăng chậm, sau tăng mạnh, sau tăng chậm lại), song khác với xu thế  
hàm tăng trưởng ở giai đoạn tiếp theo là hàm tăng trưởng tiến đến mức bão hoà,  
còn hàm vòng đời sau đó suy giảm.  
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian  
1.4.1. Khái niệm chuỗi thời gian  
Chuỗi dữ liệu phụ thuộc thời gian được chia làm hai loại [3]:  
- Chuỗi dữ liệu phụ thuộc thời gian được quan sát, đo đạc trong khoảng thời  
gian rời rạc: Các quan sát được thực hiện tại các thời điểm tách biệt, chúng  
thường là các quan sát được đo tại các mốc thời gian cách đều nhau, ví dụ chuỗi  
thời gian được đo theo tuần, quý, tháng, năm, ….  
- 19 -  
- Chuỗi dữ liệu liên tục theo thời gian: Các quan sát được đo trong khoảng thời  
gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế).  
Như vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu nhiên,  
ký hiệu là {zt }, t 1,...,n là số các quan sát, đo được trong các khoảng thời gian  
như nhau (hàng năm, quý, tháng, tuần, ngày …) và được xếp theo thứ tự thời  
t
gian.  
Ví d: Tổng giá trị sản xuất Tổng giá trị hàng tồn kho, nguyên liệu nhập về,  
chi phí quản lý, …, của một doanh nghiệp theo từng tháng chính là các chuỗi  
thời gian như vậy.  
1.4.2. Phân tích, dự báo chuỗi thời gian  
Quá trình phân tích, dự báo chuỗi thời gian {zt } là để tìm ra các mô hình,  
luật ẩn trong nó, việc này được thực hiện trên các quan sát mẫu, gồm có những  
bước sau[1]:  
Bước 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian  
- Thành phần xu thế (Trend - T): Thể hiện chiều hướng biến động tăng hoặc  
giảm của các hiện tượng nghiên cứu trong thời gian dài.  
- Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tượng được lặp  
lại với chu kỳ nhất định, thường kéo dài từ 2 đến 10 năm.  
- Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ của  
hiện tượng ở một số thời điểm (tháng, quý, năm) nào đó được lặp đi lặp lại qua  
nhiều năm.  
- Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không có  
qui luật và hầu như không dự báo hoặc quan sát được trong của hiện tượng đang  
nghiên cứu.  
Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều  
cách thức khác nhau, chẳng hạn chuỗi thời gian zt được mô tả là tích các thành  
phần, zt T P S I gọi là mô hình tích, hoặc zt T P S I gọi là mô  
hình tổng, hoặc kết hợp cả hai zt T P S I . Do vậy, để phân tích và  
nghiên cứu hành vi cũng như dự báo biến động của chuỗi thời gian thì cần thiết  
phải ước lượng được các thành phần nói trên trong chuỗi thời gian và cách thức  
kết hợp chúng với nhau trong chuỗi.  
Bước 2: Làm trơn số liệu  
- 20 -  
Tuỳ theo mô hình dự báo áp dụng mà cần thiết tiến hành bước làm trơn số  
liệu hay không. Trong trường hợp mô hình dự báo áp dụng cần quá trình làm  
trơn số liệu ta tiến hành loại trừ được thành phần xu thế và mùa vụ trong chuỗi  
thời gian. Chuỗi thu được sau cùng không còn chứa các thành phần đó (chuỗi  
được làm trơn) sẽ khiến cho việc phân tích, dự báo dễ dàng hơn.  
Bước 3: Chọn lựa, ước lượng và đánh giá mô hình  
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình được lựa chọn là  
“tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể hiểu  
được dễ dàng. Sau đó thực hiện ước lượng các tham số, phần dư cho mô hình  
vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá. Mô hình  
ước lượng được đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần giống” với  
chuỗi dữ liệu quan sát thực.  
Bước 4: Dự báo  
Dựa trên mô hình thực hiện dự báo giá trị tương lai cho chuỗi thời gian,  
phân tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết. Xác  
định độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin cậy của  
dự báo tức là giới hạn mà giá trị quan sát thực sẽ nằm trong.  
Bước 5: Ứng dụng mô hình dự báo vào trong thực tế  
Trên cơ sở các dự báo về các giá trị tương lai của hiện tượng nghiên cứu đề  
ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá trị  
quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô hình  
để đưa ra dự báo tốt hơn.  
Chất lượng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức tạp  
của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất  
thường không thể lường trước được khi tiến hành dự báo, ngoài ra độ chính xác  
cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo gần  
thì cho độ chính xác của dự báo tốt hơn so với dự báo xa).  
Hiện tại có nhiều mô hình phân tích và dự báo chuỗi thời gian, trong đó  
những mô hình điển hình là: Mô hình làm trơn hàm mũ chuỗi thời gian, bao  
gồm [4]:  
- Mô hình làm trơn hàm mũ bậc1, bậc 2 và bậc 3 (còn gọi là mô hình Holt –  
Winter). Trong mô hình Holt-Winter còn có mô hình Holt-Winter mùa vụ nhân  
và Holt-Winter mùa vụ cộng.  
- 21 -  
- Mô hình trung bình trượt tích hợp trung bình trượt tự hồi quy là mô hình tổ  
hợp của 3 quá trình: sai phân (hay tích hợp), Trung bình trượt và Tự hồi quy.  
Mô hình phát triển từ ARIMA để dự báo cho chuỗi thời gian có yếu tố mùa vụ  
được gọi là mô hình SARIMA.  
- Mô hình tự hồi quy véc tơ VAR, thực chất đó là tổ hợp của các mô hình  
Trung bình trượt và Tự hồi quy cho nhiều chuỗi thời gian, nói cách khác mô  
hình VAR là một hệ gồm nhiều phương trình của nhiều chuỗi thời gian có liên  
quan với nhau về trể, ở đó mỗi phương trình có dạng của mô hình Trung bình  
trượt kết hợp với mô hình Tự hồi quy.  
1.4. Dự báo bằng phương pháp phân lớp dữ liệu  
1.4.1. Phương pháp phân lớp dliu  
Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử  
dụng mô hình để phân lớp dữ liệu [12].  
Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu.  
Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là  
thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện  
(training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác  
định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học  
có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy  
(unsupervised learning).  
Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ  
chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được  
sử dụng để dự báo nhãn lớp cho các mẫu dữ liệu khác trong tương lai.  
Các kỹ thuật phân lớp dữ liệu chủ yếu để dự báo số liệu gồm có: phân lớp  
theo phương pháp Bayes, phân lớp theo cây quyết định, phân lớp theo phương  
pháp máy vector hỗ trợ (SVM), phân lớp theo phương pháp mạng nơron, thuật  
toán di truyền, thuật toán người lãng riềng gần nhất, …  
1.4.2. Độ chính xác phân lớp  
Ước lượng độ chính xác của mô hình phân lớp là một bước quan trọng cho  
phép người dùng đánh giá được dữ liệu được phân lớp trong tương lai của họ sẽ  
chính xác đến đâu. Ngoài ra độ chính xác này còn có thể dùng làm tiêu chí để so  
sánh các bộ phân lớp khác nhau[12].  
Để ước lượng độ chính xác của mô hình phân lớp, chúng ta có 1 số phương  
pháp như holdout hay k-fold cross-validation, bootstrapping, leave-one-out…  
- 22 -  
- Phương pháp holdout: trong phương pháp này, tập dữ liệu ban đầu sẽ được  
chia ngẫu nhiên ra làm 2 tập: tập huấn luyện tập kiểm thử. Tập huấn luyện  
được dùng để xây dựng mô hình còn tập kiểm thử được dùng để ước lượng độ  
chính xác. Sơ đồ phương pháp này được thể hiện trong hình dưới.  
Tập huấn  
luyện  
Bộ phân  
lớp  
Đánh giá  
độ chính xác  
Dữ liệu  
Tập kiểm  
thử  
Hình 2.  
Đánh giá độ chính xác của bộ phân lớp bằng phương pháp  
holdout  
- Phương pháp k-fold cross-validation: trong phương pháp này, tập dữ liệu  
ban đầu sẽ được chia thành k tập con (fold), thường là với kích thước bằng nhau.  
Bước huấn luyện và bước kiểm thử sẽ được thực hiện làm k lần. Tại mỗi lần lặp  
thi, tập con Si sẽ được dùng làm tập kiểm thử còn các tập con còn lại sẽ được  
dùng làm tập huấn luyện. Độ chính xác sẽ được tính bằng tổng số các trường  
hợp phân loại đúng trong k lần chia cho tổng số mẫu trong tập dữ liệu ban đầu.  
Để tăng độ chính xác của phương pháp phân lớp, người ta đưa ra một số kỹ  
thuật như: Bagging boosting. Tư tưởng chính của kỹ thuật bagging là thay vì  
xây dựng một bộ phân lớp, chúng ta sẽ xây dựng k bộ phân lớp từ tập dữ liệu  
ban đầu, với mỗi mẫu mới cần phân lớp, mỗi bộ phân lớp sẽ có 1 kết qudự báo  
và nhãn nào được dự báo nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu  
mới. Kỹ thuật boosting tương tự kỹ thuật bagging nhưng mỗi mẫu học sẽ được  
gán thêm 1 trọng số để giúp các bộ phân loại xây dựng sau tránh các lỗi mà các  
bộ phân loại trước gặp phải.  
KẾT LUẬN CHƯƠNG 1  
Trong chương 1, luận văn đã trình bày một cách tổng quan về dự báo và các  
phương pháp dự báo. Các phương pháp dự báo bao gồm các phương pháp dự  
báo định tính và các phương pháp dự báo định lượng. Trong phương pháp định  
lượng gồm phương pháp (mô hình) chuỗi thời gian và mô hình nhân quả.  
Luận văn này đã giới thiệu một cách tóm tắt quy trình các bước phân tích, dự  
- 23 -  
báo bằng mô hình chuỗi thời gian và 3 mô hình chuỗi thời gian điển hình nhất  
đang được ứng dụng hiện nay là mô hình làm trơn hàm mũ chuỗi thời gian, mô  
hình trung bình trượt tích hợp tự hồi quy và mô hình tự hồi quy véc tơ.  
Trong mô hình nhân qu, luận văn đã giới thiệu nhanh các mô hình hồi quy  
tuyến tính và phi tuyến, và phương pháp dự báo bằng phân lớp dữ liệu. Phương  
pháp dự báo phân lớp dữ liệu sẽ là đối tượng nghiên cứu chính của luận văn này.  
Trong chương tiếp theo, luận văn sẽ tập trung trình bày phương pháp phân  
lớp dữ liệu sử dụng mạng nơron nhân tạo để dự báo định lượng.  
- 24 -  
CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP  
MẠNG NƠRON NHÂN TẠO  
2.1. Mạng nơron nhân tạo  
1). Khái quát về mạng nơron  
Vbản chất mạng nơron nhân tạo là mô hình mô phỏng đơn giản của nơron  
sinh học[7]. Mạng nơron nhân tạo cũng thực hiện nhiệm vụ của mình thông qua  
các thao tác: nhận đầu vào từ các nơron trước nó, xử lý đầu vào bằng cách nhân  
mỗi đầu vào này với trọng số liên kết tương ứng và tích hợp các đầu vào thu  
được rồi đưa qua một hàm truyền, sau đó gửi kết quả cuối cùng cho các nơron  
tiếp theo hoặc đầu ra (output). Cứ như vậy các nơron này hoạt động phối hợp  
với nhau tạo thành hoạt động chính của mạng nơron.  
Trong mạng nơron, các nơron liên kết với nhau qua các trọng số và ngưỡng.  
Trong quá trình huấn luyện thì giá trị các trọng số và ngưỡng được thay đổi cho  
phù hợp với các mẫu ở đầu vào.  
2). Ưu, nhược điểm của mạng Nơron nhân tạo  
- Ưu điểm:  
Có thể nói mạng Nơron có ưu điểm lớn nhất là khả năng học, khả năng tổng  
quát hóa cũng như khả năng thích ứng với rất nhiều kiểu dữ liệu khác nhau trong  
nhiều lĩnh vực khác nhau.  
Học là quá trình huấn luyện mạng nơron có khả năng nhận biết chính xác các  
mẫu. Đó là quá trình ghi nhớ tri thức về các mẫu được học thông qua việc điều  
chỉnh các trọng số đầu vào và ngưỡng tương ứng.  
Tổng quát hóa là quá trình phân loại mẫu dựa trên các mẫu mà mạng đã  
được học. Mạng nơron có thể giải quyết các bài toán phức tạp ở nhiều lĩnh vực  
khác nhau.  
- Nhược điểm:  
Tuy mạng nơron có những rất nhiều ưu điểm nhưng vẫn có nhược điểm là  
thời gian huấn luyện lâu, còn hội tụ ở giá trị cực trị địa phương…  
3). Các ứng dụng của mạng Nơron nhân tạo  
Mạng nơron thích hợp với các ứng dụng so sánh và phân loại mẫu (pattern  
matching and classification), dự báo (prediction) và điều khiển (control). Chính  
vì thế mạng nơron có nhiều ứng dụng trong:  
- 25 -  
- Không gian vũ trụ: như máy bay không người lái, các chế độ bay tự động, hệ  
thống phát hiện sai hỏng…  
- Dự thoái tài chính kinh tế: Dự báo giá cả biến động, cấp số thời gian trong thị  
trường tài chính, các ứng dụng về điều hành vốn, dự báo thị trường ngoại hối,  
đánh giá rủi ro…  
- Hoạt động ngân hàng  
- Hệ thống phòng thủ: hệ thống điều khiển vũ khí dò tìm mục tiêu, nhận dạng  
mục tiêu, điều khiển đường đạn, xử lý và nhận dạng tín hiệu ảnh, rada…  
- Điện tử viễn thông: dự báo chuỗi mã, phân tích lỗi mạch tích hợp, nhận dạng  
chữ viết, vân tay, tiếng nói…  
2.2. Mô hình của mạng nơron nhân tạo  
Một nơron là đơn vị xử lí thông tin, đó là những nguyên tắc cơ bản của quá  
trình hoạt động của mạng nơron. Hình 3 cho biết mô hình của một nơron.  
Có 3 phần tử cơ bản của mô hình ron như được mô tả dưới đây[7]:  
1) Một tập hợp các khớp thần kinh hay mối liên kết được đặc trưng bởi trọng số  
của nó. Một tín hiệu đầu vào xj của khớp thần kinh j liên kết với nơron k được  
khuyếch đại bởi trọng số chuyển tiếp wkj. Trọng số wkj là tích cực nếu khớp liên  
hợp được kích thích, nó là không tích cực nếu khớp liên hợp bị kìm hãm.  
2) Một bộ cộng để cộng những tín hiệu đầu vào được khuyếch đại bởi các khớp  
thần kinh tương ứng của nơron.  
3) Một hàm kích hoạt để định ra giới hạn biên độ đầu ra của một nơron. Hàm  
kích hoạt còn được coi như một hàm nén, bên trong nó nén những giới hạn biên  
độ chấp nhận được của tín hiệu đầu ra đến một số giá trị hữu hạn nào đó. Giá trị  
giới hạn đầu ra bình thường của nơron là khoảng đóng [0,1] hoặc [-1,1]. Mô  
hình của nơron mô tả trong hình 3 bao gồm một ngưỡng ứng dụng ngoài i do  
đó có tác dụng làm hạn chế hàm kích hoạt đầu vào. Mặt khác mạng lưới đầu vào  
của hàm kích hoạt có thể được tăng lên bởi việc dùng sự chênh lệch giới hạn  
hơn là dùng ngưỡng. Sự chênh lệch là sự phủ nhận ngưỡng. Trong giới hạn toán  
học chúng ta có thể mô tả một nơron k được viết bởi hệ phương trình:  
p
(1.1)  
vk  
wkj xj  
j1  
và  
yk = (vk - k)  
(1.2)  
- 26 -  
Trong đó:  
x1, x2,...,xp là các tín hiệu đầu vào;  
wk1,wk2,...,wkp là các trọng số chuyển tiếp của nơron k;  
uk là bộ phối hợp đầu ra tuyến tính;  
k là ngưỡng;  
(.) là hàm kích hoạt;  
yk là tín hiệu ra của nơron.  
Wk  
1
x1  
hàm kích hoạt  
đầu  
vào  
Wk  
(.)  
2
x2  
vk  
đầu ra  
yk  
tổng  
.
.
liên kết  
k (ngưỡng)  
xk  
wkp  
trọng số  
chuyển tiếp  
Hình 3.  
Mô hình phi tuyến của một nơron  
Sử dụng ngưỡng k có hiệu quả ứng dụng biến đổi afin tới đầu ra uk của bộ  
phối hợp tuyến tính trong hình 3 được biểu diễn bởi :  
uk=vk - k  
(1.3)  
Đặc biệt sự phụ thuộc vào ngưỡng k dù là tích cực hay thụ động, mối quan  
hệ giữa hiệu quả mức hoạt động mội tại hoặc khả năng kích hoạt vk của nơron k  
và bộ phối hợp tuyến tính đầu ra uk được sửa đổi như hình 4.  
Lưu ý là do kết quả của biến đổi aphin, đồ thị của vk không còn đi qua gốc  
toạ độ.  
- 27 -  
Tổng mức  
kích hoạt  
bên trong  
vk  
ngưỡng k <0  
k=0  
k>0  
0
đầu ra kết hợp  
phi tuyến, uk  
Hình 4. Kết quả biến đổi afine của ngưỡng  
Ngưỡng k là tham số ngoài của nơron nhân tạo k. Chúng ta có thể tính toán  
nó như trong công thức 1.2  
Tương đương chúng ta có thể kết hợp của công thức 1.1 và 1.2 thành công  
thức  
p
(1.4)  
vk  
wkj xj  
j0  
và  
yk = (vk)  
(1.5)  
(1.6)  
(1.7)  
Trong công thức 1.4 ta đã thêm vào một khớp thần kinh mới, đầu vào là  
x0=-1  
và trọng số của nó là  
wk0= k  
Bởi vậy chúng ta có thể công thức hoá lại mô hình của nơron như hình 5a.  
Trong hình này sự ảnh hưởng của ngưỡng được thể hiện bởi hai việc :  
- Thêm một tín hiệu đầu vào mới cố định tại -1.  
- Thêm trọng số chuyển tiếp mới cân bằng với ngưỡng k.  
- 28 -  
Cách khác chúng ta có thể mô hình nơron như trong hình 5b với sự kết hợp cố  
định đầu vào x0=1và trọng số wk0=bk (bk độ chênh lệch). Mặc dù mô hình 1.4 và  
1.6 là khác nhau nhưng tương đương về mặt toán học.  
Hình 5. Hai mô hình phi tuyến của nơron  
Giá trị vào  
cố định  
xo=-1  
wk0=k  
Wk  
0
Wk  
1
x1  
hàm kích hoạt  
(.)  
đầu  
vào  
Wk  
2
x2  
x3  
vk  
tổng  
đầu ra  
yk  
.
.
liên kết  
wkp  
trọng số  
chuyển tiếp (gồm cả ngưỡng)  
(a)  
1) Các loại hàm kích hoạt  
Hàm kích hoạt được biểu thị (.), nó định nghĩa đầu ra của nơron trong giới  
hạn mức hoạt động của đầu vào. Nói chung người ta xác định 3 loại hàm kích  
hoạt cơ bản.  
a. Hàm ngưỡng: Hàm kích hoạt loại này được mô tả trong hình 5a, ta có công  
thức  
1
nếu v>0  
(1.8)  
(v)=  
0 nếu v <0  
do đó, đầu ra của nơron k dùng một hàm ngưỡng như vậy, được biểu thị  
1
0
nếu vk >=0  
nếu vk <0  
(1.9)  
yk =  

Tải về để xem bản đầy đủ

pdf 103 trang yennguyen 11/05/2025 150
Bạn đang xem 30 trang mẫu của tài liệu "Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluan_van_ap_dung_cac_ky_thuat_phan_lop_du_lieu_hoi_quy_de_du.pdf