Luận văn Xử lý song song

1

MỞ ĐẦU

Hiện nay, với sự xuất hiện ngày càng nhiều các hệ thống điện tử đã làm cho lượng

thông tin trong mọi lĩnh vực phát triển nhanh chóng, có cấu trúc đa dạng và phức tạp.

Đặc biệt, trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận dạng, xử lý ảnh, dự báo thời tiết,

v.v. đòi hỏi máy tính phải xử lý một lượng dữ liệu rất lớn, với tốc độ cao. Có thể nói

rằng những máy tính xử lý tuần tự kiểu Von Neumann khó có thể đáp ứng được yêu

cầu về thời gian và khối lượng công việc thực hiện. Điều này dẫn tới là muốn tăng được

khả năng tính toán của các hệ thống máy tính thì đích cuối cùng là phải khai thác được

khả năng xử lý song song của chúng.

Xử lý song song liên quan trực tiếp đến kiến trúc song song và giải thuật song

song. Gần đây, với sự phát triển của máy tính song song và nhờ các giải thuật song

song hợp lý đã làm thay đổi nhiều quan niệm về khả năng giải được trong thực tế của

những bài toán khác nhau. Nhiều thuật toán trước đây không thể chấp nhận vì khối

lượng tính toán quá lớn thì ngày nay lại hoàn toàn khả thi và có hiệu lực lớn. Các bài

toán phức tạp trong lĩnh vực toán học đã có thuật toán hữu hiệu để giải nó.

Với yêu cầu trên, mục đích của luận văn là nghiên cứu các kiến trúc của máy tính

song song, các mô hình và các thuật toán trong xử lý song song. Trên cơ sở đó đề tài sẽ

khai thác và áp dụng các giải thuật song song cho việc tìm nghiệm một số bài toán phi

tuyến nhằm cải thiện đáng kể thời gian và tốc độ tính toán.

Nội dung của đề tài được phân thành 3 chương. Chương 1, sẽ giới thiệu tổng quan

về máy tính song song nhằm đưa ra cấu trúc và phân loại, đánh giá các kiến trúc song

song đang sử dụng trong thực tế. Chương 2, áp dụng các kiến trúc song song để đưa ra

các mô hình lập trình và các nguyên lý thiết kế giải thuật song song. Chương cuối cùng,

là phần trọng tâm của đề tài, áp dụng các kiến trúc, mô hình lập trình và giải thuật song

song để phân tích và cài đặt một số lớp giải bài toán phi tuyến.

2

CHƯƠNG I

TỔNG QUAN VỀ MÁY TÍNH SONG SONG

I.1 Giới thiệu chung

Tại sao phải xử lý song song?

Nhiều lĩnh vực mới như đồ họa máy tính, trí tuệ nhận tạo, phân tích số, v.v. đòi hỏi

phải xử lý một khối lượng dữ liệu rất lớn do đó cần phải có những hệ thống máy tính

thật mạnh mới thực hiện được những yêu cầu trong thực tế. Những vấn đề về xử lý

ngôn ngữ tự nhiên, nhận dạng, xử lý ảnh ba chiều (3-D), dự báo thời tiết, mô hình và

mô phỏng những hệ thống lớn, v.v. đều đòi hỏi phải xử lý dữ liệu với tốc độc rất cao,

với khối lượng dữ liệu rất lớn. Hầu hết những bài toán này, những máy tính xử lý tuần

tự kiểu Von Neumann là không đáp ứng yêu cầu.

Mặc dù tốc độ xử lý của các bộ xử lý (BXL) tăng nhưng khả năng tính toán của

chúng không thể tăng mãi được do giới hạn về vật lý. Điều này dẫn tới là muốn tăng

được khả năng tính toán của các hệ thống máy tính thì đích cuối cùng là phải khai thác

được khả năng xử lý song song của chúng.

Ngày càng xuất hiện nhiều bài toán mà những hệ thống đơn một bộ xử lý (BXL)

không đáp ứng được yêu cầu xử lý về thời gian, do đó đòi hỏi phải sử dụng những hệ

thống đa bộ xử lý và đòi hỏi phải xử lý song song.

Xử lý song song là quá trình xử lý gồm nhiều tiến trình được kích hoạt đồng thời và

cùng tham gia giải quyết một vấn đề, nói chung là thực hiện trên những hệ thống đa bộ

xử lý [14].

Khái niệm xử lý song song khác với tuần tự:

1. Trong tính toán tuần tự với một BXL thì mỗi thời điểm thực hiện được một phép toán.

2. Trong tính toán song song thì một số BXL cùng kết hợp với nhau để giải quyết

3

cùng một vấn đề cho nên giảm được thời gian xử lý vì mỗi thời điểm có thể có nhiều

phép toán được thực hiện đồng thời.

Câu hỏi đặt ra là vấn đề xử lý song song hiện nay có hiện thực hay không? Câu trả

lời là khẳng định. Ba yếu tố chính dẫn đến việc xử lý song song:

1. Hiện nay giá thành của phần cứng (CPU) giảm mạnh, tạo điều kiện để xây dựng

những hệ thống có nhiều BXL với giá thành hợp lý.

2. Sự phát triển của công nghệ mạch tích hợp VLSI cho phép tạo ra những hệ phức

hợp có hàng triệu transistor trên một chip.

3. Tốc độ xử lý của các BXL theo kiểu Von Neumann đã dần tiến tới giới hạn,

không thể cải tiến thêm được do vậy dẫn tới đòi hỏi phải thực hiện xử lý song song.

Những yếu tố trên thúc đẩy các nhà nghiên cứu phải tập trung khai thác công nghệ

xử lý song song và tận dụng chúng để giải quyết những bài toán ứng dụng quan trọng

của thực tế.

Vấn đề xử lý song song liên quan trực tiếp đến:

 Kiến trúc máy tính,

 Phần mềm hệ thống (hệ điều hành),

 Thuật toán,

 Ngôn ngữ lập trình, v.v.

Một máy tính song song là tập hợp các BXL, thường là cùng một loại, kết nối với

nhau theo một cách nào đó để có thể hợp tác với nhau trong hoạt động và trao đổi dữ

liệu được với nhau [12].

Các máy tính song song có thể phân thành nhiều loại dựa vào kiểu và số lượng các

BXL, sự kết nối giữa chúng, dựa vào sơ đồ truyền thông và các thao tác vào/ra, v.v.

Phần lớn các hệ điều hành ngày nay đều đã hỗ trợ đa xử lý / đa nhiệm và cho phép

nghiên cứu, khai thác các phương pháp lập trình song song. Nhưng điều quan trọng là

nhiều BXL phải tham gia "cùng giải một bài toán". Nói cách khác, những tiến trình

thực hiện trên mỗi BXL phải kết hợp, trao đổi với nhau để giải quyết một bài toán cho trước.

4

Trường hợp ngược lại không phải là xử lý song song. Ví dụ, nếu một đơn vị dịch

chương trình File1.a và một đơn vị khác dịch chương trình File2.a thì không được

xem là xử lý song song vì hai công việc đó hoàn toàn độc lập với nhau. Nhưng nếu một

đơn vị đang dịch một phần của chương trình File.a và một đơn vị khác lại dịch một

phần khác của cùng chương trình thì đó là sự xử lý song song.

Một trong các mục đích chính của xử lý song song là nghiên cứu, xây dựng những

thuật toán thích hợp để cài đặt trên các máy tính song song, nghĩa là phát triển các thuật

toán song song. Câu hỏi tự nhiên là đánh giá một thuật toán song song như thế nào

được gọi là thích hợp cho xử lý song song? Đối với thuật toán tuần tự thì chúng ta

thống nhất cách đánh giá dựa vào thời gian thực hiện thuật toán, không gian bộ nhớ và

khả năng lập trình, v.v. Đánh giá thuật toán song song thì phức tạp hơn nhiều, ngoài

những tiêu chuẩn trên còn bổ sung thêm những tham số về số bộ xử lý, khả năng của

các bộ nhớ cục bộ, sơ đồ truyền thông, các giao thức đồng bộ hoá, v.v.

Để cài đặt các thuật toán song song trên các máy tính song song chúng ta phải sử

dụng những ngôn ngữ lập trình song song. Nhiều ngôn ngữ lập trình song song đang

được sử dụng như: Fortran 90, nCUBE C, Occam, C-Linda, PVM với C/C++, CDC

6600, v.v.

I.2 Phân loại các kiến trúc máy tính

Dựa vào các đặc tính về số lượng BXL, số chương trình thực hiện, cấu trúc bộ nhớ,

v.v., Michael Flynn (1966) [20] đã đưa ra cách phân loại nổi tiếng được nhiều người

chấp nhận.

I.2.1 Mô hình SISD: Đơn luồng lệnh, đơn luồng dữ liệu

Máy tính loại SISD chỉ có một CPU, ở mỗi thời điểm thực hiện một chỉ lệnh và chỉ

đọc, ghi một mục dữ liệu. Tất cả các máy tính SISD chỉ có một thanh ghi register được gọi là

bộ đếm chương trình (program counter) được sử dụng để nạp địa chỉ của lệnh tiếp theo khi

xử lý tuần tự và kết quả là thực hiện theo một thứ tự xác định của các câu lệnh. Hình 1-1 mô

tả hoạt động của máy tính theo mô hình SISD.

5

Tín hiệu

điều khiển

Đơn vị

BXL số

điều khiển

học

Luồng

dữ liệu

Luồng

kết quả

Luồng lệnh

Bộ nhớ

Hình 1-1 Mô hình của kiến trúc SISD

Mô hình SISD còn được gọi là SPSD, đơn chương trình và đơn luồng dữ liệu. Đây

chính là mô hình máy tính truyền thống kiểu Von Neumann.

I.2.2 Mô hình SIMD: Đơn luồng lệnh, đa luồng dữ liệu

Máy tính loại SIMD có một đơn vị điều khiển để điều khiển nhiều đơn vị xử lý

(nhiều hơn một đơn vị) thực hiện theo một luồng các câu lệnh. CPU phát sinh tín hiệu

điều khiển tới tất cả các phần tử xử lý, những BXL này cùng thực hiện một phép toán

trên các mục dữ liệu khác nhau, nghĩa là mỗi BXL có luồng dữ liệu riêng. Máy tính

SIMD có thể hỗ trợ xử lý kiểu vector, trong đó có thể gán các phần tử của vector cho

các phần tử xử lý để tính toán đồng thời. Máy tính vector và các BXL mảng là mô hình

chủ yếu thuộc loại này. Hình 1-2 mô tả hoạt động của máy tính theo mô hình SIMD,

còn được gọi là SPMD.

Đơn vị điều khiển (CU)

Tín hiệu

điều khiển

Phần tử

xử lý 1

Phần tử

xử lý 2

Phần tử

xử lý n

. . .

Hình 1-2 Mô hình của kiến trúc SIMD

Mô hình SIMD còn được gọi là SPMD, đơn chương trình và đa luồng dữ liệu. Đây

chính là mô hình máy tính phổ biến có trên thị trường như: ILLIAC IV, DAP và Conn-

ection Machine CM-2.

6

I.2.3 Mô hình MISD: Đa luồng lệnh, đơn luồng dữ liệu

Máy tính loại MISD là ngược lại với SIMD. Máy tính MISD có thể thực hiện nhiều

chương trình (nhiều lệnh) trên cùng một mục dữ liệu, nên còn được gọi là MPSD (đa

chương trình, đơn luồng dữ liệu). Kiến trúc kiểu này có thể chia thành hai nhóm:

▪

Lớp các máy tính yêu cầu những đơn vị xử lý (PU) khác nhau có thể nhận được

những chỉ lệnh khác nhau để thực hiện trên cùng một mục dữ liệu. Đây là kiến trúc

khó và hiện nay chưa có loại máy tính nào được sản xuất theo loại này.

▪ Lớp các máy tính có các luồng dữ liệu được chuyển tuần tự theo dãy các CPU liên

tiếp. Đây là loại kiến trúc hình ống thực hiện xử lý theo vector thông qua một dãy các

bước, trong đó mỗi bước thực hiện một chức năng và sau đó chuyển kết quả cho PU

thực hiện bước tiếp theo. Hoạt động của máy tính theo kiến trúc loại này giống như hệ

tuần hoàn nên còn được gọi là hệ tâm thu. Hình 1-3 mô tả hoạt động của máy tính theo

Luồng lệnh 1

mô hình MISD

Phần tử

xử lý 1

CU 1

Phần tử

xử lý 2

Luồng lệnh 2

CU 2

Luồng

dữ liệu

.

Luồng lệnh n

Phần tử

CU n

xử lý n

Hình 1-3 Mô hình của kiến trúc MISD

I.2.4 Mô hình MIMD: Đa luồng lệnh, đa luồng dữ liệu

Máy tính loại MIMD còn gọi là đa BXL, trong đó mỗi BXL có thể thực hiện những

luồng lệnh (chương trình) khác nhau trên các luồng dữ liệu riêng.

Hầu hết các hệ thống MIMD đều có bộ nhớ riêng và cũng có thể truy cập vào được

bộ nhớ chung (global) khi cần, do vậy giảm thiểu được sự trao đổi giữa các BXL trong hệ thống.

Đây là kiến trúc phức tạp nhất, nhưng nó là mô hình hỗ trợ xử lý song song cao

nhất và đã có nhiều máy tính được sản xuất theo kiến trúc này, ví dụ: BBN Butterfly,

7

Alliant FX, iSPC của Intel, v.v. Mô hình của kiến trúc MIMD được mô tả như hình 1-4.

Luồng dữ

liệu 1

Luồng lệnh 1

Luồng lệnh 2

Phần tử

xử lý 1

CU 1

CU 2

Luồng dữ

liệu 2

Phần tử

xử lý 2

.

Luồng dữ

liệu n

Luồng lệnh n

Phần tử

CU n

xử lý n

Hình 1-4 Mô hình của kiến trúc MIMD

I.3 Kiến trúc máy tính song song

Theo sự phân loại của Flynn thì có hai họ kiến trúc quan trọng cho các máy tính

song song đó là SIMD và MIMD. Những kiến trúc khác có thể xếp theo hai mẫu đó.

Mẫu hình các kiến trúc xử lý song song có thể phân chia như hình 1-5.

Multiprocessor

MIMD

Multicomputer

Data Flow Machine

Array Processor

SIMD

MISD

Pipelined Vector Processor

Systolic Array

SIMD-MIMD

MIMD-SIMD

Hybrid

Hình 1-5 Các mẫu hình kiến trúc xử lý song song

Những kiến trúc khác nhau có thể tạo ra những khả năng khác nhau cho việc xử lý

song song. Ngay trong kiến trúc tuần tự chúng ta cũng có thể tận dụng tốc độ cực nhanh

của các bộ xử lý để thực hiện xử lý song song theo nguyên lý chia sẻ thời gian và chia

sẻ tài nguyên. Tất nhiên đối với những kiến trúc máy tính song song thì mục đích chính

8

là khai thác triệt để khả năng của kiến trúc song song để viết các chương trình song song.

I.3.1 Song song hóa trong máy tính tuần tự

Mục tiêu của xử lý song song là khai thác đến mức tối đa các khả năng sử dụng của

các thiết bị phần cứng nhằm giải quyết nhanh những bài toán đặt ra trong thực tế.

Nhưng cấu trúc phần cứng thường là trong suốt đối với những người lập trình. Sau đây

chúng ta tìm hiểu về kỹ thuật song song áp dụng trong các máy tính có một BXL.

Đa đơn vị chức năng

Hầu hết các máy tính truyền thống chỉ có một đơn vị số học và logic (ALU) trong

BXL. Ở mỗi thời điểm nó chỉ có thể thực hiện một chức năng.

Nhiều máy tính thực tế hiện nay có thể có nhiều đơn vị chức năng (nhất là những

chức năng chuyên biệt) và những đơn vị này có thể thực hiện song song được. Ví dụ

như trong họ vi xử lý Intel 80XXX có bộ đồng xử lý 80387 làm việc với 80386 hay

80486.

Bộ vi xử

lý 80386

Bộ đồng

vi xử lý

80387

Bộ nhớ

chính

Các cổng

vào / ra

Bus hệ thống (dữ liệu, địa chỉ, điều khiển)

Hình 1-6 Kết nối bộ đồng xử lý.

Bộ đồng xử lý chỉ thực hiện các chức năng riêng biệt ví dụ như khối đồ hoạ

(Graphics Unit), khối xử lý tín hiệu (Signal processing Unit), khối xư lý ảnh (Image

processing Unit), khối xử lý ma trận, vectơ (Vector and Matrix processor), khối xử lý

dấu phẩy động (FPU: Floating Point Unit).v.v. Các khối này có thể thực hiện đồng thời

và có tốc độ nhanh hơn rất nhiều so với bộ xử lý chính. Các bộ vi xử lý công nghệ cao

hiện nay có thể cấy một vài khối chức năng đặc biệt (SFU: Special Function Unit ) này

vào bên trong chip bộ xử lý nhằm giảm tối thiểu thời gian trễ do giao tiếp với SFU và

như vậy sẽ làm tăng tốc độ thực hiện các phép xử lý trên chúng. Hoặc máy CDC 6600

9

(thiết kế năm 1964) có 10 đơn vị chức năng được tổ chức trong một BXL. Những đơn

vị chức năng này độc lập với nhau và do vậy có thể thực hiện đồng thời. Thường đó là

các đơn vị thực hiện các phép toán rất cơ bản như: phép cộng, nhân, chia, tăng giảm,

các phép logic và các phép dịch chuyển (shift). Với 10 đơn vị chức năng và 24 thanh

ghi (register), máy tính CDC 6600 có thể thực hiện tính toán với tốc độ tăng lên đáng

kể, đáp ứng được nhiều bài toán xử lý song song.

Vấn đề chính đối với những máy tính loại này là cần phải xây dựng bộ lập lịch tối

ưu để phân chia các câu lệnh thực hiện sao cho tận dụng được tối đa các đơn vị chức

năng cũng như các tài nguyên mà máy tính cung cấp.

Xử lý theo nguyên lý hình ống trong CPU

Nhiều pha thực hiện khác nhau của các câu lệnh có thể thực hiện theo nguyên lý

hình ống, ví dụ như một đường ống lệnh được tổ chức gồm 5 phân đoạn: nạp câu lệnh

về từ bộ nhớ, giải mã (decode), xác định các toán hạng, thực hiện các phép số học/logic

và lưu trữ kết quả. Khi lệnh thứ nhất bắt đầu bước vào thực hiện ở giai đoạn thứ hai thì

mã lệnh của lệnh tiếp theo được đọc từ bộ nhớ ra để thực hiện bước một. Bằng cách

thực hiện như trên thì trong quá trình thực hiện của bộ xử lý có thể thực hiện được

nhiều câu lệnh gối đầu nhau trong cùng một thời gian giống như dòng nước chảy trong

đường ống.

Những câu lệnh trong chương trình có thể thực hiện gối đầu nhau theo nguyên lý

hình ống và nó sẽ hiệu quả hơn khi dựa vào kỹ thuật tạo ra vùng đệm dữ liệu.

Sự gối đầu CPU và các thao tác vào/ra (I/O)

Nhiều phép vào/ra có thể thực hiện đồng thời đối với nhiều nhiệm vụ tính toán

khác nhau bằng cách sử dụng những bộ điều khiển vào/ra, các kênh hay những BXL

vào/ra khác nhau.

Trong các máy tính hiện nay có nhiều bộ điều khiển thiết bị vào/ra, cho phép đa xử

lý vào/ra do vậy tăng được tốc độ trao đổi dữ liệu giữa các thiết bị ngoài với CPU.

Các hệ thống bộ nhớ phân cấp

Tốc độ các phép toán thực hiện trong BXL nhanh hơn rất nhiều việc truy cập vào

10

bộ nhớ và tốc độ truy cập vào bộ nhớ nguyên thủy (bộ nhớ trong) nhanh hơn đối với

bộ nhớ phụ (bộ nhớ ngoài).Hệ thống bộ nhớ phân cấp như thế có thể mô tả như hình1-7

CPU (Registers)

Tăng về tốc độ

Cache

truy cập

Main Memory

Fixed Disks, Drum

Tăng khả năng

lưu trữ

Magnetic Tapes

Hình 1-7 Hệ thống bộ nhớ phân cấp

Các thanh ghi được sử dụng trực tiếp cho ALU. Bộ nhớ cache được xem như vùng

đệm giữa BXL và bộ nhớ chính. Sự song song hóa trong sự trao đổi dữ liệu theo cấu

trúc phân cấp là cách khai thác chung để cải tiến hiệu quả xử lý của hệ thống. Ví dụ,

trong khi dữ liệu được chuyển từ bộ nhớ phụ vào bộ nhớ chính thì đồng thời có thể

chuyển dữ liệu từ cache vào cho CPU.

Đa chương trình và chia sẻ thời gian

Các hệ điều hành của máy tính đơn bộ xử lý cho phép thực hiện song song dựa vào

cách tiếp cận phần mềm.

Trong cùng một khoảng thời gian, có nhiều tiến trình cùng truy cập vào dữ liệu từ

những thiết bị vào/ra chung. Chúng ta biết rằng phần lớn các chương trình đều có hai

phần: phần vào/ra và các thành phần tính toán trong quá trình xử lý. Các hệ điều hành

đa chương trình xáo trộn sự thực hiện của nhiều chương trình các loại khác nhau nhằm

cân bằng giải băng thông thực hiện của các đơn vị chức năng.

Trong một hệ đa chương trình, một tiến trình tính toán với cường độ cao có thể cắt

ngang để tạm thời chiếm dụng CPU trong khi một tiến trình trước đó không đòi hỏi

11

phải kết thúc công việc. Để tránh việc bị chặn lại (blocking) của các thiết bị thì khái

niệm chia sẻ thời gian (Time-sharing) được sử dụng. Bộ lập lịch chia sẻ thời gian làm

nhiệm vụ phân chia (gán) CPU cho mỗi tiến trình một khoảng thời gian cố định theo

phương pháp quay vòng tròn. Bằng cách đó, tất cả các tiến trình đều được sẵn sàng để

thực hiện trên cơ sở được phép sử dụng CPU và những tài nguyên khác một cách có cạnh tranh.

Vấn đề chia sẻ thời gian cho nhiều tiến trình làm nảy sinh khái niệm các BXL ảo.

Nghĩa là, mỗi tiến trình được cung cấp một môi trường được xem như một BXL ảo để

thực hiện riêng cho tiến trình đó.

Do vậy, về nguyên tắc việc phát triển những chương trình song song trên máy đơn

BXL thực hiện được nếu có hệ điều hành cho phép nhiều tiến trình thực hiện, nghĩa là

có thể xem hệ thống như là đa bộ xử lý.

I.3.2 Mô hình trừu tượng của máy tính song song

Thông thường khi xây dựng các thuật toán song song, chúng ta qui ước là phát triển

thuật toán cho mô hình trừu tượng này, sau đó ánh xạ sang những máy tính cụ thể với

một số các ràng buộc nào đó.

Máy tính truy cập ngẫu nhiên song song P-RAM chứa một đơn vị điều khiển, bộ

nhớ chung và một tập không giới hạn các BXL, mỗi BXL lại có bộ nhớ riêng (hình 1-8).

CU

BXL n

BXL 2

BXL 1

. . .

Mạng kết nối

Bộ nhớ chung chia sẻ

hoặc kênh truyền thông

Hình 1-8 Máy tính P-RAM

12

Mỗi BXL có một chỉ số duy nhất được sử dụng để xác định địa chỉ trong quá trình

trao đổi các tín hiệu và quản lý các ngắt. Tất cả các BXL đều chia sẻ bộ nhớ chung với

yêu cầu không bị giới hạn. Các câu lệnh có thể bắt đầu thực hiện ở bất kỳ thời điểm

nào, ở bất kỳ vị trí nào của bộ nhớ (riêng hoặc chung).

Đây là mô hình tổng quát cho máy tính song song kiểu MIMD. Về nguyên tắc, mô

hình này cho phép thực hiện nhiều luồng lệnh đồng thời trên nhiều BXL khác nhau.

Sau đây là một số điểm cần lưu ý khi phát triển những thuật toán cho các máy tính

song song tổng quát.

▪ Không bị giới hạn về số lượng BXL

▪ Mọi vị trí của bộ nhớ đều truy cập được bởi bất kỳ BXL nào

▪ Không giới hạn về dung lượng bộ nhớ chia sẻ trong hệ thống

▪ Các BXL có thể đọc bất kỳ một vị trí nào của bộ nhớ, nghĩa là không cần phải

chờ để những BXL khác kết thúc công việc truy cập vào bộ nhớ.

Khi chuyển những thuật toán được xây dựng cho máy tính song song tổng quát

sang máy tính cụ thể (lập trình song song) thì phải áp dụng một số các ràng buộc để

đảm bảo chương trình thực hiện được trên những máy tính đó. Về hình thức, chúng ta

thực hiện một trong những điều kiện sau:

▪ EREW: loại trừ vấn đề xung đột đọc / ghi

▪ CREW: cho phép đọc đồng thời, nhưng không cho phép xung đột khi ghi

▪ CRCW:Chophépđọc,ghiđồngthời.Tấtnhiênmôhìnhcholoạinàyítcógiátrịthựctiễn.

Tiếp theo, chúng ta nghiên cứu một số kiến trúc máy tính song song đã có trên thị

trường làm cơ sở để thực hiện lập trình sau này.

I.3.3 Kiến trúc SIMD

Trong máy tính SIMD, tất cả các phần tử xử lý đều được điều hành bởi một đơn vị

điều khiển (CU). Tất cả các đơn vị xử lý nhận được cùng một lệnh từ CU nhưng hoạt

động trên những tập dữ liệu khác nhau. Mô hình máy tính SIMD được chỉ ra như hình

1-9 có những đặc tính sau:

13

▪ Phân tán việc xử lý trên nhiều phần cứng

▪ Thao tác đồng thời trên nhiều phần tử dữ liệu

▪ Thực hiện cùng một tính toán trên tất cả các phần tử dữ liệu.

Luồng dữ

liệu 1

Phần tử

xử lý 1

Tín hiệu

điều khiển

Đơn vị

điều khiển

Luồng dữ

liệu 2

Phần tử

xử lý 2

.

Luồng lệnh

Luồng dữ

liệu n

Phần tử

xử lý n

Kết quả

Bộ nhớ

Hình 1-9 Mô hình kiến trúc SIMD

Xử lý theo mảng là dạng xử lý song song đầu tiên được nghiên cứu và cài đặt ứng

dụng. Có hai loại máy tính xử lý theo mảng [20]:

▪ Những máy tính thực hiện các phép toán trên các bit, ví dụ MPP (Massively

Parallel Processor), CM-1, CM-2, v.v.

▪ Những máy tính thực hiện các phép toán trên các từ (word), ví dụ ILLIAC IV, DAP, v.v.

I.3.4 Kiến trúc MISD

BXL hình ống chính là BXL kiểu MISD làm việc theo nguyên lý hình ống.

Nguyên lý hình ống (pipelined) dựa vào phương pháp phân đoạn hoặc chia nhỏ một

tiến trình tính toán thành một số đoạn nhỏ hơn để thực hiện trong các pha liên tiếp. Tất

cả các giai đoạn của một tiến trình được thực hiện tuần tự, sẽ truyền kết quả cho pha

tiếp theo. Như vậy, trong cách thực hiện theo nguyên lý hình ống, khi một giai đoạn

công việc đang thực hiện thì một giai đoạn khác có thể nạp dữ liệu vào, và dữ liệu vào

của giai đoạn này có thể là kết quả của giai đoạn trước nó.

Ví dụ, hình 1-10 mô tả một tiến trình được phân thành 4 giai đoạn thực hiện tuần

14

tự, nhưng có thể thực hiện song song theo nguyên lý hình ống để tăng tốc độ tính toán

khi phải thực hiện nhiều tiến trình như thế.

Một tiến trình được chia thành 4 giai đoạn:

Pha 1

Pha 2

Pha 3

Pha 4

Thực hiện tuần tự hai tiến trình phải qua 8 giai đoạn:

Pha 1

Pha 2

Pha1

Pha 3

Pha 4

Pha2

Pha3

Pha4

Thực hiện theo hình ống hai tiến trình trên chỉ cần trải qua 5 giai đoạn:

Pha 1

Pha 2

Pha 1

Pha 3

Pha 2

Pha 4

Pha 3

Pha 4

Hình 1-10 Thực hiện tuần tự và hình ống của hai tiến trình gồm 4 giai đoạn

Nếu ký hiệu S_ilà thời gian cần thiết để thực hiện giai đoạn thứ i thì:

Tổng thời gian tính toán tuần tự là: 2 * (S₁+ S₂+ S₃+ S₄)

Tổng thời gian tính toán hình ống là: S₁+ S₂+ S₃+ S₄+ S₄

Nguyên lý hình ống có thể áp dụng theo hai mức:

▪ Hình ống theo đơn vị số học: Các đơn vị số học và logic ALU được tổ chức thành

mảng, các phép toán bên trong được thực hiện theo nguyên lý hình ống (hình 1-11 (a)).

▪ Hình ống theo đơn vị câu lệnh: Các đơn vị điều khiển CU được phân đoạn và tổ

chức theo hình ống (hình 1-11 (b)).

CU

. . .

ALU

CU

ALU

. . .

CU

ALU

Bộ nhớ

Hình 1-11 (a) Xử lý hình ống theo ALU, (b) Xử lý hình ống theo CU

15

Như chúng ta đã biết, việc xử lý theo hình ống được sử dụng để thực hiện gối đầu

nhiều pha thực hiện các câu lệnh liên tiếp và sự truyền thông dữ liệu. Do vậy có thể xây

dựng hình ống vòng tròn giữa các BXL, bộ nhớ và mạng liên kết như sau:

Read

Network

Shared

Memory

Shared

Memory

Write

Network

Hình 1-12 Ví dụ về một hình ống vòng tròn

Các phép toán thực hiện bởi CU theo kiến trúc này có thể chia thành 5 giai đoạn:

Giai đoạn 1. Đọc dữ liệu: đọc dữ liệu từ bộ nhớ chia sẻ.

Giai đoạn 2. Chuyển tải dữ liệu: chuyển dữ liệu từ bộ nhớ tới các phần tử xử lý PE

thông qua mạng đọc (Read Network).

Giai đoạn 3. Thực hiện câu lệnh: sử dụng PE để thực hiện các câu lệnh.

Giai đoạn 4. Chuyển tải dữ liệu: chuyển các kết quả từ các PE tới bộ nhớ thông qua

mạng ghi (Write Network).

Giai đoạn 5. Lưu trữ dữ liệu : ghi lại các kết quả vào bộ nhớ chia sẻ.

Nói chung, nguyên lý hình ống cho phép nhiều thao tác gối đầu nhau thực hiện

đồng thời và hỗ trợ để khai thác được khả năng của kiến trúc song song theo các mức

khác nhau.

▪ Mức câu lệnh. Từng câu lệnh chuyển vào cho một đoạn trong chu trình thực hiện

sao cho sau khi đưa các lệnh vào hình ống thì chúng sẽ thực hiện lặp lại theo từng chu kỳ.

▪ Mức hệ thống con. Nhiều phép toán có thể thực hiện theo hình ống như ADD,

MUL, DIV, và SORT thường có trong nhiều kiến trúc của máy tính. Những phép toán

này được sử dụng theo hình ống rất thường xuyên.

▪ Mức hệ thống. Nhiều đoạn trong hình ống không cần phải thực hiện ở mức phần

cứng mà có thể ở mức phần mềm.

16

Kết quả nguyên lý hình ống đã được ứng dụng để thiết kế nhiều hệ máy tính như:

CDC STAR 100, Texas Instruments ASC, Cray 1, v.v.

I.3.5 Các bộ xử lý mảng tâm thu SAP

Năm 1978 Kung và Leiserson đề xuất một loại kiến trúc được gọi là mảng tâm thu

(Systolic Array) cho những tính toán đặc biệt. Đây là kết quả của dự án thực hiện ở

Carnegie-Mellon University và nó được ứng dụng nhiều trong thiết kế các mạch tích

hợp VLSI phục vụ chủ yếu cho việc xử lý tín hiệu và xử lý ảnh.

Mảng tâm thu viết tắt là SA, là một mảng các đơn vị xử lý được kết nối cục bộ với nhau.

Trong mảng tâm thu SA, mỗi PE được xem như một tế bào, một ô trong mảng, bao gồm:

▪ Một số thanh ghi (register)

▪ Một bộ cộng (adder)

▪ Các mạch điều khiển

▪ Đơn vị logic-số học ALU.

Dựa vào SA người ta xây dựng kiến trúc SAP

Dữ liệu vào

Systolic

Array

Host

Processor

Tín hiệu

Controller

Kết quả

Hình 1-13 Kiến trúc bộ xử lý mảng tâm thu

Dữ liệu được xử lý trong mỗi ô và được truyền sang cho ô các lân cận.

Trong kiến trúc SAP nêu trên, bộ điều khiển (Controller) làm nhiệm vụ giao diện

cho BXL chính (Host Processor) và gửi các tín hiệu điều khiển quá trình vào/ra dữ liệu

cho SA. Hoạt động của hệ thống theo từng nhịp và lặp lại một cách đều đặn để tận dụng

được khả năng song song của tất cả các phần tử xử lý.

SA có thể tổ chức theo nhiều cấu hình tôpô khác nhau. Hình 1-14 mô tả một số cấu

hình phổ biến của SA.

17

(a)

(b)

(c)

Hình 1-14 Một số cấu hình phổ biến của mảng tâm thu:

(a) mảng tuyến tính, (b) mảng hình tam giác, (c) mảng hai chiều hình vuông

Hiệu quả của SA phụ thuộc rất nhiều vào các đặc tính vào/ra của dữ liệu. Nó sẽ rất hiệu

quả đối với những bài toán mà số liệu đọc/ghi thực hiện với nhịp độ cao, đều đều và

liên tục như các bài toán xử lý ảnh, qui hoạch tuyến tính, v.v.

Ví dụ, xét bài toán nhân hai ma trận cỡ 2  2: A * B = C.

a₁₁a₁₂

a₂₁a₂₂

b₁₁b₁₂

b₂₁b₂₂

c₁₁c₁₂

c₂₁c₂₂

=

*

Hiển nhiên C_ị= a_ik*b_kj

Chúng ta có thể thiết kế SA có 9 PE để thực hiện nhân hai ma trận trên như sau:

a₂₂

a₂₁

a₁₂

a₁₁

Nhập theo hàng

1

b₁

3

2

b₁₂b₂₁

4

5

8

6

Nhập theo cột

b₂

c₂₁

7

9

c₂₂

c₁₂

c₁₁

Hình 1-15 Kiến trúc SA để thực hiện nhân hai ma trận

Hệ thống SAP thực hiện như sau:

18

Nhịp 1. Nhập b₁₁, a₁₁vào ô số 1 và tính b₁₁* a₁₁

Nhập b₂₁vào ô số 4 và a₁₂vào ô số 2

Nhịp 2. Truyền b₁₁từ ô 1 sang ô 2

Truyền a₁₁từ ô 1 sang ô 4 và tính a₁₁* b₂₁

Truyền b₁₁từ ô 1 sang ô 2 và tính a₁₂* b₁₁

Truyền b₁₂từ ô 4 sang ô 5 và a₁₂từ ô 2 sang ô 5 và

tính a₁₂* b₂₁, đồng thời ở ô số 5 tính c₁₁= a₁₂* b₁₁+ a₁₂* b₂₁

Nhập tiếp b₁₂vào ô số 4 và a₂₁vào ô số 2

Nhịp 3. Truyền c₁₁từ ô 5 sang ô 9

Truyền a₂₁*b₁₁từ ô 2 sang ô 6

Truyền b₁₂từ ô 5 sang ô 6

Nhập a₂₂vào ô 3, và nhập b₂₂vào ô 7

Nhịp 4: Truyền a₂₂từ ô 3 sang ô 6 và tính a₂₂* b₂₁

cộng dồn với kết quả được chuyển từ ố số 2 sẽ cho

c₂₁= a₂₁* b₁₁+ a₂₂* b₂₁

Chuyển c_{11 từ}ô 9 ra và gán cho c₁₁

Tương tự đối với các trường hợp còn lại.

Năm 1986 Intel kết hợp với Kung đã xây dựng một hệ máy tính kiểu SAP đặt tên là

iWrap System, version sau được cải tiến vào năm 1990. Trong những năm 1990 còn có

seri máy tính loại mini-super của Convex Computer Corporation được xây dựng từ

những bộ CPU 64 bit được gắn với bộ nhớ chung.

I.3.6 Kiến trúc máy tính kiểu MIMD

Máy tính kiểu MIMD là loại đa BXL hoặc còn gọi là hệ thống đa máy tính, trong

đó mỗi BXL có đơn vị điều khiển (CU) riêng và thực hiện chương trình riêng của mình.

MIMD có những đặc trưng sau:

▪ Xử lý phân tán trên một số BXL độc lập

▪ Chia sẻ với nhau một số tài nguyên, trong đó có hệ thống bộ nhớ

19

▪ Mỗi BXL thao tác độc lập và có thể thực hiện đồng thời với nhau

▪ Mỗi BXL chạy một chương trình riêng.

Đã có những máy tính kiểu MIMD được sản xuất như:

(i) Intel iPSC Machine. Đây là những máy tính song song đầu tiên được tung ra thị

trường từ 1985 với ver. 1.0, ver. 2.0 (1987), sau đó là iPSC/860 (năm 1990). Hệ thống

có khoảng 64 nút và mỗi nút có các BXL 80386 /80387 với bộ nhớ từ 4 MB đến 16 MB.

(ii) Carnegie-Mellon Multi-Mini Processor. Hệ C.mmp được xây dựng từ 1971 ở

đại học Carnegie-Mellon gồm: 16 minicomputer được kết nối với 16 bộ nhớ thông qua

bộ nhớ liên kết chéo nhiều giai đoạn để tạo ra hệ MIMD chia sẻ bộ nhớ. Thế hệ tiếp

theo là Cm*.

I.4 Bộ nhớ

Một trong các thành phần quan trọng nhất của kiến trúc máy tính là bộ nhớ. Bộ nhớ

thường được chia thành n mức.

Bộ nhớ mức 1 là mức bộ nhớ cao nhất có dung lượng nhỏ nhất, nhanh và đắt nhất,

thường gắn chặt với mỗi BXL thành bộ nhớ cục bộ. Bộ nhớ mức 2 thường nhỏ hơn,

chậm hơn và rẻ hơn mức 1, v.v.

Về nguyên tắc, dữ liệu được chuyển đổi giữa các mức lân cận của các bộ nhớ và

hoàn toàn được điều khiển bởi bộ nhớ mức 1. Về lý thuyết, trong cấu trúc phân cấp bộ

nhớ, tốc độ truy cập bộ nhớ trung bình gần bằng tốc độ truy cập ở mức cao (mức 1),

nhưng chi phí của các đơn vị nhớ trung bình lại gần với giá của bộ nhớ ở mức thấp nhất (mức n).

Sau đây chúng ta xét một số mô hình bộ nhớ của các máy tính song song.

I.4.1 Bộ nhớ kết hợp

Bộ nhớ kết hợp (AM – Associative Memory) bao gồm các ô nhớ (cell) và logic kết

hợp. Mỗi ô nhớ của AM có 4 đầu vào và hai đầu ra như hình 1-16.

Các đầu vào (input) của mỗi ô nhớ bao gồm:

- Bit đối số a

- Bit đọc/ghi R/W xác định thao tác tương ứng cần thực hiện

20

- Bit khoá k

- Bit lựa chọn s để xác định ô nhớ thích hợp cho việc thực hiện đọc/ghi.

Hai kết quả ở đầu ra:

- Bit đối sánh m chỉ ra dữ liệu được lưu trong bộ nhớ có sánh được với bit đối số a.

- Bit kết quả ra q.

s

Chọn

k

q

Khoá

Kết quả

a

Đối số

Đọc/ghi

R/W

m

Đối sánh

Hình 1-16 Cấu trúc của ô nhớ AM

Tất cả các bộ nhớ AM được tổ chức thành các từ (word) và được xây dựng thành

mảng các ô giống nhau. Hình 1-17 mô tả một khối bộ nhớ AM có n từ và mỗi từ có m

bit. Mỗi ô trong số m * n ô nhớ và nó có một mạch vòng để so sánh đối số với giá trị

được lưu trữ trong các ô nhớ, đồng thời chỉ ra kết quả khi đối sánh thành công. Hệ

thống có thanh ghi lưu trữ đối số, một thanh ghi đánh dấu những trường của mỗi từ mà

bộ nhớ cần so sánh và thanh ghi đối sánh (các bít đối sánh) chỉ ra những từ tìm thấy.

Input

Mask Register

Argument Register

Match Register

Tags

0

1

n-1

0

1

.

m-1

Buffer Register

Output

Hình 1-17 Cấu trúc của bộ nhớ kết hợp

21

I.4.2 Mô hình bộ nhớ truy cập ngẫu nhiên song song

Mô hình tính toán song song được biết dưới tên gọi PRAM bao gồm bộ nhớ chung

RAM với m vùng bộ nhớ đủ lớn để chia sẻ cho p bộ xử lý.

Bộ nhớ chung được sử dụng để lưu trữ dữ liệu và là vùng để trao đổi giữa các

BXL. Nó cho phép các BXL truy cập vào bộ nhớ đồng thời và có thể hoạt động một

cách dị bộ. Ví dụ, bộ xử lý P_ighi dữ liệu vào một vùng nhớ và dữ liệu này có thể được

P_jtruy cập, nghĩa là P_ivà P_jcó thể dùng bộ nhớ chia sẻ để trao đổi với nhau.

Mô hình loại này có các dạng sau:

1. Các phương thức truy cập bộ nhớ (Access Memory Primitives)

Có một số cách khác nhau để các BXL có thể đọc / ghi một số dữ liệu gối đầu

nhau. Đó là:

▪ Concurrent Read (CR): nhiều BXL có thể đọc đồng thời cùng một ô nhớ.

▪ Exlusive Read (ER): p BXL đọc được p vùng nhớ khác nhau. Mỗi BXL đọc

được chính xác một vùng nhớ và mỗi vùng nhớ được đọc bởi một BXL.

▪ Concurrent Write (CW): cùng một thời điểm cho phép nhiều BXL ghi vào

cùng một vùng nhớ.

▪ Exlusive Write (EW): p BXL ghi được vào p vùng nhớ khác nhau. Mỗi BXL

ghi được vào chính xác một vùng nhớ và mỗi vùng nhớ được ghi bởi một BXL.

Dễ nhận thấy rằng: ER, EW là trường hợp đăc biệt của CR và CW. Trong đó, CW là

cần phải chú ý nhất và người ta phân nó thành các loại như sau:

▪ Ghi đồng thời có ưu tiên (Priority CW): các BXL được gắn mức ưu tiên và khi

có nhiều BXL muốn ghi dữ liệu vào một vùng nhớ thì ưu tiên cho BXL có mức ưu tiên

cao nhất. Các mức ưu tiên có thể gắn tĩnh hoặc động theo những qui tắc được xác định

khi thực hiện.

▪ Ghi chung đồng thời (Common CW): tất cả các BXL được phép ghi vào cùng

một vùng nhớ chỉ khi chúng ghi cùng một giá trị. Trong trường hợp này, một BXL

được chọn để ghi dữ liệu đó.

22

▪ Ghi tự do đồng thời (Arbitrary CW): một số BXL muốn ghi dữ liệu đồng thời

vào một vùng nhớ, nhưng chỉ một BXL được phép thay đổi giá trị của vùng nhớ đó.

Trong trường hợp này, chúng ta phải chỉ ra cách để lựa chọn BXL thực hiện.

▪ Ghingẫunhiênđồngthời(RandomCW):BXLđượclựachọnđểghidữliệulàngẫunhiên.

▪ Ghi tổ hợp đồng thời (Combining CW): tất cả các dữ liệu mà các BXL định ghi

đồng thời vào bộ nhớ được tổ hợp lại thành một giá trị. Giá trị này sẽ được ghi vào bộ nhớ đó.

2. Mô hình UMA của bộ nhớ chia sẻ

Trong mô hình này, tất cả các BXL làm việc nhờ cơ chế chuyển mạch tập trung

(Central switching) để điều khiển việc truy cập tới bộ nhớ chia sẻ. Thời gian truy cập

vào bộ nhớ là như nhau đối với mọi BXL, nghĩa là bộ nhớ là đồng nhất.

Có một số cách cài đặt cơ chế chuyển mạch như sau:

▪ Sử dụng đường dẫn chung (Common Bus)

▪ Lựa chọn chuyển mạch chéo (Crossbar Switch)

▪ Mạng nhiều giai đoạn (Multistage Network)

3. Mô hình NUMA của bộ nhớ chia sẻ

Ngược lại với cách tổ chức trên, ở đây bộ nhớ phân tán và được chia thành các đơn

thể độc lập. Bộ nhớ chia sẻ được phân tán cho tất cả các BXL thành bộ nhớ cục bộ

(local) và tuyển tập tất cả các đơn thể bộ nhớ tạo ra bộ nhớ chung cho các BXL. Các

BXL được phép truy cập đồng thời tới một hay nhiều đơn thể bộ nhớ và có thể hoạt

động ít nhiều độc lập với nhau.

Máy tính TC 2000 của BBN System và Technologies of Cambrige, Massachusett,

và máy tính Cedar System của đại học Illinois được xây dựng theo cấu trúc bộ nhớ

NUMA. TC 2000 có 128 BXL, mỗi BXL có 19 MB bộ nhớ nguyên thuỷ.

4. Kiến trúc bộ nhớ Cache-Only (COMA)

Bộ nhớ chính được phân tán và được chuyển thành bộ nhớ cache (cất giữ), tất cả

các bộ nhớ cache tạo ra không gian địa chỉ tổng thể.

Có một số máy tính đã được xây dựng theo kiến trúc này:

23

+ Data Diffusion Machine (DDM) của Swedish Institute of Computer Science (1990).

+ KSR-1 Machine của Kendall Square Research (1992).

5. Bộ nhớ đa máy tính

Mỗi nút trong hệ thống đa máy tính cũng chính là một máy tính có bộ nhớ riêng

không chia sẻ với những BXL khác. Các BXL trao đổi với nhau thông qua việc gửi và

nhận các thông điệp (message).

Việc trao đổi dữ liệu trong mạng là điểm - tới điểm (point – to – point) thông qua

sự liên kết tĩnh giữa các BXL.

Vậy, với sự phát triển của công nghệ phần cứng dẫn tới xu thế xử lý song song để

đáp ứng các yêu cầu tính toán của nhiều bài toán phức tạp trong thực tế. Nhiều máy

tính có kiến trúc song song ra đời như các loại máy tính kiểu SIMD, MISD, MIMD đã

tạo điều kiện cho công nghệ xử lý song song phát triển cả về mặt công nghệ lẫn triển

khai ứng dụng. Xử lý song song cũng có thể thực hiện được trên các máy tuần tự kiểu Von

Neumann bằng cách sử dụng nguyên lý xử lý hình ống hay chia sẻ thời gian, v.v.

Trọng tâm của chương này là tìm hiểu các kiến trúc, thành phần và mối quan hệ

của máy tính song song để tận dụng được hết khả năng xử lý song song của chúng. Các

bộ nhớ được tổ chức thành bộ nhớ kết hợp, bộ nhớ truy cập ngẫu nhiên, bộ nhớ chia sẻ,

v.v. là các mô hình chính cho máy tính song song. Vấn đề quan trọng trong thiết kế

kiến trúc của máy tính song song là xác định cách để kết nối các bộ xử lý với nhau sao

cho hoạt động hiệu quả nhất.

24

CHƯƠNG II

THUẬT TOÁN SONG SONG & LẬP TRÌNH SONG SONG

II.1 Thuật toán song song

II.1.1 Nguyên lý thiết kế thuật toán song song.

Như trên đã nêu, nói đến xử lý song song là phải xét cả kiến trúc máy tính lẫn các

thuật toán song song.

Những thuật toán, trong đó có một số thao tác có thể thực hiện đồng thời được gọi

là thuật toán song song. Tổng quát hơn, thuật toán song song là một tập các tiến trình

hoặc các tác vụ có thể thực hiện đồng thời và có thể trao đổi dữ liệu với nhau để kết

hợp cùng giải một bài toán đặt ra.

Thuật toán song song có thể xem như là một tập hợp các đơn thể độc lập, một số

trong số chúng có thể thực hiện tương tranh trên máy tính song song.

Để thiết kế được các thuật toán song song cần phải trả lời các câu hỏi sau:

▪ Việc phân chia dữ liệu cho các tác vụ như thế nào?

▪ Dữ liệu được truy cập như thế nào, những dữ liệu nào cần phải chia sẻ?

▪ Phân các tác vụ cho các tiến trình (bộ xử lý) như thế nào?

▪ Các tiến trình được đồng bộ ra sao?

Có năm nguyên lý chính trong thiết kế thuật toán song song:

1. Các nguyên lý lập lịch: Tạo lịch trình để giảm tối thiểu các bộ xử lý sử dụng

trong thuật toán sao cho thời gian tính toán là không tăng (xét theo khía cạnh độ phức tạp).

2. Nguyên lý hình ống: Nguyên lý này được áp dụng khi bài toán xuất hiện một

dãy các thao tác {T₁, T₂, . . ., T_n}, trong đó T_i+1thực hiện sau khi T_ikết thúc.

3. Nguyên lý chia để trị: Chia bài toán thành những phần nhỏ hơn tương đối độc

lập với nhau và giải quyết chúng một cách song song.

4. Nguyên lý đồ thị phụ thuộc dữ liệu: Phân tích mối quan hệ dữ liệu trong tính

toán để xây dựng đồ thị phụ thuộc dữ liệu và dựa vào đó để xây dựng thuật toán song song.

25

5. Nguyên lý điều kiện tương tranh : Nếu hai tiến trình cùng muốn truy cập vào

cùng một mục dữ liệu chia sẻ thì chúng phải tương tranh với nhau, nghĩa là chúng có

thể cản trở lẫn nhau.

Ngoài những nguyên lý nêu trên, khi thiết kế thuật toán song song còn một số điểm

cần quan tâm.

▪

Tương tự như kiến trúc, hiệu quả thực hiện của thuật toán song song có thể rất

khác nhau, mà yếu tố quan trọng nhất ảnh hưởng tới độ phức tạp tính toán là cấu hình

tô pô liên kết mạng. Ví dụ: DAP là máy tính kiểu SIMD với 64 * 64 bộ xử lý, thời gian

nhân ma trận là tuyến tính theo kích cỡ của ma trận và phụ thuộc vào đường truyền dữ

liệu giữa các hàng với cột.

▪

Thuật toán song song phải được thiết kế dựa trên những kiến thức về kiến trúc

máy tính, ngôn ngữ lập trình song song và các phương pháp tính toán.

II.1.2 Các cách tiếp cận trong thiết kế

Có ba cách tiếp cận để thiết kế thuật toán song song:

1. Thực hiện song song hoá những thuật toán tuần tự, biến đổi những cấu trúc

tuần tự để tận dụng được những khả năng song song tự nhiên của tất cả các thành phần

trong hệ thống xử lý.

2. Thiết kế những thuật toán song song mới phù hợp với kiến trúc song song.

3. Xây dựng những thuật toán song song từ những thuật toán song song đã được

xây dựng cho phù hợp với cấu hình tôpô mạng và môi trường song song thực tế.

Như vậy, cách làm khá thông dụng là biến đổi các thuật toán tuần tự về song song,

hay chuyển từ một dạng song song về dạng song song phù hợp hơn sao vẫn bảo toàn

được tính tương đương trong tính toán. Do đó, khi biến đổi chúng ta cần trả lời hai câu hỏi:

1. Kiến trúc nào phù hợp cho bài toán?

2. Những bài toán loại nào sẽ xử lý hiệu quả trong kiến trúc song song cho trước?

26

Ví dụ: Những máy tính kiểu SIMD không thích hợp để giải các bài toán, trong đó

có nhiều tiến trình dị bộ. Ngược lại, máy tính kiểu MIMD lại không hiệu quả để giải

quyết những bài toán trong đó có nhiều tiến trình cần phải đồng bộ.

II.1.3 Một số phương pháp chuyển đổi từ chương trình tuần tự về song song

II.1.3.1 Sự phụ thuộc dữ liệu giữa các tiến trình trong chương trình

Như chúng ta đã biết, có rất nhiều phương pháp để chuyển đổi từ chương trình tuần

tự sang chương trình song song. Thế nhưng không phải bất kỳ chương trình tuần tự nào

chúng ta cũng có thể chuyển đổi sang chương trình song song một cách dễ dàng. Để

thực hiện được các khối lệnh song song chúng ta phải hiểu rõ và xác định được tất cả

các phụ thuộc dữ liệu của chúng trong chương trình, sau đó mô tả chúng thông qua đồ

thị phụ thuộc dữ liệu.

Đồ thị phụ thuộc dữ liệu là một đồ thị định hướng G=(V,E), trong đó V là tập các

lệnh trong chương trình, E là các phụ thuộc dữ liệu.

Ví dụ: Cho dãy lệnh S₁, S₂, S₃sau:

S₁: A := B + C

S₂: B := A + E

S₃: A := A + B

Phân tích kỹ các câu lệnh trên chúng ta phát hiện ra một số sự phụ thuộc của chúng:

1. Lệnh S₁tính giá trị của biến A và biến này được sử dụng trong S₂và S₃. Do vậy,

có sự phụ thuộc của S₂, S₃vào S₁(ký hiệu là d₁, d₂).

2. Lệnh S₂tính giá trị của biến B và biến này được sử dụng trong S₃. Do vậy, có

sự phụ thuộc của S₃vào S₂(ký hiệu là d₃).

3. GiátrịtrướcđócủabiếnBđượcsửdụngởS₁. Dovậy, cósựphụthuộcvàoS₂(kýhiệud₄).

4. Cả hai lệnh S₁và S₃cùng tính giá trị của biến A và do vậy, có sự phụ thuộc (ký hiệu d₅).

5. Lệnh S₃tính giá trị của biến A và biến này được sử dụng trong S₂và S₃. Do

vậy, có sự phụ thuộc của S₂, S₃vào S₃(ký hiệu là d₆, d₇).

27

Sự phụ thuộc dữ liệu giữa các câu lệnh S₁, S₂, S₃có thể được biểu diễn qua đồ thị

phụ thuộc dữ liệu như sau:

d₆

d₄

d₅

d₁

d₃

S₁

S₂

d₂

S₃

d₇

Hình 2-1 Đồ thị phụ thuộc dữ liệu giữa S₁, S₂, S₃.

Trong chương trình chúng ta chỉ xét những sự phụ thuộc giữa các câu lệnh đơn. Có

5 loại phụ thuộc về mặt dữ liệu trong chương trình:

Xét dãy lệnh gồm 2 câu lệnh S₁, S₂.

Gọi: - DEF(S₁) - tập tất cả các biến có giá trị bị thay đổi khi thực hiện câu lệnh S₁.

- USE(S₁) - tập tất cả các biến được truy cập (được sử dụng) khi thực hiện câu lệnh S₁.

- DEF(S₂) - tập tất cả các biến có giá trị bị thay đổi khi thực hiện câu lệnh S₂.

- USE(S₂) - tập tất cả các biến được truy cập (được sử dụng) khi thực hiện câu lệnh S₂.

a. Phụ thuộc dòng dữ liệu (Data Flow Dependency): là sự phụ thuộc dữ liệu giữa S₁

và S₂khi DEF(S₁) ∩ USE(S₂) ≠ . Đây là loại phụ thuộc rất chung và rất khó loại bỏ

bởi vì lệnh S₂yêu cầu giá trị của một biến và giá trị này phải được tính ở S₁. Nghĩa là

khi xuất hiện phụ thuộc dòng dữ liệu giữa các câu lệnh thì chúng không thực hiện song

song được. Ví dụ: các phụ thuộc d₁, d₂, d₃là loại phụ thuộc dòng dữ liệu.

Quan hệ phụ thuộc dòng dữ liệu được ký hiệu là:

b. Phản phụ thuộc dữ liệu (Data Anti-Dependency): là sự phụ thuộc dữ liệu giữa S₁

và S₂khi DEF(S₂) ∩ USE(S₁) ≠ . Đây là loại phụ thuộc ngược với loại phụ thuộc nêu

trên. Sự phụ thuộc này xuất hiện khi chúng ta sử dụng lại tên gọi của các biến, một biến

đã được sử dụng trong S₁và sau đó được định nghĩa lại ở S₂. Nghĩa là khi xuất hiện

phản phụ thuộc dữ liệu giữa các câu lệnh thì chúng cũng không thực hiện song song

được. Ví dụ: các phụ thuộc d₄, d₆, d₇là loại phản phụ thuộc dữ liệu.

Quan hệ phản phụ thuộc dữ liệu được ký hiệu là:

28

c. Phụ thuộc dữ liệu ra (Data Output Dependency): là sự phụ thuộc dữ liệu giữa S₁

và S₂khi DEF(S₂) ∩ DEF(S₁) ≠ . Sự phụ thuộc này xuất hiện do hai nguyên nhân: thứ

nhất sử dụng lại tên của các biến (dùng chung), thứ hai tính tăng giá trị của cùng một

biến. Nếu những lệnh này thực hiện đồng thời thì chúng sẽ ghi đè các giá trị vào cùng

một ô nhớ. Do vậy, cần phải xác định chính xác thứ tự thực hiện để ngăn ngừa việc sử

dụng những giá trị không đúng. Ví dụ: các phụ thuộc d₅là loại phụ thuộc dữ liệu ra.

Quan hệ phụ thuộc dữ liệu ra được ký hiệu là:

d. Phụ thuộc dữ liệu vào (Data Input Dependency): là sự phụ thuộc dữ liệu giữa S₁

và S₂khi USE(S₂) ∩ USE(S₁) ≠ . Bởi vì các lệnh này chỉ truy cập (đọc) và không làm

thay đổi giá trị của các biến đó, do vậy các lệnh này có thể thực hiện theo bất kỳ thứ tự

nào cũng được, nghĩa là có thể thực hiện song song.

Quan hệ phụ thuộc dữ liệu vào được ký hiệu là:

e. Phụ thuộc điều khiển dữ liệu ( (Data Control Dependency): là sự phụ thuộc dữ

liệu giữa S₁và S₂khi sự thực hiện của lệnh này phụ thuộc vào giá trị của các biến được

tính ở lệnh kia.

Quan hệ phụ thuộc điều khiển dữ liệu được ký hiệu là:

II.1.3.2 Một số phương pháp để loại bỏ sự phụ thuộc dữ liệu giữa các tiến trình

Sự phụ thuộc giữa các câu lệnh đơn trong dãy lệnh có khả năng làm cho dãy lệnh

không thể thực hiện song song được. Mặc dù vậy chúng ta có một số cách để loại bỏ sự

phụ thuộc này.

- Loại bỏ sự phụ thuộc dữ liệu bằng cách đặt lại tên của các biến để tránh việc

chia sẻ các biến và từ đó tăng được mức độ song song của chương trình.

Ví dụ: (S₁):

A = B + X

C = A + D

S₁

S₂

(S₂):

Để loại bỏ sự phụ thuộc dữ liệu giữa (S₁) và (S₂), ta có thể thay biến A của câu lệnh

(S₂) bằng A₁như sau:

(S₁): A = B + X

(S₂): C = A₁+ D

29

- Loại bỏ sự phụ thuộc dữ liệu ra bằng cách sử dụng các biến khác nhau.

Ví dụ: (S₁): A = B + C + D

S₁

S₂

(S₂): A = D * X

Để loại bỏ sự phụ thuộc dữ liệu giữa (S₁) và (S₂), ta có thể thay biến A của câu lệnh

(S₂) bằng A₁như sau:

(S₁): A = B + C + D

(S₂): A₁= D * X

- Loại bỏ sự phản phụ thuộc dữ liệu bằng cách sử dụng các biến khác nhau hoặc

thực hiện các phép biến đổi (phép thế).

Ví dụ 1:(S₁): A = C + D

S₁

S₂

(S₂): C = D * X

Để loại bỏ sự phản phụ thuộc dữ liệu giữa (S₁) và (S₂), ta có thể sử dụng biến khác

cho câu lệnh (S₂) như sau:

(S₁): A = C + D

(S₂): C₁= D * X

Ngoài ra ta có thể sử dụng một số cách biến đổi để loại bỏ các mối quan hệ về dữ

liệu giữa các tiến trình.

Ví dụ 2: Xét dãy các câu lệnh sau:

(S₁): A = B + C

(S₂): B = A * 3

(S₃): A = 2 * C

(S₄): P = B >= 0

if (P is true)

(S₅): then D = 1

(S₆): else D = 2

endif

Đồ thị phụ thuộc dữ liệu của đoạn chương trình trên được mô tả như hình vẽ:

30

S₁

S₂

S₃

S₄

S₆

S₅

Hình 2-2 Đồ thị phụ thuộc dữ liệu

Để xử lý được song song, thì cần thiết phải loại bỏ đi một số những loại phụ thuộc

dữ liệu có thể. Ví dụ loại bỏ những quan hệ phản phụ thuộc dữ liệu và phụ thuộc dữ

liệu kết quả bằng cách thay biểu thức tính B ở S₁vào S₂, ta thu được đoạn chương trình

sau:

S₂’: B = (B + C) * 3

S₃: A = 2 * C

S₄: P = B >= 0

if (P is true)

S₅: then D = 1

S₆: else D = 2

endif

Đồ thị phụ thuộc dữ liệu rút gọn của đoạn chương trình trên

S₃

S₂^’

S₄

S₅

S₆

Hình 2-3 Đồ thị phụ thuộc dữ liệu rút gọn