Khóa luận Sắp hàng hoàn chỉnh hai hệ genome

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Hà Tun Cường  
SP HÀNG HOÀN CHNH HAI HGENOME  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành: Công NghThông Tin  
HÀ NI – 2010  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Hà Tun Cường  
SP HÀNG HOÀN CHNH HAI HGENOME  
KHOÁ LUN TT NGHIP ĐẠI HC HCHÍNH QUY  
Ngành:  
Công NghThông Tin  
TS. Lê SVinh  
GV hướng dn:  
HÀ NI – 2010  
Li cm ơn  
Li đầu tiên, em xin gi li cm ơn sâu sc nht đến thy giáo TS. Lê Sỹ  
Vinh người đã không qun vt vtn tình hướng dn em trong sut thi gian làm  
khóa lun tt nghip va qua.  
Em cũng xin bày tlòng biết ơn ti các thy, cô giáo trong trường Đại  
hc Công ngh- Đại hc Quc gia Hà Ni. Các thy cô đã dy bo, chdn  
chúng em và luôn to điu kin tt nht cho chúng em hc tp trong sut quá  
trình hc đại hc.  
Em cũng xin gi li cm ơn ti thy giáo PGS.TS. TMinh Phương,  
người đã cho em nhng li khuyên bích trong quá trình làm khóa lun.  
Tôi cũng xin cm ơn nhng người bn ca mình, các bn đã luôn bên  
tôi, giúp đỡ và cho tôi nhng ý kiến đóng góp quý báu trong hc tp cũng như  
trong cuc sng.  
Cui cùng con xin gi ti bmvà toàn thgia đình lòng biết ơn và tình  
cm yêu thương nht. Con xin dành tng bmkết qumà con đã đạt được trong  
sut bn năm hc đại hc. Con cám ơn bmvà chnhiu.  
Khóa lun được tài trmt phn bi đề tài nghiên cu QC.09.09 thuc  
Đại hc Quc Gia Hà Ni.  
Hà Ni, tháng 5 năm 2010  
Hà Tun Cường  
Page | 1  
Tóm tt  
Sphát trin ca công nghgii mã trình tự đã giúp gii mã ngày càng  
nhiu các hgen, đặc bit là nhng hgen có kích thước va và nhnhư vi rút  
hay vi khun (hơn 7000 bgen ca vi rút và vi khun đã được gii mã). Bên  
cnh đó hgen ca nhng sinh vt bc cao cũng đã được gii mã hoàn chnh như  
người, chó, chut. Điu đó dn đến mt nhu cu cp thiết là phi nghiên cu các  
phương pháp và xây dng mt chương trình so sánh và bt cp trình tcho hai  
hgen.  
Trong khóa lun này, em xin được trình bày phương pháp và xây dng  
mt chương trình so sánh bt cp trình thoàn chnh cho hai hgen. Chương  
trình cho phép bt cp toàn bcác ADN trên chai hgen, xác định được cả  
nhng biến đổi ca tng nucleotide và các biến đổi mc độ gen.  
Chương trình được xây dng da trên cskết hp và ci tiến các  
phương pháp đã có như “Pairwise Alignment with Rearrangement” [23],  
BLASTZ [18] và “Optimal Alignment with Linear space” [9]. Qua đó khc  
phc nhng hn chế và la chn nhng ưu đim ca chúng để to thành mt  
chương trình sp hàng hgen hoàn chnh. Chương trình đã được thc nghim kết  
qutrên các dliu mô phng và các dliu tht được ly tGen Bank ti NCBI  
http://www.ncbi.nlm.nih.gov và thu được nhng kết qukhquan.  
Đối vi các dmô phng, kết qusp hàng ca chương trinh cho thy đã  
xác định được các đon gen có độ tương đồng rt cao, tlsp hàng gia các  
nucleotide ging nhau đạt mc trên 97%. Khi thc nghim vi dliu tht và so  
sánh độ tương đồng vi giá trbt cp thu được khi chy phương thc  
Hungarian[8] vi các hgen được chia sn bng cách sdng các đon gen cung  
cp ti Gen Bank cũng cho kết qutương đương thm chí tt hơn trong hu hết  
các trường hp.  
Page | 2  
Mc lc  
Li cm ơn...........................................................................................................1  
Tóm tt..................................................................................................................2  
Mc lc.................................................................................................................3  
Danh sách hình v............................................................................................5  
Danh sách các bng..........................................................................................6  
Li mở đầu ..........................................................................................................7  
Chương 1. Gii thiu........................................................................................8  
1.1. Trình t....................................................................................................8  
1.1.1. Hthng ký t......................................................................................9  
1.1.2. Các phép biến đổi.................................................................................9  
1.1.3. Khong cách.......................................................................................10  
1.2. Bt cp trình t.....................................................................................10  
1.3. Bt cp trình thgen .........................................................................12  
Chương 2. Bài toán sp hàng hoàn chnh hai hgen..........................16  
2.1. Tng quan .................................................................................................16  
2.2 Pairwise Alignment with Rearrangement...............................................16  
2.2.1. Cơ slý thuyết ...................................................................................17  
2.2.2. Thut toán...........................................................................................18  
2.2.3. Độ phc tp ca thut toán .................................................................21  
2.3. Bt cp vi nhng trình tln................................................................22  
Chương 3. Full Genome Alignment ..........................................................24  
3.1. Xây dng hthng ...................................................................................24  
Page | 3  
3.2. Gii thiu vBLASTZ .............................................................................25  
3.2.1. Tính năng ca BLASTZ...................................................................................25  
3.2.2. Chương trình BLASTZ ....................................................................................27  
3.3. Optimal Alignment with Linear space ...................................................28  
Chương 4. Kết qu..........................................................................................31  
4.1. Chương trình ............................................................................................31  
4.2. Kim th....................................................................................................33  
4.2.1. Dliu mô phng ..............................................................................................33  
4.2.2. Dliu tht ..........................................................................................................35  
Chương 5. Kết lun.........................................................................................38  
Tài liu tham kho..........................................................................................39  
Page | 4  
Danh sách hình vẽ  
Hình 1. Ví dvmt trình t..................................................................................8  
Hình 2: Các biến đổi mc độ gen gia Người và Kh.......................................13  
Hình 3:Ví dvphép biến đổi trong “Simulaneous Character Swapping". ........20  
Hình 4: Single Swap (trái) và Couple Swap (phi) ..............................................22  
Hình 5:Bt cp trình tvi Ukkonen Barrier ......................................................29  
Hình 6: Giao din chương trình...........................................................................31  
Hình 7: Kết quchương trình...............................................................................32  
Page | 5  
Danh sách các bng  
Bng 1: Ma trn trng sca BLASTZ................................................................26  
Bng 2: Kết quTest vi sInversion – Move là 0 .............................................34  
Bng 3: Kết quTest vi sInversion – Move là 1 .............................................34  
Bng 4: Kết quTest vi sInversion – Move là 2 .............................................34  
Bng 5: Kết quTest vi sInversion – Move là 3 .............................................35  
Bng 6: Kết quchy dliu tht.........................................................................37  
Page | 6  
Li mở đầu  
Năm 1854, Charles Darwin cho xut bn quyn sách “Ngun gc ca các  
loài sinh vt”, mt công trình nghiên cu sinh hc ni tiếng và đặt nn tng cho  
thuyết tiến hóa ca ông. Trong đó có viết “tt ccác động vt tương tnhau phi  
tiến hóa tmt ttiên chung và tt ccác sinh vt phi tiến hóa tmt vài hoc  
mt ttiên chung đã sng cách đây nhiu triu năm.” [7]  
Bgen ca sinh vt là mt trình tADN, theo thuyết tiến hóa thì chúng  
cùng được biến đổi và phát trin tmt ttiên chung. Tri qua hàng triu năm  
tiến hóa và phát trin, mt số đon gen được mt đi cũng như bdi chuyn vtrí  
so vi ban đầu, hình thành lên nhng hgen khác nhau đại din cho hàng tsinh  
vt trên trái đất. Mt trong nhng nhim vcn thiết là phi tìm ra mi quan hệ  
vmt cu trúc gia các hgen sinh vt, qua đó xây dng lên mt bc tranh toàn  
cnh vstương tvà tiến hóa gia các sinh vt trên hành tinh.  
Vi sphát trin ca công nghgii mã trình t, ngày càng nhiu các hệ  
gen đã được gii mã hoàn chnh và được lưu trtrong các ngân hàng cơ sdữ  
liu gen. Vic so sánh và tìm ra stương đồng gia các hgen mt cách thủ  
công là không ththc hin được. Do đó dn đến mt nhu cu cp thiết phi  
nghiên cu phương pháp và xây dng chương trình để so sánh và bt cp trình tự  
cho hai hgen.  
Mc dù mt sphương pháp đã được nghiên cu và phát trin, chúng mi  
chtp trung vào xác định và bt cp cho nhng vùng ADN có độ tương đồng  
cao gia hai hgen. Tc là, mt phn ln trong hgen có thkhông được bt cp  
và so sánh khi ta tiến hành vi các loài sinh vt có hgen khác nhau nhiu. Vì  
vy cn phi xây dưng mt hthng có khnăng bt cp được toàn bcác ADN  
trên hai hgen.  
Page | 7  
Chương 1. Gii thiu  
Chương này gii thiu vnhng kiến thc cơ bn vtin sinh hc, bài toán  
bt cp trình tvà bt cp trình ttheo hgen. Ni dung gii thiu được da mt  
phn trên bài ging ca Vin Đại hc Ohio State, Hoa K[13]  
1.1. Trình t  
Mt hgen ca mt sinh vt được thhin là mt trình tca các ADN.  
Trình tlà mt dãy tuyến tính các phn tử được sp xếp theo tht. Như  
vy mt trình tcha hai loi thông tin: thông tin vphn tvà thông tin định vị  
- thông tin vvtrí tương đối ca tng phn tso vi các phn tkhác.  
Các thông tin định vcó thể được xác định theo nhiu cách như theo trc,  
theo thi gian, vtrí ca nhim sc thhoc trong 1 vòng protein.  
Hình 1. Ví dvmt trình t. Hình trên cùng: 1 đon 18S rDNA ca sâu bkhác  
cánh. Hình gia trên: Tng quát cơ thể động vt chân dt. Hình gia dưới:  
Orthopteran stridulation. Hình dưới cùng: Đon gen mtDNA [13]  
Page | 8  
Các loài sinh vt được tiến hóa tmt ttiên chung, biến đổi qua các  
dng hình thái trong quá trình tiến hóa và phát trin. Khi đề cp đến trình t, có  
ba vn đề chúng ta cn phi nói đến là hthng các ký ttrong trình t, các phép  
biến đổi trình tvà hàm khong cách đánh giá sthay đổi ca trình t.  
1.1.1. Hthng ký tự  
Tp hp các phn tcó thxut hin trong trình tự được gi là mt hệ  
thng các ký t( ) , trong ADN, người ta sdng mt ththng kí tự ∑ = {A,  
C, G, T, λ ) trong đó A, C, G, T đại din cho 4 nucleotides : adenine (A),  
cytosine (C), guanine (G) và thymine (T). λ là ký tự đặc bit đại din cho 1  
khong trng là 1 vtrí mà không có nucleotide thc tế. Trong hu hết các trường  
hp, ký tgap (‘-‘) có thể được sdng để thay thế cho λ. Bt kmt trình tự  
nào cũng là mt sthhin bi các phn tcó thxut hin trong trình tvà  
được định nghĩa trong .  
1.1.2. Các phép biến đổi  
Trong quá trình tiến hóa, có 4 phương thc chính để biến đổi mt trình tự  
là phép thay thế, phép chèn – xóa, đảo ngược và dch chuyn. Biến đổi phc tp  
xy ra là skết hp ca 2 phép đảo ngược và dch chuyn, skết hp này gây ra  
skhó khăn trong vic dng li mi quan hgia các trình ttrong nhng hệ  
thng phân tích phc tp.  
Phép thay thế:  
Phép chèn – xóa:  
Phép đảo ngược:  
Phép dch chuyn:  
Page | 9  
1.1.3. Khong cách  
Mt điu quan trng và cn thiết là xây dng mt hàm mc tiêu đánh giá  
khong cách gia hai trình t, qua đó đánh giá stương đồng, mi quan hgia  
hai hgen. Khong cách này có thể được tính toán theo mt shàm như thay thế,  
chèn, xóa làm biến đổi mt trình tnày thành mt trình tkhác. Khong cách  
gia hai trình tcó thchỉ được tính đơn gin chlà chi phí thay thế (Hamming  
Hamming [10]) trong nhng trình tđộ dài bng nhau hay phc tp hơn bao  
gm cchi phí chèn – xóa và dch chuyn.  
1.2.Sp hàng trình tự  
Sp hàng trình tlà mt thtc cc kquan trng trong Tin sinh hc, nó  
được xem là nn tng cho tt ccác thtc khác. Vn đề đặt ra là to ra nhng  
ssp hàng gia các nucleotide thông qua vic chèn các ký tgap, làm cho  
khong cách gia hai trình ttc chi phí sa cha (là tng chi phí cho các sự  
kin chèn – xóa, thay thế các nucleotide) gia hai trình tlà nhnht (hoc ln  
nht).  
Đầu vào là 2 trình tX = (x1, x2, …xp) và Y = (y1, y2, …yq), sp hàng  
trình tX và Y là cách chèn các kí ttrng vào hai trình tX và Y sao cho  
chúng có độ dài bng nhau và khong cách (chi phí sa cha) gia hai trình tlà  
nhnht (hoc ln nht).  
Các thut toán quy hoch động đầu tiên cho vic sp hàng gia các chui  
ký tự được trình bày bi Levenshtein [14], vi độ phc tp vthi gian và bộ  
nhlà O(n2). Needleman và Wunsch [16] ln đầu tiên áp dng thut toán này  
vào lĩnh vc Tin sinh hc năm 1970. Yêu cu bnhgim xung còn O(n)  
bi Hirschberg[12] trong khi thi gian chy vn là O(n2). Nhng ci tiến ca  
Ukkonen [21,22] vi nhng cp trình tcó khong cách độ dài là d, thut toán  
yêu cu thi gian O(nd) cho trường hp xu nht và độ phc tp thi gian trung  
bình là O(d2+n). Thut toán Quy hoch động tính toán chi phí bt cp theo công  
thc sau:  
Page | 10  
(1)  
Cost[i][j] là chi phí bt ti vtrí i ca trình t1 và vtrí j ca trình t2, σi,j  
là chi phí thay thế nucleotide vtrí thi ca trình t1 và vtrí j ca trình tự  
2, σindex là chi phí chèn- xóa mt nucleotide.  
Pairwise Alignment by Needleman and Wunsch  
1
Cost[0][0] 0  
2
{Khi to ct đầu tiên}  
for i = 0 to |X| do  
3
4
Cost[i][0] Cost[i-1][0] + σindex  
{Khi to hàng đầu tiên}  
for j = 0 to |Y| do  
5
6
7
Cost[0][i] Cost[0][j-21] + σindex  
{Quy hoch động}  
8
9
for i = 1 to |X| do  
10  
11  
12  
13  
14  
15  
for j = 1 to |Y| do  
ins Cost[i-1][j] + σindex  
del Cost[i][j-1] + σindex  
sub Cost[i-1][j-1] + σi,j  
Cost[i-1][j-1] min(ins, del, sub)  
end for  
16 end for  
17 return Cost[|X|][|Y|]  
Page | 11  
Thut toán Needleman – Wunsch hot động khi mà chi phí cho vic  
chèn – xóa các nucleotide là mt trng scố định. Tc chi phí cho vic chèn  
mt đon gap có độ dài k là wk = kw1. Trên thc tế, vic tính toán chi phí chèn  
– xóa thường phc tp hơn, bao gm chi phí cho vic bt đầu và mrng các  
đon gap.  
Waterman [25], tiến hành thc nghim trên mt khi lượng ln các trình  
tvi trng scho vic chèn gap wk kw1 vi độ phc tp thi gian là O(n3).  
Lý do ca vic tăng độ phc tp vthi gian là do vic bsung thêm vic tính  
toán chi phí chèn – xóa gap trong các trường hp. Công thc được đưa ra:  
(2)  
Trong đó P[i][j] và Q[i][j] là chi phí chèn và xóa vtrí ( i , j)  
Trong các trường hp đặc bit, chi phí chèn gap là mt hàm tuyến tính wk  
= uk +v trong đó v được gi là chi phí bt đầu mt đon gap và v là chi phí mở  
rng đon gap. Gotoh (1982) [9] đã đưa ra mt công thc tính toán ti ưu hóa  
vic tính toán ma trn P và Q gim độ phc tp thi gian xung còn O(n2). Công  
thc mà Gotoh đưa ra là :  
(3)  
1.3. Sp hàng trình thgen  
Trong quá trình tiến hóa ca các sinh vt, bên cnh nhng biến đổi mc  
độ đim (sthay thế chèn – xóa ca các nucleotide) còn có nhng sbiến đổi ở  
mc độ gen. Có 3 phép biến đổi chính mc độ gen là phép chèn gen, xóa gen  
Page | 12  
và dch chuyn gen. Hình 2 mô tmt ví dvsbiến đổi mc độ gen gia  
Người và Kh. Ta thy gen s1 đã bdch chuyn, nó nm ở đầu ca hgen  
Người nhưng li nm cui hgen ca Kh. Ngoài ra, gen s2 tn ti Khỉ  
nhưng không tn ti Người. Tc là hoc nó bxóa khi hgen ca Người hoc  
được chèn thêm vào hgen ca Kh. Do ta không phân bit được phép chèn  
gen, và xóa gen, ta gi chung là phép chèn/xóa gen. Tri qua hàng triu năm tiến  
hóa, vi sbiến đổi mc độ gen, hgen ca các sinh vt ngày nay đã có sự  
khác nhau rt ln vkích thước, slượng gen, thtcác gen cũng như vni  
dung ca các gen.  
Hình 2: Các biến đổi mc độ gen gia Người và Khỉ  
Sp hàng trình thgen là mt trường hp riêng ca sp hàng trình t,  
trong đó đầu vào là toàn btrình tADN ca mt hgen sinh vt. Sp hàng trình  
thgen giúp xây dng bc tranh toàn cnh vstương tvà tiến hóa gia các  
sinh vt, là cơ scho hướng nghiên cu Comparative genomics [4], cho phép  
nâng cao độ chính xác dự đoán gen. Vmt tính toán, bt cp hgen đặt ra nhiu  
vn đề cn gii quyết như kích thước trình tln, thtcác phn tương đồng  
trên các hgen thường thay đổi. Do tính quan trng cũng như đặc thù phương  
pháp, vn đề so sánh và sp hàng trình thgen được trình bày thành mt phn  
riêng, tách khi sp hàng trình tnói chung.  
Các thut toán sp hàng trình tthông thường mi chxác định được các  
biến đổi mc độ đim (sbiến đổi ca các nucleotide) cũng như chlàm vic  
được vi các dliu nh. Khi nghiên cu vvic sp hàng trình ttheo hgen,  
chúng ta phi tính toán cnhng biến đổi mc độ đim ln mc độ gen. Đặc  
bit thi gian thc thi cũng là mt vn đề hết sc quan trng do kích thước rt  
ln ca các hgen. Ví dkích thước ca hgen người lên ti 3 tADN. Mt  
trong nhng hthng sp hàng hgen đầu tiên là BLASTZ [18] được phát trin  
bi nhóm ca Webb Miller vào đầu nhng năm 2000 ti đại hc Pennsylvania để  
sp hàng hgen ca người và chut. Cũng như các phương pháp sp hàng hgen  
Page | 13  
khác, Phương pháp BLASTZ được phát trin ttư tưởng thut toán tìm kiếm  
BLAST [2] (thut toán xác định nhng đon ging nhau cao gia hai chui). Tư  
tưởng chung ca thut toán gm ba bước:  
Bước 1: Tìm kiếm nhng cp đon ADN ngn rt ging nhau chai hệ  
gen được gi là ht ging (seed). Nhng đon này có độ dài vào khong 7  
đến 13 ADN và được gi là seed. Để thc hin vic tìm kiếm này, có thể  
sdng nhiu kthut khác nhau như bng băm, cây hu t(suffix tree).  
Bước 2: Mrng các ht ging vchai phía sao cho trong quá trình mở  
rng chi phí không vượt qua mt ngưỡng cho trước. Quá trình mrng  
này không cho phép chèn gap  
Bước 3: Tiến hành ni các cp ADN được mrng bước 2 li vi nhau  
để to thành nhng cp ADN ln hơn, bước này được phép chèn thêm  
gap. Sau khi ni, các cp ADN này sẽ được đánh giá độ tương đồng.  
Các nghiên cu hin ti tp trung vào ci tiến bước th1 và bước th3.  
Ni bt là các nghiên cu ca Aaron Darling và đồng nghip ti đại hc  
Wisconsin–Madison trong vic ci tiến cách xác định các ht ging bước 1.  
Họ định nghĩa ht ging là nhng cp ADN ging nhau và xut hin duy nht  
trên chgen. Nhóm tác giả đã xây dng hthng MAUVE để sp hàng đa hệ  
gen và thu được nhng kết quđộ chính xác cao trên nhng hgen có độ  
tương đồng cao [1]. Bên cnh đó, nhóm tác giMichael Brudno ti đại hc  
Standford tp trung vào ci tiến bước 3 để kết ni các đon ADN và phát trin hệ  
thng SLAGAN [5]. Nhóm tác giáp dng phương pháp quy hoch động để tìm  
ra cách kết ni các đon ADN tt nht, trong đó cho phép các đon ADN được  
phép dch chuyn và đảo chiu. Kết quso sánh hai hthng MAUVE và  
SLAGAN cho thy MAUVE tt hơn SLAGAN trên nhng tp dliu có độ  
tương đồng cao, còn SLAGAN cho kết qutt hơn MAUVE trên nhng tp dữ  
liu tn ti nhiu phép thay thế ADN mc độ đim và ít phép đảo chiu đon  
ADN mc độ gen.  
Mc dù mt sphương pháp đã được nghiên cu và phát trin, chúng mi  
chtp trung vào xác định và bt cp cho nhng vùng ADN có độ tương đồng  
cao gia hai hgen. Tc là, mt phn ln trong hgen có thkhông được bt  
cp và so sánh khi ta tiến hành vi các loài sinh vt có hgen khác nhau nhiu.  
Để gii quyết vn đề trên, nhng nghiên cu đầu tiên ca TS. Lê SVinh và  
Page | 14  
đồng nghip ti Bo Tàng Lch STNhiên Hoa K, và ti trường Đại Hc  
Công Nghnhm so sánh và sp hàng toàn bhgen đã được tiến hành và cho  
kết quthnghim khquan [23,24]. Nhóm nghiên cu định nghĩa vic sp hàng  
toàn bhgen phi tha mãn ba điu kin chính sau:  
Xác định được các phép biến đổi mc độ gen (chèn, xóa, dch chuyn vị  
trí).  
Xác định được các phép biến đổi mc độ đim (thay thế, chèn, xóa).  
Bt cp toàn bcác ADN trên hgen.  
Hthng bt cp tha mãn ba điu kin trên scho phép bt cp các gen  
vi các mc độ tương đồng khác nhau. Để đáp ng được ba yêu cu trên, Vinh  
và các đồng nghip đã nghiên cu cách kết hp đim pht cho các phép biến ở  
mc độ đim, và các phép biến đổi mc độ gen vào thành mt hthng tính  
đim pht chung. Điu này cho phép chúng ta xây dng hàm tc tiêu rõ ràng để  
tìm ra cách bt cp toàn bhgen tt nht. Kết quthí nghim vi 760 bgen ty  
thca các loài động vt cho thy hthng tính đim cho kết qutt [23]. Sử  
dng phương pháp bt cp toàn bhgen, nhóm tác giả đã xây dng quá trình  
tiến hóa ca 11 Corona vi rút và tái khng định li kết lun vi rút Corona gây ra  
dch bnh hô hp cp (SARs) có chung ngun gc vi vi rút Corona loài dơi  
chkhông phi là loài chn hôi (canivor) [24].  
Page | 15  
Chương 2. Bài toán sp hàng hoàn  
chnh hai hgen  
2.1. Tng quan  
Theo nhng nghiên cu ca TS. Lê SVinh và đồng nghip [23,24], mt  
hthng sp hàng hoàn chnh hai hgen phi tha mãn ba điu kin chính :  
Xác định được các phép biến đổi mc độ gen (chèn, xóa, dch chuyn vị  
trí).  
Xác định được các phép biến đổi mc độ đim (thay thế, chèn, xóa).  
Bt cp toàn bcác ADN trên hgen.  
Các phương pháp bt cp hgen tiêu biu như BLASTZ[18],  
SLAGAN[5], MAUVE[1] mi chdng li mc phát hin và sp hàng các  
đon ADN tương đồng. Như vy scó mt phn ln trong hgen có thkhông  
được bt cp và so sánh khi ta tiến hành vi các loài sinh vt có hgen khác nhau  
nhiu. Gii quyết vn đề này, Lê SVinh và các đồng nghip đã gii thiu mt  
phương pháp có khnăng sp hàng hoàn toàn được hgen ca hai sinh vt bt kỳ  
“Pairwise Alignment with Rearrangement” [23].  
2.2 Pairwise Alignment with Rearrangement  
“Pairwise Align with rearrangement” là thut toán sp hàng trình tự  
trong đó cho phép có ssp xếp li ca các ký ttrong trình tdo Lê SVinh và  
các đồng nghip ti Bo tàng lch stnhiên Hoa Kỳ đưa ra vào năm 2006[23].  
Ưu đim ca thut toán này so vi các thut toán bt cp trình ttrước đây chỗ  
nó cho phép có sdi chuyn vtrí ca các ký t. Đầu vào hai trình t, “Pairwise  
Alignment with Rearrangement” sẽ đưa ra cách sp hàng sao cho tng 3 chi phí :  
Chi phí thay đổi vtrí (Break Cost), chi phí chèn – xóa và chi phí thay thế các ký  
tlà nhnht. Thc nghim cho thy, vic sp hàng trình tcó sự đổi chca  
Page | 16  
các ký tcho kết quti hơn so vi ct bt cp trình tthông thường không có  
sự đổi ch.  
2.2.1. Cơ slý thuyết  
Trong “Pairwise Alignment with rearrangement”, ta xem hai hgen như  
hai chui ký t, tc là mi đon gen sẽ được xem như là mt ký ttrong chui  
đầu vào. Có X = (x1, x2, …, xp) là mt chui gm p ký t, Y = (y1, y2, …, yq )  
là mt chui gm q ký t. C(xi, yj) là chi phí để thay thế ký txi thành ký tyj  
vi i = 1 … p, j = 1 ... q. C(xi, y0) và C(x0, yj) là chi phí chèn/xóa kí txi và yj  
tương ng. Khi thc hin vi hai hgen, ta có xi và yj là mt chui các  
nucleotide, khi đó chi phí C(xi, yj) là chi phí nhnht để biến đổi xi thành yj.  
Gi R(Y, YR) là hàm chi phí chuyn đổi gia Y và mt hoán vYR ca nó.  
Thông thường R(Y, YR) được tính là khong cách breakpoint[11] hoc khong  
cách inversion[17].  
Mt chui X’ = (x1’, x2’, …, xk’) được gi là mt chui phát trin (edited  
sequence) tX khi và chkhi X thu được tX’ sau khi xóa hết các ký tgap. Ví  
dX’ = (‘-‘, 1, 2, ‘-‘, 3, 4) là mt chui phát trin tX = (1,2,3,4) . Mt cp  
A(X,Y) = A(X’,Y’) ca hai chui X’ = (x1’, x2’, …, xk’) phát trin tX và Y’  
= (y1’, y2’, …, yk’) phát trin tY được gi là mt bt cp hoàn chnh ca X và  
Y. Chi phí C(A) ca mt bt cp A là tng chi phí thay thế và chèn/xóa ca các  
ký ttrong X và Y.  
(4)  
Chi phí ti ưu để bt cp A*(X,Y) = argminA(X,Y){C(A)} có thể được tính  
vi độ phc tp thi gian là O(pq) sdng kthut quy hoch động (Xem phn  
1.2). Mt cách bt cp được xây dng bng cách chèn thêm ký tgap chai  
chui sao cho thtcác ký ttrong chui phi được ginguyên.  
Mt chui XR’ = (x1’, x2’, …, xk’) được gi là mt chui phát trin có  
sp xếp li (edited rearrangement sequence) tX nếu sau khi loi bgap XR’  
ta thu được XR là mt hoán vca X. Ví dvi XR’ = (‘-‘, 1, 4, 2, ‘-‘, 3) là mt  
chui phát trin có sp xếp li tX = (1,2,3,4).  
Mt cp A = (XR’, YR’) ca hai chui phát trin có sp xếp li XR’ = (x1’,  
x2’, …, xk’) và YR’ = (y1’, y2’, …, yk’) được gi là mt bt cp trình tcó sp  
xếp li (PAR) ca hai chui X và Y. Chi phí CR(AR) ca PAR AR là tng các chi  
phí thay thế gia các ký t, chi phí chèn - xóa gap và chi phí sp xếp li gia các  
ký t. Ta có công thc:  
Page | 17  
(5)  
*
Mc đích ca bài toàn là tìm mt PAR AR có chi phí bé nht. Tc là:  
(6)  
2.2.2. Thut toán  
Thut toán “Pairwise Alignment with Rearrangement” sdng chiến lược  
*
leo đồi để tìm ra cp PAR AR . Chiến lược này gm 2 bước. Bước đầu tiên mt  
*
PAR AR xut phát sẽ được to ra. Sau đó bước th2 chúng ta tìm ra PAR AR  
bng cách ln lượt tìm ra các cp AR ti ưu hơn.  
Đầu tiên, mt PAR AR xut phát sẽ được khi to bng cách sdng thut  
toán “Stepwise addition”. Đầu tiên chúng ta khi đầu vi mt PAR chưa đầy đủ  
là AR = (XR’ = X, YR’ = ). Sau đó ta ln lượt chèn các ký tyj Y, j = 1 …  
|Y| vào YRđể to thành mt PAR hoàn chnh. Ký tyj được thêm vào vtrí sao  
cho chi phí ca AR mi là thp nht. Thut toán được mô tnhư sau :  
Stepwise Addition Method  
1
YR Ø  
2
for j = 1 to |Y|  
3
BestCost +, BestPosition nil  
for each position p in YR do  
Insert yj into YR at position p  
AR A*(X, YR)  
4
5
6
7
if CR(AR) < BestCost then  
8
BestPosition p, BestCost CR(AR)  
Remove yj from YR  
end for  
Insert yj into YR at BestPosition  
9
10  
11  
12 end for  
13 Return AR = A*(X, YR)  
Page | 18  
Bước th2, chúng ta tìm cách tng bước mt ti ưu hóa PAR AR hin có,  
tc là tìm cách gim chi phí CR(AR). Để thay đổi mt PAR, ta tiến hành đổi vtrí  
gia các ký ttrong chúng. Vi 1 PAR AR(XR’, YR’) ta định nghĩa mt phép biến  
đổi M(i, j, t | i j t-1) ca chui YR = (y1, y2, …, yp) thu được sau khi loi bỏ  
ký tgap tYR là phép dch chuyn đon (yi,…,yj) trong YR đến vtrí t để thu  
được mt chui không có ký tgap mi YR. Mt phép biến đổi M(i, j, t) được gi  
là có ththc hin được (possible move) nếu chi phí CR ca PAR mi to được từ  
XR YR tt hơn chi phí ca PAR AR cũ. Thut toán được mô tnhư sau:  
Character Moving Method  
1
Build an initial PAR AR = (XR’, YR’) by stepwise addition method  
2
iteration 0  
3
repeat  
4
positionMove false  
foreach triple positions (i, j, t | i j < t-1)  
if M(i, j, t) is a possible move then  
Move character(yi, …, yj) in YR to position t  
possibleMove true  
end if  
5
6
7
8
9
10  
11  
end for  
iteration iteration + 1  
12 until possibleMove = false  
13 return A*(XR, YR)  
Để ti ưu hóa mt PAR AR, mt thut toán khác phc tp hơn được để  
xut, có tên là “Simulaneous Character Swapping". Trong thut toán này, 1 biến  
đổi S(k, t) được định nghĩa là phép đổi vtrí yi và yj ca chui YR thu được sau  
khi loi bký tgap tYR’. Mt phép biến đổi được gi có ththc hin được  
nếu chi phí ca AR mi gim đi.  
Page | 19  
Xét hai phép biến đổi S1(k1, t1) và S2(k2, t2) vi k1 < t1, k2 < t2, k1 < k2. Ta  
nói 2 phép biến đổi này độc lp vi nhau nếu k2 > t1 hoc t2 < t1. Thc nghim  
cho thy nếu ta đồng thi thc hin hai phép biến đổi S1 và S2 độc lp vi nhau  
có thsto ra 1 PAR tt hơn. Ngược li nếu S1 và S2 không độc lp, chthc  
hin phép biến đổi cho chi phí thp hơn.  
Hình 3:Hình trái: ví d2 phép biến đổi S1(k1, t1) và S2(k2, t2) là độc lp vi nhau.  
Hình phi:Đổi chỗ đồng thi 2 phép biến đổi độc lp.  
Thut toán “Simulaneous Character Swappingđược mô tnhư sau:  
Simulaneous Character Swapping Method  
1
Build an initial PAR AR = (XR’, YR’) by stepwise addition method  
2
iteration 0  
3
bestCost 0  
4
repeat  
5
positionSwap false  
6
Find independent possible swap L and sort L increasing ly  
7
if |L| > 0 then  
8
r L  
9
repeat  
10  
11  
swap simultaneous L1, …, LR in YR to get ŸR  
ÄR A*(XR, ŸR)  
Page | 20  
12  
13  
14  
15  
16  
17  
if CRR) < bestCost then  
possibleSwap true  
bestCost CRR), YR ŸR  
else r = r/2  
until possibleMove = false  
iteration iteration + 1  
18 until possibleSwap = true  
19 return A*(XR, YR)  
2.2.3. Độ phc tp ca thut toán  
Như ta đã biết thut toán “Pairwise Alignment with Rearrangement” bao  
gm hai bước. Bước mt là tìm mt PAR xut phát bng cách sdng phương  
thc “Stepwise addtion”. Bước hai là tng bước ti huy hóa PAR hin có bng  
cách mt trong hai cách : “Character moving” hoc “Simulaneous Character  
Swapping”.  
bước 1, nhìn vào phương thc “Stepwise addtion”, ta có ththy từ  
dòng 5 đến dòng 9, độ phc tp thi gian yêu cu là O(pq) vi p, q là độ dài ca  
hai chui X và Y, độ phc tp thi gian yêu cu tdòng 4 cho đến dòng 10 slà  
O(pq2). Do vy yêu cu về độ phc tp vthi gian trong bước này là O(pq3).  
bước 2, nếu ta sdng phương thc “Character Moving”, ta thy yêu  
cu vê độ phc tp thi gian tdòng 5 đến dòng 10 slà O(pq4). Vì vy yêu cu  
về độ phc tp thi gian nên sdng phương thnày slà O(pq4 x iteration) vi  
iteration là svòng lp.  
Ngược li nếu ta sdng theo phương thc “Simulaneous character  
swapping “, yêu cu độ phc tp thi gian trong trường hp xu nht tdòng 6  
đến dòng 16 chcòn là O(pq3), độ phc tp thi gian yêu cu cho cbài toán là  
O(pq3) x iteration vi iteration là svòng lp.  
Page | 21  
2.3. Bt cp vi nhng trình tln  
Như đã trình bày trên, thut toán “Pairwise Alignment with  
Rearrangement” yêu cu về độ phc tp thi gian ti thiếu là O(pq3) trong mi  
vòng lp. Điu này vn đến thut toán gp khó khăn khi áp dng vi nhng trình  
tln. Nghiên cu ca Đinh Ngc Thng đã đề xut mt phương thc mi :  
“Fast Swapping”, giúp gim độ phc tp thi gian yêu cu trong mi vòng lp  
xung còn O(pq) [20].  
Tcông thc (5) ta có chi phí CR(AR) bao gm hai phn. Chi phí sp hàng  
gia các ký t(chèn, xóa, sa) và chi phí sp xêp li tht. Chi phí sp xếp li  
thc tR(X, XR) + R(Y, YR) là mt giá trkhông âm và chbng 0 khi và chkhi  
sau khi loi bcác ký tgap XR và YR ta thu được X và Y. Chi phí sp hàng  
gia các ký tC(X’, Y’) =  
có thể được tính ddàng theo phương  
thc quy hoch động vi độ phc tp vthi gian là O(pq) (Xem phn 1.2).  
Xét mt phép đổi chyivà yj, chi phí sp hàng có thddàng được tính  
li vi độ phc tp thi gian yêu cu là O(1) là :  
C(X’, Y’) – [C(  
) + C(  
)] + [C(  
) + C(  
)]  
(7)  
Trong “Fast Swapping” ta sdng 2 phép đổi chỗ để ti ưu hóa chi phí  
CR(AR), trong đó cách đầu tiên (Single Swap) được dùng để ti ưu chi phí sa  
cha, cách th2 (Couple Swap) được sdng để ti ưu hóa chi phí sp xếp li.  
Hình 4: Single Swap (trái) và Couple Swap (phi)  
Single Swap là cách đổi chhai ký tbt kì ca X’ hoc Y’ trong khi  
Couple Swap đổi chcác ký tự ở chai chui cùng 1 lúc. Tc là Couple Swap  
chính là thc hin 2 phép đổi chSingle Swap cùng lúc trên chai chui. Tuy  
nhiên tác dng ca chúng là hoàn toán khác nhau. Trong khi Single Swap chủ  
yếu làm thay đổi chi phí sa cha gia các ký tthì Couple Swap thay đổi chi  
phí sp xếp li, trong khi chi phí sa cha gia các ký tvn được ginguyên.  
Page | 22  
Mt phép đổi chỗ được gi là có ththc hin nếu nó làm cho chi phí  
CR(AR) gim xung. Trong thtc dưới đây, đầu vào slà mt PAR xut phát,  
chng nào còn tìm được mt cách đổi chcó ththc hin thì ta stiến hành đổi  
chỗ để tìm ra PAR mi ti uy hơn, cp nht li PAR. Quá trình này dng li khi  
không có mt phép đổi chcó ththc hin nào được tìm thy.  
Fast Swapping Method  
1
iteration 0  
2
while (true) do  
3
iteration iteration + 1  
4
for i = 1 to |XR | do  
5
for j = 0 to |YR | do  
6
if have possible swap S in {SX’(i,j), SY’(i,j), CS(i,j)} then  
7
Perform S  
8
if no swap performed then  
9
break out of while loop  
10  
11  
XR gapless(XR’), YR gapless(XR’)  
(XR’, YR’) PairwiseAlignment(XR, YR)  
12 end while  
13 return A*(XR, YR)  
Ta có mt phép đổi chchyêu cu thi gian là O(1). Như vy nhìn vào  
chương trình ta thy tdòng 4 đến dòng 7 độ phc tp thi gian yêu cu chlà  
O(pq). Dòng th11 khi động thut toán quy hoch động để sp hàng hai chui  
XR, YR cũng chcn yêu cu thi gian là O(pq) (Xem phn 1.2) . Như vy độ  
phc tp thi gian áp dng phương thc này slà O(pq x iteration) vi iteration  
là sln chy vòng while.  
Page | 23  
Chương 3. Full Genome Alignment  
3.1. Xây dng hthng  
Thut toán “Pairwise Alignment with Rearrangement” [23] tuy đã sp  
hàng được hoàn toàn hai hgen, tuy nhiên nhược đim ca nó chcó thbt cp  
vi nhng hgen đã được chia sn. Vn đề đặt ra là khi đưa vào mt hgen mi  
bt k, chúng ta phi tiến hành xác định nhng đon gen trong đó để tiến hành  
sp hàng các đon gen. Điu này đòi hi phi khi đưa vào hai hgen ca hai sinh  
vt bt k, phi tìm cách chia các hgen thành nhiu đon gen con liên tiếp sao  
cho khi sp hàng vi nhau chúng to được nhng cp gen có độ tương đồng cao,  
tc là nhng cp gen có nhiu khnăng là được biến đổi và tiến hoá tcùng mt  
đon gen trong hgen ttiên chung xa xưa ca chúng.  
Như đã trình bày phn đầu, mt schương trình sp hàng hgen hin có  
tp trung vào vic tìm kiếm nhng vùng gen tương đồng trên hai hgen như  
MUAVE[1], SLAGAN[5] và ni bt là BLASTZ[18]. Vi nhng ci tiến độc  
đáo ca mình, BLASTZ có khnăng tìm kiếm nhng vùng gen có độ tương đồng  
cao mt cách tương đối tt và vi thi gian chp nhn. Trong khóa lun này, em  
xây dng lên mt hthng bt cp hgen hoàn chnh, da trên ý tưởng sdng  
BLASTZ như mt bước tin xlý trước khi áp dng thut toán “Pairwise  
Alignment with Rearrangement”, qua đó khc phc được nhược đim hin có  
ca phương pháp này. Cthchúng ta ssdng nhng vùng tương đồng mà  
BLASTZ nhn dng được để tiến hành chia ct hgen thành nhng đon gen  
ngn liên tiếp, to thành đầu vào cho chương trình “Pairwise Alignment with  
Rearrangement” vi “Fast Swapping” [20], trong quá trình này vn đề cn lưu ý  
là phi tiến hành loi bcác đon trùng lp, la chn và gili các cp gen có độ  
tương đồng cao hơn.  
Để xác định các biến đổi về đim cũng như tính toán khong cách gia  
các đon gen. Thut toán “Pairwise Alignment with Rearrangement”, sdng  
phương pháp bt cp trình ttheo thut toán quy hoch động ca Needleman –  
Wunsch [16]( Xem phn 1.2). Trong hthng này, em ssdng thay thế bng  
mt phương pháp khác sdng thut toán quy hoch động được đưa ra bi  
Page | 24  
Gotoh “Optimal Alignment with Linear space” [9] và có sci tiến da trên  
nhn xét ca Ukkonen[22]. Phương pháp mi này cho phép tính toán khong  
cách gia các đon gen chính xác và hp lý hơn so vi phương pháp cũ ca  
Needleman – Wunsch.  
Chương trình gm nhng bước cthnhư sau:  
Đầu vào là hai hgen hoàn chnh bt k.  
Sdng chương trình BLASTZ để xác định và bt cp nhng vùng ADN  
tương đồng.  
Tiến hành tách tng hgen thành mt dãy các đon ADN thành phn nhỏ  
liên tc da vào các vùng có độ tương đồng cao xác định được bi  
BLASTZ.  
Da trên thut toán Gotoh và nhn xét ca Ukkonen, xây dng chương  
chình bt cp trình t. Áp dng để sp hàng tng cp ADN thành phn  
trong hai hgen, xác định các phép biến đổi mc độ đim (thay thế,  
chèn, xóa).  
Sp hàng toàn bhgen, xác định các biến đổi mc độ gen bng thut  
toán Pairwise Alignment with Rearrangement vi Fast Swapping..  
Đầu ra đưa ra danh sách nhưng cp gen đã được sp hàng, trong đó chrõ  
nhng sbiến đổi mc độ đim tng cp gen. Cho biết thông tin về  
các đon gen đã bdch chuyn, bị đảo ngược, tn ti hgen này nhưng  
không tn ti hgen kia. Sp hàng hoàn chnh hai hgen.  
3.2. Gii thiu vBLASTZ  
BLASTZ là phương pháp tìm kiếm các đon ADN tương đồng được phát  
trin bi nhóm Miller thuc trường Đại hc Pennsylvania Hoa K. Nó được áp  
dng thành công trong vic bt cp gia hai hGen Người và Chut [18]  
3.2.1. Tính năng ca BLASTZ  
Page | 25  
BLASTZ sdng 3 chiến lược đã được sdng bi Gapped BLAST [3] đó là:  
Tìm kiếm nhng cp đon ngn ADN rt ging nhau chai hgen được  
gi là ht ging (seed).  
Mrng các ht ging vchai phía sao cho trong quá trình mrng chi  
phí không vượt qua mt ngưỡng cho trước. Quá trình mrng này không  
cho phép chèn gap  
Tiến hành tiếp tc mrng các cp ADN bước 2 li vi nhau để to ra  
nhng cp ADN ln hơn bng cách cho phép chèn thêm gap. Vic mở  
rng đảm bo chi phí không vượt quá mt ngưỡng nht định.  
Tuy nhiên so vi Gapped BLAST và các chương trình sp hàng hgen  
khác, BLASTZ có nhng ba sci tiến quan trng. Trước tiên, BLASTZ sdng  
mt cách tính đim bt cp được đánh giá bi Chiromonte [6]. Theo đó thay vì  
chi phí sp hàng gm chi phí thay thế và chi phí sp hàng chính xác chlà mt  
giá trchung vi tt ccác nucleotide thì trong BLASTZ chi phí sp hàng các  
nucleotide được cho bi ma trn sau :  
A
C
G
T
A
C
G
T
91 -114 -31 -123  
-114 100 -125 -31  
-31 -125 100 -114  
-123 -31 -114 91  
Bng 1: Ma trn trng sca BLASTZ  
Chi phí chèn – xóa các ký tgap được cho bi mt hàm tuyến tính. Vic  
chèn – xóa k ký tgap liên tiếp sphi chi mt đim pht là 400 + 30k.  
Hai thay đổi tiếp theo giúp ci tiến đáng ktc độ thc hin và độ nhay  
ca BLASTZ trong vic bt cp toàn bbgen. Thnht là vic loi bnhng  
đon trùng lp. Ví dkhi chương trình nhn ra rng nhiu khu vc trong mt bộ  
gen ca chut được sp hàng vi cùng mt phân khúc trong bgen ca người,  
chương trình stự động đánh du để được bqua trong các bước sau ca quá  
trình bt cp. Ci tiến này giúp BLASTZ không bt cp nhng đon ADN trùng  
nhau – nhng đon ADN có thể được nhân lên trong quá trình biến đổi và tiến  
hóa. Thhai BLASTZ áp dng mt ý tưởng thông minh ca Ma [15] trong vic  
Page | 26  
xác định các đon ngn gn ging nhau ban đầu (seed). Ma đề xut vic tìm kiếm  
trong 19 nucleotide liên tiếp, trong đó 12 nucleotide được chỉ định bng 1 trong  
chui 1110100110010101111 là ging ht nhau. Để tăng độ nhy, BLASTZ còn  
cho phép 1 vtrí bt ktrong 12 vtrí trên được phép có mt sthay thế gia  
các cp nucleotide tương đồng (A – G, G – A, C – T, T – C)  
3.2.2. Chương trình BLASTZ  
Chương trình BLASTZ được cài đặt theo năm bước chính.  
Bước 1 thc hin tìm kiếm và đánh du các đon ging nhau blp li ở  
chai trình t(Repeat Finding)  
Bước 2 tiến hành tìm kiếm các cp ht ging (seed) có độ tương đồng cao  
chai hgen, trong bước này BLAST sdng độ tương đồng 12of19 được đề  
xut bi Ma[15]. Ngoài ra cho phép có 1 sthay thế gia các cp nucleotide 1  
vtrí bt ktrong 12 vtrí trên.  
Bước 3 BLASTZ stiến hành mrng các cp seed tìm được. Quá trình  
mrng này được thc hin như sau:  
Ln lượt mrng các cp seed vhai phía, không cho phép chèn gap. Quá  
trình mrng dng li khi chi phí pht vượt quá mt ngưỡng cho phép  
(X).  
Nếu đim ssp hàng cp ADN thu được đạt mc K cho trước. Tiếp tc  
tiến hành mrng cp ADN ln lượt v2 phía vi vic cho phép chèn  
gap. Quá trình mrng tiến hành cho đến khi chi phí pht vn chưa vượt  
quá ngưỡng cho phép (Y)  
Gili các đon ADN có đim ssp hàng đạt mt mc cho trước (L).  
Bước 4 là thc hin ghi nhn li vtrí các đon tương đông tìm được sao  
cho phù hp vi 2 hgen ban đầu.  
Bước 5 là tiến hành điu chnh li kết qucho phù hp vi các tùy chn.  
Cui cùng, BLASTZ có 1 tùy chn cho phép vic đảo ngược mt hgen  
Page | 27  
ri tiến hành sp hành li vi hgen còn li. Vic này cho phép tìm kiếm các  
đon tương đồng trong trường hp 1 đon gen bị đảo ngược.  
BLASTZ xây dưng mt hthng tùy chn, cho phép người dùng thay đổi  
các tham sca chương trình phù hp vi mc đích ca người sdng.  
3.3. Optimal Alignment with Linear space  
Pairwise Alignment with Rearrangement” sdng thut toán quy hoch  
động ca Needleman – Wunsch [16] (Xem phn 1.2) để tính toán trng số  
khong cách gia các đon gen đồng thi xác định nhng biến đổi về đim.  
Thut toán “Pairwise Alignment” ca Needleman – Wunsch có nhng hn chế  
nht định khi nó chcó thlàm vic khi mà chi phí chèn – xóa gap là mt trng  
scố định. Trên thc tế trong quá trình tiến hóa khi xóa bnhng đon ADN  
liên tiếp, vic xóa nucleotide đầu tiên bao gicũng khó khăn hơn rt nhiu so vi  
các nucleotide tiếp theo. Do đó hàm chi phí cho vic xóa – chèn nhng đon gap  
liên tiếp bao gicũng là mt hàm tuyết tính w(k) = a + bk cho vic xóa k  
nucleotide liên tiếp trong đó w(k) < kw(1)  
Vì vy, trong chương trình mi, chúng ta tiến hành thay thế thut toán  
“Pairwise Alignment” đơn gin ca Needleman – Wunsch bng thut toán  
“Optimal Alignment with Linear space” ca Gotoh[9].  
Trong thut toán này Gotod đưa ra các định nghĩa sau:  
dAB( Ai , Bj ) là chi phí bt cp gia hai đon Ai và Bj trong đó Ai được  
sp hàng vi Bj.  
dA- ( Ai , Bj ) là chi phí bt cp gia hai đon Ai và Bj trong đó Ai được  
sp hàng vi kí tgap  
d-B ( Ai , Bj ) là chi phí bt cp gia hai đon Ai và Bj trong đó Bj được  
sp hàng vi kí tgap  
Vi w(Ai, Bj) là chi phí khi sp hàng ký tAi và ký tBj. w(k) = a +bk là  
chi phi chèn – xóa k ký tta có công thc quy hoch động:  
Page | 28  

Tải về để xem bản đầy đủ

pdf 42 trang yennguyen 27/04/2025 170
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Sắp hàng hoàn chỉnh hai hệ genome", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_sap_hang_hoan_chinh_hai_he_genome.pdf