Khóa luận Sắp hàng đa chuỗi

TRƯỜNG ………………….  
KHOA……………………….  
-----[\ [\-----  
Báo cáo tt nghip  
Đề tài:  
SP HÀNG ĐA CHUI  
Li cm ơn  
Tôi xin bày tlòng biết ơn sâu sc nht ti Tiến sLê SVinh. Thy là  
người trc tiếp giao đề tài và tn tình hướng dn cũng như giúp đỡ tôi trong quá  
trình thc hin lun văn này.  
Đồng thi tôi xin chân thành cm ơn thy TMinh Phương, hin đang  
công tác ti SUlab công ty FPT. Thy đã to điu kin và đưa ra nhng li  
khuyên bích cho tôi trong thi gian cui thc hin khóa lun.  
Hà Ni tháng 05 năm 2010  
Sinh viên  
Nguyn Hà Anh Tun  
Tóm tt ni dung  
Sp hàng đa chui là mt bài toán tin sinh hc phbiến trên thế gii hin nay,  
mc dù đã có rt nhiu phương pháp tiếp cn cũng như thut toán được đưa ra để gii  
quyết bài toán này tuy nhiên chưa thut toán nào cho kết quti khnăng ti ưu.  
Trong ni dung ca khóa lun, tôi xin được khái quát tng quan bài toán sp hàng đa  
chui cũng như mt sthut toán tiêu biu trên thế gii hin nay. Đồng thi tôi cũng  
xin đưa ra mt sý kiến ca mình cũng như gii pháp nhm tăng tính n định và tin  
cy ca các thut toán này.  
Mc lc  
Chương 1: Gii thiu chung..............................................................................................1  
Chương 2: Các phương pháp phbiến hin nay...............................................................6  
1.MUSCLE ...................................................................................................................6  
2.MAFFT ......................................................................................................................8  
3. ProbCons.................................................................................................................10  
Chương 3: EM-Coffee (Extended M-Coffee).................................................................12  
1.Đặt trng skhi kết hp các thut toán....................................................................12  
2.MUMSA...................................................................................................................13  
3.T-Coffee, M-Coffee .................................................................................................14  
3.1. T-Coffee...........................................................................................................14  
3.2. M-Coffee..........................................................................................................20  
4.EM-Coffee ...............................................................................................................21  
Chương 4: Kết quthc nghim.....................................................................................23  
1. Bdliu BAliBASE.............................................................................................23  
Chương 5: Kết lun.........................................................................................................31  
Tài liu tham kho...........................................................................................................32  
Chương 1: Gii thiu chung  
Phn gii thiu vsp hàng đa chui( multiple sequence alignment) dưới đây  
được viết mt phn da trên lun văn tiến sĩ ca thy Lê SVinh[31] và quyn sách  
Inferring Phylogenies ca giáo sư Joseph Felsenstein[30].  
Theo hc thuyết tiến hóa ca Darwin[1], tt ccác sinh vt trên trái đất đều có  
cùng mt ttiên chung. Theo thi gian và quá trình tiến hóa ca các sinh vt, các  
ADN ca chúng dn đổi khác bit vi ttiên. Các ADN biến đổi tcùng mt ngun  
gc được gi chung là các ADN tương đồng(homology). Và tng quát hơn na, mt  
chui ADN tiến hóa tcùng mt ttiên là chui tương đồng. Nhng sbiến đổi ca  
các chui ADN có thnhiu hay ít, có thxy ra đồng thi hay phân tán tuy nhiên  
chúng vn gili mt sthông tin có trong chui ADN ca ttiên. Theo nhn định  
ca các nhà khoa hc, vic biến đổi ADN ca các sinh vt đều thông qua 3 phép biến  
đổi sau:  
Phép chèn, đưa thêm mt ADN vào chui.  
Phép xóa, xóa đi 1 ADN trong chui.  
Phép thay thế, thay thế ADN này bng mt ADN khác.  
Trong khi các phép thay thế chlàm thay đổi nhng vtrí nht định ca mt chui  
ADN chkhông làm thay đổi độ dài ca chui ADN đó, mt phép chèn hay mt phép  
xóa li làm cho slượng ADN ca chui nhiu hơn mt ADN hoc ít đi mt ADN.  
Tuy nhiên, chúng ta không thxác định được skhác bit gia phép chèn và phép xóa  
nên 2 phép này được gp li thành mt phép biến đổi và gi tên chung cho chúng là  
phép chèn/xóa.  
Bng 1 là ví dvcác phép biến đổi gia 2 chui ADN s1 và s2. Trong ví dnày  
ta có ththy ti vtrí th2 và vtrí th3 có thc hin phép biến đổi thay thế ( C – A  
và A – G) đồng thi ti vtrí th7 xác định được mt phép chèn/xóa. Ti các vtrí còn  
li ta có ththy stương đồng gia 2 chui s1 và s2, chng hn ti vtrí 1 c2 chui  
s1 và s2 đều là A hay ti vtrí 4 là G.  
Page | 1  
Bng 1: Ví dvcác phép biến đổi  
1
2
3
4
5
6
7
G
-
8
9
s1  
s2  
A
A
C
A
A
G
G
G
C
C
T
T
G
G
T
T
Thông thường đặc đim ca sinh vt da vào cu chúc chui ADN ca chúng,  
như vy khi xut hin mt phép biến đổi bên trong chui ADN thì đặc đim ca sinh  
vt sbbiến đổi. Sthay đổi này có thlà nhng du hiu bên ngoài giúp chúng ta có  
thxác định đim khác bit hoc chlà sbiến đổi bên trong sinh vt và cn tp trung  
nghiên cu mi nhn ra sbiến đổi này. Khi sbiến đổi là quá ln, rt có thmt loài  
sinh vt hoàn toàn mi sxut hin. Chính vì vy sxut hin ca các chương trình  
sp hàng đa chui hay bt cp đa chui (multiple sequence alignment) là rt quan  
trng trong lĩnh vc sinh hc nói chung và sinh hc phân tnói riêng (molecular  
biology). Da vào kết quca các chương trình này các nhà khoa hc có thể đi ti  
nhng kết lun đối vi các chui ADN và axit amin tương ng như sau:  
Xác định và chn đoán được chc năng mà đon ADN/axit amin  
này thc hin trong cơ thsinh vt.  
Xác định các vtrí biến đổi liên quan ti các bnh di truyn để từ đó  
tìm kiếm phương pháp phát hin và cu cha  
Phân tích các phép biến đổi để xây dng quá trình tiến hóa gia các  
loài sinh vt.  
Xác định và chn đoán các cu trúc bc cao cho ADN/axit amin mi  
gii mã được.  
Các phép biến đổi thường làm cho chui ADN(có thlà protein) tương đồng bị  
biến đổi cvkích thước ln ni dung ca nó. Khi đó ta có thể định nghĩa mt cách  
đơn gin ca vic sp hàng đa chui là quá trình chèn thêm các du cách (biu din  
mt phép chèn/xóa trong quá trình tiến hóa) vào các chui sao cho tt ccác ADN(axit  
Page | 2  
amin) cùng mt vtrí thì tương đồng vi nhau. Tuy dliu đầu vào ca mt chương  
trình sp hàng đa chui thường là có độ dài các chui khác nhau, nhưng kết quca  
chúng luôn cho ra nhng chui ADN(protein) có độ dài bng nhau, kết qunày còn  
được gi là đa chui thng hàng”.  
Chng hn ta có 4 chui cn được thc hin sp hàng đa chui như sau  
Bng 2: Ví dca sp hàng đa chui  
s1 = G C T G A T A T A G C  
s2 = G G G T G A T T A G C  
Input  
s3 = G C T A T C G C  
s4 = A G C G G A A C A C C  
s1’ = – G C T G A T A T A G C  
s2’ = G G G T G A T – T A G C  
Kết quả  
s3’ = – G C T – A T – – C G C  
s4’ = A G C G G A – A C A C C  
Như chúng ta nhn thy độ dài ca các chui s1, s2 và s4 là khác so vi độ dài  
ca chui s3. Tuy nhiên kết quthu được thì độ dài ca c4 chui là tương đương  
nhau. Ngoài ra chúng ta cũng có thddàng phát hin được nhng phép biến đổi được  
thc hin khi nhìn vào kết quca chương trình sp hàng đa chui. Chng hn có mt  
phép chèn/xóa ti vtrí thnht ca s1’ và s3’ hay mt phép thay thế C bi G ti s2’.  
Tương tnhư vy là các phép chèn xóa hay các phép thay thế còn li.  
Mt điu có thnhn ra trong sp hàng đa chui đó chính là tn ti nhiu cách  
chèn du cách khác nhau và khi đó ta có thto ra nhiu kết qukhác nhau. Vic tn  
ti nhiu phép biến đổi khác nhau này có thể được ci thin bng cách sdng mt  
thường và da trên kinh nghim để bt cp. Tuy nhiên, cách thc này chcó tháp  
dng được vi nhng chui ADN ngn vào slượng chui bt cp nh. Đối vi nhng  
Page | 3  
trường hp bt cp hàng trăm chui và độ dài mi chui ln thì vic làm thcông trên  
trnên không khthi và mt tính hiu quban đầu ca nó. Để gii quyết bài toán này  
người ta đã đưa ra rt nhiu phương pháp tính toán và nghiên cu nhm mc đích ti  
ưu hóa bt cp đa chi. Các phương pháp này thường tiến hành sao cho nó tiến ti sp  
xmt hàm mc tiêu cho trước. Hàm mc tiêu đơn gin nht được đưa ra là cc tiu  
hóa các phép biến đổi tn ti gia các cp chui sau khi sau khi đã bt cp xong.  
Tuy nhiên vn còn mt vn đề khá nan gii đó là vic rt khó để bt cp nhng  
chui có sliên hln nhau thp mt cách chính xác mà không cn schnh sa bng  
tay da trên kinh nghim ca các nhà khoa hc. Đề gii quyết vn đề này có rt nhiu  
phương án đã được đưa ra trong vòng 4 ti 5 thp kqua. Năm 1970 Needleman và  
Wunsch[2] đã đưa ra mt thut toán để so sánh chui ADN da trên quy hoch động,  
thut toán này giúp ta có khnăng bt cp 2 chui ADN (pairwise alignment) và thu  
được mt kết qukhá tt. Mc dù vy vic mrng bài toán này lên thành sp hàng đa  
chui (multiple sequence alignment) li là mt câu chuyn hoàn toàn khác bi độ phc  
tp ca thut toán là Nk (trong đó k là slượng chui dùng để bt cp và N là độ dài  
ca chui). Sau đó mt sphương pháp mi cũng được đưa ra, trong đó có phương  
pháp progessive[3] hay phương pháp chun hóa lp (iterative refinement)[4-5]. Các  
phương pháp này đều da trên các biến thca quy hoch động 2 chiu (two-  
dimentional dynamic programing) và gim được độ phc tp ca bài toán xung còn  
N2. Vic gim được độ phc tp ca bài toán xung còn N2 là mt thành tu rt ln  
nhưng độ chính xác ca sp hàng đa chui còn da trên chính hthng tính đim ca  
mi chương trình, hthng tính đim càng chính xác thì độ chính xác ca kết qunó  
đưa ra càng cao. Nói ti hthng tính đim này ta không thkhông nhc ti ClustalW,  
mt phương pháp được phát trin bi Thompson và các đồng nghip năm 1994[6].  
ClustalW sdng cách tính toán hthng đim pht (đim pht cho các phép biến đổi)  
và hàm mc tiêu ca ClustalW là làm nhnht có thể đim pht này. Đây chính là mt  
trong nhng phương pháp đi tiên phong cho hthng đim pht ngày nay.  
Hin ti, các phương pháp được phát trin nhm mc đích gii quyết bài toán sp  
hàng đa chui ngày càng xut hin nhiu hơn. Mi thut toán đều có khnăng chính  
xác và tính tin cy khác nhau. Nhng phương pháp ni bt ni bt bi độ chính xác  
ca chúng có thkể đến như: T-Coffee[7], MAFFT[8,14], PROBCONS[9], và  
MUSCLE[10]. Trong MAFFT ni lên như mt chương trình rt được ưa chung hin  
Page | 4  
nay nhvào tc độ thc thi và độ tin cy ca thut toán. Vic đánh giá độ tin cy ca  
mt phương pháp hay thut toán cn phi da trên mt bdliu chun cha đồng  
thi các chui chưa được sp hàng và dliu chun để đối sánh. Nhng bdliu này  
thường là nhng bdliu được trích chn trong quá trình nghiên cu ca các nhà  
khoa hc hoc được các nhà khoa hc sdng kinh nghim ca mình để xác định.  
Kết lun: Mc dù vic sp hàng đa chui đã được nghiên cu và phát trin trt  
lâu nhưng nó vn là mt bài toán cn được nghiên cu và tiếp tc phát trin để gii  
quyết được các nhu cu hin ti cũng như trong tương lai gn. Mi phương pháp sp  
hàng đa chui đều có nhng ưu và nhược đim riêng ca nó và quan trng hơn na là  
mi chphù hp vi nhng kiu dliu nht định. Chính vì vy vic tp trung nghiên  
cu nhm mc đích ci thin độ chính xác ca các phương pháp này là điu rt cn  
thiết.  
Page | 5  
Chương 2: Các phương pháp phbiến hin nay  
Sau đây, tôi xin trình bày tng quan mt schương trình sp hàng đa chui tiêu  
biu hin nay trên thế gii. Các chương trình này đều đã khng định được khnăng  
ca mình và được áp dng khá nhiu trong lĩnh vc sinh hc nói chung và sinh hc  
phân tnói riêng.  
1.MUSCLE  
MUSCLE là chương trình sp hàng đa chui được phát trin bi David Edgar  
năm 2004. Hin ti MUSCLE đang được sdng khá rng rãi bi độ chính xác khá  
cao và tc độ ca chương trình có thhtrngười sdng vi bdliu ln ti hàng  
ngàn chui. Vmt thut toán, ta có thchia thut toán ca MUSCLE ra làm ba bước  
chính đó là bước bt cp nháp, ci tiến, và bước chun hóa li. Ngoài ra tác giả đưa ra  
hai hthng tính đim khác nhau đó là khong cách K-mers[11] cho bchui chưa  
được bt cp vi nhau và ma trn KIMURA[12] cho các chui đã bt cp ri.  
Hình 1: khong cách K-mers[10]  
K-mer được định nghĩa là mt chui các amino axit đứng lin knhau có độ dài  
bng K. Đối vi nhng sequence có liên hvi nhau thì slượng K-mer snhiu hơn  
các cp sequence bình thường. Khong cách K-mers được định nghĩa da trên định  
nghĩa ca K-mer khi ta sdng nó trong chui kí t. Phương pháp sdng K-mer này  
không đòi hi các chui đã được align hay chưa và thu được kết quvi tc độ khá  
Page | 6  
cao. Hình 2 là mt ví dcho khong cách K-mers, vi K = 3 ta thu được ti phn trên  
K-mer là 6 và phn dưới K-mer là 13. Tương tnhư vy vi K=4 ti phn trên K-mer  
là 4 và dưới là 9.  
Khong cách KIMURA[12] được định nghĩa là khong cách gia 2 chui đã được  
bt cp và được tính theo công thc:  
1
1
1
DK 2 p = − ln(12P Q) ln( Q)  
2
4
2
Trong đó, P là slượng transition đếm được gia 2 chui và Q là slượng  
transversion đếm được gia 2 chui. Transition là dng thay thế A – G hay C – T hoc  
ngược li. Trong khi đó Transversion là dng thay thế A – C, T hay các trường hp  
tương tnhư vy.  
Ngoài ra, còn mt đim đáng lưu ý MUSCLE đó là bt cp profiles (profile  
alignment). Đây là mt dng bt cp tương tnhư bp cp sóng đôi (pairwise  
alignment) nhưng mi profile không còn là mt chui như bt cp sóng đôi mà là  
nhiu chui được ghép vào.  
Hình 2: Các bước chy ca MUSCLE[10]  
các bước mt và hai ca MUSCLE ln lượt sdng 2 hthng đim là khong  
cách K-mers và ma trn KIMURA để dng cây nhphân da trên thut toán  
Page | 7  
UPGMA[13]. Mi nút trên cây được ghép li bi 2 profile và to ra mt profile mi  
cho. Clàm như vy cho ti gc cui cùng thì ta sẽ đạt được mt alignment. Và đến  
đây coi như chúng ta đã hoàn thành vic sp hàng đa chui nếu người sdng không  
mun chy bước chun hóa.  
Bước cui cùng ca MUSCLE là bước chun hóa (refinement). Da trên cây  
được dng sau hai bước trên bước này sct bmt cnh tcây đó sau đó bt cp li  
2 profiles và sdng đim sum of pair để tính toán nếu có ci thin vi đim ca kết  
qutrên thì gili, nếu không thì bỏ đi. Đim sum-of-pair là đim để xác định khả  
năng bt cp gia 2 chui sẽ được nói ti sau trong phn kết quthc nghim sdng  
BAliBASE.  
Về độ phc tp ca thut toán, nếu ta chchy 2 bước đầu thì độ phc tp thut  
toán sO(N2 + NL + L2). Nếu có thêm bước chun hóa li thì độ phc tp thut toán  
O(N3L). trong đó N là schui cn bt cp, L là độ dài ca chui.  
Da theo kết quthc nghim snêu phn sau ca tài liu này, MUSCLE có  
tc độ chy rt tt và có thchy được vi bdliu ln, ct1 ti vài nghìn cui.  
2.MAFFT  
MAFFT là viết tt ca Multiple Alignment using Fast Fourier Transform được  
đưa ra năm 2002 bi mt nhóm các tác gingười Nht. Ti thi đim hin ti, MAFFT  
được đánh giá rt cao nhvào độ chính xác gn như là cao nht trên nhng chui full-  
length ca bdliu chun BAliBASE đồng thi MAFFT cũng yêu cu mt thi gian  
để chy tương đối dchu vi người sdng.  
Khác vi các phương pháp khác, các tác gica MAFFT sdng githuyết tn  
sut sthay thế các amino axit phthc ln vào các thuc tính lý hóa ca nó, đặc bit  
là 2 thuc tính khi lượng(volume) độ phân cc(polarity) [13]. Da trên 2 thuc  
tính này người ta dng nên 2 giá trchun hóa v(a) p(a) tượng trưng ln lượt cho  
khi lượng và độ phân cc. Tiếp theo mi quan hgia 2 chui amino axit sẽ được  
tính toán bng cách sdng biến đổi Fourier. Ý nghĩa chính ca biến đổi Fourier ở  
bước này chính là giúp gim độ phc tp ca thut toán. Sau bước này ta sthu được  
các giá trc(k)[14] – tượng trưng cho mi quan hgia 2 chui, ở đây k độ trca  
chui 2 so vi chui 1 như hình 3.  
Page | 8  
Hình 3: độ trk và tìm kiếm đon tương đồng[14]  
Thình vta có ththy nếu k bng 2 thì chui 1 sẽ đi trước chui 2 khi bt cp  
vi nhau để tìm đon tương đồng. Mt khác bng thc nghim cho thy, c(k) càng ln  
thì khnăng tìm được nhng đon tương đồng khi sp xếp 2 chui theo độ trk càng  
ln. Và tnhng đon tương đồng tìm được người ta xây dng mt ma trn tương  
đồng để từ đó có thbt cp 2 chui amino axit này li vi nhau (cách xác định đon  
tương đồng và xây dng ma trn tương đồng có thể đọc thêm tài liu tham kho số  
14). Hình 4 biu din mt ma trn tương đồng  
Hình 4, ma trn tương đồng[14]  
Trong trường hp này, đường bt cp được sdng là S(5,5) -> S(4,4) -> S(2,3)  
-> S(1,1) vì giá trca S(2,3) ln hơn giá trca S(3,2).  
Page | 9  
Cũng ging như MUSCLE, để mrng bài toán tbt cp sóng đôi lên sp hàng  
đa chui, MAFFT sdng bt cp profile – profile. Bng cách tính toán li c(k) cho  
mi cp profile và xác định đon tương đồng cũng như ma trn tương đồng ta có thể  
hoàn thành các bước sp hàng đa chui ca option đơn gin nht MAFFT là FFT-Ns1.  
Các option còn li ca MAFFT hu hết đều sdng kết quca FFT-Ns1 và sdng  
các bước chun hóa để thu được kết qutt hơn FFT-Ns1.  
Theo phiên bn mi nht ca MAFFT, chúng ta có thcó nhiu option để chn  
la như FFT-Ns2, FFT-Nsi, Li-Nsi, Ei-Nsi, …. Mi option có thể đáp ng cho người  
dùng nhng yêu cu nht định. Chng hn đối vi option FFT-Ns2 tc độ bt cp là rt  
cao, nhanh hơn cMUSCLE tuy nhiên li thu được kết qukhông tt lm. Để thu  
được kết qutt hơn, ta có thsdng option Li-nsi ca MAFFT. Option này tuy  
chy chm hơn MUSCLE nhưng li có kết quả đáng tin cy hơn.  
3. ProbCons  
ProbCons có tên đầy đủ là Probabilistic consistency-based multiple sequence  
alignment. Đây là phn mm sp hàng đa chui được tác gigc Vit Nam là Chương  
Đỗ, và các đồng nghip phát trin và ln đầu được công bnăm 2005. Cũng như  
MUSCLE và MAFFT, ProbCons cũng là mt chương trình rt thông dng và được sử  
dng rng rãi hin nay. ProbCons có khnăng trvmt kết quchính xác cao tuy  
nhiên vmt tc độ ProbCons không thể được như MAFFT và MUSCLE.  
Vmt thut toán, ProbCons đưa mô hình Markov n vào thut toán progressive.  
Đim khác bit chính gia ProbCons và các phương án tiếp cn khác đó chính là vic  
sdng ước lượng cc đại về độ chun xác chkhông phi là cách sdng mô hình  
Viterbi[15], mt khác ProbCons còn sdng ước lượng các phép biến đổi để bo toàn  
thông tin ca các chui trong khi bt cp. Ngoài ra ProbCons sdng ma trn chuyn  
đổi chun BLOSUM62[16] và đim pht phát sinh khi thêm du cách trong vic bt  
cp cũng được hun luyn bi ước lượng cc đại. Để thc hin sp hàng đa chui,  
ProbCons cn phi thc hin qua ít nht là 5 bước(thut toán chi tiết có thể đọc thêm ở  
tài liu tham kho s9). Các bước này sẽ được trình bày mt cách tng quát nht như  
sau:  
Page | 10  
Bước 1: Xây dng ma trn xác sut Pxy(i,j) trong đó x,y là 2 chui bt kì  
cn phi bt cp, i j ln lượt là vtrí ca kí ttrong 2 chui x,y.  
Bước 2: Tính toán kì vng ca độ chính xác khi bt cp 2 chui x, y. Vi  
mi cp chui x, y xác định mt kết qubt cp 2 chui này sao cho kì  
vng ca cách bt cp này là cao nht.  
Bước 3: Ước lượng tính vng chc ca các bước chuyn đổi. bước  
này, ma trn xây dng bước 1 sẽ được tính toán và chun hóa li.  
Bước 4: Xây dng cây cho các chui cn bt cp bng thut toán phân  
cm, trng ssẽ được tính toán da trên giá trtính bước 2.  
Bước 5: Da vào cây đã dng bước 4, ta tiến hành bt cp cho cbộ  
dliu.  
Ngoài ra còn có thcó thêm bước chun hóa li kết qu, bước chun hóa này sẽ  
ct kết qulàm 2 phn và tiến hành bt cp li. Sln bước chun hóa thc hin là  
không xác định trước.  
Kết quca Proncons là rt đáng tin cy, nó sẽ được thhin trong phn thc  
nghim sẽ được trình bày phn sau bn báo cáo này. Tuy nhiên, vmt tc độ  
ProbCons không thso sánh vi 2 thut toán trên và có lchnên chy ProbCons vi  
nhng dliu không vượt quá 50 chui và có độ dài ti đa ca chui nm trong  
khong 500 axit amin.  
Page | 11  
Chương 3: EM-Coffee (Extended M-Coffee)  
1.Đặt trng skhi kết hp các thut toán  
Ba thut toán đã được nêu ra trong chương 2 chính là ba phương pháp được sử  
dng phbiến nht cho vic sp hàng đa chui hin nay trên thế gii. Mi phương  
pháp đều có nhng ưu đim và nhược đim riêng ca nó. Tuy nhiên, điu cn quan  
tâm nht đó chính là mi phương pháp đưa ra kết qutt nht vi nhng bdliu  
nht định. Chúng không cho vkết quả ổn định và đáng tin cy trong mi trường hp  
có thxy ra trong bdliu.  
Vic đánh giá ba thut toán sẽ được tóm tt li trong bng sau:  
Bng 3: nhn định vcác thut toán.  
Thut toán  
Ưu đim  
Nhược đim  
Muscle  
Tc độ cao, có thchy vi bdữ  
liu ln  
Độ chính xác ca muscle vi  
các bdliu chun so vi  
các thut toán khác là không  
cao  
ProbCons Độ chính xác và tính tin cy ca  
ProbCons là ln  
Tc độ chm, chcó thchy  
vi nhng bdliu nhỏ  
MAFFT  
độ chính xác khá cao, nhiu  
option ng vi nhng bdliu  
riêng đồng thi tc độ chp nhn  
được  
Vi nhng option có độ chính  
xác cao thì tc độ không tt,  
và ngược li.  
Chính vì vic mi thut toán đều có độ chính xác trên nhng bdliu nht định  
trong khi nhng dliu cn phi được bt cp là rt đa dng. Ta cn tìm cách kết hp  
kết qucác thut toán trên vi nhau để đưa ra mt kết qumi vi hi vng kết qunày  
được độ tin cy trên càng nhiu bdliu càng tt.  
Page | 12  
Vy bài toán ca chúng ta hin nay chính là tìm cách sdng ba thut toán trên  
cũng như kết quca nó trong mi ln sp hàng đa chui để to ra mt kết qumi có  
độ chính xác vi kì vng là cao hơn và có khnăng n định trên nhiu bdliu chứ  
không còn như tng thut toán chchy tt vi mt sbdliu. Tt nhiên mi thut  
toán đều có độ chính xác ca riêng nó và không thcoi kết quca mi thut toán  
trước khi đưa vào sdng làm thư vin là như nhau, mi thut toán cn có trng số  
nht định. Trng snày không thdùng mt thường hoc kinh nghim để đánh giá do  
slượng chui và độ dài mi chui trong sp hàng đa chui không phi là nh.  
2.MUMSA  
Vào năm 2005, trên thế gii xut hin rt nhiu chương trình sp hàng đa chui,  
điu này làm cho người sdng không thxác định chính xác nên chn chương trình  
nào phù hp cho bdliu ca mình. Vic nhn định độ tin cy ca mt chương trình  
sp hàng đa chui trthành vn đề cp bách. Trong bi cnh đó Timo Lassmann và  
Erik Sonnhammer đã cho ra đời MUMSA[17], chương trình htrngười dùng xác  
định được tính tin cy ca mt đa chui thng hàng mà không cn đến bdliu tham  
kho.  
Thut toán ca MUMSA da trên vic so sánh các đa chui thng hàng. Họ đưa  
ra mt khái nim đó là cp amino axit được bt cp tương ng(pair-of-aligned  
residues). Chng hn ta có mt đa chui thng hàng, trong đó amino axit th3 trong  
chui 1 được bt cp tương ng vi amino axit th5 trong chui 7 thì 2 amino axit  
này được gi là mt cp amino axit được bt cp tương ng. Như vy, từ đa chui  
thng hàng là input đầu vào ca chương trình ta có thto ra rt nhiu cp trên. Chú ý  
rng chúng ta cn chia nhỏ đa chui đầu vào thành các phn nhnht có thnhưng  
vn giữ đủ thông tin ca đa chui đó để gim thiu slượng các cp amino axit được  
bt cp tương ng.  
Để so sánh độ tin cy ca mt đa chi thng hàng trong nhiu đa chui khác,  
thut toán ca MUMSA tiến hành tính đim cho mi cp amino axit được bt cp  
tương ng để biu din sln xut hin ca chúng trong nhng đa chui thng hàng.  
Xét mt cp α bt kì, ta gi n(α) là sln xut hin ca α trong (m – 1) đa chui thng  
hàng còn li đang được so sánh. Mt cp xut hin trong tt cmi đa chui scho ta  
giá trn(α) = (m – 1) điu này đồng nghĩa vi xác sut cp α xy ra trên thc tế là ln,  
Page | 13  
và ngược li mt cp không xut hin trong các chui còn li cho ta kết qun(α) = 0  
hay xác sut cp α xy ra trên thc tế là rt nh.  
Như vy vi mt đa chui A ban đầu, ta có thdùng giá trtrên cho tt ccác cp  
amino axit được bt cp tương ng ca nó để tính toán độ tin cy ca mt đa chui  
thng hàng. Độ tin cy ca mt đa chui thng hàng được tính theo công thc:  
n(α) |α A  
{
}
MOS(A) =  
A m 1  
(
)
(|A| slượng cp amino axit tương ng trong A)  
MOS là viết tt ca multiple overlap score và có giá trbiến thiên trong đon  
[0,1]. Khi MOS(A) = 1 tc là mi cp amino axit tương ng xy ra trong A đều xy ra  
trong (m – 1) đa chui khác và ngược li khi MOS(A) = 0 là khi không có cp amino  
axit nào xut hin trong A li xut hin trong các đa chui được so sánh vi A. Bng  
nhng kết quthc nghim ca mình, các tác gica MUMSA đã chra rng nhng  
đa chui thng hàng có đim MOS cao t0.8 trlên là nhng đa chui đáng tin cy và  
có thsdng chúng cho nhng công vic khác. Ngoài ra, nhng đa chui chđim  
MOS thp hơn 0.5 thì có thcó nhiu phn được bt cp không chính xác và cn được  
chnh sa li. Chng hn vi bdliu BAliBASE, nếu như kết quca các chương  
trình sp hàng đa chui có đim MOS nhhơn 0.5 thì nhng đa chui mà thut toán  
ca nó không thnhn biết được nhng đon tương đồng đã được bt cp mt cách  
thcông ca bdliu này.  
Như vy, mc đích chính ca MUMSA là tính toán độ chính xác hay tính tin cy  
ca nhng đa chui thng hàng khi mang chúng so sánh vi nhau. Tkết quca  
MUMSA nếu áp dng vào githuyết sdng thư vin tMAFFT, MUSCLE, và  
ProbCons trên ta sthu được độ tin cy ca tng thut toán. Đồng thi từ đó ta cũng  
có thxác định được trng sca các thut toán trên da vào kết quca MUMSA  
3.T-Coffee, M-Coffee  
3.1. T-Coffee  
T-Coffee – Tree-based Consistency Objective Function for alignment Evaluation  
là phn mm được công bvà phát trin và năm 2000. Vào thi đim được công b,  
Page | 14  
T-Coffee chính là phn mm có độ chính xác cao nht trong các chương trình sp hàng  
đa chui đồng thi tc độ chy ca T-Coffee là chp nhn được.  
T-Coffee có 2 tính năng chính. Tính năng thnht là nó sdng hthng dliu  
thư vin được sinh ra tbt cp sóng đôi các cp chui để to ra đa chui thng hàng  
cui cùng. Tính năng th2 là ti ưu hóa, tính năng này có nhim vchn đa chui  
thng hàng phù hp nht vi bdliu được đưa vào. Như vy nhìn chung, T-Coffee  
sdng thut toán progressive cùng vi khnăng cp nht thư vin dliu ca mình  
thông qua mi bước thc hin ca nó. Điu này cho phép T-Coffee ly được sự đơn  
gin và tc độ ca thut toán progressive đồng thi gim thiu li xy ra trong quá  
trình bt cp. Hình 5 bên dưới là mt li thường xy ra trong quá trình bt cp sử  
dng thut toán progressive thông thường, trong hình ta có ththy sbt cp li ca  
tCAT chui B.  
Hình 5: li xy ra trong bt cp sdng thut toán progressive thông thường[7]  
Vmt thut toán, T-Coffee có 5 bước chính như hình 6 đó là to thư vin chính,  
đặt trng scho thư vin chính, kết hp thư vin, mrng thư vin, bt cp sdng  
thut toán progressive. Chúng ta sẽ đi vào tng bước ca thut toán này.  
Page | 15  
Hình 6: các bước thut toán ca T – Coffee[7]  
Page | 16  
3.1.1. To thư vin chính  
Thư vin chính ca T-Coffee là tp hp các cp chui thu được nhvào quá trình  
bt cp sóng đôi gia các chui nm trong đầu vào. Như vy vi đầu vào có N chui ta  
sN(N – 1)/2 cp trong thư vin. Trong thư vin mi cp có thcó liên kết vi nhau  
và mt điu cn chú ý đó là mi cp đều có tính quan trng khác nhau bi mt scó  
thể đưa ra nhng sbt cp chính xác cho kết qusau này. Vic xác định cp nào  
quan trng, cp nào không sẽ được tính toán bước 2.  
Có 2 cách được sdng để to thư vin chính ca T-Coffee. Cách thnht là sử  
dng thut toán ClustalW[6] để bt cp 2 chui tng quát, có độ dài mc định. Và cách  
thhai là sdng Lalign để bt cp khi 2 chui được chia thành các đon nh, có độ  
tương đồng cao (Lalign là chương trình nm trong bchương trình FASTA và xây  
dng da theo thut toán Sim được đưa ra bi Huang và Miller năm 1991 [18]).  
3.1.2. Đặt trng scho thư vin chính  
Trng ssẽ được gán cho tt ccác cp có trong bthư vin chính. Ý nghĩa  
chính ca trng snày chính là biu din cho sging nhau ca các cp. Thut toán sử  
dng tính đồng nht (identity) ca chui, tính đồng nht ca chui được đưa ra bi  
Sander và Schneider năm 1991[19] và đã được chng minh khi bt cp nhng chui  
có tính đồng nht ln hơn 30%. Đồng thi trng snày cũng thhin được tính đúng  
đắn ca mình trong mt bài viết trước đó ca nhóm tác gi[20]. Như vy Mi cp  
chui được bt cp trong thư vin chính snhn được trng sbng chính độ tương  
đồng gia 2 chui trong nó.Chng hn vi ví dca hình 5, ta scó bthư vin như  
hình 7.  
Hình 7: Thư vin chính cùng vi trng s[7]  
Page | 17  
3.1.3. Kết hp thư vin  
Mc tiêu ca thut toán là kết hp bthư vin được to thành bi cClustalW và  
Lalign vvi nhau. Điu này có ththc hin da trên mt ý tưởng đơn gin, nếu mt  
cp trong thư vin này mà được lp li thư vin kia thì có thghép chúng làm mt  
vi trng sbng tng trng sca cp này trong c2 thư vin. Nếu không có thì chỉ  
cn to mt phn tmi cho thư vin là chính cp đang xét.  
Sau khi đã ghép xong, bthư vin mi này chúng ta có thể đưa sang vic sp  
hàng đa chui bng cách tìm kiếm đa chui thng hàng nào thích hp nht vi trng số  
ca các cp có trong thư vin. Tuy nhiên, thut toán li tiếp tc ci tiến độ chun xác  
ca thông tin trong mi cp bng cách mrng bthư vin. vic mrng bthư vin  
này chính là bước thtư ca thut toán  
3.1.4. Mrng thư vin  
Hình 8: Mrng thư vin[7]  
Bài toán xây dng đa chui thng hàng tmt bdliu có gán trng slà mt  
bài toán khá ni tiếng được đưa ra bi Kececioglu vi cái tên “maximum weight  
trace[21]. Trước thi đim T-Coffee được công bố đã có 2 thut toán được đưa ra  
bi Notredame[22] và Reinert[23], thut toán ca Notredame da trên gii thut gen di  
truyn trong khi đó thut toán th2 ca Reinert da trên đồ th. Mc dù vy c2 thut  
toán này đều không đáp ng được yêu cu. Thut toán ca Notredame là khá thc tế  
tuy nhiên li đòi hi thi gian thc hin quá ln. Trong khi đó thut toán ca Reinert  
li quá phc tp và có thxy ra nhng sai sót trong quá trình tính toán.  
Page | 18  
Cui cùng, vn đề trên đã được gii quyết bng cách sdng thut toán heuristic  
bên trong phn mrng thư vin ca T-Coffee. Ý tưởng chung ca thut toán này là  
trng scho mi cp amino axit được bt cp vi nhau có thbiu din mt phn  
thông tin cho cbdliu. Để làm được vic này mt cách tiếp cn mi được đưa ra  
như hình 8, đây là cách mrng thư vin tthư vin chun ví dca hình 7. Thut  
toán da trên vic sdng mi cp amino axit được bt cp vi nhau trong thư vin và  
kim tra xem sxut hin ca nó trong các cp chui đã được bt cp khác trong thư  
vin chính còn li. Vi ví dtrong hình 8, ta githiết rng có 4 chui cn được bt cp  
A, B, C, D. Chúng ta gi A(G) là kí tG trong GARFIELD chui A, tương tự  
như vy vi B(G). Đồng thi gi W(A(G), B(G)) là trng số đặc trưng cho cp này ở  
trong thư vin chính. Trên thc tế A(G) B(G) được bt cp vi nhau trong thư vin  
chính và ta có ththy trng sca cp này là 88 (da trên trng sca cp chui A –  
B). Nếu bây gita đưa thêm chui C vào để so sánh, ta có ththy A(G) C(G) được  
bt cp vi nhau, đồng thi đó là C(G) B(G). Như vy ta có thnói là có mt sbt  
cp gia A(G) B(G) thông qua C. Ta xét 2 giá trmi đó là W1 = W(A(G), C(G))  
=77 W2 = W(B(G), C(G)) = 100. Ta đặt trng sA(G) được bt cp vi B(G)  
thông qua C là giá trnhnht gia W1 W2, ở đây do W1 = 77 W2 = 100 nên ta  
đặt li giá trtrong thư vin là 77. Khi đưa vào trong thư vin mrng cp A(G) và  
B(G) scó trng slà giá tr88 ban đầu cng vi giá tr77 mi thu được kết qumi  
là 165.  
Vic mrng thư vin đòi hi phi xét ti tt ccác bba chui trong thư vin  
chính ban đầu. Chng hn vic bt cp A B thông qua D không tn ti thông tin liên  
quan ti A(G) B(G) như vy bba chui này được xem là không liên quan ti vic  
bt cp A(G) B(G), đồng thi chúng cũng không làm nh hưởng ti trng skhi bt  
cp 2 amino axit này vi nhau. Như vy trng số để bt cp gia 2 amino axit slà  
tng tt ccác trng số được tính theo thut toán trên. Mt khi hoàn thành tt ccác  
cp amino axit trên A B thì mi cp scha thêm thông tin tcác chui C D.  
Độ phc tp lý thuyết ca thut toán này là O(N3L2), trong đó N là schui và L  
độ dài trung bình ca các chui. Tuy nhiên điu này chxy ra vi thư vin có các  
cp chui không liên quan gì ti nhau, trên thc nghim độ phc tp thut toán ln  
nht cũng chO(N3L).  
Page | 19  
Trng sslà 0 nếu cp amino axit tương ng không xut hin trên thư vin,  
điu này sxy ra trong phn ln các cp amino axit trong quá trình thc hin thut  
toán. Ngược li, nếu trng sln hơn 0, nó sbiu din tính tương đồng gia 2 chui  
trong mt cp thư vin chính. Đim này có thể được dùng để bt cp 2 chui bt kì  
tbdliu ca chương trình sdng quy hoch động[24].  
3.1.5. Bt cp sdng tht toán progressive  
Trong bt cp progressive, đầu tiên 2 chui sẽ được bt cp vi nhau để to ma  
trn khong cách gia tt ccác chui, ma trn này được sdng để xây dng cây và  
tcây đó áp dng thut toán neighbor-joining[25] để nhóm các chui có độ tương  
đồng vi nhau nht thành mt nhóm. 2 chui có khong cách gn nht sẽ được bt cp  
trước sdng thut toán quy hoch động. Chú ý rng thut toán quy hoch động này  
sdng trng số được sinh ra trong bước mrng thư vin. Trong quá trình bt cp  
sóng đôi này, gap sẽ được to ra và nhng gap này sẽ được cố định và không ththay  
đổi vsau này (gap chính là du cách được thêm vào, biu thcho mt phép chèn/xóa).  
Vic bt cp các nhóm có khong cách gn nhau nht sẽ được thc hin cho ti khi đạt  
ti gc ca cây. Chú ý rng, để bt cp hai nhóm, đim vn sẽ được ly tthư vin mở  
rng tuy nhiên sđim trung bình ca toàn bct trong trong các cp đó.  
Mt điu đáng lưu ý na ở đây đó là trong bước sdng quy hoch động, các  
đim pht hay bt kì tham snào skhông được sdng, lý do ở đây chính là khi to  
ra thư vin mrng các đim pht đó đã được tính ri.  
3.2. M-Coffee  
M-Coffee[26] là mt dng mrng ca T-Coffee, mc tiêu ca M-Coffee là kết  
hp các đa chui thng hàng tcác chương trình và thut toán khác trên thế gii để to  
thành đa chui thng hàng mi vi hi vng kết qunày tt hơn các kết quả được sinh  
ra tcác thut toán đó.  
Da trên lý thuyết ca T-Coffee ta có ththy nếu ta thay các bước to thư vin  
chính bi ClustalW và Lalign thành các chương trình bt cp trên thì ta có thchy T-  
Coffee da trên bthư vin là các cp chui được bt cp bi các thut toán khác.  
Chính điu này làm cho M-Coffee thu nhn được thông tin tcác thut toán khác và  
Page | 20  
cho ra kết quđa chui thng hàng mang thông tin phù hp vi tt ccác thut toán  
đó.  
Mt điu đáng nói M-Coffee là thut toán này luôn cgng chy tt ccác  
chương trình có cài đặt trong máy tính người sdng. Nhng chương trình đó có thể  
là nhng chương trình đã xut hin trt lâu, thut toán có thể đã li thi và kết quả  
ca nó dường như là không tt. Vic sdng thư vin da trên các kết qunày dn ti  
có thcó nhng đánh giá sai sót vnhng thông tin lưu trvà thi gian chy chương  
trình bkéo dài. Điu này dn ti khnăng vmt tc độ ca M-Coffee là hn chế.  
Tuy nhiên, T-Coffee đã đưa ra mt phiên bn mrng ca mình vi tư tưởng khá  
ging vi M-Coffee. T-Coffee snhn chui đầu vào cùng vi các bdliu được  
đưa làm thư vin nhưng các bdliu này sẽ được coi như ngang bng nhau – các  
trng sca các đa chui tham kho đều là 1.  
4.EM-Coffee  
Như vy khi đi ti bước này chúng ta đã phn nào tìm ra được hướng gii quyết  
chính cho vn để được đưa ra phn 1 chương 3. Trng sbiu din độ tin cy ca  
mt đa chui thng hàng được gii quyết bng MUMSA và sau đó dùng T-Coffee để  
sp hàng đa chui sdng bthư vin đã được gán trng strên. Nhìn chung thut  
toán ca EM-Coffee có thể được biu din như hình 9.  
Da trên các kết quthc nghim ca các thut toán hin nay, 5 phương án cho  
kết qutt nht được la chn đó là MUSCLE, ProbCons, MAFFT FFT-nsi, MAFFT  
Li-nsi, MAFFT Ei-nsi. Bthư vin ca T-Coffee schính là nhng dliu kết qutừ  
các thut toán này.  
Vmt trng s, ta cn chun hóa các giá trthu được tMUMSA. GisTa có  
các giá trMOS thu được tcác đa chui thng hàng sinh ra bi các thut toán ln lượt  
như sau: MOS(muscle), MOS(ProbCons), MOS(fftnsi), MOS(linsi), MOS(einsi). Bước  
chun hóa đầu tiên, ta stính đim trung bình các giá trMOS này  
MOS( pi)  
piP  
M =  
5
(pi tương ng vi các thut toán)  
Page | 21  
Hình 9: Thut toán EM-Coffee  
Bước tiếp theo, trng sca mi thut toán slà giá trthu được khi ly đim  
MOS ca nó chia cho giá trtrung bình trên.  
MOS( pi)  
Wpi =  
M
Bước này chính là đưa các giá trtrng svnhng đim xung quanh 1, và có  
đim trung bình ca các trng sbng 1. Vic đưa các trng svnhng đim xung  
quanh 1 cũng là mt bước khá quan trng vì khi đưa các đa chui này vào làm thư  
vin ca T-Coffee nhng bcó trng squá nhso vi nhng đa chui khác scó khả  
năng đóng góp thông tin cao hơn nhưng không làm nh hưởng quá nhiu ti kết quả  
ca EM-Coffee.  
Page | 22  
Chương 4: Kết quthc nghim  
1. Bdliu BAliBASE  
Như chúng ta đã biết, trên thế gii hin ti có rt nhiu chương trình sp hàng đa  
chui, mc dù input ging nhau nhưng output ca mi chương trình đó li không  
ging nhau. phn trước ca bài khóa lun chúng ta có nhc ti MUMSA, thut toán  
xác định độ tin cy ca mt đa chui thng hàng khi mang so sánh nó vi các đa chui  
thng hàng khác. Tuy nhiên, vic xác định độ tin cy này chmang tính cht tương  
đối, vì đim MOS cũng chỉ được tính toán da trên chính nhng thông tin có trong đa  
chui thng hàng đó và không thể đối chiếu kết quxem liu vi đim MOS là cao thì  
nó có thc schính xác hơn so vi nhng kết qukhác. Chính vì vy vic to ra mt  
bdliu chun nhm mc đích xác định xem output ca chương trình nào chính xác  
là mt vn đề rt cp bách. Trên thc tế hin nay đối vi nhng chương trình mi  
được công bhay ci tiến, bước đầu tiên là họ đều sdng nhng bdliu này để  
kim tra khnăng ca chương trình mi đạt được đến đâu. Chvi nhng trường hp  
sp hàng đa chui ln và không có trong thư vin thì MUMSA mi được sdng ti.  
BAliBASE - Benchmark Alignment dataBASE[28] là mt bdliu được xây  
dng bi các nhà khoa hc Julie D. Thompson, Olovier Poch và mt snhà khoa hc  
khác. Vic xây dng bdliu BAliBASE hoàn toàn da trên nhng kết quả đã được  
kim chng trước đó đồng thi bt cp da trên kinh nghim ca chính nhng nhà  
khoa hc này.  
Hin nay, BAliBASE đã phát trin ti bdliu 3.0 vào năm 2005. Trong bdữ  
liu mi này, BAliBASE có 9 bdliu con. Tuy nhiên, vi nhng chương trình sp  
hàng đa chui hin nay, ta chdùng các bdliu t1 ti 5. Mt điu đáng chú ý đó  
là trong mi bdliu ca BAliBASE 3.0 đều có hai phn, 1 phn là các dliu vi  
chui full-length vi 2 chcái ca tên bt đầu bi BB và phn còn li vn là các chui  
đó nhưng chỉ đưa ra các đon tương đồng có thbt cp vi nhau. Như vy khi thc  
hin kim tra kết quca bt kì chương trình nào ta đều phi tách riêng 2 phn này.  
Page | 23  
Dưới đây là bng các sliu cơ bn như slượng và schui tng ca  
BAliBASE 3.0 khi so sánh vi BAliBASE 2.01.  
Bng 3: Sliu BAliBASE 3.0 và BAliBASE 2.01  
RV1  
Version  
RV20 RV30 RV40 RV50 Total  
RV11 RV12 RV13  
2.01  
3.0  
27  
38  
27  
44  
28  
23  
41  
12  
30  
12  
49  
12  
16  
141  
218  
Stest  
N/A  
123  
2.01  
3.0  
125  
265  
119  
411  
487  
292  
150  
148 1444  
483 6254  
Schui  
N/A 1896 1882 1317  
Nhìn vào bng ta có ththy sthay đổi ln khi chuyn btest dliu từ  
BAliBASE 2.01 sang BAliBASE 3.0. Ở đây ta có ththy bRV1 là btest vi  
nhng chui được coi là ngang hàng nhau vi độ tương đồng ca bRV11 là t0 ti  
20% và độ tương đồng ca bRV12 là t20 ti 40%. Bthhai là RV20 bnày bao  
gm nhng test gia dòng hvà nhng cá thbbiến di. Bth3 là RV30, đây là bộ  
bao gm nhng test gia các nhánh có chung ttiên. BthRV40 bao gm nhng  
test có smrng ln gia các chui gen. Cui cùng là bRV50, bnày gm nhng  
test có mt độ chèn/xóa là rt cao.  
Ngoài ra slượng chui cũng như slượng test ca BAliBASE 3.0 là ln hơn rt  
nhiu so vi BAliBASE 2.01. nếu như slượng test bn 2.01 chlà 141 thì 3.0 số  
lượng test là hơn 200. Đồng thi, tng schui trong tt cbdliu ca bn 3.0 là  
6254, ln hơn hn so vi ca phiên bn 2.01 vi tng s1444 chui. Như vy có thể  
thy nếu sdng BAliBASE 3.0 để kim tra kết quca các thut toán sp hàng đa  
chui khnăng ta sthu được kết quchính xác hơn so vi BAliBASE 2.01. Tuy  
nhiên, đi kèm theo đó là thi gian đòi hi để mi thut toán hoàn tt quá trình bt cp  
cho bdliu BAliBASE 3.0 là ln hơn rt nhiu so vi phiên bn 2.01.  
BAliBASE sdng hai hsố đim để xác định độ chính xác ca mt đa chui  
thng hàng so vi kết qumà các nhà khoa hc ttay bt cp. đó là đim sum-of-  
Page | 24  
pair(SP) đim total-column(TC). Đim SP có thể được tính mt cách đơn gin như  
sau:  
- Đặt s(a,b) – a,b là 2 amino axit, là đim khbt cp a vi b. khi đó ta scó  
giá tca s(a,b) tương ng là:  
s(a,b) = 1 nếu a b là mt amino axit  
s(a,b) = -1 nếu a b khác nhau  
s(a,b) = -2 nếu a là gap, b không là gap hoc ngược li  
s(a,b) = 0 nếu ca b đều là gap.  
- Đặt SP(mi) là giá trị đim ct i ca đa chui thng hàng, giá trca SP(mi)  
được tính bng tng các s(a,b) trong đó a,b là các amino axit được ly tct  
thi ca đa chui. Mt ví dụ đơn gin cho vic tính toán SP(mi) được thể  
hin bng 4  
Bng 4: tính toán SP(mi)  
m1 m2 m3 m4 m5 m6  
Seq1  
Seq2  
Seq3  
T
_
_
_
G
G
G
3
C
C
C
3
_
T
_
G
G
G
3
A
A
SP(mi) -4 -3  
-4  
Trong đó: SP(m1) = s(T, -) + s (T, -) + s (-, -) = -2 + -2 + 0 = -4.  
Tương tvi các đim ca ct m2, m3, m4, m5, m6.  
- Đim SP ca cchui được tính theo công thc  
SP(M ) =  
SP(m)  
mM  
như vy, vi kết quca ví dtrên, SP(M) = -2;  
Page | 25  
- Kết quca đim SP(M) vi đa chui thng hàng đầu vào sẽ được so sánh  
vi vi SP(R) ca bdliu tham kho có sn trong BAliBASE và đim SP  
cui cùng slà tlphn trăm khi chia SP(M) cho SP(R). Đây chính là đim  
sum-of-pair ca BAliBASE.  
Đim TC còn đơn gin hơn đim sum of pair rt nhiu. Đim TC chính là tlsố  
ct mà đa chui đầu vào cha các amino axit ging ht so vi thư vin ca BAliBASE.  
Vi hai hsố đim SP TC ta có thxác định được phn nào độ chính xác ca  
kết ququá trình sp hàng đa chui vi dliu chun ban đầu. Cn chú ý khi tính kết  
quca mt bdliu con, chng hn RV11. Ta tính kết quca tng test trong  
RV11 và ly kết qutrung bình cui cùng làm kết quca cbRV11. Nhưng kết quả  
ca toàn bbdliu BAliBASE thì ta cn tính trung bình khi nhân trng svi mi  
bdliu con. Trng số đó chính là stest trong bdliu con đó.  
Ba bng dưới đây là các bng kết quso sánh phương pháp áp dng MUMSA  
vào M-Coffee vi bdliu BAliBASE 2.01 và BAliBASE 3.0 đối vi cnhng test  
full-length và nhng test chxét nhng đon tương đồng vi các thut toán tiên tiến  
trên thế gii. Thi gian thc hin được tính da trên máy tính có vi slý intel core 2  
dual 2.4GHz, RAM 3GB. Các thut toán sdng tương ng là MUSCLE ver.3.7,  
MAFFT ver.6.240, ProbCons ver.1.12, T-Coffee 8.47 vi các thư vin tương đương  
vi EM-Coffee và được viết tt là TD-Coffee. Ngoài ra bdliu BAliBASE ko có  
RVS40. Chú ý rng nếu chưa có thư vin thì thi gian chy ca EM-Coffee slà tng  
thi gian chy các thut toán.  
Page | 26  

Tải về để xem bản đầy đủ

pdf 38 trang yennguyen 17/06/2025 430
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Sắp hàng đa chuỗi", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_sap_hang_da_chuoi.pdf