Khóa luận Kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Phan Duy Tùng  
KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIN  
ĐỔI AMINO ACID CHO VIRÚT CÚM  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: khoa hc máy tính  
HÀ NI - 2009  
ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
Phan Duy Tùng  
KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIN  
ĐỔI AMINO ACID CHO VIRÚT CÚM  
KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Ngành: khoa hc máy tính  
Cán bộ hướng dn: TS. Lê SVinh  
HÀ NI - 2009  
Tóm tt khóa lun  
Khóa lun với đề tài “kiểm định và so sánh các mô hình biến đổi amino acid cho  
virút cúm”. Đề tài này chúng tôi đã thc hin nhng công vic sau:  
1. Nghiên cu tng quan vsinh hc phân tvà tin sinh hc.  
2. Nghiên cu mô hình biến đi amino acid.  
3. Kim thmô hình I09 cho virút cúm và so sánh vi các mô hình khác như: LG,  
WAG, HIVw, HIVb, JTT ……  
Kết qucho thy I09 [31] tốt hơn các mô hình khác khi áp dng cho dliu virút cúm.  
Li cảm ơn  
Tôi xin chân thành cảm ơn Tiến sLê Sỹ Vinh là người trc tiếp, nhit tình  
hướng dn tôi làm khóa lun tt nghip trong thi gian qua.  
Tôi xin gi li cảm ơn tới thc sỹ Đặng Cao Cường người đã giúp đỡ tôi rt  
nhiu trong quá trình làm khoán lun tt nghip.  
Tôi xin gi li cảm ơn tới toàn thcác thy giáo, cô giáo tại Trường Đại Hc  
Công Nghnhững người đã hết lòng dy cho tôi nhng kiến thc hết sc bích trong  
4 năm học tại trưng.  
Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu và sự  
htrtt nht.  
Mc lc  
Lời nói đu ...................................................................................................................... 1  
Chương 1: Tng quan vsinh hc phân tvà .................................................................. 2  
Mt skhái nim khái nim tin sinh ................................................................................ 2  
1.1 Sinh hc phân t......................................................................................................2  
1.2 Sắp hàng đa chuỗi ...................................................................................................4  
1.3 Cây phân loài ..........................................................................................................6  
Chương 2: Mô hình thay thế nucleotide và....................................................................... 7  
Mô hình thay thế amino acids .......................................................................................... 7  
2.1 Mô hình ca chui tiến hóa .....................................................................................7  
2.2 Mô hình thay thế ca nucleotide..............................................................................9  
2.3 Mô hình thay thế ca amino acid...........................................................................13  
Chương 3: Virút............................................................................................................. 17  
3.1 Khái niệm cơ bản vvirút .....................................................................................17  
3.2 Phân loi Virút ......................................................................................................17  
3.3 Virút m..............................................................................................................18  
Chương 4: Quá trình thc hin kết qu.......................................................................... 21  
4.1 Sơ lược về chương trình ........................................................................................22  
4.2 Những điểm cn chú ý trong chương trình.............................................................22  
4.3 Quá trình thc hin................................................................................................24  
Kết lun ......................................................................................................................31  
Chương 5: Tổng kết – Đánh giá..................................................................................... 32  
5.1 Tng kết................................................................................................................32  
5.2 Những đóng góp....................................................................................................32  
5.3 Hướng phát trin ...................................................................................................32  
Tài liu tham kho ......................................................................................................... 33  
Hình tham kho ............................................................................................................. 36  
Lời nói đầu  
Tin sinh (Bioinformatics), Bio:sinh hc phân t(Molecular Biology), Informatics  
(Khoa hc máy tính). Bioinformatics: gii quyết các bài toán sinh hc bng vic sử  
dụng các phương pháp của khoa hc máy tính. Vi sphát trin mnh mca công  
nghsinh hc, mt khối lượng ln dliu sinh hc phân tử (gene, protein, genome) đã  
được thu thập, lưu trữ và chia sti các ngân hàng dliu thế giới như NCBI  
(National center for biotechnology information). Tin sinh hc hiện đang được ng  
dng phbiến trong sinh hc phân t, nông nghip, công nghthc phẩm, môi trường,  
y - dược hc, và kim soát bnh.  
Trong những năm gần đây trên toàn cầu đã bùng nnhững đại dch cúm như đại  
dch H5N1 và gần đây nhất mi phát hiện ra đại dch mi do chng H1N1 ã đột  
biến) gây ra, có thlây từ người sang người. Các nhà khoa hc trên toàn thế giới đang  
ra sc nghiên cu, tìm hiu vloi virút cúm mi này. Vì vy vic tìm ra mt mô hình  
thay thế amino acid tt nhất để giúp các nhà khoa hc nghiên cu tốt hơn các loại virút  
cúm là rt cn thiết. Với đề tài khóa lun tt nghip “Kiểm định và so sánh các mô  
hình biến đổi Amino Acid cho virút cúm” chúng tôi hi vng scó những đóng góp vào  
vic sn xuất và điều chế ra vacxin điều trcúm. Sau quá trình nghiên cu và kim tra  
chúng tôi đã thu được mt skết qusau. Chúng tôi đã tìm ra mô hình I09 [31] là tt  
nhất để nghiên cu các loi dliu virút cúm. Mc dù mô hình này mi ở giai đoạn  
đầu phát trin nhưng nó đã có nhng thuc tính ni tri cao so vi các mô hình khác.  
Kim tra giá trlog likelihood trên 489 aligment độc lập đã cho chúng ta nhng kết  
qunhư sau: I09 tốt hơn HIVb 455 btrên 489 aligmenent, tồi hơn 34 bộ, và I09 tt  
hơn HIVw 476 bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên  
489 aligmenent và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và ti  
hơn 21 bộ.  
- 1 -  
Chương 1: Tổng quan về sinh học phân tử và  
Một số khái niệm khái niệm tin sinh  
1.1 Sinh học phân tử  
Mọi cơ thể sống đều cu to tcác tế  
bào. Tế bào có cu to gm: v, nhân. Nhân  
tế bào đều cha acid nucleic. Đó là những  
phân tln gm nhiu các nucleotide. Có  
hai loi nucleic: DNA và RNA. Để dhình  
dung hơn chúng ta có thể xem hình 1 thể  
hin mô hình ca mt tế bào được phóng to  
ra.  
Hình 1: Cu to tế bào.  
ADN (Acid deoxyribonucleic): là chui  
xoán kép, mang thông tin di truyền, được cu  
to t4 thành phần cơ bản sau: Adenine (A),  
Cytosine (C), Guanine (G), Thymine (T).  
Những đặc điểm này được thể hiện ở hình 2,  
hình này mô tả chuỗi xoán kép DNA và các  
liên kết A-T và C-G.  
Hình 2: Cu trúc xon kép ca DNA.  
- 2 -  
Trt tcác base dc theo chiu dài ca chui DNA gi là trình t, trình tnày rt  
quan trng vì nó chính là mt mã nói lên đặc điểm hình thái ca sinh vt. Tuy nhiên, vì  
mi loi base chcó khả năng kết hp vi 1 loi base trên si kia, cho nên chcn trình  
tbase ca 1 chuỗi là đã đại din cho cphân tDNA.  
Đột biến hiểu đơn giản là hu quca nhng sai sót hoá hc trong quá trình nhân  
đôi. Bằng cách nào đó, một base đã bbqua, chèn thêm, bsao chép nhm hay có thể  
chui DNA bị đứt gy hoc gn vi chui DNA khác. Vmt cơ bản, sxut hin  
những đột biến này là ngu nhiên và xác sut rt thp.  
- Sthay thế: thay thế mt nucleotide bi cái khác trong chui.  
- Sbỏ đi: xóa mt hoc nhiều hơn nucleotide từ chui.  
- Thêm vào: thêm mt hoc nhiu nucleotide trong chui.  
- Transitions: thay thế mt purine trong purine khác (A G) hoc mt  
pyrimidine trong pyrimidine (C T).  
- Transversion: thay thế mt purine trong mt pyrimidine A C, AT, GC,  
GT.  
RNA cũng tương tự như DNA nhưng trong thành phần cơ bản ca nó thì T được  
thay bng U (Uracil).  
Mi quan hcủa DNA, RNA, Protein được thhiện qua sơ đồ sau:  
Translation  
Transcription  
DNA  
tmRNA  
Protein  
Protein là thành phn quan trng trong tế bào ca virút. Protein được cu to từ  
20 loi amino axit. Skhác nhau về lượng và trình tsp xếp các amino axit to thành  
các protein khác nhau.  
- 3 -  
20 loi amino axit: mt bba các A, C,  
G, T tương ứng vi mt amino acid gi là  
bba mã hóa (codon). Các bba này ng  
vi các amino acid thhin trong hình 3, vi  
các loại amino acid như sau: Phe, Leu, Ser,  
Tyr, Cys, Trp, Pro, His, Gln, Arg, lle, Thr,  
Asn, Lys, Arg, Val, Ala, Asp, Glu, Gly.  
Hình 3: 20 amino acid.  
Trong quá trình tiến hóa và biến đi ca các chui DNA, RNA, có xy ra nhng  
những đột biến (thêm vào, chèn, xóa – đã được định nghĩa trong phần 1.1). Chính vì  
vậy đã to ra skhác nhau ca các cui DNA, RNA ca cùng mt loài. Vì vậy để  
nghiên cứu được vcác chuỗi này điều đầu tiên chúng ta cn làm là sp hàng các  
chui này.  
1.2 Sắp hàng đa chuỗi  
Sắp hàng đa chuỗi (gióng hàng đa chui) là cách sp hàng các chui DNA, RNA  
hay protein sao cho chúng ging nhau nht. Các chui này sau khi sp hàng scó cùng  
chiu dài. Mt số chương trình dùng để sắp hàng đa chuỗi như: CLUSTALW [28], T-  
COFFEE [17], hoc MUSCLE [5].  
Sp hàng 2 chuỗi: là trường hp riêng ca sắp hàng đa chuỗi.Ví dchúng ta có  
hai chui DNA ca người và tinh tinh:  
- 4 -  
1
2
3
4
5
6
7
8
9
10 11 12  
Ngưi  
A
A
A
C
C
C
C
T
T
T
T
T
T
C
C
C
C
C
C
T
T
T
T
Tinh Tinh  
Sau khi sp hàng ta có kết qu:  
1
2
3
4
C
-
5
6
7
8
9
10 11 12  
Ngưi  
A
A
C
C
C
T
T
T
T
T
T
C
C
C
C
C
C
T
T
T
T
Tinh Tinh A  
Sắp hàng đa chui thay vì so sánh 2 cp thì là vic tìm sging nhau của đồng  
thi nhiu chui.  
d: có sắp hàng đa chuỗi ca 7 chui sau:  
1
A
G
C
T
T
T
T
2
3
4
C
-
5
T
T
T
T
T
T
T
6
T
T
T
T
T
T
T
7
T
T
T
T
T
T
T
8
9
10 11 12  
Ngưi  
Tinh Tinh  
Khỉ đột  
Bò  
A
A
A
C
C
G
G
C
C
C
C
C
C
T
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
T
T
T
T
T
T
T
T
T
T
T
T
T
T
C
-
Chó  
-
Chut  
Chim  
-
-
Sau khi các chuỗi được sp hàng xong chúng sẽ được sdng vi nhiu mc  
đích khác nhau. Mt trong nhng mục đích quan trọng là xây dng cây phân loài.  
- 5 -  
1.3 Cây phân loài  
Cây phân loài biu din mi quan htiến hóa gia các loài sinh vt. Có nhiu  
phương pháp để xây dựng cây phân loài như Maximum parsimony, Distance Based,  
hay Maximum Likelihood [15]. Nhưng ngày nay, phương pháp Maximum Likelihood  
được sdng phbiến nht. Sdng phn mm PhyML [23] để xây đựng cây phân  
loài bằng phương pháp Maximum Likelihoood. Hình 4 là mt ví dvcây phân loài  
của 4 loài: người, tinh tinh, gorilla, khRhesus.  
Hình 4: Ví dvcây phân loài  
Mun xây dng nhng cây phân loài tt và chun xác thì cn phi có nhng kiến  
thức cơ bản vnhng mô hình thay thế nucleotide hoc mô hình thay thế amino acid.  
Nhng mô hình này là nn tng ca vic xây dng nên cây phân loài. La chọn được  
mô hình tt sdn ti vic có cây phân loài tt. Phn tiếp theo snói chi tiết hơn về  
các mô hình thay thế nucleotide và mô hình thay thế amino acid.  
- 6 -  
Chương 2: Mô hình thay thế nucleotide và  
Mô hình thay thế amino acids  
Sau đây chúng tôi trình bày tng quan vmô hình tiến hóa, mô hình thay thế ca  
nucleotide, mô hình thay thế ca amino acid. Chi tiết có ththam kho ti [15, 29].  
2.1 Mô hình ca chui tiến hóa  
Sau khi đã được chui sắp hàng đồng nht, mi quan hcó thể được phân tích  
trên các ký tự đồng nht ca chúng. Ước lượng ca sp cp khong cách (khong cách  
tiến hóa) gia chui là nhim vụ cơ bn và quan trng trong phân tích chui chng hn  
như tìm kiếm có liên quan cht chẽ đến chuỗi trong cơ sở dliu và xây dng li  
khoảng cách cơ bn ca cây phân loài [24].  
Chính xác, Chúng ta có A= {A, C, G, T} theo thtlà 4 nucleotide tình trng có  
ththc hiện đưc. Ging nhau, ca 20 trng thái amino acid viết tt vi A= {A, C, D,  
E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}. Nhìn 2 sp hàng chui (Nucleotide  
hoc amino acids) x=(x1, x2,…, xm) y=(y1, y2, ….,ym) khi xi, yiA vi i=1 …m.  
Hình 5: quan hgia khong cách quan sát và khong cách gen gia 2 chui.  
- 7 -  
Nếu khong cách gen là nh, nó có thể ước lượng bi khong cách quan sát. Tuy  
nhiên, khoảng cách quan sát tăng lên thì bão hòa và đó là giới hn ca nó. Bi vy,  
khoảng cách quan sát đánh giá bởi khong cách gen.  
Định nghĩa: Khong cách gen dg(x,y) gia 2 chuỗi tương đồng x=(x1,x2,….,xm)  
y=(y1,y2…..,ym) A vi i=1 …. m là sthay thế có tht gia x y trên site.  
Ước lượng khong cách gen gia chuỗi điển hình phthuc vào thng kê mô tả  
ca xlý thay thế gia nucleotie hoc amino acids, gi là mô hình thay thế.  
Trưc khi miêu tmô hình, chng hn mt sự đi chệch trong khong cách quan  
sát 2 chuỗi cái mà đơn giản nht và thuc về ước lượng trc giác ca khong cách gen  
[24].  
Định nghĩa: khong cách nhìn thy d0(x,y) gia chuỗi đồng nht x=(x1, x2,  
…..,xn) y=(y1,y2, … ,ym) vi xi,yi A vi i=1,… m là tlca vị trí không ghép đôi  
trong sp cp chuỗi tương ứng. Toán hc,  
m
(xi yi )  
i1  
do (x,y)=  
(2.1)  
m
Hình 6: Tiến hóa ca 2 chui tchui ttiên  
khi  
- 8 -  
(2.2)  
nếu khong cách gen dg(x,y) là nhỏ, nó đã ước lượng một cách đúng đắn bi  
khong cách quan sát do(x,y) như biểu đồ minh ha hình 5. Tuy nhiên, mt tlthay  
thế cao hoc mt thi gian tiến hóa gia chui có thlà nguyên nhân không đánh giá  
được khong cách gen tkhong cách quan sát. Rõ ràng hơn ở hình 6 hin thví dvề  
nhiu thay thế, thay thế song song và thay thế sau, trong cái khong cách quan sát gia  
2 chui là nhỏ hơn số ca thay thế thc tế gia chúng.  
Nhiu thay thế (multiple subsituations): có 2 hoc nhiều hơn thay thế xy ra  
ti vtrí ging nhau. Tuy nhiên, mt thay thế quan trng là có thnhìn thy ti vtrí  
trong sp cp trình t(vtrí 1 hình 6).  
Thay thế song song (parallel substitution): thay thế ging nhau có xy ra ti  
vtrí ging nhau trong 2 chui. Bi vy, chúng ta không quan sát thy thay thế gia 2  
ký tti vtrí trong sp cp trình t(vtrí 3 hình 6).  
Thay thế sau (Back subsituations): có 2 hoc nhiều hơn thay thế xy ra ti vị  
trí ging nhau trong mt chui.Tuy nhiên, ký tcui cùng có trạng thái như trạng thái  
ban đầu.Vy kết qulà không thể quan sát được thay thế ti vtrí sp cp trình t(vị  
trí 5 hình 6).  
Để gii quyết vấn đề này, chúng ta sdng mô hình xlý thay thế gia  
nuclotides và mô hình xlý thay thế gia amino acid.  
2.2 Mô hình thay thế ca nucleotide  
Xlý thay thế gia nucleotides là mô hình như một thời gian đồng nht, thi  
gian tiến hành không dch chuyn ca xlý Markov [27, 24]. Thành phn trung tâm  
ca xlý là thay thế ngay lp tc tlthay thế ma trn.  
(2.3)  
- 9 -  
Khi Qij là sca thay thế tnucleotide i thành nucleotide j trên thi gian. Tham  
sa, a’, b, b’, c, c’, d, d’, e, e’, f, f’ phù hp có liên quan ti tlthay thế tmt  
nucleotide vi nucleotide khác. Cui cùng, tham sA ,C ,G ,T miêu ttn sca  
nucleotides A, C, G, T, miêu ttn sca nucleotide A, C, G, T theo thtự định sn.  
Chú ý rng thành phần đường chéo Qii là phân chia như tổng ca các thành phn ca  
hàng và kết qubng 0.  
Thi gian thun nghch giả định thường xuyên áp đặt vi suy ra sphân loài, cái  
có liên quan đến tlthay thế gia nucleotide i và nucleotide j là ging nhau trong cả  
2 phương hướng. Rõ ràng, tlthay thế tương đối a’=a, b’=b, c’=c, d’=d, e’=e và f’=f.  
Bi vy, phbiến thi gian thun nghch (GTR) [27] là:  
(2.4)  
Mô hình áp đặt 4 điều kin:  
- Tlca thay thế tnucleotide i vi nucleotide j phthuc vào lch sca  
nucleotide i (đặc tính Markov).  
- Tlthay thế là bt biến vi thời gian (đồng nht thi gian).  
- Thay thế gia nucleotide có thxut hin ti thi gian trong xlý (thi gian  
liên tc).  
- Tn s= (A ,C ,G ,T ) ca nucleotide A, C, G, T.  
Tlthay thế tc thi ma trn Q có thtách ri trong có liên quan đến tlthay  
thế ca ma trn R= {Rij} và tn snucleotie như:  
(2.5)  
Khi quan hma trn tlthay thế là:  
- 10 -  
(2.6)  
Mt ma trn tlthay thế tc thi Q lý thuyết gi là ma trn khả năng thay thế  
P(t)={Pij(t)} trong này Pij(t) là xác suất thay đổi tnucleotide i thành nucleotide j trong  
thi gian tiến hóa t có thtính toán bi:  
(2.7)  
Chúng ta phi chú ý rng ma trn tlthay thế tc thời Q là điển hình như số  
trông đợi ca thay thế trên đơn vị thi gian gi là tốc độ thay thế là:  
(2.8)  
Bi vy, Pij (t) là xác sut ca thay thế tnucleotide i thành nucleotide j sau t  
thay thế (t có thlà giá trphân s).  
Mô hình đảo ngược phbiến Q là chéo hóa (Keilson [12]; Gu and Li [8] ), P (t)  
có thtính toán hiu qusdng sphân ly ca Q .Công thc  
(2.9)  
hoc chính xác hơn,  
(2.10)  
Khi đó  
- 11 -  
Hình 7: skhác nhau gia các mô hình thay thế nucleotide là stham stdo  
(Free parameters).  
|A|=4 là strng thái có ththc hiện đưc  
=diag {,2 ,....,A } là |A||A| ma trận đường chéo tương ứng vi giá trị đặc  
1
trưng ca mà trn ,2 ,....,A ca Q  
1
U= {u1, u2, ... , u|A|} là ma trận tương ứng với đặc trưng của Q và U-1 là ma trn  
nghịch đo  
Skhác nhau ca các ma trn Q là 8 tham stdo. Tuy nhiên có thtìm hiu rõ  
hơn về nhng tham stdo này thông qua các mô hình như sau: JC69 [11], F81 [7],  
K2P [13], HKY85 [9], TN93 [26].  
Hình 7 hin thskhác nhau ca mô hình thay thế nucleotide cũng như số các  
tham stdo ca chúng. Tham stdo ca mô hình thường ước lượng dliu sử  
dụng chương trình tính toán như là PAUP* [25], TREE-PUZZLE [20], MRBAYES  
[19], PHYML [23].  
- 12 -  
2.3 Mô hình thay thế ca amino acid  
Chui amino acid là bao gm loi dliu phân tsdụng để nghiên cu quan hệ  
giữa loài năm 1960 bi Eck và Dayhoff [4]. Ging nhau vi nucleotides, thay thế xlý  
gia amino acid là không có tht vi một đồng nht thi gian thi gian liên tiếp thi  
gian đảo ngược không đổi xlý Markov. Tuy nhiên, 20 trng thái amino acid cần đến  
C202 mô hình thay thế tham svới ước lượng. Bi vy, tham số là đặc trưng nhận đưc  
tkinh nghim nghiên cứu cơ bản trên số lưng dliu rng ln [3, 10, 1, 16, 22]. Sau  
đây, mô hình thay thế ca amino acid gi là mô hình thay thế kinh nghim.  
Dayhoff (1978) [3] là mô hình thay thế amino acid đầu tiên. Hsdng 71 bộ  
protein có quan hcht chvi nhau và quan sát 1572 thay thế gia các amino acid.  
Họ sưu tập thay thế này trong xác sut phbiến ca ma trn sthay thế đã được tha  
nhn (PAM) hoc mô hình Dayhoff.  
PAM-001 là ma trn quan trng nht PAM cái biu hin xác sut ca sthay thế  
tmt amino acid vi amino acid khác. Nếu mt phần trăm của amino acid có thay thế  
gia chúng. Phbiến hơn là PAM-t là xác sut ca thay thế tmt amino acid ti cái  
khác nếu số lượng ca thay thế gia chúng là t phần trăm. PAM-t có thtính toán dễ  
dàng bi sự tăng ma trn PAM-001 vi smũ t [6].  
Jones et al (1992) [10] ng dụng phương pháp giống như của Dayhoof et al  
(1978) nhưng với giá trlớn hơn về sbdliệu để lp bng xác sut ca ma trn biến  
đổi công nhn có tên là ma trn JTT.  
Mt thiếu sót ca ma trn PAM là chúng chthng kê trên mt chui protein có  
quan hmt thiết vi nhau.Muller và Vingrron (2000) gii thiu mt ci tiến ước  
lượng, gọi là phương thức gii thc, chiến thng cái shn chế.Sau đó, họ tính toán  
gi là ma trận VT cơ bản trên chui protein ca mức độ biến đổi ca skhác nhau từ  
dliu SYSTERS [14].  
Adachi và Hasegawa (1996) [1] nghiên cu sthay thế acmino acid xlý trong  
ngcnh ca mtDNA- mã hóa protein. Hxây dng mt ma trn xác sut chuyển đổi,  
- 13 -  
đó là ma trận mtREV, sdng ma trận maximum likelihood cơ bản trên 20 động vt  
có xương sống mtDNA gii mã chui protein. Tác giả đưa ra kết qu: mtREV thc sự  
tốt hơn mô hình khác khi xlý mi quan hệ phân loài trong loài căn cứ trên mtDNA  
gii mã chui protein ca h.  
Whelan và Goldman (2001) [22] sdng mt ma trn gần đúng phương thức  
likelihood để ước lượng mt mô hình mi ca thay thế amino acid, tên là WAG, căn  
ctrên 3,905 chui protein dng cu t182 hprotein. Họ đưa ra kết qu: WAG là tt  
hơn phương thức Dayhoff vi chi tiết ca ma trn giá trlikelihood tmt sln ca  
hprotein cu.  
David C.Nickle và các đồng nghip (2007) [2] đã đưa ra 2 mô hình theo kinh  
nghim HIVb và HIVw. Mô hình này nghiên cu về virút HIV trên người (HIV-1).  
Ngoài ra tác gicòn khẳng định rng mô hình ca hcòn có tháp dng vi virút  
viêm gan C, và virút cúm A. Mô hình HIVw sdng sp hàng chui ca 48 cặp tương  
ng vi tng s6,328 cp amino acid khác nhau. Mô hình HIVb sdng 8 bdliu  
vi tng cng 7,189 amino acid khác nhau. Sbdliu này khá là tuyt vi ln hơn  
1,700 amino acid so vi Dayhoff sdng và gp 2 ln so vi rtREV và C.Nickle cũng  
sdụng phương thức ước lượng cực đại ging của Whelan và Goldman để suy ra mô  
hình. Kết quhọ thu được là khả thi hơn các mô hình trước đó được tng kết ti bng  
1.Tbng 1 ta có ththấy được rng HIV-Wm đứng nht 44 ln trên 47 cặp, đứng thứ  
2: 2 ln trên tng s47 cp.Vi kết qunày ta thấy được sự vượt tri ca HIV vi  
nhng mô hình trước đó.  
- 14 -  
Bng 1: Kết quso sánh 19 model trên 47 cp alignment ging nhau  
Lê Sĩ Quang và Olivire Gascuel (2008 )[21] đã công bmt mô hình mới đó là  
mô hình LG. Mô hình này chy tt trên nhiu loi amino aicds khác nhau. Phương  
phát để suy ra mô hình này là: tác gici tiến mô hình WAG ca Whelan và Goldman  
(2001) bng cách sdụng ước lượng cực đại (maximum likelihood) kết hp chc chẽ  
tính biến đổi ca tltiến hóa vtrí xon trong ma trận ước lượng. Tác giả đã kết hp  
vi phn mm XRATE và 3,912 aligment tPfam, bam gm 50,000 chui và 6.5 triu  
amino acid.Và tác giả đã sdng ly mẫu độc lp ca 59 alignments từ TreeBase để  
so sánh kết quá như bảng thng kê bng 2 bên dưới.  
- 15 -  
Bng 2: So sánh các mô hình vi 59 alignments tTreeBase  
Mt skết lun trong bài báo ca tác gi:  
- Giá trtrung bình AIC (average Akaike information criterion gain per site)  
cung cp tăng hơn là 0.25 và 0.42 so với WAG và JTT theo thtlần lưng.  
- LG tốt hơn đáng kể so vi WAG ti 38 alignemnt (trên 59 balignments) và  
tồi hơn chỉ duy nht 2 b.  
- Mô hình cây suy ra vi LG , WAG và JTT tn skhác nhau, biu thrng sử  
dng LG không nhng ảnh hưởng duy nht ti giá trlikelihood mà ảnh hưởng cti  
cây sinh ra.  
Qua nhng phn trình bày ở chương 2 chúng ta đã có mt cái nhìn tng quan về  
các mô hình biến đổi nucleotide và các mô hình biến đổi amino acid. Nhng mô hình  
đó đưc sdụng để nghiên cu vi DNA và RNA ca nhiu loài sinh vt trên thế gii.  
Chương tiếp theo snói chi tiếp tới đối tượng mà chúng tôi đã la chọn để nghiên cu  
ngay từ ban đầu đó là virút cúm (Influenza).  
- 16 -  
Chương 3: Virút  
3.1 Khái niệm cơ bản vvirút  
Virút là mt vt thnhxâm nhiễm vào cơ thể sng. Virút có tính kí sinh ni  
bào bt buc; chúng chcó thsinh sn bng cách xâm chiếm tế bào khác vì chúng  
thiếu bmáy mc tế bào để tsinh sn. Có ththy hình dnh 3 loi virút ký sinh  
trên vi khun, động vt, và loi virút cúm hình 8.  
Hình 8: Ba loi virút: virút ca vi khun, còn gi là thc khun th(trái); virút  
của đng vt (phi trên); và retrovirút (phải dưới).  
3.2 Phân loi Virút  
DNA virút: do cơ chế tsa li trong quá trình sao chép, nên loi DNA virút  
này không có khả năng gây ra đột biến.Vì vy nó ít gây ra snguy him.  
RNA virút: nó phát sinh dựa trên cơ chế ca tng hp RNA, sau khi tn công  
vào vt chthì nó chuyển đổi thành DNA và sau đó tái tạo li RNA. Trong quá trình  
chuyển đổi này thì có thto ra những thay đổi làm cho virút trnên nguy hiểm hơn  
do các kháng thkhông thtiêu diệt đưc chúng.  
- 17 -  
3.3 Virút cúm  
Cái gì là bnh cúm ca loài chim  
Cúm ca chim là mt loi cúm gây ra bi virút cúm. Virút cúm này tìm thy  
trong mt loài chim. Loài chim hoang rã có trên toàn thế gii mang virút trong rut  
của chúng, nhưng thường không làm cho chúng bị ốm. Tuy nhiên, cúm chim là dlây  
qua các loài chim khác và có thlây sang mt sgia cầm đã thun hóa bao gm, gà,  
vt, gà ty gây ra m và có thgiết chúng.  
Có my loi virút cúm  
- Loi A: có thể lây cho người, chim, ln, nga, hi cẩu, các voi và các động vt  
khác, những động vt hoang dã lưu trữ virút này tnhiên. Loi này có thể gây ra đại  
dch.  
- Loi B: virút loi B là bình thường được tìm thy duy nhất trên người. Mc dù  
virút loi B có thlà nguyên nhân bnh dch ở người, chúng không gây ra các đại dch.  
- Loi C: virút loi C là nguyên nhân gây ra các loi cúm nhẹ ở người, và nó  
không gây ra bnh dch hoc không gây ra đi dch.  
Virút cúm A  
Virút cúm nhóm A được chia thành các phân nhóm da vào loi  
protein: hemagglutinin (H) và neuraminidase (N) nm trên lp vprotein bao bc lõi  
virút. Có 16 loi HA và 9 loại NA, như vậy thp li thì có khả năng tạo ra 144 phâm  
nhóm cúm A khác nhau, hemagglutin có nhim vkết ni virút vi tế bào ch,  
neuraminidase có dng nút li hình nm trên bmt virút cúm và có vai trò htrgii  
phóng virút khi tế bào vt ch.  
Duy nht mt skiu cúm A (H1N1, H1N2, H5N1 và H3N2) hin nay hin din  
trên cơ thể người. Các kiểu khác không được tìm thấy thường có ở các động vật đặc  
bit. Ví dH7N7 và H3N8 virút gây m nga.  
“virút H7N2 “ được biết là mt loi cúm A có HA 7 protein và mt NA 2 protein.  
Ging nhau vi virút H5N1 có HA 5 protein và NA 1 protein  
- 18 -  
Bgen di chuyn virút cúm A gồm có 8 đoạn, chuỗi RNAs đơn có thể nm gia  
890 và 2340 nucleotide. Nhng chuỗi này được thhin trong hình 9.  
Hình 9: Bgen ca virút cúm A  
Ti sao li khẳng định virút cúm là nguy him. Điều này cũng dễ hiu khi chúng  
ta nhìn vào hình 10, nó thhin slây lan của virút cúm vào các năm 1918, 1957,  
1968, 1977, 2003, 2004  
Các thng kê slây lan ca virút  
Hình 10: Slây lan ca virút cúm  
- 19 -  
Như chúng ta thấy vi slây lan của virút cúm như ở hình 10, cho chúng ta thy  
đượng snguy him của virút cúm đối vi sc khe con người. Vì vy vic tìm ra mt  
mô hình thay thế amino acid để giúp các nhà khoa hc nghiên cu tốt hơn về các  
chng virút cúm là rất quan trong. Sau đây sẽ là nhng gii thiu vmt mô hình mi  
như vậy, mô hình này ra đời nhm phc vcho vic nghiên cu virút cúm.  
Gii thiu vmô hình nghiên cu vi virút cúm  
Mô hình I09 [31] đang trong giai đoạn du phát trin (2009). Mô hình này xây  
dựng để phc vu cho vic nghiên cu các chng virút cúm. Phương pháp xây dựng  
được thc hiện theo các bước ca mô hình LG nhưng với mt bdliệu được xây  
dng kcông và nhiu công sc vvirút cúm. Chính vì vy cho ra kết qurất đáng  
chú ý.  
Vi vic so sánh giá trlog likelihood ca các alignment có nhng kết qusau:  
I09 tốt hơn HIVb 455 btrên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt hơn HIVw 476  
btrên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên 489 aligmenent  
và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi hơn 21 bộ.  
Nhng kết qunày sẽ được trình bày rõ hơn ở chương 4 ca khóa lun này.  
Chương 4 là chương nói lên toàn bộ quá trình thc hin vic kiểm định và so sánh các  
mô hình biến đi amino acid cho virút cúm.  
- 20 -  
Chương 4: Quá trình thc hin kết quả  
Hình 11: Sơ lược quá trình kiểm định và so sánh các mô hình biến đi  
Amino Acid cho virút cúm  
PhyML chương trình xlý các chuỗi amino acid để đưa ra 3 thư mục: lk (cha  
các file loglikelihood ctng vtrí, stats: tên file, Tên mô hình, staxa, giá trlog-  
likelihood ca alignment, tree size, gama shape parameter, tlthay đổi, thi gian  
- 21 -  
chy ca alignment. tree cung cp hình dng cây phân loài của alignment dưới dng  
chui.  
4.1 Sơ lược về chương trình  
Bài toán kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm  
được sdng ngôn ngPerl kết hp vi MySQL để tiến hàng. Ngoài ra còn sdng  
ti một chương trình rt ni tiếng trong quá trình xlý các mô hình amino acid đó là  
chương trình PhyML phiên bn 3.0. [23]  
4.2 Những điểm cn chú ý trong chương trình  
Gii thiu về chương trình PhyML  
PhyML là một chương trinh rt chính xác sdng khong cách tối đa (maximum  
likelihood), một chương trình được nhiu chuyên gia trong lĩnh vực Tin Sinh thường  
xuyên sdng vì nó cho kết quchính xác nht [23].Đầu vào của chương trình là  
chui sắp hàng có định dng PHILIP.  
Định dng PHILIP  
File định dạnh PHILIP như sau:  
100 342  
ABB87822  
DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIEKICTQGKRPTDL  
GQCGLLGTLI…………  
ACF47475  
DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIKKICTQGKRPTDLGQC…………………  
…………….  
Ý nghĩa ca các phn:  
100: alignment gm có 100 chui (ABB87822, ACF47475….)  
342: Mi chui có 342 ký t(site)  
ABB87822, ACF47475: tên các chui trong alignment  
- 22 -  
Các ký t(DKICLGHHAVANGTK……) là ký hiu ca các amino acid trong  
chui  
Các tham ssdụng để chy PhyML  
Mt dòng lệnh đchy chương trình PhyML như sau:  
phyml -i aln.1.Influenza.TypeA.txt_muscle-gb.phylip -d aa -q -c 4 -a e --  
print_site_lnl -v e -m I09_it1_new_03_04_PAML.txt  
-i input (giá trị vào tên alignment định dng PHILIP).  
-d aa chuyển đổi chương trình sang dng xlý vi amino acid, dng mặc định  
của chương trình là xlvi nucleotide.  
-q: Thay đổi định dng interleaved (mặc định) để định dng sequential.  
-c 4: tlệ thay đổi là 4.  
-a e : đt giá trị gama shape parameter là ước lượng cực đại.  
--print site lnl: in các giá trlikelihood ca các vtrí (site) ra file * phyml lk.txt.  
-v e :tlcác ca vị trí không thay đổi đặt với ước lượng cực đại.  
-m tên mô hình amino acids cn chy.  
Vi tt ccác mô hình amino acids và tt calignments của virút cúm ta đều  
chy vi cùng các tham số như trên để cho tin vi vic so sánh. Các tham số trên đều  
được la chn phù hp vi nhng mc tiêu đã đề ra ngay từ ban đầu.  
Các mô hình amino acid: theo chương trình PhyML [23] có tt c14 mô hình  
Amino-acids: LG (default) WAG | JTT | MtREV | Dayhoff | DCMut  
| RtREV | CpREV | VT | Blosum62 | MtMam | MtArt | HIVw | HIVb |  
và thêm 1 mô hình mi nghiên cu là I09 [31].  
Vy skiểm định và so sánh 15 mô hình amino acid trên vi virút cúm.  
Gii thiu bdliệu dùng để chy PhyML  
Bdliu được xây dng bi thc sỹ Đặng Cao Cường vi stmnghiên cu  
và tìm kiếm trong nhiu tháng. Bdliệu được thu thp tngân hàn Gen ln NCBI  
- 23 -  
(ngân hàng gen ln nht ca thế gii NCBI (ngân hàng gen ln nht ca thế gii) nên  
mức độ chun xác là rt tin cy.  
Thông tin chi tiết tbdliu:  
Nguồn đưc ly tngày 03/04/2009 (rt cp nhp và chính xác)  
- Số lượng: 101,707 chui  
- Type A: 92866  
- Type B: 7396  
- Type C: 932  
- Không định nghĩa: 513  
Sau khi sdụng các chương trình MUSCLE, GBLOCKS để làm mn dliu ta  
thu được 978 alignment số alignment này được chia làm đôi (mi phn gm 489  
alignment) 1 phn dùng để hun luyn to ra mô hình mi I09 mt phn còn li sử  
dụng đkim tra vi 15 mô hình amino acid đã nêu trên.  
Ssite ca bdliu kim tra là: 205337  
4.3 Quá trình thc hin  
Sau khi có 489 alignment ca virút cúm dng PHILIP (phần 4.2 đã nói rõ về  
định dnh PHILIP), ta sdụng PhyML để chy vi 15 mô hình amino acid đã nói ở  
trên vi các tham số như ở phần 4.2 đã nói. Quá trình chy rt lâu mi mô hình chy  
hết khong 24 tiếng trên máy tính: cpu intel core 2 duo 4400 (2.0 GHz), RAM 1G và  
chy trên may ao linux ubuntu 8.04 256 ram.  
Kết quả thu được sau khi chy PhyML, ng vi mi mô hình ta sẽ có 3 thư mục  
tương ứng lk, stats, tree. Thư mục lk scung cp cho ta giá trlikelihood ca tng vị  
trí (site) đối vi mỗi alignment. Thư mục stats cung cp cho ta rt nhiu thông tin  
như : tên file, Tên mô hình, staxa, giá trlog-likelihood ca alignment, tree size,  
gama shape parameter , tlệ thay đổi, thi gian chy ca alignment. Thư mục tree  
cung cp hình dng tree của alignment dưới dng chui.  
Chy 15 mô hình amino acid, mi mô hình sẽ cho 3 thư mục, mỗi thư mục scó  
489 file ghi kết quả tương ứng ca 489 alignment.  
- 24 -  
Sdụng chương trình viết bng Perl kết hp với MySQL để xlý.  
So sánh giá trtrung bình loglikelihood trên (205337 site) ca 15 mô hình sẽ  
được thhin bng 3. Cách tính giá trtrung bình loglikelihood trên site: bng tng  
tt cloglikelihood ca 489 alignment trên 205337 site.  
Các giá trxếp theo thtgim dn. Ta so sánh giá trtrung bình loglikelihood,  
giá trtrung bình loglikelihood ca mô hình nào càng ln thì mô hình đó càng tốt. Qua  
bng 3 ta thấy được rng giá trtrung bình loglikelihood ca I09 là tt nht lớn hơn  
HIVb đứng thứ 2 là 0.0623 và Hibw đứng th3 là 0.06615.  
Bng 3: Giá trtrung bình log likelihood/site ca 15 mô hình amino acid.  
Average log_likelihood/site  
Model  
I09  
(205337site)  
-5.73055  
-5.79285  
-5.7967  
HIVb  
HIVw  
JTT  
-5.83168  
-5.88387  
-5.91403  
-5.91724  
-5.96466  
-5.97079  
-5.9708  
CpREV  
WAG  
LG  
VT  
Dayhoff  
DCMut  
RtREV  
Blosum62  
MtREV  
MtMam  
MtArt  
-5.9814  
-5.98325  
-6.14294  
-6.16878  
-6.24941  
- 25 -  

Tải về để xem bản đầy đủ

pdf 41 trang yennguyen 24/05/2025 130
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_kiem_dinh_va_so_sanh_cac_mo_hinh_bien_doi_amino_ac.pdf