Khóa luận Nghiên cứu sự phát triển của virut cúm

ĐẠI HỌC QUỐC GIA HÀ NỘI  
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
Nguyễn Văn Sáu  
NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUT CÚM  
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
Ngành: khoa học máy tính  
HÀ NỘI – 2009  
Mc lc  
Mc lc..................................................................................................................... 1  
Lời nói đu................................................................................................................ 3  
Chương I. Gii thiu vsinh hc phân tvà tin-sinh hc ....................................... 4  
1. Gii thiu vsinh hc phân t.............................................................................. 4  
2. Gii thiu vtin-sinh hc..................................................................................... 5  
2.1. Sắp hàng đa chuỗi .........................................................................................5  
2.2. Cây tiến hóa ...................................................................................................7  
Chương II. Virut cúm ............................................................................................... 8  
1.Sơ lược vvirut cúm ............................................................................................. 8  
2. Các loi virut cúm ................................................................................................ 8  
3. Cu trúc và tính cht............................................................................................ 9  
4. Mt sthng kê và slây lan ca virut cúm...................................................... 10  
4.1. Mt sthng kê vdch cúm......................................................................10  
4.2. Slây lan ca virut cúm .............................................................................12  
Chương III. Ngân hàng gene virut cúm.................................................................. 13  
1. Gii thiu tng quan........................................................................................... 13  
2. Các chức năng đã xây dng................................................................................ 13  
2.1. Quá trình xây dng ngân hàng gene ............................................................14  
2.1.1. Quá trình thu thp dliu chi tiết cho Vit Nam ..................................15  
1
Nghiên cứu sự phát triển của virut cúm  
2.1.2. Xây dựng cơ sở dliu..........................................................................16  
2.2. Tìm kiếm các chui......................................................................................21  
2.3. Tin ích ti chui.......................................................................................... 23  
2.4. Tiện ích sắp hàng đa chuỗi...........................................................................23  
2.5. Tiện ích xây dng cây tiến hóa ....................................................................24  
2.6. Bản đồ phân bca virut cúm .....................................................................25  
2.6. Biểu đồ thng kê vvirut cúm.....................................................................28  
Tài liu tham kho.................................................................................................. 31  
Các hình nh tham kho ......................................................................................... 33  
Các bng tham kho ............................................................................................... 35  
2
Nghiên cứu sự phát triển của virut cúm  
Li nói đu  
Tin-sinh hc (Bioinformatics) là mt lĩnh vực nghiên cứu đang phát trin rt  
mnh m. Tin-sinh hc áp dng những phương pháp trong tin hc để gii quyết  
các bài toán trong sinh hc phân t. Vi sphát trin mnh mca công nghsinh  
hc, mt khối lượng ln dliu sinh hc phân t(gene, protein, genome) đã được  
thu thập, lưu trữ và chia sti các ngân hàng dliu thế giới như NCBI (National  
Center for Biotechnology Information). Tin sinh hc hiện đang được ng dng  
phbiến trong sinh hc phân t, y-dược hc, nông nghip, công nghthc phm,  
môi trường và kim soát bnh.  
Hin nay, tin-sinh học đang được ng dng rng trong vic phát hin và  
kim soát bnh. Mt trong các ng dng cthlà kim soát bnh cúm, vi các  
dch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1. Để góp phn vào vic  
cung cp thông tin, cũng như các công cụ phân tích cho vic kim soát bnh cúm ở  
Vit Nam, đề tài tp trung vào nhng mc tiêu chính sau: (1) cung cp dliu về  
cúm trên thế gii và Vit Nam, (2) cung cp các công cụ phân tích cơ bản như tìm  
kiếm, sắp hàng đa chuỗi, xây dng cây tiến hóa, (3) cung cp dliu vvirut cúm  
chi tiết ti tng tnh thành ca Vit Nam, (4) cung cp bản đồ phân tán ca virut  
cúm trên thế gii và cho các tnh thành Vit Nam, (5) cung cp biểu đồ thng kê  
virut cúm cho các vùng ca Vit Nam, và trên thế gii”.  
Đề tài hy vng sgóp phn vào vic nghiên cu và kim soát các dch bnh  
liên quan đến virut cúm Vit Nam.  
3
Nghiên cứu sự phát triển của virut cúm  
Chương I. Giới thiệu về sinh hc phân tử và tin-sinh học  
1. Giới thiệu về sinh học phân tử  
Mọi cơ thể sống đều cu to tcác tế bào.  
Tế bào có cu to gm vỏ và nhân, trong đó  
nhân tế bào cha ADN (hoc ARN). Hình  
1 mô tcu to ca tế bào.  
ADN (acid deoxyribo nucleic) mang  
thông tin di truyn, được cu to t4 thành  
phn cơ bản (gọi là các nucleotide –  
Brown, 2000) Adenine (A), Cytosine (C),  
Guanine (G), Thymine (T) như hình 2.  
Trong các chuỗi ADN, một số đoạn được  
gọi là gene mang thông tin di truyn ca các  
loài sinh vt. Các nucleotide trong gene sẽ  
kết hp với nhau để tng hp ra protein. Cụ  
thlà, mt bba nucleotide liên tiếp sto  
ra 1 axit amin. Có 20 loi axit amin khác  
nhau (Brown, 2002) là Phe (Phenylalanine),  
Leu (Leucine), Ser (Serine), Tyr (Tyrosine),  
Cys (Cysteine), Trp (Tryptophan), Pro (Pro-  
line), His (Histidine), Gln (Glutamine), Arg  
(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val  
(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).  
Hình 3 mô tskết hp ca các ADN để to ra các axit amin. Tcác axit amin  
này to nên các protein bng cách liên kết vi nhau. Ssp xếp khác nhau và số  
lượng khác nhau ca các axit amin to thành vô scác protein khác nhau.  
4
Nghiên cứu sự phát triển của virut cúm  
ARN (Ribonucleic acid) cũng tương  
tự như ADN nhưng trong thành phần cơ  
bn ca nó thì T được thay bng U (Uracil).  
2. Giới thiệu về tin-sinh học  
Trong phần này chúng tôi sẽ trình bày một  
số bài toán cơ bản trong tin-sinh học như 1.  
Sắp hàng đa chuỗi, 2. Cây tiến hóa.  
2.1. Sắp hàng đa chuỗi  
Trong quá trình tiến hóa của các loài sinh vật, các chuỗi ADN bị biến đổi do 3  
phép biến đổi chính là (Brown, 2002).  
1. Thay thế một hoặc vài nucleotide bị thay thế bởi một hoặc vài nucleo-  
tide khác trong chuỗi.  
2. Chèn là một hoặc vài nucleotide được chèn thêm vào chuỗi cũ.  
3. Xóa là một hoặc một vài nucleotide bị xóa đi ở chuỗi .  
Do 3 phép biến đổi chính ở trên làm cho các ADN sinh vật bị thay đổi. Vì  
thế, để biết được mối quan hệ giữa các loài sinh vật (ADN) chúng ta phải dùng sắp  
hàng đa chuỗi để tìm ra mối quan hệ này.  
Gióng hàng các chui ADN, ARN hay protein là cách gióng sao cho chúng  
ging nhau nht. Các chui này sau khi gióng hàng scó cùng chiu dài. Trường  
hợp đơn giản nhất của gióng hàng là sắp hàng 2 chuỗi.  
5
Nghiên cứu sự phát triển của virut cúm  
Sp hàng 2 chui là trường hp riêng ca sp hàng đa chuỗi. Ví dchúng ta  
có hai chui ADN ca Human và Chimpanzee như bảng 1 dưới đây.  
Sau khi gióng hàng hai chui thì hai chui scó chiu dài bng nhau như  
bảng 2 bên dưới (Waterman, 2000).  
Gióng hàng đa chuỗi là thc hin tìm sging nhau ca nhiu chui thay  
cho mt cặp như gióng hàng 2 chui. Ví d, ta có gióng hàng đa chui ca 8 chui  
sau ở bảng 3 (Waterman, 2000; Higgins, 2003).  
6
Nghiên cứu sự phát triển của virut cúm  
Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là  
MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-  
COFFEE (Notredame et al., 2000). Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào  
để cho ta tìm ra cây tiến hóa giữa các loài. Cây tiến hóa chính là biểu diễn trực  
quan của mối quan hệ giữa các loài.  
2.2. Cây tiến hóa  
Cây tiến hóa là biu din mi quan htiến hóa giữa các loài sinh vật một cách trực  
quan dưới dạng cây. Da vào cây tiến hóa người ta có thể xác định được loài nào  
có quan hngun gc vi loài nào.  
Trong nghiên cu vvirut  
cúm, thông qua cây tiến hóa người  
ta xác định được loài virut nào có  
quan htiến hóa tloài virut nào,  
tức là xác định được slây lan virut  
từ nơi này qua nơi khác thông qua  
quan hngun gc giữa chúng. Từ  
đó, người ta đề ra các bin pháp  
phòng, chng lây lan dch tốt hơn.  
Trong hình 4 là ví dụ mô tả vcây  
tiến hóa của các loài virut cúm ở  
Việt Nam từ năm 2001 đến 2007  
(Wan X-F, Nguyen T, Davis -CT,  
Smith CB, Zhao Z-M, et al, 2008),  
ta thy virut HK79-like, GX22-like,  
F1-like có chung mt gc và nm ở  
2 nhánh nên chúng có quan hngun gc vi nhau. Hiện tại có phần mềm thông  
dụng sinh ra cây tiến hóa như CLUSTALAW (Thompson et al., 1994), PHYLIP  
(Joe Felsenstein, mid-1995) và phần mềm xem cây tiến hóa như TreeView (Ro-  
deric D. M. Page, 2000).  
7
Nghiên cứu sự phát triển của virut cúm  
Chương II. Virut cúm  
1.Sơ lược về virut cúm  
Virut cúm được biết đến tmt trn dch cúm xut phát tchim Tây Ban Nha  
vào năm 1918 đã giết chết khoảng 40-50 triệu người (khong mt na dân sthế  
gii vào thời điểm đó - Theo thng kê ca tchc y tế thế gii WHO). Cho đến  
ngày hôm nay, các nhà khoa hc mi gii mã được cách mà loi virut cúm này  
tng làm kinh hoàng thế gii bng cách lây tvật sang người và gây bệnh, vượt  
qua ranh gii vloài.  
Virut cúm tên khoa hc là influenza virus, thường được gi là cúm (flu), là  
tác nhân gây bnh truyn nhim tchim và động vt có vú, nó là virut ARN thuc  
hOrthomyxoviridae (Voyles, 2002). Dưới đây ta sẽ tìm hiểu các loài virut chính  
thường gặp nhất.  
2. Các loại virut cúm  
Virut cúm là virut ARN ca hOrthomyxoviridae (Voyles, 2002), gm có 3 loi  
chính cúm A, cúm B, cúm C (CDC).  
Cúm A là loi virut cúm phbiến thường gp trong các trn dch (hu hết các  
trn dch xảy ra đều là cúm A như hình 5). Cúm A có 15 tuýp từ H1 đến H15  
(CDC). Cho đến nay tt cả các tuýp virut cúm được biết đều đã được tìm thy ở  
các loài chim di cư và chim sống gần nước (xem ở hình 5). Chúng có thxâm  
nhp mà không gây triu chng gì trong đường rut, ddày ca vt ch.  
8
Nghiên cứu sự phát triển của virut cúm  
Cúm B là mt loi virut cúm  
thường gây bnh ở người, thường  
gây bnh nhvà xảy ra ít hơn so  
vi cúm A. Người ta mi chphát  
hin ra mt loài vt khác bị  
nhim cúm B là loài hi cu. Loi  
cúm B này có tn số thay đổi 2-3  
lần và ít hơn sự thay đổi ca cúm  
A.  
Cúm C là mt loi virut cúm  
gây bnh chyếu ở người và ln,  
có thgây m và lây lan cc b.  
Cúm C gặp ít hơn hai loi cúm A, cúm B rt nhiu và thường gây m nhẹ ở trẻ  
em. Tính chất dễ gây bệnh và lây lan của virut chính là do đặc điểm về cấu trúc  
genome của virut gây nên. Dưới đây chúng ta nói rõ hơn về cấu trúc và tính chất  
này.  
3. Cấu trúc và tính chất.  
Cúm A, B và C có cấu trúc tương tự nhau. Chúng có chiu dài khong 80-120 na-  
nomet và thưng có hình cu, mc dù có chình si (NBCI GenBank).  
Genome là thành phn lõi ca virut. Virut cúm có 8 đoạn (vi cúm A và B)  
và 7 đoạn (đối vi cúm C) trong bgenome ca chúng (Nippon Rinsho, 1997).  
Trong GenBank người ta lần lượt ký hiệu các đoạn này theo stừ 1 đến 8 là 1  
(PB2), 2 (PB1), 3 (PA), 4 (HA), 5 (NP), 6 (NA), 7 (M1 và M2), 8 (NS1 và NS2)  
đối vi cúm A và B. Đối vi cúm C thì 7 đoạn là 1 (PB2), 2 (PB1), 3 (P3), 4 (HE),  
5 (NP), 6 (MP), 7 (NS) (Nippon Rinsho, 1997). Genome ca cúm A và B mã hóa  
11 loi protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP),  
M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2. Còn genome ca cúm C  
9
Nghiên cứu sự phát triển của virut cúm  
mã hóa 9 loi protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, Gen-  
Bank). Hai protein quan trọng của virut cúm là HA và NA.  
Virut cúm có 2 protein lớn HA và NA (nhưng đơn giản) hầu như quy định  
tính độc hi của virut. HA là đoạn liên kết ca virut ti tế bào vt thblây sang,  
trong khi NA là bao gồm thay đổi ca virut mi sinh ra tnhng tế bào bnhim  
bng cách chia tách phân tnày. Vì thế, những protein được sinh ra tbiến đổi  
này có tính kháng thuốc. Do đó, chúng được gi là nhng gen kháng (antigen).  
Cúm A được phân loi da vào kiu trên kháng thể tương ứng HA và NA, ví d:  
H5N1.  
Coding region ca mt gene là mt phn ca ADN hoc ARN mà nó làm  
nhim vsao chép phiên mã sang ARN khác, giống như ARN thông tin hoc mt  
ARN không mã hóa (cho trường hp chuyn ARN hoc mt ribosom ARN). Mt  
đoạn mang phiên mã có thể dùng để gii mã protein. Đối với đoạn này thì nó  
không cha những vùng gene nvtrí nhn dng, chui lp, hoc chui kết thúc.  
Chính do cấu trúc và tính chất genome của virut cúm làm cho chúng dễ gây  
bệnh. Sau đây là một số thông kê về dịch cúm.  
4. Một số thống kê và sự lây lan của virut cúm  
Dịch cúm H5N1, H1N1,... bùng phát đã làm kinh hoàng loài người kể từ trận đại  
dịch cúm Tây Ban Nha 1918 và đến nay nó vẫn là một trong những dịch hết sức  
nguy hiểm đối với loài người. Sau đây, chúng ta điểm qua những trận dịch trong  
lịch sử.  
4.1. Một số thống kê về dịch cúm  
Các trận đại dch kinh hoàng trong lịch sử được thống kê trong bảng 4 dưới đây.  
10  
Nghiên cứu sự phát triển của virut cúm  
Các trn dch cúm xy ra gần đây (bảng 5).  
Theo thng kê ca tchc y tế thế gii WHO “Cumulative Number of Confirmed  
Human Cases of A-vian Influenza A/(H5N) Reported to WHO 3 April 2008 ”.  
Để hiểu rõ hơn virut cúm truyền bệnh như thế nào, chúng ta sẽ tìm hiểu  
trong phần “sự lây lan của virut cúm” ở phần dưới đây.  
11  
Nghiên cứu sự phát triển của virut cúm  
4.2. Sự lây lan của virut cúm  
Thông thường virut cúm không  
thlây nhim trc tiếp sang  
người mà phi thông qua vt  
chtrung gian như lợn, gà,…  
Khi trong vt thtrung gian  
này thì virut từ người và virut  
cúm ca mt loài khác skết  
hp vi nhau bằng cách trao đổi  
các thành phn trong tế bào ca  
chúng để to nên loi virut cúm  
mi có khả năng gây bệnh ở  
người. Có hai quá trình lây lan  
ca virut cúm là drift shift.  
Chi tiết vhai quá trình lây lan  
này có ththam kho ttrung  
tâm ngăn chặn và kim soát dch bnh CDC “http://www.cdc.gov/flu/avian-/gen-  
info/flu-viruses.html”.  
12  
Nghiên cứu sự phát triển của virut cúm  
Chương III. Ngân hàng gene virut cúm  
1. Giới thiệu tổng quan  
Lun án này nghiên cu vsphát trin ca virut cúm. Công vic ca lun án là  
xây dng mt ngân hàng gene virut cúm cho tt cả các nước trên thế giới và chi  
tiết ti tng tnh thành/vùng min ca Vit Nam. Phn mm này ly dliu tự  
động tngân hàng gene NCBI (mt trong 3 ngân hàng gene ln nht thế gii  
NCBI http:// www.ncbi.nih.gov), tích hp các công cphân tích dliu tin sinh  
hc tượng tự như của NCBI và “làm rõ thông tin cho hu hết các chui cp nht  
được vVit Nam mà chỉ có lượng rt nhthông tin có sn khi cp nht tNCBI”.  
Để góp phn vào vic cung cp thông tin, cũng như các công cụ phân tích cho vic  
kim soát bnh cúm Vit Nam, đề tài tp trung vào nhng mc tiêu chính sau  
(1) cung cp dliu vcúm trên thế gii và Vit Nam, (2) cung cp các công cụ  
phân tích cơ bản như tìm kiếm, sắp hàng đa chuỗi, xây dng cây tiến hóa, (3) cung  
cp dliu vvirut cúm chi tiết ti tng tnh thành ca Vit Nam, (4) cung cp  
bản đồ phân tán ca virut cúm trên thế gii và cho các tnh thành Vit Nam, (5)  
cung cp biểu đồ thng kê virut cúm cho các vùng ca Vit Nam, và trên thế gii”.  
2. Các chức năng đã xây dựng  
- Tự động cp nht.  
- Tìm kiếm chui.  
- Thc hin sắp hàng đa chuỗi, sinh tệp tin biu din toán hc cây tiến hóa.  
- Cho phép ti tệp tin cha các chui dng fasta, genbank, sắp hàng đa chuỗi,  
cây tiến hóa.  
- Xây dng bản đồ phân tán ca virut cúm.  
- Xây dng biểu đồ thng kê virut cúm.  
13  
Nghiên cứu sự phát triển của virut cúm  
Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virut cúm như thế nào.  
2.1. Quá trình xây dựng ngân hàng gene  
Mô hình hoạt động ca ngân hàng gen xây dựng như hình 7 bên dưới.  
Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virut cúm  
cho Việt Nam là thu thập dữ liệu và thông tin chi tiết các gene của Việt Nam.  
Dưới đây là quá trình thu thập này.  
14  
Nghiên cứu sự phát triển của virut cúm  
2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam  
Quá trình thu thập dữ liệu chi tiết cho Việt Nam là quá trình đầu tiên và quan trọng  
nhất trong xây dựng ngân hàng gene virut cúm cho Việt Nam. Trong khi cp nht  
dliu trc tiếp tNCBI thông qua vic ly các tệp tin ‘genomeset.dat’, ‘influen-  
za.dat’, ‘influenza_aa.dat’, ‘influenza_na.dat’, ‘influenza.faa’, ‘influenza.fna’, ‘in-  
fluenza.cds’ chia stừ địa chftp:// ftp.ncbi.nih.gov/genomes/INFLUENZA/. Các  
thông tin nhận được trên trong các tệp tin sẽ được tách ra để cho vào cơ sở dữ  
liệu được xây dng ở bên dưới. Trong các tệp tin này thông tin rõ ràng chui nào ở  
tnh thành/vùng nào ca Vit Nam là rt ít. Vì thế, kết hp vi các tài liệu đáng tin  
cy tcác thông tin tìm kiếm trên các bài báo ca các tác ginghiên cu virut cúm  
Việt Nam (các bài báo đăng trên pubmed, thông tin trc tiếp ttác gica chui  
gen đó,...). Sau đây là một sbài báo trên pubmed có thông tin chi tiết vcác tnh  
thành ca Vit Nam.  
1. Evolution of  
Highly Pathogenic H5N1  
Avian Ifluen-za Viruses in  
Vietnam between 2001  
and 2007.  
2. Multiple Subline-  
ages of Influenza A Virus  
(H5N1), Vietnam, 2005-  
2007.  
Các thông tin tìm  
được chi tiết vVit Nam  
ktrên sẽ được chun hóa  
được cp nht vào tệp  
tin “listTown.txt” để cp  
nhật vào cơ sở dliu.  
listTown.txt” là tệp tin có  
dng ký hiu tnh thành  
15  
Nghiên cứu sự phát triển của virut cúm  
/vùng chưa chuẩn hóa => tnh thành/vùng ca Vit Nam được chun hóa. Ví dụ  
thông tin tmt bài báo tìm được (bài báo có dliệu năm 2005-2007 trên).  
Chun hóa dliu chi tiết vVit Nam được cho ở bảng 6.  
Sau khi đã có thông tin chi tiết về Việt Nam chúng ta bắt tay vào xây dựng  
cơ sở dữ liệu lưu trữ các gene đó.  
2.1.2. Xây dựng cơ sở dữ liệu  
Xây dựng cơ sở dữ liệu là  
phần tiếp theo sau khi đã  
có thông tin chi tiết hầu  
hết các gene về Việt Nam.  
Trước hết chúng ta  
xây dựng chương trình tự  
động cập nhật thông tin từ  
NCBI về để xây dựng cơ  
sở dữ liệu. Để có thcp  
nht dliệu người dùng  
phải đăng nhập vào hệ  
thống để qun lý cp nht dliu. Ttrang chủ, người dùng chn tab “Login” để  
vào trang đăng nhập như hình 9 bên. Tên người dùng và mt khu của người  
dùng được lưu trữ trong cơ sở dliu “users” bng “information” với hai trường  
là “user” và “pass”. Nếu người dùng có thông tin trong bng “information” này  
thì sẽ được phép qun lý cp nhật cơ sở dliệu sau khi đăng nhập thành công như  
hình 10.  
16  
Nghiên cứu sự phát triển của virut cúm  
Tự động cp nht  
thông tin các chui từ  
ngân hàng gene NCBI  
theo phương thức ftp từ  
.nih.gov/genomes/INFLU  
ENZA/ tcác tệp tin ‘ge-  
nomeset.dat’,  
‘influez-  
a.dat’, ‘influenza_aa.dat’,  
‘influenza_na.dat’, ‘influ-  
enza.faa’, ‘influenza.f-na’,  
‘influenza.cds’ (nhng tệp tin tng hp dliu từ trước ti thời điểm hin ti ca  
(nhng thư mục cha dliu gần đây được cp nht) nhng tệp tin này được tự  
động tải v. Sdụng module Net::FTP trong perl để thc hin vic này.  
my $ftp = new NET::FTP(“ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA”);  
$ftp->login(“annynomous”, “annynomous”);  
$ftp->cwd(“ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/updates/”);  
$ftp->get(“filename”);  
Sau đây là các tệp tin được tải tự động về từ NCBI.  
Tp genomeset.dat cha thông tin vaccession, host, segment, subtype, country,  
year, length, name, age, gender (như bảng 7).  
17  
Nghiên cứu sự phát triển của virut cúm  
Tp influenza.cds cha thông tin vgb(genbank), accession, length, name, seg-  
ment, sequence (như bảng 8).  
Tp influenza.dat cha thông tin vaccession nucleotide (ANuc), accession pro-  
tein (APro) (như bảng 9 bên dưới).  
Tp influenza.faa tệp tin fasta cha saccession ca nucleotide ca GenBank,  
saccession ca protein ca GenBank , chra là protein coding region, hai trường  
tiếp theo (nếu có) là lp li nếu mt chui ca nucleotide mã hóa nhiều hơn một  
protein và sau cùng là chui (bảng 10).  
Tp influenza.fna tệp tin fasta cha thông tin vgi|genbank identify|gb| acces-  
sion|name và sau đó là chui (như bảng 11).  
18  
Nghiên cứu sự phát triển của virut cúm  
Tp influenza_aa.dat tệp tin cha thông tin vprotein như accession, host, seg-  
ment, subtype, country, year, length, name, gender, full length of genomeset (như  
bảng 12).  
Tp influenza_na.dat là tp cha thông tin vnucleotide như accession, host, seg-  
ment, subtype, country, year, length, name, gender, full length of genomeset (như  
bảng 13).  
Cp nhp thêm thông tin chi tiết vVit Nam ttp “listTown.txt” được xây dng  
trên. Từ đó xây dựng lên cơ sở dliu influenza có các bng sau.  
Bng “genomeset” có các trường accession, host, segment, subtype, country, year,  
length, name, age, gender (bảng 14).  
Bng này cung cp thông tin cho quá trình tìm kiếm “genomset”.  
19  
Nghiên cứu sự phát triển của virut cúm  
Bng “coding_region” có các trường acc_nucleotide, host, segment, subtype,  
country, year, length, name, age, gerder, acc_protein, title, containt (như bảng 15  
bên dưới).  
Bng này cung cp thông tin tìm kiếm “coding region”.  
Bng “nucleotide” có các trường accession, host, segment, subtype, country, year,  
length, name, age, gender, title, contain (như bảng 16).  
Bng “nucleotide” cung cp thông tin cho quá trình tìm kiếm “nucleotide”.  
Bng “protein” có các trường accession, host, segment, subtype, country, year,  
length, name, age, gender, type, title, contain (như bảng 17 cho bên dưới).  
Bng “protein” cung cp thông tin cho quá trình tìm kiếm các protein.  
Các tệp tin được ti tự động ngoài những tệp tin trong thư mục updates của  
NCBI là những tệp tin định dng “genbank” và “fasta” ca các accession trong  
quá trình trích lấy thông tin từ tệp tin ở thư mực updates. Và chúng sẽ được tự  
động thêm link trong quá trình truy xut của người dùng để có thsdng khi  
20  
Nghiên cứu sự phát triển của virut cúm  
dùng offline cũng như online. Những file này được cha tương ứng trong thư mục  
GENBANK” và “FASTA”.  
Sau khi xây dựng xong dữ liệu thì việc đầu tiên ngân hàng gen cung cấp  
cho người dùng là tìm kiếm chuỗi.  
2.2. Tìm kiếm các chuỗi  
Người dùng có thtìm kiếm  
các chui vprotein, nucleo-  
tide, coding region, genome  
(tab Genomes set) bng  
cách chọn nút radio tương  
ng vi phần đó.  
Trong phn tìm kiếm  
vkiểu virut cúm người  
dùng có thchn kiu cúm  
A, B, C hay bt kkiu cúm  
A, B, C nào (any) trong trường “Virus Species”. Mục “Hostcho phép chọn cúm  
gia cm, cúm Blow fly,... Trong trường “Country/Region” mặc định ban đầu được  
chn là Việt Nam, người dùng có thể thay đổi chọn nước bt khoc tt c(any)  
các nước trên trường này. Mục “Segment/Protein” cho phép người dùng chn các  
segment tương ứng của virut cúm. Trường kế tiếp là “Region of Vietnam” (các  
tnh thành/vùng ca Vit Nam) chcó tác dng nếu người dùng chn Vit Nam  
trong phn “Country/Region”. Đây là những la chọn cơ bản có tác dng trong  
các phn tìm kiếm chui ở bên dưới. Dưới đây là các kiểu kèm thêm điều kin tìm  
kiếm khác.  
1. Tìm kiếm các chui với các điều kin kèm theo các trường bên dưới cho  
phép chọn “subtype” như H5N1, H1N1,... chn chui từ năm nào đến năm nào  
trong trường “From year” (ví d: 2000) và “To year” (ví d: 2009), hay chn chiu  
dài ti thiu và tối đa của chui trong trường “Min.length” (ví dchiu dài nhỏ  
21  
Nghiên cứu sự phát triển của virut cúm  
nht là 200) và “Max.length” (ví dụ  
chiu dài ln nht là 1000) hoc  
thông tin có trong phn “name” ca  
chui tìm được trong phn “Search  
by a string” (ví dVietnam/2003).  
2. Tìm kiếm theo accession  
được cho ở trường “Search by ac-  
cession” cho phép chúng ta tìm  
kiếm theo “accession” (accession là  
key trong cơ sở dliu ca ngân  
hàng gene được quy định chung  
cho các ngân hàng gene trên thế  
gii).  
3. Tìm kiếm vi các la chn  
cơ bản là phần dưới cùng “Get se-  
quences” cho phép tìm kiếm các  
chui với các điều kiện đã chn ở  
đầu tiên, không bao hàm phn  
“search by string”.  
Kết quchúng ta nhận được  
khi tìm kiếm như hình 12 bên.  
Phn tìm kiếm genomset cũng  
tìm kiếm giống như phần tìm kiếm  
chui nêu trên. Hình 13 là giao  
din ca trang tìm kiếm genomeset.  
Kết qukhi tìm kiếm geno-  
set như hình 14.  
Sau khi tìm kiếm chuỗi xong thì  
22  
Nghiên cứu sự phát triển của virut cúm  
việc tiếp theo người dùng có thể rất cần là việc tải các chuỗi đã tìm kiếm được  
theo ý muốn của mình. Dưới đây là phần tiện ích tải chuỗi.  
2.3. Tiện ích tải chuỗi  
Trong phn kết qutìm kiếm các chui ca ‘protein’, ‘nucleotide’, ‘coding region’  
hay ‘genome set’ người dùng có  
thla chn tải về các chui theo  
loi ‘protein’, ‘nucleotide’ hay  
‘coding region’ hoc danh sách  
các ‘accesion’ ca ‘protein’ hoc  
‘nucleotide’ vi la chọn được  
tích phần trước tên ca acces-  
sion. Hình nh minh ha ti tệp tin  
dạng FASTA khi người dùng nhp  
vào la chn ti chui như hình 15  
bên.  
Dng tệp tin FASTA tải về định dng như bảng 18 dưới đây.  
Tệp tin chứa các chuỗi tải về chính là đầu vào cho phần “sắp hàng đa chuỗi” để  
tìm quan hệ nguồn gốc giữa các loài sinh vật (xem thêm phần 2.1.Sắp hàng đa  
chuỗi, chương I ở trên).  
2.4. Tiện ích sắp hàng đa chuỗi  
Phn mm xây dng sdng phần mềm MUSCLE (Multiple squence comparison  
by log epectation) (Edgar, 2004) version 3.6 ti tại địa ch: http://www.drive-  
23  
Nghiên cứu sự phát triển của virut cúm  
5.com/muscle để thc  
hin sắp hàng đa chuỗi  
các chui tìm kiếm được  
của người dùng. Phn  
mm cho phép người  
dùng trc tuyến sdng  
sắp hàng đa chuỗi tối đa  
cho 1000 chui. Nếu vượt  
quá con snày sgp  
thông báo lỗi và đưa ra  
địa chtrang web cho  
người dùng ti công cụ  
“muscle” vdùng trên máy của người dùng với đầu vào là tệp tin FASTA cha  
các chui mà người dùng có thể tải về được theo tin ích trên. Hình 16 minh ha  
kết quca sắp hàng đa chuỗi.  
Mục đích của “Sắp hàng đa chuỗi”(MSA) là đầu vào cho to cây tiến hóa  
(phylogentic tree) sau này (xem thêm về cây tiến hóa ở mục 2.2. Cây tiến hóa, ở  
chương I bên trên).  
2.5. Tiện ích xây dựng cây tiến hóa  
Cây tiến hóa là cây xây dng ttp  
MSA. Nhìn vào “cây tiến hóa” mà  
chúng ta dnhn ra loài nào có quan  
hngun gc tloài nào. Từ đó,  
trong phòng chống dịch cúm người  
ta có thphát hin vslây lan,  
ngun gc ca các loài virut mi  
xut hin cũng như sẽ đề ra bin  
pháp phòng và chng lây lan dch  
cúm. Hình 17 là ví dvmt cây tiến hóa.  
24  
Nghiên cứu sự phát triển của virut cúm  
Trong phn tích hợp công cụ xây dng cây tiến hóa này, chúng tôi đã dùng  
gói PHYLIP (do Joe Felsenstein viết có thể tải tại địa chỉ http://evolution.genetics-  
.washington.edu/phylip.html).  
Trước hết, dùng phn mm MUSCLE (Edgar, 2004) trên to ra tệp tin sp  
hàng đa chuỗi với định dng htrphn mm phylip ví dlà: “alignment.phyi”.  
Sau đó dùng chương trình “protdist” nếu là sắp hàng đa chuỗi ca protein hoc  
dùng chương trình “dnadist” (nếu  
không phải sắp hàng đa chuỗi của  
protein) để to tập tin ma trn của  
MSA làm đầu vào cho chương trình  
to cây “neighbor”. “Neighbor” là  
chương trình to cây da trên  
phương pháp “neighbor-joining”  
(Saitou and Nei, 1987) để to cây  
tiến hóa. Kết qusinh ra tệp tin out-  
file” (tệp tin cha cây dng biu diễn dưới dng toán hc) và “outtree” (cây vẽ  
dưới dạng đơn giản). Người dùng tải tệp tin “tree.zip” (như hình 18) vvà dùng  
những chương trình xem cây như view tree,… để xem.  
Để làm trực quan về phân bố của virut cúm thì trong phần tiếp theo chúng ta  
sẽ xây dựng “bản đồ phân bố của virut cúm” giúp người dùng dễ dàng có cái nhìn  
trực quan về phân bố virut cúm ở Việt Nam hay trên thế giới.  
2.6. Bản đồ phân bố của virut cúm  
Người dùng có thxem sphân bca virut cúm của các nước trên thế gii hay  
ca các tnh thành ca Vit Nam trong phn “prediction” ttrang ch. Hình 19 là  
trang web cho phép người dùng la chn xem phân bcúm.  
25  
Nghiên cứu sự phát triển của virut cúm  
Từ trang này, người  
dùng có thchn xem  
phát tán virut cúm theo  
loi cúm A, cúm B hay  
cúm C hoc bt kloi  
cúm nào trong 3 loi cúm  
trên. Người dùng có thể  
chn cúm gia cm  
(Avian) hay cúm “Blow  
fly”,…và có thla chn  
phát tán ca virut từ năm  
nào (ví dụ từ năm 2000) đến năm nào (ví dụ đến năm 2009) trong hai trường  
“From year” và “To year”. Trong phn “Country/Region” người dùng có thchn  
“Viet Nam” để xem sphát tán Vit Nam hoc “anyđể xem sphát tán ca  
virut cúm trên thế gii.  
26  
Nghiên cứu sự phát triển của virut cúm  
Kết quminh họa khi người dùng xem phân bcúm Vit Nam và trên thế  
gii như hình 20, 21, 22 và 23 bên dưới.  
Phn này sdng kiến thc nền tảng v“google map API” (Google -  
Monte Ohrt có thể tải tại địa chỉ http://www.phpinsider.com/php/code/Google-  
27  
Nghiên cứu sự phát triển của virut cúm  
MapAPI) htrphp để xây dng bản đồ phát tán virut này. Người dùng có thể  
dùng chuột để kéo bản đồ để xem các vị trí khác nhau, kích đúp chuột để phóng to  
hình nh lên, hoc có thsdng thanh công cụ bên trái cùng để phóng to hoc  
thu nhhình ảnh. Người dùng cũng có thể biết thông tin vsố lượng chui” và  
tên “địa điểm” bng vic nhp chut (hoc rê chut) vào vị trí có màu đỏ hoc da  
cam trên bản đ, còn màu xanh lá cây là không có chui nào. Số lượng chui được  
tượng trưng thông qua màu trên bản đồ, màu da cam có kích thước nhsít chui  
hơn màu da cam có kích thước ln và màu da cam có kích thước ln scó ít chui  
hơn vòng tròn màu đỏ có kích thước nhvà vòng tròn màu đỏ có kích thước nhỏ  
sít chui hơn vòng tròn màu đỏ có kích thước lớn hơn.  
Phần này đã cung cấp cho người dùng cái nhìn trực quan về phân bố virut  
cúm, thì phần “biểu đồ thống kê về virut cúm” dưới đây sẽ cung cấp cho người  
dùng những số liệu thống kê về virut cúm ở Việt Nam và trên thế giới.  
2.6. Biểu đồ thống kê về virut cúm  
Trong trang “prediction”  
nhp vào tab “Statistic”  
chúng ta vào trang thng kê  
vvirut cúm như hình 24.  
Chương trình thng kê  
vvirut cúm có sdng gói  
chương trình “ChartDirector  
v.5.0”(phần mềm này của  
công ty Advanced Software  
Engineering Limited, 2008,  
có thể tải theo địa chỉ  
http://www.advsofteng.com/download.html).  
Thng kê virut cúm cho các vùng Vit Nam, chúng ta có thchọn năm  
thng kê từ năm nào (ví dụ năm 2000) đến năm nào (ví dụ năm 2009) trong trường  
28  
Nghiên cứu sự phát triển của virut cúm  
“From year” và “To year”  
ở bên dưới, mặc định 2  
trường này thng kê tt cả  
các năm tìm thấy trong cơ  
sdliu. Hình 25 minh  
ha thng kê virut cúm  
các vùng Vit Nam.  
Ngoài ra, chúng ta  
còn có ththng kê virut  
cúm cho Vit Nam qua  
các năm chúng ta có thể  
chọn năm thống kê từ  
năm nào đến năm nào  
trong trường “From year”  
và “To year” ở bên dưới,  
mặc định 2 trường này  
thng kê tt cả các năm  
tìm thấy trong cơ sở dữ  
liu. Chúng ta có thxem  
schui tìm thấy trong cơ  
sdliu bng cách rê  
chut qua ct biu din.  
29  

Tải về để xem bản đầy đủ

pdf 37 trang yennguyen 05/06/2025 140
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Nghiên cứu sự phát triển của virut cúm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfkhoa_luan_nghien_cuu_su_phat_trien_cua_virut_cum.pdf