Khóa luận Nghiên cứu sự phát triển của virut cúm
ĐẠI HỌC QUỐC GIA HÀ NỘI  
					TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  
					Nguyễn Văn Sáu  
					NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUT CÚM  
					KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY  
					Ngành: khoa học máy tính  
					HÀ NỘI – 2009  
				Mục lục  
					Mục lục..................................................................................................................... 1  
					Lời nói đầu................................................................................................................ 3  
					Chương I. Giới thiệu về sinh học phân tử và tin-sinh học ....................................... 4  
					1. Giới thiệu về sinh học phân tử.............................................................................. 4  
					2. Giới thiệu về tin-sinh học..................................................................................... 5  
					2.1. Sắp hàng đa chuỗi .........................................................................................5  
					2.2. Cây tiến hóa ...................................................................................................7  
					Chương II. Virut cúm ............................................................................................... 8  
					1.Sơ lược về virut cúm ............................................................................................. 8  
					2. Các loại virut cúm ................................................................................................ 8  
					3. Cấu trúc và tính chất............................................................................................ 9  
					4. Một số thống kê và sự lây lan của virut cúm...................................................... 10  
					4.1. Một số thống kê về dịch cúm......................................................................10  
					4.2. Sự lây lan của virut cúm .............................................................................12  
					Chương III. Ngân hàng gene virut cúm.................................................................. 13  
					1. Giới thiệu tổng quan........................................................................................... 13  
					2. Các chức năng đã xây dựng................................................................................ 13  
					2.1. Quá trình xây dựng ngân hàng gene ............................................................14  
					2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam ..................................15  
					1
				Nghiên cứu sự phát triển của virut cúm  
					2.1.2. Xây dựng cơ sở dữ liệu..........................................................................16  
					2.2. Tìm kiếm các chuỗi......................................................................................21  
					2.3. Tiện ích tải chuỗi.......................................................................................... 23  
					2.4. Tiện ích sắp hàng đa chuỗi...........................................................................23  
					2.5. Tiện ích xây dựng cây tiến hóa ....................................................................24  
					2.6. Bản đồ phân bố của virut cúm .....................................................................25  
					2.6. Biểu đồ thống kê về virut cúm.....................................................................28  
					Tài liệu tham khảo.................................................................................................. 31  
					Các hình ảnh tham khảo ......................................................................................... 33  
					Các bảng tham khảo ............................................................................................... 35  
					2
				Nghiên cứu sự phát triển của virut cúm  
					Lời nói đầu  
					Tin-sinh học (Bioinformatics) là một lĩnh vực nghiên cứu đang phát triển rất  
					mạnh mẽ. Tin-sinh học áp dụng những phương pháp trong tin học để giải quyết  
					các bài toán trong sinh học phân tử. Với sự phát triển mạnh mẽ của công nghệ sinh  
					học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được  
					thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National  
					Center for Biotechnology Information). Tin sinh học hiện đang được ứng dụng  
					phổ biến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệ thực phẩm,  
					môi trường và kiểm soát bệnh.  
					Hiện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và  
					kiểm soát bệnh. Một trong các ứng dụng cụ thể là kiểm soát bệnh cúm, với các  
					dịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1. Để góp phần vào việc  
					cung cấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ở  
					Việt Nam, đề tài tập trung vào những mục tiêu chính sau: (1) cung cấp dữ liệu về  
					cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm  
					kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virut cúm  
					chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồ phân tán của virut  
					cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5) cung cấp biểu đồ thống kê  
					virut cúm cho các vùng của Việt Nam, và trên thế giới”.  
					Đề tài hy vọng sẽ góp phần vào việc nghiên cứu và kiểm soát các dịch bệnh  
					liên quan đến virut cúm ở Việt Nam.  
					3
				Nghiên cứu sự phát triển của virut cúm  
					Chương I. Giới thiệu về sinh học phân tử và tin-sinh học  
					1. Giới thiệu về sinh học phân tử  
					Mọi cơ thể sống đều cấu tạo từ các tế bào.  
					Tế bào có cấu tạo gồm vỏ và nhân, trong đó  
					nhân tế bào chứa ADN (hoặc ARN). Hình  
					1 mô tả cấu tạo của tế bào.  
					ADN (acid deoxyribo nucleic) mang  
					thông tin di truyền, được cấu tạo từ 4 thành  
					phần cơ bản (gọi là các nucleotide –  
					Brown, 2000) Adenine (A), Cytosine (C),  
					Guanine (G), Thymine (T) như hình 2.  
					Trong các chuỗi ADN, một số đoạn được  
					gọi là gene mang thông tin di truyền của các  
					loài sinh vật. Các nucleotide trong gene sẽ  
					kết hợp với nhau để tổng hợp ra protein. Cụ  
					thể là, một bộ ba nucleotide liên tiếp sẽ tạo  
					ra 1 axit amin. Có 20 loại axit amin khác  
					nhau (Brown, 2002) là Phe (Phenylalanine),  
					Leu (Leucine), Ser (Serine), Tyr (Tyrosine),  
					Cys (Cysteine), Trp (Tryptophan), Pro (Pro-  
					line), His (Histidine), Gln (Glutamine), Arg  
					(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val  
					(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).  
					Hình 3 mô tả sự kết hợp của các ADN để tạo ra các axit amin. Từ các axit amin  
					này tạo nên các protein bằng cách liên kết với nhau. Sự sắp xếp khác nhau và số  
					lượng khác nhau của các axit amin tạo thành vô số các protein khác nhau.  
					4
				Nghiên cứu sự phát triển của virut cúm  
					ARN (Ribonucleic acid) cũng tương  
					tự như ADN nhưng trong thành phần cơ  
					bản của nó thì T được thay bằng U (Uracil).  
					2. Giới thiệu về tin-sinh học  
					Trong phần này chúng tôi sẽ trình bày một  
					số bài toán cơ bản trong tin-sinh học như 1.  
					Sắp hàng đa chuỗi, 2. Cây tiến hóa.  
					2.1. Sắp hàng đa chuỗi  
					Trong quá trình tiến hóa của các loài sinh vật, các chuỗi ADN bị biến đổi do 3  
					phép biến đổi chính là (Brown, 2002).  
					1. Thay thế là một hoặc vài nucleotide bị thay thế bởi một hoặc vài nucleo-  
					tide khác trong chuỗi.  
					2. Chèn là một hoặc vài nucleotide được chèn thêm vào chuỗi cũ.  
					3. Xóa là một hoặc một vài nucleotide bị xóa đi ở chuỗi cũ.  
					Do 3 phép biến đổi chính ở trên làm cho các ADN sinh vật bị thay đổi. Vì  
					thế, để biết được mối quan hệ giữa các loài sinh vật (ADN) chúng ta phải dùng sắp  
					hàng đa chuỗi để tìm ra mối quan hệ này.  
					Gióng hàng các chuỗi ADN, ARN hay protein là cách gióng sao cho chúng  
					giống nhau nhất. Các chuỗi này sau khi gióng hàng sẽ có cùng chiều dài. Trường  
					hợp đơn giản nhất của gióng hàng là sắp hàng 2 chuỗi.  
					5
				Nghiên cứu sự phát triển của virut cúm  
					Sắp hàng 2 chuỗi là trường hợp riêng của sắp hàng đa chuỗi. Ví dụ chúng ta  
					có hai chuỗi ADN của Human và Chimpanzee như bảng 1 dưới đây.  
					Sau khi gióng hàng hai chuỗi thì hai chuỗi sẽ có chiều dài bằng nhau như  
					bảng 2 bên dưới (Waterman, 2000).  
					Gióng hàng đa chuỗi là thực hiện tìm sự giống nhau của nhiều chuỗi thay  
					cho một cặp như gióng hàng 2 chuỗi. Ví dụ, ta có gióng hàng đa chuỗi của 8 chuỗi  
					sau ở bảng 3 (Waterman, 2000; Higgins, 2003).  
					6
				Nghiên cứu sự phát triển của virut cúm  
					Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là  
					MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-  
					COFFEE (Notredame et al., 2000). Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào  
					để cho ta tìm ra cây tiến hóa giữa các loài. Cây tiến hóa chính là biểu diễn trực  
					quan của mối quan hệ giữa các loài.  
					2.2. Cây tiến hóa  
					Cây tiến hóa là biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật một cách trực  
					quan dưới dạng cây. Dựa vào cây tiến hóa người ta có thể xác định được loài nào  
					có quan hệ nguồn gốc với loài nào.  
					Trong nghiên cứu về virut  
					cúm, thông qua cây tiến hóa người  
					ta xác định được loài virut nào có  
					quan hệ tiến hóa từ loài virut nào,  
					tức là xác định được sự lây lan virut  
					từ nơi này qua nơi khác thông qua  
					quan hệ nguồn gốc giữa chúng. Từ  
					đó, người ta đề ra các biện pháp  
					phòng, chống lây lan dịch tốt hơn.  
					Trong hình 4 là ví dụ mô tả về cây  
					tiến hóa của các loài virut cúm ở  
					Việt Nam từ năm 2001 đến 2007  
					(Wan X-F, Nguyen T, Davis -CT,  
					Smith CB, Zhao Z-M, et al, 2008),  
					ta thấy virut HK79-like, GX22-like,  
					F1-like có chung một gốc và nằm ở  
					2 nhánh nên chúng có quan hệ nguồn gốc với nhau. Hiện tại có phần mềm thông  
					dụng sinh ra cây tiến hóa như CLUSTALAW (Thompson et al., 1994), PHYLIP  
					(Joe Felsenstein, mid-1995) và phần mềm xem cây tiến hóa như TreeView (Ro-  
					deric D. M. Page, 2000).  
					7
				Nghiên cứu sự phát triển của virut cúm  
					Chương II. Virut cúm  
					1.Sơ lược về virut cúm  
					Virut cúm được biết đến từ một trận dịch cúm xuất phát từ chim ở Tây Ban Nha  
					vào năm 1918 đã giết chết khoảng 40-50 triệu người (khoảng một nửa dân số thế  
					giới vào thời điểm đó - Theo thống kê của tổ chức y tế thế giới WHO). Cho đến  
					ngày hôm nay, các nhà khoa học mới giải mã được cách mà loại virut cúm này  
					từng làm kinh hoàng thế giới bằng cách lây từ vật sang người và gây bệnh, vượt  
					qua ranh giới về loài.  
					Virut cúm tên khoa học là influenza virus, thường được gọi là cúm (flu), là  
					tác nhân gây bệnh truyền nhiễm từ chim và động vật có vú, nó là virut ARN thuộc  
					họ Orthomyxoviridae (Voyles, 2002). Dưới đây ta sẽ tìm hiểu các loài virut chính  
					thường gặp nhất.  
					2. Các loại virut cúm  
					Virut cúm là virut ARN của họ Orthomyxoviridae (Voyles, 2002), gồm có 3 loại  
					chính cúm A, cúm B, cúm C (CDC).  
					Cúm A là loại virut cúm phổ biến thường gặp trong các trận dịch (hầu hết các  
					trận dịch xảy ra đều là cúm A như hình 5). Cúm A có 15 tuýp từ H1 đến H15  
					(CDC). Cho đến nay tất cả các tuýp virut cúm được biết đều đã được tìm thấy ở  
					các loài chim di cư và chim sống gần nước (xem ở hình 5). Chúng có thể xâm  
					nhập mà không gây triệu chứng gì trong đường ruột, dạ dày của vật chủ.  
					8
				Nghiên cứu sự phát triển của virut cúm  
					Cúm B là một loại virut cúm  
					thường gây bệnh ở người, thường  
					gây bệnh nhẹ và xảy ra ít hơn so  
					với cúm A. Người ta mới chỉ phát  
					hiện ra một loài vật khác bị  
					nhiễm cúm B là loài hải cẩu. Loại  
					cúm B này có tần số thay đổi 2-3  
					lần và ít hơn sự thay đổi của cúm  
					A.  
					Cúm C là một loại virut cúm  
					gây bệnh chủ yếu ở người và lợn,  
					có thể gây ốm và lây lan cục bộ.  
					Cúm C gặp ít hơn hai loại cúm A, cúm B rất nhiều và thường gây ốm nhẹ ở trẻ  
					em. Tính chất dễ gây bệnh và lây lan của virut chính là do đặc điểm về cấu trúc  
					genome của virut gây nên. Dưới đây chúng ta nói rõ hơn về cấu trúc và tính chất  
					này.  
					3. Cấu trúc và tính chất.  
					Cúm A, B và C có cấu trúc tương tự nhau. Chúng có chiều dài khoảng 80-120 na-  
					nomet và thường có hình cầu, mặc dù có cả hình sợi (NBCI GenBank).  
					Genome là thành phần lõi của virut. Virut cúm có 8 đoạn (với cúm A và B)  
					và 7 đoạn (đối với cúm C) trong bộ genome của chúng (Nippon Rinsho, 1997).  
					Trong GenBank người ta lần lượt ký hiệu các đoạn này theo số từ 1 đến 8 là 1  
					(PB2), 2 (PB1), 3 (PA), 4 (HA), 5 (NP), 6 (NA), 7 (M1 và M2), 8 (NS1 và NS2)  
					đối với cúm A và B. Đối với cúm C thì 7 đoạn là 1 (PB2), 2 (PB1), 3 (P3), 4 (HE),  
					5 (NP), 6 (MP), 7 (NS) (Nippon Rinsho, 1997). Genome của cúm A và B mã hóa  
					11 loại protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP),  
					M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2. Còn genome của cúm C  
					9
				Nghiên cứu sự phát triển của virut cúm  
					mã hóa 9 loại protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, Gen-  
					Bank). Hai protein quan trọng của virut cúm là HA và NA.  
					Virut cúm có 2 protein lớn HA và NA (nhưng đơn giản) hầu như quy định  
					tính độc hại của virut. HA là đoạn liên kết của virut tới tế bào vật thể bị lây sang,  
					trong khi NA là bao gồm thay đổi của virut mới sinh ra từ những tế bào bị nhiễm  
					bằng cách chia tách phân tử này. Vì thế, những protein được sinh ra từ biến đổi  
					này có tính kháng thuốc. Do đó, chúng được gọi là những gen kháng (antigen).  
					Cúm A được phân loại dựa vào kiểu trên kháng thể tương ứng HA và NA, ví dụ:  
					H5N1.  
					Coding region của một gene là một phần của ADN hoặc ARN mà nó làm  
					nhiệm vụ sao chép phiên mã sang ARN khác, giống như ARN thông tin hoặc một  
					ARN không mã hóa (cho trường hợp chuyển ARN hoặc một ribosom ARN). Một  
					đoạn mang phiên mã có thể dùng để giải mã protein. Đối với đoạn này thì nó  
					không chứa những vùng gene như vị trí nhận dạng, chuỗi lặp, hoặc chuỗi kết thúc.  
					Chính do cấu trúc và tính chất genome của virut cúm làm cho chúng dễ gây  
					bệnh. Sau đây là một số thông kê về dịch cúm.  
					4. Một số thống kê và sự lây lan của virut cúm  
					Dịch cúm H5N1, H1N1,... bùng phát đã làm kinh hoàng loài người kể từ trận đại  
					dịch cúm Tây Ban Nha 1918 và đến nay nó vẫn là một trong những dịch hết sức  
					nguy hiểm đối với loài người. Sau đây, chúng ta điểm qua những trận dịch trong  
					lịch sử.  
					4.1. Một số thống kê về dịch cúm  
					Các trận đại dịch kinh hoàng trong lịch sử được thống kê trong bảng 4 dưới đây.  
					10  
				Nghiên cứu sự phát triển của virut cúm  
					Các trận dịch cúm xảy ra gần đây (bảng 5).  
					Theo thống kê của tổ chức y tế thế giới WHO “Cumulative Number of Confirmed  
					Human Cases of A-vian Influenza A/(H5N) Reported to WHO 3 April 2008 ”.  
					Để hiểu rõ hơn virut cúm truyền bệnh như thế nào, chúng ta sẽ tìm hiểu  
					trong phần “sự lây lan của virut cúm” ở phần dưới đây.  
					11  
				Nghiên cứu sự phát triển của virut cúm  
					4.2. Sự lây lan của virut cúm  
					Thông thường virut cúm không  
					thể lây nhiễm trực tiếp sang  
					người mà phải thông qua vật  
					chủ trung gian như lợn, gà,…  
					Khi ở trong vật thể trung gian  
					này thì virut từ người và virut  
					cúm của một loài khác sẽ kết  
					hợp với nhau bằng cách trao đổi  
					các thành phần trong tế bào của  
					chúng để tạo nên loại virut cúm  
					mới có khả năng gây bệnh ở  
					người. Có hai quá trình lây lan  
					của virut cúm là drift và shift.  
					Chi tiết về hai quá trình lây lan  
					này có thể tham khảo từ trung  
					
					info/flu-viruses.html”.  
					12  
				Nghiên cứu sự phát triển của virut cúm  
					Chương III. Ngân hàng gene virut cúm  
					1. Giới thiệu tổng quan  
					Luận án này nghiên cứu về sự phát triển của virut cúm. Công việc của luận án là  
					xây dựng một ngân hàng gene virut cúm cho tất cả các nước trên thế giới và chi  
					tiết tới từng tỉnh thành/vùng miền của Việt Nam. Phần mềm này lấy dữ liệu tự  
					động từ ngân hàng gene NCBI (một trong 3 ngân hàng gene lớn nhất thế giới  
					
					học tượng tự như của NCBI và “làm rõ thông tin cho hầu hết các chuỗi cập nhật  
					được về Việt Nam mà chỉ có lượng rất nhỏ thông tin có sẵn khi cập nhật từ NCBI”.  
					Để góp phần vào việc cung cấp thông tin, cũng như các công cụ phân tích cho việc  
					kiểm soát bệnh cúm ở Việt Nam, đề tài tập trung vào những mục tiêu chính sau  
					(1) cung cấp dữ liệu về cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ  
					phân tích cơ bản như tìm kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung  
					cấp dữ liệu về virut cúm chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp  
					bản đồ phân tán của virut cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5)  
					cung cấp biểu đồ thống kê virut cúm cho các vùng của Việt Nam, và trên thế giới”.  
					2. Các chức năng đã xây dựng  
					- Tự động cập nhật.  
					- Tìm kiếm chuỗi.  
					- Thực hiện sắp hàng đa chuỗi, sinh tệp tin biểu diễn toán học cây tiến hóa.  
					- Cho phép tải tệp tin chứa các chuỗi dạng fasta, genbank, sắp hàng đa chuỗi,  
					cây tiến hóa.  
					- Xây dựng bản đồ phân tán của virut cúm.  
					- Xây dựng biểu đồ thống kê virut cúm.  
					13  
				Nghiên cứu sự phát triển của virut cúm  
					Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virut cúm như thế nào.  
					2.1. Quá trình xây dựng ngân hàng gene  
					Mô hình hoạt động của ngân hàng gen xây dựng như hình 7 bên dưới.  
					Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virut cúm  
					cho Việt Nam là thu thập dữ liệu và thông tin chi tiết các gene của Việt Nam.  
					Dưới đây là quá trình thu thập này.  
					14  
				Nghiên cứu sự phát triển của virut cúm  
					2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam  
					Quá trình thu thập dữ liệu chi tiết cho Việt Nam là quá trình đầu tiên và quan trọng  
					nhất trong xây dựng ngân hàng gene virut cúm cho Việt Nam. Trong khi cập nhật  
					dữ liệu trực tiếp từ NCBI thông qua việc lấy các tệp tin ‘genomeset.dat’, ‘influen-  
					za.dat’, ‘influenza_aa.dat’, ‘influenza_na.dat’, ‘influenza.faa’, ‘influenza.fna’, ‘in-  
					
					thông tin nhận được ở trên trong các tệp tin sẽ được tách ra để cho vào cơ sở dữ  
					liệu được xây dựng ở bên dưới. Trong các tệp tin này thông tin rõ ràng chuỗi nào ở  
					tỉnh thành/vùng nào của Việt Nam là rất ít. Vì thế, kết hợp với các tài liệu đáng tin  
					cậy từ các thông tin tìm kiếm trên các bài báo của các tác giả nghiên cứu virut cúm  
					ở Việt Nam (các bài báo đăng trên pubmed, thông tin trực tiếp từ tác giả của chuỗi  
					gen đó,...). Sau đây là một số bài báo trên pubmed có thông tin chi tiết về các tỉnh  
					thành của Việt Nam.  
					1. Evolution of  
					Highly Pathogenic H5N1  
					Avian Ifluen-za Viruses in  
					Vietnam between 2001  
					and 2007.  
					2. Multiple Subline-  
					ages of Influenza A Virus  
					(H5N1), Vietnam, 2005-  
					2007.  
					Các thông tin tìm  
					được chi tiết về Việt Nam  
					kể trên sẽ được chuẩn hóa  
					và được cập nhật vào tệp  
					tin “listTown.txt” để cập  
					nhật vào cơ sở dữ liệu.  
					“listTown.txt” là tệp tin có  
					dạng ký hiệu tỉnh thành  
					15  
				Nghiên cứu sự phát triển của virut cúm  
					/vùng chưa chuẩn hóa => tỉnh thành/vùng của Việt Nam được chuẩn hóa. Ví dụ  
					thông tin từ một bài báo tìm được (bài báo có dữ liệu năm 2005-2007 ở trên).  
					Chuẩn hóa dữ liệu chi tiết về Việt Nam được cho ở bảng 6.  
					Sau khi đã có thông tin chi tiết về Việt Nam chúng ta bắt tay vào xây dựng  
					cơ sở dữ liệu lưu trữ các gene đó.  
					2.1.2. Xây dựng cơ sở dữ liệu  
					Xây dựng cơ sở dữ liệu là  
					phần tiếp theo sau khi đã  
					có thông tin chi tiết hầu  
					hết các gene về Việt Nam.  
					Trước hết chúng ta  
					xây dựng chương trình tự  
					động cập nhật thông tin từ  
					NCBI về để xây dựng cơ  
					sở dữ liệu. Để có thể cập  
					nhật dữ liệu người dùng  
					phải đăng nhập vào hệ  
					thống để quản lý cập nhật dữ liệu. Từ trang chủ, người dùng chọn tab “Login” để  
					vào trang đăng nhập như hình 9 ở bên. Tên người dùng và mật khẩu của người  
					dùng được lưu trữ trong cơ sở dữ liệu “users” ở bảng “information” với hai trường  
					là “user” và “pass”. Nếu người dùng có thông tin ở trong bảng “information” này  
					thì sẽ được phép quản lý cập nhật cơ sở dữ liệu sau khi đăng nhập thành công như  
					hình 10.  
					16  
				Nghiên cứu sự phát triển của virut cúm  
					Tự động cập nhật  
					thông tin các chuỗi từ  
					ngân hàng gene NCBI  
					theo phương thức ftp từ  
					
					.nih.gov/genomes/INFLU  
					ENZA/ từ các tệp tin ‘ge-  
					nomeset.dat’,  
					‘influez-  
					a.dat’, ‘influenza_aa.dat’,  
					‘influenza_na.dat’, ‘influ-  
					enza.faa’, ‘influenza.f-na’,  
					‘influenza.cds’ (những tệp tin tổng hợp dữ liệu từ trước tới thời điểm hiện tại của  
					
					(những thư mục chứa dữ liệu gần đây được cập nhật) những tệp tin này được tự  
					động tải về. Sử dụng module Net::FTP trong perl để thực hiện việc này.  
					my $ftp = new NET::FTP(“ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA”);  
					$ftp->login(“annynomous”, “annynomous”);  
					$ftp->cwd(“ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/updates/”);  
					$ftp->get(“filename”);  
					Sau đây là các tệp tin được tải tự động về từ NCBI.  
					Tệp genomeset.dat chứa thông tin về accession, host, segment, subtype, country,  
					year, length, name, age, gender (như bảng 7).  
					17  
				Nghiên cứu sự phát triển của virut cúm  
					Tệp influenza.cds chứa thông tin về gb(genbank), accession, length, name, seg-  
					ment, sequence (như bảng 8).  
					Tệp influenza.dat chứa thông tin về accession nucleotide (ANuc), accession pro-  
					tein (APro) (như bảng 9 bên dưới).  
					Tệp influenza.faa là tệp tin fasta chứa số accession của nucleotide của GenBank,  
					số accession của protein của GenBank , chỉ ra là protein coding region, hai trường  
					tiếp theo (nếu có) là lặp lại nếu một chuỗi của nucleotide mã hóa nhiều hơn một  
					protein và sau cùng là chuỗi (bảng 10).  
					Tệp influenza.fna là tệp tin fasta chứa thông tin về gi|genbank identify|gb| acces-  
					sion|name và sau đó là chuỗi (như bảng 11).  
					18  
				Nghiên cứu sự phát triển của virut cúm  
					Tệp influenza_aa.dat là tệp tin chứa thông tin về protein như accession, host, seg-  
					ment, subtype, country, year, length, name, gender, full length of genomeset (như  
					bảng 12).  
					Tệp influenza_na.dat là tệp chứa thông tin về nucleotide như accession, host, seg-  
					ment, subtype, country, year, length, name, gender, full length of genomeset (như  
					bảng 13).  
					Cập nhập thêm thông tin chi tiết về Việt Nam từ tệp “listTown.txt” được xây dựng  
					ở trên. Từ đó xây dựng lên cơ sở dữ liệu influenza có các bảng sau.  
					Bảng “genomeset” có các trường accession, host, segment, subtype, country, year,  
					length, name, age, gender (bảng 14).  
					Bảng này cung cấp thông tin cho quá trình tìm kiếm “genomset”.  
					19  
				Nghiên cứu sự phát triển của virut cúm  
					Bảng “coding_region” có các trường acc_nucleotide, host, segment, subtype,  
					country, year, length, name, age, gerder, acc_protein, title, containt (như bảng 15  
					bên dưới).  
					Bảng này cung cấp thông tin tìm kiếm “coding region”.  
					Bảng “nucleotide” có các trường accession, host, segment, subtype, country, year,  
					length, name, age, gender, title, contain (như bảng 16).  
					Bảng “nucleotide” cung cấp thông tin cho quá trình tìm kiếm “nucleotide”.  
					Bảng “protein” có các trường accession, host, segment, subtype, country, year,  
					length, name, age, gender, type, title, contain (như bảng 17 cho bên dưới).  
					Bảng “protein” cung cấp thông tin cho quá trình tìm kiếm các protein.  
					Các tệp tin được tải tự động ngoài những tệp tin trong thư mục updates của  
					NCBI là những tệp tin có định dạng “genbank” và “fasta” của các accession trong  
					quá trình trích lấy thông tin từ tệp tin ở thư mực updates. Và chúng sẽ được tự  
					động thêm link trong quá trình truy xuất của người dùng để có thể sử dụng khi  
					20  
				Nghiên cứu sự phát triển của virut cúm  
					dùng offline cũng như online. Những file này được chứa tương ứng trong thư mục  
					“GENBANK” và “FASTA”.  
					Sau khi xây dựng xong dữ liệu thì việc đầu tiên ngân hàng gen cung cấp  
					cho người dùng là tìm kiếm chuỗi.  
					2.2. Tìm kiếm các chuỗi  
					Người dùng có thể tìm kiếm  
					các chuỗi về protein, nucleo-  
					tide, coding region, genome  
					(ở tab Genomes set) bằng  
					cách chọn nút radio tương  
					ứng với phần đó.  
					Trong phần tìm kiếm  
					về kiểu virut cúm người  
					dùng có thể chọn kiểu cúm  
					A, B, C hay bất kỳ kiểu cúm  
					A, B, C nào (any) trong trường “Virus Species”. Mục “Host” cho phép chọn cúm  
					gia cầm, cúm Blow fly,... Trong trường “Country/Region” mặc định ban đầu được  
					chọn là Việt Nam, người dùng có thể thay đổi chọn nước bất kỳ hoặc tất cả (any)  
					các nước trên trường này. Mục “Segment/Protein” cho phép người dùng chọn các  
					segment tương ứng của virut cúm. Trường kế tiếp là “Region of Vietnam” (các  
					tỉnh thành/vùng của Việt Nam) chỉ có tác dụng nếu người dùng chọn Việt Nam  
					trong phần “Country/Region”. Đây là những lựa chọn cơ bản có tác dụng trong  
					các phần tìm kiếm chuỗi ở bên dưới. Dưới đây là các kiểu kèm thêm điều kiện tìm  
					kiếm khác.  
					1. Tìm kiếm các chuỗi với các điều kiện kèm theo các trường bên dưới cho  
					phép chọn “subtype” như H5N1, H1N1,... chọn chuỗi từ năm nào đến năm nào  
					trong trường “From year” (ví dụ: 2000) và “To year” (ví dụ: 2009), hay chọn chiều  
					dài tối thiểu và tối đa của chuỗi trong trường “Min.length” (ví dụ chiều dài nhỏ  
					21  
				Nghiên cứu sự phát triển của virut cúm  
					nhất là 200) và “Max.length” (ví dụ  
					chiều dài lớn nhất là 1000) hoặc  
					thông tin có trong phần “name” của  
					chuỗi tìm được trong phần “Search  
					by a string” (ví dụ Vietnam/2003).  
					2. Tìm kiếm theo accession  
					được cho ở trường “Search by ac-  
					cession” cho phép chúng ta tìm  
					kiếm theo “accession” (accession là  
					key trong cơ sở dữ liệu của ngân  
					hàng gene được quy định chung  
					cho các ngân hàng gene trên thế  
					giới).  
					3. Tìm kiếm với các lựa chọn  
					cơ bản là phần dưới cùng “Get se-  
					quences” cho phép tìm kiếm các  
					chuỗi với các điều kiện đã chọn ở  
					đầu tiên, không bao hàm phần  
					“search by string”.  
					Kết quả chúng ta nhận được  
					khi tìm kiếm như hình 12 bên.  
					Phần tìm kiếm genomset cũng  
					tìm kiếm giống như phần tìm kiếm  
					chuỗi nêu ở trên. Hình 13 là giao  
					diện của trang tìm kiếm genomeset.  
					Kết quả khi tìm kiếm geno-  
					set như hình 14.  
					Sau khi tìm kiếm chuỗi xong thì  
					22  
				Nghiên cứu sự phát triển của virut cúm  
					việc tiếp theo người dùng có thể rất cần là việc tải các chuỗi đã tìm kiếm được  
					theo ý muốn của mình. Dưới đây là phần tiện ích tải chuỗi.  
					2.3. Tiện ích tải chuỗi  
					Trong phần kết quả tìm kiếm các chuỗi của ‘protein’, ‘nucleotide’, ‘coding region’  
					hay ‘genome set’ người dùng có  
					thể lựa chọn tải về các chuỗi theo  
					loại ‘protein’, ‘nucleotide’ hay  
					‘coding region’ hoặc danh sách  
					các ‘accesion’ của ‘protein’ hoặc  
					‘nucleotide’ với lựa chọn được  
					tích ở phần trước tên của acces-  
					sion. Hình ảnh minh họa tải tệp tin  
					dạng FASTA khi người dùng nhấp  
					vào lựa chọn tải chuỗi như hình 15  
					bên.  
					Dạng tệp tin FASTA tải về có định dạng như bảng 18 dưới đây.  
					Tệp tin chứa các chuỗi tải về chính là đầu vào cho phần “sắp hàng đa chuỗi” để  
					tìm quan hệ nguồn gốc giữa các loài sinh vật (xem thêm phần 2.1.Sắp hàng đa  
					chuỗi, chương I ở trên).  
					2.4. Tiện ích sắp hàng đa chuỗi  
					Phần mềm xây dựng sử dụng phần mềm MUSCLE (Multiple squence comparison  
					
					23  
				Nghiên cứu sự phát triển của virut cúm  
					5.com/muscle để thực  
					hiện sắp hàng đa chuỗi  
					các chuỗi tìm kiếm được  
					của người dùng. Phần  
					mềm cho phép người  
					dùng trực tuyến sử dụng  
					sắp hàng đa chuỗi tối đa  
					cho 1000 chuỗi. Nếu vượt  
					quá con số này sẽ gặp  
					thông báo lỗi và đưa ra  
					địa chỉ trang web cho  
					người dùng tải công cụ  
					“muscle” về dùng trên máy của người dùng với đầu vào là tệp tin FASTA chứa  
					các chuỗi mà người dùng có thể tải về được theo tiện ích ở trên. Hình 16 minh họa  
					kết quả của sắp hàng đa chuỗi.  
					Mục đích của “Sắp hàng đa chuỗi”(MSA) là đầu vào cho tạo cây tiến hóa  
					(phylogentic tree) sau này (xem thêm về cây tiến hóa ở mục 2.2. Cây tiến hóa, ở  
					chương I bên trên).  
					2.5. Tiện ích xây dựng cây tiến hóa  
					Cây tiến hóa là cây xây dựng từ tệp  
					MSA. Nhìn vào “cây tiến hóa” mà  
					chúng ta dễ nhận ra loài nào có quan  
					hệ nguồn gốc từ loài nào. Từ đó,  
					trong phòng chống dịch cúm người  
					ta có thể phát hiện về sự lây lan,  
					nguồn gốc của các loài virut mới  
					xuất hiện cũng như sẽ đề ra biện  
					pháp phòng và chống lây lan dịch  
					cúm. Hình 17 là ví dụ về một cây tiến hóa.  
					24  
				Nghiên cứu sự phát triển của virut cúm  
					Trong phần tích hợp công cụ xây dựng cây tiến hóa này, chúng tôi đã dùng  
					gói PHYLIP (do Joe Felsenstein viết có thể tải tại địa chỉ http://evolution.genetics-  
					.washington.edu/phylip.html).  
					Trước hết, dùng phần mềm MUSCLE (Edgar, 2004) ở trên tạo ra tệp tin sắp  
					hàng đa chuỗi với định dạng hộ trợ phần mềm phylip ví dụ là: “alignment.phyi”.  
					Sau đó dùng chương trình “protdist” nếu là sắp hàng đa chuỗi của protein hoặc  
					dùng chương trình “dnadist” (nếu  
					không phải sắp hàng đa chuỗi của  
					protein) để tạo tập tin ma trận của  
					MSA làm đầu vào cho chương trình  
					tạo cây “neighbor”. “Neighbor” là  
					chương trình tạo cây dựa trên  
					phương pháp “neighbor-joining”  
					(Saitou and Nei, 1987) để tạo cây  
					tiến hóa. Kết quả sinh ra tệp tin “out-  
					file” (tệp tin chứa cây dạng biểu diễn dưới dạng toán học) và “outtree” (cây vẽ  
					dưới dạng đơn giản). Người dùng tải tệp tin “tree.zip” (như hình 18) về và dùng  
					những chương trình xem cây như view tree,… để xem.  
					Để làm trực quan về phân bố của virut cúm thì trong phần tiếp theo chúng ta  
					sẽ xây dựng “bản đồ phân bố của virut cúm” giúp người dùng dễ dàng có cái nhìn  
					trực quan về phân bố virut cúm ở Việt Nam hay trên thế giới.  
					2.6. Bản đồ phân bố của virut cúm  
					Người dùng có thể xem sự phân bố của virut cúm của các nước trên thế giới hay  
					của các tỉnh thành của Việt Nam trong phần “prediction” từ trang chủ. Hình 19 là  
					trang web cho phép người dùng lựa chọn xem phân bố cúm.  
					25  
				Nghiên cứu sự phát triển của virut cúm  
					Từ trang này, người  
					dùng có thể chọn xem  
					phát tán virut cúm theo  
					loại cúm A, cúm B hay  
					cúm C hoặc bất kỳ loại  
					cúm nào trong 3 loại cúm  
					trên. Người dùng có thể  
					chọn cúm gia cầm  
					(Avian) hay cúm “Blow  
					fly”,…và có thể lựa chọn  
					phát tán của virut từ năm  
					nào (ví dụ từ năm 2000) đến năm nào (ví dụ đến năm 2009) trong hai trường  
					“From year” và “To year”. Trong phần “Country/Region” người dùng có thể chọn  
					“Viet Nam” để xem sự phát tán ở Việt Nam hoặc “any” để xem sự phát tán của  
					virut cúm trên thế giới.  
					26  
				Nghiên cứu sự phát triển của virut cúm  
					Kết quả minh họa khi người dùng xem phân bố cúm ở Việt Nam và trên thế  
					giới như hình 20, 21, 22 và 23 bên dưới.  
					Phần này sử dụng kiến thức nền tảng về “google map API” (Google -  
					
					
					27  
				Nghiên cứu sự phát triển của virut cúm  
					MapAPI) hộ trợ php để xây dựng bản đồ phát tán virut này. Người dùng có thể  
					dùng chuột để kéo bản đồ để xem các vị trí khác nhau, kích đúp chuột để phóng to  
					hình ảnh lên, hoặc có thể sử dụng thanh công cụ bên trái cùng để phóng to hoặc  
					thu nhỏ hình ảnh. Người dùng cũng có thể biết thông tin về “số lượng chuỗi” và  
					tên “địa điểm” bằng việc nhấp chuột (hoặc rê chuột) vào vị trí có màu đỏ hoặc da  
					cam trên bản đồ, còn màu xanh lá cây là không có chuỗi nào. Số lượng chuỗi được  
					tượng trưng thông qua màu trên bản đồ, màu da cam có kích thước nhỏ sẽ ít chuỗi  
					hơn màu da cam có kích thước lớn và màu da cam có kích thước lớn sẽ có ít chuỗi  
					hơn vòng tròn màu đỏ có kích thước nhỏ và vòng tròn màu đỏ có kích thước nhỏ  
					sẽ ít chuỗi hơn vòng tròn màu đỏ có kích thước lớn hơn.  
					Phần này đã cung cấp cho người dùng cái nhìn trực quan về phân bố virut  
					cúm, thì phần “biểu đồ thống kê về virut cúm” dưới đây sẽ cung cấp cho người  
					dùng những số liệu thống kê về virut cúm ở Việt Nam và trên thế giới.  
					2.6. Biểu đồ thống kê về virut cúm  
					Trong trang “prediction”  
					nhấp vào tab “Statistic”  
					chúng ta vào trang thống kê  
					về virut cúm như hình 24.  
					Chương trình thống kê  
					về virut cúm có sử dụng gói  
					chương trình “ChartDirector  
					v.5.0”(phần mềm này của  
					công ty Advanced Software  
					Engineering Limited, 2008,  
					có thể tải theo địa chỉ  
					http://www.advsofteng.com/download.html).  
					Thống kê virut cúm cho các vùng ở Việt Nam, chúng ta có thể chọn năm  
					thống kê từ năm nào (ví dụ năm 2000) đến năm nào (ví dụ năm 2009) trong trường  
					28  
				Nghiên cứu sự phát triển của virut cúm  
					“From year” và “To year”  
					ở bên dưới, mặc định 2  
					trường này thống kê tất cả  
					các năm tìm thấy trong cơ  
					sở dữ liệu. Hình 25 minh  
					họa thống kê virut cúm  
					các vùng ở Việt Nam.  
					Ngoài ra, chúng ta  
					còn có thể thống kê virut  
					cúm cho Việt Nam qua  
					các năm chúng ta có thể  
					chọn năm thống kê từ  
					năm nào đến năm nào  
					trong trường “From year”  
					và “To year” ở bên dưới,  
					mặc định 2 trường này  
					thống kê tất cả các năm  
					tìm thấy trong cơ sở dữ  
					liệu. Chúng ta có thể xem  
					số chuỗi tìm thấy trong cơ  
					sở dữ liệu bằng cách rê  
					chuột qua cột biểu diễn.  
					29  
				Tải về để xem bản đầy đủ
Bạn đang xem 30 trang mẫu của tài liệu "Khóa luận Nghiên cứu sự phát triển của virut cúm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
        
        
        File đính kèm:
khoa_luan_nghien_cuu_su_phat_trien_cua_virut_cum.pdf

