Luận văn Xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcripte-rnaseh ở một số loài virus thực vật

Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học. Trường Đại Học Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene hsp-70 và RTRNaseH đã được giải trình tự. Những trình tự gene nàyđược lưu trữ trong CSDL sinh học lớn như NCBI, EMBL, DDBj,

pdf72 trang | Chia sẻ: vietpd | Lượt xem: 1317 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcripte-rnaseh ở một số loài virus thực vật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ***000*** KHÓA LUẬN TỐT NGHIỆP XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT Nghành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2001-2005 Sinh viên thực hiện: NGUYỄN VĂN THÁI Thành phố Hồ Chí Minh Tháng 8/2005 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ************ XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT Giáo viên hƣớng dẫn: TS. TRẦN THỊ DUNG Cử Nhân. LƢU PHÚC LỢI Thành phố Hồ Chí Minh Tháng 8/2005 Sinh viên thực hiện: NGUYỄN VĂN THÁI iii LỜI CẢM TẠ Thành kính ghi ơn công lao dạy dỗ, tận tụy suốt đời vì con của cha mẹ. Xin bày tỏ lòng biết ơn sâu sắc đến: TS. Trần Thị Dung Cử Nhân. Lưu Phúc Lợi Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã trang bị cho tôi những kiến thức quí báu và là người đầu tiên đưa tôi đến với Bioinformatics. Xin chân thành cảm ơn đến quí thầy cô bộ môn Công Nghệ Sinh Học, khoa Công Nghệ Thông Tin. Đã nhiệt tình giúp đỡ, khuyên bảo, tạo điều kiện thuận lợi và đóng góp ý kiến chân thành cho tôi trong suốt thời gian làm khóa luận này. Xin gởi lời cảm ơn đến tập thể lớp Công Nghệ Sinh Học K27 đã động viên, giúp đỡ và luôn ở bên cạnh tôi trong những lúc khó khăn trong suốt thời gian học đại học. Nguyễn Văn Thái iv TÓM TẮT KHOÁ LUẬN NGUYỄN VĂN THÁI, Đại học Nông Lâm TP. Hồ Chí Minh. Tháng 8/2005. “XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT” Hội đồng hƣớng dẫn: TS. Trần Thị Dung Cử Nhân. Lƣu Phúc Lợi Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học. Trƣờng Đại Học Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT- RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj,…Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcriptase-RNaseH ở một số loài virus thực vật. Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau: Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide). Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH (RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus. Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này. Dùng Perl script để chuyển tự động các dữ liệu vào CSDL. Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus Closteroviridae và Caulimoviridae. v Sau khi thực hiện các nội dung trên chúng tôi đạt đƣợc những kết quả nhƣ sau:  Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ liệu NCBI.  Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng.  CSDL có 325 trình tự đƣợc tích hợp với Web.  Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra, từ những trang web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc tính của loài,… vi MỤC LỤC Nội dung Trang Trang bìa ........................................................................................................................... i Trang trong ...................................................................................................................... ii Lời Cảm Tạ .................................................................................................................... iii Tóm Tắt Luận Văn ......................................................................................................... iv Mục Lục .......................................................................................................................... vi Danh Sách Các Bảng ...................................................................................................... ix Danh Sách Các Hình ....................................................................................................... x Danh Sách Các Chử Viết Tắt ........................................................................................ xii Phần 1. LỜI MỞ ĐẦU .................................................................................................. 1 Phần 2. TỔNG QUAN TÀI LIỆU ................................................................................ 4 2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU .......................................................................... 4 2.1.1. Định nghĩa .................................................................................................... 4 2.1.2. Hệ quản trị CSDL ......................................................................................... 4 2.1.3. Các mô hình dữ liệu ...................................................................................... 5 2.1.3.1. Định nghĩa ........................................................................................ 5 2.1.3.2. So sánh các mô hình dữ liệu………………………………………..5 2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB .................... 6 2.2.1. Perl ................................................................................................................ 6 2.2.1.1. Tóm tắt lịch sử phát triển .................................................................. 6 2.2.1.2. Ứng dụng .......................................................................................... 7 2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng ................................. 7 2.2.2. Giới thiệu về mạng Internet ......................................................................... 8 2.2.2.1. Tóm lƣợc lịch sử phát triển ............................................................... 8 2.2.2.2. Một số khái niệm .............................................................................. 9 2.2.3. Web ............................................................................................................... 9 2.2.3.1. Tóm lƣợt lịch sử phát triển ............................................................... 9 2.2.3.2. Tích hợp CSDL với web dùng CGI ................................................ 10 2.3. CƠ SỞ DỮ LIỆU SINH HỌC ........................................................................... 11 2.3.1. NCBI ........................................................................................................... 11 vii 2.3.1.1. Vài nét về NCBI ............................................................................. 11 2.3.1.2. Một số cơ sở dữ liệu trong NCBI.................................................... 11 2.3.1.3. Một số công cụ trong NCBI ............................................................ 12 2.3.2. EBI .............................................................................................................. 13 2.3.2.1. Vài nét về EBI ................................................................................. 13 2.3.2.2. Một số cơ sở dữ liệu trong EBI ....................................................... 13 2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học .......................... 14 2.3.3. SIB ............................................................................................................. 15 2.3.4. DDJB và PDBj ............................................................................................ 15 2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE ................................... 18 2.4.1. CAULIMOVIRIDAE ................................................................................... 19 2.4.1.1. Khái quát .......................................................................................... 19 2.4.1.2. Cấu tạo ............................................................................................. 20 2.4.1.3. Đặc tính sinh học ............................................................................. 20 2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 20 2.4.2. CLOSTEROVIRIDAE ................................................................................. 21 2.4.2.1. Khái quát .......................................................................................... 21 2.4.2.2. Cấu tạo ............................................................................................. 21 2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 22 2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH ................................................ 23 2.5.1. Gene Reverse transciptase-RNaseH ........................................................... 23 2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome .................................... 23 2.5.2.2. Chức năng của protein ..................................................................... 23 2.5.2. Gene hsp-70 ................................................................................................ 24 2.5.1.1. Vị trí gene hsp-70 nằm trong genome ............................................. 24 2.5.1.2. Chức năng ........................................................................................ 24 PHẦN 3. PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG ............................. 25 3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng...................................... 25 3.1.1. Hệ điều hành ............................................................................................... 25 3.1.2. Các chƣơng trình phân tích trình tự ........................................................... 25 3.1.2.1. Chƣơng trình so sánh trình tự ClustalW .......................................... 25 3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST ............. 25 viii 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL .................................................. 26 3.1.2.4. Apache web Server .......................................................................... 27 3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng .................................... 27 3.2. Phƣơng pháp ....................................................................................................... 28 3.2.1. Thu nhận trình tự ........................................................................................ 28 3.2.2. Xác định gene và protein trong bộ gene virus ............................................ 29 3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH ................ 32 3.2.3.1. Phân tích dữ liệu .............................................................................. 32 3.2.3.2. Thiết kế CSDL dạng bảng ............................................................... 34 3.2.3.3. Lƣu trữ các thông tin vào CSDL ..................................................... 35 3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web .................... 37 Phần 4. KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 39 4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae .......... 39 4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH ... 41 4.3. CSDL trình tự gene hsp-70 và RT-RNaseH ........................................................ 42 4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH ..................... 46 4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH .................... 47 4.4.2. Trang tìm kiếm ............................................................................................ 47 4.4.3. Trang công cụ .............................................................................................. 49 4.4.4. Trang cây phân loài ..................................................................................... 52 4.4.4.1. Trang Caulimoviridae ..................................................................... 52 4.4.4.2. Trang Closteroviridae ..................................................................... 54 4.4.5. Trang liên kết ............................................................................................... 54 4.4.6. Trang thông tin về bộ môn công nghệ sinh học .......................................... 54 PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ ......................................................................... 55 4.1. KẾT LUẬN ........................................................................................................ 55 4.2. ĐỀ NGHỊ ........................................................................................................... 55 PHẦN 6. TÀI LIỆU THAM KHẢO .......................................................................... 57 PHỤ LỤC ..................................................................................................................... 59 ix DANH MỤC BẢNG Trang Bảng 2.1. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng ........................... 17 Bảng 2.2. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng.(tiếp theo) .......... 18 Bảng 3.1. Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) .............. 33 Bảng 3.2. Các đối tƣợng phụ dựa trên đối tƣợng chính trình tự (Sequence) ................ 34 Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH ........................... 43 Bảng 4.2 Số trình tự gene hsp-70 .................................................................................. 43 Bảng 4.3 Số trình tự gene RT-RNaseH .......................................................................... 43 x DANH MỤC HÌNH Trang Hình 1.1 Định nghĩa Bioinformatics theo NCBI ............................................................. 1 Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng ........................................................ 2 Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS .......................................... 8 Hình 2.2 Tƣơng quan giữa NCBI, NLM ....................................................................... 11 Hình 2.3 Một số cơ sở dữ liệu trong NCBI ................................................................... 14 Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm tƣơng ứng……………………………………………………………………………...16 Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB .................................... 16 Hình 2.6 Tổ chức genome của virus CaMV .................................................................. 19 Hình 2.7 Một số loài trong họ Caulimoviridae ............................................................. 20 Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA ......... 21 Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus ...................... 22 Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA ...................................................................................................................... 22 Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic virus ...................................................................................................................... 23 Hình 2.12. Protein reverse transcriptase ........................................................................ 24 Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus .............. 24 Hình 2.14 Protein HSP-70 ............................................................................................. 24 Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự ....................................................... 28 Hình 3.2 Sơ đồ xác định gene trong genome virus ....................................................... 29 Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự ............................ 30 Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT- RNaseH trong ORF hay genome của virus .......................................................... 31 Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH ........................ 32 Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus ........................... 37 Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38 Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus.......... 39 xi Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên NCBI………..40 Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV………………..41 Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH ................. 46 Hình 4.5 Trang HOME PAGE ...................................................................................... 47 Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER ............................ 48 Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER ..................... 48 Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment .................................... 50 Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự…………………..51 Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST ...................................... 51 Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae ............ 52 Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53 xii DANH SÁCH CÁC CHỮ VIẾT TẮT CSDL Cơ sở dữ liệu. RT-RNaseH Reverse transcriptase-RnaseH hsp-70 Heat sock protein 70. Perl Practical Extraction and Report Language CGI Common Gateway Interface DBI Database Interface DBD Datadbase Driver WWW World Wide Web HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol NCBI Center for Bioinformatic Information BLAST Basic Local Alignment Search Tool EBI European Bioinformatics Insiture EMBL European Molecular Biology Laboratory SIB Swiss Insitute of Bioiformatics DDBJ DNA Data Bank Japan PDBj Protein Database Japan CaMV Caulimoflower mosaic virus 1 PHẦN 1 LỜI MỞ ĐẦU Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành tin học và sinh học dẫn đến cho ra đờ