Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học. Trường Đại Học Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene hsp-70 và RTRNaseH đã được giải trình tự. Những trình tự gene nàyđược lưu trữ trong CSDL sinh học lớn như NCBI, EMBL, DDBj,
72 trang |
Chia sẻ: vietpd | Lượt xem: 1317 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcripte-rnaseh ở một số loài virus thực vật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
KHÓA LUẬN TỐT NGHIỆP
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ
LOÀI VIRUS THỰC VẬT
Nghành học: CÔNG NGHỆ SINH HỌC
Niên khóa: 2001-2005
Sinh viên thực hiện: NGUYỄN VĂN THÁI
Thành phố Hồ Chí Minh
Tháng 8/2005
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
************
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTASE-RNaseH Ở MỘT
SỐ LOÀI VIRUS THỰC VẬT
Giáo viên hƣớng dẫn:
TS. TRẦN THỊ DUNG
Cử Nhân. LƢU PHÚC LỢI
Thành phố Hồ Chí Minh
Tháng 8/2005
Sinh viên thực hiện:
NGUYỄN VĂN THÁI
iii
LỜI CẢM TẠ
Thành kính ghi ơn công lao dạy dỗ, tận tụy suốt đời vì
con của cha mẹ.
Xin bày tỏ lòng biết ơn sâu sắc đến:
TS. Trần Thị Dung
Cử Nhân. Lưu Phúc Lợi
Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi
hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã
trang bị cho tôi những kiến thức quí báu và là người đầu
tiên đưa tôi đến với Bioinformatics.
Xin chân thành cảm ơn đến quí thầy cô bộ môn Công Nghệ
Sinh Học, khoa Công Nghệ Thông Tin. Đã nhiệt tình giúp đỡ,
khuyên bảo, tạo điều kiện thuận lợi và đóng góp ý kiến
chân thành cho tôi trong suốt thời gian làm khóa luận này.
Xin gởi lời cảm ơn đến tập thể lớp Công Nghệ Sinh Học
K27 đã động viên, giúp đỡ và luôn ở bên cạnh tôi trong
những lúc khó khăn trong suốt thời gian học đại học.
Nguyễn Văn Thái
iv
TÓM TẮT KHOÁ LUẬN
NGUYỄN VĂN THÁI, Đại học Nông Lâm TP. Hồ Chí Minh. Tháng 8/2005.
“XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE
TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT”
Hội đồng hƣớng dẫn:
TS. Trần Thị Dung
Cử Nhân. Lƣu Phúc Lợi
Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học. Trƣờng Đại Học
Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với
sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-
RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh
học lớn nhƣ NCBI, EMBL, DDBj,…Vì các CSDL này quá lớn và chứa rất nhiều thông
tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc
truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục
tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse
transcriptase-RNaseH ở một số loài virus thực vật.
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau:
Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ
trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide).
Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này.
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL.
Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang
web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus
Closteroviridae và Caulimoviridae.
v
Sau khi thực hiện các nội dung trên chúng tôi đạt đƣợc những kết quả nhƣ sau:
Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ
liệu NCBI.
Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự
protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí
gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng.
CSDL có 325 trình tự đƣợc tích hợp với Web.
Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là
HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra,
từ những trang web chính này còn có thể kết nối đến những trang phụ khác để
cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử
dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự
trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc
tính của loài,…
vi
MỤC LỤC
Nội dung Trang
Trang bìa ........................................................................................................................... i
Trang trong ...................................................................................................................... ii
Lời Cảm Tạ .................................................................................................................... iii
Tóm Tắt Luận Văn ......................................................................................................... iv
Mục Lục .......................................................................................................................... vi
Danh Sách Các Bảng ...................................................................................................... ix
Danh Sách Các Hình ....................................................................................................... x
Danh Sách Các Chử Viết Tắt ........................................................................................ xii
Phần 1. LỜI MỞ ĐẦU .................................................................................................. 1
Phần 2. TỔNG QUAN TÀI LIỆU ................................................................................ 4
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU .......................................................................... 4
2.1.1. Định nghĩa .................................................................................................... 4
2.1.2. Hệ quản trị CSDL ......................................................................................... 4
2.1.3. Các mô hình dữ liệu ...................................................................................... 5
2.1.3.1. Định nghĩa ........................................................................................ 5
2.1.3.2. So sánh các mô hình dữ liệu………………………………………..5
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB .................... 6
2.2.1. Perl ................................................................................................................ 6
2.2.1.1. Tóm tắt lịch sử phát triển .................................................................. 6
2.2.1.2. Ứng dụng .......................................................................................... 7
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng ................................. 7
2.2.2. Giới thiệu về mạng Internet ......................................................................... 8
2.2.2.1. Tóm lƣợc lịch sử phát triển ............................................................... 8
2.2.2.2. Một số khái niệm .............................................................................. 9
2.2.3. Web ............................................................................................................... 9
2.2.3.1. Tóm lƣợt lịch sử phát triển ............................................................... 9
2.2.3.2. Tích hợp CSDL với web dùng CGI ................................................ 10
2.3. CƠ SỞ DỮ LIỆU SINH HỌC ........................................................................... 11
2.3.1. NCBI ........................................................................................................... 11
vii
2.3.1.1. Vài nét về NCBI ............................................................................. 11
2.3.1.2. Một số cơ sở dữ liệu trong NCBI.................................................... 11
2.3.1.3. Một số công cụ trong NCBI ............................................................ 12
2.3.2. EBI .............................................................................................................. 13
2.3.2.1. Vài nét về EBI ................................................................................. 13
2.3.2.2. Một số cơ sở dữ liệu trong EBI ....................................................... 13
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học .......................... 14
2.3.3. SIB ............................................................................................................. 15
2.3.4. DDJB và PDBj ............................................................................................ 15
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE ................................... 18
2.4.1. CAULIMOVIRIDAE ................................................................................... 19
2.4.1.1. Khái quát .......................................................................................... 19
2.4.1.2. Cấu tạo ............................................................................................. 20
2.4.1.3. Đặc tính sinh học ............................................................................. 20
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 20
2.4.2. CLOSTEROVIRIDAE ................................................................................. 21
2.4.2.1. Khái quát .......................................................................................... 21
2.4.2.2. Cấu tạo ............................................................................................. 21
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 22
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH ................................................ 23
2.5.1. Gene Reverse transciptase-RNaseH ........................................................... 23
2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome .................................... 23
2.5.2.2. Chức năng của protein ..................................................................... 23
2.5.2. Gene hsp-70 ................................................................................................ 24
2.5.1.1. Vị trí gene hsp-70 nằm trong genome ............................................. 24
2.5.1.2. Chức năng ........................................................................................ 24
PHẦN 3. PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG ............................. 25
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng...................................... 25
3.1.1. Hệ điều hành ............................................................................................... 25
3.1.2. Các chƣơng trình phân tích trình tự ........................................................... 25
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW .......................................... 25
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST ............. 25
viii
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL .................................................. 26
3.1.2.4. Apache web Server .......................................................................... 27
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng .................................... 27
3.2. Phƣơng pháp ....................................................................................................... 28
3.2.1. Thu nhận trình tự ........................................................................................ 28
3.2.2. Xác định gene và protein trong bộ gene virus ............................................ 29
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH ................ 32
3.2.3.1. Phân tích dữ liệu .............................................................................. 32
3.2.3.2. Thiết kế CSDL dạng bảng ............................................................... 34
3.2.3.3. Lƣu trữ các thông tin vào CSDL ..................................................... 35
3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web .................... 37
Phần 4. KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 39
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae .......... 39
4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH ... 41
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH ........................................................ 42
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH ..................... 46
4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH .................... 47
4.4.2. Trang tìm kiếm ............................................................................................ 47
4.4.3. Trang công cụ .............................................................................................. 49
4.4.4. Trang cây phân loài ..................................................................................... 52
4.4.4.1. Trang Caulimoviridae ..................................................................... 52
4.4.4.2. Trang Closteroviridae ..................................................................... 54
4.4.5. Trang liên kết ............................................................................................... 54
4.4.6. Trang thông tin về bộ môn công nghệ sinh học .......................................... 54
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ ......................................................................... 55
4.1. KẾT LUẬN ........................................................................................................ 55
4.2. ĐỀ NGHỊ ........................................................................................................... 55
PHẦN 6. TÀI LIỆU THAM KHẢO .......................................................................... 57
PHỤ LỤC ..................................................................................................................... 59
ix
DANH MỤC BẢNG
Trang
Bảng 2.1. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng ........................... 17
Bảng 2.2. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng.(tiếp theo) .......... 18
Bảng 3.1. Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) .............. 33
Bảng 3.2. Các đối tƣợng phụ dựa trên đối tƣợng chính trình tự (Sequence) ................ 34
Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH ........................... 43
Bảng 4.2 Số trình tự gene hsp-70 .................................................................................. 43
Bảng 4.3 Số trình tự gene RT-RNaseH .......................................................................... 43
x
DANH MỤC HÌNH
Trang
Hình 1.1 Định nghĩa Bioinformatics theo NCBI ............................................................. 1
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng ........................................................ 2
Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS .......................................... 8
Hình 2.2 Tƣơng quan giữa NCBI, NLM ....................................................................... 11
Hình 2.3 Một số cơ sở dữ liệu trong NCBI ................................................................... 14
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm
tƣơng ứng……………………………………………………………………………...16
Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB .................................... 16
Hình 2.6 Tổ chức genome của virus CaMV .................................................................. 19
Hình 2.7 Một số loài trong họ Caulimoviridae ............................................................. 20
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA ......... 21
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus ...................... 22
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus
(+)ssRNA ...................................................................................................................... 22
Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic
virus ...................................................................................................................... 23
Hình 2.12. Protein reverse transcriptase ........................................................................ 24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus .............. 24
Hình 2.14 Protein HSP-70 ............................................................................................. 24
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự ....................................................... 28
Hình 3.2 Sơ đồ xác định gene trong genome virus ....................................................... 29
Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự ............................ 30
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus .......................................................... 31
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH ........................ 32
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus ........................... 37
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và
RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38
Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus.......... 39
xi
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên
NCBI………..40
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV………………..41
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH ................. 46
Hình 4.5 Trang HOME PAGE ...................................................................................... 47
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER ............................ 48
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER ..................... 48
Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment .................................... 50
Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự…………………..51
Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST ...................................... 51
Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae ............ 52
Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53
xii
DANH SÁCH CÁC CHỮ VIẾT TẮT
CSDL Cơ sở dữ liệu.
RT-RNaseH Reverse transcriptase-RnaseH
hsp-70 Heat sock protein 70.
Perl Practical Extraction and Report Language
CGI Common Gateway Interface
DBI Database Interface
DBD Datadbase Driver
WWW World Wide Web
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI Center for Bioinformatic Information
BLAST Basic Local Alignment Search Tool
EBI European Bioinformatics Insiture
EMBL European Molecular Biology Laboratory
SIB Swiss Insitute of Bioiformatics
DDBJ DNA Data Bank Japan
PDBj Protein Database Japan
CaMV Caulimoflower mosaic virus
1
PHẦN 1
LỜI MỞ ĐẦU
Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật
sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự
đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình
tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc
lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất
một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một
công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành
tin học và sinh học dẫn đến cho ra đờ