Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên cứu cây trồng biến đổi di truyền. Công việc đƣợc tiến hành tại Trung Tâm Phân Tích Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ Thông Tin, Đại học Nông Lâm TP.HCM).
Công việc đƣợc tiến hành chia ra nhiều giai đoạn:
 Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google và Scirus.
                
              
                                            
                                
            
 
            
                 215 trang
215 trang | 
Chia sẻ: vietpd | Lượt xem: 1569 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang tài liệu Luận văn Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH 
BỘ MÔN CÔNG NGHỆ SINH HỌC 
   
KHÓA LUẬN TỐT NGHIỆP 
THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE 
PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG 
BIẾN ĐỔI DI TRUYỀN 
 NGÀNH HỌC: CÔNG NGHỆ SINH HỌC 
 NIÊN KHÓA: 2001-2005 
 SINH VIÊN THỰC HIỆN: 
 NGUYỄN KỲ TRUNG 01125137 
 LÊ THÀNH TRUNG 01126165 
Thành phố Hồ Chí Minh 
Tháng 9/2005 
ii 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH 
BỘ MÔN CÔNG NGHỆ SINH HỌC 
   
THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE 
PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG 
BIẾN ĐỔI DI TRUYỀN 
 Giảng viên hƣớng dẫn: Sinh viên thực hiện: 
 PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG 
 TS. BÙI MINH TRÍ LÊ THÀNH TRUNG 
 TS. NGUYỄN CÔNG VŨ 
Thành phố Hồ Chí Minh 
Tháng 9/2005
iii 
LỜI CẢM ƠN 
Chúng em chân thành cảm ơn: 
- Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. 
- Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành 
phố Hồ Chí Minh. 
- Ban chủ nhiệm Bộ Môn Công nghệ Sinh học cùng toàn thể Quý Thầy Cô đã truyền 
đạt kiến thức cho chúng em trong suốt quá trình học tập tại trƣờng. 
Chúng em xin gửi lòng biết ơn sâu sắc đến: 
- TS. Bùi Minh Trí 
- PGS.TS. Bùi Thọ Thanh 
- TS. Nguyễn Công Vũ 
Đã tận tình hƣớng dẫn tạo điều kiện tốt nhất cho chúng em trong suốt quá trình 
thực hiện đề tài và hoàn thành luận văn tốt nghiệp này. 
Chúng em đồng chân thành cảm ơn đến: 
- Thầy Lƣu Phúc Lợi 
- TS. Đinh Duy Kháng 
- Các bạn sinh viên Khoa Công nghệ Thông tin đang làm việc trong nhóm 
Bioinformatics Đại học Nông Lâm thành phố Hồ Chí Minh 
- Các anh chị đang làm việc tại Trung tâm Phân tích Hóa sinh 
- Các bạn trong lớp CNSH27 
Đã hết giúp đỡ, hỗ trợ, động viên, chia sẽ những buồn vui trong suốt thời gian 
chúng tôi thực tập và thực hiện đề tài này. 
Tp. Hồ Chí Minh tháng 09 năm 2005 
 Sinh viên thực hiện 
 Nguyễn Kỳ Trung 
 Lê Thành Trung 
iv 
TÓM TẮT 
Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ 
NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, do hai sinh viên: 
NGUYỄN KỲ TRUNG và LÊ THÀNH TRUNG thực hiện tháng 9/2005. 
Giảng viên hƣớng dẫn: PGS.TS. BÙI THỌ THANH 
 TS. BÙI MINH TRÍ 
 TS. NGUYỄN CÔNG VŨ 
Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên 
cứu cây trồng biến đổi di truyền. Công việc đƣợc tiến hành tại Trung Tâm Phân Tích 
Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ 
Thông Tin, Đại học Nông Lâm TP.HCM). 
Công việc đƣợc tiến hành chia ra nhiều giai đoạn: 
 Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên 
kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google 
và Scirus. 
 Khai thác thông tin trình tự trên GenBank tại NCBI bằng hai công cụ 
Entrez và BLAST. 
 Tổ chức thông tin dữ liệu với ngôn ngữ Perl. 
 Xử lý dữ liệu, tạo giao diện sử dụng khai thác dữ liệu cho ngƣời dùng 
với Biojava, công nghệ Java servlet và công cụ thiết kế web Frontpage, 
Dreamweaver. 
Kết quả tạo ra qui trình tìm trình tự gene mong muốn trên cơ sở dữ liệu trình tự 
chung GenBank và tạo đƣợc cơ sở dữ liệu riêng về các gene liên quan đến cây trồng 
biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho các nhà nghiên cứu trong 
lĩnh vực này. 
v 
SUMMARY 
“COLECTING AND ORGANIZING GENE DATA SERVES GENETIC 
MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG 
LE THANH in 9/2005. 
Supervisors: Assoc. prof. PhD. THANH BUI THO 
 PhD. TRI BUI MINH 
 PhD. VU NGUYEN CONG 
The purpose of this research is to collect, orgarnize gene data to surve research in 
genetic modified plant. The research was carried out at the Chemical and Biological 
Analysis and Experiment Center and the practical network department (in the 
Information Facuty at Nong Lam University). 
The process was devided in various phases as following: 
 Accessing articles about GM plants on the internet with two web search 
engines Google and Scirus. 
 Accessing comparing and selecting sequences of interest from the 
GenBank at NCBI with Entrez and BLAST tools. 
 Organizing data with Perl language. 
 Processing data, designing user interfaces with Biojava, Java Servlet 
technology in combination with Frontpage and Dreamweaver. 
The establishing database allows researchers in the related fields easily to access 
and satisfied with basic requirement in genetic research. 
vi 
MỤC LỤC 
Nội dung Trang 
Trang tựa ............................................................................................................................ ii 
Lời cảm ơn ......................................................................................................................... iii 
Tóm tắt ............................................................................................................................... iv 
Sumary ................................................................................................................................ v 
Mục lục .............................................................................................................................. vi 
Danh sách các chữ viết tắt .................................................................................................. x 
Danh sách các sơ đồ và bảng .............................................................................................. xi 
Danh sách các hình ........................................................................................................... xii 
PHẦN A: GIỚI THIỆU ................................................................................................... 1 
I. Đặt vấn đề ................................................................................................................. 1 
II. Mục đích của đề tài .................................................................................................. 2 
III. Yêu cầu của đề tài .................................................................................................... 2 
IV. Các giai đoạn tiến hành .............................................................................................. 3 
V. Giới hạn .................................................................................................................... 3 
PHẦN B: TỔNG QUAN TÀI LIỆU ............................................................................... 4 
I. GIỚI THIỆU VỀ SINH HỌC .................................................................................... 4 
I.1. Cơ sở sinh học về gene ........................................................................................ 4 
I.1.1. Thuật ngữ và quan niệm về gene ................................................................ 4 
I.1.2. DNA ở các sinh vật khác nhau .................................................................... 5 
I.1.2.1. Sự khác nhau giữa các phân tử DNA ................................................. 5 
I.1.2.2. Cấu trúc acid nucleic .......................................................................... 6 
I.1.3 Mã di truyền ................................................................................................. 8 
I.1.3.1. Thuật ngữ ............................................................................................ 8 
I.1.3.2. Từ điển mã di truyền ........................................................................... 8 
I.1.3.3. Ba đặc tính quan trọng của mã di truyền ............................................ 10 
I.1.4 Cấu trúc căn bản của một gene eukaryote .................................................... 12 
I.2. Cơ sở sinh học về chuyển gene ............................................................................ 13 
vii 
I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền ...................................... 14 
I.2.2. Các phƣơng pháp chuyển gene ................................................................... 14 
I.2.3. Những khó khăn trong chuyển gene ........................................................... 17 
I.2.4. Sản phẩm của kỹ thuật di truyền ................................................................. 18 
I.2.5. Tiềm năng của chuyển gene ........................................................................ 19 
I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật ......................... 19 
I.2.5.2. Các tính trạng mới (News traits)......................................................... 20 
I.2.5.3. Sự biểu hiện gene ................................................................................ 21 
I.2.6. Locus chuyển gene ...................................................................................... 22 
I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới .................................... 24 
II. GIỚI THIỆU VỀ BIOINFORMATICS ..................................................................... 28 
II.1. Khái niệm về Bioinformatics .............................................................................. 28 
II.2. Vài nét về các cơ sở dữ liệu Sinh học ................................................................ 29 
II.2.1. NCBI ......................................................................................................... 29 
II.2.2. EMBL......................................................................................................... 29 
II.2.3. DDBJ .......................................................................................................... 30 
II.3. Vài công cụ Bioinformatics hiện nay ................................................................. 31 
II.3.1. Readseq ...................................................................................................... 31 
II.3.2. BLAST ....................................................................................................... 31 
II.3.3. BLAT ......................................................................................................... 32 
II.3.4. ClustalW..................................................................................................... 32 
II.3.5. HMMER..................................................................................................... 32 
II.3.6. MEME/MAST ........................................................................................... 33 
II.3.7. EMBOSS .................................................................................................... 33 
II.4. Ngôn ngữ dùng trong Bioinformatics................................................................. 34 
III. CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ ........... 35 
III.1. Khái niệm về lập trình ....................................................................................... 35 
III.2. Ngôn ngữ Perl dùnh trong Bioinformatics ........................................................ 39 
III.2.1. Giới thiệu Perl ........................................................................................... 39 
III.2.2. Thành phần cơ bản trong Perl ................................................................... 39 
III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics ........ 50 
III.3.1. Biojava ...................................................................................................... 50 
viii 
III.3.2. Biojava và CSDL ...................................................................................... 50 
III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web .................. 51 
III.3.4. Chức năng cơ bản của servlet ................................................................... 52 
III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác ................ 53 
III.3.6. Sự xây dựng ứng dụng servlet .................................................................. 55 
PHẦN C: PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP TIẾN HÀNH ................................ 57 
I. PHƢƠNG TIỆN ........................................................................................................ 57 
I.1. Thiết bị ................................................................................................................. 57 
I.2. Thời gian và địa điểm xây dựng CSDL ............................................................... 57 
II. TÌM KIẾM DỮ LIỆU BÀI BÁO .............................................................................. 58 
II.1. Tìm kiếm tổng hợp tính trạng ............................................................................. 58 
II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO ........................................ 64 
III. TÌM KIẾM DỮ LIỆU TRÌNH TỰ ............................................................................ 66 
III.1. Tìm kiếm trình tự bằng Keyword ...................................................................... 66 
III.2. Tìm kiếm trình tự bằng Primer .......................................................................... 70 
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 82 
I. Kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học ...................................... 82 
II. Kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI ...................................... 82 
II.1. Kết quả tìm kiếm trình tự bằng keyword ............................................................ 83 
II.2. Kết quả tìm kiếm trình tự bằng Primer ............................................................... 84 
II.3. Dùng Perl xử lý kết quả thu đƣợc ....................................................................... 85 
II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp ........................... 85 
II.3.2. Tải trình tự ................................................................................................. 90 
III. Các kết quả thu đƣợc từ quá trình tải trình tự từ Genbank ........................................ 92 
IV. Tổ chức dữ liệu .......................................................................................................... 93 
IV.1. Cách thức tổ chức dữ liệu ................................................................................. 93 
IV.2. Tiến hành tổ chức, phân loại dữ liệu ................................................................. 94 
V. Java xử lý dữ liệu ....................................................................................................... 98 
V.1. Các yêu cầu đặt ra .............................................................................................. 98 
V.2. Xử lý yêu cầu bằng Java và Biojava .................................................................. 99 
V.3. Thiết kế giao diện ............................................................................................... 101 
V.4. Lập trình hiển thị giao diện sử dụng .................................................................. 104 
ix 
VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc .............................................. 108 
PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................. 118 
I. Kết luận ...................................................................................................................... 118 
II. Đề nghị ....................................................................................................................... 119 
TÀI LIỆU THAM KHẢO ................................................................................................ 121 
Phụ lục A ............................................................................................................................ 126 
Phụ lục B ............................................................................................................................ 139 
Phụ lục C ............................................................................................................................ 152 
Phụ lục D ............................................................................................................................ 173 
Phụ lục E ............................................................................................................................. 197 
x 
DANH SÁCH CÁC CHỮ VIẾT TẮT 
 A adenine 
 API application programing interface 
 BLAST Basic Local Alignment Search Tools 
 BLAT BLAST-Like Alignment Tool 
 C cytosine 
 CDS coding sequence 
 CGI common gateway interface 
 CIB the Center for Information Biology 
 CSDL Cơ sở dữ liệu 
 DDBJ DNA Data Bank of Japan 
 DNA deoxyribonucleic acid 
 EBI the European Bioinformatics Institute 
 EMBL the European Molecular Biology Laborary 
 EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase 
 E-value expected value 
 G guanine 
 gi GenInfo Indentifier 
 Gln Glutamine 
 GM plant Genetic modified plant 
 GMO Genetic modified organism 
 HTML hypertext markup language 
 HTTP hypertext transfer protocol 
 ID identify 
 J2EE Java 2 Enterprise Edition 
 JDBC Java Database Connectivity 
 JSP JavaServer page 
 Met methionine 
 mRNA messenger ribonucleic acid 
 NCBI the National Center for Biotechnology Information 
 NIG the National Institute of Genetics 
 NIH the National Institutes of Health 
 NLM the Nation Library of Medicine 
 NOS noplaine synthase 
 Phe phenylalanine 
 RNA ribonucleic acid 
 SQL Structure Query Language 
 STDIN standard input 
 T thymine 
 T-DNA transfer DNA 
 tRNA tranfer ribonucleic acid 
 Trp tryptophan 
 U uracil 
xi 
DANH SÁCH CÁC SƠ ĐỒ VÀ BẢNG 
 Bảng Trang 
PHẦN A 
PHẦN B 
Bảng 1.1: Một số loài đã đƣợc chuyển gene .................................................................... 19 
Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng ............. 24 
Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST ...................................................... 31 
Sơ đồ 3.1: Sơ đồ một ứng dụng phần mềm...................................................................... 54 
Sơ đồ 3.2: Cấu trúc của một ứng dụng Servlet (Servlet Application) ............................. 56 
Sơ đồ 3.3: Một cấu trúc phổ biến hơn của một server application .................................. 56 
PHẦN C 
Sơ đồ 2.1: Quy trình tìm kiếm thông tin sinh học ........................................................... 58 
Bảng 2.1: Địa chỉ những phƣơng tiện tìm kiếm trên Internet .......................................... 59 
PHẦN D 
Sơ đồ 4.1: Mô hình tổ chức một hệ thống ứng dụng ....................................................... 93 
xii 
DANH SÁCH CÁC HÌNH 
 Hình Trang 
PHẦN A 
PHẦN B 
Hình 1.1: Sự biểu hiện thông tin di truyền. ................................................................. 4 
Hình 1.2: Cấu trúc xoắn kép DNA .............................................................................. 6 
Hình 1.3: Cấu trúc của các base pyrimidine và purine. ............................................... 6 
Hình 1.4: Cấu trúc của Oligonucleotide ...................................................................... 7 
Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. ................................................. 8 
Hình 1.6: Sao chép và dịch mã .................................................................................... 9 
Hình 1.7: Mã di truyền của nhân (các codon của mRNA) .......................................... 9 
Hình 1.8: Mã di truyền ty thể ngƣời ............................................................................ 10 
Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) .................................... 11 
Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene) ............................................. 12 
Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn ....................................... 13 
Hình 1.12: Gắn gene chuyển vào vector (Plasmid) ..................................................... 13 
Hình 1.13: Plasmid dùng trong chuyể