Trong những năm qua, sinh học không ngừng phát triển và đã tạo ra những kho dữ liệu miễn phí và trực tuyến rất lớn về trình tự gene, protein, bộ gene . của thực vật lẫn động vật như các cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj . Một trong những CSDL lớn đó là ESTs (Expressed Sequence Tags), trong đó có ESTs của chi cam chanh (citrus). Những trình tự ESTs này có thể được sử dụng để khai thác các SSRs (Simple Sequence Repeats).
71 trang |
Chia sẻ: vietpd | Lượt xem: 1481 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
************
KHÓA LUẬN TỐT NGHIỆP
KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE
TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT
TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE
REPEATS)
Ngành học: CÔNG NGHỆ SINH HỌC
Niên khóa: 2003-2007
Sinh viên thực hiện: LƢU TRẦN CÔNG HUY
Thành phố Hồ Chí Minh
Tháng 9/2007
ii
LỜI CẢM ƠN
Xin gửi lòng biết ơn sâu sắc đến ba mẹ và gia đình đã hết lòng hỗ trợ, động viên về
mọi mặt để tôi hoàn thành đề tài.
Xin chân thành cảm tạ
Ban Giám hiệu Trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh
Ban chủ nhiệm Bộ Môn Công nghệ Sinh Học cùng tất cả quý thầy cô đã
truyền đạt kiến thức cho tôi trong suốt quá trình học tại trƣờng.
Chân thành cảm ơn
TS. Trần Thị Dung đã tận tình hƣớng dẫn, giúp đỡ tôi trong suốt thời gian
thực hiện đề tài tốt nghiệp.
Xin cảm ơn CN. Lƣu Phúc Lợi đã giúp đỡ, hỗ trợ kiến thức và tài liệu chuyên môn.
Xin cảm ơn bạn bè thân yêu của lớp DH03SH đã chia sẻ cùng tôi những vui buồn
trong thời gian học cũng nhƣ hết lòng hỗ trợ, giúp đỡ tôi trong thời gian thực hiện
đề tài.
Tp. Hồ Chí Minh tháng 08 năm 2007
Sinh viên thực hiện
Lƣu Trần Công Huy
iii
TÓM TẮT KHOÁ LUẬN
LƢU TRẦN CÔNG HUY, Đại Học Nông Lâm TP. Hồ Chí Minh, tháng
07/2007. “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở
CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN
TỬ SSR (SIMPLE SEQUENCE REPEATS)”
Hội đồng hƣớng dẫn
TS. Trần Thị Dung
Cử Nhân. Lƣu Phúc Lợi
Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học, trƣờng đại học
Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2007 đến 8/2007.
Trong những năm qua, sinh học không ngừng phát triển và đã tạo ra những
kho dữ liệu miễn phí và trực tuyến rất lớn về trình tự gene, protein, bộ gene ... của
thực vật lẫn động vật nhƣ các cơ sở dữ liệu sinh học lớn nhƣ NCBI, EMBL,
DDBj…. Một trong những CSDL lớn đó là ESTs (Expressed Sequence Tags), trong
đó có ESTs của chi cam chanh (citrus). Những trình tự ESTs này có thể đƣợc sử
dụng để khai thác các SSRs (Simple Sequence Repeats). Những SSRs này rất hữu
ích vì chúng có rất nhiều ứng dụng nhƣ genome mapping, phenotype mapping và
chọn giống thực vật nhờ marker phân tử. Hơn thế nữa, việc phát triển marker SSR
từ EST có chi phí rất thấp so với phƣơng pháp phân lập SSR truyền thống.
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện những nội dung nhƣ
sau:
1) Dùng Perl script để thu nhận trình tự các nucleotide của ESTs của Citrus
vừa tìm từ trang cơ sở dữ liệu GenBank NCBI.
2) Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.
3) Tìm SSR nằm trên vùng gen kháng virus Tristeza
iv
4) Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của chi cam chanh (Citrus), và
tạo cơ sở dữ liệu chứa những trình tự này. Sau đó đƣa các dữ liệu này vào cơ sở dữ
liệu chính.
5) Trang web đƣợc thiết kế để chia sẻ thông tin trực tuyến với ngƣời dùng
Kết quả
Thu nhận đƣợc 191.110 trình tự ESTs của các loài Citrus đƣợc thu thập từ
CSDL dbEST và CoreNucleotide của GenBank. Những trình tự ESTs này đƣợc tìm
các vùng lặp lại, từ đó xác định đƣợc 28.241 SSRs trong 190412 ESTs . 19755
primers đƣợc thiết kế trên vùng flanking của các SSRs. Các primers này đã đƣợc
kiểm tra sự lặp lại và sự bắt cặp đặc hiệu bằng BLAST. Cơ sở dữ liệu có 28241
trình tự SSRs đƣợc chuyển vào CSDL quan hệ và tích hợp vào website BUILDING
SSRs DATABASE of Citrus. Sau khi đƣợc loại bỏ các trình tự tạp, nhiễu và dấu
các trình tự ở các bào quan, trình tự lặp lại và trình tự vector, các trình tự ESTs
đƣợc phân nhóm thành 2 nhóm Contigs và Singletons. Việc nhóm các trình tự giúp
ích cho việc giảm bớt các trình tự dƣ thừa, kéo dài các EST-SSR và xác định các
trình tự bảo tồn. Kết quả là thêm 1071 primers đƣợc thiết kế cho các EST-SSR đƣợc
kéo dài. Ngoài ra, chúng tôi cũng xác định đƣợc 33 EST-SSRs tƣơng đồng gene
kháng virus Tristeza bằng công cụ BLAST với ngƣỡng e-value = 10-10
v
ABSTRACT
LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING
FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN
EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS
Supervisor:
Dr Trần Thị Dung
Bsc Lƣu Phúc Lợi
The research was carried out at the department of biotechnology at Nong
Lam University.
Recent advances in genomic technologies have generated a vast amount of
publicly available expressed sequence tags (ESTs) in Citrus. These data can be
mined to identify Simple sequence repeats (SSRs) or microsatellites. These SSRs
are useful because of a broad range of application, such as genome mapping and
characterization, phenotype mapping, marker assisted selection of plant breeding,
additional map-based cloning of important genes. Moreover, this method of
developing SSR marker from ESTs is inexpensive comparing to the traditional
methods.
Methodology
1) We used perl script to receive EST sequences from database NCBI
2) Finded and separated SSRs include in ESTs database
3) We were learning about relationship database model to used to saved
nucleotide, SSRs citrus sequences data and created database contain them.
4) Finding SSR which are homologous with tristeza virus resistance gene.
5) Designed web that contain database control software to share information
with users
Results:
28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing
191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank.
19,755 primers, which were filtered with repetition checking and BLAST checking,
vi
were designed in flanking regions of SSRs. These data were put into relational
database and integrated SSR finder tool into the BUILDING SSRs DATABASE of
Citrus Website. After cleaning, masking repeat, vector and organelle sequences, the
EST-SSR sequences and the related EST sequences without SSRs were assembled
into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer
designed and to develop consensus sequences. As a result, more 1071 primers were
design for these enlarged EST-SSRs. Using a stringent BLAST search with a
threshold e-value = 10
-10
against typical pathogen resistance gene database in
Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus
resistance gene.
vii
Mục Lục
LỜI CẢM ƠN .................................................................................................... iii
TÓM TẮT KHOÁ LUẬN ................................................................................. iv
ABSTRACT ...................................................................................................... vi
DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................ xi
Chƣơng 1 ............................................................................................................ 1
MỞ ĐẦU ............................................................................................................. 1
1.1 Đặt vấn đề
1.2.Mục tiêu của khóa luận
Chƣơng 2 ............................................................................................................ 3
TỔNG QUAN TÀI LIỆU ................................................................................... 3
2.1 Giớ thiệu về chi cam chanh ........................................................................... 3
2.1.1 Vị trí phân lọai ........................................................................................... 3
2.1.2 Đặc điểm .................................................................................................... 4
2.1.3 Sâu hại và bệnh tật .................................... 6
2.2 EST ............................................................................................................... 7
2.3.1 Sơ lƣợc về EST .......................................................................................... 7
2.3.2 Nguồn gốc của EST ................................................................................... 7
2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) ............................................. 8
2.3.1Những khái niệm về kỹ thuật microsatellite ............................................... 8
2.3.2 Giới thiệu chung ......................................................................................... 9
2.3.2.1 Tính chất .................................................................................................. 9
2.3.2.2 Khuếch đại của microsatellites ............................................................. 10
2.3.2.3 Những giới hạn của microsatellite ........................................................ 11
2.3.3 Các loại microsatellite ............................................................................. 12
2.3.4 Cơ chế hình thành microsatellite ............................................................. 12
viii
2.3.5 Vai trò của microsatellite ......................................................................... 13
2.4 Phƣơng pháp xác định microsatellite truyền thống..................................... 15
2.5 Phƣơng pháp phát hiện microsatellite sử dụng ........................................... 16
2.6 Ứng dụng ..................................................................................................... 18
2.7 Cơ sở dữ liệu sinh học ................................................................................. 18
2.7.1 NCBI ........................................................................................................ 19
2.7.1.1 Vài nét về NCBI .................................................................................... 19
3.1.1.2 Một số cơ sở dữ liệu trong NCBI .......................................................... 19
Chƣơng 3 ......................................................................................................... 20
VẬT LIỆU VÀ PHƢƠNG PHÁP .................................................................... 20
3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng............................. 20
3.1.1 Hệ điều hành ............................................................................................ 20
3.1.2 Các chƣơng trình phân tích trình tự ......................................................... 20
3.1.2.1 Chương trình Perl ssrfinder_1 .................................................. 20
3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST .................. 22
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS ..................................... 23
3.1.2.4 Egassembler .......................................................................................... 23
3.1.3 Apache web Server .................................................................................. 24
3.4 CÁC BƢỚC TIẾN HÀNH ......................................................................... 25
Chƣơng 4 .......................................................................................................... 37
KẾT QUẢ VÀ THẢO LUẬN .......................................................................... 37
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST ....................................... 37
4.2 Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler bao gồm các bƣớc sau:
........................................................................................................................... 38
4.2.1 Làm sạch trình tự ..................................................................................... 38
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors ........................... 39
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan .................................... 39
ix
4.3 Assembling .................................................................................................. 41
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder .............................. 42
4.4.1 BLASTn: ................................................................................................. 43
4.5.Thiết kế và kiểm tra primer ......................................................................... 45
4.6 tBLASTx ..................................................................................................... 48
4.7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng
truy xuất thông tin. ............................................................................................ 49
4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ
thông tin qua mạng. .......................................................................................... 49
4.8.1 Trang chủ (HOME PAGE) ...................................................................... 49
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) ................................................. 50
Chƣơng5 ........................................................................................................... 52
KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................... 52
5.1. Kết luận ...................................................................................................... 52
5.2. Đề nghị ....................................................................................................... 53
TÀI LIỆU THAM KHẢO ................................................................................. 54
Phụ Lục ............................................................................................................. 57
x
DANH SÁCH CÁC TỪ VIẾT TẮT
BLAST Basic Local Alignment Search Tool
CGI Common Gateway Interface
CSDL Cơ sở dữ liệu
DBD Database Driver
DBI Database Interface
DNA deoxyribonucleic acid
EST Expressed Sequence Tag
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI the National Center for Biotechnology Information
NIG the National Institute of Genetics
NIH the National Institutes of Health
NLM the Nation Library of Medicine
Perl Practical Extraction and Report Language
PHP Hypertext Preprocessior
RDBMS Relational Database Management System
SNP Single Nucleotide Polymorphism
SSCP Single- Strand Conformation Polymorphism
SSR Simple Sequence Repeats
STS Sequence Tagged Site
xi
DANH SÁCH CÁC BẢNG
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI .................. 26
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI ............................ 26
Bảng 3.3 Nội dung tblStrain ............................................................................. 34
Bảng 3. 4 Nội dung tblMotifLengthGroup ....................................................... 34
Bảng 3.5 Nội dung tblSSR ................................................................................ 34
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI ....................... 37
Bảng 4.2 Số trình tự bị lọai bỏ ở bƣớc 2.1 ....................................................... 38
Bảng 4.3 số trình tự bị lọai bỏ ở bƣớc 2.3 ....................................................... 39
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 ....................................................... 39
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling ................ 41
Bảng 4.6 Tổng số lƣợng SSRs thu nhận đƣợc .................................................. 42
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành ..................... 43
Bảng 4.8 Tổng số primer thiết kế đƣợc ............................................................. 45
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra ............................................ 45
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza.................... 48
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu ..................................... 50
Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu ................................................ 51
xii
DANH SÁCH CÁC HÌNH
Hình 2.1. CTV dƣới KHV điện tử ..................................................................... 6
Hình 2.2: Nguồn gốc của EST ............................................................................ 8
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân ................................................. 12
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã ............................................. 13
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống .......................... 16
Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH) ...... 19
Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn
www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) ............................ 27
Hình 3.2 : Các bƣớc thực hiện của Egassembler .............................................. 29
Hình 3.3 phân biệt giữa Contig và Singleton .................................................... 30
Hình 3.4 nội dung tập tin “ssrout20030101.txt” ............................................... 31
Hình 3.5 nội dung tập tin “labdbout20030101.txt” ........................................... 31
Hình 3.6 Nội dung tập tin “new_ids20030101.txt” ......................................... 32
Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn:
india.org/ssr/ssr.htm) ......................................................................................... 36
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài .......................................... 37
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu ................... 40
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs ............................................... 41
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu ... 42-43
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới ............ 44
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra .................... 46
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc .............. 47
Hình 4.8 : Mối quan hệ giữa các bảng .............................................................. 49
Hình 4.9: Tổng quan về Website ...................................................................... 49
Hình 4.10 Trang cơ sở dữ liệu SSRs (All) ........................................................ 50
Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif
Length Group ID” là 3 ...................................................................................... 51
Chƣơng 1
MỞ ĐẦU
1.1 Đặt vấn đề
Công tác bảo tồn chọn giống ngày càng cần thiết do quá trình thoái hóa diễn
ra ngày càng nhanh và phức tạp vì vậy đòi hỏi phải có nhiều công cụ, phƣơng pháp
đắc lực hỗ trợ. Hiện nay, SSR đã và đang là 1 trong những công cụ đắc lực phục vụ
cho qui trình này việc phát triển maker SSR rất cần thiết
Tình hình bệnh ở cây trồng diễn biến ngày càng phức tạp, nghiêm trọng.
Chúng ta phải sử dụng các lọai marker khác nhau để chuẩn đoán, phát hiện bệnh
sớm nhằm tìm biện pháp khắc phục.Hiện nay, maker có độ tin cậy cao nhất là
Microsatellite.
SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay
thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm.
Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có
chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có và ta có thể sử
dụng miễn phí
Lƣợng trình tự EST đƣợc giải mã và công bố ngày càng nhiều, tính đến nay
có khỏang 46159508 trình tự EST đƣợc công bố (theo NCBI)
Hiện nay các cây thuộc họ chi cam chanh đƣợc quan tâm nghiên cứu nhiều
do những giá trị mà nó mang lại nhƣ giá trị thƣơng phẩm, dƣợc phẩm…
1.2.Mục tiêu