Đề tài Giải pháp sắp xếp chuỗi gen sử dụng cây hậu tố

Trong thời đại khoa học công nghệ phát triển như vũ bão, nhất là lĩnh vực sinh học phân tử, hiện nay, các nhà sinh học đang phải làm việc với một lượng dữ liệu sinh học khổng lồ. Dường như những thao tác xử lý dữ liệu bằng tay trở nên không tưởng, điều này chính là nguyên nhân chủ yếu thúc đẩy sự ra đời của Tin sinh học, một ngành khoa học mới kết hợp giữa Khoa học máy tính và Sinh học phân tử như là một qui luật tất yếu của sự phát triển.

51 trang | Chia sẻ: vietpd | Lượt xem: 1854 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Đề tài Giải pháp sắp xếp chuỗi gen sử dụng cây hậu tố, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Nguyên Tùng GIẢI PHÁP SẮP XẾP CHUỖI GEN SỬ DỤNG CÂY HẬU TỐ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Nguyên Tùng GIẢI PHÁP SẮP XẾP CHUỖI GEN SỬ DỤNG CÂY HẬU TỐ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán bộ hướng dẫn: TS Lê Sỹ Vinh Cán bộ đồng hướng dẫn: TS Bùi Thế Duy HÀ NỘI – 2006 Mở đầu Trong thời đại khoa học công nghệ phát triển như vũ bão, nhất là lĩnh vực sinh học phân tử, hiện nay, các nhà sinh học đang phải làm việc với một lượng dữ liệu sinh học khổng lồ. Dường như những thao tác xử lý dữ liệu bằng tay trở nên không tưởng, điều này chính là nguyên nhân chủ yếu thúc đẩy sự ra đời của Tin sinh học, một ngành khoa học mới kết hợp giữa Khoa học máy tính và Sinh học phân tử như là một qui luật tất yếu của sự phát triển. Cho đến nay, thành tựu quan trọng nhất của Tin sinh học là thành công của dự án giải mã bộ gen người (được tạo thành bởi trên 3 tỉ cặp cơ sở). Đây là một bước tiến đáng kể trong quá trình con người tìm hiểu về chính bản thân mình, công trình này có ý nghĩa vô cùng quan trọng, nó hứa hẹn tìm ra các phương pháp chữa bệnh mới có khả năng chữa được hầu hết các căn bệnh nan y hiện nay. Đồng thời, nó cũng là một nền tảng vững chắc cho các nghiên cứu về gen sau này. Đặc biệt là nghiên cứu về sắp xếp các chuỗi gen để tìm ra mối quan hệ tiến hóa giữa chúng. Ngày nay, khi xã hội ngày càng phát triển, con người càng có nhu cầu tìm hiểu về nguồn gốc của mình, về tổ tiên xa xưa của chúng ta, về những loài động vật có mối liên hệ gần với loài người nhất. Những thắc mắc này phần nào có thể được giải quyết thông qua các nghiên cứu về sắp xếp chuỗi sinh học, từ đó tìm ra mối quan hệ tiến hóa giữa 2 chuỗi gen của hai loài đó với nhau. Khóa luận của tôi trình bày về ứng dụng của cây hậu tố trong vấn đề sắp xếp chuỗi sinh học nhằm tăng tốc độ sắp xếp so với phương pháp quy hoạch động truyền thống mà vẫn giữ được độ chính xác trong sắp xếp. Cấu trúc của khóa luận này gồm có 4 chương. Chương thứ nhất sẽ giới thiệu tổng quan về Tin sinh học và các khái niệm chủ đạo của nó như DNA, RNA, protein. Chương hai trình bày về sắp xếp hai chuỗi sinh học và đề cập đến phương pháp sắp xếp sử dụng biểu đồ điểm, sau đó giới thiệu thuật toán sắp xếp loại I, đây là thuật toán quy hoạch động sẽ được dùng để so sánh với thuật toán sử dụng cây hậu tố sẽ được trình bày ở Chương ba. Chương ba sẽ đi chi tiết vào bài toán sắp xếp chuỗi sinh học bằng cách tìm ra các Maximal Unique Match (MUM) sử dụng các phương pháp Brute-force, k-mers và phương pháp sử dụng cây hậu tố. Chương bốn tôi sẽ đưa ra đánh giá về các kết quả thực nghiệm khi sử dụng phương pháp quy hoạch động và phương pháp sắp xếp sử dụng cây hậu tố. Cuối cùng là phần kết luận và định hướng phát triển trong tương lai của khóa luận. Tin sinh học là một vấn đề mới mẻ, đã và đang được nghiên cứu trên thế giới nói chung và ở Việt Nam nói riêng. Nó đặt ra những đòi hỏi về kiến thức đa dạng ở các lĩnh vực khoa học khác nhau cũng như quá trình nghiên cứu lâu dài và kỹ lưỡng. Do thời gian có hạn nên mức độ nghiên cứu của khóa luận này còn hạn chế. Tôi xin chân thành cảm ơn và mong muốn nhận được ý kiến đóng góp và bổ sung của bạn đọc. Lời cảm ơn Khóa luận này được hoàn thành với sự giúp đỡ nhiệt tình của các thầy cô giáo, bạn bè và những người thân trong gia đình. Trước hết, tôi xin chân thành cảm ơn tất cả các thầy cô giáo, đặc biệt là các thầy cô giáo trường Đại học Công nghệ - ĐHQGHN, đã cho tôi nhiều kiến thức bổ ích trong quá trình học tập tại trường. Tôi xin chân thành cảm ơn TS. Hà Quang Thụy, ngươi đã định hướng cho tôi đến với Tin sinh học. Tôi cũng xin bày tỏ lòng biết ơn đến TS. Lê Sỹ Vinh, TS. Bùi Thế Duy đã tận tình chỉ bảo và hướng dẫn trực tiếp cho tôi trong quá trình hoàn thành khóa luận. Tôi xin chân thành cảm ơn anh Vũ Hồng Khiêm và các bạn bè đã giúp đỡ tôi rất nhiều về tài liệu cũng như kiến thức bổ ích và cần thiết về lĩnh vực Tin sinh học. Cuối cùng, tôi xin chân thành bày tỏ lòng biết ơn tới gia đình và toàn thể bạn bè đã động viên và giúp đỡ tôi hoàn thành bản khóa luận này. Tóm tắt nội dung của khóa luận tốt nghiệp Khóa luận của tôi đề cập về vấn đề sắp xếp chuỗi gen sử dụng cây hậu tố nhằm tối ưu tốc độ sắp xếp mà vẫn giữ được kết quả sắp xếp so với phương pháp sử dụng quy hoạch động. Nội dung khóa luận được phân ra làm 5 phần chính. Trong Phần đầu tiên tôi sẽ trình bày tổng quan về Tin sinh học và các khái niệm chủ đạo của nó như DNA, RNA, protein.... Phần thứ hai tập trung vào một số phương pháp sắp xếp chuối gen như phương pháp biểu đồ điểm và phương pháp sắp xếp loại I, đặc biệt đi sâu tìm hiểu thuật toán sắp xếp loại I, đây là một thuật toán quy hoạch động chuẩn sẽ được sử dụng để so sánh kết quả sắp xếp với phương pháp sử dụng cây hậu tố sẽ được trình bày ở phần thứ ba. Phần ba là phần giải quyết vấn đề sắp xếp chuỗi sinh học bằng cách tìm ra các Maximal Unique Match (MUM) sử dụng các phương pháp Brute-force, k-mers và phương pháp sử dụng cây hậu tố. Phần thứ tư tôi sẽ đưa ra đánh giá về các kết quả thực nghiệm khi sử dụng phương pháp quy hoạch động và phương pháp sắp xếp sử dụng cây hậu tố. Phần cuối cùng đưa ra kết luận và định hướng phát triển trong tương lai của khóa luận. Mục lục Chương 1: Tổng quan về Tin sinh học Giới thiệu về Tin sinh học Công nghệ sinh học ngày nay rất phát triển và đã tạo ra một khối lượng dữ liệu khổng lồ, bởi vậy thật không tưởng nếu chúng ta thực hiện phân tích dữ liệu bằng tay. Do đó việc kết hợp các khoa học khác như: toán học, thống kê, thuật toán và khoa học máy tính vào công nghệ sinh học là rất cần thiết[8]. Và Tin sinh học(Bioinformatics) ra đời nhằm giải quyêt vấn đề trên. Thuật ngữ “BioInformatics” được tạo thành bởi cụm từ “Bio” là tương ứng với “Molecular Biology” nghĩa là sinh học phân tử còn “Informatics” thì tương đương với “Computer science” chính là khoa học máy tính. Ngoài ra Computational biology, Computational molecular biology, Biocomputing cũng đồng nghĩa với “BioInformatics”[1]. Vậy Tin sinh học là gì? Thông thường người ta định nghĩa: “Tin sinh học mô tả bất kì công dụng nào của máy tính để xử lý thông tin sinh học”, tuy nhiên trong thực tế định nghĩa được sử dụng rộng rãi nhất lại cụ thể hơn: “Tin sinh học là các công dụng của máy tính trong việc mô tả các phân tử sinh học cấu thành nên động vật sống ”[4]. Hầu hết các nhà sinh học khi nói về “nghiên cứu tin sinh học” họ nghĩ ngay đến việc sử dụng máy tính để lưu trữ, tìm kiếm, phân tích và dự đoán thành phần cấu tạo hay cấu trúc của phân tử sinh học. Phân tử sinh học bao gồm genetic material, nucleic acids và sản phẩm của gen: proteins. Fredj Tekaia Thuộc viện Pasteur đã đưa ra một định nghĩa về Tin sinh học như sau: "Tin sinh học là sử dụng toán học, thống kê và khoa học máy tính để giải quyết các vấn đề về sinh học với DNA, chuỗi axit amin và các thông tin có liên quan". Một vấn đề rất hay được những người mới làm quen với tin sinh học quan tâm là tin sinh học có từ khi nào, câu trả lời phụ thuộc vào tài liệu mà bạn tìm đọc được. Trong [21] vấn đề này được nhắc tới như sau:" Khái niệm tin sinh học được sử dụng để chỉ tất cả các ứng dụng máy tính trong công nghệ sinh học, nhưng mãi cho đến giữa những năm 1980 nó mới bắt đầu được sử dụng nhiều trong việc phân tích dữ liệu chuỗi sinh học". Trong [12]lại nói rằng: "Khái niệm tin sinh học mới được đưa ra gần đây, nó chưa được nhắc tới trong bất kì tài liệu nào cho tới năm 1991...”. Tuy nhiên, một số nhà khoa học tiêu biểu như Margaret O. Dayhoff, Russell F. Doolittle, Walter M. Fitch and Andrew D. McLachlan,… đã xây dựng các cơ sở dữ liệu, đưa ra các thuật toán và khám phá mới trong sinh học bằng cách phân tích các chuỗi sinh học từ những năm 1960. Một số khái niệm trong sinh học phân tử Mọi cơ thể sống đều được cấu thành từ một lượng rất lớn các tế bào. Mỗi tế bào đảm nhận những chức năng, nhiệm vụ khác nhau hình thành nên một cơ thể sống hoàn thiện. Như vậy, có thể nói tế bào là đơn vị sống cơ bản cấu thành nên các cơ thể sinh vật khác nhau. Việc nghiên cứu cấu trúc, chức năng của tế bào là một nhiệm vụ vô cùng quan trọng của các nhà sinh vật học. Người ta đã biết được rằng, mỗi tế bào đều được cấu tạo gồm hạt nhân, ribôxom và nội bào[13]. Hạt nhân của tế bào chứa các nhiễm sắc thể đặc trưng cho mỗi tế bào đó. Nhiễm sắc thể lại được tạo thành bởi các axit nucleic và protein. Axit nucleic là những đại phân tử có cấu trúc đa phân, đơn phân của nó là các nucleotide. Axit nucleic được chia làm 2 loại là DNA(deoxyribonucleic acid), và RNA. Một thành phần rất quan trọng khác của tế bào là protein, được tạo ra từ các axit amin, là các thành phần thiết yếu của mọi cơ quan và hoạt động hóa học liên quan đến toàn bộ hoạt động của tế bào, chúng được biểu hiện thành những đặc điểm về cấu tạo và chức năng của tế bào, hay chính là những tính trạng của sinh vật. Giữa protein và DNA có quan hệ chặt chẽ với nhau, cụ thể là mỗi loại protein đều được xác định bởi một đoạn trên dãy DNA gọi là gen. Hình 1: Cấu trúc của Tế bào, DNA, Protein.[1] DNA,RNA và protein được coi là những khái niệm cốt tử trong sinh học phân tử. Vấn đề nghiên cứu cấu trúc, chức năng và mối quan hệ giữa chúng chính là nền móng cho sự hình thành và phát triển của sinh học phân tử ngày nay. Số lượng nhiễm sắc thể ở mỗi loài là khác nhau do đó tạo nên tính đa dạng giữa các loài Bảng 1: Một vài đặc tính gen của một số loài khác nhau[3] Loài Số nhiễm sắc thể Kích thước gen (Mb) Số gen Người 46 3,000 30,000–40,000 Bò 30 3,800 35,000 Chó 39 3,000 35,000 Cây lúa mì 42 16,000 50,000–75,000 Ngô 20 2,500 50,000 Đậu nành 40 1,100 50,000 Cây lúa 24 430 25,000 DNA Hình 2: DNA phân tử của sự sống[3] Vào năm 1944, Oswald Avery phát hiện ra DNA là một loại nguyên liệu thô chứa gen. Bắt nguồn từ phát hiện này, một vài nhóm nghiên cứu đã tập trung nghiên cứu về DNA, và các thành phần hóa học cấu thành. DNA là một phân tử được cấu tạo bởi đường, photphat và bốn nitrogenous bases: adenine, cytosine, guanine, và thiamine, được lần lượt viết tắt là A, C, G, và T. Sau này, các nhà khoa học quan niệm rằng bốn nitrogen bases này là các nucleotide, là cơ sở của mã di truyền. Vào năm 1953, hai nhà sinh vật học là J. Watson và F.Crick làm việc tại trường đại học Cambridge đã xây dựng thành công mô hình không gian của phân tử DNA(deoxyribonucleic acid), đánh dấu một bước ngoặt quan trọng trong sự phát triển của sinh học phân tử, theo mô hình này DNA là một đại phân tử sinh học có cấu trúc như một chuỗi xoắn kép gồm hai mạch đơn, mỗi mạch đơn là một chuỗi nucleotide. Mỗi nucleotide gồm nhóm phosphate, đường desoxyribose và một trong bốn thành phần lần lượt được biểu thị bởi các chữ cái A, C, G và T. Hai mạch đơn kết hợp với nhau nhờ các liên kết hydro hình thành giữa các thành phần bổ sung nằm trên hai mạch. A bổ sung cho T, C bổ sung cho G. Bảng 2: các nucleotide[23] DNA Adenine Guanine Cytosine Thymine A G C T/U RNA Adenine Guanine Cytosine Uracil Mỗi mạch đơn là một trình tự có định hướng với một đầu là đầu 5’ phosphate tự do còn đầu kia là đầu 3’ hydroxyl tự do (hướng quy ước là 5’-> 3’) . Hướng của hai mạch đơn trong chuỗi xoắn kép ngược nhau, người ta gọi chúng là hai mạch đối song song. Từ định nghĩa trên nảy sinh ra hai khái niệm cơ bản: Mỗi mạch đơn là một trình tự những thành phần khác nhau nên mỗi mạch đơn mang thông tin khác với mạch còn lại. Hai mạch đơn liên kết với nhau bởi một quan hệ bổ sung, chính quan hệ này giải thích được cấu trúc chặt chẽ của phân tử DNA và đặc biệt là cách tự sao chép để tạo ra hai phân tử con từ một phân tử mẹ. Hình 3: Cấu trúc xoắn kép DNA DNA đóng vai trò cơ bản trong quy trình của sự sống dưới ở 2 phương diện. Trước hết nó chứa khuôn mẫu cho sự tổng hợp proteins, điều này thiết yếu với bất kì sinh vật sống nào. Mặc dù có khá nhiều loại protein khá rộng lớn nhưng thành phần chung tạo nên protein chính là các axit amin. Mỗi axit amin trong 20 axit amin đó được mã hóa bởi một hoặc nhiều bộ ba nucleotides tạo nên DNA, cứ 3 nucleotide sẽ mã hóa 1 loại amino axid Dựa trên bảng dịch mã, một xâu DNA tuyến tính được dịch sang một xâu axit amin tuyến tính. Dưới đây là một ví dụ: ... Hình 4: Sơ đồ mã hóa amino axid[23] Vai trò thiết yếu đối với cuộc sống thứ 2 của DNA là bảo quản và truyền đạt thông tin về các loại protein trong cơ thể, nói cách khác nó lưu trữ thông tin di truyền của sinh vật. Trong cấu trúc của DNA, mỗi cặp sợi bổ sung cụ thể là (A-T và G-C) tạo thành một xoắn kép. Vì thế mỗi sợi mang toàn bộ thông tin và Bộ máy hóa sinh đảm bảo rằng thông tin có thể sao lại hết lần này đến lần khác ngay cả khi phân tử gốc đã biến mất từ lâu. Trong quá trình sao chép, sự thay đổi hay còn gọi là đột biến có thể xảy ra đối với chuỗi DNA. Phân loại đột biến rất quan trọng trong việc so sánh chuỗi dựa trên sự thay đổi, sự chèn nucleotide vào trong chuỗi và sự loại bỏ nucleotide ra khỏi chuỗi. Hoạt động sơ cấp được cho phép trong định nghĩa chuỗi tương tự là lựa chọn để các chuỗi trở nên tương ứng với nhau. Để hình dung mối quan hệ giữa 2 chuỗi tương tự ta có thể tham khảo ví dụ của sự sắp xếp sau: V-LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DL HAHU VHLTPEEKSAVTALWGKV--NVDEVGGEALGRLLVVYPWTQRFFESFGDL HBHU SH-----GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRV HAHU STPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHV HBHU DPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR HAHU DPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH HBHU Hai chuỗi axit amin được so sánh ở đây là chuỗi alpha và beta của hemoglobin người (lần lượt viết tắt là HAHUvà HBHU). Với chuỗi dài xấp xỉ 150 axit amin, mỗi khối dòng chứa một phần của chuỗi thứ nhất ở dòng trên và của chuỗi thứ 2 ở dòng dưới. Phần còn lại ở trên mỗi chuỗi trong một khối là tương đương. Một số được giữ lại (axit amin trong cột giống hệt nhau), và một số trao đổi và một phần của chuỗi bị xóa khỏi một chuỗi tương đương với việc chèn thêm vào chuỗi kia. Chèn và xóa được chỉ định bởi một cặp chữ cái với dấu gạch ngang. Sự sắp xếp là một hoạt động cần thiết để biến đổi một chuỗi thành chuỗi khác sử dụng cùng một hành động tương tự như sự tiến hóa. DNA có khả năng tự nhân đôi, quá trình này xảy ra chủ yếu bên trong nhân tế bào, tại các nhiễm sắc thể ở kì trung gian giữa hai lần phân bào. Trong giai đoạn này, chuỗi DNA tự tách ra thành hai chuỗi đơn, các chuỗi đơn kết hợp với nucleotide trong môi trường nội bào để tạo thành một chuỗi đơn mới theo nguyên tắc bổ sung. Sau đó, các chuỗi đơn ban đầu và chuỗi mới xoắn lại với nhau lại với nhau tạo thành 2 phân tử DNA giống hệt phân tử DNA gốc ban đầu. Trong quá trình DNA tách ra làm đôi, nó có thể bị tác động bởi các tác nhân hóa, lý làm thay đổi (mất đi, chèn thêm nucleotide) trên các chuỗi đơn. Như vậy DNA mới sinh sẽ không còn giống như DNA gốc, và những thay đổi này sẽ được biểu hiện ngay thành các tính trạng sinh vật từ thế hệ này sang thế hệ khác. Điều này giải thích cho quá trình tiến hóa không ngừng của sinh vật. Có một giả thuyết rất nổi tiếng đã được đưa ra là:”Tất cả các sinh vật đều có cùng một tổ tiên!”, tức là đều có chung nguồn gốc di truyền. Cách đây vài thập kỷ, người ta chỉ có thể hình dung ra DNA trong tưởng tượng tuy nhiên giờ đây ta có thể quan sát DNA một cách rất trực quan như hình 5: Hình 5: Hình ảnh về DNA[3] RNA Giống như DNA, RNA cũng có cấu trúc đa phân mà đơn phân là 4 loại nucleotide, tuy nhiên trong RNA nucleotide loại T (pyrimidine thymine) được thay thế bằng U (uracil). RNA tồn tại ở dạng chuỗi đơn và được phân chia làm 3 loại chính dựa trên chức năng của chúng: mRNA (RNA thông tin): là một mạch sao chép nguyên từ một mạch đơn của DNA trong đó T được thay bằng U và làm nhiệm vụ truyền đạt thông tin cấu trúc protein được tổng hợp. rRNA (RNA riboxom): là thành phần cấu tạo nên riboxom. tRNA (RNA vận chuyển): có chức năng vận chuyển amino axid tương ứng đến nơi tổng hợp protein. snRNA: có chức năng hỗ trợ việc ghép mã mRNA. gRNA: sử dụng để điều khiển việc thay đổi mRNA . RNA có thể liên kết với một dải đơn của một phân tử DNA, bằng cách thay T bằng U, và các phân tử kiểu này có vai trò quan trọng trong các quá trình sống và công nghệ sinh học.[1] C-G-A-T-T-G-C-A-A-C-G-A-T-G-C DNA | | | | | | | | | | | | | | | G-C-U-A-A-C-G-U-U-G-C-U-A-C-G RNA Hình 6: Hình ảnh về RNA[10] Protein Protein là một đại phân tử sinh học được hình thành từ 1 hay nhiều chuỗi polypeptide sắp xếp theo một thứ tự đặc biệt, thứ tự này được xác định bởi dãy cơ sở (peptide là một chuỗi nối tiếp nhiều axit amin với số lượng ít hơn 30, với số lượng axit amin lớn hơn chuỗi được gọi là polypeptide) được hình thành từ 20 loại axit amin khác nhau lần lượt được biểu thị bằng 20 kí tự khác nhau trong bảng chữ cái. Từ “protein” dùng để chỉ một cấu trúc phức tạp trong không gian chứ không đơn thuần chỉ là một trình tự axit amin. Các nucleotides trong gene mã hóa cho protein. Các proteins cần thiết cho cấu trúc, chức năng và điều chỉnh tế bào, mô và tổ chức, mỗi protein có một vai trò đặc biệt. Bảng 3: 20 axit amin[23] STT One-letter code Three-letter-code Name 1 A Ala Alanine 2 C Cys Cysteine 3 D Asp Aspartic Acid 4 E Glu Glutamic Acid 5 F Phe Phenylalanine 6 G Gly Glycine 7 H His Histidine 8 I Ile Isoleucine 9 K Lys Lysine 10 L Leu Leucine 11 M Met Methionine 12 N Asn Asparagine 13 P Pro Proline 14 Q Gln Glutamine 15 R Arg Arginine 16 S Ser Serine 17 T Thr Threonine 18 V Val Valine 19 W Trp Tryptophan 20 Y Tyr Tyrosine Bảng 4: thứ tự các nucleotide trong axit amin[3] First Position Second Position Third Position T C A G T Phe Ser Tyr Cys T Phe Ser Tyr Cys C Leu Ser Stop Stop A Leu Ser Stop Trp G C Leu Pro His Arg T Leu Pro His Arg C Leu Pro Gln Arg A Leu Pro Gln Arg G A Ile Thr Asn Ser T Ile Thr Asn Ser C Ile Thr Lys Arg A Met Thr Lys Arg G G Val Ala Asp Gly T Val Ala Asp Gly C Val Ala Glu Gly A Val Ala Glu Gly G Mỗi amino axid bao gồm một nguyên tử Cacbon trung tâm (Cα), một nhóm amino (NH2), một nguyên tử Hidro, một nhóm COOH và một gốc Ri liên kết trực tiếp với nguyên tử Cα. Gốc Ri là đặc trưng cho từng loại amino axid khác nhau. Hình 7: Liên kết peptit giữa các amino axid[13] Protein bao gồm bốn mức độ tổ chức: Cấu trúc bậc 1 là trình tự sắp xếp các axit amin trong chuỗi polypeptid, cấu trúc bậc 2 phát sinh từ sự uốn các thành phần của chuỗi polypeptid thành những cấu trúc đều đặn trong không gian( dạng xoắn α(alpha helix) hay lớp mỏng β(Beta sheets)). Cấu trúc bậc 3 quy định sự kết hợp các chuỗi xoắn hay lớp mỏng đó thành hình dạng ba chiều trong không gian. Cấu trúc bậc 4 là sự tổ chức nhiều chuỗi polypeptid thành một phân tử protein. DNA, RNA và quá trình tổng hợp protein Tổng hợp protein là quá trình tạo ra proteins dựa trên thông tin được mã hóa trong gen( là các đoạn mã đặc biệt của DNA có chức năng điều khiển cấu trúc và hoạt động của tế bào, là đơn vị chức năng của sự di truyền) gồm ba giai đoạn chính: (1) Transcription (phiên mã) (2) Splicing (ghép mã) (3) Translation (dịch mã)[1] có thể được mô tả như hình dưới Hình 8: Quá trình tổng hợp protein[1] Chương 2: Sắp xếp hai chuỗi sinh học Các chuỗi sinh học có thể được hiểu là dạng biểu diễn tuyến tính của các đại phân tử sinh học như axid nucleic (DNA, RNA) hay protein…Trong một chuỗi sinh học, các đơn phân của đại phân tử sinh học được ký hiệu bởi các chữ cái đại diện tương ứng. Như vậy, một chuỗi sinh học sẽ bao gồm một tập các chữ cái đại diện cho các phần tử đơn phân tương ứng. Chẳng hạn, đối với chuỗi sinh học của axid nucleic sẽ là một dãy các kí tự A,T,G,C xen kẽ lẫn nhau, đối với chuỗi sinh học của protein sẽ bao gồm 20 kí tự tương ứng với 20 loại axid amin khác nhau. Do DNA hay Protein đều có cấu trúc đa phân được cấu thành từ một số lượng rất lớn đơn phân, chính vì vậy các chuỗi sinh học cũng có kích