Bài giảng Tin sinh học đại cương - Chương 1: Giới thiệu về tin sinh học - Hồ Tú Bảo

31 trang ngocly 4890

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin sinh học đại cương - Chương 1: Giới thiệu về tin sinh học - Hồ Tú Bảo", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_tin_sinh_hoc_dai_cuong_chuong_1_gioi_thieu_ve_tin.pdf

Nội dung text: Bài giảng Tin sinh học đại cương - Chương 1: Giới thiệu về tin sinh học - Hồ Tú Bảo

Giớithiệu về tin sinh học Hồ Tú Bảo ViệnCôngnghệ Thông tin, TTKHTN&CNQG ViệnKhoa họcvàCôngnghệ Tiên tiếnNhậtbản(JAIST) 1 “The“The twotwo technologiestechnologies thatthat willwill shapeshape thethe nextnext centurycentury areare biotechnologybiotechnology andand informationinformation technology”technology” BillBill GatesGates “The“The twotwo technologiestechnologies thatthat willwill havehave thethe greatestgreatest impactimpact onon eacheach otherother inin thethe newnew millenniummillennium areare biotechnologybiotechnology andand informationinformation technologytechnology”” MartinaMartina McGloughlinMcGloughlin 2
Outline Khái niệmcơ bảncủasinhhọc ( Phân tử trong sự sống Gene và gene học Tin sinh họclàgì? Về một vài bài toán trong tin sinh học 3 “Sống”, Tạ Quang Bửu (1948) “ Một đêm tháng 10 năm 1910, một tế bào haploid (cùng một gamète với 24 chromosome) của cha tôi gặp một tế bào (cùng một gamète với 24 chromosome) của mẹ tôi. Hai tế bào ấy phối hợp với nhau thành một tế bào trứng với hai lần 24 chromosome. Tế bào này chẻ đôi sinh ra hai tế bào nữa, rồi hai sinh ra bốn, bốn sinh ra tám, v,v thành một khối tế bào. Khối tế bào này là tôi. Chín tháng sau tôi ra đời với những đặc điểm này: da đen, mắt hoe, chân ngắn như ông nội tôi; mồm rộng, vai ngang, tai nhỏ như bà ngoại tôi. Ngoài ra trong thân thể có chỗ thì giống ông ngoại, có chỗ giống bà nội tôi. Còn tính lười đặc biệt của tôi thì xem gia phả đến bậc ông cố nội ngoại cũng không thấy tông tích. Có lẽ phải lên xa nữa. Ba năm sau, cũng theo một loạt biến cố như trên, em tôi ra đời. Em tôi thì mồm rộng, da trắng, mắt hoe, chân dài. Những đặc điểm của nó cũng là những đặc điểm của hai gia đình chúng tôi, nhưng phân phối lại cách khác.” 4
Basic genetics Gene họccơ sở Phầnlớncủa 100 tỷ tế bào (cell) trong cơ thể con ngườicó sự sao chép củatoànbộ hệ gene (human genome), là toàn bộ thông tin di truyềncầnthiết để tạoracơ thể sống. Hạt nhân tế bào (cell nucleus) chứa DNA gói trong các cặp nhiễmsắcthể (chromosomes). DNA chứa gene, là mã củacơ thể và điềukhiểnmọikhía cạnh về phát triểnvàkế thừa củatế bào. Protein, tạoratừ amino acids, là các thành phầnthiết yếucủamọicơ quan (organs) và hoạt động hóa học. 5 Sinh vậtvàtế bào (1/2) Mọisinhvật đềugồmcáctế bào (cells). Mỗitế bào là một hệ thống phứctạpgồm nhiềukhốitạodựng (building blocks) khác nhau bọcbởicácmàng (membrane). Có khoảng 6x1013 tế bào trong cơ thể người, vớikhoảng 320 kiểu khác nhau, như tế bào da, cơ bắp, não (neurons), etc. Tế bàocókíchthước khác nhau: hồng cầucóđường kính chừng 0.005 mm còn neuron dài chừng 1 mét. Hai kiểusinhvậtvàtương ứng hai kiểutế bào, là kếtquả củanhững con đường tiến hóa khác nhau. Nhân chuẩn (Eukaryotes): cỏ, hoa, lúa mì, giun, ruồi, chuột, chó, mèo, người, nấm, men bia, etc. Nhân sơ (Prokaryotes): bacteria 6
Sinh vậtvàtế bào (2/2) Mỗitế bào nhân chuẩn đềugồm một nucleus (nhân), đượctách khỏiphầncònlạicủatế bào bởi mộtmàngngăn. Một đặctínhcơ bảncủamọitế bào sống là khả năng phát triển (to grow) trong mộtmôitrường thích hợpvàtrảiqua sự phân chia tế bào (cell division). Sự phân chia tế bào và biệtlậptế bào cần đượckiểmsoát. Khitế bào phát triển không đượckiểm soát có thể tạo thành các u (tumours) và ung thư. 7 Molecules of life Phân tử của sự sống 1. Small molecules 2. Proteins 3. DNA Biological macromolecules 4. RNA 8
Small molecules Tiểuphântử Có thể có các vai trò độclậphoặccóthể là các khối tạodựng củacácđạiphântử (macromolecules). Thí dụ như phân tử nước, đường, acids béo (fatty), amino acids và đơnphântử (nucleotides). Có 20 loại amino acids khác nhau, là các khốitạo dựng của proteins, mỗiloại đượckýhiệubởi mộtchữ cái Latin. 9 Proteins Protein là một đạiphântử tạothànhtừ mộthay nhiềudãy amono acids theo mộtthứ tự đặcbiệt; thứ tự này được xác định bởidãycơ sở (bazơ) các nucleotides trong gene mã hóa cho protein. Các proteins cầnthiếtchocấutrúc, chứcnăng và điềuchỉnh tế bào, mô và tổ chức, mỗi protein có mộtvaitròđặcbiệt. Vài thí dụ về proteins là: Protein cấutrúc(Structural proteins), có thể coi như các khốitạo dựng cơ sở củasinhvật. Enzymes, thựchiện(xúctác) mộtsố lớncácphản ứng sinh hóa học (biochemical reactions). Cùng vớicácphản ứng này và các đường chuyểnhóa(pathway) chúng tạorasự trao đổichất (metabolism). Protein màng (transmembrane proteins): chìa khóa củasự duy trì môi trường tế bào (cellular environment), điềuhòadung tíchtế bào, etc. Hormones, antibodies, etc. 10
Protein structures Cấu trúc protein Cấutrúcbậcmột (primary structure): Các dãy của 20 loạiamino acids khác nhau, nốivới nhau theo mộtthứ tự tuyếntínhbấtkỳ (poly-peptide chains). Độ dài củaphântử protein có thể thay đổitừ vài đếnnhiềungànamino-acids. Cấutrúcbậc hai (secondary structure): Là sự xoắngấp(folding) của dãy các amino acids. Có hai loạicấutrúcthường thấytrongcác dãy xoắngấp: alpha-helices (xoắn α) và beta-strands (dải β). Chúng đượchợpvới nhau mộtcáchđặctrưng bởicáccấutrúckémthông thường hơn (loops, vòng). 11 Protein structures Cấutrúcprotein Cấutrúcbậc ba (tertiary structure): Do xoắngấp, nhiềuphầncủa dãy phân tử protein có sự tiếp xúc (contact) với nhau, tạo ra nhiều lực hút và lực đẩygiữa chúng, tạochophântử có đượcmộtcấutrúc 3D tương đốibềnvững và cố định. Cấutrúcbậcbốn (quaternary structure): Mộtprotein cóthể được tạoratừ nhiềuhơnmột dãy amino-acids, và khi này nó đượcgọilà có cấutrúcbậcbốn. Thí dụ như haemoglobin đượctạoratừ bốndãy trong đómỗi dãy có khả năng bó lại(binding) mộtphântử iron. 12
Proteins The images below shows the structure of triosephosphate isomerase visualised by RasMol software package, a 3D viewer for MSD structures Kích thướcmộtprotein cóthể từ 3 đến 10 nanometers (nm), i.e., 3 đến 10 x tỷ mét (10-9 m), và tìm ra cấutrúc củachúnglàbàitoánkhóvàtốnkém(cầnkhoảng €50,000 - €200,000 để tìm ra mộtcấutrúcmới). 13 DNA (Deoxyribonucleic acid) DNA là phân tử mang thông tin chủ yếutrongmộttế bào. DNA có thể là xoắn đơn (single) hay xoắnkép(double) Phân tử DNA xoắn đơn là mộtdãycácđơnphântử (nucleotides), còn gọilàđa đơnphântử (polynucleotide). Bốn đơnphântử khác nhau chia thành hai nhóm, gọilà bazơ (bases): nhóm purines gồm adenosine (A) và guanine (G); nhóm pyrimidines gồmcytosine (C) và thymine (T). Các đơnphântử khác nhau có thể đượcnốivới nhau theo mọithứ tự dướidạng đa đơnphântử, như A-G-T-C-C-A-A-G-C-T-T 14
DNA (Deoxyribonucleic acid) Các cặp đơnphântử đặcbiệtcóthể tạonêncácliênkếtyếu (weak bonds) giữa chúng: A liên kếtvớiT, C liên kếtvớiG. Các cặp A-T và G-C gọilà các cặpcơ sở (base-pairs, bp) Khi hai dãy đa đơnphântử liên kết với nhau, chúng thường dính vào nhau, gọilàcácDNA xoắnkép (double helix). Hai dảinhư vậygọilàliên kết với nhau (complementary), và mỗidải có thể thu đượctừ dải kia bằng cách thay tương hỗ A vớiT, C vớiG, và đổihướng củaphântử theo chiều T-T-G-A-C-T-A-T-C-C-A-G-A-T-C ngượclại. A-A-C-T-G-A-T-A-G-G-T-C-T-A-G 15 DNA This structure was first figured out in 1953 in Cambridge by Watson and Crick 16
RNA (ribonucleic acid) RNA đượctạo thành từ đơnphântử như DNA. Tuy nhiên, RNA dùng U (uracil) thay vì T (pyrimidine thymine) là thành phần không có trong DNA (chỉ có dải đơn). RNA có nhiềuchứcnăng trong tế bào, như mRNA và tRNA là các kiếuchứcnăng khác nhau củaRNA, cầnthiếttrongsự tổng hợp protein. RNA có thể liên kếtvớimộtdải đơncủamộtphântử DNA, bằng cách thay T bằng U, và các phân tử kiểunàycóvaitrò quan trọng trong các quá trình sống và công nghệ sinh học. C-G-A-T-T-G-C-A-A-C-G-A-T-G-C DNA | | | | | | | | | | | | | | | G-C-U-A-A-C-G-U-U-G-C-U-A-C-G RNA 17 Genes and genomes (Gene và các hệ gene) 1. Chromosomes, genomes and sequencing (Nhiễmsắcthể, hệ gene, và sắpdãy) 2. Genes and protein synthesis (gene và tổng hợpprotein) 3. Gene prediction (đoán nhậngene) 4. Genome similarity and SNPs (sự giống nhau giữacáchệ gene và SNP) 18
Chromosomes, genomes and sequencing Nhiễmsắcthể, hệ gene, và sắpdãy Nhiễmsắcthể (chromosome): Mộthay một vài phân tử DNA xoắnképdàicótổ chức. Con người có 24 cặp nhiễmsắcthể. Chromasomal và mitochondrial DNA tạonênhệ gene (genome) củasinhvật. Mọisinhvật đềucóhệ gene, và ngườitatin rằng hệ gene mã hóa hầuhết thông tin di truyền củasinhvật. Mọitế bào củamộtsinhvật đềuchứacáchệ gene như nhau (identical genomes), vớirấtítngoạilệ,làkết quả cuả sự tái tạo DNA (DNA replication) khi tế bào phân chia. 19 Chromosomes, genomes and sequencing Nhiễmsắcthể, hệ gene, và sắpdãy Xác định dãy bốnchữ cái củamộtphântử DNA cho trướcgọilàsắpdãyDNA(DNA sequencing). Bộ gene củamộtvi khuẩn (a bacterium) đượcsắp dãy toàn bộ năm 1995. Bộ gene của (yeast) gđược sắpdãynăm 1997, giun (worm) năm 1999, ruồi(fly) năm 2000, và cỏ dại (weed) năm 2001. Việcsắp dãy toàn bộ hệ gene con người đượchoàn thành năm 2003, đượcbiếtnhư hệ gene người (human genome). Các hệ gene đềuchứagene, vàphầnlớn chúng mã hóa proteins. 20
Genes và sự tổng hợpprotein Genes là các đoạn đặcbiệtcủa DNA có chứcnăng điềukhiểncấutrúcvàhoạt động củatế bào; là đơn vị chứcnăng củasự di truyền. Để hiểurõhơnvề gene, ta cầnmôtả cơ chế tạora proteins dựa trên thông tin đượcmãhóatrong genes. Quá trình này đượcgọilàsự tổng hợp proteins, và gồmbagiaiđoạn chính: 1. Transcription (phiên mã) 2. Splicing (ghép mã) 3. Translation (dịch mã). 21 Tổng hợpprotein Một đoạn phân tử DNA được Bỏ đi vài mẩu của pre mRNA, gọi là introns, phần còn sao chép vào mRNA bổ sung lại, gọi là exons, sẽ được nối với nhau. Số lượng và (phiên mã) kích thước các introns và exons khác nhau rất đáng kể các genes cũng như giữa các chủng loại. Sự dịch mã là mộtquá trình phức tạpvànhiều chi tiếtchưa đượcbiết. Tạoproteins bằng cách nối các amino acids theo thứ tự đựợc mã hóa trong mRNA. Thứ tự của amino acids được xác định bởi3 đơnphântử kề nhau trong DNA, gọilàbộ ba hoặc mã di truyền (triplet or genetic code). Mỗibộ ba đượcgọilàcodon và mã cho một amino acid. 22
Bài toán đoán nhận gene Gene prediction problem Gene prediction: Cho mộtdãyDNA, hãynói gene ở đâu trong dãy này? Số genes đã được Phần của hệ gene mã hóa Sinh vật đoán nhận proteins (exons) E.Coli (bacteria) 5000 90% Yeast (men) 6000 70% Worm (giun) 18,000 27% Fly (ruồi) 14,000 20% Weed 25,500 20% Human 30,000 < 5% 23 Sự tương tự củahệ gene và SNFs Genome similarity and SNPs Mọihệ gene củangười đượcxemlàtương đương đến 99.9% và trung bình giữacáchệ genes củahaicáthể khác nhau cứ mộtnghìnđơnphântử chỉ có một khác nhau. Sự biếndạng trong các phần không mã hóa củahệ gene đượcphântíchđể để tạoracácdạng (patterns) tin cậy để phân biệtcácca thể. Các biếndạng đặcbiệtquantrọng trong hệ gene là đa đẳng đơnphântử (single nucleotide polymorphisms (SNP), có thể xuấthiệntrongcácphần được mã hóa hay không mã hóa trong hệ gene. SNPs là các biếndạng dãy DNA xuấthiệnkhi các cơ sở đơn(A,C,G, or T) được đan xen sao cho các cá thể khác nhau có các chữ cái khác nhau tạicácvị trí này. 24
Functional genomics (Gene họcchứcnăng) Gene họcchứcnăng (functional genomics) có thể được định nghĩa nôm na như việc dùng tri thứctiêu biểuvề hệ gene để tìm hiểuvề genes, về các chức năng sảnxuấtvàsự tương tác của chúng, và quan trọng hơnlàvìsaođiều này làm cho các sinh vật hoạt động. Gene functions (Chứcnăng gene) Protein abundance in a cell (Sự dư thừa protein trong tế bào) Gene regulation and networks (Điềukhiển gene và mạng gene) 25 Functional genomics Gene họcchứcnăng Dường như có mộthệ hạnchế các genes (a limited universe of genes) và proteins tương ứng của chúng. Từ quan điểmchức năng, rấtnhiều trong chúng có trong phầnlớnhoặctoànbộ hệ các genes. Sự dư thừaprotein(protein abundance) có thể phụ thuộcvào nhiềuyếutố như liệugene tương ứng có được thể hiện (expressed) (i.e., đượcsaochéptíchcực) hay không, đượcthể hiện nhanh và mạnh thế nào, đượcnối ghép, dịch chuyển, và thay đổi nhanh thế nào, etc. Thể hiệngene(gene expression) là quá trình qua đó thông tin mã hóa trong mộtgene đượctruyềnvàocấutrúcđang có trong tế bào và điềukhiểntế bào (hoặcproteinshoặc RNAs). Mộtcâuhỏiquantrọng và lý thú khác trong sinh họclàsự thể hiệngeneđược“bật” và “tắt” thế nào, tứclàcácgenes được điềuchỉnh thế nào. 26
Microarrays and gene expression databases Công nghệ microarray sử dụng nguồntạobởicácđề tài về hệ gene và các nỗ lựcvề dãy để trả lờicâuhỏicácgenes nào đượcthể hiệntrongmộtkiểutế bào đặcbiệtcủamột sinh vật, ở mộtthời điểm đặcbiệt, trong những điềukiện đặcbiệt. 27 Outline Khái niệmcơ bảncủasinhhọc Sinh tin họclàgì? Về một vài bài toán trong sinh tin học Bioinformatics: the machine learning approach, Pierre Baldi, Soren Brunak, MIT Press 2001 Bioinformatics basics: applications in biological sciences and medicine, Hooman H. Rashidi and Lukas K. Buehler, CRC Press, 2002 28
Human Genome Project Dự án về hệ gene người Mụctiêu(15 nămtừ 1990) Nhậnbiết (identify) toàn bộ chừng A New 30,000 genes trong DNA củacon người. Disease Xác định (determine) các dãy của3 tỷ Encyclopedia cặpcơ sở tạonênDNA củacon người. Lưutrữ (store) thông tin này trongcác New Genetic cơ sở dữ liệu. Fingerprint Genome Hoàn thiện (improve) các công cụ phân Health tích dữ liệu. Implication New Chuyểngiao(transfer) các công nghệ Diagnostics liên quan đến các doanh nghiệptư nhân. Đề cập (address) các vấn đề về đạo đức, luậtlệ, và xã hội(ELSI) cóthể nảysinh New từ đề tài. Treatments 29 History of the Human Genome Project Lịch sử củadự án hệ gene người 1953 1972 1977 1980 1982 1984 1985 1986 1987 Watson, Berg, Maxam, Botstein, Wada MRC Sinsheimer DOE begins Gilbert announces Crick 1st Gilbert, Davis, proposes to publishes hosts genome plans to start company DNA recombinant Sanger Skolnick build first large meeting to studies with to sequence and structure DNA sequence White automated genome discuss HGP $5.3 million copyright DNA; Burke, DNA propose to sequencing Epstein-Barrat UCSanta Olson, Carle develop map human robots virus (170 Cruz; YACs; Donis-Keller genome with kb) Kary Mullis publish first map (403 RFLPs develops markers) PCR 30
History of the Human Genome Project Lịch sử củadự án hệ gene người(tiếp) 1987 (cont) 1988 1989 1990 1991 1992 1993 1995 1996 Proposal Venter Hood NIH Hood, Venter Simon Collins is Yeast to sequence publishes produces supports the Olson, announces develops named genome is 20 Mb in first first HGP; Botstein strategy to BACs; US director sequenced (S. model sequence of automated Watson Cantor sequence and French of cerevisiae) sequencer; heads the propose organism by ESTs. He teams NCHGR; free-living Dupont project and using 2005; plans to publish first revise organism: devolops allocates STS’s to Lipman, patent physical plan to H. influenzae fluorescent part of the map the Myers partial maps of complete (1.8 Mb); dideoxy- budget to human publish the cDNAs; chromosome seq of Brown nucleotides study social genome BLAST Uberbacher s; first human publishes on and ethical algorithm develops genetic maps genome DNA arrays issues GRAIL, a of mouse and by 2005 gene finding human program genome published 31 History of the Human Genome Project Lịch sử củadự án hệ gene người(tiếp) 1997 1998 1999 2000 2001 2003 Blattner, SNP project NIH Celera and Celera Completely Plunket is initiated; proposes to others publishes sequenced complete E. rice genome sequence publish human human coli project is mouse Drosphila sequence in genome. sequence; a started; genome in 3 sequence Science; the capillary Venter years; first (180 Mb); HGP sequencing creates new sequence of human consortium machine is company chromosome chromosome publishes the introduced. called Celera 22 is 21 is human and proposes announced completely sequence in to sequence sequenced; Nature HG within 3 proposal to years; C. sequence elegans puffer fish; genome Arabadopsis completed sequence is completed 32
What is bioinformatics? Tin sinh họclàgì? Bio: Sinh học phân tử (Molecular Biology) Informatics: Khoa họctínhtoán Bioinformatics: Giải quyếtcácbàitoán sinh họcbằng việcsử dụng các phương pháp củakhoahọctínhtoán. Synonyms: Computational biology, Computational molecular biology, Biocomputing 33 Thay đổi trong sinh học Paradigm shift in biology MMộộtkitkiểểuthuthứứcmcmớớiiđđangang xu xuấấthithiệệnlàtnlàtấấtctcảảcáccác ‘genes’ ‘genes’ s sẽẽssớớmmđưđượợcc bibiếếththếết(theonght(theonghĩĩacótrongcáccacótrongcáccơơssởởddữữliliệệuuđđiệiệntntửử),), vàvà ngh nghĩĩalàalà đđiểiểmbmbắắttđđầầucucủủamamộộtkhtkhảảosátsinhhosátsinhhọọcscsẽẽlàlà lý lý thuy thuyếết.t. MMỗỗii nhà nhà khoa khoa hhọọcscsẽẽkhkhởởiiđđầầububằằngng m mộộttưướớccđđoánoán lý lý thuy thuyếếtt,, rrồồimimớớii chuy chuyểểnquanqua làmlàm thí thí nghi nghiệệmmđđểểtheotheo ho hoặặckickiểểmtragimtragiảảthuythuyếết.t. ĐĐểểdùngdùng dòng dòng ch chảảytriytri ththứứcc trên trên các các m mạạngng toàn toàn c cầầu,u, cáccác nhà nhà sinh sinh h họọcc khôngkhông nh nhữữngng ph phảảibiibiếếttdùngdùng máy máy tính tính,, màmà còn còn ph phảảiithaythayđđổổicáchicách titiếếpcpcậậncncủủamìnhamìnhđđốốivivớớii bài bài toán toán hi hiểểususựựssốống.ng. The new paradigm, now emerging, is that all the ‘genes’ will be known (in the sense of being resident in databases available electronically), The new paradigm, now emerging, is that all the ‘genes’ will be known (in the sense of being resident in databases available electronically), and that the starting point of a biological investigation will be theoretical. An individual scientist will begin with a theoretical conjecture, and that the starting point of a biological investigation will be theoretical. An individual scientist will begin with a theoretical conjecture, only then turning to experiment to follow or test that hypothesis. only then turning to experiment to follow or test that hypothesis. To use [the] flood of knowledge, which will pour across the computer networks of the world, biologists not only must become computer To use [the] flood of knowledge, which will pour across the computer networks of the world, biologists not only must become computer literate, but also change their approach to the problem of understanding life. literate, but also change their approach to the problem of understanding life. WalterWalter Gilbert. Gilbert. 1991. 1991. Towards Towards a a paradigm paradigm shift shift in in biology. biology. Nature Nature, ,349:99. 349:99. 34
Base Pairs in GenBank 10,267,507,282 bases in 9,092,760 records. 35 Public databases 36
Mở rộng các khái niệmcủa Tin sinh học Xác định và đặctrưng chức Gene học (genomics) năng của genes. Gene họcchứcnăng Gene họccấutrúc Nghiên cứuthể hiện gene ở mọi Protein học (Proteomics): mứccủaprotein bởi đồng nhấtvà Phân tích proteins củamột đặttrưng proteins có trong các sinh vật ở nhiềumức(large mẫusinhhọc. scale) Dùng thông tin về gene để dự Gene dượchọc đoán sự an toàn, độctínhvà/hoặc (Pharmacogenomics): Phát hiệuquả củathuốcvớingười triểncácthuốcmớinhằm bệnh hoặc nhóm ngườibệnh. đếncácbệnh đặcbiệt Mộtcôngnghệ mớinhằm đưa toàn Microarray (genome chip): b ộ h ệ gene trên một chip sao cho DNA chip, protein chip các nghiên cứuviêncómộtbức tranh tốthơnvề tương tác đồng thờicủa hàng ngàn genes 37 Problems in Bioinformatics Phân tích cấutrúc So sánh cấutrúcprotein Dự đoán cấu trúc protein Mô hình hóa cấutrúcRNA 0 1,000 2,000 3,000 4,000 2.0 1.5 1.0 0.5 Phân tích đư ng chuy nhóa -0.0 ờ ể 2.0 1.5 1.0 0.5 Đường trao đổichất (metabolic pathway) -0.0 2.0 1.5 1.0 Mạng điềutiết (regulatory networks) 0.5 -0.0 0 1,000 2,000 3,000 4,000 768 TT TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG 813 || || || | | ||| | |||| ||||| ||| ||| Phân tích dãy 87 TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG 135 . . . . . 814 AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG 863 | | | | |||||| | |||| | || | | Sắpdãy(sequence alignment) 136 AAGGATC TCAGTAATTAATCATGCACCTATGTGGCGG 172 . . . . . 864 AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT 913 ||| | ||| || || ||| | ||||||||| || |||||| | Dự đoán chứcnăng và cấutrúc 173 AAA.TATGGGATATGCATGTCGA CACTGAGTG AAGGCAAGATTAT 216 Tìm gene (Gene finding) Phân tích thể hiện Phân tích thể hiệngene Phân nhóm gene 38
Pathway analysis Mỗi phản ứng hóa học hoán chuyển (interconverts) các thành phầnhóahọc Một enzyme là một protein có chứcnăng thúc đẩycácphản ứng hóa học Một đường chuyểnhóa (pathway) là mộttập các phản ứng hóa học đượcnốivới nhau. 39 Sequencing project Sequence Sequence Manual management entry database browsing sequence entry An overview of Nucleotide sequence analysis sequence analysis Nucleotide sequence file Search databases for Search for protein Protein similar sequences coding regions sequence analysis Design further experiments Translate zRestriction mapping Protein sequence file coding into protein zPCR planning non-coding Search databases for Search for Predict similar sequences known motifs secondary Sequence comparison structure Search for RNA structure known motifs prediction Sequence comparison Multiple sequence analysis Predict tertiary structure Create a multiple sequence alignment Edit the alignment Format the alignment Molecular Protein family for publication phylogeny analysis 40
Primary public domain bioinformatics servers Public Domain Bioinformatics Facilities National Center Genome European Bioinformatics For Biotechnology Net Institute (EBI) Information (NCBI) (KEGG & DDBJ) United Kingdom United States Japan Analysis Analysis Analysis Databases Databases Databases Tools Tools Tools 41 Analysis Tools Công cụ phân tích EBI lo các versions để tìm các cơ sở dữ liệu trong các lĩnh vực công cộng chủ yếuvà các công cụ phân tích như FASTA, CLUSTALW, BLAST, và các cài đặtcủa Smith & Waterman. 42
Challenges in Bioinformatics Tin sinh học đòi hỏi: Truy nhậpvàođược nhiềunguồnphântán (Access to multiple distributed resources) Cần thông tin đượccậpnhật (Needs information to be up-to-date) Dư thừadữ liệutốithiểu (Minimal data redundancy) Các ứng dụng ổn định (Robust applications) Các ứng dụng mở rộng được (Extendable applications) Monolithic App. vs. Components Các phầnmềm chuyểntải được (Portable software) 43 Challenges in Bioinformatics Bùng nổ thông tin Cầnphântíchđược nhanh, tự động để xử lý được lượng thông tin lớn Cầntíchhợp được nhiềukiểu thông tin khác nhau (sequences, literature, annotations, protein levels, RNA levels etc ) Cầncácphầnmềm“thôngminhhơn” để nhậnbiết được các quan hệ quan trọng trong các tậpdữ liệurất lớn. Thiếu các “nhà tin sinh học” (“bioinformaticians”) Phầnmềmcầndễ truy nhập, dễ dùng và dễ hiểuhơn Nhà sinh họccầnhọcphầnmềm, thấyhạnchế của chúng, và cách giảithíchkếtquả của chúng. 44
Outline Khái niệmcơ bảncủasinhhọc Sinh tin họclàgì? Về một vài bài toán trong sinh tin học 45 Bài toán đoán nhậncấu trúc protein Có khoảng 15,000 cấutrúcprotein trong các cơ sở dữ liệucôngcộng, và trong số này rất nhiềucấutrúcgiống nhau. Con ngườimới biết chừng 1,500 cấu trúc protein khác nhau. Dự đoán cấu trúc protein từ các dãy amino-acid là một trong các bài toán quan trọng nhấtcủatin sinhhọc, và con ngườicònđang cách lờigiảirất xa. 46
Đối sánh dãy (string matching) (Approximate)(Approximate) StringString MatchingMatching Input:Input: TextText TT ,, Pattern Pattern PP Applications:Applications: Question(s):Question(s): LiLiệệuuPP đđãcótrongcãcótrongcơơ ssởở ddữữ liliệệuuT?T? PPxuxuấấthithiệệntrongntrongT?T? XácXác đđịịnhnh v vịị trítrí c củủaa PP trongtrong TT TìmTìm m mộộtxutxuấấthithiệệncncủủaaP Ptrong trongT T LiLiệệucóthucóthểể dùngdùng PP nhnhưư mmộộtnguyêntnguyên TìmTìm m mọọixuixuấấthithiệệncncủủaaP Ptrong trongT T ttốố ccủủaa TT?? TínhTính s sốố xuxuấấthithiệệncncủủaaPtrongT.P trong T. PP cócó t tươươngng đđồồngng v vớớigìigìđđótrongótrongTT?? TìmTìm dãy dãy con con dàidài nh nhấấtctcủủaaP Ptrong trongT T PP cócó b bịị hhỏỏngng b bởởii TT?? TìmTìm dãy dãy con con ggầầnnhnnhấấtctcủủaaP Ptrong trongT T LiLiệệuu prefixprefix((PP)) == suffixsuffix((TT)?)? XácXác đđịịnhnh các các l lặặptrptrựựctictiếếpcpcủủaaPP XácXác đđịịnhnh các các l lặặpsautrpsautrưướớc(tandem)c(tandem) trongtrongT T ccủủaa PP trongtrong TT vàvà nhi nhiềềubiubiếếndndạạngng khác khác 47 Đốisánh dãy String matching Input:Input: TextText TT;; PatternPattern PP Output:Output: MMọọixuixuấấthithiệệncncủủaa PP trongtrong TT ChiChiếếnlnlưượợctrctrưượợtwindow:twindow: Khởitạomộtwindow từ đầucủaT; While (window còn trong T) do Scan: if (window = P) then report it; Shift: dịch window về bên phải (mộtvị trí) endwhile; 48
Đốisánh dãy String matching ATAQAANANASPVANAGVERANANESISITALVDANANANANASATAQAANANASPVANAGVERANANESISITALVDANANANANAS ANANASANANASANANASANANASANANASANANASANANASANANASANANASANANASANANASANANASANANASANANASANANASANANAS ANANASANANAS ANANASANANASANANASANANASANANASANANAS 49 Sắpthẳng dãy từng cặp Pairwise Sequence Alignment Input Bài toán cơ bảnnhấtcủatin sinhhọc Hai dãy chữ cái Các dãy đượcsắpthẳng ⇒ có dùng cấu trúc hoặcchứcnăng Mộtcáchchođiểm Cho nhiềugợiý nếucấutrúcvàchức Output năng củamộttrongcácdãyđượcsắp Cách sắpthẳng dãy tối ưu thẳng đãbiết ATTGCGC Æ ATTGCGC ATTGCGC Æ AT-CCGC ATTGCGCC Æ ATCCGC ATTGCGC Æ ATC-CGC ATTGCGC Æ ATCCG-C 50
HMM in sequence alignment HMM trong bàitoánsắpdãy Cáctrạng tháicủaHMM sẽ đượcchiathành cácloại: đốisánh (match), thêm vào(insert) và xóa(delete). Bảng chữ cái M bao gồmhaimươiamino acids vớimộtkýhiệu câm δ (dummy symbol) biểudiễncho“delete”. Trạng tháixóa chỉ cho ra δ (output δ). Mỗitrạng thái “đốisánh” và“thêm vào”có phân bố riêng trên 20 amino acids, và ký tự δ không đượctryuền đi. Cácdãyđượcsắpdãysẽ đượcdùng như dữ liệuhuấnluyện, để họccácthamsố củamôhình Vớimỗidãy, thuậttoánViterbiđượcdùng để xác định một đường (path) khả dĩ nhất để tạoradãy. 51 HMM in sequence alignment HMM trong bàitoánsắpdãy Xétcácdãy CAEFDDH CDAEFPDDH Giả sử mô hình có độ dài10 và những đường khả dĩ (likely) nhấttrongmôhình là m0m1m2m3m4d5d6m7m8m9m10 m0m1i1m2m3m4d5m6m7m8m9m10 Phépsắphàng đượctìmrabởisắpcácvị trí vốn được sinh ra mởicùng mộttrạng thái đốisánh. Kếtqủalà phápsắpdãysau C–AEF –DDH CDAEFPDDH 52
Sắpdãytừng cặpvà sắpdãybội Pairwise vs Multiple Sequences Cáccặpdãyđượcsắpmộtcách tiêu biểudo dùng các thuậttoánvétcạnbởi quy hoạch động. Độ phứctạpcủacácphương phápvétcạnlà O(2n mn) n = số các dãy Sắpdãybộixử dụng cácphương phápheuristic #Rat ATGGTGCACCTGACTGATGCTGAGAAGGCTGCTGT #Mouse ATGGTGCACCTGACTGATGCTGAGAAGGCTGCTGT #Rabbit ATGGTGCATCTGTCCAGT GAGGAGAAGTCTGC #Human ATGGTGCACCTGACTCCT GAGGAGAAGTCTGC #Oppossum ATGGTGCACTTGACTTTT GAGGAGAAGAACTG #Chicken ATGGTGCACTGGACTGCT GAGGAGAAGCAGCT #Frog ATGGGTTTGACAGCACATGATCGT CAGCT 53 Sequence comparison: Gene sequences can be aligned to see similarities between gene from different sources 54
Đoánnhận gene Gene prediction Là bài toán quan trọng củatin sinhhọcvàhiện có nhiềuthuậttoánchođoán nhận gene dựa trên các gene đãbiếtnhư dữ liệuhuấnluyện. Mộtkỹ thuậttoánnhận gene phổ biếnlà Hidden Markov Models (HMMs). (given the genomic DNA sequence, can we tell where the genes are?) 55 Gene clustering and some discovered patterns Pattern Probability Cluster No. Total ACGCG 6.41E-39 96 75 1088 ACGCGT 5.23E-38 94 52 387 CCTCGACTAA 5.43E-38 27 18 23 GACGCG 7.89E-31 86 40 284 TTTCGAAACTTACAAAAAT 2.08E-29 26 14 18 TTCTTGTCAAAAAGC 2.08E-29 26 14 18 ACATACTATTGTTAAT 3.81E-28 22 13 18 GATGAGATG 5.60E-28 68 24 83 TGTTTATATTGATGGA 1.90E-27 24 13 18 GATGGATTTCTTGTCAAAA 5.04E-27 18 12 18 TATAAATAGAGC 1.51E-26 27 13 18 GATTTCTTGTCAAA 3.40E-26 20 12 18 GATGGATTTCTTG 3.40E-26 20 12 18 GGTGGCAA 4.18E-26 40 20 96 TTCTTGTCAAAAAGCA 5.10E-26 29 13 18 56
The "GGTGGCAA" Cluster ORF Gene Description YBL041W PRE7 20S proteasome subunit(beta6) YBR170C NPL4 nuclear protein localization factor and ER translocation component YDL126C CDC48 microsomal protein of CDC48/PAS1/SEC18 family of ATPases YDL100C similarity to E.coli arsenical pump-driving ATPase YDL097C RPN6 subunit of the regulatory particle of the proteasome YDR313C PIB phosphatidylinositol(3)-phosphate binding protein YDR330W similarity to hypothetical S. pombe protein YDR394W RPT3 26S proteasome regulatory subunit YDR427W RPN9 subunit of the regulatory particle of the proteasome YDR510W SMT3 ubiquitin-like protein YER012W PRE1 20S proteasome subunit C11(beta4) YFR004W RPN11 26S proteasome regulatory subunit YFR033C QCR6 ubiquinol cytochrome-c reductase 17K protein YFR050C PRE4 20S proteasome subunit(beta7) YFR052W RPN12 26S proteasome regulatory subunit YGL048C RPT6 26S proteasome regulatory subunit YGL036W MTC2 Mtf1 Two hybrid Clone 2 YGL011C SCL1 20S proteasome subunit YC7ALPHA/Y8 (alpha1) YGR048W UFD1 ubiquitin fusion degradation protein YGR135W PRE9 20S proteasome subunit Y13 (alpha3) YGR253C PUP2 20S proteasome subunit(alpha5) YIL075C RPN2 26S proteasome regulatory subunit YJL102W MEF2 translation elongation factor, mitochondrial YJL053W PEP8 vacuolar protein sorting/targeting protein YJL036W weak similarity to Mvp1p YJL001W PRE3 20S proteasome subunit (beta1) YJR117W STE24 zinc metallo-protease YKL145W RPT1 26S proteasome regulatory subunit YKL117W SBA1 Hsp90 (Ninety) Associated Co-chaperone YLR387C similarity to YBR267w YMR314W PRE5 20S proteasome subunit(alpha6) YOL038W PRE6 20S proteasome subunit (alpha4) YOR117W RPT5 26S proteasome regulatory subunit YOR157C PUP1 20S proteasome subunit (beta2) YOR176W HEM15 ferrochelatase precursor YOR259C RPT4 26S proteasome regulatory subunit YOR317W FAA1 long-chain-fatty-acid CoA ligase YOR362C PRE10 20S proteasome subunit C1 (alpha7) YPR103W PRE2 20S proteasome subunit (beta5) YPR108W RPN7 subunit of the regulatory particle of the proteasome 57 Gene discovery: Computer program can be used to recognise the protein coding regions in DNA 0 1,000 2,000 3,000 4,000 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 2.0 1.5 1.0 0.5 -0.0 0 1,000 2,000 3,000 4,000 Plot created using codon preference (GCG) 58
A C U G C G A RNA structure A U prediction G C U A Structural features G of RNA can be U A C G predicted A A U A U U G U A U C G C G C U C A G G G G G G G UC C U C G C A U C CG U AA U A C G C C G U A G U C G G C C A 59 Protein structure prediction: Particular structural features cacann be recognised in protein sequsequencesences 50 100 5.0 KD Hydrophobicity -5.0 10 Surface Prob. 0.0 1.2 Flexibility 0.8 1.7 Antigenic Index -1.7 CF Turns CF Alpha Helices CF Beta Sheets GOR Turns GOR Alpha Helices GOR Beta Sheets Glycosylation Sites 50 100 60
Machine learning tools for bioinformatics Neural Networks Sequence Encoding and Output Interpretation Prediction of Protein Secondary Structure Prediction of Signal Peptides and Their Cleavage Sites Applications for DNA and RNA Nucleotide Sequences Hidden Markov Models Protein Applications DNA and RNA Applications Probabilistic Graph Models Probabilistic Models of Evolution Stochastic Grammars and Linguistics (Bioinformatics: the machine learning approach, Pierre Baldi, Soren Brunak, MIT Press) 61 Summary Đề cậpmộtsố kháiniệmcơ bản trong sinh họcvà tin sinh học, và những bàitoánchính củatin sinhhọc. Tin sinh họclà mộtlĩnh vựcquantrọng, đầythách thức. Tin sinh họcliênquanchặtvới data mining and machine learning. Ta cần đicon đường nào? Darwin: It’s not the strongest, nor the most intelligent, but the species most adaptable to change has the best chance of survival. 62