09 Bioinformatika

  1. Termín bioinformatika se objevil poprvé až v roce ...
    • 1991
    • Představuje spojení technologií z oblastí
    • –molekulární biologie
    • –informačních technologií

    • Bioinformatika zahrnuje
    • –studium
    • –praktické uchovávání
    • –vyhledávání
    • –zobrazování
    • –manipulaci
    • –a modelování biologických dat

    Potřeba pracovat s velice obsáhlými databázemi si vyžádala vývoj výpočetních nástrojů umožňujících analýzu dat a stanovení jejich vzájemných vztahů.Vývoj vysoce výkonných technologií umožňujících získání molekulárně biologických dat přispěl k jejich dramatickému nárůstu a tím současně zvýšil obtížnost jejich zkoumání a hodnocení ve vztahu k biologickým otázkám

    Image Upload 1
  2. Mezi hlavní oblasti zájmu bioinformatiky patří studium širokého rozmezí biologických dat, zejména:
    • –sekvencí nukleových kyselin
    • –sekvencí proteinů
    • –genů a genových map
    • –expresních profilů
    • –organizace genomů
    • –interakce proteinů
    • –mechanizmy fyziologických funkcí
  3. vyjmenuj Nejdůležitější instituce zabývající se shromažďováním biomedicínských informací
    • V současné době je prostřednictvím Internetu dostupných přibližně 550 databází zabývajících se shromažďováním bioinformací.
    • –Jejich přehled a popis je každoročně publikován ve specializovaném, volně dostupném čísle časopisu Nucleic Acids Research.
    • K nejdůležitějším institucím zabývajícím se, správou dat a vývojem nástrojů pro jejich analýzu a poskytováním informací patří:
    • Evropský institut pro bioinformatiku (EBI) se sídlem v Hinxtonu v UK (http://www.ebi.ac.uk/),
    • Národní centrum pro biotechnologické informace (NCBI) založené původně v rámci Národní lékařské knihovny (NLM) v USA (http://www.ncbi.nlm.nih.gov/),
    • Centrum pro informační biologii (CIB) založené jako oddělení Národního genetického institutu (NIG) v Mishimě, Japonsko (http://www.cib.nig.ac.jp/).
  4. V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů; vyjmenuj tyto databáze
    • EMBL Nucleotide Sequence Database / European Nucleotide Archive (v rámci institutu EBI) – 1980
    • GenBank (v rámci institutu NCBI) – 1982
    • DDBJ (The DNA Data Bank of Japan) - 1984

    Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě.

    Image Upload 2
  5. Ve sféře biotechnologií a medicíny je důležitou stránkou bioinformatiky přístup k publikované vědecké literatuře a také k patentovým archivům. Jednou z největších databází na světe je...
    MEDLINE (PubMed), obrovský archiv odkazů z biologických a biomedicínských odborných časopisů pokrývající období od roku 1965 do současnosti a v poskytující kromě abstraktů také odkazy na celé texty článků u jednotlivých vydavatelů
  6. Jak se data dostanou do databází?
    • Předání dat prostřednictvím WWW portálu
    • BankIt (GenBank)
    • http://www.ncbi.nlm.nih.gov/WebSub/?tool=genbank
    • Submission Portal
    • https://submit.ncbi.nlm.nih.gov/
    • WebIn (EMBL/European Nucleotide Archive)
    • http://www.ebi.ac.uk/ena/submit
    • Sakura (DDBJ)
    • http://www.ddbj.nig.ac.jp/sub/websub-e.html

    • Samostatná aplikace pro PC
    • –Sequin
    • http://www.ncbi.nlm.nih.gov/Sequin/download/seq_download.html
    • –pro delší sekvence (genomy)
    • –fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení

    • Tbl2asn – batch submissin
    • –command-line program for MAC a Unix
    • –automatizuje vytvoření záznamu sekvence
    • –určený pro celé genomy, EST, STS a zaslání velkých dávek sekvencí

    • Identifikace záznamu v primárních sekvenčních databázích
    • GenBank
    • EMBL-Bank (European Nucleotide Archive, ENA)
    • DDBJ
    • Přístupový kód (Accession Number)
  7. Sekvence proteinů, u nichž byly experimentálně stanoveny jejich aminokyselinové sekvence, charakterizovány jednotlivé proteinové domény a stanovena jejich funkce jsou ukládány v databázi ...
    • SWISS-PROT založené na Univerzitě v Ženevě v roce 1986.
    • Databázi spravuje Švýcarský institut pro bioinformatiku (SIB), který se podílí na vytváření sítě propojených databází sekvencí. Kompletní databázi sekvencí proteinů obsahuje SWISS-PROT spolu s doplňkem označeným TrEMBL, který obsahuje automaticky doplňované překlady kódujících oblastí z databáze sekvencí nukleových kyselin EMBL
  8. Důležitou databází spojenou s proteiny je ..., která se zabývá archivací a analýzou 3-D proteinových struktur.
    PDB (The Protein Databank)
  9. Množství důležitých molekulárně-biologických dat se zvyšuje tak rychle, že je nezbytné mít k dispozici prostředky, pomocí kterých můžeme k těmto datům snadno přistupovat.
    Existují tři prostředky na získávání informací, které umožňují vyhledávání v molekulárně biologických databázích.
    Tyto prostředky jsou vstupním bodem do mnoha integrovaných databází a každý z nich byl vyvinut v jednom ze tří hlavních center pro bioinformatiku.
    Navzájem se liší v databázích, které mohou prohledávat, ve vazbách, které vytvářejí mezi jednotlivými databázemi a ve vazbách vztahujcích se k dalším informacím. 
    Jaké takové prostředky znáš?
    • Entrez (NCBI)
    • Sequence Retrieval System (SRS)
    • DBGET/Link DB
  10. co je to "entrez"?
    • Entrez je vyhledávací systém pro molekulárně biologické databáze vyvinutý v NCBI
    • Je vstupním bodem pro průzkum 45 různých integrovaných databází z nichž řada je virtuálních.

    • K nejvýznamnějším databázím patří
    • –databáze PubMed, umožňující přístup k literární databázi MEDLINE
    • –databáze sekvencí nukleových kyselin a proteinů
    • –databáze 3-D struktur MMDB (Molecular Modeling Database)
    • –skupina databází genomů
    • –taxonomická databáze usnadňující získávání sekvencí na základě taxonomických skupin

    Ze tří vyhledávacích prostředků je Entrez uživatelsky nejpřijatelnější
  11. charakterizuj Sequence Retrieval System (SRS)
    • Na serveru EBI
    • SRS je homogenní rozhraní pro přístup k více než 160 molekulárně databázím

    • Typy databází zahrnují
    • –sekvence a z nich odvozená data
    • –metabolické dráhy
    • –transkripční faktory
    • –3-D struktury
    • –Genomy
    • –Mapování
    • –Mutace
    • –jednonukleotidové polymorfizmy
    • –výsledky získané pomocí analytických nástrojů

    Webové rozhraní umožňuje provádět před vyhledáváním výběr z jednotlivých databází a poskytuje alternativní formuláře pro zadávání vyhledávacích dotazů. Na Internetu běží několik verzí SRS a každá z nich obsahuje jinou sadu databází a analytických nástrojů.
  12. charakterizuj DBGET/Link DB
    • DBGET/Link DB je integrovaný systém pro získávání dat z databází vyvinutý v Institutu pro chemický výzkum na Univerzitě Kyoto v Japonsku
    • Poskytuje přístup do databází, které mohou být dotazovány samostatně.
    • Jako výsledek DBGET prezentuje kromě seznamu vyhledaných záznamů také přehled vazeb na související informace ve všech integrovaných databázích.
    • Další ojedinělou vlastností je propojení na databázi KEGG (Kyoto Encyclopedia of Genes and Genomes), což je databáze regulačních a metabolických drah u organizmů ze známým genomem.
    • V porovnání se SRS a Entrez je však DBGET jednodušší a omezenější vyhledávací prostředek.
  13. popiš postup při Posuzování podobnosti sekvencí
    • Postup stanovení podobnosti
    • textové vyhledávání příbuzných sekvencí v databázích
    • prohledávání databází podle podobnosti sekvencí
    • výpočet lokálního přiřazení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou
  14. vyjmenuj Nástroje pro vyhledávání lokálních podobností sekvencí + jejich autory
    Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein.  Využívají heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně seřazené sekvence, do nichž mohou být vloženy mezery

    • BLAST
    • Altschul et al., 1990dostupný na serveru NCBI

    • FASTA
    • Lipman a Pearson 1985, dostupný na serveru EBI
  15. Co je to BLAST?
    • Basic Local Alignment Search Tool
    • –Hledání lokálních podobností
    • –Heuristický přístup založený na Smith-Watermanově algoritmu
    • –Vyhledá nejoptimálnější seřazení sekvencí
    • –Poskytuje data o statistické významnosti
    • –Zobrazuje vzájemně seřazené sekvence
    • –Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce

    • Jak BLAST pracuje?
    • Proces zahrnuje 3 kroky
    • 1.Příprava dotazu –rozseká sekvenci na krátké úseky a sestaví z nich vhodnou tabulku
    • 2. Vyhledává shody v databázi
    • 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria

    • minimální velikost pro nukleotidové sekvence = 7
    • Velikost slova pro proteinové sekvence = 2 nebo 3
  16. jaký je Minimální požadavek pro shodu při vyhledávání v BLAST?
    • Nucleotidový BLAST vyžaduje jednu přesnou shodu
    • Image Upload 3
    • Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa
    • Image Upload 4

  17. Co je substituční matice?
    • Kompletní sada skóre pro všechny kombinace párů zbytků se nazývá substituční matice
    • –Uplatňuje se při srovnání sekvencí proteinů
    • –Stanovuje frekvenci při které každý možný zbytek v sekvencích může být změněn za kterýkoli jiný zbytek během času (evoluce)
    • –Např., hydrofobní zbytek má vyšší pravděpodobnot zachování v příslušné pozici sekvence než jiný.
    • –Každá matrice je určená pro určitý typ vyhledávání – JE TŘEBA VĚDĚT CO  HLEDÁME!
  18. Proč používat substituční matice?
    • 1.Stanovit pravděpodobnou homologii dvou sekvencí.
    • 2.Substituce, které jsou více pravděpodobné získají vyšší skóre
    • 3.Substituce, které jsou méně pravděpodobné obdrží nižší skóre.
  19. srovnej Lokální versus mnohonásobné srovnání
    • Dosud jsme srovnávali pouze dvě sekvence navzájem
    • Podobnosti mezi dvěma sekvencemi se stávají významnými, pokud se vyskytují i u dalších sekvencí
    • Mnohonásobné přiložení sekvencí je srovnání tří a více sekvencí nukleových kyselin nebo proteinů s mezerami vloženými do sekvencí tak, že úseky sekvencí s úplnou nebo částečnou homologií jsou seřazeny nad sebou ve stejném sloupci
    • Může identifikovat podobnosti a identifikovat konzervativní motivy, které nejsme schopni identifikovat lokálním srovnáním

    Image Upload 5
  20. jaké znáš Klasifikační databáze proteinů?
    • PROSITE
    • Pfam
    • PRINTS
    • ProDom
    • SMART
    • Blocks
    • Databáze sekvenčních motivů představují značně roztříštěný soubor zdrojů
    • Asi 30 databází
    • Částečně se překrývají, ale nejsou navzájem propojeny

    • InterPro
    • Integrované vyhledávání ve více databázích umožňuje např. InterPro Scan
  21. Geny tvoří obsahovou složku genomu - jakými charakteristikami se navzájem liší?
    • –Variabilní délka
    • –Jedinečné sekvence
    • –Mnohdy složené z exonů a intronů
    • –Geny pro funkční RNA
  22. Jakým způsobem vyhledávat geny?
    • –1. Metody založené na hledání podobností s již popsanými geny
    • –2. Metody srovnávací genomiky
    • Srovnání více dokončených genomů
    • –3. Využití algoritmů a statistických metod pro analýzu sekvence
    • Hledání signálů

    • Vyhledání otevřených čtecích rámců
  23. Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy - proč?
    Image Upload 6

    • Image Upload 7
    • Image Upload 8
Author
iren
ID
347248
Card Set
09 Bioinformatika
Description
molekularni biologie,CV,prezentace
Updated