-
Termín bioinformatika se objevil poprvé až v roce ...
- 1991
- Představuje spojení technologií z oblastí
- –molekulární biologie
- –informačních technologií
- Bioinformatika zahrnuje
- –studium
- –praktické uchovávání
- –vyhledávání
- –zobrazování
- –manipulaci
- –a modelování biologických dat
Potřeba pracovat s velice obsáhlými databázemi si vyžádala vývoj výpočetních nástrojů umožňujících analýzu dat a stanovení jejich vzájemných vztahů.Vývoj vysoce výkonných technologií umožňujících získání molekulárně biologických dat přispěl k jejich dramatickému nárůstu a tím současně zvýšil obtížnost jejich zkoumání a hodnocení ve vztahu k biologickým otázkám
-
Mezi hlavní oblasti zájmu bioinformatiky patří studium širokého rozmezí biologických dat, zejména:
- –sekvencí nukleových kyselin
- –sekvencí proteinů
- –genů a genových map
- –expresních profilů
- –organizace genomů
- –interakce proteinů
- –mechanizmy fyziologických funkcí
-
vyjmenuj Nejdůležitější instituce zabývající se shromažďováním biomedicínských informací
- V současné době je prostřednictvím Internetu dostupných přibližně 550 databází zabývajících se shromažďováním bioinformací.
- –Jejich přehled a popis je každoročně publikován ve specializovaném, volně dostupném čísle časopisu Nucleic Acids Research.
- K nejdůležitějším institucím zabývajícím se, správou dat a vývojem nástrojů pro jejich analýzu a poskytováním informací patří:
- –Evropský institut pro bioinformatiku (EBI) se sídlem v Hinxtonu v UK (http://www.ebi.ac.uk/),
- –Národní centrum pro biotechnologické informace (NCBI) založené původně v rámci Národní lékařské knihovny (NLM) v USA (http://www.ncbi.nlm.nih.gov/),
- –Centrum pro informační biologii (CIB) založené jako oddělení Národního genetického institutu (NIG) v Mishimě, Japonsko (http://www.cib.nig.ac.jp/).
-
V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů; vyjmenuj tyto databáze
- –EMBL Nucleotide Sequence Database / European Nucleotide Archive (v rámci institutu EBI) – 1980
- –GenBank (v rámci institutu NCBI) – 1982
- –DDBJ (The DNA Data Bank of Japan) - 1984
Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě.
-
Ve sféře biotechnologií a medicíny je důležitou stránkou bioinformatiky přístup k publikované vědecké literatuře a také k patentovým archivům. Jednou z největších databází na světe je...
MEDLINE (PubMed), obrovský archiv odkazů z biologických a biomedicínských odborných časopisů pokrývající období od roku 1965 do současnosti a v poskytující kromě abstraktů také odkazy na celé texty článků u jednotlivých vydavatelů
-
Jak se data dostanou do databází?
- Předání dat prostřednictvím WWW portálu
- –BankIt (GenBank)
- http://www.ncbi.nlm.nih.gov/WebSub/?tool=genbank
- –Submission Portal
- https://submit.ncbi.nlm.nih.gov/
- –WebIn (EMBL/European Nucleotide Archive)
- http://www.ebi.ac.uk/ena/submit
- –Sakura (DDBJ)
- http://www.ddbj.nig.ac.jp/sub/websub-e.html
- Samostatná aplikace pro PC
- –Sequin
- http://www.ncbi.nlm.nih.gov/Sequin/download/seq_download.html
- –pro delší sekvence (genomy)
- –fylogenetické, populační nebo mutační studie obsahující sekvenční přiložení
- Tbl2asn – batch submissin
- –command-line program for MAC a Unix
- –automatizuje vytvoření záznamu sekvence
- –určený pro celé genomy, EST, STS a zaslání velkých dávek sekvencí
- Identifikace záznamu v primárních sekvenčních databázích
- GenBank
- EMBL-Bank (European Nucleotide Archive, ENA)
- DDBJ
- Přístupový kód (Accession Number)
-
Sekvence proteinů, u nichž byly experimentálně stanoveny jejich aminokyselinové sekvence, charakterizovány jednotlivé proteinové domény a stanovena jejich funkce jsou ukládány v databázi ...
- SWISS-PROT založené na Univerzitě v Ženevě v roce 1986.
- Databázi spravuje Švýcarský institut pro bioinformatiku (SIB), který se podílí na vytváření sítě propojených databází sekvencí. Kompletní databázi sekvencí proteinů obsahuje SWISS-PROT spolu s doplňkem označeným TrEMBL, který obsahuje automaticky doplňované překlady kódujících oblastí z databáze sekvencí nukleových kyselin EMBL
-
Důležitou databází spojenou s proteiny je ..., která se zabývá archivací a analýzou 3-D proteinových struktur.
PDB (The Protein Databank)
-
Množství důležitých molekulárně-biologických dat se zvyšuje tak rychle, že je nezbytné mít k dispozici prostředky, pomocí kterých můžeme k těmto datům snadno přistupovat.
Existují tři prostředky na získávání informací, které umožňují vyhledávání v molekulárně biologických databázích.
Tyto prostředky jsou vstupním bodem do mnoha integrovaných databází a každý z nich byl vyvinut v jednom ze tří hlavních center pro bioinformatiku.
Navzájem se liší v databázích, které mohou prohledávat, ve vazbách, které vytvářejí mezi jednotlivými databázemi a ve vazbách vztahujcích se k dalším informacím.
Jaké takové prostředky znáš?
- Entrez (NCBI)
- Sequence Retrieval System (SRS)
- DBGET/Link DB
-
co je to "entrez"?
- Entrez je vyhledávací systém pro molekulárně biologické databáze vyvinutý v NCBI
- Je vstupním bodem pro průzkum 45 různých integrovaných databází z nichž řada je virtuálních.
- K nejvýznamnějším databázím patří
- –databáze PubMed, umožňující přístup k literární databázi MEDLINE
- –databáze sekvencí nukleových kyselin a proteinů
- –databáze 3-D struktur MMDB (Molecular Modeling Database)
- –skupina databází genomů
- –taxonomická databáze usnadňující získávání sekvencí na základě taxonomických skupin
Ze tří vyhledávacích prostředků je Entrez uživatelsky nejpřijatelnější
-
charakterizuj Sequence Retrieval System (SRS)
- Na serveru EBI
- SRS je homogenní rozhraní pro přístup k více než 160 molekulárně databázím
- Typy databází zahrnují
- –sekvence a z nich odvozená data
- –metabolické dráhy
- –transkripční faktory
- –3-D struktury
- –Genomy
- –Mapování
- –Mutace
- –jednonukleotidové polymorfizmy
- –výsledky získané pomocí analytických nástrojů
Webové rozhraní umožňuje provádět před vyhledáváním výběr z jednotlivých databází a poskytuje alternativní formuláře pro zadávání vyhledávacích dotazů. Na Internetu běží několik verzí SRS a každá z nich obsahuje jinou sadu databází a analytických nástrojů.
-
charakterizuj DBGET/Link DB
- DBGET/Link DB je integrovaný systém pro získávání dat z databází vyvinutý v Institutu pro chemický výzkum na Univerzitě Kyoto v Japonsku
- Poskytuje přístup do databází, které mohou být dotazovány samostatně.
- Jako výsledek DBGET prezentuje kromě seznamu vyhledaných záznamů také přehled vazeb na související informace ve všech integrovaných databázích.
- Další ojedinělou vlastností je propojení na databázi KEGG (Kyoto Encyclopedia of Genes and Genomes), což je databáze regulačních a metabolických drah u organizmů ze známým genomem.
- V porovnání se SRS a Entrez je však DBGET jednodušší a omezenější vyhledávací prostředek.
-
popiš postup při Posuzování podobnosti sekvencí
- Postup stanovení podobnosti
- textové vyhledávání příbuzných sekvencí v databázích
- prohledávání databází podle podobnosti sekvencí
- výpočet lokálního přiřazení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou
-
vyjmenuj Nástroje pro vyhledávání lokálních podobností sekvencí + jejich autory
Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. Využívají heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně seřazené sekvence, do nichž mohou být vloženy mezery
- BLAST
- Altschul et al., 1990dostupný na serveru NCBI
- FASTA
- Lipman a Pearson 1985, dostupný na serveru EBI
-
Co je to BLAST?
- Basic Local Alignment Search Tool
- –Hledání lokálních podobností
- –Heuristický přístup založený na Smith-Watermanově algoritmu
- –Vyhledá nejoptimálnější seřazení sekvencí
- –Poskytuje data o statistické významnosti
- –Zobrazuje vzájemně seřazené sekvence
- –Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce
- Jak BLAST pracuje?
- Proces zahrnuje 3 kroky
- 1.Příprava dotazu –rozseká sekvenci na krátké úseky a sestaví z nich vhodnou tabulku
- 2. Vyhledává shody v databázi
- 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria
- minimální velikost pro nukleotidové sekvence = 7
- Velikost slova pro proteinové sekvence = 2 nebo 3
-
jaký je Minimální požadavek pro shodu při vyhledávání v BLAST?
- Nucleotidový BLAST vyžaduje jednu přesnou shodu
- Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa
-
Co je substituční matice?
- –Kompletní sada skóre pro všechny kombinace párů zbytků se nazývá substituční matice
- –Uplatňuje se při srovnání sekvencí proteinů
- –Stanovuje frekvenci při které každý možný zbytek v sekvencích může být změněn za kterýkoli jiný zbytek během času (evoluce)
- –Např., hydrofobní zbytek má vyšší pravděpodobnot zachování v příslušné pozici sekvence než jiný.
- –Každá matrice je určená pro určitý typ vyhledávání – JE TŘEBA VĚDĚT CO HLEDÁME!
-
Proč používat substituční matice?
- 1.Stanovit pravděpodobnou homologii dvou sekvencí.
- 2.Substituce, které jsou více pravděpodobné získají vyšší skóre
- 3.Substituce, které jsou méně pravděpodobné obdrží nižší skóre.
-
srovnej Lokální versus mnohonásobné srovnání
- Dosud jsme srovnávali pouze dvě sekvence navzájem
- Podobnosti mezi dvěma sekvencemi se stávají významnými, pokud se vyskytují i u dalších sekvencí
- Mnohonásobné přiložení sekvencí je srovnání tří a více sekvencí nukleových kyselin nebo proteinů s mezerami vloženými do sekvencí tak, že úseky sekvencí s úplnou nebo částečnou homologií jsou seřazeny nad sebou ve stejném sloupci
- Může identifikovat podobnosti a identifikovat konzervativní motivy, které nejsme schopni identifikovat lokálním srovnáním
-
jaké znáš Klasifikační databáze proteinů?
- PROSITE
- Pfam
- PRINTS
- ProDom
- SMART
- Blocks
- Databáze sekvenčních motivů představují značně roztříštěný soubor zdrojů
- Asi 30 databází
- Částečně se překrývají, ale nejsou navzájem propojeny
- InterPro
- Integrované vyhledávání ve více databázích umožňuje např. InterPro Scan
-
Geny tvoří obsahovou složku genomu - jakými charakteristikami se navzájem liší?
- –Variabilní délka
- –Jedinečné sekvence
- –Mnohdy složené z exonů a intronů
- –Geny pro funkční RNA
-
Jakým způsobem vyhledávat geny?
- –1. Metody založené na hledání podobností s již popsanými geny
- –2. Metody srovnávací genomiky
- Srovnání více dokončených genomů
- –3. Využití algoritmů a statistických metod pro analýzu sekvence
- Hledání signálů
- Vyhledání otevřených čtecích rámců
-
Prokaryotický versus eukaryotický gen vyžadují odlišné přístupy - proč?
|
|