08 Základy statistické analýzy

  1. biologický objekt tvoří..
    tvar, velikost

    • každý znak lze charakterizovat více způsoby: morfologicky (=tvar+velikost)
    • morfoskopicky (vizuálně- pohlaví, věk, etnická příslušnost, výška - VELKÁ ČTYŘKA)
    • metricky

    např. aditus orbitae - lze popsat + změřit dané rozměry + morfoskopicky = analýza tvaru
  2. proč používáme statistiku?
    • 1) popisná statistika: objektivní, numerická standardizace výsledků
    • 2) predikce + klasifikace (carl linné vymyslel celý klasifikační systém bez statistiky:)

    statistické metody nám umožňují kombinovat vlastnosti do jednoho modelu
  3. jak poznám že jsem hodnoty naměřil správně?
    • komparace
    • chyba měření
    • replikace
  4. jaký je vztah mezi intervalem spolehlivosti a SD?
    95% interval = 1,96SD
  5. vyjmenuj typy proměnných
    • kvalitativní (kategoriální, slovní...)
    •     nominální, ordinální, dichotomická
    • kvantitativní (numerická)
    •    diskrétní, spojitá, intervalová
  6. co je to škálování?
    =přiřazování hodnoty k měřenému znaku
  7. jmenuj typy rozložení
    • 1. gaussovo
    • 2. dichotonomické/ binoické (typicky sex. dimorfní znaky; např. výška)
    • 3. studentovo (W. S. Glosset - potřeboval vyvozovat závěry na základě malých vzorků)

    MUSÍME ZNÁT ROZLOŽENÍ ABYCHOM DATA MOHLI PROLOŽIT KŘIVKOU
  8. KORELACE?
    • relativní x skutečná závislost (interkorelace)
    • korelace je výhodná, když chceme predickci

    kovariance: jedna proměnná vysvětluje variabilitu druhé

    REDUDANTNÍ PROMĚNNÉ DEFORMUJÍ STATISTICKÝ PROSTOR

    ideální x biologická závislost
  9. 3 nejdůležitější predikční pravidla v antropologii
    • LINEÁRNÍ REGRESE
    • predikce výšky na základě šířky, odhad věku, odhad post mortem
    • DISKRIMINAČNÍ ANALÝZA
    • určení pohlaví, zvíře x člověk, mladší/starší 18ti let
    • KANONICKÁ ANALÝZA (=zařazení do typů)
    • populační afinita
  10. odhad populační afinity na základě diskriminační analýzy představuje výjimečně metoda ...
    J and Elliot
  11. popiš lineární regresi
    • = mat.metoda pro proložení souborů bodů přímkou
    • představuje aproximaci daných hodnot přímkou metodou nejmenších čtverců.  Tuto přímku vyjádříme rovnicí y=b1+b2x
    • předpoklad:
    • 1) X-ové souřadnice jsou přesné + y-ové zatíženy chybou měření
    • 2) jde o kontinuální proměnné (ne škálování)
    • 3) data musejí být získána nezávisle na sobě (např. nemůžu na základě délky lebky odvozovat index cranialis)

    • na základě nezávislé proměnné predikujeme závislou
    • typy:
    • více x jednorzměrná
    • jedna x vícenásobná (např. mám více nezávislých proměnných: délka femuru a tibii a chci predikovat výšku)
    • Princip: y = ax + b (+E)
    • y...přímka
    • a...koeficient (jak moc je to natočené)
    • b...konstanta (kde v prostoru)

    •  Na základě jedné proměnné usuzujeme na druhou, např. na základě šířky predikujeme délku, skrz data proložíme přímku
    • SE = standardní chyba odhadu
    • (souvislost s intervalem spolehlivosti; 100% interval spolehlivosti = 3xSE)
    • =standardní odchylka reziduií - některé hodnoty nadhodnocovány jiné podhodnocovány
    • Každá predikovaná hodnota má kolem sebe možné hodnoty, které jsou kolem ní rozloženy jako gaussovka; tedy i chyby mají své rozložení – jejich průměr leží na přímce

     Vícenásobná regrese: y = ax+1 + bx+2 +c +E

    •  Redundantní proměnné = takové co spolu navzájem korelují, zbytečné je přidávat do modelu
    • výstup: predikční rovnice + chyba odhadu (=interval spolehlivosti nebo SE
  12. wilkins lambda?
    • udává sílu diskriminační rovnice (čím mebnší je, tím lépe diskriminuje)
    • p nám pak říká jestli takové rozlišení má smysl
    • když nám nějaká hodnota "vyletí" a s ní i další - můžu jednu z modelu vyhodit, pravděpodobně měří to samé = redukce proměnných
    • (ve statistice step by step analýza)
    • - dopředná: vezmu ten s nejvyšší silou a postupně přidávám další, pokud W sníženo, přidávám dál
    • - zpětná: vezmu všechny a postupně je vyhazuju
  13. validace statistických rovnic?
    • 1. klasifikační fce: tabulku vynásobí patřičnými koeficienty a přidá konstantu (kde je vyšší číslo, tam to patří)
    • 2. lze ověřit pomocí clasif. matrix - kolik % daného souboru se zařadilo správně
    • 3. krosvalidace: vyhodí jednoho jedince, rovnice sestavena bez něj a to udělá pro každého jedince (čím větší propad, tím horší - může být způsobeno vysokým množstvím proměnných)
    • 4. rozdělím si soubor předem - resubstituce
  14. co je to apriorní a aposteriorní pravděpodobnost?
    • apriori = 50%
    • posteriorní = po analýze; některé metody nedávají D, ale % zda objekt patří do skupiny (u dvou skupin dvě hodnoty, dohromady dají 100%)
  15. mahalanobisova vzdálenost?
    • počítá vzdálenost mezi objekty v systému souřadnic, jehož osy na sebe nemusí být kolmé
    • používá se pro zjištění vzdálenosti mezi skupinami objektů např. v kanonické analýze

    x euklidovská vzdálenost = nejkratší vzdálenost mezi dvěma body v prostoru, kde jsou na sebe osy kolmé (tj. proměnné jsou nezávislé)
  16. popiš diskriminační analýzu
    • Zařazení jedince do skupiny – kategoriální proměnné
    • nejsnáze pochopitelná je její analogie k ANOVA
    • Princip: třeba stanovit dělící hodnotu/bod – obvykle jeden a přidělena mu hodnota nula
    • (pokud data rozdělím takto ještě jednou - získám indiferentní jedince)



    • na základě vstupních prvků určena příslušnost objektu
    • problematické testovat výsledky modelu na stejném souboru, na němž byla vytvořena - důkaz kruhem (viz metody validace)
    • typy:
    • KANONICKÁ: identifikace proměnných významných pro diskriminaci
    • KLASIFIKAČNÍ: klasifikace neznámých objektů do skupin
    • D= ax + by + (cz + ...) + C
    • D= diskriminační skóre
    • a=koeficient
    • x=rozvoj pohlavně dimorf. znaku
    • výstup:diskriminační rovnice + spolehlivost pravidla (kolik % bylo správně zařazeno do jedné či obou skupin)vždy se podívat na spolehlivost pravidla u každé skupiny zvlášť - když se blíží 50%, můžu si hodit mincí
    • Důvod kombinace znaků – zvýšení síly predikce

    • Danou rovnici třeba používat vždy na danou populaci, jinak to nebude sedět – není to chyba, ale vlastnost metody (docela problém, ptž kdybych věděla do jaké skupiny lebka patří, nemusela bych to počítat
    • Standardizace – pro vzájemné porovnávání
    • Když nám vyjdou v tabulce negativní hodnoty – vypovídá to víc o té druhé skupině

    • cíle:
    • predikční pravidlo
    • diskriminační skóre pro každý prvek
    • nestandardizované koeficienty pro každou vstupní proměnnou
  17. popiš kanonickou analýzu
    • Podobný princip jako u diskriminační analýzy (něco jako její nástavba), ale pro více jak 2 skupiny
    • Princip:
    • CS1 = a1x1 + b1x2 + c1x3 + … + C1
    • CS2 = a2x1 + b2x2 + c2x3 + … + C2
    • Kategorie: např u populační afinity white + negro + latino (=soc.kategorie = imigranti z evropy do ameriky)
    • min. 3 proměnné - počet os K-1
    • první osa = největší diskriminace mezi centroidy skupin objektů
    • kanonické osy jsou aditivní - zahrnují 100%variability; 1.osa odčerpá nejvíc variability
    • výstup: kanonická rovnice + skóre + koeficient

    • aposteriorní pravděbodobnost vypočtena z Mahal. p (u 3 skupin - 3hodnoty, dohromady dají 100%)
    • počítáme vzdálenost objektu k centroidům - ten který mám blíž, do té skupiny patřím

    POČET PROMĚNNÝCH BY MĚL BÝT 3X MENŠÍ NEŽ POČET JEDINCŮ
Author
iren
ID
347088
Card Set
08 Základy statistické analýzy
Description
urbanova, jurda
Updated