08 Základy statistické analýzy

Home

Get App

Create

biologický objekt tvoří..
tvar, velikost
- každý znak lze charakterizovat více způsoby: morfologicky (=tvar+velikost)
- morfoskopicky (vizuálně- pohlaví, věk, etnická příslušnost, výška - VELKÁ ČTYŘKA)
- metricky
např. aditus orbitae - lze popsat + změřit dané rozměry + morfoskopicky = analýza tvaru
proč používáme statistiku?
- 1) popisná statistika: objektivní, numerická standardizace výsledků
- 2) predikce + klasifikace ^{(carl linné vymyslel celý klasifikační systém bez statistiky:)}
statistické metody nám umožňují kombinovat vlastnosti do jednoho modelu
jak poznám že jsem hodnoty naměřil správně?
- komparace
- chyba měření
- replikace
jaký je vztah mezi intervalem spolehlivosti a SD?

95% interval = 1,96SD
vyjmenuj typy proměnných
- kvalitativní (kategoriální, slovní...)
- nominální, ordinální, dichotomická
- kvantitativní (numerická)
- diskrétní, spojitá, intervalová
co je to škálování?

=přiřazování hodnoty k měřenému znaku
jmenuj typy rozložení
- 1. gaussovo
- 2. dichotonomické/ binoické (typicky sex. dimorfní znaky; např. výška)
- 3. studentovo (W. S. Glosset - potřeboval vyvozovat závěry na základě malých vzorků)
MUSÍME ZNÁT ROZLOŽENÍ ABYCHOM DATA MOHLI PROLOŽIT KŘIVKOU
KORELACE?
- relativní x skutečná závislost (interkorelace)
- korelace je výhodná, když chceme predickci
kovariance: jedna proměnná vysvětluje variabilitu druhé

REDUDANTNÍ PROMĚNNÉ DEFORMUJÍ STATISTICKÝ PROSTOR

ideální x biologická závislost
3 nejdůležitější predikční pravidla v antropologii
- LINEÁRNÍ REGRESE
- predikce výšky na základě šířky, odhad věku, odhad post mortem
- DISKRIMINAČNÍ ANALÝZA
- určení pohlaví, zvíře x člověk, mladší/starší 18ti let
- KANONICKÁ ANALÝZA (=zařazení do typů)
- populační afinita
odhad populační afinity na základě diskriminační analýzy představuje výjimečně metoda ...

J and Elliot
popiš lineární regresi
- = mat.metoda pro proložení souborů bodů přímkou
- představuje aproximaci daných hodnot přímkou metodou nejmenších čtverců. Tuto přímku vyjádříme rovnicí y=b₁+b₂x,
- předpoklad:
- 1) X-ové souřadnice jsou přesné + y-ové zatíženy chybou měření
- 2) jde o kontinuální proměnné (ne škálování)
- 3) data musejí být získána nezávisle na sobě ^{(např. nemůžu na základě délky lebky odvozovat index cranialis)}
- na základě nezávislé proměnné predikujeme závislou
- typy:
- více x jednorzměrná
- jedna x vícenásobná ^{(např. mám více nezávislých proměnných}: délka femuru a tibii a chci predikovat výšku)
- Princip: y = ax + b (+E)
- y...přímka
- a...koeficient (jak moc je to natočené)
- b...konstanta (kde v prostoru)
- ^{Na základě jedné proměnné usuzujeme na druhou, např. na základě šířky predikujeme délku, skrz data proložíme přímku}
- SE = standardní chyba odhadu
- (souvislost s intervalem spolehlivosti; 100% interval spolehlivosti = 3xSE)
- ^{=standardní odchylka reziduií - některé hodnoty nadhodnocovány jiné podhodnocovány}
- ^{Každá predikovaná hodnota má kolem sebe možné hodnoty, které jsou kolem ní rozloženy jako gaussovka; tedy i chyby mají své rozložení – jejich průměr leží na přímce}
Vícenásobná regrese: y = ax+1 + bx+2 +c +E
- Redundantní proměnné = takové co spolu navzájem korelují, zbytečné je přidávat do modelu
- výstup: predikční rovnice + chyba odhadu (=interval spolehlivosti nebo SE
wilkins lambda?
- udává sílu diskriminační rovnice (čím mebnší je, tím lépe diskriminuje)
- ^{p nám pak říká jestli takové rozlišení má smysl}
- ^{když nám nějaká hodnota "vyletí" a s ní i další - můžu jednu z modelu vyhodit, pravděpodobně měří to samé = redukce proměnných}
- (ve statistice step by step analýza)
- - dopředná: vezmu ten s nejvyšší silou a postupně přidávám další, pokud W sníženo, přidávám dál
- - zpětná: vezmu všechny a postupně je vyhazuju
validace statistických rovnic?
- 1. klasifikační fce: tabulku vynásobí patřičnými koeficienty a přidá konstantu (kde je vyšší číslo, tam to patří)
- 2. lze ověřit pomocí clasif. matrix - kolik % daného souboru se zařadilo správně
- 3. krosvalidace: vyhodí jednoho jedince, rovnice sestavena bez něj a to udělá pro každého jedince ^{(čím větší propad, tím horší - může být způsobeno vysokým množstvím proměnných)}
- 4. rozdělím si soubor předem - resubstituce
co je to apriorní a aposteriorní pravděpodobnost?
- apriori = 50%
- posteriorní = po analýze; některé metody nedávají D, ale % zda objekt patří do skupiny _{(u dvou skupin dvě hodnoty, dohromady dají 100%)}
mahalanobisova vzdálenost?
- počítá vzdálenost mezi objekty v systému souřadnic, jehož osy na sebe nemusí být kolmé
- používá se pro zjištění vzdálenosti mezi skupinami objektů např. v kanonické analýze
x euklidovská vzdálenost = nejkratší vzdálenost mezi dvěma body v prostoru, kde jsou na sebe osy kolmé (tj. proměnné jsou nezávislé)
popiš diskriminační analýzu
- Zařazení jedince do skupiny – kategoriální proměnné
- nejsnáze pochopitelná je její analogie k ANOVA
- Princip: třeba stanovit dělící hodnotu/bod – obvykle jeden a přidělena mu hodnota nula
- ^{(pokud data rozdělím takto ještě jednou - získám indiferentní jedince)}
- na základě vstupních prvků určena příslušnost objektu
- problematické testovat výsledky modelu na stejném souboru, na němž byla vytvořena - důkaz kruhem (viz metody validace)
- typy:
- KANONICKÁ: identifikace proměnných významných pro diskriminaci
- KLASIFIKAČNÍ: klasifikace neznámých objektů do skupin
- D= ax + by + (cz + ...) + C
- D= diskriminační skóre
- a=koeficient
- x=rozvoj pohlavně dimorf. znaku
- výstup:diskriminační rovnice + spolehlivost pravidla (kolik % bylo správně zařazeno do jedné či obou skupin)^{vždy se podívat na spolehlivost pravidla u každé skupiny zvlášť - když se blíží 50%, můžu si hodit mincí}
- Důvod kombinace znaků – zvýšení síly predikce
- Danou rovnici třeba používat vždy na danou populaci, jinak to nebude sedět – není to chyba, ale vlastnost metody (docela problém, ptž kdybych věděla do jaké skupiny lebka patří, nemusela bych to počítat
- Standardizace – pro vzájemné porovnávání
- Když nám vyjdou v tabulce negativní hodnoty – vypovídá to víc o té druhé skupině
- cíle:
- predikční pravidlo
- diskriminační skóre pro každý prvek
- nestandardizované koeficienty pro každou vstupní proměnnou
popiš kanonickou analýzu
- Podobný princip jako u diskriminační analýzy ^{(něco jako její nástavba)}, ale pro více jak 2 skupiny
- Princip:
- CS1 = a1x1 + b1x2 + c1x3 + … + C1
- CS2 = a2x1 + b2x2 + c2x3 + … + C2
- ^Kategorie: např u populační afinity white + negro + latino (=soc.kategorie = imigranti z evropy do ameriky)
- min. 3 proměnné - počet os K-1
- první osa = největší diskriminace mezi centroidy skupin objektů
- kanonické osy jsou aditivní - zahrnují 100%variability; 1.osa odčerpá nejvíc variability
- výstup: kanonická rovnice + skóre + koeficient
- aposteriorní pravděbodobnost vypočtena z Mahal. p (u 3 skupin - 3hodnoty, dohromady dají 100%)
- počítáme vzdálenost objektu k centroidům - ten který mám blíž, do té skupiny patřím
POČET PROMĚNNÝCH BY MĚL BÝT 3X MENŠÍ NEŽ POČET JEDINCŮ

Author

iren

347088

Card Set

08 Základy statistické analýzy

Description

urbanova, jurda

Updated

2019-05-21T13:26:12Z

Show Answers