PR vprasanja

  1. S čim se ukvarja podatkovno rudarjenje?
    • Odkrivanje zakonitosti v podatkih
    • Odkrivanje znanja iz podatkov
    • Iskanje uporabnih vzorcev v podatkih
  2. Proces odkrivanja znanja iz podatkov:
    CRISP-DM
    CRISP-DM(Cross Industry Standard Process for Data Mining)

    Opisuje pristope za planiranje Podatkovnega rudarjenja

    Ta model opisuje zaporedje dogodkov pri procesu strojnega učenja.


    Je model ki ima 6 procesov podatkovnega rudarjenja od začetka do konca, predvsem se uporablja v industrijah za data mining projects.


    • Image Upload 1
    • OPIS KORAKOV:

    Bussiness Understanding:

    S poslovnega vidika poskušam ugotoviti kaj hočem


    Data Understanding

    • Razumeti prednosti in slabosti izbranih podatkov
    • Koliko nas finančno stane da zberemo podatke


    Data preparation

    • Pretvorim podatke v tabelarno zapis 
    • Odstranim ali spremenim mankajoče podatke


    Modeling

    • Izberem tehniko modeliranja
    • Testiram robustnost modela
    • Zgradim model
    • Če modeli ne delujejo dobro se vrnem na data preparation


    Evaluation:

    • Preverim ali so rezultati dobri
    • Zanima me predvsem ali model zadovoljuje poslovne cilje
    • Če jih ne se vrnem na Bussiness Understanding



    Deployment:

    • Planiramo kako spraviti v produkcijo
    • Ocenimo uspešnost projekta
  3. Proces odkrivanja znanja iz podatkov: SEMMA
    Image Upload 2

    • Sample: Vzorčenje podatkov
    • Explore: Razumevanje podatkov z vizualizacijo, pričakovani, nepričakovani podatki
    • Modify: Izbiranje in transformiranje atributov
    • Model: modeliranje- Uporaba metod podatkovnega rudarjenja in strojnega učenja 
    • Access: Ocenjevanje zanesljivosti in uporabnost modelov 

    Kot vidimo je tu poslovni del izvzet
  4. SEMMA vs CRISP-DM
    • Cikelj ni predviden
    • Poslovni del je izvzet
  5. Modeliranje
    Model je lahko: Klasifikator ali regresor

    • Model definicija:
    • Je formalno zapisano pravilo s katerim lahko iz vrednosti znanih spremenljivk napovemo vrednosti neznanih.

    • Primeri enostavnih modelov:
    • naivni Bayesov klasifikator
    • drevesa
    • Povezovalna pravila(kdor kupi šunko kupi tudi sir)
    • Linearna regresija

    • Izogibali se bomo črnim škatlam, ki ne nudijo vpogleda v odločitev:
    • Nevronske mreže
    • Metoda podpornih vektorjev
  6. Kako vrednotimo modele?
    • Priprava ločenih testnih podatkov
    • Preverjanje modelov na testnih podatkih
    • Uporaba statistik:
    •    Klasifikacijska točnost
    •    Površina pod krivuljo ROC
  7. Tabelarični podatki
    Ponavadi delamo s podatki v tabelarični obliki ali relaciji med pari objektov.


    • Stolpci:


    • Atribut, spremenljivka, lastnost, značilka:
    •     - zvezna(višina, starost)
    •     - diskretna (Spol, barve)
    •     - Razred (posebna spremenljivka ki jo želimo napovedati)


    • Vrstice: (primeri, meritve, vzorci)
    • Vzorec: (množica učnih in testnih primerov)
  8. Kaj naredimo če podatki mankajo v tabeli pri strojnem učenju
    Lahko uporabimo metode, ki jih ignorirajo (Bayes)

    Če jih manjka preveč provamo napovedati iz drugih atributov, lahko pa vstavimo tudi najpogostejšo ali povprečno vrednost.
Author
wolf
ID
347292
Card Set
PR vprasanja
Description
eee
Updated