MT_BESEDILO

  1. KODIRANJE ZNAKOV
    Določa kako se koda znaka dejansko zapiše v obliki bajtov
  2. ASCII opis
    • American Standard Code for Information Interchange
    • 7 bitna kodna tabela, 128 kod, 95 izpisljivih znakov in 33 kontrolnih
  3. UCS
    • Universal Character Set
    • 32 bitov
    • 4 dimenzionalna kocka
    • 256 skupin
    • 256 ravnin
    • 256 vrst
    • 256 znakov
  4. UTF-8
    • ascii znake 0 do 7f predstavi z enim znakom
    • ostale nad 80 z dvema do štirimi bajti
  5. KAKO ZAPIŠEMO OBLIKOVANO BESEDILO in s čim ga lahko pregledujemo?
    • Z označevalskimi jeziki html, latex
    • Za pregled uporabljamo pregledovalnik oz parser
  6. KAJ JE INVERTED INDEX
    • Imamo več dokumentov ki predstavljajo sezname besed
    • za vsako besedo naredimo seznam dokumentov ki to besedo vsebujejo
    • Primer:
    • Brutos -> 1, 2, 4, 11, 31, 45
    • Caesar -> 1,2,4,5,6
    • Calpurnia -> 2,31,54,101
    • Koraki pri gradnji:
    • 1.Izberemo dokumente za indeksiranje
    • 2.Iz dokumentov izločimo besede
    • 3.besede pretvorimo v simbole(samo damo vse v malo zacetnico)
    • 4.zgradimo obrnjen index
  7. BOOLOVI IZRAZI
    • Brotus and Caesar
    • Gremo čez inverted indekse in iščemo če se pojavijo kaki skupni dokumenti
    • Sprehodimo se skozi najkrajšega.
  8. PRETVORBA BESED, NORMALIZACIJA
    • Znebimo se raznik vezajev
    • Pretvorimo v mali crke
  9. KORENJENJE
    • Odrežemo konce besed
    • Pravilo ies -> i ponies v poni
    • Pravilo S cats v cat
  10. LEMATIZACIJA
    • Bolj kompleksno kot korenjenje
    • Besede pretvorimo v nevtralno obliko
    • am, are, is -> be
  11. POHITRIREV OBRNJENEGA INDEKSA
    • To je v bistvu linked list ki ima po vrsti urejene elemente
    • Lahko uvedemo dodatne kazalce za preskakovanje po dokumenih, tako da iskanje ni linearno
    • Problem koliko skokov postaviti
    • Dobra praksa je sqrt(dolzina seznama dokumentov)
  12. POZICIJSKI INDEX PRI OBRNJENEMU INDEKSU
    • V obrnjen indeks shranimo še poločaj v dokumentu
    • Obrnjen indeks lahko predstavlja od 35 do 50% velikosti dokumenta
  13. B-drevo
    • vsako vozljišče ima lahko več naslednjikov a intervalu [a,b]
    • je uravnoteženo - vsi listi so na enaki globini
  14. Računanje razdalj med besedami
    Koliko najmanj operacij potrebujemo, da niz s1 pretvorimo v s2
  15. Levenshteinova razdalja
    Gradimo matriko vseh možnih pretvorb iz ene oblike v drugo
  16. Soundex
    Najde fonetično razdaljo med besedami, glede nato kako so si podobne ob angleški izgorjavi
  17. Rangiranje dokumentov
    • Rangiranje nam prikaže najpomembnejše dokumente najprej
    • Besede ki se pogosto uporabljajo v dokumentih niso tako pomembne
    • Zato lahko damo prednost dokumentom, ki imajo bolj redke besede
  18. Iskanje v vektorskem prostoru
    Elemente lahko predstavimo kot vektor v prostoru in računamo razdalje med njimi
Author
wolf
ID
350390
Card Set
MT_BESEDILO
Description
FDS
Updated