-
KODIRANJE ZNAKOV
Določa kako se koda znaka dejansko zapiše v obliki bajtov
-
ASCII opis
- American Standard Code for Information Interchange
- 7 bitna kodna tabela, 128 kod, 95 izpisljivih znakov in 33 kontrolnih
-
UCS
- Universal Character Set
- 32 bitov
- 4 dimenzionalna kocka
- 256 skupin
- 256 ravnin
- 256 vrst
- 256 znakov
-
UTF-8
- ascii znake 0 do 7f predstavi z enim znakom
- ostale nad 80 z dvema do štirimi bajti
-
KAKO ZAPIŠEMO OBLIKOVANO BESEDILO in s čim ga lahko pregledujemo?
- Z označevalskimi jeziki html, latex
- Za pregled uporabljamo pregledovalnik oz parser
-
KAJ JE INVERTED INDEX
- Imamo več dokumentov ki predstavljajo sezname besed
- za vsako besedo naredimo seznam dokumentov ki to besedo vsebujejo
- Primer:
- Brutos -> 1, 2, 4, 11, 31, 45
- Caesar -> 1,2,4,5,6
- Calpurnia -> 2,31,54,101
- Koraki pri gradnji:
- 1.Izberemo dokumente za indeksiranje
- 2.Iz dokumentov izločimo besede
- 3.besede pretvorimo v simbole(samo damo vse v malo zacetnico)
- 4.zgradimo obrnjen index
-
BOOLOVI IZRAZI
- Brotus and Caesar
- Gremo čez inverted indekse in iščemo če se pojavijo kaki skupni dokumenti
- Sprehodimo se skozi najkrajšega.
-
PRETVORBA BESED, NORMALIZACIJA
- Znebimo se raznik vezajev
- Pretvorimo v mali crke
-
KORENJENJE
- Odrežemo konce besed
- Pravilo ies -> i ponies v poni
- Pravilo S cats v cat
-
LEMATIZACIJA
- Bolj kompleksno kot korenjenje
- Besede pretvorimo v nevtralno obliko
- am, are, is -> be
-
POHITRIREV OBRNJENEGA INDEKSA
- To je v bistvu linked list ki ima po vrsti urejene elemente
- Lahko uvedemo dodatne kazalce za preskakovanje po dokumenih, tako da iskanje ni linearno
- Problem koliko skokov postaviti
- Dobra praksa je sqrt(dolzina seznama dokumentov)
-
POZICIJSKI INDEX PRI OBRNJENEMU INDEKSU
- V obrnjen indeks shranimo še poločaj v dokumentu
- Obrnjen indeks lahko predstavlja od 35 do 50% velikosti dokumenta
-
B-drevo
- vsako vozljišče ima lahko več naslednjikov a intervalu [a,b]
- je uravnoteženo - vsi listi so na enaki globini
-
Računanje razdalj med besedami
Koliko najmanj operacij potrebujemo, da niz s1 pretvorimo v s2
-
Levenshteinova razdalja
Gradimo matriko vseh možnih pretvorb iz ene oblike v drugo
-
Soundex
Najde fonetično razdaljo med besedami, glede nato kako so si podobne ob angleški izgorjavi
-
Rangiranje dokumentov
- Rangiranje nam prikaže najpomembnejše dokumente najprej
- Besede ki se pogosto uporabljajo v dokumentih niso tako pomembne
- Zato lahko damo prednost dokumentom, ki imajo bolj redke besede
-
Iskanje v vektorskem prostoru
Elemente lahko predstavimo kot vektor v prostoru in računamo razdalje med njimi
|
|