1950 – systémy zpracování sekundárních informací
1970 – systémy zpracování úplných textů
1990 – digitální knihovny
Zdroje:
- vznik textů přímo v počítači
- potřeba vyhledávat – nejen listovat
- ne vždy možné indexovat
- rozvoj velkých pamětí
- rozvoj komunikací (internet)
Vyhledávání v textech
DOTAZ = požadavek formulovaný v nějakém jazyce
- bývá zadán vzorkem textu (slovo, výraz, část slova), nebo několika vzorky (konjuktivní dotaz)
- Obecněji: Boolský výraz
Odpověď (množina hitů) – texty vyhovující dotazu
Relevance hitu – míra rozsahu, kterou se hit shoduje s požadavkem uživatele
Omezení odpovědi: - maximálně M
- maximálně M nejrelevantnějších
- zadání prahové hodnoty
Obor: INFORMATION RETRIEVAL (vyhledávání informací)
ð nalézt k dotazu relevantní dokumenty (to co chci nalézt je v mase dat, která nechci)
Obor: INFORMATION FILTERING (filtrování informací)
- přiřadit k dokumentu D profily tak, že D je pro ně relevantní (druhý pohled pro vyhledávání)
Žádné komentáře:
Okomentovat