Boolský model: P vs. R
- upřesňováním dotazu v Boolském modelu získáváme větší P, ale menší R
Př. pokus (Blair, Maron 1985) – 40 000 právnických textů o dopravních nehodách, Cíl: nejen vysoké P ale i R., Výsledky: P=80%, R=20% - málo!!! (teoreticky 100%), Problém synonym – obecný jazyk, nelze zachytit tezaurem (Př. nehoda, neštěstí, srážka, karambol,...)
- automatická indexace neodstraní tyto problémy
Boolský model –problémy
- co ovlivňuje vztah P a R?
- problémy s ručně indexovanými systémy
Neurčitost
- v indexování – vliv indexátora
- ve výběru termu pro dotaz – vliv tazatele
Kritérium predikce
- jak zajistit shodu mezi výběrem termů pro dotaz a dokumenty (dnes: podobnost ontologií)
- metoda odstraňování neurčitosti
Kritérium maxima
- lze zvládnout 20-50 hitů
Problémy s databází úplných textů
- velikost databáze (vs. kritérium maxima)
- výběr termů pro dotaz (přecenění eliminace indexátorů, zůstává neurčitost tazatele)
- jednostranné chování tazatele (tendence měnit poslední rozhodnutí, zachovat první kroky)
Řízení neurčitosti ve výběru termů pro dotaz
- najdeme D s vysokou relevancí pro uživatele (D je znám + je známo, že je v databázi)
- termy pro dotaz jsou vybrány z D
- odstraňování termů, resp. jejich nahrazování disjunkcemi → zmenšování neurčitosti tazatele
Žádné komentáře:
Okomentovat