hledat:    
 
 

Redukovaná četnost

Jaroslava Hlaváčová

Ústav formální a aplikované lingvistiky MFF UK

Redukovaná četnost je číselný údaj, který nám umožní udělat si lepší představu o běžnosti slov v češtině. Pouhá četnost slova v korpusu může být zavádějící. Vysvětlíme si to na příkladu.

Předpokládejme, že jsme nalezli v korpusu dvě slova se stejnou četností. První z nich se nachází pouze v jediném dokumentu, zatímco druhé je víceméně rovnoměrně rozprostřeno po celém korpusu. Druhé slovo bude pravděpodobně běžnější než to první, ale z vypočítané četnosti se to nedozvíme. Proto jsme zavedli tzv. redukovanou četnost.

Definujeme ji následujícím způsobem. Označme si písmenem f četnost (frekvenci) daného slova v korpusu. Rozdělíme pozice v celém korpusu do f stejně velkých úseků. Pokud je celkový počet slov v korpusu dělitelný číslem f, budou úseky stejně velké; v opačném případě se mohou o jednu pozici lišit. Redukovaná četnost je potom počet úseků, ve kterých se dané slovo (alespoň jednou) nachází.

První slovo z našeho příkladu bude mít redukovanou četnost buď 1, padnou-li všechny jeho výskyty do jednoho úseku, nebo 2, jestliže náhodou bude hranice mezi dvěma úseky uprostřed shluku výskytů. Druhé slovo bude mít redukovanou četnost mnohem vyšší. V krajním případě může být teoreticky redukovaná četnost stejná jako četnost, a to v tom případě, že každý výskyt daného slova padne do jednoho úseku. Prakticky se toto většinou nestává, alespoň ne pro slova s vyšší četností.