hledat:    
 
 

Statistické funkce

Obsah:
Mi-score - vzájemná informace (mutual information)
T-score - míra kontrastu
Frekvenční distribuce
Rozložení

Kromě vyhledání příslušného výrazu, určení textů, ze kterých pochází, a jeho uložení pro další zpracování lze v manažeru používat také tzv. statistické funkce. První z nich je absolutní frekvence hledaného výrazu (=KWIC); budeme ji dále značit f(x). Je to základní statistika, kterou získáme při každém vyhledávání a která udává počet výskytů hledaného výrazu x v celém korpusu.

Další statistické funkce se zpravidla počítají pro slova (lemmata, tagy) v zadaném kontextu KWIC. Kontextem zde rozumíme uživatelem zadaný počet pozic před či za hledaným výrazem.. Hodnota absolutní frekvence v kontextu, značená f(x,y), udává počet výskytů libovolného slova y v zadaném kontextu slova x. Relativní frekvence v kontextu fR(x,y) vyjadřuje, kolik procent ze všech výskytů slova y v korpusu se nachází v kontextu slova  x, tedy

fR(x,y) = f(x,y)/f(x) . 100%

Dalšími veličinami popisujícími společný výskyt slov jsou mi-score a t-score. Umožňují klasifikovat slova na základě jejich souvýskytu s jinými slovy a identifikovat kolokace.

Mi-score - vzájemná informace (mutual information)

Vychází z teorie informace, kde je pro jevy x a y definována takto:


kde P(x)  je pravděpodobnost jevu x, P(y)  pravděpodobnost jevu y a P(x,y) je pravděpodobnost, že jevy x a y nastanou současně. V našem případě rozumíme P(x) pravděpodobnost výskytu hledaného slova x, podobně P(y) pravděpodobnost výskytu slova y a P(x,y) pravděpodobnost výskytu slova y v kontextu slova x. Jednotlivé pravděpodobnosti můžeme tedy vyjádřit takto:

kde N  je velikost korpusu (počet slov).
Po dosazení a úpravě dostaneme:

Nevítanou vlastností mi-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňuje Bonito při výpočtu mi-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá.

T-score - míra kontrastu

Vychází ze statistické metody testování hypotéz pomocí tzv. t-testu.

V případě kolokací testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota t-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.

Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah:

Tyto statistické hodnoty (absolutní frekvence v kontextu, relativní frekvence v kontextu, mi-score, t-score) se v korpusu zadávají k výpočtu v menu Konkordance > Statistiky > Kolokace.

Poznámka:
Pozor na zaškrtnutí řádku Setřídit podle četnosti! Při otevření okna je zaškrtnuta volba relativní - to znamená, že se seznam bude řadit podle ní a MI-scoru. Celkový výpočet může mít více řádků, než je zadáno v položce Maximální počet zobrazených řádků, ale nám se zobrazí např. prvních 100, kterou jsou nastaveny. Chceme-li výpis setřídit podle T-scoru - nestačí v něm přepnout na sloupec T-score, ale je třeba změnit zadání v okně Výpočet nejčastějších kolokací na Setřídit podle četnosti absolutní. Může se totiž stát, že nejvyšší hodnoty T-scoru nepatří mezi prvních 100 zobrazených řádků - řazených podle MI-scoru a pouhým přetříděním vzniklého seznamu by se nám vůbec nezobrazily.

Vyhledáme lemma kočka, v menu Konkordance > Statistiky > Kolokace zvolíme atribut lemma a další hodnoty jako na předchozím obrázku a dostaneme následující výsledek:

Lemma
na 1. pozici
za lemmatem
kočka
mi-score t-score relativní
frekvence v kontextu 
absolutní
frekvence v kontextu 
Micinka 12.89  2 21.05  4
Mouschi 12.72 1.732 18.75  3
mňoukat 11.26 1.731  6.818  3
Šklíba 11.18 1.999  6.452  4
Isabella 10.12 3.159  3.086 10
Micka  9.226 1.729  1.667  3
divoká  9.111 2.445  1.538  6
kotě  8.775 1.995  1.22  4
zblednout  8.443 1.994  0.9685  4
přeběhnout  7.983 1.725   0.7042  3
radostně  7.158 1.72  0.3974  3
krmit  7.072 1.719  0.3745  3

Na tomto příkladě vidíme, že je nutné nastavení vyšší minimální četnosti v korpusu, neboť vysoké mi-score mají jména koček (Micinka, Mouschi) či jejich majitelky (Isabella), která se vyskytují pouze v jednom dokumentu - podobně jako lemma zblednout za lemmatem kočka se opakovaně vyskytuje v refrénu písně Jiřího Suchého. Další lemmata (mňoukat, divoká, kotě, přeběhnout, radostně, krmit) tvoří často kolokace se slovem kočka.

Absolutní frekvence v kontextu u lemmatu Micinka znamená, že se vyskytuje celkem čtyřikrát na první pozici za lemmatem kočka, což je 21,05% (relativní frekvence v kontextu) ze všech výskytů lemmatu Micinka v celém korpusu, přibližně tedy  každý pátý výskyt.

Setřídíme-li výše uvedený seznam podle t-score - kliknutím na T-score v okně Vypočtené nejčetnější kolokace, bude na prvních místech interpunkce, synsémantická slova (a, s, za, nebo, na) a dále lemmata domácí, divoká, černá, ucho, umět. Vysoká hodnota t-score nás upozorňuje, že tyto dvojice se v tomto pořadí za sebou vyskytují mnohem častěji, než by byl náhodný výskyt. Bohužel se zde do popředí dostanou velmi častá slova jako např. spojky (a) a interpunkce. Před použitím t-score je dobré stanovit seznam slov, která nebudou brána v úvahu pří výpočtu t-score.

Výpočet mi-score a t-score pro jednu určitou dvojici či kombinaci pozičních atributů  (slovních tvarů, lemmat, morfologických značek) lze provést v menu Korpus > Statistiky. Zadání provedeme obvyklým způsobem podle následujícího obrázku. Po stisku tlačítka Vyhodnotit manažer zobrazí kromě hodnot t-scorre a mi-score také absolutní frekvence obou zadaných výrazů v korpusu a absolutní frekvenci dvojice v zadaném kontextu.

Příklad dalších možností práce s kolokací

Poznámky:

Frekvenční distribuce

Spočítá frekvence slov (lemmat), morfologických značek a jejich posloupností na zadaných pozicích. Umožňuje zvolit více pozic při jednom zadání. Frekvence jednotlivých pozic lze sčítat, případně skrýt zobrazení výsledku některé ze zadaných pozic. Pozice vlevo od vyhledaného výrazu (KWIC) označujeme zápornými čísly. Naopak pozice vpravo označují kladná čísla:

-4   -3  -2     -1      0  1      2  3        4
němž byl zlatem vyšitý lev judský po stranách s

Příklad zadání frekvenční distribuce pro slovní spojení za hlavu.

Uvedené zadání spočítá frekvence slov na první a druhé pozici před vyhledaným slovním spojením. Hodnota uvedená u vstupního pole Limit určuje, hranici frekvence slov, která se nebudou zobrazovat. Hodnota 0 znamená, že budou zobrazena všechna slova. Hodnota například 3 znamená, že budou zobrazena slova s frekvencí 4 a vyšší. Limit lze později omezit v okně s výsledky výpočtu frekvenční distribuce.

V okně Výsledek frekvenční distribuce vidíme zobrazené dvě zadané pozice předcházející vyhledanému slovnímu spojení.

Rozložení

Zobrazí okno, ve kterém je graficky znázorněno rozložení vyhledaného výrazu v rámci celého korpusu. Na ose x jsou jednotlivé pozice korpusu, na ose y je počet výskytů v daném místě korpusu. Pokud jsou řádky konkordančního seznamu v celém korpusu rovnoměrně rozloženy, jsou jednotlivé čáry v grafu stejně dlouhé a jsou zobrazeny rovnoměrně po celé délce okna. Pokud je naopak většina řádků pouze z jednoho "místa" korpusu (například z jedné knihy) je v části okna výrazně více delších čar. Míru rovnoměrnosti rozložení hledaného výrazu v korpuse vyjadřuje redukovaná četnost (ARF).

Jednotlivé texty jsou v korpusech SYN2000 a FSC2000 zařazeny následujícím způsobem:

  1. podle typu textu v tomto pořadí: romány, povídky, literatura faktu, ostatní imaginativní literatura, poezie, písňové texty, dramatické texty, vědecká literatura, populárně naučná literatura, učebnice, texty encyklopedického charakteru, administrativní texty, smíšené texty, publicistické texty;
  2. v rámci textových typů abecedně podle zkratek žánrů;
  3. v rámci žánrů vzestupně podle roku;
  4. v rámci roku abecedně podle kódů jednoznačně identifikujících text.

To znamená, že na začátku korpusu je beletrie, následují odborné texty a na konci jsou noviny. Graf Rozložení neumožňuje sice přesně rozeznat hranice jednotlivých kategorií, ale postačuje pro základní orientaci, zda jde např. o slovo hojně používané v publicistice či spíše v oblasti beletrie apod.

Jako příklad si ukážeme rozložení výskytů tvaru nový v korpusu SYN 2000:

Z obrázku vyplývá, že tvar nový je ve zvoleném korpuse rozložen víceméně rovnoměrně. Pro slovní tvar tebe dostaneme tento graf:

Ze srovnání obou grafů vyplývá, že slovní tvar tebe není v korpuse rozložen tak rovnoměrně jako tvar nový. Vyskytuje se převážně v beletrii.

Zobrazená čísla udávají počet všech výskytů hledaného výrazu a redukovanou četnost (ARF).

Okno rozložení může sloužit i pro rychlé přemístění do "zajímavé" části konkordance. Kliknutím na libovolnou čáru v grafu se aktuální řádek konkordančního seznamu přemístí na řádek odpovídající zvolené čáře pod kurzorem myši (zvolená čára se zvýrazní červeně).