Statistické funkce
Obsah:Mi-score - vzájemná informace (mutual information)
T-score - míra kontrastu
Frekvenční distribuce
Rozložení
Kromě vyhledání příslušného výrazu, určení textů, ze kterých pochází, a jeho uložení pro další zpracování lze v manažeru používat také tzv. statistické funkce. První z nich je absolutní frekvence hledaného výrazu (=KWIC); budeme ji dále značit f(x). Je to základní statistika, kterou získáme při každém vyhledávání a která udává počet výskytů hledaného výrazu x v celém korpusu.
Další statistické funkce se zpravidla počítají pro slova (lemmata, tagy) v zadaném kontextu KWIC. Kontextem zde rozumíme uživatelem zadaný počet pozic před či za hledaným výrazem.. Hodnota absolutní frekvence v kontextu, značená f(x,y), udává počet výskytů libovolného slova y v zadaném kontextu slova x. Relativní frekvence v kontextu fR(x,y) vyjadřuje, kolik procent ze všech výskytů slova y v korpusu se nachází v kontextu slova x, tedy
fR(x,y) = f(x,y)/f(x) . 100%
Dalšími veličinami popisujícími společný výskyt slov jsou mi-score a t-score. Umožňují klasifikovat slova na základě jejich souvýskytu s jinými slovy a identifikovat kolokace.
Mi-score - vzájemná informace (mutual information) Vychází z teorie informace, kde je pro jevy x a y definována takto:
kde P(x) je pravděpodobnost jevu x, P(y) pravděpodobnost jevu y a P(x,y) je pravděpodobnost, že jevy x a y nastanou současně. V našem případě rozumíme P(x) pravděpodobnost výskytu hledaného slova x, podobně P(y) pravděpodobnost výskytu slova y a P(x,y) pravděpodobnost výskytu slova y v kontextu slova x. Jednotlivé pravděpodobnosti můžeme tedy vyjádřit takto:
kde N je velikost korpusu (počet slov).
Po dosazení a úpravě dostaneme:
Nevítanou vlastností mi-score je to, že je velmi ovlivňováno frekvencí jednotlivých slov. Nejvyšších hodnot totiž dosahují dvojice slov s nízkou frekvencí. Z tohoto důvodu umožňuje Bonito při výpočtu mi-score nastavit spodní hranici frekvence a pro slova s absolutní frekvencí pod touto hranicí se potom mi-score nepočítá.
T-score - míra kontrastu
Vychází ze statistické metody testování hypotéz pomocí tzv. t-testu.
V případě kolokací testujeme, zda zjištěné počty výskytů jednotlivých slov a jejich dvojic odpovídají náhodnému rozložení slov v korpusu. Čím vyšší je hodnota t-score, tím méně je pravděpodobné, že jde o náhodné rozložení slov a a naopak tím pravděpodobnější je, že jde o pevnější, ustálenější kombinace slov, tj. o kolokace.
Statistický vzorec pro náhodnou veličinu adaptujeme na rozložení slov v korpusu a jeho zjednodušením dostáváme pro výpočet t-score vztah:

Tyto statistické hodnoty (absolutní frekvence v kontextu, relativní frekvence v kontextu, mi-score, t-score) se v korpusu zadávají k výpočtu v menu Konkordance > Statistiky > Kolokace.
- Nejprve vyhledáme slovo, jehož kolokace chceme statisticky vyhodnocovat
- Klikneme na menu Konkordance > Statistiky > Kolokace a objeví se nám následující okno:
- Zvolíme, pro jaký atribut (slovo, lemma, tag) chceme kolokace počítat.
- Zadáme rozsah kontextu (pozice před KWIC píšeme s minusem).
- Minimální četnost v korpusu a v zadaném kontextu nastavujeme, abychom nepočítali hodnoty pro slova, která jsou v korpusu jen jednou (viz výše mi-score).
- Nastavíme maximální počet zobrazených řádků, ve výpisu budou řazeny sestupně podle statistické hodnoty, kterou zvolíme: relativní nebo absolutní četnost (frekvence).
- Klikneme na tlačítko OK, hodnoty se budou určitou dobu počítat.
Poznámka:
Pozor na zaškrtnutí řádku Setřídit podle četnosti! Při otevření okna je
zaškrtnuta volba relativní - to znamená, že se seznam bude řadit podle ní a MI-scoru.
Celkový výpočet může mít více řádků, než je zadáno v položce Maximální počet
zobrazených řádků, ale nám se zobrazí např. prvních 100, kterou jsou
nastaveny. Chceme-li výpis setřídit podle T-scoru - nestačí v něm přepnout
na sloupec T-score, ale je třeba změnit zadání v okně Výpočet nejčastějších
kolokací na Setřídit podle četnosti absolutní. Může se totiž stát, že
nejvyšší hodnoty T-scoru nepatří mezi prvních 100 zobrazených řádků -
řazených podle MI-scoru a pouhým přetříděním vzniklého seznamu by se nám
vůbec nezobrazily.
Vyhledáme lemma kočka,
v menu Konkordance > Statistiky
> Kolokace zvolíme atribut lemma a další hodnoty jako na
předchozím obrázku a dostaneme následující výsledek:
| Lemma
na 1. pozici za lemmatem kočka |
mi-score | t-score | relativní
frekvence v kontextu |
absolutní
frekvence v kontextu |
| Micinka | 12.89 | 2 | 21.05 | 4 |
| Mouschi | 12.72 | 1.732 | 18.75 | 3 |
| mňoukat | 11.26 | 1.731 | 6.818 | 3 |
| Šklíba | 11.18 | 1.999 | 6.452 | 4 |
| Isabella | 10.12 | 3.159 | 3.086 | 10 |
| Micka | 9.226 | 1.729 | 1.667 | 3 |
| divoká | 9.111 | 2.445 | 1.538 | 6 |
| kotě | 8.775 | 1.995 | 1.22 | 4 |
| zblednout | 8.443 | 1.994 | 0.9685 | 4 |
| přeběhnout | 7.983 | 1.725 | 0.7042 | 3 |
| radostně | 7.158 | 1.72 | 0.3974 | 3 |
| krmit | 7.072 | 1.719 | 0.3745 | 3 |
Na tomto příkladě vidíme, že je nutné nastavení vyšší minimální četnosti v korpusu, neboť vysoké mi-score mají jména koček (Micinka, Mouschi) či jejich majitelky (Isabella), která se vyskytují pouze v jednom dokumentu - podobně jako lemma zblednout za lemmatem kočka se opakovaně vyskytuje v refrénu písně Jiřího Suchého. Další lemmata (mňoukat, divoká, kotě, přeběhnout, radostně, krmit) tvoří často kolokace se slovem kočka.
Absolutní frekvence v kontextu u lemmatu Micinka znamená, že se vyskytuje celkem čtyřikrát na první pozici za lemmatem kočka, což je 21,05% (relativní frekvence v kontextu) ze všech výskytů lemmatu Micinka v celém korpusu, přibližně tedy každý pátý výskyt.
Setřídíme-li výše uvedený seznam podle t-score - kliknutím na T-score v okně Vypočtené nejčetnější kolokace, bude na prvních místech interpunkce, synsémantická slova (a, s, za, nebo, na) a dále lemmata domácí, divoká, černá, ucho, umět. Vysoká hodnota t-score nás upozorňuje, že tyto dvojice se v tomto pořadí za sebou vyskytují mnohem častěji, než by byl náhodný výskyt. Bohužel se zde do popředí dostanou velmi častá slova jako např. spojky (a) a interpunkce. Před použitím t-score je dobré stanovit seznam slov, která nebudou brána v úvahu pří výpočtu t-score.
Výpočet mi-score a t-score pro jednu určitou dvojici či kombinaci pozičních atributů (slovních tvarů, lemmat, morfologických značek) lze provést v menu Korpus > Statistiky. Zadání provedeme obvyklým způsobem podle následujícího obrázku. Po stisku tlačítka Vyhodnotit manažer zobrazí kromě hodnot t-scorre a mi-score také absolutní frekvence obou zadaných výrazů v korpusu a absolutní frekvenci dvojice v zadaném kontextu.
Příklad dalších možností práce s kolokací
- Vyhledáme lemma růžový.
- V menu Konkordance > Statistiky > Kolokace zvolíme v nabídce Atribut položku lemma a počkáme na vyhodnocení.
- Pokud nás v seznamu seřazeném podle hodnoty mi-score zaujme některá kolokace, můžeme na ni použít filtry:
- Pravým tlačítkem myši klikneme na příslušnou kolokaci a objeví se nám nabídka filtrů:
- Vybereme pozitivní filtr (P filtrt) např. pro slovo palouček.
- Stiskneme levé tlačítko myši. V konkordančním seznamu zůstanou pouze slovní spojení, ve kterých stojí vedle slova růžový slovo palouček:
- Okno kolokací můžeme zavřít a pracovat s konkordancí.
- Pokud se chceme vrátit k původní vyhledávce (například pro další práci s filtry), musíme zvolit v menu Konkordance > Zpět k předchozí (Ctrl Z), aby další filtry mohly probíhat na celé vyhledávce.
- Opakovaným použitím N-filtrů můžeme odstranit z vyhledávky konkordance, které nás nezajímají.
- Pokud chceme setřídit kolokace podle hodnot v libovolném sloupci, stačí kliknout levým tlačítkem myši na záhlaví sloupce. Například chceme-li setřídit seznam podle absolutní frekvence, klikneme na záhlaví posledního sloupce (Abs. f) a celý seznam se setřídí.
- Seznam kolokací je možné uložit v textové podobě. Seznam uložíme kliknutím na tlačítko Uložit.
Frekvenční distribuce
Spočítá frekvence slov (lemmat), morfologických značek a jejich posloupností na zadaných pozicích. Umožňuje zvolit více pozic při jednom zadání. Frekvence jednotlivých pozic lze sčítat, případně skrýt zobrazení výsledku některé ze zadaných pozic. Pozice vlevo od vyhledaného výrazu (KWIC) označujeme zápornými čísly. Naopak pozice vpravo označují kladná čísla:
-4 -3 -2 -1
0 1 2 3
4
němž byl zlatem vyšitý lev
judský po stranách s
Příklad zadání frekvenční
distribuce pro slovní spojení za hlavu.
- Vyhledáme slovní spojení hodit za hlavu následujícím dotazem: [word="za"] [word="hlavu"]
- Zvolíme menu Konkordance > Statistiky > Frekvenční distribuce.
- Otevře se okno Frekvenční distribuce, kde do vstupních polí vyplníme hodnoty podle následujícího obrázku. Vstupní pole pro druhou pozici vyvoláme stiskem tlačítka Přidat:
- Zatrhneme volbu Ignorovat velikost; při vytváření frekvenčního seznamu nebude tedy brán zřetel na velikost písmen.
Uvedené zadání spočítá frekvence slov na první a druhé pozici před vyhledaným slovním spojením. Hodnota uvedená u vstupního pole Limit určuje, hranici frekvence slov, která se nebudou zobrazovat. Hodnota 0 znamená, že budou zobrazena všechna slova. Hodnota například 3 znamená, že budou zobrazena slova s frekvencí 4 a vyšší. Limit lze později omezit v okně s výsledky výpočtu frekvenční distribuce.
- Stiskneme tlačítko OK. Manažer spočítá frekvence a zobrazí následující výsledek:
V okně Výsledek frekvenční distribuce vidíme zobrazené dvě zadané pozice předcházející vyhledanému slovnímu spojení.
Rozložení
Zobrazí okno, ve kterém je graficky znázorněno rozložení vyhledaného výrazu v rámci celého korpusu. Na ose x jsou jednotlivé pozice korpusu, na ose y je počet výskytů v daném místě korpusu. Pokud jsou řádky konkordančního seznamu v celém korpusu rovnoměrně rozloženy, jsou jednotlivé čáry v grafu stejně dlouhé a jsou zobrazeny rovnoměrně po celé délce okna. Pokud je naopak většina řádků pouze z jednoho "místa" korpusu (například z jedné knihy) je v části okna výrazně více delších čar. Míru rovnoměrnosti rozložení hledaného výrazu v korpuse vyjadřuje redukovaná četnost (ARF).
Jednotlivé texty jsou v korpusech SYN2000 a FSC2000 zařazeny následujícím způsobem:
- podle typu textu v tomto pořadí: romány, povídky, literatura faktu, ostatní imaginativní literatura, poezie, písňové texty, dramatické texty, vědecká literatura, populárně naučná literatura, učebnice, texty encyklopedického charakteru, administrativní texty, smíšené texty, publicistické texty;
- v rámci textových typů abecedně podle zkratek žánrů;
- v rámci žánrů vzestupně podle roku;
- v rámci roku abecedně podle kódů jednoznačně identifikujících text.
To znamená, že na začátku korpusu je beletrie, následují odborné texty a na konci jsou noviny. Graf Rozložení neumožňuje sice přesně rozeznat hranice jednotlivých kategorií, ale postačuje pro základní orientaci, zda jde např. o slovo hojně používané v publicistice či spíše v oblasti beletrie apod.
Jako příklad si ukážeme rozložení
výskytů tvaru nový v korpusu SYN 2000:
- Zvolíme korpus SYN2000.
- Vyhledáme slovní tvar nový.
- Zvolíme menu Konkordance > Statistiky > Rozložení.
- Po chvíli se objeví následující graf:
Z obrázku vyplývá, že tvar nový je ve zvoleném korpuse rozložen víceméně rovnoměrně. Pro slovní tvar tebe dostaneme tento graf:
Ze srovnání obou grafů vyplývá, že slovní tvar tebe není v korpuse rozložen tak rovnoměrně jako tvar nový. Vyskytuje se převážně v beletrii.
Zobrazená čísla udávají počet všech výskytů hledaného výrazu a redukovanou četnost (ARF).
Okno rozložení může sloužit i pro rychlé přemístění do "zajímavé" části konkordance. Kliknutím na libovolnou čáru v grafu se aktuální řádek konkordančního seznamu přemístí na řádek odpovídající zvolené čáře pod kurzorem myši (zvolená čára se zvýrazní červeně).
