hledat:    
 

Srovnávací frekvenční seznamy z korpusů SYN2000 a SYN2005

Michal Křen

Obsah:
Popis údajů ve srovnávacích frekvenčních seznamech
Příklady jejich použití a interpretace
Jak citovat srovnávací frekvenční seznamy
Download

SYN2000 a SYN2005 jsou synchronní reprezentativní korpusy současné psané češtiny, z nichž každý obsahuje 100 milionů textových slov (tokens). Oba korpusy však mají kromě těchto shodných rysů také celou řadu rysů rozdílných, které se týkají jak složení textů, tak jejich zpracování; o těchto rozdílech je podrobněji pojednáno na stránce popisující korpus SYN2005. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat frekvence jednotlivých slov v obou korpusech a vyvozovat z tohoto srovnání závěry o jazykovém vývoji. Hodnoty absolutní frekvence (tedy prostý součet všech výskytů daného slovního tvaru nebo lemmatu v korpusu) mohou totiž být rozdíly ve složení a zpracování obou korpusů výrazně ovlivněny. Tato stránka proto nabízí srovnávací frekvenční seznamy z obou korpusů, které uvádějí kromě absolutní frekvence i další údaje, které přímé srovnání umožňují. Protože jsou oba korpusy lemmatizované, týkají se tyto seznamy nejenom slovních tvarů, ale také lemmat.

K rozdílům mezi oběma korpusy patří odlišný způsob tokenizace7 (rozdělení korpusu na jednotlivé slovní tvary - tokens), segmentace (rozdělení korpusu na věty), a samozřejmě také novější verze lemmatizace (přiřazení lemmatu každému výskytu každého slovního tvaru v korpusu). Aby bylo možné tento vliv pro srovnání korpusů eliminovat, bylo třeba korpus SYN2000 přetokenizovat (tj. zpracovat novější verzí tokenizace a segmentace) a nově zlemmatizovat stejnými verzemi všech těchto programů, kterými byl zpracován také korpus SYN2005. Tato změna se nijak neprojevila ve vlastním korpusu SYN2000, který je jako neměnná referenční entita veřejně přístupný pomocí korpusového manažeru Bonito. Vznikla však interně a pouze pro toto srovnání nová verze korpusu SYN2000 s aktualizovanou tokenizací, segmentací a lemmatizací, k níž se vztahují veškeré dále uváděné frekvenční údaje. Tím byla na jedné straně zajištěna srovnatelnost obou korpusů, co se tokenizace, segmentace a lemmatizace týče, na straně druhé to však znamená, že se hodnoty absolutní frekvence ve třetím sloupci souborů syn2000_word a syn2000_lemma mohou lišit od frekvencí, které udává pro korpus SYN2000 korpusový manažer Bonito. Dále je třeba si uvědomit, že se změnou tokenizace korpusu se většinou změní i jeho velikost; např. korpus SYN2000 se po přetokenizování "zmenšil" na 96,23 mil. slov. Tento příklad názorně ukazuje, že ani zdánlivě jasné a samozřejmé údaje, mezi které patří například velikost korpusu, nejsou jednoznačně dané, a že i ony závisejí na množství dalších faktorů. Protože se ale korpus SYN2005 nijak neměnil, a jeho velikost tedy "zůstala" 100 milionů slov, bylo třeba rozdílnou velikost obou srovnávaných korpusů vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Veškeré přepočítané frekvence (viz další odstavec) jsou proto normalizovány vzhledem ke korpusu o velikosti přesně 100 milionů slov.

Patrně nejpodstatnějším rozdílem mezi oběma korpusy je odlišné pojetí jejich reprezentativnosti a z toho plynoucí rozdíl v jejich složení (blíže opět zde), díky němuž je používání absolutní frekvence pro srovnání obou korpusů nevhodné. Vedle absolutní frekvence proto pro každé slovo v příslušném korpusu (SYN2000 nebo SYN2005) uvádíme také čtyři frekvence přepočítané, a to tři parciální (oborové) a jednu celkovou, která je vždy součtem parciálních (až na možný malý rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla absolutní frekvence daného slova ve 100 milionovém srovnávacím korpusu, ve kterém by byly všechny tři hlavní obory (beletrie, odborná literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každého hlavního oboru, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává absolutní frekvenci daného slova v příslušném hlavním oboru takového srovnávacího korpusu. Jde o podobné řešení jako v případě Frekvenčního slovníku češtiny, který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých hlavních oborech, pokud by tyto hlavní obory byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi korpusy SYN2000 a SYN2005 navzájem.

Popis údajů ve srovnávacích frekvenčních seznamech


Výsledné frekvenční seznamy jsou uloženy v textových souborech, z jejichž názvů je patrné, zda uvádějí slovní tvary nebo lemmata a kterého se týkají korpusu; tyto soubory můžete najít na konci tohoto textu. Každý z nich se skládá ze sedmi sloupců oddělených tabelátory a zahrnuje v pořadí podle absolutní frekvence všechna slova, jejichž absolutní frekvence v příslušném korpusu byla větší nebo rovna deseti. Slovem je zde míněna taková pozice (slovní tvar nebo lemma), která obsahuje alespoň jeden alfabetický znak a neobsahuje žádnou číslici; to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka.

1. sloupec - rank (pořadí podle absolutní frekvence)
2. sloupec - slovo
3. sloupec - absolutní frekvence
4. sloupec - celková přepočítaná frekvence
5. sloupec - parciální přepočítaná frekvence pro beletrii
6. sloupec - parciální přepočítaná frekvence pro odbornou literaturu
7. sloupec - parciální přepočítaná frekvence pro publicistiku

Pro zájemce nyní uvádíme přesný vzorec pro výpočet přepočítaných frekvencí. Označme f absolutní frekvenci daného slova v příslušném korpusu (SYN2000 nebo SYN2005) a fa, fb, fc jeho parciální absolutní frekvence v hlavních oborech tohoto korpusu (beletrii, odborné literatuře a publicistice) tak, že fa + fb + fc = f. Označme dále a, b, c podíly velikostí hlavních oborů a velikosti celého korpusu; tyto podíly jsou tedy pro příslušný korpus konstantní a platí a + b + c = 1. Celková přepočítaná frekvence daného slova je potom dána vzorcem:

vzorec1

kde k je pro příslušný korpus normalizační konstanta, jejíž hodnotou je poměr 100 000 000 a přesné velikosti korpusu (pro korpus SYN2000 činí tato konstanta po zaokrouhlení 1,0392, pro korpus SYN2005 1,0000). Jednotlivé parciální přepočítané frekvence jsou pro každý hlavní obor dány takto:

vzorec2 vzorec3 vzorec4

Chceme-li si ozřejmit význam vzorce pro parciální přepočítanou frekvenci, stačí si uvědomit, že první podíl (např. fa/a) udává, jaká by byla frekvence daného slova v korpusu, který by se skládal pouze z textů určitého oboru. Vydělíme-li tuto frekvenci třemi, dostaneme frekvenci daného slova ve třetině takového korpusu, tedy vlastně jeho parciální absolutní frekvenci v korpusu, ve kterém jsou všechny obory zastoupené právě jednou třetinou. Tato frekvence je konstantou k již pouze normalizována vzhledem ke stomilionovému korpusu. Součtem fpa + fpb + fpc = fp pak dostáváme vzorec pro výpočet celkové přepočítané frekvence.

Vezměme nyní jako příklad slovní tvar tebe, jehož absolutní frekvence v beletristické části korpusu SYN2005 je 9090, tedy fa = 9090. Protože beletrie v korpusu SYN2005 čítá 40 021 543 slovních tvarů a přesná velikost korpusu SYN2005 je 99 997 753, dostáváme a = 40 021 543 / 99 997 753 = 0,4002. Pokud by se tedy celý korpus SYN2005 skládal pouze z beletrie, byla by frekvence tohoto tvaru v korpusu fa/a = 22 714. Po vynásobení této frekvence zlomkem k/3 dostáváme parciální přepočítanou frekvenci tvaru tebe pro beletrii v korpusu SYN2005, která je 7571.

Závěrem této části textu považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s frekvencemi absolutními. Například platí stejně jako pro absolutní frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom něco přes 96 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.

Příklady jejich použití a interpretace

Ve srovnávacích frekvenčních seznamech slovních tvarů najdeme následující řádky:

syn2000   2043 tebe 4592 8702 7875 513 314
syn2005 897 tebe 9751 8300 7571 337 393

Tyto údaje nám říkají, že absolutní frekvence tvaru tebe v korpusu SYN2000 je 4592, což je 2043. nejvyšší hodnota absolutní frekvence v korpusu SYN2000 (všechny tvary se stejnou absolutní frekvencí mají týž rank). Absolutní frekvence tvaru tebe v korpusu SYN2005 je přitom 9751, tedy více než dvojnásobná, což odráží také rank - jde o 897. nejčastější tvar v tomto korpusu. Z toho by mohl nepoučený uživatel vyvodit závěr, že se frekvence užívání tohoto tvaru v poslední době výrazně zvýšila. Po srovnání přepočítaných frekvencí, které jsou pro nový korpus spíše nižší (i když nepříliš výrazně), se však ukáže, že tomu tak ve skutečnosti není. Největší rozdíl v parciální přepočítané frekvenci nacházíme v odborné literatuře, kde jde o pokles o 176 výskytů, tedy cca o 34 %, přičemž celková přepočítaná frekvence zaznamenala pokles pouze o necelých 5 % (8300 oproti 8702). Vidíme tedy, že původní závěr, vyvozený pouze na základě srovnání absolutních frekvencí, by byl chybný.

Rozdíl mezi hodnotami frekvence absolutní a přepočítané je v tomto případě způsoben zejména odlišným složením obou korpusů (40% beletrie v korpusu SYN2005 oproti 15% beletrie v korpusu SYN2000) a nerovnoměrným rozložením výskytů tvaru tebe v nich. Tato nerovnoměrnost je na první pohled zřejmá při srovnání posledních tří sloupců mezi sebou: vidíme, že tvar tebe je zhruba dvacetkrát častější v beletrii než v ostatních oborech, což platí pro oba korpusy. Protože je tedy pro frekvenci tvaru tebe rozhodující podíl beletrie a ten je v korpusu SYN2005 ve srovnání s korpusem SYN2000 více než dvojnásobný, vysvětlení rozdílu v absolutní frekvenci mezi oběma korpusy je zřejmé. Naproti tomu přepočítaná frekvence bere rozdíl ve složení korpusů v úvahu, a proto je rozdíl v celkové přepočítané frekvenci mezi oběma korpusy poměrně malý.

Ještě výraznější rozdíly než v předchozím případě vidíme u slovního tvaru Sarajevo:

syn2000           
Sarajevo 675 373 21 10 342
syn2005
Sarajevo 85 80 37 10 32

Absolutní frekvence tohoto tvaru v korpusu SYN2000 je 675, celková přepočítaná frekvence v témž korpusu je 373, tedy zhruba poloviční. To je způsobeno faktem, že tvar Sarajevo se vyskytuje v korpusu SYN2000 převážně v publicistice; korpus SYN2000 se přitom skládá ze 60 % právě z publicistiky, zatímco podíl publicistiky ve srovnávacím korpusu je pouze 33,33 %, tedy necelá polovina jejího podílu v SYN2000. Naproti tomu podíl publicistiky v korpusu SYN2005 je 33 %, tedy číslo téměř shodné s jejím podílem ve srovnávacím korpusu, což spolu s rovnoměrnějším výskytem tvaru Sarajevo v korpusu SYN2005 způsobuje jen malý rozdíl mezi absolutní a celkovou přepočítanou frekvencí.

Nyní však srovnejme počet výskytů tvaru Sarajevo mezi oběma korpusy: vidíme, že v současné době se tento tvar užívá téměř pětkrát méně než dříve (80 oproti 373; nikoli tedy osmkrát méně, jak by se zdálo z hodnot absolutní frekvence), což může být způsobeno relativním nezájmem novinářů o tuto oblast ve srovnání s 90. léty 20. století. Tuto hypotézu potvrzuje srovnání hodnot v posledním sloupci, kde vidíme více než desetinásobný pokles v počtu výskytů právě v publicistice (32 oproti 342). Naproti tomu frekvence užívání tvaru Sarajevo v odborné literatuře se sice nezměnila, je ovšem velice malá, a proto neprůkazná (10 výskytů pro oba korpusy). Frekvence tohoto tvaru se však mírně zvýšila v beletrii (37 oproti 21), což by mohlo být způsobeno reflexí války v bývalé Jugoslávii v literatuře. Na tomto místě je však třeba zdůraznit, že jde o pouze o spekulaci, protože frekvence v řádu desítek výskytů mohou být významně ovlivněny pouhým výběrem textů, což u proprií platí dvojnásob. Pro ověření zdroje těchto výskytů si však stačí tvar Sarajevo vyhledat v korpusu SYN2005 a hned je zřejmé, že jeho vyšší frekvence je způsobená zařazením knihy "Vzkázání ze dna noci", což je výběr z tvorby bosenských autorů, ve které se dá vyšší frekvence tohoto tvaru očekávat. Vidíme tedy, že přestože nám přepočítané frekvence umožňují snadno srovnávat frekvenci užívání slov v jednotlivých oborech psaných textů v různých časových obdobích, nejsou ani tato čísla samospasitelná a nestačí je jenom mechanicky přejímat. Samozřejmostí by proto měla být jejich obezřetná interpretace, v případě potřeby doplněná konfrontací s korpusem.

Jak citovat srovnávací frekvenční seznamy

Frekvenční seznamy uveřejněné na této stránce byly vytvořeny především s cílem umožnit široké odborné veřejnosti nový způsob práce s korpusy ČNK, který pomocí korpusového manažeru Bonito není možný. Podobně jako jednotlivé korpusy jsou i tyto frekvenční seznamy výsledkem vědecké práce. Žádáme Vás proto, abyste je v bibliografii uváděli následujícím způsobem:

Český národní korpus: Srovnávací frekvenční seznamy z korpusů SYN2000 a SYN2005. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupné z WWW: http://ucnk.ff.cuni.cz/srovnani.php

Download

Popisované srovnávací frekvenční seznamy si můžete stáhnout ve dvou verzích: pro Linux a Windows. Obě verze se liší pouze kódováním češtiny a použitým kompresním formátem. Každý ze souborů slovních tvarů má okolo 3 MB, soubory lemmat okolo 1,2 MB. Na stránce Abecední a retrográdní slovníky lemmat a tvarů jsou k dispozici také zjednodušené verze srovnávacích frekvenčních seznamů setříděné abecedně i retrográdně.


Slovní tvary Lemmata
Verze pro Windows: SYN2000
SYN2005
SYN2000
SYN2005
Verze pro Linux: SYN2000
SYN2005
SYN2000
SYN2005