AplikaceAplikace
Nastavení

Korpus Koditex

Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny.

Název Koditex
Pozice Počet pozic (tokenů) 10 880 550
Počet pozic bez interpunkce 9 139 930
Počet tokenů bez interpunkce vstupujících do faktorové analýzy (include=„yes“) 9 039 137
Počet slovních tvarů (wordů) 509 764
Počet lemmat 205 592
Struktury Počet textových vzorků <chunk> 3 428
Počet vět <s> 719 739
Další informace Referenční ANO
Reprezentativní ANO
Rok zveřejnění 2018

Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity – named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.

Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro korpus diverzifikovaných tex.

Složení korpusu

Na rozdíl od ostatních synchronních korpusů ČNK (např. SYN2015) se Koditex neskládá z celých textů, ale pouze ze vzorků originálních textů, které jsou označeny pomocí struktury <chunk>.

Ještě před samotným vzorkováním shromážděných dat a jejich začleněním do finální podoby korpusu jsme se rozhodli texty přesahující délku 5000 slov rozdělit do souvislých vzorků (chunks) o délce 2000–5000 slov (se zachováním hranic vět). Toto řešení představuje řadu výhod, a to zejména celkově větší rozmanitost korpusu, co se týče jak registrů, tak žánrů / textových typů.

Korpus tvoří texty ze tří komunikačních módů (mode):

  • psaného jazyka (wri),
  • mluveného jazyka (spo) a
  • internetové komunikace (web).

Každý ze tří módů se dále dělí do dvou a více divizí (division; např. v rámci psaného jazyka se jedná o beletrii, oborovou literaturu, noviny a časopisy a soukromou komunikaci). Divize se dále dělí do tříd (class; například kriminální román), s cílovou délkou přibližně 200 000 slov na třídu (v závislosti na dostupnosti dat). Pro psaný mód byl ještě zaveden mezistupeň tzv. nadtřídy (superclass), která seskupuje některé třídy textů.

Texty původně zařazené do korpusu bylo v některých případech třeba z analýzy registrové variability vyloučit. V takovém případě mají v metadatech příznak include=„no“. V podrobné tabulce reflektující složení korpusu Koditex jsou zohledněny pouze texty, které do MDA vstupovaly (tedy s příznakem include=„yes“):

MODE DIVISION SUPERCLASS CLASS Tokeny Vzorky
spo (mluvená komunikace) int (interaktivní) bru (nepřipravené veřejné / vysílané rozhovory) 221 812 90
eli (formální rozhovor) 201 690 82
inf (neformální rozhovor) 208 565 86
nin (neinteraktivní) wbs (připravený/čtený projev) 213 201 71
web (internetová komunikace) mul (mnohosměrná komunikace) dis (internetové diskuse) 197 948 87
fcb (facebookové statusy) 199 418 91
for (webová fóra) 200 104 85
uni (jednosměrná komunikace) blo (blogy) 204 356 74
wik (wikipedie) 201 691 84
wri (psaná komunikace) fic (beletrie) nov (romány) crm (detektivky) 190 026 68
fan (fantasy) 189 432 69
gen (bez bližšího určení) 193 667 67
lov (milostné) 189 893 70
scf (sci-fi) 188 703 68
col (povídky) 195 595 70
scr (scénáře a dramata) 182 689 76
ver (poezie a písně) 205 837 76
nfc (oborová literatura) pop (populárně-naučná) fts (formální a technické vědy) 207 607 68
hum (humanitní vědy) 204 837 74
nat (přírodní vědy) 204 751 71
ssc (společenské vědy) 203 698 68
pro (profesní literatura) fts (formální a technické vědy) 210 010 71
hum (humanitní vědy) 207 916 69
nat (přírodní vědy) 209 580 70
ssc (společenské vědy) 209 385 72
sci (vědecká literatura) fts (formální a technické vědy) 202 932 67
hum (humanitní vědy) 204 300 71
nat (přírodní vědy) 206 716 72
ssc (společenské vědy) 205 358 67
adm (administrativa)* 203 542 82
enc (encyklopedie) 203 957 73
mem (auto-/biografie) 203 390 71
nmg (noviny a časopisy) lei (volnočasová publicistika) hou (bydlení, zahrada, hobby) 207 499 68
int (zajímavosti ze světa) 209 232 69
lif (životní styl) 203 124 72
mix (víkendové přílohy) 205 310 75
sct (bulvár) 201 417 73
spo (sport) 199 238 70
new (tradiční publicistika) com (komentáře) 205 372 68
cul (kultura) 205 690 68
eco (ekonomika) 211 481 70
fre (volnočasové aktivity) 208 532 71
pol (politika) 206 893 70
rep (reportáže) 206 377 70
pri (soukromá komunikace) cor (dopisy)* 96 366 68
Celkem 9 039 137 3292

* V těchto třídách byly povoleny vzorky o délce minimálně 1000 tokenů.

Texty v těchto třídách byly nejprve sjednoceny (podle autora a části dne) a poté rozděleny do vzorků o velikosti 2000–5000 slov.

Vzorky

Původním záměrem bylo mít veškeré vzorky o přibližně stejné délce (mezi 2000–5000 slovy). Ukázalo se, že tento záměr byl u některých tříd nerealistický vzhledem k typické délce textů, která v těchto daných třídách bývá kratší. Nabízela se dvě možná řešení. U některých tříd (např. pri či adm) jsme se rozhodli snížit spodní hranici na 1000 slov, což zároveň snížilo vliv textů, které byly v dané kategorii delší, než je obvyklé.

V jiných třídách (např. fcb) se původní data skládala z velkého množství fragmentů, z nichž většina měla délku méně než 1000 slov. V takových případech došlo nejprve ke shlukování textů podle autora a času a teprve pak se přistoupilo k samotnému vzorkování.

Koditex se zaměřuje na současnou podobu jazyka, přičemž nejstarší texty byly publikovány v roce 1990.

U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály).

Class Překlady (slova) Originály (slova) % překladů
LOV 210,250 30,981 87,2 %
CRM 202,921 37,677 84,3 %
GEN 196,924 43,497 81,9 %
FAN 188,848 52,778 78,2 %
SCF 174,340 66,221 72,5 %
MEM 176,000 67,731 72,2 %
HUM 329,928 395,573 45,5 %
NAT 324,310 401,957 44,7 %
ENC 103,954 137,889 43,0 %
SSC 265,640 460,324 36,6 %
FTS 259,325 467,253 35,7 %
VER 82,101 158,634 34,1 %
WIK 49,150 192,765 20,3 %

Anotace

Korpusu bylo přidáno několik anotačních vrstev, aby se usnadnila operacionalizace rysů:

  • lemmatizace a morfologické značkování; bylo využito dvou systémů: stochastického taggeru MorphoDiTa 1) a hybridního taggeru s použitím stochastické a na pravidlech založené desambiguace 2)
  • značkování frazémů za pomoci systému FRANTA 3)
  • rozpoznávání pojmenovaných entit za pomoci nástroje NameTag4)

Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag:

  • Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836
  • Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8

Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu chunk.register registrová klasifikace jednotlivých chunků.

Zdroje dat

Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z Ústavu pro jazyk český AV ČR za poskytnutí dat z korpusu DIALOG, Karlu Palovi a Vítu Baisovi z Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu wik a divizi mul.

Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet:

  • Benešová, Lucie, Michal Křen & Martina Waclawičová. 2013. ORAL2013.
  • Benko, Vladimír. 2015. Araneum Bohemicum Maius, version 15.04. ÚČNK FF UK.
  • Cvrček, Václav, Petr Truneček & Václav Horký. 2015. SPEECHES.
  • Čermák, František, Ana Adamovičová & Jiří Pešička. 2001. PMK.
  • Hladká, Zdeňka. 2002. BMK.
  • Hladká, Zdeňka. 2006. KSK.
  • Křen, Michal et al. 2015. SYN2015.
  • Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN ÚFAL MFF UK. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8
  • Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN ÚFAL MFF UK. http://hdl.handle.net/11234/1-1836
  • The DIALOG Corpus, version 1.2. 2015. ÚJČ AV ČR. Praha. http://ujc.dialogy.cz
  • The EUROPARL Corpus (the Proceedings of the European Parliament). http://www.europarl.eu.int/

Jak citovat Koditex

Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: Koditex: korpus diverzifikovaných textů. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz

1)
Straková Jana, Milan Straka & Jan Hajič. 2014. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 13–18. Baltimore, MD: ACL.
2)
Spoustová, Drahomíra, Jan Hajič, Jan Votrubec, Pavel Krbec & Pavel Květoň. 2007. The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In Proceedings of the Workshop on Balto-Slavonic Natural Language Processing, ACL 2007. 67–74; Jelínek, Tomáš. 2008. Nové značkování v Českém národním korpusu [New tagging in the Czech National Corpus]. Naše řeč 91(1). 13–20; Petkevič, Vladimír. 2014. Problémy automatické morfologické disambiguace češtiny [Problems of automatic morphological disambiguation of Czech]. Naše řeč 97(4). 194–207.
3)
Hnátková, Milena. 2002. Značkování frazémů a idiomů v Českém národním korpusu s pomocí Slovníku české frazeologie a idiomatiky [The tagging of phraseological units and idioms in the Czech National Corpus with the aid of the Dictionary of Czech phraseology and idiomatics]. Slovo a slovesnost 63(2). 117–126.
4)
Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), Text, Speech and Dialogue, 68–75. Berlin & Heidelberg: Springer Verlag.