Korpus FSC2000
Korpus FSC2000 je referenčním zdrojem a doplňkem Frekvenčního slovníku češtiny (FSČ), který vyšel koncem roku 2004 v NLN. Korpus FSC2000 vychází z korpusu SYN2000, postup jeho vzniku je popsán níže. Jedním z důsledků tohoto postupu je, že texty obsažené v korpusu FSC2000 jsou vlastně podmnožinou textů obsažených v korpusu SYN2000. Přesná velikost korpusu FSC2000 činí bez započtení interpunkce 95 854 929 slovních tvarů; velikost 114 363 813 pozic, udávaná korpusovým manažerem, je údaj zahrnující kromě slovních tvarů i interpunkci.
Seznam všech zdrojových textů korpusu FSC2000 naleznete zde.
Následuje úryvek z předmluvy k FSČ, který popisuje vznik korpusu FSC2000:
1) Z korpusu SYN2000 bylo vyřazeno několik duplicitních textů, a
dále byly vypuštěny části, ve kterých převažovaly tabulky, čísla apod.
Podobným čištěním prošel sice již původní korpus, v praxi se však ukázalo,
že nebylo dostatečně účinné. Přestože se tak korpus o necelých 5 % zmenšil
(a tím také došlo k mírnému posunu v jeho reprezentativním složení), jednalo
se jednoznačně o velmi prospěšnou změnu, protože se výrazně zvýšila kvalita
textů, a tím také věrohodnost poskytovaných frekvenčních údajů.
2) Na takto pročištěný korpus byla aplikována ve srovnání s korpusem
SYN2000 novější verze lemmatizace, což je sada programů, které na základě
rozsáhlého slovníku a za pomoci statistických metod přiřazují všem výskytům
všech slovních tvarů v textu jejich lemma, tj. základní slovníkový tvar.
3) Výstup této automatické analýzy však byl z mnoha důvodů pro FSČ
stále ještě nevyhovující a vyžadoval několik fází velice náročných a zdlouhavých
manuálních oprav. Šlo především o nedokonalé rozpoznávání zkratek a proprií
(zvláště cizojazyčných), dále nevhodně pojaté zpracování některých gramatických
jevů (např. negací, pomnožných substantiv atd.), a v neposlední řadě chyby
v rozlišování homonymních tvarů. Toto rozlišování (např. zda tvar bouří
je v daném kontextu sloveso nebo substantivum) nazýváme desambiguace. Protože
primárním cílem slovníku je poskytnout uživateli informace o frekvenci
slov (nikoli tedy například o jednotlivých tvarech), a s vědomím tohoto
cíle byl také korpus jako referenční zdroj FSČ zpracováván, nevěnovali
jsme se opravě určení lemmat u všech výskytů všech tvarů obsažených v korpusu
tak, aby lemma bylo vždy určeno bezchybně. Důvodem byla samozřejmě enormní
časová, a tedy i finanční náročnost takových oprav. Naším cílem bylo "pouze"
zajistit, aby frekvence udávané u jednotlivých hesel ve FSČ byly správné
(s určitou možnou malou chybou, jak bude vysvětleno dále), přičemž jsme
zanedbávali jednotlivosti s minimálním vlivem na celkovou frekvenci hesla,
které by bylo neúměrně pracné opravovat. Znamená to, že při podrobné prohlídce
tvarů, které byly započítány pod určité heslo, je možné v korpusu narazit
i na tvary, které pod daným heslem sice zahrnuty být neměly, přesto jsme
však jejich zařazení neopravovali. Pod heslem pes jsou tak například
započítány všechny výskyty tvaru PES, ačkoliv jde v některých případech
o zkratku pro polyester, palubní elektronický systém, Pacifickou Exportní
Společnost z Čapkovy Války s mloky aj. Protože ale všechny tyto zkratky
dohromady tvoří pouze 0,2 % celkové frekvence hesla pes, můžeme
je zanedbat, aniž bychom výrazně ovlivnili frekvenci hesla. Uvědomujeme
si, že jsme přes veškerou snahu a pečlivost při zpracování slovníku mohli
v jednotlivých případech přehlédnout i podstatnější chyby nebo nepřesnosti.
Je však třeba zdůraznit, že tak velké množství dat není v žádném případě
možné zpracovávat pouze manuálně, takže i když je v současné době každá
automatická lemmatizace nedokonalá, je nezbytné ji použít alespoň jako
základ pro pozdější korekci.
Po všech těchto úpravách byl tedy na základě textů, obsažených již v korpusu SYN2000, vytvořen nový korpus FSC2000 s novou lemmatizací; z něj teprve vznikl heslář FSČ. Hlavním přínosem nového korpusu je právě tato jeho vylepšená (stále však nikoli bezchybná!) lemmatizace, která přesně odpovídá FSČ. Protože se ale při jejích opravách neopravovaly morfologické značky (tagy), chybí v korpusu FSC2000 atributy tag a pos. Doufáme, že korpus FSC2000 bude - zejména díky své lemmatizaci - užitečným nástrojem pro široký okruh uživatelů.
Michal Křen
vedoucí realizačního týmu
Praha 2004


