hledat:    
 

Korpus SYN2000

Korpus SYN2000 obsahuje 100 milionů textových slov. Veřejnosti byl představen v říjnu roku 2000. Tento korpus je vytvořený z celých textů, které do něj byly zařazeny na základě výzkumů recepce psaného jazyka tak, aby pokrývaly co nejširší žánrové rozvrstvení češtiny. SYN2000 je synchronní korpus, to znamená, že je v něm zachycen současný český jazyk. Najdeme zde tedy převážně texty, které vznikly v letech 1990 až 1999. Do korpusu jsou ovšem zařazena i významná díla české literatury, která vznikla před rokem 1990 (například Krakatit Karla Čapka, nebo Zbabělci Josefa Škvoreckého). Pro tyto starší texty platí zásada, že autor textu musí být narozený po roce 1880.

Korpus SYN2000 je lemmatizovaný a morfologicky označkovaný. To znamená, že u každého slova (tj. výskytu slova v textu) lze zobrazit morfologickou značku, která vyjadřuje jeho gramatické kategorie (slovní druh, číslo, pád atd.), a tzv. lemma, což je základní tvar slova (například u podstatných jmen první pád jednotného čísla, u sloves infinitiv). Kromě toho je možné zobrazit kód, který jednoznačně identifikuje text, ve kterém se vyhledané slovo vyskytlo.

Seznam všech zdrojových textů korpusu SYN2000 naleznete zde.

Pro vyhledávání v korpuse SYN2000 slouží program Bonito, který umožňuje:

  • zobrazení hledaného slova v širším kontextu,
  • vyhledávání posloupností několika slov,
  • vyhledávání podle morfologických značek a základních tvarů slov,
  • třídění konkordančních řádků,
  • zobrazení informací o původu a typu textu, ve kterém se vyskytlo hledané slovo,
  • uložení označených konkordančních řádků na disk počítače, kde uživatel pracuje,
  • statistické funkce,
  • vytváření subkorpusů.

Složení korpusu SYN2000

60 publicistika
25 % odborná literatura
15 % beletrie

Srovnávací frekvenční seznamy

Složení odborné a další

specializované literatury
podle tematického zaměření:

počet slov (v mil.)
Složení publicistiky podle roku vydání: Složení publicistiky podle titulů:
počet slov (v mil.) počet slov (v mil.)