hledat:    
 

Korpus SYN2010

Korpus SYN2010 je synchronní reprezentativní korpus současné psané češtiny obsahující 100 milionů textových slov (tokens). Navazuje tak na korpusy SYN2000SYN2005 a tvoří s nimi řadu synchronních reprezentativních korpusů pokrývajících tři po sobě jdoucí časová období. Základní charakteristiky korpusu SYN2010 jsou shodné s korpusem SYN2005, což se týká zejména stejného pojetí reprezentativnosti založeného na recepci psaného jazyka a z něho vyplývajícího složení korpusu. Veškeré publicistické texty v korpusu SYN2010 jsou z let 2005 - 2009, přičemž každý rok má - stejně jako v korpusu SYN2005 - v rámci publicistiky stejné zastoupení, i když se samozřejmě změnil podíl jednotlivých titulů. Nezměnilo se ale vymezení synchronie v beletrii a odborné literatuře, v korpusu SYN2010 tak najdeme pouze odbornou literaturu publikovanou po roce 1989. Beletrie sice může být i starší, přesto však pro odbornou literaturu i beletrii obecně platí, že největší podíl na korpusu mají novější texty, zatímco zastoupení starších textů klesá.

Oproti korpusu SYN2005 byla v korpusu SYN2010 výrazně vylepšena lemmatizace a slovnědruhové značkování; obojí je až na drobná vylepšení v zásadě shodné se zpracováním korpusu SYN2009PUB. Ačkoli se tedy SYN2005 a SYN2010 navzájem neliší pojetím reprezentativnosti, při případném srovnávání lexikálních frekvencí mezi nimi je třeba brát v úvahu také tyto rozdíly. Proto jsme zveřejnili novou verzi srovnávacích frekvenčních seznamů slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů SYN2000, SYN2005 a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a které tak umožňují studium změn, kterými čeština za posledních 20 let prošla.

Zkratky použité při anotaci korpusu SYN2010:
Médium
Typ textu
Zdrojový jazyk
Žánrové zařazení

Seznam zdrojů korpusu SYN2010

Srovnávací frekvenční seznamy

Složení korpusu SYN2010:

40
% 
beletrie
27 %
odborná literatura
33 %
publicistika

Složení odborné a další

specializované literatury
podle tematického zaměření:
počet slov (v mil.)

 
Složení publicistiky podle roku vydání: Složení publicistiky podle titulů:
Publicistika podle roku vydání publicistika podle titulů
počet slov (v mil.) počet slov (v mil.)