Korpus SYN2010
Korpus SYN2010 je synchronní reprezentativní korpus současné psané češtiny obsahující 100 milionů textových slov (tokens). Navazuje tak na korpusy SYN2000 a SYN2005 a tvoří s nimi řadu synchronních reprezentativních korpusů pokrývajících tři po sobě jdoucí časová období. Základní charakteristiky korpusu SYN2010 jsou shodné s korpusem SYN2005, což se týká zejména stejného pojetí reprezentativnosti založeného na recepci psaného jazyka a z něho vyplývajícího složení korpusu. Veškeré publicistické texty v korpusu SYN2010 jsou z let 2005 - 2009, přičemž každý rok má - stejně jako v korpusu SYN2005 - v rámci publicistiky stejné zastoupení, i když se samozřejmě změnil podíl jednotlivých titulů. Nezměnilo se ale vymezení synchronie v beletrii a odborné literatuře, v korpusu SYN2010 tak najdeme pouze odbornou literaturu publikovanou po roce 1989. Beletrie sice může být i starší, přesto však pro odbornou literaturu i beletrii obecně platí, že největší podíl na korpusu mají novější texty, zatímco zastoupení starších textů klesá. Oproti korpusu SYN2005 byla v korpusu SYN2010 výrazně vylepšena lemmatizace a slovnědruhové značkování; obojí je až na drobná vylepšení v zásadě shodné se zpracováním korpusu SYN2009PUB. Ačkoli se tedy SYN2005 a SYN2010 navzájem neliší pojetím reprezentativnosti, při případném srovnávání lexikálních frekvencí mezi nimi je třeba brát v úvahu také tyto rozdíly. Proto jsme zveřejnili novou verzi srovnávacích frekvenčních seznamů slovních tvarů a lemmat, která obsahuje zcela nová data ze všech tří synchronních reprezentativních korpusů SYN2000, SYN2005 a SYN2010, zlemmatizovaných a morfologicky označkovaných na úrovni korpusu SYN2010. Tato data obsahují také údaje o tzv. přepočítaných frekvencích, které jsou navzájem přímo srovnatelné, a které tak umožňují studium změn, kterými čeština za posledních 20 let prošla. |
Zkratky použité při anotaci korpusu SYN2010: Médium Typ textu Zdrojový jazyk Žánrové zařazení Seznam zdrojů korpusu SYN2010 Srovnávací frekvenční seznamy Složení korpusu SYN2010:
Složení odborné a další specializované literatury podle tematického zaměření:
počet slov (v mil.) |
| Složení publicistiky podle roku vydání: | Složení publicistiky podle titulů: |
![]() |
![]() |
| počet slov (v mil.) | počet slov (v mil.) |




