hledat:    
 

Dostupné korpusy

Korpusy psaného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
charakteristika korpusu
SYN2009PUB700 mil.ANOANO korpus publicistických textů z let 1995 - 2007
SYN2006PUB 300 mil. ANO ANO korpus publicistických textů z let 1990 - 2004
SYN2005 100 mil. ANO ANO žánrově vyvážený korpus, převažují texty z let 2000 - 2004 
SYN2000 100 mil. ANO ANO žánrově vyvážený korpus, převažují texty z let 1990 - 1999 
FSC2000 100 mil. ANO NE upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
KSK-DOPISY 800 000 NE NE přepisy ručně psané korespondence z let 1990 - 2004
ORWELL 80 000 ANO ANO ručně označkovaný korpus Orwellova románu "1984"

Korpusy mluveného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
charakteristika korpusu
ORAL2008 1 mil NE NE sociolingvisticky vyvážený korpus neformální mluvené češtiny
ORAL2006 1 mil. NE NE korpus neformální mluvené češtiny
PMK 675 000 NE NE Pražský mluvený korpus
BMK 490 000 NE NE Brněnský mluvený korpus

Diachronní korpus

korpus velikost
(počet slov)
lemmatizace morfologické
značky
charakteristika korpusu
DIAKORP  1,6 mil. NE NE korpus diachronní složky ČNK

Paralelní korpus

korpus velikost
(počet slov)
lemmatizace morfologické
značky
charakteristika korpusu
InterCorp 44 mil. ANO
(částečně)
ANO
(částečně)
paralelní korpus vznikající v rámci projektu InterCorp