hledat:    
 

Dostupné korpusy

Korpusy psaného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
SYN1 300 mil.ANOANO2010nereferenčníNápověda spojení všech synchronních psaných korpusů řady SYN
SYNSYN2010100 mil.ANOANO2010žánrově vyvážený korpus, převažují texty z let 2005 - 2009
SYNSYN2009PUB700 mil.ANOANO2010 korpus publicistických textů z let 1995 - 2007
SYNSYN2006PUB 300 mil. ANO ANO 2006korpus publicistických textů z let 1989 - 2004
SYNSYN2005 100 mil. ANO ANO 2005žánrově vyvážený korpus, převažují texty z let 2000 - 2004 
SYNSYN2000 100 mil. ANO ANO 2000žánrově vyvážený korpus, převažují texty z let 1990 - 1999 
FSC2000 100 mil. ANO NE 2004upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
LINK1,8 mil.ANOANO2010nereferenčníNápověda korpus sestavený z odborných lingvistických textů
KSK-DOPISY 800 000 NE NE 2006přepisy ručně psané korespondence z let 1990 - 2004
ORWELL 80 000 ANO ANO 2003ručně označkovaný korpus Orwellova románu "1984"

Korpusy mluveného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
ORAL2008 1 mil NE NE 2008sociolingvisticky vyvážený korpus neformální mluvené češtiny
ORAL2006 1 mil. NE NE 2006korpus neformální mluvené češtiny
SCHOLA2010790 000NENE2010korpus vyučovacích hodin
PMK 675 000 NE NE 2001Pražský mluvený korpus
BMK 490 000 NE NE 2002Brněnský mluvený korpus

Diachronní korpusy

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
DIAKORP  1,95 mil. NE NE 2005nereferenčníNápověda korpus diachronní složky ČNK
DOTKO12 mil.NENE2010nereferenčníNápověda korpus dolní lužické srbštiny, převažují texty z let 1848 - 1933

Paralelní korpus

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
InterCorp 92 mil. ANO
(částečně)
ANO
(částečně)
2008nereferenčníNápověda paralelní korpus vznikající v rámci projektu InterCorp