Dostupné korpusy
Korpusy psaného jazyka (synchronní) |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění | charakteristika korpusu |
| SYN | 1 300 mil. | ANO | ANO | 2010 | nereferenční |
| 100 mil. | ANO | ANO | 2010 | žánrově vyvážený korpus, převažují texty z let 2005 - 2009 | |
| 700 mil. | ANO | ANO | 2010 | korpus publicistických textů z let 1995 - 2007 | |
| 300 mil. | ANO | ANO | 2006 | korpus publicistických textů z let 1989 - 2004 | |
| 100 mil. | ANO | ANO | 2005 | žánrově vyvážený korpus, převažují texty z let 2000 - 2004 | |
| 100 mil. | ANO | ANO | 2000 | žánrově vyvážený korpus, převažují texty z let 1990 - 1999 | |
| FSC2000 | 100 mil. | ANO | NE | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
| LINK | 1,8 mil. | ANO | ANO | 2010 | nereferenční |
| KSK-DOPISY | 800 000 | NE | NE | 2006 | přepisy ručně psané korespondence z let 1990 - 2004 |
| ORWELL | 80 000 | ANO | ANO | 2003 | ručně označkovaný korpus Orwellova románu "1984" |
Korpusy mluveného jazyka (synchronní) |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění | charakteristika korpusu |
| ORAL2008 | 1 mil | NE | NE | 2008 | sociolingvisticky vyvážený korpus neformální mluvené češtiny |
| ORAL2006 | 1 mil. | NE | NE | 2006 | korpus neformální mluvené češtiny |
| SCHOLA2010 | 790 000 | NE | NE | 2010 | korpus vyučovacích hodin |
| PMK | 675 000 | NE | NE | 2001 | Pražský mluvený korpus |
| BMK | 490 000 | NE | NE | 2002 | Brněnský mluvený korpus |
Diachronní korpusy |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění | charakteristika korpusu |
| DIAKORP | 1,95 mil. | NE | NE | 2005 | nereferenční |
| DOTKO | 12 mil. | NE | NE | 2010 | nereferenční |
Paralelní korpus |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění | charakteristika korpusu |
| InterCorp | 92 mil. | ANO (částečně) |
ANO (částečně) |
2008 | nereferenční |


