Dostupné korpusy
Korpusy psaného jazyka (synchronní) |
||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
charakteristika korpusu |
| SYN2009PUB | 700 mil. | ANO | ANO | korpus publicistických textů z let 1995 - 2007 |
| SYN2006PUB | 300 mil. | ANO | ANO | korpus publicistických textů z let 1990 - 2004 |
| SYN2005 | 100 mil. | ANO | ANO | žánrově vyvážený korpus, převažují texty z let 2000 - 2004 |
| SYN2000 | 100 mil. | ANO | ANO | žánrově vyvážený korpus, převažují texty z let 1990 - 1999 |
| FSC2000 | 100 mil. | ANO | NE | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
| KSK-DOPISY | 800 000 | NE | NE | přepisy ručně psané korespondence z let 1990 - 2004 |
| ORWELL | 80 000 | ANO | ANO | ručně označkovaný korpus Orwellova románu "1984" |
Korpusy mluveného jazyka (synchronní) |
||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
charakteristika korpusu |
| ORAL2008 | 1 mil | NE | NE | sociolingvisticky vyvážený korpus neformální mluvené češtiny |
| ORAL2006 | 1 mil. | NE | NE | korpus neformální mluvené češtiny |
| PMK | 675 000 | NE | NE | Pražský mluvený korpus |
| BMK | 490 000 | NE | NE | Brněnský mluvený korpus |
Diachronní korpus |
||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
charakteristika korpusu |
| DIAKORP | 1,6 mil. | NE | NE | korpus diachronní složky ČNK |
Paralelní korpus |
||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
charakteristika korpusu |
| InterCorp | 44 mil. | ANO (částečně) |
ANO (částečně) |
paralelní korpus vznikající v rámci projektu InterCorp |
