Dostupné korpusy
Tabulka ukazuje všechny korpusy, ve kterých je možné vyhledávat pomocí programu Bonito.
| jméno
korpusu | typ
korpusu | velikost
(počet slov) | lemmatizace | morfologické
značky | zdroje | atributy |
| SYN | psaný | 1 300 mil. | ANO | ANO | číslo
pozice opus doc s opus.autor opus.nazev opus.nakladatel opus.mistovyd opus.rokvyd opus.isbnissn opus.preklad opus.srclang opus.txtype_group opus.txtype opus.genre opus.med opus.syn opus.id doc.id s.id | word lemma tag lc pos k g c |
| SYN2010 | psaný | 100 mil. | ANO | ANO | číslo
pozice opus doc s opus.autor opus.nazev opus.nakladatel opus.mistovyd opus.rokvyd opus.isbnissn opus.preklad opus.srclang opus.txtype_group opus.txtype opus.genre opus.med opus.id doc.id s.id | word lemma tag lc pos k g c |
| SYN2009PUB | psaný | 700 mil. | ANO | ANO | číslo
pozice opus doc s opus.nazev opus.rokvyd opus.txtype opus.genre opus.med opus.id doc.id s.id | word lemma tag lc pos k g c |
| SYN2006PUB | psaný | 300 mil. | ANO | ANO | číslo
pozice opus doc s opus.nazev opus.rokvyd opus.txtype opus.genre opus.med opus.id doc.id s.id | word lemma tag lc pos k g c |
| SYN2005 | psaný | 100 mil. | ANO | ANO | číslo
pozice opus doc s opus.autor opus.nazev opus.nakladatel opus.mistovyd opus.rokvyd opus.isbnissn opus.preklad opus.srclang opus.txtype opus.genre opus.med opus.id doc.id s.id | word lemma tag lc pos k g c |
| SYN2000 | psaný | 100 mil. | ANO | ANO | číslo
pozice doc s doc.txtype doc.temp doc.opus | word lemma tag lc pos k g c |
| LINK | psaný | 1,9 mil. | ANO | ANO | číslo
pozice opus doc s opus.autor opus.nazev opus.nazev_nad opus.nakladatel opus.rokvyd opus.preklad opus.srclang opus.txtype opus.genre opus.disciplina opus.med opus.id doc.id s.id | word lemma tag |
| DIAKORP | psaný, diachronní | 1.6 mil. | NE |
NE |
číslo
pozice doc str doc.rok doc.autor doc.titul doc.diakorp str.id |
word lc |
| DOTKO | psaný, diachronní | 12 mil. | NE | NE | číslo
pozice document.id document.full_title document.author document.place document.year document.orig_font anchor.name | word |
| FSC2000 | psaný | 100 mil. | ANO | NE | číslo
pozice doc s doc.txtype doc.temp doc.opus | word lemma lc |
| ORAL2008 | mluvený | 1 mil. | NE | NE | doc.id![]() doc.temp ![]() doc.pocet ![]() doc.promluva ![]() sp.num sp.pohlavi sp.vek sp.vzdelani sp.veknum ![]() sp.vzdelanityp ![]() sp.oblast ![]() |
word |
| ORAL2006 | mluvený | 1 mil. | NE | NE | doc.id![]() doc.temp ![]() doc.pocet ![]() doc.promluva ![]() sp.num sp.pohlavi sp.vek sp.vzdelani sp.veknum ![]() sp.vzdelanityp ![]() sp.oblast ![]() |
word |
| SCHOLA2010 | mluvený | 790 000 | NE | NE | přehled použitých značek zde | word |
| PMK | mluvený | 675.000 | NE | NE | číslo
pozice doc sp doc.id sp.num sp.pohlavi sp.vek sp.vzdelani sp.promluva | word |
| BMK | mluvený | 490.000 | NE | NE | číslo
pozice doc sp doc.id sp.num sp.pohlavi sp.vek sp.vzdelani sp.promluva sp.id | word pron |
| KSK-DOPISY | psaný | 800.000 | NE |
NE |
přehled použitých značek zde | word lc |
| ORW-MTE | psaný | 80.000 | ANO | ANO | číslo
pozice s s.val | word lemma tag |
| ORWELL | psaný | 80.000 | ANO | ANO | číslo
pozice s s.val |
word lemma tag |
