Portál | Český národní korpus

Co je to korpus?

Jazykový korpus je elektronický soubor autentických textů (psaných nebo mluvených), v němž je možné jednoduše vyhledávat jazykové jevy (zejm. slova a slovní spojení) a zobrazovat je v jejich přirozeném kontextu.

Korpusy ČNK zahrnují současnou psanou (tištěnou) češtinu (v rozsahu přes 5 mld. slov), češtinu internetovou (přes 6 mld. slov), spontánní mluvenou češtinu, češtinu historickou, a také paralelní korpus InterCorp obsahující překlady z nebo do více než 60 jazyků.

více…

Aplikace

Aplikace KonText je základním nástrojem pro práci s korpusy. Umožňuje vyhledávání v korpusech pomocí jednoduchých i komplexních dotazů, zobrazení formou konkordančních řádků, vypočtení frekvenční distribuce, asociačních měr kolokací a další práci s jazykovými daty. Přehledně jsou všechny funkce KonTextu popsány v manuálu.

přejít na KonText →
Nástroj SyD je určen pro všestranný průzkum variant jak v současném jazyce, tak v průběhu jeho vývoje. Využívá korpusů ČNK, s jejichž pomocí zjišťuje, jak často se která varianta užívá v současnosti a užívala v průběhu vývoje češtiny. Pro jeho vyzkoušení stačí zadat dvě varianty jednoho jevu, které si vzájemně konkurují, např. téměř × skoro.

přejít na SyD →
Nástroj Morfio slouží pro vyhledávání slovotvorných vztahů mezi jednotkami v korpusech, např. lovit - úlovek. Umožňuje najít všechny dvojice slov tvořené stejným způsobem a vyhodnotit morfologickou produktivitu jejich tvoření. Aplikace využívá rozsáhlých korpusů psaného jazyka, které pokrývají širokou paletu slovotvorných možností současné češtiny.

přejít na Morfio →
Aplikace KWords poskytuje základní východisko pro empiricky podloženou interpretaci textů tím, že analyzuje slova v zadaném textu a porovnává jejich frekvenci s referenčním korpusem. Výsledkem takové analýzy je identifikace klíčových slov, tj. jednotek vyskytujících se signifikantně častěji v analyzovaném textu než v korpusu, který představuje neutrální jazykový úzus.

přejít na KWords →
Aplikace umožňuje snadné vyhledávání překladových ekvivalentů v oboustranných česko-cizojazyčných slovnícícch vytvořených automaticky na základě dat paralelního korpusu InterCorp.

přejít na Treq →

další aplikace…

Kdo jsme?

Český národní korpus (ČNK) byl založen na Filozofické fakultě Univerzity Karlovy v roce 1994 s cílem vytvářet a zpřístupňovat rozsáhlá jazyková data pro výuku a výzkum v podobě elektronických korpusů.

Od roku 2012 je ČNK na Cestovní mapě Velkých výzkumných infrastruktur financovaných MŠMT, v současné době jako projekt LM2023044 (2023-2026). Infrastrukturní status spolu s podporou z programu LM umožňuje ČNK poskytovat komplexní uživatelské služby, které kromě kontinuálního datového mapování češtiny zahrnují také vývoj nových aplikací a mnohostrannou uživatelskou podporu.

více…

RomCro 2.0

Korpus třicetiletý

SYN verze 14

SYN2025

PF 2026

Korpusy vygenerované LLM

Orator verze 3

Early English Books Online verze 2

Obnovení cerifikátu K-centra CLARIN

Slovenská Mapka

SYN verze 13

Baltische Briefe