Co je to korpus?

Jazykový korpus je elektronický soubor autentických textů (psaných nebo mluvených), v němž je možné jednoduše vyhledávat jazykové jevy (zejm. slova a slovní spojení) a zobrazovat je v jejich přirozeném kontextu.

Aplikace
  1. KonText

    Aplikace KonText je základním nástrojem pro práci s korpusy. Umožňuje vyhledávání v korpusech pomocí jednoduchých i komplexních dotazů, zobrazení formou konkordančních řádků, vypočtení frekvenční distribuce, asociačních měr kolokací a další práci s jazykovými daty. Přehledně jsou všechny funkce KonTextu popsány v manuálu.

  2. SyD

    Nástroj SyD je určen pro všestranný průzkum variant jak v současném jazyce, tak v průběhu jeho vývoje. Využívá korpusů ČNK, s jejichž pomocí zjišťuje, jak často se která varianta užívá v současnosti a užívala v průběhu vývoje češtiny. Pro jeho vyzkoušení stačí zadat dvě varianty jednoho jevu, které si vzájemně konkurují, např. téměř × skoro.

  3. Morfio

    Nástroj Morfio slouží pro vyhledávání slovotvorných vztahů mezi jednotkami v korpusech, např. lovit - úlovek. Umožňuje najít všechny dvojice slov tvořené stejným způsobem a vyhodnotit morfologickou produktivitu jejich tvoření. Aplikace využívá rozsáhlých korpusů psaného jazyka, které pokrývají širokou paletu slovotvorných možností současné češtiny.

  4. KWords

    Aplikace KWords poskytuje základní východisko pro empiricky podloženou interpretaci textů tím, že analyzuje slova v zadaném textu a porovnává jejich frekvenci s referenčním korpusem. Výsledkem takové analýzy je identifikace klíčových slov, tj. jednotek vyskytujících se signifikantně častěji v analyzovaném textu než v korpusu, který představuje neutrální jazykový úzus.

  5. Treq

    Aplikace umožňuje snadné vyhledávání překladových ekvivalentů v oboustranných česko-cizojazyčných slovnícícch vytvořených automaticky na základě dat paralelního korpusu InterCorp.

Kdo jsme?Logo ČNK

Český národní korpus je akademický projekt založený v roce 1994 při FF UK a spravovaný Ústavem Českého národního korpusu. Jeho cílem je systematicky mapovat češtinu a další jazyky ve srovnání s ní. Korpusy ČNK jsou po bezplatné registraci otevřeny všem zájemcům o jazyk, kteří touží vědět, jak se čeština používá.

Podpora a zdroje informací
  1. Korpusy ČNK

    Korpusy ČNK zahrnují vedle psaného současného jazyka (v rozsahu přes 2 mld. slov) i soubory spontánního mluveného jazyka (téměř 5 mil. slov), diachronní korpus starších textů a paralelní korpus InterCorp obsahující překlady z nebo do více než 30 jazyků.

  2. Biblio

    Biblio je repozitář vědeckých publikací a kvalifikačních prací, které jsou založeny na zdrojích ČNK. Repozitář je přístupný všem návštěvníkům tohoto portálu a slouží jako neustále doplňovaná bibliografie korpusové lingvistiky. Chcete vědět více?

  3. Wiki

    Internetová příručka ČNK ve formě wiki představuje komplexní bázi znalostí pro práci s korpusy. Kromě informací o nástrojích a datech ČNK obsahuje i slovníček pojmů z korpusové lingvstiky a kurz v 7 lekcích.

  4. Podpora

    Pro registrované uživatele je k dispozici naše centrum podpory. Vedle hlášení chyb a požadavků na nové funkce obsahuje zejména internetovou poradnu, v níž na vaše dotazy odpovídají členové týmu ČNK. Stálým orgánem Fóra uživatelů je Vědecká rada ČNK.

  5. Jazyková data

    Není pro vaše výzkumné cíle přístup ke korpusům přes vyhledávací rozhraní dostačující? ČNK poskytuje také datové balíčky odvozené od zveřejněných korpusů způsobem, který respektuje omezení vyplývající z dohod uzavřených s poskytovateli textů, z autorského zákona a dalších platných předpisů.