English version below
Český národní korpus | Aktuality
Prosinec 2022 | Facebook Twitter YouTube

Druhá generace korpusů ONLINE

V prosinci byla zveřejněna druhá generace korpusů ONLINE. Časově navazuje na generaci první (pokrývá období od dubna 2021) a díky každodenní aktualizaci v rozsahu cca 1,3 mil. tokenů umožňuje zkoumat aktuální trendy ve veřejném diskurzu. Obsahově je ONLINE2 více zaměřen na online média, v nichž poskytuje pestřejší pokrytí, oproti předchozí generaci však neobsahuje sociální média ani diskusní fóra. Pro snadnější práci s větším objemem dat je opět rozdělen na dva korpusy – ONLINE2_NOW pokrývající období posledních 6 měsíců a ONLINE2_ARCHIVE obsahující texty starší.

Další nové korpusy

Také letos byly zveřejněny pravidelné aktualizace synchronního psaného korpusu SYN (verze 11) a paralelního korpusu InterCorp (verze 15). Kromě toho bylo dokončeno několik nových korpusů, zejména KSP (Korpus současné poezie) a VE­SPA_CZ, žá­kov­ský kor­pus psané aka­de­mické an­g­lič­tiny po­kro­či­lých mluv­čích s češ­ti­nou jako L1.

API

Jako alternativu k přístupu přes webové rozhraní je možné využívat některé aplikace ČNK také přes aplikační programové rozhraní (API). Prvními takto zpřístupněnými aplikacemi jsou Kon­Text a Treq, další budou po­stupně přibývat.

Alpha: překladač dotazů

Přibyla nová aplikace Al­pha, která umí pře­vést dotaz z při­ro­ze­ného jazyka do dotazovacího (CQL); ten je pak možné přímo po­u­žít v KonTextu.

Alpha se tak stala další aplikací v naší nové liště, která umožňuje in­di­vi­du­ální vý­běr oblíbených apli­kací a je­jich při­pnutí na lištu tak, aby byly pro všechny uživatele snáze do­stupné.

ČNK stále potřebuje vaši pomoc: návaznost vědeckých výstupů v RIV!

Od roku 2020 mají výzkumné infrastruktury (včetně Českého národního korpusu) povinnost zajistit, aby u všech výstupů, které vznikly s jejich využitím, byla tato skutečnost v RIV explicitně uvedena (zákon č. 130/2002, § 32, odst. 4). Je to analogické běžné praxi, kdy se u vědeckých výstupů uvádí grant, z něhož byl publikovaný výzkum podpořen; v tomto případě ovšem nejde o podporu finanční, ale o využití služeb konkrétní výzkumné infrastruktury.

Chceme proto opět požádat všechny uživatele ČNK v ČR, kteří budou ve svých domovských institucích připravovat přehledy publikací za minulý rok k odeslání do RIV, aby se využití korpusů a aplikací ČNK pokusili do systému zadat. Na každé instituci zadávání probíhá jinak, nemůžeme tedy bohužel podat návod, jak to udělat technicky. Můžeme ale všechny uživatele ujistit, že položka s návazností na výzkumnou infrastrukturu byla do RIV přidána navíc a že uvedení infrastruktury CNC II (kód 90137) v ní se nijak nekříží s běžnou grantovou dedikací. Využití infrastruktury ČNK tedy není v rozporu s tím, že samotný výzkum byl financován z jiných zdrojů (např. GA ČR).

Přidání návaznosti na infrastrukturu by pro vás mělo být snadné a rychlé, pro nás je však životně důležité: toto formální doložení prospěšnosti ČNK pro konkrétní výzkum významně pomůže při hodnocení socioekonomických dopadů infrastruktury ČNK, a v konečném důsledku i při získávání finanční podpory pro její další rozvoj.

V případě jakýchkoli nejasností prosíme pište na cnk@korpus.cz.

Děkujeme za pomoc!

PF 2023

Celý tým ČNK přeje do Nového roku hodně štěstí a spokojenosti!

Czech National Corpus | Newsletter
December 2022 | Facebook Twitter YouTube

The second generation of ONLINE corpora

In December, the second generation of ONLINE corpora was published. Thanks to its daily updates (approx. 1.3 million tokens), it is a per­fect source of da­ta to ex­am­ine cur­rent trends in pub­lic dis­course. Time-wise, ONLINE2 follows the first generation by covering the period from April 2021. Content-wise, it is focused on online media where it provides more diverse coverage, but unlike the first generation, it does not contain social media or discussion forums. ONLINE2 is divided into two parts: ONLINE2_NOW covers the period of the last 6 months and ONLINE2_ARCHIVE contains older texts.

Other new corpora

Regular updates of the SYN corpus of contemporary written Czech (release 11) and the InterCorp parallel corpus (release 15) were published this year. In addition, new corpora were created: KSP, corpus of contemporary Czech poetry, as well as VESPA_CZ, learn­er cor­pus of writ­ten aca­d­e­m­ic Eng­lish by ad­vanced L2 Eng­lish uni­ver­si­ty stu­dents whose L1 is Czech.

API

As an alternative to accessing the CNC applications via their web interface, it is now possible to query some of them via their application programming interface (API). We have started with Kon­Text and Treq, another applications with open API will be added in the fu­ture.

Alpha: query translator

A new Al­pha ap­pli­ca­tion has been made available. It can trans­late a query from nat­ur­al language to corpus query lan­guage (CQL) that can subsequently be used in KonText.

Alpha has become a part of our new ap­pli­ca­tion bar that en­ables cus­tomized se­lec­tion of favourite ap­pli­ca­tions on a per user ba­sis. This makes the se­lect­ed CNC ap­pli­ca­tions more eas­i­ly accessible.

CNC still needs your help: research outputs in the RIV registry

This item is mainly directed towards researchers based in Czechia who enter their outputs into the RIV registry operated by the Czech government. We kindly request that research which has benefited from the CNC as a research infrastructure be explicitly marked as such by its author(s) in the registry, if possible. An accurate picture of our research impact will greatly help with the forthcoming performance evaluation.

For researchers based outside Czechia, our plea is for you to continue entering basic bibliographical information about your outputs into our own Repository of scientific publications. This enables us to create the corresponding RIV entries ourselves.

Should you have any queries, please e-mail us at cnk@korpus.cz.

Many thanks for your help!

Season's greetings

The entire CNC team wishes you all the best in the New Year 2023!

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837