English version below
Český národní korpus | Aktuality
Prosinec 2021 | Facebook Twitter YouTube

InterCorp verze 13 v anotaci podle UD

Byla zveřejněna nová verze paralelního korpusu InterCorp v13 v anotaci podle Universal Dependencies (UD). Tato verze InterCorpu má především tyto výhody:

  • počet lingvisticky anotovaných jazyků vzrostl na 36;
  • anotace podle standardu UD je ve všech jazycích srovnatelná;
  • pro všechny tyto jazyky je navíc k dispozici syntaktická anotace;
  • funkce Vložit tag byla přizpůsobena UD a lze ji využít pro všechny anotované jazyky.

Podrobnější informace najdete na samostatné stránce.

DIALEKT verze 2 a aplikace Mapka

Korpus DIALEKT zachycuje tradiční teritoriální dialekty českého jazyka. V nově zveřejněné verzi 2 se jeho velikost více než zdvojnásobila na 223 tisíc slov. V rozhraní KonText je dostupný dialektologický a ortografický přepis, lemmatizace a morfologické značkování, jakož i průvodní zvuková stopa.

Korpus doplňuje aplikace Mapka, která byla letos rozšířena o nové funkce, např. zobrazení moravské a slezské zemské hranice a německých jazykových ostrovů nebo možnost uložit si vlastní mapové vrstvy s body zakreslenými uživatelem.

SYN verze 9

Zveřejnili jsme další aktualizaci korpusu současné psané češtiny SYN, jehož verze 9 nyní po zahrnutí publicistiky z roku 2019 přesahuje velikost 4,7 miliardy slov. SYN verze 10 s daty za rok 2020 bude k dispozici na začátku příštího roku.

SYN verze 9 se od předchozí verze 8 liší zejména zpracováním: jeho strukturní značky stejně jako lemmatizace a morfologické značkování odpovídají korpusu SYN2020.

Konference Translation in Transition

S radostí oznamujeme, že 6. ročník mezinárodní konference Translation in Transition se uskuteční v září 2022 na FF UK v Praze. Tento ročník bude klást zvláštní důraz na následující témata: využití rozsáhlých zdrojů ČNK (především korpusu InterCorp), metodologické souvislosti mezi translatologií a kontrastivní lingvistikou, a také strojový překlad.

Přijímání abstraktů již bylo zahájeno s termínem do 14. února 2022. Podrobnější informace najdete ve druhém callu.

ČNK opět potřebuje vaši pomoc: návaznost vědeckých výstupů v RIV!

Od loňského roku mají všechny výzkumné infrastruktury (včetně Českého národního korpusu) povinnost zajistit, aby u všech výstupů, které vznikly s jejich využitím, byla tato skutečnost v RIV explicitně uvedena (zákon č. 130/2002, § 32, odst. 4). Je to analogické stávající praxi, kdy se u vědeckých výstupů uvádí grant, z něhož byl publikovaný výzkum podpořen; v tomto případě ovšem nejde o podporu v podobě financí, ale využití služeb konkrétní výzkumné infrastruktury.

Chceme proto požádat všechny uživatele ČNK v ČR, kteří budou ve svých domovských institucích připravovat přehledy publikací za rok 2021 k odeslání do RIV, aby se využití korpusů a aplikací ČNK pokusili do systému zadat. Na každé instituci zadávání probíhá jinak, nemůžeme tedy bohužel podat návod, jak to udělat technicky. Můžeme ale všechny uživatele ujistit, že nová položka s návazností na výzkumnou infrastrukturu byla do RIV přidána navíc a že uvedení infrastruktury CNC II (kód 90137) v ní se nijak nekříží s běžnou grantovou dedikací. Využití infrastruktury ČNK tedy není v rozporu s tím, že samotný výzkum byl financován z jiných zdrojů (např. GA ČR).

Přidání návaznosti na infrastrukturu by pro vás mělo být snadné a rychlé, přitom však může projektu ČNK významně pomoct.

V případě jakýchkoli nejasností prosíme pište na cnk@korpus.cz.

Děkujeme za pomoc!

Korpusový kanál na YouTube

Před koncem roku jsme pro vás inovovali a rozšířili náš kanál na YouTube. Přidali jsme celou řadu instruktážních videí a roztřídili je do několika tematických playlistů: Slovo v kostce, Korpusové rozhraní KonText, Základní informace o korpusech či Nástroje a aplikace ČNK.

PF 2022

Za celý tým ČNK posíláme vánočně laděné přání do Nového roku!

Czech National Corpus | Newsletter
December 2021 | Facebook Twitter YouTube

InterCorp release 13 with UD annotation

A new version of the InterCorp release 13 parallel corpus has been published. It is annotated according to the Universal Dependencies (UD) standard. This release mainly has the following advantages:

  • there are now 36 linguistically annotated languages;
  • UD annotation is comparable across them;
  • all of these languages also feature syntactic annotation;
  • the Insert tag widget has been adapted for UD and is available for all annotated languages.

More details can be found at a dedicated web page.

DIALEKT release 2 and the Mapka app

The DIALEKT corpus captures traditional Czech regional dialects. In its newly published release 2, it has more than doubled in size to 223 thousand words. Users can access dialectological and orthographic transcripts, lemmatization and morphological tagging, as well as the sound recordings themselves.

The corpus is complemented by the Mapka application which has gained new features this year, e.g. displayable borders of Moravia, Silesia and German language pockets, or downloadable custom map layers with user-defined points.

SYN release 9

SYN release 9 was published as another update of the SYN corpus of contemporary written Czech. With journalistic texts from 2019, its size now exceeds 4.7 billion words. SYN release 10 with data from 2020 will be available at the beginning of next year.

SYN release 9 differs from the previous release 8 mainly in its structural markup as well as its lemmatization and morphological tagging, which all match those of SYN2020.

Translation in Transition Conference

We are pleased to announce that the sixth edition of the Translation in Transition conference will take place in Prague in September 2022. Key topics for this edition: taking advantage of the vast CNC resources (especially InterCorp), methodological interplay between translation studies and contrastive linguistics, and machine translation.

Abstract submission is now open, with a deadline of Februrary 14th, 2022. Details are available in the second call for papers.

CNC needs your help again: research outputs in the RIV registry

This item is mainly directed towards researchers based in Czechia, who enter their outputs into the RIV registry operated by the Czech government. We kindly request that research which has benefited from the CNC as a research infrastructure be explicitly marked as such by its author(s) in the registry, if possible. An accurate picture of our research impact will greatly help with any future performance evaluation.

For researchers based outside Czechia, our plea is for you to continue entering basic bibliographical information about your outputs into our own Repository of scientific publications. This enables us to create the corresponding RIV entries ourselves.

Should you have any queries, please e-mail us at cnk@korpus.cz.

Many thanks for your help!

CNC YouTube Channel

Before the end of the year, we innovated and expanded our YouTube channel (Czech-only at the moment). We added a variety of instructional videos and grouped them into several playlists: Word at a Glance, The KonText corpus interface, Basic information about corpora, or CNC tools and applications.

Season’s greetings

The entire CNC team wishes you all the best in the New Year 2022!

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837