English version below
Český národní korpus | Aktuality
Říjen 2015 | Facebook

Nové korpusy

InterCorp verze 8

Paralelní korpus InterCorp je od června letošního roku dostupný ve verzi 8. Pokrývá celkem 38 jazyků (v nestejném rozsahu). Stejně jako v předchozích verzích je jeho obsah tvořen jednak beletristickým ručně zkontrolovaným jádrem (jeho cizojazyčná část obsahuje 194 mil. slov) a automaticky zarovnanými kolekcemi, jejichž rozsah v cizojazyčné části přesahuje 1,2 mld. slov.

Speeches

V září byl zveřejněn korpus oficiálních prezidentských projevů Speeches vytvořený na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené „written-to-be-spoken“ texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou ORAL (mluvené neformální a nepřipravené promluvy) a řadou SYN (oficiální veřejný psaný jazyk).

Cílem korpusu je pokrývat období let 1918 až 2015, a to na základě mapování prezidentských projevů (příp. projevů jiných politiků mluvících v zastoupení prezidenta) pronesených u příležitosti periodicky se opakujících výročí a svátků (Nový rok, 28. říjen apod.). Svým rozsahem a zaměřením se řadí mezi malé (téměř 220 tisíc slov) a relativně úzce specializované korpusy. Korpus je vybaven podrobnou strukturní anotací popisující jednotlivé projevy a anotací poziční (lemmatizace a tagování).

Diakorp verze 6

Korpus Diakorp bude během října rozšířen o více než 1 mil. slovních tvarů, jeho celková velikost tak přesáhne 3 miliony. Nové rozšíření se týká zejména období 19. století, v menší míře pak také období starších (rovnoměrně jsou začleněny texty ze 14. až 18. století). Diakorp zůstává i nadále korpusem nelemmatizovaným.

Společně s rozšířením Diakorpu došlo také k podstatným změnám ve značení struktury zpřístupněných textů. Značky dosud užívané pro emendace (zaznamenávající změny provedené při transkripci pomocí <e></e>) se nově staly pozičními atributy, zatímco ostatní značky jsou v nové verzi Diakorpu zobrazeny jako struktury. Tyto změny umožňují snadné využití strukturace textu také na uživatelské úrovni, informace zachycené v emendacích navíc nezasahují do analýz prováděných na úrovni slovních tvarů. Bližší popis Diakorpu verze 6 a souhrn uskutečněných změn najdete na wiki ČNK.

Aranea

Aranea je rodina nereferenčních srovnatelných webových korpusů sestavených V. Benkem, kterou ČNK hostuje. V současné době pokrývá celkem 14 jazyků (cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh), pro některé jazyky jsou dále k dispozici specifické korpusy obsahující pouze některou z variet (vedle globální angličtiny také angličtina africká a asijská, vedle celku ruštiny také ruština z ruských a neruských domén). Pro každý jazyk či varietu jsou k dispozici vždy dva korpusy: základní větší (maius, cca 1 mld. slov) a jeho 10% menší vzorek (minus). Pro češtinu a slovenštinu je k dispozici navíc také korpus o co největším rozsahu (maximum).

Srovnatelnosti korpusů pro jednotlivé jazyky bylo dosaženo shodnou metodikou jejich tvorby, přibližně stejnou velikostí, dobou akvizice dat a použitím shodných nástrojů pro další zpracování (filtrace, deduplikace, lemmatizace a morfologické značkování).

Nové nástroje

Treq

Sadu aplikací, které jsou dostupné na portálu ČNK rozšířil v září Treq. Umožňuje snadné prohledávání oboustranných česko-cizojazyčných slovníků, které byly automaticky extrahovány z paralelních textů korpusu InterCorp verze 8. Práce s aplikací Treq je velice jednoduchá, stačí zvolit jazykový pár a zadat hledané slovo, výsledkem dotazu je pak seznam návrhů překladových ekvivalentů, který může sloužit pro inspiraci při tvorbě překladu nebo slovníkového hesla.

Novinky v KonTextu

Během října byla zveřejněna také nová verze hlavního rozhraní pro práci s korpusy KonText. Vedle přechodu na novější verzi serverové části (manatee-open-2.121.1) doznalo řady změn, oprav chyb a vylepšení také uživatelské rozhraní; jde např. o možnost modifikace vytvořeného subkorpusu, přehlednější zadávání CQL dotazů nebo nový design menu.

Nejviditelnější změnou je ovšem zcela přepracovaný výběr pracovního korpusu. Dosud používané hierarchické uspořádání korpusů bylo nově nahrazeno zrychlenou volbou, která má dvě části: 1) korpusy, které ČNK považuje v jednotlivých oblastech své produkce za „vlajkové“, a 2) oblíbené korpusy, jejichž výběr je plně na uživateli; tyto korpusy lze nyní vybírat velice rychle (na jedno kliknutí). Za oblíbenou položku je přitom možné označit nejenom celý samostatný korpus, ale také jeho subkorpus nebo zarovnané dvojice či trojice korpusů v rámci paralelního korpusu InterCorp. Úplný seznam všech korpusů, které má uživatel k dispozici, zůstává přístupný přes novou položku menu Korpusy > Dostupné korpusy. Všechny korpusy jsou pro snazší vyhledávání opatřeny štítky s jejich základní charakteristikou.

Smyslem nového způsobu výběru korpusů je především usnadnit orientaci v množství korpusů a jejich verzí, které zejména v poslední době rychle přibývají, a zároveň zrychlit práci s nimi těm, kteří pravidelně využívají jen menší počet korpusů. Popis práce s korpusy v nové verzi rozhraní KonText najdete na naší wiki.

Změna prohlášení uživatele ČNK

V průběhu podzimu budou všichni stávající uživatelé ČNK vyzváni k tomu, aby potvrdili svůj souhlas s novými podmínkami užívání korpusů, nástrojů a dalších zdrojů projektu ČNK. Ke změně podmínek jsme přistoupili proto, že dosavadní verze prohlášení už zastarala, a to zejména ve dvou bodech:

  1. V původním prohlášení jsme žádali uživatele, aby nám zasílali odborné příspěvky, které vytvořili s využitím zdrojů ČNK. Místo zasílání vědeckých publikací bychom rádi podpořili další rozvoj letos zřízeného repozitáře vědeckých publikací Biblio; nově proto žádáme uživatele, aby svoje příspěvky (nebo alespoň bibliografické údaje k nim) vkládali přímo do repozitáře.
  2. Se spuštěním portálu www.korpus.cz se změnil i způsob prodlužování uživatelského účtu; explicitní souhlas s dalším používáním zdrojů ČNK byl nahrazen automatickým prodloužením data expirace po každém přihlášení

Ostatní podmínky – zejména potřeba citovat korpusy a využívat je k nekomerčním účelům – se až na formulační drobnosti nemění.

Czech National Corpus | Newsletter
October 2015 | Facebook

New corpora

InterCorp version 8

Since June 2015, a new version of the InterCorp parallel corpus (version 8) has been available online. It includes 38 languages (with uneven textual representation). Like the previous version, the new InterCorp version contains both a fiction core (manually checked, 194 million words in non-Czech part) and several collections (automatically aligned, more than 1.2 billion words in the non-Czech part).

Speeches

Since September, a corpus of official Czech presidential speeches, aptly called Speeches, has been available. The corpus was created in co-operation with Oslo University. Focusing on written-to-be-spoken texts, characterized both by linguistic features typical for written language and a spoken presentation form, the Speeches corpus is positioned between the corpora of the ORAL series (informal and spontaneous spoken texts) and the SYN series (official public written language).

The corpus aims to cover the period of 1918–2015, mapping speeches made by presidents (or possibly other high officials) on the occasion of periodically occurring holidays and anniversaries (New Year, 28th October etc.). Due to its size and orientation, it can be considered a small and specialized corpus (220 thousand words). The corpus features detailed structural annotation characterizing individual speeches (description in Czech), as well as positional annotation (including lemmatization and tagging).

Diakorp version 6

In October, the Diakorp corpus will gain more than a million running words, reaching over 3 million tokens in total. New texts cover mostly the 19th century, but also older periods (14th to 18th century, uniformly represented). Diakorp has not yet been lemmatized (details in Czech).

Together with this content update, significant changes have been made to the annotation of the published texts' structure. Emendation tags (tracking changes made during transcription, encoded as <e></e>) became positional attributes, whereas other tags are displayed as structures in the new Diakorp version. These changes provide for a more user-friendly interaction with the text structure; moreover, emendation tags no longer interfere with analyses conducted at the word form level.

Aranea

The Aranea corpora series is a family of large comparable web corpora created by Vladimír Benko (Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences) and hosted by the CNC.

At the moment, it offers 14 language versions (cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh); for some languages, several varieties are available (global English, African English and Asian English; Russian from the national top-level domain and from elsewhere). Every language or language variety is available in two corpus versions: a basic larger corpus (Maius, approx. 1 billion words) and its one-tenth sample (Minus, approx. 100 million words). For Czech and Slovak, even larger, untrimmed versions (Maximum) are also available.

The corpora are comparable as to their design, which is based on the same method of extraction, a similar size and time of data acquisition, and the use of identical tools for their processing (filtration, deduplication, lemmatization, and morphological tagging).

New tools

Treq

Treq is a new application available as part of the CNC web portal since September 2015. Treq enables users to search through a collection of bilingual Czech-foreign language dictionaries, built automatically from the InterCorp parallel corpus (version 8). Treq is a very user-friendly tool: just choose a language pair and search for a word. The result is a list of potential translation equivalents, each one with a direct link to the particular parallel corpus concordance, providing translation contexts. Whether as an inspiration for translators or a helpful tool for lexicographers, Treq is worth trying out.

KonText Innovations

In October, a new, enhanced version of KonText, the main CNC interface, was launched. Besides a transition to the latest version of the server back-end (manatee-open-2.121.1), it also offers new functionality and improvements in the user interface, such as the possibility to modify the user’s subcorpora, more intuitive CQL querying and a new menu design.

The most visible change concerns the way corpora are selected for querying. Due to space limitations, the hierarchical tree of corpora has been replaced by a label system allowing users to choose and quickly access their favourite corpora (with one click) or the featured CNC corpora. The favourites list can be used to store not only corpora (including parallel corpora of two or three languages), but also subcorpora. The complete list of all available corpora can be found in the menu Corpora > Available corpora. For easier orientation, all corpora are labelled with their basic characteristics (spoken, written, Czech, synchronic, parallel etc.).

The main purpose of the new system is to facilitate corpus selection and make it easier to navigate through the growing number of corpora and their versions. At the same time, users working with smaller number of corpora will find it faster to access them. For more detailed information on how to select corpora in the new KonText, see the CNC wiki (in Czech only)

Amendment to the CNC user declaration

In the autumn of 2015, all CNC users will be asked to confirm their consent with new terms and conditions concerning the use of CNC corpora, tools and other resources. The reason is that the old version became obsolete, particularly with respect to two points:

  1. According to the old terms and conditions, users were asked to send us their academic outputs (articles, theses etc.) created with the help of CNC resources. In the updated version, we encourage them instead to fill in the relevant information about their papers and/or upload the full-text directly into the repository of CNC-based research outputs (Biblio).
  2. Since the CNC web portal came into existence, the way of renewing the user login and password each year has also changed. Explicit consent is no longer required; login expiration is automatically postponed every time the user accesses their account at www.korpus.cz

Other terms and conditions – especially the obligation to cite CNC resources in references and to use them purely for non-commercial purposes – remain unchanged.

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy v Praze
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837