AplikaceAplikace
Nastavení

Korpus InterCorp verze 7

Název čeština jádro čeština kolekce cizí jazyky jádro cizí jazyky kolekce
Pozice Počet tokenů 95 814 527 116 374 744 208 845 922 1 546 493 833
Počet slovních tvarů 77 121 760 88 303 155 173 224 560 1 216 880 655
Struktury Počet dokumentů 1 184 5 2 294 87
Počet div 1 184 107 388 2 294 1 817 043
Počet vět 6 595 174 13 497 188 12 796 035 142 788 867
Další informace referenční ANO
reprezentativní NE (různé textové typy)
rok zveřejnění 2014
cizích jazyků 38
tagovaných jazyků 20
lemmat. jazyků 17

Přístup k textům

InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní KonText pomocí speciálního dotazovacího formuláře pro paralelní korpusy.

Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.

Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné.

Odkazy

Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu www.korpus.cz/intercorp a k odborným publikacím odkaz na článek ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics. Vol. 13, no. 3, p. 411–427 (bibtex, elektronické vydání na serveru ingentaConnect, verze před tiskem).

Seznam další literatury najdete zde, případně v repozitáři bibliografických informací založených na Českém národním korpusu. Vítáme všechny odkazy na práce s využitím korpusu InterCorp a prosíme o jejich zadání do repozitáře; podrobnější informace o něm najdete zde

Obsah korpusu

Jádrem korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. kolekce. Ve verzi 7 jsou k dispozici tyto kolekce:

Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů Acquis Communautaire a Europarl byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze Open Subtitles, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.

Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 7 z prosince 2014 je 173 milionů pozic v zarovnaných cizojazyčných textech v jádru a 1 217 milionů slov v zarovnaných cizojazyčných textech v kolekcích; historii verzí najdete zde. Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech.


Graf složení korpusů jednotlivých jazyků – Jádro

Graf složení korpusů jednotlivých jazyků – Kolekce


Velikost korpusu v tisících slov

Zkratka Jazyk Jádro Syndicate Presseurop Acquis Europarl Subtitles Celkem
ararabština340000034
beběloruština1 751000001 751
bgbulharština4 9230013 8169 083027 823
cakatalánština4 498000004 498
dadánština1 3110021 68013 91614 43051 336
deněmčina26 3153 0501 71521 72413 0898 36774 260
elřečtina00025 07015 40423 71564 188
enangličtina12 6413 0831 86324 20815 58052 101109 476
esšpanělština16 9073 4791 94827 00115 88536 379101 599
etestonština00015 96310 90010 29637 158
fifinština3 0540016 45510 17515 09844 782
frfrancouzština6 9763 5352 05427 35217 17825 96283 057
hehebrejština0000016 22116 221
hihindština20600000206
hrchorvatština14 210000019 09333 303
humaďarština4 0140019 17712 30721 24056 737
isislandština000001 5851 585
ititalština6 3132471 89324 84915 48914 65463 446
jajaponština00000113113
ltlitevština3580018 39311 21355830 522
lvlotyština1 3370018 74511 68928032 051
mkmakedonština3 22100001 8775 098
msmalajština000003 5213 521
mtmaltština00014 1330014 133
nlnizozemština9 37002 08224 74615 56329 36381 125
nonorština4 103000004 103
plpolština16 00901 66220 62812 81126 57277 683
ptportugalština2 39302 10328 60316 48543 39292 976
rorumunština3 15601 9178 2009 44634 12956 847
ruruština3 3082 6510006 88612 844
skslovenština7 4020019 22312 7345 13444 493
slslovinština9000019 64612 24117 02549 811
sqalbánština000002 0042 004
srsrbština8 413000020 77729 189
svšvédština7 7890020 58613 84014 69456 909
trturečtina0000021 19121 191
ukukrajinština2 31000002462 556
vivietnamština000001 4741 474
celkem173 22516 04417 239430 195265 029488 3731 390 105
csčeština77 1222 7491 64020 30312 92350 688165 425
CELKEM250 34618 79318 880450 498277 952539 0611 555 530

Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.

Morfosyntaktická anotace

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

Jazyk Značky Lemmata Stručný popis Podrobný popis Nástroj
angličtina anglicky anglicky + dodatky TreeTagger
bulharština     anglicky TreeTagger
čeština česky anglicky anglicky Morče
estonština estonsky a anglicky   TreeTagger
finština   anglicky *) OMorFi+HunPOS
francouzština anglicky   TreeTagger
islandština     IceStagger
italština anglicky   TreeTagger
litevština česky a anglicky anglicky Autor: Vidas Daudaravičius
maďarština     anglicky HunPos
němčina anglicky **) německy RFTagger
nizozemština     nizozemsky TreeTagger
norština anglicky norsky   Oslo Bergen Tagger
polština anglicky polsky anglicky Morfeusz, TaKIPI
portugalština španělsky   TreeTagger
ruština anglicky anglicky ***) TreeTagger
slovenština slovensky slovensky Radovan Garabík, Morče
slovinština   anglicky totale
španělština anglicky   TreeTagger
švédština     Stagger

*) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].

**) Uvnitř jedné morfologické značky používáme jako oddělovač jednotlivých kategorií dvojtečku místo tečky, tedy např. ADJA:Pos:Nom:Sg:Fem.

***) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.

Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.

Strukturní atributy

StrukturaAtributPopisMožné hodnoty
docdoc.idunikátní identifikátor dokumentutext
doc.langjazyk textuar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh
doc.versionverze textučíslo
doc.wordcountvelikost dokumentu ve slovechčíslo
divdiv.ididentifikace textupříjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE
div.grouprozdělení na:Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate
div.wordcountpočet slov textučíslo
div.authorautor textupříjmení, jméno
div.titleúplný název textutext
div.publishervydavateltext
div.pubplacemísto vydánítext
div.pubyearrok vydáníletopočet
div.txtypetyp textudiscussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles
div.originalje text originálem?Yes / No
div.srclangjazyk origináluar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh
div.translatorpřekladatel textupříjmení, jméno
div.transsexpohlaví překladateleF / M
div.authsexpohlaví autora:F / M
pp.idunikátní identifikátor odstavcetext
ss.idunikátní identifikátor větytext

Poděkování

Děkujeme za možnost využívat následující texty a software:

Texty:

Předzpracování

  • editor paralelních textů InterText (autor Pavel Vondřička)
  • zarovnávač Hunalign
  • větný segmentátor pro češtinu (autor Pavel Květoň)
  • větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
  • větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit

Značkovače / lematizátory:

  • MorfFlex, Morče a LanGr pro češtinu
  • TreeTagger pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
  • Morfeusz a TaKIPI pro polštinu
  • HunPOS pro maďarštinu a další jazyky
  • tagger pro slovenštinu (s poděkováním Radovanu Garabíkovi)
  • tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové
  • tagger pro norštinu
  • totale pro slovinštinu (s poděkováním Tomaži Erjavcovi)
  • RFTagger pro němčinu
  • OMorFi+HunPOS pro finštinu (s poděkováním Filipu Ginterovi)
  • Stagger a IceStagger pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)

Související odkazy