hledat:    
 

Korpus InterCorp

Martin Vavřín, Alexandr Rosen

Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:

InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích. Nově je zpřístupněn také výběr publistických článků z projektu Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.

Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z října 2009):

jazyk
počet českých
slov
(v tisících)
počet cizích
slov
(v tisících)
počet textů
angličtina
4 041
4 705
Syndicate + 34
bulharština
1 057
1 049
14
dánština
80
102
4
finština
497
423
11
francouzština
2 415
3 120
Syndicate + 21
chorvatština
4 363
4 599
69
italština
2 254
2 591
26
litevština
318
272
7
lotyština
1 121
1 067
23
maďarština
1 030
985
15
němčina
6 466
7 480
Syndicate + 70
nizozemština
2 448
3 046
45
polština
2 450
2 422
40
portugalština
1 261
1 436
18
rumunština
461
564
4
ruština
2 873
2 902
Syndicate + 23
srbština
1 129
1 209
19
slovenština
352
351
7
slovinština
813
901
15
španělština
7 210
8 427
Syndicate + 82
švédština
1 439
1 643
25
CELKEM
44 077
49 293
572

Morfosyntaktická anotace v paralelním korpusu InterCorp

Texty v těchto jazycích jsou opatřeny morfologickou anotací.

jazykznačkylemmatastručný popispodrobný popisnástroj
angličtinaanglickyanglicky + dodatkyTreeTagger
bulharština  anglickyTreeTagger
češtinačesky anglickyanglickyMorče
francouzštinaanglicky TreeTagger
italštinaanglicky TreeTagger
maďarština  anglickyHunPos
němčina německyTreeTagger
nizozemština   TreeTagger
polštinaanglicky polskyanglickyMorfeusz, TaKIPI
ruštinaanglicky TreeTagger
španělštinaanglicky TreeTagger

Stručný návod pro práci s uživatelským rozhraním korpusu InterCorp

Po zadání uživatelského jména a hesla se otevře stránka se seznamem jazyků a textů, které jsou v současné době k dispozici. Nejprve je třeba levým tlačítkem myši označit alespoň dva jazyky, zaškrtnutím každého z nich (s výjimkou češtiny) se omezí nabídka textů. Po volbě jazyků, případně textů, už je možné zadávat dotazy.

Vyhledávací rozhraní zatím nabízí tyto základní funkce:

U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat do rámečku Phrase a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.

Upozornění

K dispozici je testovací verze vyhledávacího rozhraní, kterou vyvíjíme a vylepšujeme; je proto možné, že při hledání v korpusu narazíte na problémy. Popis problémů, připomínek a podnětů k dalšímu vývoji rozhraní uvítáme na adrese

Poděkování

Děkujeme za možnost využívat následující software a data: