Korpus InterCorp
Martin Vavřín, Alexandr Rosen
Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
- je přístupný přes speciální rozhraní Park, které je naší nadstavbou nad systémem Manatee Pavla Rychlého; autorem Parku je Michal Štourač
- jednojazyčné verze všech paralelních korpusů jsou zpřístupněné pomocí zvláštní verze webového Bonita, takže je možné na korpusy jednotlivých jazyků používat standardní nástroje, jako jsou filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.; stejně jako se všemi cizojazyčnými korpusy je navíc možné pracovat i s odpovídajícími verzemi češtiny
- specifikem InterCorpu je také jeho inkrementální povaha: zatímco ostatní korpusy jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se bude postupně zvyšovat
InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích. Nově je zpřístupněn také výběr publistických článků z projektu Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.
Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z října 2009):
|
jazyk
|
počet
českých
slov (v tisících) |
počet
cizích
slov (v tisících) |
počet
textů
|
| angličtina |
4
041
|
4
705
|
Syndicate + 34
|
| bulharština |
1 057
|
1 049
|
14
|
| dánština |
80
|
102
|
4
|
| finština |
497
|
423
|
11
|
| francouzština |
2 415
|
3 120
|
Syndicate + 21
|
| chorvatština |
4
363
|
4
599
|
69
|
| italština |
2
254
|
2
591
|
26
|
| litevština |
318
|
272
|
7
|
| lotyština |
1 121
|
1 067
|
23
|
| maďarština |
1
030
|
985
|
15
|
| němčina |
6
466
|
7
480
|
Syndicate + 70
|
| nizozemština |
2
448
|
3
046
|
45
|
| polština |
2
450
|
2
422
|
40
|
| portugalština |
1
261
|
1
436
|
18
|
| rumunština |
461
|
564
|
4
|
| ruština |
2
873
|
2
902
|
Syndicate + 23
|
| srbština |
1 129
|
1 209
|
19
|
| slovenština |
352
|
351
|
7
|
| slovinština |
813
|
901
|
15
|
| španělština |
7
210
|
8
427
|
Syndicate + 82
|
| švédština |
1
439
|
1
643
|
25
|
| CELKEM |
44
077
|
49
293
|
572
|
Morfosyntaktická anotace v paralelním korpusu InterCorp
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
| jazyk | značky | lemmata | stručný popis | podrobný popis | nástroj |
| angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
| bulharština | ✔ | anglicky | TreeTagger | ||
| čeština | ✔ | ✔ | česky anglicky | anglicky | Morče |
| francouzština | ✔ | ✔ | anglicky | TreeTagger | |
| italština | ✔ | ✔ | anglicky | TreeTagger | |
| maďarština | ✔ | anglicky | HunPos | ||
| němčina | ✔ | ✔ | německy | TreeTagger | |
| nizozemština | ✔ | TreeTagger | |||
| polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
| ruština | ✔ | ✔ | anglicky | TreeTagger | |
| španělština | ✔ | ✔ | anglicky | TreeTagger |
Stručný návod pro práci s uživatelským rozhraním korpusu InterCorp
Po zadání uživatelského jména a hesla se otevře stránka se seznamem jazyků a textů, které jsou v současné době k dispozici. Nejprve je třeba levým tlačítkem myši označit alespoň dva jazyky, zaškrtnutím každého z nich (s výjimkou češtiny) se omezí nabídka textů. Po volbě jazyků, případně textů, už je možné zadávat dotazy.
Vyhledávací rozhraní zatím nabízí tyto základní funkce:
- specifikace prohledávané
části korpusu
- výběr jazyků
- výběr textů
- zadání dotazu
- hledání v jednom jazyce nebo ve více jazycích současně
- hledání podle slovního tvaru
- hledání podle posloupnosti tvarů (fráze)
- hledání podle výrazu jazyka CQL (analogicky jako v české části ČNK, viz např. zde)
- hledání podle lemmatu (základního tvaru) - pro některé jazyky
- hledání podle morfosyntaktické značky (tagu) - pro některé jazyky
- možnost využít při zadání dotazu regulární výrazy
- možnost využít při zadání dotazu virtuální klávesnici
- možnosti zobrazení paralelních
konkordancí
- zobrazení strukturních značek
- zobrazení bibliografických údajů a identifikace konkordance
- zobrazení lemmatu a/nebo morfosyntaktické značky, pro klíčové slovo nebo všechna zobrazená slova - pro některé jazyky
U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů can't nebo I'm, které tagger rozdělí na dvě slova (ca+n't a I+'m) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu byłam nebo gdybyś (rozděleno na była+m a gdyby+ś). Je třeba počítat i s chybným rozdělením: gdzie ś za Wisłą. Dotaz na celou spřežku je nutné zadat do rámečku Phrase a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.
Upozornění
K dispozici je testovací verze vyhledávacího rozhraní, kterou vyvíjíme a vylepšujeme; je proto možné, že při hledání v korpusu narazíte na problémy. Popis problémů, připomínek a podnětů k dalšímu vývoji rozhraní uvítáme na adrese

Poděkování
Děkujeme za možnost využívat následující software a data:
- Předzpracování
- Pravidlový segmentátor na věty - tokenize, autor Pavel Květoň
- Stochastický segmentátor na věty pro všechny ostatní jazyky - Punkt
- Hunalign - zarovnávač
- Značkovače / lematizátory:
- Morče pro češtinu
- TreeTagger pro angličtinu, bulharštinu, francouzštinu, italštinu, němčinu, nizozemštinu, ruštinu a španělštinu
- Morfeusz a TaKIPI pro polštinu
- HunPOS pro maďarštinu
- Korpusový manažer:
- Data:
