Menu Korpus
Souhrnné informace
klávesová zkratka: Ctrl-IZobrazí souhrnné informace o vybraném korpusu. Uvedený příklad je pro korpus SYN2000, ostatní korpusy mohou mít jiné atributy, např. Brněnský mluvený korpus má navíc atribut pron (výslovnost).
| Počet pozic | Souhrnný počet všech slovních tvarů, číslic, interpunkčních a jiných znaků. |
| word | Počet všech různých tvarů slov v korpusu. Každý tvar je započítán jen jednou. Například frekvence tvaru kočičím v korpusu SYN2000 je 25 výskytů, ale zde je započítán jednou. |
| lemma | Počet všech různých lemmat (slovníkových tvarů slov). |
| tag | Počet všech různých morfologických značek. |
| lc | Počet všech slovních tvarů bez ohledu na velikost písmen. Každý tvar je započítán pouze jednou. Například tvar kočičím má 25 výskytů a tvar Kočičím 3 výskyty, zde bude započítán jednou, u atributu word dvakrát. |
| pos | Počet slovních druhů rozlišovaných v korpuse. Ke klasickým 10 slovním druhům zde přibývá ještě označení interpunkce a nerozpoznaných slovních druhů. |
| doc | Počet dokumentů v korpusu. Dokumentem se rozumí větší textový celek (např. kapitola knihy, článek v novinách ap.). Jeho rozsah závisí na charakteru textu. |
| s | Počet vět v korpusu. |
Statistiky
Umožňuje jednoduše a rychle spočítat frekvenci jednoho určitého tvaru slova, lemmatu nebo morfologické značky.
Dále je možné zadat dvě slova (lemmata, značky, slovní druhy apod.), u nichž chceme zjistit jejich vzájemný vztah. Po výpočtu manažer zobrazí četnost uvedené dvojice, četnosti obou hodnot zvlášť a dvě statistické informace: mi-score a t-score.
Při prostém hledání frekvence jednoho výrazu vyplníme jen první řádek. U položky Atribut 1 zvolíme z nabídky, zda hledaný výraz bude slovní tvar (položka word), lemma (položka lemma) nebo morfologická značka (položka tag), tvar bez ohledu na velikost písma (položka lc) nebo slovní druh (položka pos). U dalších korpusů mohou být jiné atributy, např. Brněnský mluvený korpus má atribut výslovnost (položka pron). Potom klikneme do vstupního pole Hodnota 1 a napíšeme slovo (nebo značku), jehož frekvenci chceme zjistit. Stiskneme tlačítko Vyhodnotit a manažer vypíše frekvenci hledaného výrazu.
Při vyhledávání dvojice výrazů postupujeme podobně. Obdobným způsobem jako při vyhledávání jednoho výrazu vyplníme oba řádky (Atribut 1 a Hodnota 1, Atribut 2 a Hodnota 2). Atributy nemusejí být u obou výrazů stejné. Můžeme například zjišťovat, jak často se vyskytuje vedle určitého slovního tvaru (jako Atribut 1 zvolíme word) určitý slovní druh (jako Atribut 2 zvolíme pos).
Dále zvolíme, jak daleko od sebe se hledané výrazy mohou vyskytnout. Do vstupních polí u položky Vzdálené od sebe od do napíšeme zvolený interval. Implicitní hodnoty od 1 do 1 znamenají, že za prvním slovem má přímo následovat druhé slovo. Hodnoty např. od 1 do 5 znamenají velikost intervalu 5, tedy mezi prvním a druhým slovem může být žádná až 4 jiné pozice. Záporná znaménka znamenají opačné pořadí výskytu. Hodnoty např. od -1 do -1 tedy znamenají, že druhé slovo má přímo předcházet před prvním slovem. Rozsah od -5 do 5 potom znamená, že slova mají být od sebe vzdálená maximálně 5 pozic a mohou být v libovolném pořadí.
Pokud zaškrtneme volbu Vyhodnocovat jako regulární výrazy, budeme mít možnost do vstupních polí zadávat dotaz obsahující regulární výrazy. Například: zvolíme-li jako atribut volbu lemma, do vstupního pole napíšeme .*tel a zatrhneme volbu Vyhodnocovat jako regulární výrazy, program spočítá frekvenci všech slov, které v základním tvaru končí na tel.
Vytvoření subkorpusu
Slouží k vytvoření subkorpusu z aktuálního korpusu (jeho volbu lze provést vpravo vedle dotazového řádku) podle níže zadaných podmínek. Tento subkorpus je možné použít pouze pro hledání; ostatní údaje, např. Souhrnné informace (zde se dozvíme pouze velikost subkorpusu) , výpočet statistik apod., se vztahují vždy k celému korpusu.
- Základní korpus - Jméno korpusu, ze kterého se bude subkorpus vytvářet. Jedná se o aktuální korpus, jehož jméno je zobrazeno vpravo vedle dotazového řádku a tady lze také vybrat jiný.
- Jméno subkorpusu - Sem napíšeme zvolené jméno vytvářeného subkorpusu. Po úspěšném vytvoření subkorpusu se v seznamu korpusů (vpravo od dotazovacího řádku) objeví nový korpusu ve tvaru základní_korpus:subkorpus. Pokud například vytvoříme subkorpus publicistiky se jménem PUB z korpusu SYN2000, v seznamu korpusů přibude položka: SYN2000:PUB.
- Značka - Jméno značky (strukturního atributu), podle které se má subkorpus vytvářet. V subkorpusu budou potom všechny pozice, které jsou součástí značky vyhovující zadané podmínce. Většinou se tvoří subkorpusy podle značky nejvyšší úrovně, které odpovídají jednotlivým větám (<s>) nebo jednotlivým dokumentům (<doc>) korpusu.
- Podmínka - Sem zapíšeme podmínky pro vytvoření subkorpusu. Pokud např. vytváříme z korpusu SYN2000 subkorpus publicistiky PUB, bude se tento subkorpus skládat z dokumentů; zvolíme tedy značku <doc>. Označení textového typu je uložené v atributu <txtype> a má hodnotu PUB. Zapíšeme sem tedy podmínku: txtype=PUB.
Smazání subkorpusu
Tato položka slouží ke smazání vytvořených subkorpusů. Subkorpus nejprve označíme kliknutím levého tlačítka myši. Smazání se provede stisknutím tlačítka Smazat.
Seznam slov
Umožňuje vyhledávání podle jednotlivých atributů vytvořením seznamu slov, obsahujících shodné části atributu. Lze tak rychle zjistit frekvenci jednotlivých slov, případně zvolit skupinu slov k vytvoření konkordance. Vyhledaný seznam můžeme seřadit podle četnosti kliknutím myší na záhlaví sloupce četnost. Pokud klikneme na sloupec s označením hledaného atributu, setřídí se seznam abecedně podle vyhledaných výrazů.
- Atribut - seznam obsahující všechny dostupné atributy zvoleného korpusu.
- Vzor - vstupní pole, kam zapisujeme hledaný výraz.
- Ignorovat velikost - po aktivování této položky bude manažer při vyhledávání ignorovat velikost písmen.
- Minimální četnost v korpusu - číslo v tomto vstupním poli vyjadřuje minimální počet výskytů hledaného výrazu v korpuse - zobrazeny budou výskyty s frekvencí rovnou nebo vyšší než je zadané číslo.
- Maximální počet zobrazených řádků - číslo udává počet řádků v seznamu slov.
- Přidat do seznamu / Nový seznam - přepíná mezi možností vytvořit nový seznam, nebo do stávajícího seznamu slov přidávat další výrazy.
- Najdi vzor - spustí vyhledávání a vytvoří seznam slov.
- Vytvoř konkordanci - všechny vyhledané výrazy ze seznamu zobrazí formou konkordančních řádků.
- Ulož - umožňuje uložit vytvořený seznam na disk. Seznam se ukládá jako textový soubor. Vyhledané výskyty a jejich frekvence jsou odděleny tabulátory.
- Zavřít - uzavře seznam slov.
Implicitní atribut
Umožňuje změnit nastavení implicitního atributu, podle kterého se vyhledávají konkordance, aniž se musí speciálně zapisovat do dotazového řádku či zadávat pomocí grafického vyhledávání. U všech korpusů je po spuštění programu nastaven jako implicitní atribut slovní tvar, tj. atribut word.