hledat:    
 
 

Menu Korpus

Souhrnné informace

klávesová zkratka: Ctrl-I

Zobrazí souhrnné informace o vybraném korpusu. Uvedený příklad je pro korpus SYN2000, ostatní korpusy mohou mít jiné atributy, např. Brněnský mluvený korpus má navíc atribut pron (výslovnost).

Počet pozic Souhrnný počet všech slovních tvarů, číslic, interpunkčních a jiných znaků.
word Počet všech různých tvarů slov v korpusu. Každý tvar je započítán jen jednou. Například frekvence tvaru kočičím v korpusu SYN2000 je 25 výskytů, ale zde je započítán jednou.
lemma Počet všech různých lemmat (slovníkových tvarů slov).
tag Počet všech různých morfologických značek.
lc Počet všech slovních tvarů bez ohledu na velikost písmen. Každý tvar je započítán pouze jednou. Například tvar kočičím má 25 výskytů a tvar Kočičím 3 výskyty, zde bude započítán jednou, u atributu word dvakrát.
pos Počet slovních druhů rozlišovaných v korpuse. Ke klasickým 10 slovním druhům zde přibývá ještě označení interpunkce a nerozpoznaných slovních druhů.
doc Počet dokumentů v korpusu. Dokumentem se rozumí větší textový celek (např. kapitola knihy, článek v novinách ap.). Jeho rozsah závisí na charakteru textu.
s Počet vět v korpusu.


Statistiky

Umožňuje jednoduše a rychle spočítat frekvenci jednoho určitého tvaru slova, lemmatu nebo morfologické značky.

Dále je možné zadat dvě slova (lemmata, značky, slovní druhy apod.), u nichž chceme zjistit jejich vzájemný vztah. Po výpočtu manažer zobrazí četnost uvedené dvojice, četnosti obou hodnot zvlášť a dvě statistické informace: mi-score a t-score.

Při prostém hledání frekvence jednoho výrazu vyplníme jen první řádek. U položky Atribut 1 zvolíme z nabídky, zda hledaný výraz bude slovní tvar (položka word), lemma (položka lemma) nebo morfologická značka (položka tag), tvar bez ohledu na velikost písma (položka lc) nebo slovní druh (položka pos). U dalších korpusů mohou být jiné atributy, např. Brněnský mluvený korpus má atribut výslovnost (položka pron).  Potom klikneme do vstupního pole Hodnota 1 a napíšeme slovo (nebo značku), jehož frekvenci chceme zjistit. Stiskneme tlačítko Vyhodnotit a manažer vypíše frekvenci hledaného výrazu.

Při vyhledávání dvojice výrazů postupujeme podobně. Obdobným způsobem jako při vyhledávání jednoho výrazu vyplníme oba řádky (Atribut 1 a Hodnota 1, Atribut 2 a Hodnota 2). Atributy nemusejí být u obou výrazů stejné. Můžeme například zjišťovat, jak často se vyskytuje vedle určitého slovního tvaru (jako Atribut 1 zvolíme word) určitý slovní druh (jako Atribut 2 zvolíme pos).

Dále zvolíme, jak daleko od sebe se hledané výrazy mohou vyskytnout. Do vstupních polí u položky Vzdálené od sebe od do napíšeme zvolený interval. Implicitní hodnoty od 1 do 1 znamenají, že za prvním slovem má přímo následovat druhé slovo. Hodnoty  např. od 1 do 5 znamenají velikost intervalu 5, tedy mezi prvním a druhým slovem může být žádná až 4 jiné pozice. Záporná znaménka znamenají opačné pořadí výskytu. Hodnoty např. od -1 do -1 tedy znamenají, že druhé slovo má přímo předcházet před prvním slovem. Rozsah od -5 do 5 potom znamená, že slova mají být od sebe vzdálená maximálně 5 pozic a mohou být v libovolném pořadí.

Pokud zaškrtneme volbu Vyhodnocovat jako regulární výrazy, budeme mít možnost do vstupních polí zadávat dotaz obsahující regulární výrazy. Například: zvolíme-li jako atribut volbu lemma, do vstupního pole napíšeme .*tel a zatrhneme volbu Vyhodnocovat jako regulární výrazy, program spočítá frekvenci všech slov, které v základním tvaru končí na tel.


Vytvoření subkorpusu

Slouží k vytvoření subkorpusu z aktuálního korpusu (jeho volbu lze provést vpravo vedle dotazového řádku) podle níže zadaných podmínek. Tento subkorpus je možné použít pouze pro hledání; ostatní údaje, např. Souhrnné informace (zde se dozvíme pouze velikost subkorpusu) , výpočet statistik apod., se vztahují vždy k celému korpusu.


Smazání subkorpusu

Tato položka slouží ke smazání vytvořených subkorpusů. Subkorpus nejprve označíme kliknutím levého tlačítka myši. Smazání se provede stisknutím tlačítka Smazat.


Seznam slov

Umožňuje vyhledávání podle jednotlivých atributů vytvořením seznamu slov, obsahujících shodné části atributu. Lze tak rychle zjistit frekvenci jednotlivých slov, případně zvolit skupinu slov k vytvoření konkordance. Vyhledaný seznam můžeme seřadit podle četnosti kliknutím myší na záhlaví sloupce četnost. Pokud klikneme na sloupec s označením hledaného atributu, setřídí se seznam abecedně podle vyhledaných výrazů.


Implicitní atribut

Umožňuje změnit nastavení implicitního atributu, podle kterého se vyhledávají konkordance, aniž se musí speciálně zapisovat do dotazového řádku či zadávat pomocí grafického vyhledávání. U všech korpusů je po spuštění programu nastaven jako implicitní atribut slovní tvar, tj. atribut word.