Seznam slov
Tato funkce korpusového manažeru Bonito nám umožňuje efektivně pracovat
s korpusem, zejména pokud neznáme dobře způsob vyhledávání a pokud nás
zajímají především frekvence slovních tvarů, lemmat a dalších atributů.
Můžeme si totiž nejprve nechat zobrazit frekvenci jednotlivých výrazů a
teprve pak zvolit, u kterých vzorů si necháme vytvořit konkordanci. Seznam
slov vytváříme pomocí menu Korpus > Seznam
slov. Uvedeme
si několik příkladů pro použití (pokud není uvedeno jinak, jsou příklady
z korpusu SYN2000):
Příklad 1
- Zvolíme menu Korpus > Seznam slov.
-
V okně Seznam slov ponecháme atribut word.
-
Do okna vzor napíšeme house, zaškrtneme Ignorovat velikost.
Manažer bude při vyhledávání ignorovat velikost písmen.
-
Ponecháme nastavení Minimální četnost v korpusu a Maximální počet
zobrazených řádků.
-
Zaškrtneme Nový seznam.
-
Stiskneme Najdi vzor.
V seznamu se objeví tvary s různou velikostí písma a jejich četnost
v korpuse. Pokud se rozhodneme např. podívat na to, proč tvar House
je dvakrát častější než tvar house, klikneme myší na tento tvar
a stiskneme tlačítko Vytvoř konkordanci. V hlavním
vyhledávacím okně se objeví konkordance s tímto tvarem a z okolních kontextů zjistíme, že
tvar House je převážně
součástí anglických názvů.
Příklad 2
Podobně můžeme vyhledávat i podle ostatních atributů. Takto např.
rychle zjistíme frekvenci slovních druhů:
- Zvolíme menu Korpus > Seznam slov.
-
V okně Seznam slov vybereme atribut pos (slovní druh).
-
Do vstupního pole Vzor zapíšeme značku
slovního druhu (první pozice atributu tag).
-
Zaškrtneme Přidat seznam.
-
Stiskneme Najdi vzor.
-
Do vstupního pole Vzor zapíšeme další značku pro atribut pos.
-
Stiskneme Najdi vzor.
-
Postupně takto zadáváme i ostatní značky.
Poznámka:
Pokud chceme zjistit frekvence všech slovních druhů najednou, můžeme
použít ve vstupním poli Vzor regulární výraz "." (tečka).
Tečka zastupuje jeden libovolný znak. Protože atribut pos obsahuje
právě jednu pozici, budou po stisknutí tlačítka Najdi vzor zobrazeny
všechny značky (A, C, D, I, J, N, P,
R, T, V, X, Z) označující slovní druh.
Příklad 3
Na tomto příkladě si ukážeme další možnost použití regulárních
výrazů při vytváření seznamu slov. Chceme vyhledat v korpuse FSC2000
všechna lemmata začínající bac- a chceme dopředu vědět, která to
jsou slova:
-
Vybereme korpus FSC2000 (vpravo od dotazového řádku).
- Zvolíme menu Korpus > Seznam slov.
-
V okně Seznam slov zvolíme atribut lemma.
-
Do vstupního pole Vzor doplníme: bac.*
-
Necháme zvolenou položku Nový seznam.
-
Stiskneme tlačítko Najdi vzor.
-
Objeví se nám následující seznam lemmat začínající požadovanou trojicí
písmen, z těchto slov si pak pomocí současného stisku klávesy Ctrl
a levého tlačítka myši vybíráme ta lemmata, jejichž konkordance
chceme v korpuse vyhledat. Větší část seznamu vybíráme současným stiskem
klávesy Shift a levého tlačítka myši (stačí označit první
a poslední řádek části seznamu, kterou chceme označit). V dolním řádku
se nám objevuje počet vybraných lemmat a celkový počet jejich konkordancí.
-
Stiskneme Vyhledat konkordance.
Poznámky:
-
Lze vyhledávat jenom jednotlivé slovní tvary, lemmata apod. Nelze vyhledávat
slovní spojení.
-
Výpočet frekvence a následné vyhledávání probíhá vždy v aktuálně nastaveném
korpuse (vpravo nahoře vedle dotazového řádku). Pokud máme vybraný subkorpus,
četnosti se spočítají v příslušném nadřazeném korpuse a konkordance se
vyhledá v subkorpuse.
-
Vyhledaný seznam můžeme seřadit podle četnosti kliknutím myší na záhlaví
sloupce četnost. Pokud klikneme na sloupec s označením hledaného
atributu, setřídí se seznam abecedně vyhledaných výrazů.
-
Stisk položky Najdi vzor můžeme nahradit stiskem Enter.