hledat:    
 
 

Základní vyhledávání v korpusu

Obsah:
Vyhledávání tvaru slova nebo slovního spojení
Vyhledávání podle atributu lc (lowercase)
Vyhledávání podle atributu lemma
Vyhledávání podle atributu tag (morfologická značka)
Nastavení implicitního atributu
Hledání v rámci jedné věty

Kurzor se po připojení k serveru nachází v dotazovém řádku (pokud tomu tak není, přemístíme ho tam kliknutím myší). Před vyhledáváním doporučujeme zkontrolovat nastavení korpusu - příslušné tlačítko je na opačném konci dotazového řádku; klikneme-li na něj levým tlačítkem myši, objeví se dostupné korpusy, ze kterých opět kliknutím zvolíme požadovaný korpus. V nastavení manažeru (viz menu Manažer > Nastavení) si můžeme předem určit korpus, který se nám bude pravidelně objevovat po zapnutí manažeru. Všechny následující ukázky jsou z korpusu SYN2000. V jiných korpusech nemusejí být některé atributy (např. lemma nebo tag) k dispozici, takže ani podle nich nelze vyhledávat.

Vyhledávání tvaru slova nebo slovního spojení

Hledaný tvar stačí zapsat do dotazového řádku a stisknout klávesu Enter.

Do dotazového řádku napíšeme slovo sůl,

stiskneme Enter a objeví se následující konkordance:

(...)

(...)

Stejně postupujeme, hledáme-li slovní spojení.

Do dotazového řádku napíšeme spojení sůl a pepř a stiskneme Enter.

(...)

(...)
 

Vyhledávání podle atributu lc (lowercase)

Při vyhledávání podle atributu lc zobrazí Bonito všechny výskyty hledaného slovního tvaru bez ohledu na velká a malá písmena. Například zadání dotazu pes vyhledá tvary: pes, Pes, PES. Dotaz zapíšeme do dotazového řádku v následujícím tvaru (pokud nepoužijeme grafické vyhledávání): [lc="slovo"]

Do dotazového řádku napíšeme: [lc="ale"]

a stiskneme Enter.

(...)

(...)

Vyhledávání podle atributu lemma

Chceme-li vyhledat slovo nebo slovní spojení ve všech jeho tvarech, hledáme podle tzv. lemmatu (základního slovníkového tvaru: u slovesa podle infinitivu, u podstatných a přídavných jmen, zájmen a číslovek podle tvaru 1. pádu). Výsledkem hledání jsou všechny konkordance obsahující tvary hledaného slova (s malým i velkým počátečním písmenem). Dotaz zapíšeme do dotazového řádku v následujícím tvaru (pokud nepoužijeme grafické vyhledávání): [lemma="slovo"]

Do dotazového řádku napíšeme: [lemma="sůl"]

a stiskneme Enter.

(...)

(...)

v případě slovního spojení:

[lemma="bílý"] [lemma="kůň"]

(...)

(...)

Vyhledávání podle morfologické značky

V lemmatizovaném a morfologicky označeném korpusu můžeme vyhledávat také podle morfologických značek. Každá značka obsahuje 15 pozic. Pozice značky odpovídá jedné morfologické kategorii. Slovní druhy a gramatické kategorie jsou značeny jedním písmenem (např.: N - substantivum) nebo číslem (např. pády: 1 - nominativ); pro vyjádření toho, že u daného slova nemá smysl určovat některou gramatickou kategorii (např. čas u substantiv), je použita pomlčka  "-". Pro nerozpoznané morfologické kategorie je ve značce uveden znak "X".

Pozice Určovaná morfologická kategorie
1. slovní druh
2. detailní určení slovního druhu
3. jmenný rod
4. číslo
5. pád
6. lexikální rod přivlastňovacího zájmena nebo adjektiva 1)
7. lexikální číslo přivlastňovacího zájmena nebo adjektiva 2)
8. osoba
9. čas
10. stupeň
11. negace
12. slovesný rod
13. volné pole ponechané v rezervě pro případné další údaje
14. volné pole ponechané v rezervě pro případné další údaje
15. varianta, stylový příznak
16. vid 3)

Poznámky:
1) Např. lexikální rod slovního tvaru otcovu je maskulinum životné; lexikální rod slovního tvaru jejíhož je femininum.
2) Např. lexikální číslo slovního tvaru jejich je plurál.
3) Tato pozice není k dispozici v korpusech SYN2000 a ORWELL.

[tag="morfologická značka"]

Hledáme-li všechny akuzativy, nejprve v tabulce zjistíme, že pád se nachází na páté pozici, a zadání dotazu tedy konstruujeme následovně:

[tag="....4.*"]

Hledáme-li všechna adjektiva ve jmenném tvaru mužského rodu životného i neživotného v singuláru, bude zadání a výsledek vypadat následovně:

[tag="ACYS.*"]

(...)

(...)

Poznámka:
Lemmatizace a morfologická analýza se provádí automaticky pomocí speciálních počítačových programů. Její úspěšnost tedy nemůže být stoprocentní; v současné době se pohybuje okolo 94 %, tj. zhruba každé 16. slovo je označeno špatně. Je proto nutné s tímto faktem při vyhledávání počítat, a to zvláště v případě, kdy je hledaný tvar homonymní. Příklad špatně označeného slova vidíme na předcházejícím obrázku.

Nastavení implicitního atributu

Po spuštění je Bonito nastaveno tak, že v dotazovém řádku se předpokládá dotaz na slovní tvar, případně posloupnost slovních tvarů. Je nastaven implicitní atribut word. Dotazy na ostatní atributy je nutné formulovat pomocí výše uvedených výrazů, které mají obecný tvar: [jméno_atributu="hodnota_atributu"]. Je ovšem možné zvolit jiný implicitní atribut podle toho, který typ dotazu klademe častěji. Zvolíme-li například atribut tag jako implicitní, nebudeme muset dotaz [tag="ACYS.*"] zapisovat touto formou, ale do dotazového řádku přímo napíšeme morfologickou značku: ACYS.* Implicitní atribut můžeme změnít pomocí položky Korpus > Implicitní atribut. Objeví se následující nabídka:

(Sada dostupných atributů se může lišit podle zvoleného korpusu.)

Implicitní atribut vybereme kliknutím myši do kolečka u zvoleného atributu a potvrdíme kliknutím na OK.

Při práci s korpusem SYN2000 můžeme vybírat z těchto atributů:
 
word Tento atribut je nastaven jako implicitní vždy po spuštění programu. Do dotazového řádku zadáváme jednotlivé slovní tvary. Například: po zadání dotazu kočky, manažer vyhledá pouze texty s výskytem tvaru kočky. Při vyhledávání podle atributu word  záleží na velikosti písmen. 
lemma     Nastavíme-li atribut lemma jako implicitní, budeme vyhledávat podle základního slovníkového tvaru (lemmatu). Do dotazového řádku pak zadáváme přímo lemmata. Například: do dotazového řádku napíšeme slovo kočka, manažer vyhledá výskyty tvarů odpovídajících tomuto lemmatu, tj.: kočka, kočky, kočku, koček, kočkou, kočce atd. Můžeme ovšem hledat i dvě (nebo více) lemmat vedle sebe. Zadáním dotazu mourovatý kočka, dostaneme výskyty: mourovatá kočka, morovatých koček, mourovaté kočky atd.
tag Pokud nastavíme tento atribut jako implicitní, do dotazového řádku budeme zapisovat přímo morfolotickou značku nebo posloupnosti těchto značek. Například zadáním posloupnosti značek A.* N.FP7.* získáme výskyty všech adjektiv, za kterými stoji substantivum ženského rodu v instrumentálu: tj.: mohutnými čočkami, ovesnými vločkami, pozlacenými obroučkami atd. 
lc Tento atribut je podobný atributu word s tím rozdílem, že nezáleží na velikosti písmen v zadaném slovním tvaru. Například: po zadání dotazu pes získáme výskyty pes, Pes i PES. Po zadání dotazu klára dostaneme 559 výskytů vlastního jména Klára. Pokud bychom pracovali s atributem word, nezískali bychom  v tomto případě výskyt žádný.
pos Atribut pos je vlastně zjednodušená morfologická značka, která vyjadřuje pouze slovní druh, tedy první pozici morfologické značky. Nastavíme-li tento atribut jako implicitní, budeme do dotazového řádku zapisovat písmena vyjadřující slovní druhy. Tak například dotaz D D D A C vyhledá posloupnost tří adverbií následovaných adjektivem a číslovkou (např.: zároveň také dost unavený první)

Varování:
V průběhu jednoho přihlášení do korpusového manažeru se zachovává nastavení implicitního atributu pro každý korpus. Nezapomínejte na to, pokud během práce střídáte korpusy a v nich si nastavujete různé atributy jako implicitní. Ušetříte si tím hodně nervů a domněnek o zhroucení systému. Ostatně v tomto případě pomůže nové přihlášení :-) a všude bude opět jako implicitní atribut word.

Hledání v rámci jedné věty

Pokud vyhledáváme slova, která se ve větě nenacházejí vedle sebe, je nutné omezit vyhledávací kontext na jednu větu. Toho dostáhneme tak, že do dotazového řádku za příslušný dotaz zapíšeme výraz:

within <s id=".*">

Například chceme vyhledat sloveso nechat následované libovolným infinitivem. Infinitiv může být vzdálen až 10 pozic od slovesa nechat, ale musí se nacházet v rámci jedné věty nebo souvětí. (Věta je ohraničena tečkami, pro následné vyloučení kontextů obsahujících čárky ve větě je možné použít filtry.)  Dotaz zapíšeme takto:

[lemma="nechat"] [] {0,10} [tag="Vf.*"] within <s id=".*">