Základní vyhledávání v korpusu
Obsah:
Vyhledávání tvaru slova nebo slovního spojení
Vyhledávání podle atributu lc (lowercase)
Vyhledávání podle atributu lemma
Vyhledávání podle atributu tag (morfologická
značka)
Nastavení implicitního atributu
Hledání v rámci jedné věty
Kurzor se po připojení k serveru nachází v dotazovém řádku (pokud tomu tak není, přemístíme ho tam kliknutím myší). Před vyhledáváním doporučujeme zkontrolovat nastavení korpusu - příslušné tlačítko je na opačném konci dotazového řádku; klikneme-li na něj levým tlačítkem myši, objeví se dostupné korpusy, ze kterých opět kliknutím zvolíme požadovaný korpus. V nastavení manažeru (viz menu Manažer > Nastavení) si můžeme předem určit korpus, který se nám bude pravidelně objevovat po zapnutí manažeru. Všechny následující ukázky jsou z korpusu SYN2000. V jiných korpusech nemusejí být některé atributy (např. lemma nebo tag) k dispozici, takže ani podle nich nelze vyhledávat.
Vyhledávání tvaru slova nebo slovního spojení
Hledaný tvar stačí zapsat do dotazového řádku a stisknout klávesu Enter.
Do dotazového řádku napíšeme
slovo
sůl,
stiskneme Enter a objeví se následující konkordance:
(...)
(...)
Stejně postupujeme, hledáme-li slovní spojení.
Do dotazového řádku napíšeme
spojení sůl a pepř a stiskneme Enter.
(...)
(...)
- Dotazy je možné zadávat i pomocí tzv. regulárních výrazů. Například tečkou lze nahradit libovolný znak a hvězdičkou libovolné opakování těchto znaků, takže po zadání dotazu holub.* vyhledá manažer všechna slova, která takto začínají (např.: holubí, holubímu, holubník, holubář atd.).
- Manažer rozlišuje při vyhledávání malá a velká písmena. Zadáme-li tedy výše uvedené příklady, manažer nevyhledá výskyty hledaných slov, která obsahují velká písmena (např. na začátku věty).
- Zadání dotazu uvedeným způsobem předpokládá, že je implicitní atribut nastaven na hodnotu word. Takto je nastaven při každém novém spuštění.
Vyhledávání podle atributu lc (lowercase)
Při vyhledávání podle atributu lc zobrazí Bonito všechny výskyty hledaného slovního tvaru bez ohledu na velká a malá písmena. Například zadání dotazu pes vyhledá tvary: pes, Pes, PES. Dotaz zapíšeme do dotazového řádku v následujícím tvaru (pokud nepoužijeme grafické vyhledávání): [lc="slovo"]
Do dotazového řádku napíšeme:
[lc="ale"]
a stiskneme Enter.
(...)
(...)
Vyhledávání podle atributu lemma
Chceme-li vyhledat slovo nebo slovní spojení ve všech jeho tvarech, hledáme podle tzv. lemmatu (základního slovníkového tvaru: u slovesa podle infinitivu, u podstatných a přídavných jmen, zájmen a číslovek podle tvaru 1. pádu). Výsledkem hledání jsou všechny konkordance obsahující tvary hledaného slova (s malým i velkým počátečním písmenem). Dotaz zapíšeme do dotazového řádku v následujícím tvaru (pokud nepoužijeme grafické vyhledávání): [lemma="slovo"]
Do dotazového řádku napíšeme:
[lemma="sůl"]
a stiskneme Enter.
(...)
(...)
v případě slovního spojení:
[lemma="bílý"] [lemma="kůň"]
(...)
(...)
Vyhledávání podle morfologické značky
V lemmatizovaném a morfologicky označeném korpusu můžeme vyhledávat také podle morfologických značek. Každá značka obsahuje 15 pozic. Pozice značky odpovídá jedné morfologické kategorii. Slovní druhy a gramatické kategorie jsou značeny jedním písmenem (např.: N - substantivum) nebo číslem (např. pády: 1 - nominativ); pro vyjádření toho, že u daného slova nemá smysl určovat některou gramatickou kategorii (např. čas u substantiv), je použita pomlčka "-". Pro nerozpoznané morfologické kategorie je ve značce uveden znak "X".
| Pozice | Určovaná morfologická kategorie |
| 1. | slovní druh |
| 2. | detailní určení slovního druhu |
| 3. | jmenný rod |
| 4. | číslo |
| 5. | pád |
| 6. | lexikální rod přivlastňovacího zájmena nebo adjektiva 1) |
| 7. | lexikální číslo přivlastňovacího zájmena nebo adjektiva 2) |
| 8. | osoba |
| 9. | čas |
| 10. | stupeň |
| 11. | negace |
| 12. | slovesný rod |
| 13. | volné pole ponechané v rezervě pro případné další údaje |
| 14. | volné pole ponechané v rezervě pro případné další údaje |
| 15. | varianta, stylový příznak |
| 16. | vid 3) |
Poznámky:
1) Např. lexikální rod slovního tvaru otcovu je maskulinum životné;
lexikální rod slovního tvaru jejíhož je femininum.
2) Např. lexikální číslo slovního tvaru jejich je plurál.
3) Tato pozice není k dispozici v korpusech SYN2000 a ORWELL.
- Pro vyhledávání pomocí morfologické značky je důležité podle popisu morfologických značek zjistit, na které pozici se nachází požadovaná kategorie a jaké má označení.
- Ostatní pozice, které pro naše vyhledávání nejsou podstatné, je nutné doplnit tečkami.
- Za poslední přesně určenou pozicí doporučujeme napsat tečku s hvězdičkou, abychom nemuseli všechny pozice doplňovat tečkami.
- Při vyhledávání podle morfologických značek musí mít dotaz následující formu:
Hledáme-li všechny akuzativy,
nejprve v tabulce zjistíme, že pád se nachází na páté pozici, a zadání
dotazu tedy konstruujeme následovně:
[tag="....4.*"]
Hledáme-li všechna adjektiva
ve jmenném tvaru mužského rodu životného i neživotného v singuláru, bude
zadání a výsledek vypadat následovně:
[tag="ACYS.*"]
(...)
Poznámka:
Lemmatizace a morfologická analýza se
provádí automaticky pomocí
speciálních
počítačových programů. Její
úspěšnost tedy nemůže být stoprocentní; v
současné
době se pohybuje okolo 94 %, tj. zhruba každé 16. slovo je
označeno špatně.
Je proto nutné s tímto faktem při
vyhledávání počítat, a to
zvláště v případě,
kdy je hledaný tvar homonymní. Příklad
špatně označeného slova vidíme na
předcházejícím obrázku.
Nastavení implicitního atributu
Po spuštění je Bonito nastaveno tak, že v dotazovém řádku se předpokládá dotaz na slovní tvar, případně posloupnost slovních tvarů. Je nastaven implicitní atribut word. Dotazy na ostatní atributy je nutné formulovat pomocí výše uvedených výrazů, které mají obecný tvar: [jméno_atributu="hodnota_atributu"]. Je ovšem možné zvolit jiný implicitní atribut podle toho, který typ dotazu klademe častěji. Zvolíme-li například atribut tag jako implicitní, nebudeme muset dotaz [tag="ACYS.*"] zapisovat touto formou, ale do dotazového řádku přímo napíšeme morfologickou značku: ACYS.* Implicitní atribut můžeme změnít pomocí položky Korpus > Implicitní atribut. Objeví se následující nabídka:
(Sada dostupných atributů se může lišit podle zvoleného korpusu.)
Implicitní atribut vybereme kliknutím myši do kolečka u zvoleného atributu a potvrdíme kliknutím na OK.
Při práci s korpusem SYN2000 můžeme vybírat z těchto atributů:
| word | Tento atribut je nastaven jako implicitní vždy po spuštění programu. Do dotazového řádku zadáváme jednotlivé slovní tvary. Například: po zadání dotazu kočky, manažer vyhledá pouze texty s výskytem tvaru kočky. Při vyhledávání podle atributu word záleží na velikosti písmen. |
| lemma | Nastavíme-li atribut lemma jako implicitní, budeme vyhledávat podle základního slovníkového tvaru (lemmatu). Do dotazového řádku pak zadáváme přímo lemmata. Například: do dotazového řádku napíšeme slovo kočka, manažer vyhledá výskyty tvarů odpovídajících tomuto lemmatu, tj.: kočka, kočky, kočku, koček, kočkou, kočce atd. Můžeme ovšem hledat i dvě (nebo více) lemmat vedle sebe. Zadáním dotazu mourovatý kočka, dostaneme výskyty: mourovatá kočka, morovatých koček, mourovaté kočky atd. |
| tag | Pokud nastavíme tento atribut jako implicitní, do dotazového řádku budeme zapisovat přímo morfolotickou značku nebo posloupnosti těchto značek. Například zadáním posloupnosti značek A.* N.FP7.* získáme výskyty všech adjektiv, za kterými stoji substantivum ženského rodu v instrumentálu: tj.: mohutnými čočkami, ovesnými vločkami, pozlacenými obroučkami atd. |
| lc | Tento atribut je podobný atributu word s tím rozdílem, že nezáleží na velikosti písmen v zadaném slovním tvaru. Například: po zadání dotazu pes získáme výskyty pes, Pes i PES. Po zadání dotazu klára dostaneme 559 výskytů vlastního jména Klára. Pokud bychom pracovali s atributem word, nezískali bychom v tomto případě výskyt žádný. |
| pos | Atribut pos je vlastně zjednodušená morfologická značka, která vyjadřuje pouze slovní druh, tedy první pozici morfologické značky. Nastavíme-li tento atribut jako implicitní, budeme do dotazového řádku zapisovat písmena vyjadřující slovní druhy. Tak například dotaz D D D A C vyhledá posloupnost tří adverbií následovaných adjektivem a číslovkou (např.: zároveň také dost unavený první) |
Varování:
V průběhu jednoho přihlášení do korpusového manažeru se zachovává
nastavení implicitního atributu pro každý korpus. Nezapomínejte na to, pokud
během práce střídáte korpusy a v nich si nastavujete různé atributy jako
implicitní. Ušetříte si tím hodně nervů a domněnek o zhroucení systému.
Ostatně v tomto případě pomůže nové přihlášení :-) a všude bude opět jako
implicitní atribut word.
Hledání v rámci jedné věty
Pokud vyhledáváme slova, která se ve větě nenacházejí vedle sebe, je nutné omezit vyhledávací kontext na jednu větu. Toho dostáhneme tak, že do dotazového řádku za příslušný dotaz zapíšeme výraz:
within <s id=".*"/>
Například chceme vyhledat sloveso nechat následované libovolným
infinitivem. Infinitiv může být vzdálen až 10 pozic od slovesa nechat,
ale musí se nacházet v rámci jedné věty nebo souvětí. (Věta je
ohraničena tečkami, pro následné vyloučení kontextů obsahujících čárky
ve větě je možné použít filtry.)
Dotaz zapíšeme takto:
[lemma="nechat"] [] {0,10} [tag="Vf.*"] within <s id=".*"/>