Popis morfologických značek použitých v korpusu orw-mte
Vladimír PetkevičÚstav teoretické a komputační lingvistiky
V korpusu orw-mte lze vyhledávat podle 3 atributů:
word (= slovní tvar)
lemma (= základní slovníkový tvar: u slovesa infinitiv, u podstatných
a přídavných jmen, zájmen a číslovek tvar 1. pádu)
tag (= morfologická značka)
Následuje podrobný popis morfologických značek okořeněný příklady.
Každý slovní tvar v korpusu orw-mte náleží k jednomu z těchto slovních druhů:
| N | Noun | - podstatné jméno |
| A | Adjective | - přídavné jméno |
| V | Verbum | - sloveso |
| P | Pronoun | - zájmeno |
| M | nuMeral | - číslovka |
| R | adveRb | - příslovce |
| C | Conjunction | - spojka |
| S | prepoSition | - předložka |
| Q | particle | - částice |
| I | Interjection | - citoslovce |
| Y | abbreviation | - zkratka |
| X | residual | - zbytková třída |
Notace:
Každý tag je, formálně vzato, tvořen řetízkem alfanumerických znaků a vždy začíná kódem příslušného slovního druhu (viz jejich repertoár výše). Každému slovnímu druhu přísluší několik atributů, tj. morfologických kategorií, a každý atribut tvoří množina jemu příslušných hodnot. Např. atribut číslo u adjektiv je tvořen těmito hodnotami:
číslo = {singulár,plurál,duál}.
Atributy jsou poziční, tj. pro daný atribut je v rámci příslušného slovního druhu natvrdo vyhrazena jistá pozice a tato pozice může být obsazena pouze hodnotou daného atributu. Příklady budou níže.
Nyní budu pro každý slovní druh nevýslovně podrobně definovat jeho jednotlivé atributy a jejich pozici v rámci řetízku. V levém sloupci v tabulkách níže je vždy uveden atribut, vedle něho pak hodnoty, jež mu příslušejí, spolu s vyhledávacím kódem.
Příklady jsou uváděny ve tvaru, který je možno přímo zadat do vyhledávacího řádku programu Bonito.
Podstatné jméno - N
| Typ: | obecné | c |
| vlastní | p | |
| Rod: | mužský | m |
| ženský | f | |
| střední | n | |
| Číslo: | singulár | s |
| plurál | p | |
| duál | d | |
| Pád: | nominativ | n |
| genitiv | g | |
| dativ | d | |
| akuzativ | a | |
| vokativ | v | |
| lokál | l | |
| instrumentál | i | |
| Určitost: | - | |
| Klitika: | - | |
| Životnost: | životné | y |
| neživotné | n |
Příklady:
| chlapec | [tag="Ncmsn"]
(podst. jm., obecné, mužský rod, singulár, nominativ) |
| páni | [tag="Ncmpn--y"]
(podst. jm., obecné, mužský rod životný, plurál, nominativ) |
| očima | [tag="Ncfdi"]
(podst. jm., obecné, ženský rod, duál,instrumentál) |
| O'Brienem | [tag="Npmsi"]
(podst. jm.,vlastní, mužský rod, singulár, instrumentál) |
Chceme např. vyhledat všechny instrumentály podst. jmen středního rodu:
[tag="N.n.i.*"]
Chceme vyhledat všechna podstatná jména:
[tag="N.*"]
Sloveso - V
| Typ: | významové | m |
| pomocné | a | |
| modální | o | |
| "být" | c | |
| Způsob: | indikativ | i |
| imperativ | m | |
| kondicionál | c | |
| infinitiv | n | |
| příčestí | p | |
| přechodník | t | |
| Čas: | prézens | p |
| futurum | f | |
| minulý | s | |
| Osoba: | první | 1 |
| druhá | 2 | |
| třetí | 3 | |
| Číslo: | singulár | s |
| plurál | p | |
| Rod (jm.): | mužský | m |
| ženský | f | |
| střední | n | |
| Rod (sl.)1): | aktivum | a |
| pasívum | p | |
| Negace: | negace | y |
| klad | n | |
| Určitost: | - | |
| Klitika: | - | |
| Pád: | - | |
| Životnost: | životné | y |
| neživotné | n | |
| Klit. "s"2): | klitické 's' | y |
| neklitické | n |
1)Atribut "Rod (sl.)" tj. slovesný rod,rozlišuje příčestí minulé
("a") a trpné ("p").
2)Tento poslední atribut odlišuje tvar "dělals" vs. "dělal",
kde 's' je klitické 's' jakožto stažená forma tvaru
"jsi" pro 2. os. singuláru min. času.
Příklady:
| zkoušet | [tag="Vmn----an----n"]
(sloveso, významové, infinitiv, aktivum, klad, neklitické) |
| nemuseli | [tag="Vops-pmay---yn"]
(sloveso, modální, příčestí, minulé, plurál, mužský rod, aktivum, negace, životný (rod), neklitické |
Přídavné jméno - A
| Typ: | kvalifikující | f |
| přivlastňovací | s | |
| Stupeň: | pozitiv | p |
| komparativ | c | |
| superlativ | s | |
| Rod: | mužský | m |
| ženský | f | |
| střední | n | |
| Číslo: | singulár | s |
| plurál | p | |
| duál | d | |
| Pád: | nominativ | n |
| genitiv | g | |
| dativ | d | |
| akuzativ | a | |
| vokativ | v | |
| lokál | l | |
| instrumentál | i | |
| Určitost: | - | |
| Klitika: | - | |
| Životnost1): | životné | y |
| neživotné | n | |
| Tvar2): | jmenný | n |
| složený | c |
1)Životnost je zajímavá
jen u akuzativu singuláru a nominativu a vokativu
plurálu.
2)Tvar je složený (tj. "nezkrácený" - např. "starý"), nebo
jmenný (tj. "krátký" - např. "stár")
Příklady:
Chceme vyhledat všechna přivlastňovací příd. jména:
[tag="As.*"]
Chceme vyhledat všechna příd. jména v dativu či lokálu:
[tag="A....[dl].*"]
Zájmeno - P
| Typ: | osobní | p | já |
| ukazovací | d | tento | |
| neurčité | i | leckomu | |
| přivlastňov. | s | její | |
| tázací | q | komu? | |
| vztažné | r | kterému | |
| reflex. 'se' | x | sobě | |
| záporné | z | žádného | |
| totální | g | každý | |
| Osoba: | první | 1 | já |
| druhá | 2 | vy | |
| třetí | 3 | oni | |
| Rod: | mužský | m | tohoto |
| ženský | f | tahle | |
| střední | n | leccos | |
| Číslo: | singulár | s | ty |
| plurál | p | my | |
| duál | d | těma | |
| Pád: | nominativ | n | |
| genitiv | g | ||
| dativ | d | ||
| akuzativ | a | ||
| lokál | l | ||
| instrumentál | i | ||
| Číslo vlastníka: | singulár | s | můj |
| plurál | p | náš | |
| Rod vlastníka: | mužský | m | jehož |
| ženský | f | jejíhož | |
| střední | n | jehož | |
| Klitika: | neklitické | n | tobě |
| klitické | y | ti | |
| Referenč. typ: | osobní | p | sebe |
| přivlastň. | s | svého | |
| Syntakt. typ: | nominální | n | on |
| adjektivní | a | její | |
| Určitost: | - | ||
| Životnost: | životné | y | kterého |
| neživotné | n | který | |
| Klit. "s": | klitické 's' | y | tys, ses |
| neklitické | n | on |
Příklady:
Chceme vyhledat všechna osobní zájmena:
[tag="Pp.*"]
Chceme vyhledat všechna reflexivní (zvratná) zájmena v akuzativu:
[tag="Px...a.*"]
Číslovky - M
| Typ: | základní | c | šest |
| řadové | o | šestý | |
| násobné | m | šestkrát | |
| druhové | s | šestero | |
| Rod: | mužský | m | jednomu |
| ženský | f | druhou | |
| střední | n | páté | |
| Číslo: | singulár | s | jednoho |
| plurál | p | třemi | |
| duál | d | druhýma | |
| Pád: | nominativ | n | |
| genitiv | g | ||
| dativ | d | ||
| akuzativ | a | ||
| lokál | l | ||
| instrumentál | i | ||
| Forma: | číslo arab. | d | 256 |
| číslo řím. | r | III | |
| slovo | l | sto | |
| Určitost: | - | ||
| Klitika: | - | ||
| Třída: | určitá1 | 1 | jednomu |
| určitá2 | 2 | dvěma | |
| určitá34 | 3 | čtvrtému | |
| určitá | f | osmnácterými | |
| ukazovací | d | tolik | |
| neurčitá | i | několika | |
| tázací | q | kolik | |
| vztažná | r | kolik | |
| Životnost: | životné | y | |
| neživotné | n |
Pozn. č. 1: Životnost je zajímavá jen u akuzativu singuláru a nominativu a vokativu plurálu.
Pozn. č. 2: Číslovek je v korpusu orw-mte strašně moc!
Pozn. č. 3: Mimochodem poslyšte hádanku: Snad ve všech indoevropských jazycích majících pády je u všech "pádových" slovních druhů shodný tvar nominativu, akuzativu a příp. vokativu neuter. Výjimky jsou krajně řídké: najděte! Za odměnu ode mě obdržíte několik skvostných palindromů a možná i říkanku z nich sestavenou!
Příklady:
| jednomu | [tag="Mcmsdl--1"] |
| tří | [tag="Mc-pgl--3"] |
| několik | [tag="Mcnsnl--i"] |
Chceme vyhledat všechny základní číslovky od pěti výše psané slovy:
[tag="Mc...l..f.*"]
Chceme vyhledat všechny číslovky psané římskými nebo arabskými čísly:
[tag="Mc...[dr]..f.*"]
Příslovce - R
| Typ: | obecné | g |
| Stupeň: | pozitiv | p |
| komparativ | c | |
| superlativ | s |
Příklady:
| zvolna | [tag="Rgp"] |
| lépe | [tag="Rgc"] |
| nejlépe | [tag="Rgs"] |
Chceme vyhledat všechny dvojice těsně sousedících příslovcí. Chutě do toho:
[tag="Rg.*"] [tag="Rg.*"]
Chceme vyhledat všechny příslovcové komparativy nebo superlativy:
[tag="Rg[cs]"]
Předložky - S
| Typ: | předložka | p | |
| Typ-forma: | jednoduchá | s | za |
| složená nebo část složené | c | naň, oč, vzhledem | |
| Pád: | genitiv | g | |
| dativ | d | ||
| akuzativ | a | ||
| lokál | l | ||
| instrumentál | i |
Příklady:
| přes | [tag="Spsa"] |
| zpoza | [tag="Spsg"] |
| nač | [tag="Spc"] |
Pozn. Skutečné předložkové (víceslovné) výrazy však nemá Vladimír Petkevič pořádně zpracované: např. "vzhledem k" mám jako dvě předložky a to není dobře. Očekávám sžíravou kritiku plnou sarkasmu!
Spojky - C
| Typ: | souřadicí | c | |
| podřadicí | s | ||
| Formation: | - | ||
| Coord_type: | - | ||
| Sub_Type: | - | ||
| Klitika: | - | ||
| Číslo: | singulár | s | abys |
| plurál | p | abyste | |
| Osoba: | první | 1 | kdybych |
| druhá | 2 | abys | |
| třetí | 3 | kdyby |
Příklady:
| a | [tag="Cc"] |
| že | [tag="Cs"] |
| kdybyste | [tag="Cs----p2"] |


