hledat:    
 

Popis morfologických značek použitých v korpusu orw-mte

Vladimír Petkevič
Ústav teoretické a komputační lingvistiky

V korpusu orw-mte lze vyhledávat podle 3 atributů:

word (= slovní tvar)
lemma (= základní slovníkový tvar: u slovesa infinitiv, u podstatných a přídavných jmen, zájmen a číslovek tvar 1. pádu)
tag (= morfologická značka)

Následuje podrobný popis morfologických značek okořeněný příklady.

Každý slovní tvar v korpusu orw-mte náleží k jednomu z těchto slovních druhů:

Noun - podstatné jméno
A Adjective - přídavné jméno
V Verbum - sloveso
P Pronoun - zájmeno
M nuMeral - číslovka
R adveRb - příslovce
C Conjunction - spojka
S prepoSition - předložka
Q particle - částice
Interjection - citoslovce
Y abbreviation - zkratka
X residual - zbytková třída

Notace:

Každý tag je, formálně vzato, tvořen řetízkem alfanumerických znaků a vždy začíná kódem příslušného slovního druhu (viz jejich repertoár výše).  Každému slovnímu druhu přísluší několik atributů, tj. morfologických kategorií, a každý atribut tvoří množina jemu příslušných hodnot. Např. atribut  číslo u adjektiv je tvořen těmito hodnotami:

číslo = {singulár,plurál,duál}.

Atributy jsou poziční, tj. pro daný atribut je v rámci příslušného slovního druhu natvrdo vyhrazena jistá pozice a tato pozice může být obsazena pouze hodnotou daného atributu. Příklady budou níže.

Nyní budu pro každý slovní druh nevýslovně podrobně definovat jeho jednotlivé atributy a jejich pozici v rámci řetízku. V levém sloupci v tabulkách níže je vždy uveden atribut, vedle něho pak hodnoty, jež mu příslušejí, spolu s vyhledávacím kódem.

Příklady jsou uváděny ve tvaru, který je možno přímo zadat do vyhledávacího řádku programu Bonito.

Podstatné jméno - N

Typ: obecné c
vlastní p
Rod: mužský m
ženský f
střední n
Číslo: singulár s
plurál p
duál d
Pád  nominativ n
genitiv g
dativ d
akuzativ a
vokativ v
lokál l
instrumentál i
Určitost: -
Klitika: -
Životnost: životné y
neživotné n

Příklady:

chlapec [tag="Ncmsn"]
(podst. jm., obecné, mužský rod, singulár, nominativ)
páni [tag="Ncmpn--y"]
(podst. jm., obecné, mužský rod životný, plurál, nominativ)
očima [tag="Ncfdi"]
(podst. jm., obecné, ženský rod, duál,instrumentál)
O'Brienem  [tag="Npmsi"]
(podst. jm.,vlastní, mužský rod, singulár, instrumentál)

Chceme např. vyhledat všechny instrumentály podst. jmen středního rodu:

[tag="N.n.i.*"]

Chceme vyhledat všechna podstatná jména:

[tag="N.*"]



Sloveso - V

Typ: významové m
pomocné a
modální o
"být" c
Způsob:  indikativ i
 imperativ m
kondicionál c
infinitiv n
příčestí p
přechodník t
Čas prézens p
futurum f
minulý s
Osoba: první 1
druhá 2
třetí 3
Číslo: singulár s
plurál p
Rod (jm.): mužský m
ženský f
střední n
Rod (sl.)1) aktivum a
pasívum p
Negace: negace y
klad n
Určitost: -
Klitika: -
Pád: -
Životnost: životné y
neživotné n
Klit. "s"2): klitické 's' y
neklitické n

1)Atribut  "Rod (sl.)"  tj. slovesný rod,rozlišuje  příčestí  minulé  ("a") a trpné ("p").
2)Tento poslední atribut odlišuje tvar "dělals" vs. "dělal", kde 's' je  klitické 's'  jakožto stažená  forma tvaru  "jsi" pro 2. os. singuláru min. času.

Příklady:

zkoušet [tag="Vmn----an----n"]
(sloveso, významové, infinitiv, aktivum, klad, neklitické)
nemuseli [tag="Vops-pmay---yn"]
(sloveso, modální, příčestí, minulé, plurál, mužský rod, aktivum, negace, životný (rod), neklitické

Přídavné jméno - A

Typ: kvalifikující f
přivlastňovací s
Stupeň: pozitiv p
komparativ c
superlativ s
Rod: mužský m
ženský f
střední n
Číslo: singulár s
plurál p
duál d
Pád: nominativ n
genitiv g
dativ d
akuzativ a
vokativ v
lokál l
instrumentál i
Určitost -
Klitika: -
Životnost1): životné y
neživotné n
Tvar2): jmenný n
složený c

1)Životnost   je   zajímavá   jen   u  akuzativu  singuláru a nominativu a vokativu plurálu.
2)Tvar je složený (tj. "nezkrácený" - např. "starý"), nebo jmenný  (tj. "krátký"   - např. "stár")

Příklady:

Chceme vyhledat všechna přivlastňovací příd. jména:

[tag="As.*"]

Chceme vyhledat všechna příd. jména v dativu či lokálu:

[tag="A....[dl].*"]


Zájmeno - P

Typ: osobní
ukazovací d tento
neurčité i leckomu
přivlastňov. s její
tázací q komu?
vztažné r kterému
reflex. 'se' x sobě
záporné z žádného
totální g každý
Osoba: první 1
druhá 2 vy
třetí 3 oni
Rod: mužský m tohoto
ženský f tahle
střední n leccos
Číslo: singulár s ty
plurál p my
duál d těma
Pád: nominativ n
genitiv g
dativ d
akuzativ a
lokál l
instrumentál i
Číslo vlastníka: singulár s můj
plurál p náš
Rod vlastníka: mužský m jehož
ženský f jejíhož
střední n jehož
Klitika: neklitické n tobě
klitické y ti
Referenč. typ: osobní p sebe
přivlastň. s svého
Syntakt. typ: nominální n on
adjektivní a její
Určitost: -
Životnost: životné y kterého
neživotné n který
Klit. "s" klitické 's' y tys, ses
neklitické n on

Příklady:

Chceme vyhledat všechna osobní zájmena:

[tag="Pp.*"]

Chceme vyhledat všechna reflexivní (zvratná) zájmena v akuzativu:

[tag="Px...a.*"]


Číslovky - M

 
Typ: základní c šest
řadové o šestý
násobné m šestkrát
druhové s šestero
Rod: mužský m jednomu
ženský f druhou
střední n páté
Číslo: singulár s jednoho
plurál p třemi
duál d druhýma
Pád: nominativ n
genitiv g
dativ d
akuzativ a
lokál l
instrumentál i
Forma: číslo arab. d 256
číslo řím. r III
slovo l sto
Určitost: -
Klitika -
Třída: určitá1 1 jednomu
určitá2 2 dvěma
určitá34 3 čtvrtému
určitá f osmnácterými
ukazovací d tolik
neurčitá i několika
tázací q kolik
vztažná r kolik
Životnost: životné y
neživotné n

Pozn. č. 1: Životnost je zajímavá jen u akuzativu singuláru a nominativu a vokativu plurálu.

Pozn. č. 2: Číslovek je v korpusu orw-mte strašně moc!

Pozn. č. 3: Mimochodem poslyšte hádanku: Snad ve všech indoevropských jazycích majících pády je u všech  "pádových" slovních druhů shodný tvar nominativu, akuzativu a příp. vokativu neuter. Výjimky jsou krajně řídké: najděte! Za odměnu ode mě obdržíte několik skvostných palindromů a možná i říkanku z nich sestavenou!

Příklady:

jednomu  [tag="Mcmsdl--1"]
tří [tag="Mc-pgl--3"]
několik [tag="Mcnsnl--i"]

Chceme vyhledat všechny základní číslovky od pěti výše psané slovy:

[tag="Mc...l..f.*"]

Chceme vyhledat všechny číslovky psané římskými nebo arabskými čísly:

[tag="Mc...[dr]..f.*"]


Příslovce - R

Typ: obecné g
Stupeň: pozitiv p
komparativ c
superlativ s

Příklady:

zvolna [tag="Rgp"] 
lépe [tag="Rgc"] 
nejlépe [tag="Rgs"] 

Chceme vyhledat všechny dvojice těsně sousedících příslovcí. Chutě do toho:

[tag="Rg.*"] [tag="Rg.*"]

Chceme vyhledat všechny příslovcové komparativy nebo superlativy:

[tag="Rg[cs]"]


Předložky - S

Typ: předložka p
Typ-forma jednoduchá s za
složená nebo část složené c naň, , vzhledem
Pád: genitiv g
dativ d
akuzativ a
lokál l
instrumentál i

Příklady:

 
přes [tag="Spsa"]
zpoza [tag="Spsg"]
nač [tag="Spc"]

Pozn. Skutečné předložkové (víceslovné) výrazy však nemá Vladimír Petkevič pořádně zpracované: např. "vzhledem  k" mám jako dvě předložky a to není dobře. Očekávám sžíravou kritiku plnou sarkasmu!


Spojky - C

 
Typ: souřadicí c
podřadicí s
Formation: -
Coord_type: -
Sub_Type: -
Klitika: -
Číslo: singulár s abys
plurál p abyste
Osoba: první 1 kdybych
druhá 2 abys
třetí 3 kdyby

    Příklady:

 
a [tag="Cc"]
že [tag="Cs"]
kdybyste [tag="Cs----p2"]


Částice  - Q

Příklady:

ano, ba, nikoli: [tag="Q"]

Citoslovce - I

Příklady:

Ach, šup, bác: [tag="I"]

Zkratka  - Y

Příklady:

atd., CNPP, sv.: [tag="Y"]

Zbytek - X

Příklady:

double, thing, Pramini: [tag="X"]