hledat:    
 

Struktura korpusu ORAL2008

Martina Waclawičová

Korpus ORAL2008 je sestaven z přepisů nahrávek z let 2002-2007. Nahrávky byly vždy pořízeny v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah, tzn. ve většině případů si tykali. Projevy byly ve všech případech nepřipravené, dialogické a jejich téma nebylo nikdy předem dané. Mluvčí byli vždy rozhovorům fyzicky přítomni, korpus tedy neobsahuje přepisy telefonní konverzace. Případné velmi výjimečné krátké úseky, kdy jeden z mluvčích hovoří do telefonu, jsou přepsány pouze jako poznámka v kulatých závorkách.

Korpus ORAL2008 obsahuje přepisy 297 nahrávek, v jejichž rámci byly zaznamenány projevy 995 mluvčích. Nahrávky čítají 6 883 minut, tj. necelých 115 hodin. Celý korpus zahrnuje 1 000 097 slov, což odpovídá 1 349 536 korpusovým pozicím (tj. počet slov a interpunkce).

Korpus ORAL2008 je plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích - pohlaví, věkovou skupinu, skupinu podle stupně dosaženého vzdělání a převažující oblast pobytu v dětství. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií zastoupeny přibližně stejným počtem slov. Každá z hodnot binárních kategorií pohlaví (M / Z), věková skupina (I / V) a skupina podle stupně dosaženého vzdělání (A / B) je tedy zastoupena polovinou všech slov v korpusu. Přibližně čtvrtinou slov jsou pak zastoupeny hodnoty kategorie oblast pobytu v dětství, tj. oblasti středočeská, severovýchodočeská, jihozápadočeská a české pohraničí, přičemž přechodná oblast česko-moravská je zařazena pouze doplňkově.

V následujících tabulkách je složení korpusu podle jednotlivých parametrů vyjádřeno počtem nahrávek, mluvčích a slov v korpusu. Tyto parametry jsou dostupné při vyhledávání v korpusu jako zdroje.

Tab 1. Počet nahrávek podle roků

Rok Počet
nahrávek
2002 9
2003 7
2004 11
2005 49
2006 79
2007 142
Tab 2. Počet nahrávek podle počtu mluvčích

Počet
mluvčích
Počet
nahrávek
2 109
3 76
4 54
5 33
6 15
7 5
8 3
9 1
10 1


Tab 3. Počet mluvčích a slov podle vzdělání                      
 
                   
Vzdělání Počet
mluvčích
Počet
slov
A 559 500672
B 436 499425
ZŠ    130 163988
SŠ    306 335437
VŠ    559 500672


Tab 4. Počet mluvčích a slov podle pohlaví

Pohlaví Počet
mluvčích
Počet
slov
ženy 522 500478
muži    473 499619
Tab 5. Počet mluvčích a slov podle věku

Věk Počet mluvčích Počet slov
I 576 500199
V 419 499898
Tab 6. Počet mluvčích a slov podle převažující oblasti pobytu v dětství

Oblast pobytu v dětství Počet
mluvčích
Počet
slov
středočeská 312 247630
severovýchodočeská    167 242199
jihozápadočeská    281 237417
české pohraničí 206 239511
česko-moravská 29 33340