Struktura korpusu ORAL2008
Martina Waclawičová
Korpus ORAL2008 je sestaven z přepisů nahrávek z let 2002-2007. Nahrávky byly vždy pořízeny v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah, tzn. ve většině případů si tykali. Projevy byly ve všech případech nepřipravené, dialogické a jejich téma nebylo nikdy předem dané. Mluvčí byli vždy rozhovorům fyzicky přítomni, korpus tedy neobsahuje přepisy telefonní konverzace. Případné velmi výjimečné krátké úseky, kdy jeden z mluvčích hovoří do telefonu, jsou přepsány pouze jako poznámka v kulatých závorkách.
Korpus ORAL2008 obsahuje přepisy 297 nahrávek, v jejichž rámci byly zaznamenány projevy 995 mluvčích. Nahrávky čítají 6 883 minut, tj. necelých 115 hodin. Celý korpus zahrnuje 1 000 097 slov, což odpovídá 1 349 536 korpusovým pozicím (tj. počet slov a interpunkce).
Korpus ORAL2008 je plně vyvážený s ohledem na základní čtyři sociolingvistické kategorie mluvčích - pohlaví, věkovou skupinu, skupinu podle stupně dosaženého vzdělání a převažující oblast pobytu v dětství. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií zastoupeny přibližně stejným počtem slov. Každá z hodnot binárních kategorií pohlaví (M / Z), věková skupina (I / V) a skupina podle stupně dosaženého vzdělání (A / B) je tedy zastoupena polovinou všech slov v korpusu. Přibližně čtvrtinou slov jsou pak zastoupeny hodnoty kategorie oblast pobytu v dětství, tj. oblasti středočeská, severovýchodočeská, jihozápadočeská a české pohraničí, přičemž přechodná oblast česko-moravská je zařazena pouze doplňkově.
V následujících tabulkách je složení korpusu podle jednotlivých parametrů vyjádřeno počtem nahrávek, mluvčích a slov v korpusu. Tyto parametry jsou dostupné při vyhledávání v korpusu jako
zdroje.
Tab 1.
Počet nahrávek podle roků
| Rok |
Počet
nahrávek |
| 2002 |
9 |
| 2003 |
7 |
| 2004 |
11
|
| 2005 |
49
|
| 2006 |
79 |
| 2007 |
142 |
|
Tab 2.
Počet nahrávek podle počtu mluvčích
Počet
mluvčích |
Počet
nahrávek |
| 2 |
109 |
| 3 |
76
|
| 4 |
54
|
| 5 |
33
|
| 6 |
15
|
| 7 |
5
|
| 8 |
3 |
| 9 |
1 |
| 10 |
1 |
|
Tab 3.
Počet mluvčích a slov podle vzdělání
| Vzdělání |
Počet
mluvčích |
Počet
slov |
| A |
559 |
500672 |
| B |
436 |
499425 |
| ZŠ |
130 |
163988 |
| SŠ |
306 |
335437 |
| VŠ |
559 |
500672 |
|
Tab 4.
Počet mluvčích a slov podle pohlaví
| Pohlaví |
Počet
mluvčích |
Počet
slov |
| ženy |
522 |
500478 |
| muži |
473 |
499619 |
|
Tab 5.
Počet mluvčích a slov podle věku
| Věk |
Počet mluvčích |
Počet slov |
| I |
576 |
500199 |
| V |
419 |
499898 |
|
Tab 6.
Počet mluvčích a slov podle převažující oblasti pobytu v dětství
| Oblast pobytu v dětství |
Počet
mluvčích |
Počet
slov |
| středočeská |
312 |
247630 |
| severovýchodočeská |
167 |
242199 |
| jihozápadočeská |
281 |
237417 |
| české pohraničí |
206 |
239511 |
| česko-moravská |
29 |
33340 |
|