Prezentace 2: Jak zkoumat n-gramy v jazycích s volným slovosledem

Date

Tuesday 2019-10-15 14:00

Speaker

Abstract

Problematičnost extrakce a analýzy n-gramů se v jazycích s flexí a volným slovosledem netýká jen jejich celkového počtu a variability, jak ukázal předchozí příspěvek, ale také variability poziční, jinými slovy faktu, že slova v častých kombinacích nemusejí stát vždy přímo vedle sebe a jejich pořadí se může měnit. Běžně se n-gramy v jazykovém výzkumu definují jednoduše jako po sobě jdoucí n-tice slov, která se v jazyce vyskytují s dostatečnou frekvencí. V jazycích, jako je čeština, má ale smysl pojem n-gram rozšířit a zahrnout do něj i kombinace, které zohledňují výše uvedenou variabilitu (cf. koncept skip-gramů). V našem příspěvku ukážeme jeden ze způsobů, jak je možné automaticky extrahovat různé slovosledné varianty týchž n-gramů, které vzhledem k metodě výpočtu anglicky označujeme jako n-choose-k grams. Obdobný způsob používá i komerční nástroj WordSmith pod názvem conc-grams - přinejmenším v komunitě kontrastivních lingvistů se však zatím nedostal do širšího povědomí.