AppsApps

Vytváření internetových korpusů bez spamu

Date
Speaker
  1. Vít Suchomel
Abstract

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy.

Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů spamováním. Přítomnost spamu v textových korpusech významně ovlivňuje výsledky odvozené ze statistického zpracování korpusových dat. Je tedy důležité zabývat se tímto problémem, abychom mohli během čištění korpusu odstraňovat i spam.

V přednášce bude popsán výskyt spamu ve webových korpusech, nabídnuta možná řešení jeho identifikace, případně způsoby vyhnutí se spamu, a ukázány počáteční drobné výsledky.