AppsApps

Metódy vektorizácie textu založené na Wordnete

Date
Speaker
  1. Kristína Šteflovičová
  2. Dávid Držík
Abstract

Využitie techník vektorizácie textu sú v dnešnej dobe nevyhnutnosťou pre množstvo klasifikačných úloh v oblasti spracovania prirodzeného jazyka. Moderné word embeding metódy ako napr. Doc2Vec, Glove a pod. sú založené na sémantickej podobnosti slov. WordNet ako lexikálna databáza slov nám poskytuje bohatý zdroj sémantickej informácie, ktorú môžeme využiť pri vektorizácií textu. Naša práca navrhuje  techniku vektorizácie textu založenú na WordNete, zvlášť využitia synsetov. Táto technika bude podobná ako pri moderných word embeding, avšak sémanticky podobné slová nebudú automaticky trénované z korpusu ale zo synsetov. Nami navrhovanú techniku porovnáme s vybranými existujúcimi technikami pre word embeding na základe ich vhodnosti pre úlohy klasifikácie textu.