AppsApps

Návrh lingvistické anotace korpusu SYN2020

Date
Speaker
  1. Tomáš Jelínek
Abstract

Na semináři představíme návrh, jak značkovat korpus SYN2020. Změny jsou zčásti motivované změnami v morfologické anotaci PDT, s nimiž se musíme nějak vyrovnat. Od korpusů SYN2015 a korpusů řady SYN (SYNv5 - SYNv8) se korpus SYN2020 bude mírně lišit tokenizací, dále navrhujeme zavedení několika atributů navíc, které pokročilejšímu uživateli poskytnou více možností vyhledávání. Méně pokročilému uživateli bychom tyto atributy raději nenabízeli, ale část informace z nich poskytli přes takzvaný našeptávač.