hledat:    
 

Krátké zprávy

Korpus SYN2009PUB

Dne 7. května 2010 byl zveřejněn korpus SYN2009PUB. Jedná se o dosud největší korpus české publicistiky o velikosti 700 milionů textových slov, který v mnoha ohledech navazuje na svého předchůdce, korpus SYN2006PUB.


Přednáška Petera Grzybka

Ústav Českého národního korpusu zve na přednášku předního odborníka v oblasti statistického popisu jazyka, slavisty prof. Petera Grzybka (Univerzita v Štýrském Hradci) na téma:

A Revision of the Sentence Length. Word Length Relation: Intra-textual and inter-textual perspectives,

která se uskuteční 3. května od 18.00 (hlavní budova FF UK, m. č. 104). Všichni zájemci jsou srdečně zváni.


Mluvnice současné češtiny

8. dubna vyšla Mluvnice současné češtiny. Jedná se o kolektivní dílo autorů z FF UK a MFF UK pod vedením Václava Cvrčka. Další informace najdete v sekci naše publikace. Rozhovor s Václavem Cvrčkem na stanici Vltava si můžete poslechnout zde


Omezení přístupu k WordSketches

S politováním oznamujeme, že jsme byli nuceni od prosince 2009 z licenčních důvodů zrušit většině uživatelů přístup k WordSketches na adrese http://www.korpus.cz/corpora/. WordSketches mohou nadále používat pouze naši interní zaměstnanci a studenti. Důvodem jsou vysoké finanční požadavky na licenci, která by umožňovala poskytovat WordSketches jako dosud, tj. neomezenému počtu externích uživatelů.


Nominace na funci ředitele ÚČNK

Dne 26. ledna 2010 v 15 hodin se bude konat nominace na funkci ředitele Ústavu Českého národního korpusu.


Nový přístup k paralelnímu korpusu InterCorp

Dne 16. října 2009 byl spuštěn veřejný provoz nového rozhraní pro vyhledávání v paralelních korpusech vytvořených v rámci projektu InterCorp. Na původní adrese nyní najdete jednojazyčné verze všech paralelních korpusů zpřístupněné pomocí webového Bonita, které umožňuje používání standardních nástrojů (filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.) i na korpusy jednotlivých jazyků. Zároveň došlo k dalšímu nárůstu zpřístupněných dat, nově je k dispozici také rozsáhlý výběr publicistických článků z projektu Syndicate v pěti jazycích (en, es, fr, de, ru) automaticky zarovnaných s češtinou. Celková velikost korpusu InterCorp se tak již blíží k 50 milionům slov.


On-line registrace

Od 12. června 2009 je možné pro získání plného přístupu ke korpusům ÚČNK použít elektronický formulář.


Aktualizace dat paralelního korpusu InterCorp

Dne 29. dubna 2009 byl aktualizován paralelní korpus InterCorp. Změny spočívají především ve zpřístupnění dalších textů, což znamená nárůst na přibližně 31 milionů slov. Vyhledávací rozhraní také nyní zobrazuje přesnou velikost každého vybraného subkorpusu. Další významnou změnou je možnost využívat automatické lemmatizace a morfologického značkování nejenom pro češtinu, ale také pro dalších 10 jazyků (bg, de, en, es, fr, hu, it, nl, pl, ru).


Nové webové stránky

Dne 24. dubna 2009 byly spuštěny nové webové stránky ÚČNK, kromě nové grafické podoby jsou změny hlavně technického rázu.


Náhodné vzorky

V manuálu korpusového manažeru Bonito byla zveřejněna kapitola, zabývající se určením spolehlivosti měření metodou náhodných vzorků. Uvedené postupy jsou vhodné v případě, že výsledek vyhledávání v Bonitu obsahuje velké množství výskytů, které není možné zpracovat všechny a je tedy potřeba přistoupit k měření na náhodných vzorcích. K textu je přizena i kalkulačka, která umožňuje výpočet spolehlivosti získaných výsledků.


Korpus ORAL2008

Dne 5. prosince 2008 se nabídka dostupných korpusů rozrostla o korpus mluvené češtiny ORAL2008. Korpus obsahuje přepisy výhradně neformálních situací, jeho velikost je 1 milion slov. Na rozdíl od předchozího mluveného korpusu ORAL2006 je však plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věk, vzdělání a oblast pobytu v dětství) tak, že hodnoty každé z nich jsou zastoupeny téměř stejným počtem slov.


Paralelní korpus InterCorp

Od listopadu 2008 je součástí Českého národního korpusu paralelní korpus InterCorp budovaný v rámci stejnojmenného projektu. Tento korpus je přístupný všem registrovaným uživatelům Českého národního korpusu přes vyhledávací rozhraní na adrese: http://www.korpus.cz/corpora/intercorp/.


Abecední a retrográdní slovníky

Od listopadu 2008 jsou na stránkách ÚČNK k dispozici Abecední a retrográdní slovníky lemmat a tvarů.


Omezení provozu...

Od čtvrtka 27. listopadu do pátku 28. listopadu 2008 bude z technických důvodů omezen provoz na našem hlavním serveru. V tomto období nebudeme schopni poskytnout přístup k našim korpusům ani webovým stránkám. Rádi bychom Vás proto požádali, abyste v těchto dnech nepracovali s korpusovým manažerem Bonito.
Děkujeme za pochopení.


Konference projektu InterCorp

Ve dnech  17.-19. září 2009 pořádá Ústav Českého národního korpusu v hlavní budově Filozofické fakulty UK (Praha 1, nám. J. Palacha 2) konferenci založenou na datech projektu InterCorp. Příspěvky, založené na česko-jinojazyčných korpusech v tomto projektu, budou primárně lingvistické povahy, a budou  se zabývat nejrůznějšími aspekty jazykového srovnání češtiny a jednoho nebo více ze zapojené dvacítky jazyků, většinou evropských. Předpokládá se jen omezená účast, především zástupců a spolupracovníků InterCorpu. Předběžné přihlášky (názvy příspěvků, do 20 minut) se přijímají do konce prosince 2008, abstrakty v rozsahu 300-400 slov do konce března. Po posouzení programovou komisí budou účastníci vyrozuměni o případném přijetí do konce května.  Korespondence na adrese:
Interkonference

František Čermák


Britský národní korpus

Od dubna 2008 přibyla pro zájemce z řad studentů a zaměstnanců Univerzity Karlovy v Praze možnost přístupu k Britskému národnímu korpusu (BNC). Velice podrobné informace o tomto korpusu včetně např. popisu použitého tagsetu můžete najít na domovských stránkách BNC. K získání přístupu k BNC přes Bonito prostřednictvím ÚČNK je třeba vyplnit standardní Prohlášení uživatele korpusů ÚČNK, ze kterého bude patrná vazba na UK. Pokud ho již vyplněné máte, stačí poslatjenom e-mailovou žádost o rozšíření stávající nabídky korpusů o BNC na adresu:
Lucie Nováková


Statistiky 2006-2007

Na našich stránkách uveřejňujeme přehled využívání korpusů. Statistiky uvádějí počty dotazů zadaných vkorpusovém manažeru Bonito v období od 9. 5. 2006 do 31. 12. 2007.


Starší krátké zprávy...