English version below
Český národní korpus | Aktuality
Září 2016 | Facebook

SYN verze 4

V září 2016 byl zveřejněn korpus SYN verze 4. Ve srovnání s předchozí verzí přináší zejména následující vylepšení:

  • SYN v4 zahrnuje také korpus SYN2015 a velký objem dosud nezveřejněné publicistiky převážně z let 2010–2014, takže jeho celkový rozsah přesáhl 3,6 mld. slov (4,3 mld. pozic včetně interpunkce);
  • SYN v4 svým zpracováním, strukturou, anotací i klasifikací textů odpovídá až na výjimky korpusu SYN2015.

Podrobné informace o korpusech řady SYN jsou k dispozici na korpusové wiki. Původní SYN z 27. 1. 2014 zůstává jako referenční korpus nadále přístupný pod označením SYN v3.

InterCorp verze 9

Paralelní korpus InterCorp je od září letošního roku dostupný ve verzi 9. Pokrývá v nestejném rozsahu celkem 39 jazyků a stejně jako dosud je jeho obsah tvořen beletristickým ručně zkontrolovaným jádrem a automaticky zarovnanými kolekcemi. Celkový rozsah cizojazyčné části dosáhl 1,46 mld. slov, seznam rozdílů oproti předchozí verzi najdete na samostatné stránce.

KonText 0.9

Před několika dny byla zveřejněna také nová verze hlavního rozhraní pro práci s korpusy KonText. Vedle podstatných změn v kódu KonTextu vedoucích k rychlejší práci s ním došlo k rozšíření funkcionality uživatelského rozhraní:

  • zobrazování syntaktických struktur (prozatím pouze v korpusu SYN2015);
  • vytváření subkorpusu s možností vzít v úvahu (ne)existenci zarovnání;
  • vytváření subkorpusu a specifikace metainformací doplněny o „našeptávač“ možných hodnot daného atributu, jestliže jich pro zobrazení zůstává příliš mnoho;
  • zobrazování hodnot pozičních atributů (např. lemma, tag) v konkordanci při přejetí myší (tzv. mouse-over).

Souhrn podstatných změn je k dispozici na samostatné stránce věnované historii verzí KonTextu.

Workshop

V sobotu 26. listopadu 2016 se na Filozofické fakultě v Praze bude opět konat bezplatný workshop pro všechny zájemce o práci s korpusy. Program workshopu je vhodný jak pro (věčné) začátečníky, tak pro pokročilé a kromě představení novinek ČNK bude věnován také využití korpusů v pedagogické a překladatelské praxi. Chybět nebude ani individuální poradna. Máte-li zájem se workshopu zúčastnit, můžete se už nyní zaregistrovat.

Kolokvium KOLT

V pátek 25. listopadu 2016 pořádáme kolokvium „Korpusy v kontrastivní lingvistice a translatologii“. Abstrakty je možné zasílat do 7. října 2016.

Novinky ve Wiki ČNK

Během léta došlo ke změnám v korpusové internetové příručce dostupné na adrese http://wiki.korpus.cz. Vedle průběžných aktualizací, několika vylepšení vzhledu a úpravy titulní stránky se jedná především o přepracovaný Kurz práce s korpusem v 7 lekcích. Zároveň jsou relevantní části wiki postupně převáděny do angličtiny, v současnosti jsou tak dostupné anglické verze sekcí Korpusy ČNK a Manuál rozhraní KonText.

Czech National Corpus | Newsletter
September 2016 | Facebook

SYN release 4

In September 2016, SYN release 4 was published (the English version of the linked page will be available soon). The following are the major enhancements:

  • SYN v4 now includes SYN2015 and a large amount of newly available journalistic material mostly from 2010–2014, the total size of SYN v4 has exceeded 3.6 bil. running words (4.3 bil. tokens including punctuation);
  • SYN v4 is modelled after SYN2015 in terms of the text processing, structure, annotation, and text classification.

The original release of SYN from January 27th, 2014 is a reference corpus, therefore it remains available to all users as SYN v3.

InterCorp release 9

Since September, release 9 of the InterCorp parallel corpus has been made available online. It includes 39 languages with varying amounts of textual data. InterCorp contains both a manually checked fiction core and several automatically aligned collections. The total size of the non-Czech part of InterCorp release 9 has reached 1.46 bil. running words; the version history can be found on a separate page.

KonText 0.9

A few days ago, a new version of KonText, our main corpus interface, was launched. Apart from code enhancements leading to lower response times, the functionality of the interface has been extended to include the following features:

  • displaying syntactic structures (currently for SYN2015 only);
  • creation of subcorpora includes the possibility to take into account the (non-)existence of an alignment;
  • autocomplete for attributes in case there are too many values to display; this is available to support the creation of subcorpora and specification of a query according to metadata;
  • values of positional attributes (e.g. lemma or tag) available also on mouse-over in the concordance.

A comprehensive KonText version history is available on a separate page (English version available soon).

Workshop

On Saturday, November 26th, 2016, we are organizing a free hands-on workshop for our users, both beginners and advanced, focused on working with CNC corpora. The workshop will be held in Czech. The programme will include a KonText interface tutorial, the presentation of new corpora and tools, and sessions on corpus-based language teaching and translating. For further details, please visit the registration site (in Czech).

KOLT Colloquium

Corpora in Contrastive Linguistics and Translation Studies“ colloquium takes place in Prague on Friday, November 25th, 2016. You can submit your abstracts until October 7th, 2016.

News from the CNC Wiki

The CNC reference guide available at http://wiki.korpus.cz has been further enhanced during the summer. Apart from continuous updates and several minor changes to the design and the title page, the most important change includes an overhaul of the 7-part basic course How to work with the CNC (English version available soon). At the same time, relevant parts of the wiki are currently being translated into English, with English versions of the Available CNC corpora and KonText interface manual sections already posted on-line.

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837