Registrová variabilita a funkční přístup

Václav Cvrček

20. května 2021

Úvod

Funkce v Pražské škole

Zřetel k funkci – erbovní atribut pražského strukturaslismu (funkční přístup k estetice literárního díla, Mukařovský)

Funkční přístup jako způsob, jak se vypořádat s variabilitou v jazyce:

  • fonologie – funkční vymezení fonému (Trubeckoj)
  • v rámci Teorie jazykové kultury (TJK):
    • funkční diferenciace jako reakce na (nefunkční) homonymii – komunikační záměr/potřeba
    • funkční přístup ke stratifikaci jazyka – adekvátnost k situaci

Aplikace funkčního přístupu v TJK

  1. Funkční přístup není aplikován důsledně
    • odpor k zavádění dublet (srov. reakci návrhy P. Sgalla ad.)
    • jazyková regulace se omezuje na spisovnou češtinu
  2. Funkční přístup selhává (Starý 1995: 22)
    • diferenciace je vyžadována v rámci pravopisu či morfologie (srov. nové letiště – nová letiště)
    • hodnocení barokního období a spektra komunikačních funkcí (tzv. syndrom národního údělu)

→ Kodifikace jako způsob redukce variability s ohledem na posluchače

Korpusově-funkční přístup k variabilitě (MDA)

Multidimenzionální analýza (MDA, Biber 1995; Biber & Conrad 2009)

  • empirický popis funkční variability textů
  • systematická & funkční variabilita (× náhodná, sociolingvistická…), tj. podmíněná kontextem & situací
  • vnitrotextová × vnětextová perspektiva
    • těsto a forma, rejstřík a skladba, slohový postup a útvar…
  • postup od jazykových rysů přes dimenze variability k charakteristikám textů
    • při koncipování textů dochází pod vlivem situace k rozhodnutím, která jsou vzájemně propojená → korelace jazykových rysů → dimenze

Motivace ke korpusovému výzkumu textové variability

Výzkum funkční (registrové) variability textů

  • implikace pro jazykový popis (register matters!)
    • charakteristika jevů (srov. Longman Grammar)
    • ~ PLK: adekvátnost ke komunikačnímu záměru
  • implikace pro empirický výzkum (know your data!)
    • memoáry – epické, faktografické, kontemplativní…
    • publicistika – fakta, úvahy, rozhovory
  • implikace pro design korpusů a znich plynoucí deskripce
    • reprezentativní = zachycující celou šíři variability
    • × PLK: jazyková regulace je omezena na spisovný jazyk

Co plyne ze srovnání těchto funkčních rámců?

TJK i MDA – deskriptivní rámce s funkčním základem

  • rozdíl mezi introspektivní (TJK) a empirickou (MDA) analýzou
  • pohled po jazykových rovinách (TJK) × pohled napříč rovinami (MDA)
  • jaké je spektrum funkcí a jaká je jejich významnost (MDA)
  • jaký je funkční rozsah prostředků (MDA)

Multidimenzionální analýza češtiny

MDA v češtině

obalka

(Cvrček et al. 2020)

Tým MDA

team

Od rysů k dimenzím

  • nejde o úlohu novou: funkční styly, stylotvorné faktory…
  • hledíme ke všem rysům a všem typům textů
  • postup (bottom–up):
    • identifikovat (dílčí) jazykové rysy, které mají potenciál funkční diferenciace
    • jejich analýzou (MDA) najít dimenze variability
    • zjistit pozici textů v korpusu na dimenzích variability
    • vytvořit shluky textů s podobnými charakteristikami
    • interpretací shluků dospět k ustavení registrů

Popis postupu při utváření dimenzí variability

  1. Vytvoření korpusu (Koditex)
  2. Jazykové rysy (a jejich operacionalizace)
  3. Statistické vyhodnocení (faktorová analýza)
  4. Interpretace dimenzí variability
  5. Shluky podobných textů (registry)

MDA

Data: korpus Koditex

diverzifikovaný korpus současné češtiny složený z cca 3300 textových vzorků srovnatelné délky (Zasina et al. 2019)

  • diverzifikované stratifikované samplování textů
  • texty po roce 1990, většina z 2007–2014
  • textové vzorky = chunks (nikoli celé texty)
  • anotace: lemmata, tagování, víceslovné jednotky (IF), pojmenované entity (NER)
  • 10 mil. slov, 3,334 textových vzorků, 2000–5000 slov
  • 3 módy – wri, spo, web
    • 8 divizí, 45 tříd \(\approx\) 200 000 slov na třídu
    • dopisy, administrativa: kratší vzorky (1000 slov)
    • fb posty (web-mul): agregace podle autora a času
    • spo: pouze jeden mluvčí z konverzace

slozeni

Rysy a jejich operacionalizace

Původně 140+ rysů, zredukováno na 122, mj.:

  • fonologie – úžení é > í, diftongizace ý > ej, průměrná délka slova…
  • morfologie – frekvence pádů, čísel, způsobů, časů…
  • slovotvorba – adjektiva podobnosti, verbální substantiva, deminutiva…
  • lexikon – neurčitá zájmena, verba dicendi, sémanticky vyprázdněná (nevyhraněná) substantiva …
  • pragmatika – kontaktové výrazy, hezitace, intenzifikátory, downtoners…
  • syntax – typy atributů, klastry slov (N, A), druhy vedlejších vět…
  • text/diskurz – otázky, frazeologie, opakování slov…

Zdroje: dřívější popisy (mluvnice, stylistiky), Biber, korpusové seznamy, intuice…

Statistické vyhodnocení: faktorová analýza

Výchozí data: 122 rysů × 3292 textů (chunks)

  • exploratorní faktorová analýza (EFA)
    • redukce dimenzí v datech, zjištění vztahů mezi rysy
    • latentní faktory / dimenze variability
    • bottom-up přístup (dimenze jsou detekovány na základě dat, nikoli určeny apriori)

Dimenze variability

Dimenze variability

Na základě EFA: 8 faktorů/dimenzí variability:

  1. dynamický (+) vs. statický (-)
  2. spontánní (+) vs. připravený (-)
  3. vyšší (+) vs. nižší (-) míra koheze
  4. polytematický (+) vs. monotematický (-)
  5. vyšší (+) vs. nižší (-) stupeň adresnosti
  6. obecný (+) vs. konkrétní (-)
  7. prospektivní (+) vs. retrospektivní (-)
  8. postojový (+) vs. faktuální (-)

(Cvrček et al. 2018a, 2018b)

Dimenze 1: dynamický (+) × statický (-)

Nejvyšší (pozitivní) loading
Nejnižší (negativní) loading

Dimenze 2: spontánní (+) × připravený (-)

Nejvyšší (pozitivní) loading
Nejnižší (negativní) loading

Oral-literate: Dimenze 1 a dimenze 2

Univerzální dimenze variability (podle Biber 2014):

  • komunikační mód: oral vs. literate
  • zacílení (focus): personal/involved vs. informational
  • způsob produkce: real-time vs. planned/edited
  • lingvistické ztvárnění: clausal vs. phrasal

× TJK akcentuje dimenzi: funkční jazyky v rámci spisovné češtiny vs. nespisovný jazyk

2D-plot: dimenze 1 a dimenze 2

Dimenze 5: vyšší (+) × nižší (-) stupeň adresnosti

Dimenze 8: postojový (+) × faktuální (-)

Registry v češtině

Registr – genre – text type

  • registr: varieta, kterou definujeme na základě podobnosti skupin použitých jazykových prostředků, které se podílejí na funkční variabilitě jazyka
  • jazyková varieta, jejíž “podoba a užití jsou podmíněny komunikační situací, resp. typem komunikační situace. (…) V č. kontextu odpovídají způsobu užívání tohoto pojmu nejčastěji pojmy funkční styl n. objektivní styl.” (K. Mrázková in NESČ online 2017)
definice

(Biber & Conrad 2009: 16)

  • MDA: empirický pohled na funkční stratifikaci ~ TJK: funkční jazyky

Vytvoření klastrů textů

  • každý text je na základě rysů, které využívá, charakterizován pozicí v 8D prostoru
  • vzdálenosti mezi texty → klastry textů (s podobnou pozicí) → registry (skupiny textů podle podobnosti užitých rysů)
  • optimální počet klastrů: 10 (na základě shody 30 statistických metod v NbClust)

Registrová klasifikace na základě MDA

Statické registry:

  • analýza: statický monotematický registr
  • popularizace: statický polytematický obecný registr
  • žurnalistika: statický nevyhraněný registr
  • fakta: statický polytematický konkrétní registr
  • argumentace: statický kohezní registr

Dynamické registry:

  • anketa: dynamický neadresný registr
  • konverzace: dynamický spontánní registr
  • komentář: dynamický postojový registr
  • scénář: dynamický adresný registr
  • narace: dynamický retrospektivní registr

Narace: dynamický retrospektivní registr

Průměrná pozice textů v klastru v hlavních dimenzích

Narace: dynamický retrospektivní registr

2D graf: dynamičnost (GLS1+) a retrospektivnost (GLS7-)

Narace: dynamický retrospektivní registr

Korespondence s vnětextovou/žánrovou charakteristikou

Textová kategorie Počet textů Podíl z klastru Podíl z kategorie v klastru
wri-fic-nov-fan 66 14.10% 95.652%
wri-fic–col 65 13.89% 92.857%
wri-fic-nov-crm 63 13.46% 92.647%
wri-fic-nov-scf 63 13.46% 92.647%
wri-fic-nov-lov 61 13.03% 87.143%
wri-fic-nov-gen 53 11.32% 79.104%
wri-fic–ver 42 8.97% 55.263%
wri-nfc–mem 21 4.49% 29.577%
web-uni–blo 6 1.28% 8.108%
web-mul–fcb 5 1.07% 5.495%
wri-nfc-pop-hum 5 1.07% 6.757%
wri-nfc-pop-ssc 4 0.85% 5.882%
wri-nfc-pop-fts 3 0.64% 4.412%
wri-pri–cor 2 0.43% 2.941%
spo-int–bru 1 0.21% 1.111%

Narace: Rysy v textu

Tasila zbraň. Ostří Vlaštovky tiše zazpívalo. Znala dobře ten zpěv. Ustupovala širokou síní a on šel za ní, třímaje meč oběma rukama před sebou. Po ostří ještě stékala krev a kapala v hustých kapkách z rukojeti. “Mrtvá,” shledal, když překračovala ležící Angoulęme. “Dobře. Ten mládenec už taky hryže zem.” Ciri pocítila, jak ji ovládá zoufalství. Prsty svíraly jílec až k bolesti. Ustupovala. “Oklamalas mě,” syčel Bonhart, kráčeje za ní. “Neměl medailon. Ale něco mi napovídá, že někde tady najdu někoho, kdo medailon nosí. Vsadím se, že ho najdu někde poblíž té vědmy Yennefer. Ale po pořadí, zmije. Nejdříve my dva, ty a já. A naše zásnuby.” Ciri se rozhodla. Zatočila Vlaštovkou a zaujala postoj. Vykročila v půlkruhu, v celém kruhu, stále zrychlujíc, nutila lovce, aby se táčel na místě. “Naposledy,” ucedil, “ti tenhle trik nebyl k ničemu. Copak se neumíš učit na vlastních chybách?” Ciri ještě zrychlila. Plynulými pohyby meče klamala a mýlila a mámila a hypnotizovala. Bonhart zatočil svým mečem.
(A. Sapkowski: Paní jezera)

Legenda:

Verbum, Préteritum, Adresnost

Narace: shrnutí

  • dynamický
  • retrospektivní
  • vyšší míra explicitní adresnosti
  • z většiny (88.5 %) tvořen beletrií wri-fic
  • většina (73.4 %) beletrie z korpusu patří do tohoto klastru

Analýza: statický monotematický (1)

  • faktuální (GLS8)
  • většina (86.6 %) administrativních textů spadá do tohoto klastru
  • silné zastoupení textů formálních a technických věd

Analýza: statický monotematický

Velmi zajímavé užití grafických a analytických programových produktů existuje při zobrazování a analýze Phillipsovy křivky. U nás se analýza pomocí modelu modifikované Phillipsovy křivky prováděla za období VI/1990-VIII/1991. Z analýzy vyplynulo, že průběh Phillipsovy křivky měl typický průběh, charakterizovaný záporným koeficientem korelace mezi mírou inflace a mírou nezaměstnanosti: Liberalizační šok v lednu 1991, který se projevil na růstu cenové hladiny, sleduje dále vývoj nezaměstnanosti. Krátkodobý odhad stabilizace cenové hladiny se ukázal jako reálný. Bylo dosaženo i velmi malé odchylky oproti později zaznamenaným empirickým údajům, pokud jde o objem příspěvků v nezaměstnanosti čerpaných ze státního rozpočtu.
(Užití výpočetní techniky v ekonomii; wri-nfc-sci-fts)

Legenda:

jmenné a adnominální struktury, předložkové vazby, neosobní konstrukce

Závěr

Odlišnosti dvou funkčních přístupů

  • jak se MDA a TJK vypořádávají se vztahem variability a funkce?
    • MDA se snaží pomocí funkce variabilitu popsat/vysvětlit (deskripce)
    • TJK variabilitu ve jménu funkce spíše potlačuje (preskripce)
  • registry založené na MDA představují empirický (bottom-up) přístup k funkční variabilitě × stratifikace podle TJK je introspektivní (top-down) a axiologická
  • MDA poskytuje možnost kvantifikovat míru variability vysvětlenou jednotlivými dimenzemi/funkcemi
    • hlavní dimenze podle MDA: dynamický-statický + spontánní-připravený ~ oral-literate (cca 36 %)
    • hlavní dimenze podle TJK: spisovný jazyk – nespisovné jazyky

Důsledky pro jazykovou regulaci

  • funkční přístup TJK by měl akcentovat volbu adekvátní variety v závislosti na komunikační situaci × TJK se odehrává v pouze rámci spisovného jazyka
  • MDA registry jako konverzace, anketa (a v menší míře i scénář a komentář) jsou kvůli funkčnímu využití nespisovných rysů mimo tako vymezenou jazykovou kulturu (mimo funkční přístup TJK)
    • registry vydělené zejm. na základě dimenze spontánní-připravený operující s nespisovnými prostředky
    • funkční opodstatněnost odmítaných prostředků je zjevná
  • proč se TJK orientuje primárně na variabilitu svázanou se spontánností?
    • historické důvody (rozhoduntí učiněná v Národním obrození)
    • blízko tzv. performance errors
    • nižší prestiž spontánních projevů/registrů, vyšší prestiž elaborovaných textů
  • není funkční hledisko v TJK vlastně axiologickým hlediskem?

Bibliografie

  • Biber, D. 1995. Dimensions of Register Variation: A Cross-Linguistic Comparison. Cambridge, England: Cambridge University Press.
  • Biber, D. 2014. Using multi-dimensional analysis to explore cross-linguistic universals of register variation. Languages in Contrast 14:1, 7–34.
  • Biber, D. and S. Conrad. 2009. Register, Genre, and Style. Cambridge, England: Cambridge University Press.
  • Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková, A., Zasina, A. J.: Variabilita češtiny: multidimenzionální analýza. Slovo a slovesnost 79, s. 293–321.
  • Cvrček, V., Z. Komrsková, D. Lukeš, P. Poukarová, A. Řehořková and A. J. Zasina. 2018. ‘From Extra- to Intratextual Characteristics: Charting the Space of Variation in Czech through MDA’. Corpus Linguistics and Linguistic Theory. doi:10.1515/cllt-2018-0020.
  • Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková A., Zasina, A. J. 2020. Registry v češtině. Praha: Nakladatelství Lidové Noviny.
  • Mrázková, K. ‘Rejstřík’. In Karlík, P., M. Nekula and J. Pleskalová (eds), CzechEncy - Nový encyklopedický slovník češtiny, 2017.
  • Starý, Z. 1995. Ve jménu funkce a intervence, Praha: Karolinum.
  • Zasina, A. J. and Z. Komrsková. 2019. ‘Koditex – korpus diverzifikovaných textů’. Studie z aplikované lingvistiky 10.1: 127–132.
  • Zasina, A. J., Lukeš, D., Komrsková, Z., Poukarová, P., Řehořková, A.: Koditex: korpus diverzifikovaných textů. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz