Czy „Jaś” jest składniowo tam samo ważny jak „Małgosia”, a „rozważna” jest na równi z „romantyczną”? Przeprowadzono analizę statystyczną

22 sierpnia 2023

Które słowo jest ważniejsze w strukturach typu „Jaś i Małgosia”, „Tytus, Romek i A’Tomek” lub „rozważna i romantyczna”? Czy może pierwsze z wymienionych? Wśród lingwistów od dekad trwa dyskusja wokół tego tematu. Analiza statystyczna – na razie dla języka angielskiego – dostarcza argumentu, że w tego typu strukturach wszystkie frazy są tak samo ważne.

„W większości konstrukcji językowych jedno ze słów jest najważniejsze i w dużej mierze determinuje składniowe i semantyczne cechy całej konstrukcji; na przykład w konstrukcji 'chatka z piernika’ najważniejszym słowem jest rzeczownik 'chatka’. Co jest takim najważniejszym słowem w konstrukcji 'Jaś i Małgosia’?” – przedstawia problem prof. Adam Przepiórkowski z Instytutu Podstaw Informatyki Polakiej Akademii Nauk i z Uniwersytetu Warszawskiego.

Naukowiec tłumaczy, że „Jaś i Małgosia” to przykład tzw. koordynacji, czyli struktury współrzędnej. W języku polskim samo określenie struktury jako „współrzędnej” może sugerować, że wszystkie człony są tam jednakowo ważne. Ale w środowisku lingwistów wcale nie było zgody ani solidnych dowodów na to, czy rzeczywiście kolejność wymienianych fraz nie ma znaczenia. Od kilku dekad ścierają się tam bowiem teorie „asymetryczne”, mówiące, że najważniejszy jest pierwszy składnik, czyli w tym wypadku „Jaś”, z teoriami „symetrycznymi”, które uznają składniową równość obu lub większej liczby składników, czyli tutaj równość „Jasia” i „Małgosi”.

Teraz prof. Adam Przepiórkowski oraz student kognitywistyki UW Michał Woźniak przedstawili nowy argument za teoriami symetrycznymi. Ich artykuł przyjęty został na tegoroczną konferencję Annual Meeting of the Association for Computational Linguistics – najważniejszą i największą konferencję dotyczącą lingwistyki komputerowej.

Komputerowa analiza dużej bazy tekstów

W lepszym zrozumieniu zasad lingwistycznych – których nie do końca świadomie używamy na co dzień – pomogły statystyczne analizy przetwarzania tekstów oraz wiedza z zakresu kognitywistyki – tego, jak człowiek przetwarza informacje i układa je w zdania.

Polscy naukowcy za pomocą metod komputerowych przeanalizowali na dużej bazie tekstów – angielskim korpusie językowym – jak wygląda kolejność fraz w różnego typu wypowiedziach. A następnie porównali te wyniki z danymi, które powinny wynikać z modeli symetrycznych i asymetrycznych. Okazało się, że słuszne są jedynie modele symetryczne. Czyli jednak dane empiryczne potwierdzają, że „Jaś” nie jest ważniejszy od „Małgosi”, a struktury współrzędne naprawdę są współrzędne.

Potwierdzenie teorii symetrycznych

Do tej pory wiadomo było, że w strukturach współrzędnych jako pierwsze wymieniane są zwykle frazy krótsze, a dopiero dalej – frazy dłuższe. Chodzi tu nie tylko o liczbę sylab, ale i słów, z których składa się sama fraza. Jeśli mamy więc wymienić trzy osoby: wychowaną w chatce z piernika córkę Baby Jagi, Małgosię i Jasia, to intuicyjnie na początku umieścimy krótkie frazy. Będzie więc to kolejno: jednosylabowy „Jaś”, trzysylabowa „Małgosia” i na końcu 15-sylabowa „wychowana w chatce z piernika córka Baby Jagi”.

Pojawiają się oczywiście wyjątki od tej reguły („czterej pancerni” są wszakże dłużsi od „psa”), ale w statystykach ujawnia się wyraźna tendencja do zaczynania „wymienianki” od krótkich elementów.

Problem się komplikuje, jeśli takie struktury koordynacji nie są najważniejsze – wchodzą do zdań jako konstrukcje podrzędne. Np. w zdaniu „czekam na Jasia i Małgosię”, imiona dzieci są podrzędne wobec słowa „czekam”. Okazuje się, że przy tego typu składni w języku angielskim krótkiego „Jasia” tradycyjnie stawia się zwykle na początku „wymienianki” – blisko najważniejszego wyrazu.

Ciekawa rzecz dzieje się jednak, gdy wyraz nadrzędny znajduje się dalej w zdaniu – dopiero po strukturze koordynacji. To zdania typu „Jasia i Małgosię zobaczyła Baba Jaga” (wyrazem nadrzędnym jest słowo „zobaczyła”).

„W języku dążymy do tego, aby wyrazy, które są ze sobą w relacji nadrzędność-podrzędność, znajdowały się w zdaniu obok siebie” – opowiada prof. Przepiórkowski. Gdyby więc „Jaś” był ważniejszy od „Małgosi”, powinien również i wtedy stać obok wyrazu nadrzędnego. Tymczasem nie było to już wcale regułą. Długość fraz nie determinowała więc już wyraźnie ich kolejności.

A taki rozkład statystyczny daje się wytłumaczyć tylko dzięki modelom wskazanym w teoriach symetrycznych. Reguły proponowane w wyjaśnieniach asymetrycznych rozmijają się tu z danymi statystycznymi.

Jak sprawa wygląda w języku polskim?

Jeśli chodzi o język polski, to na razie nie ma jeszcze potwierdzenia, że działa to tak samo, ale zespół prof. Przepiórkowskiego już to sprawdza. Wstępne wyniki wskazują jednak, że będzie tu podobnie jak w języku angielskim.

Choć w języku wiele razy dziennie używamy tak nieskomplikowanych wydawałoby się struktur jak „Bolek i Lolek”, „Atos, Portos i Aramis”, „Tytus, Romek i A’Tomek”, „Wojna i Pokój”, „zupa i drugie danie” „mama, tata i dzieci”, „rozważna i romantyczna”, to z językowego punktu widzenia nie było przesądzone, czy jeśli wymieniamy po sobie kilka elementów, to każdy z nich jest tak samo ważny. Teraz pojawiła się mocna przesłanka, że jednak są współrzędne. Polskie badania pokazują więc, że „Jaś” nie jest składniowo ważniejszy od „Małgosi”, lecz jest jej składniowo równy.

Cały artykuł polskich naukowców dostępny jest na stronach ACL Anthology.

Na ilustracji: Jaś i Małgosia przed chatką czarownicy. Autorem obrazu jest Otto Kubel (1868-1951).

[am]
źródło: Ludwika Tomala, naukawpolsce.pap.pl

Tematy: , ,

Kategoria: newsy