Weźmy
na przykład „Zasady pisowni języka śląskiego”
językoznawcy, kierownika zakładu kroatystyki, doktora
habilitowanego Henryka Jaroszewicza, profesora Uniwersytetu
Wrocławskiego. Jest to niezwykle cenne i ważne dzieło, a Autorowi
należy się pochwała za wykonaną pracę. Trwała ona kilka lat, a
za książkę - inaczej niż ja za mój
translator - Autor pobierał opłatę.
Mimo to Bartłomiejowi Wanotowi opisanie błędów i niekonsekwencji,
które się w tym wydawnictwie pojawiły, zajęło prawie
dwadzieścia stron. Dzięki temu jednak Autor mógł swoją pracę
udoskonalić.
Jeżeli
zatem stwierdzamy, że niekaceptowalne jest publikowanie darmowego
narzędzia, bo zdarzają się w nim błędy, to tym bardziej
musielibyśmy dojść do wniosku, że sprzedaż
książki z błędami jest wyłudzeniem, a
to byłby przecież absurd. Tak długo jak język śląski nie będzie
miał wsparcia państwa, nie możemy oczekiwać cudów nawet wtedy,
gdy jest mowa o opracowaniu zupełnie nieskomplikowanym dla
prawdziwego językoznawcy.
Czy
translator tłumaczy słowo w słowo?
Zainteresowały
mnie uwagi dotyczące tego, jak translator sobie radzi z rozmaitymi
pojęciami. Przywołane zostały m.in. „wózek dziecięcy”,
„kawa zbożowa”, „bita śmietana”, „atak
serca” i „bal kostiumowy”. Rzeczywiście dla
laika ich brak może być zastanawiający, dlatego wyjaśnię,
dlaczego - przynajmniej na razie - translator ich nie obsługuje.
Przy
pracy nad tego typu narzędziem konieczne jest przyjęcie kryterium
częstotliwości występowania danego pojęcia. Jeżeli ma ono
być przydatne jak najczęściej, to zaczyna się od określeń, co
do których jest większe prawdopodobieństwo, że znajdą się w
tekście, który użytkownik wstawi do tłumaczenia.
Wymienione
pojęcia, ponieważ składają się z dwóch słów, określane są
bigramami. Zajrzyjmy zatem do Korpusu Współczesnego Języka
Polskiego i sprawdźmy, które miejsca na liście
frekwencyjnej bigramów zajmują poszczególne określenia:
- „wózek dziecięcy”: 145358,
- „kawa zbożowa”: 92908,
- „bita śmietana”: 72801,
- „atak serca”: 56790,
- „bal kostiumowy”: brak.
Nietrudno
zauważyć, że terminy te są daleko na liście priorytetów
tego, co powinno się znaleźć w translatorze. Na 109. miejscu jest
natomiast „na przykład”, na 123. „na pewno”, a na 176. „od
razu”. To takie bigramy są priorytetem i one się w translatorze
znalazły.
Częściej
też rozmawiamy o godzinie, niż dostajemy ataku serca
albo jemy bitą śmietanę, dlatego translator ma zaprogramowane
radzenie sobie z tłumaczeniem „wpół do pierwszej” na „pōł
jednyj” albo „piętnaście po szóstej” na „sztwierć na
siedym”.
Skupienie
się na rzadkich lub, jak w przypadku balu kostiumowego,
przestarzałych pojęciach byłoby zatem zbędną pracą, ponieważ
nijak nie zwiększałaby ona przydatności narzędzia.

Co z tym wōzykym?
Tu
muszę jeszcze dodać uwagę co do proponowanych tłumaczeń. Przy
sprawie „wózka dziecięcego” pojawiło się stwierdzenie, że
tłumacz podaje „wōzyk dzieckowy”, a powinien przekładać na
„koloska”. Nie wiem, dlaczego miałby tak robić. Ja od dziecka
znam wyłącznie określenie „wōzyk” i już Michał Przywara w
swoim słowniku z początku XX wieku podał na stronie 377.: „wōzek
-zka, wozyk -zyka – Kinderwagen”.
„Koloska”
notuje Olesch i Kallus, ale gdy zajrzeć do korpusu śląskiego,
to słowo jest użyte dwa razy: w cieszyńskim „Milka z
trześni” Katarzyny Szkaradnik i w Gazecie Ustrońskiej w 2018
roku. „Wōzyk” w kontekście dzieci za to mamy wielokrotnie,
m.in. w „Gościu Niedzielnym” z 1931 („To było na bawidełko,
na lalka, na konika, na wozyk”), „Gazecie
świętochłowickiej” z 1934 („na prominadach pełno ludzi, porek
i wozyków z dziećmi”) czy w pracy konkursowej uczennicy
gimnazjum w Zdzieszowicach w 2020 roku („Jak już małe prziszło
na świat, a nie rodziyli se wtedy we szpitalach, jyno we dóma, to
cza bóło tyż pomyjśleć, coby kupić jaki wózyk”).
Inne uwagi
Pojawiły
się też przykłady tego, że translator tłumaczy źle „dziwoko
świnia” na „dziko świnia” zamiast na „dzik”; „mōm
rod twoja matka” na „mam rod twoją matkę” zamiast „lubię
twoją matkę”; „wielko woda” na „wielka woda”
zamiast na „powódź”; „wrawo woda” na „wrawo woda”
zamiast na „wrzątek” i nie zna „siyrocy dōm”, co ma
oznaczać sierociniec.
Jeśli
idzie o polskie „sierociniec”, to translator tłumaczy to na
„siyrociniec” śladem „Duchów wojny” Alojzego
Lyski („Weznom go kaj do siyrocińca i zrobiom z niego
bolszewika.”) czy „Gustla a Fridek” Stanisława Neblika
(„mama znodła se inkszego i uciykła z nim, a Gustle dała do
siyrocińca”). Określenia „siyrocy dōm” nie zna i nie
jest mi znane żadne użycie takiego pojęcia. Nie zna też słowa
„siyrocy”, ponieważ polskie „sierocy” jest dopiero 51992. w
liście frekwencyjnej, a więc jest daleko na liście priorytetów.
Jeśli
natomiast chodzi o pozostałe frazy, to nie zostają one obsłużone
przez translator, bo jest on pomyślany dla całego Górnego Śląska
i obsługuje pełny ślabikorz. Osoba kompetentna w zasadach
pisowni języka śląskiego natychmiast zwróci uwagę,
że przykłady zawierają błędy ortograficzne. „Dziwoko” w
zapisie ślabikorzowym jest przysłówkiem, więc translator
przekłada to na polskie „dziko”. „Rod” to pierwiastek
chemiczny, więc przekłada na polskie „rod”. Przy „wrawo” i
„siyrocy” uczciwie zaznacza gwiazdką, że tych słów nie zna.
Przy „wielko” też nie znalazł danego słowa, więc sprawdził,
czy w nim nie ma literówki i czy gdyby zapisać „wielko” zamiast
„wielkŏ”, coś by się znalazło.
Bardzo
jednak dziękuję za te sugestie, bo dużej odwagi wymaga
dzielenie się swoimi przemyśleniami, gdy niekoniecznie się ma
językowe, językoznawcze czy informatyczne kompetencje.
Jak przełożyć „mōm rŏd” na polski?
À
propos „mōm rŏd”. Zdawałoby się, że pytanie zawarte w
śródtytule ma oczywistą odpowiedź: „lubię”. Problem pojawia
się jednak w przekładzie maszynowym, ponieważ w „mōm rŏd”
mamy informację o płci osoby mówiącej, a przy „lubię” –
nie. Można zatem przetłumaczyć ze śląskiego na
polski, ale z polskiego na śląski już mielibyśmy kłopot.
Dodatkowo
taki luźny frazeologizm jest szczególnie trudny do obsługi
maszynowej przez to, że zależnie od kontekstu można powiedzieć
„mōm rŏd”, „rŏd mōm”, „mōm fest rŏd”,
„mōm to fest rŏd”, a nawet „mōm take rzeczy
naprŏwdã fest rŏd”. Prawidłowe maszynowe przełożenie
każdego z tych przykładów jest teoretycznie możliwe, ale między
„mōm” i „rŏd” może wystąpić właściwie nieskończona
liczba konfiguracji słów, więc zaprogramowanie prawidłowego
przekładu wszystkich jest w zasadzie niewykonalne.
Z
tego powodu translator w ogóle nie obsługuje tej frazy i
prowizorycznie oddaje „lubić” jako „lubić”, bo żadne
lepsze rozwiązanie nie przyszło mi jak na razie do głowy.
Podobny
problem pojawia się, gdy do przekładu na śląski mamy jakiś
imiesłów, np. „Znałem dziewczynę pochodzącą z Grecji”.
Nie mamy tu informacji o czasie: „Znam dziewczynę pochodzącą
z Grecji” i „Będę znał dziewczynę pochodzącą z
Grecji” również używają formy „pochodzącą”. Gdybyśmy
chcieli to przełożyć na śląski, w każdym przypadku musielibyśmy
dodać informację o czasie: „co pochodziyła z Grecyje”,
„co pochodzi z Grecyje” i „co bydzie pochodzić z
Grecyje”.
W
związku z tym, że podpowiedź co do czasu jest w zupełnie
innych częściach zdania w polskiej wersji, jest to problem
właściwie nierozwiązywalny w świetle możliwości technicznych
obecnego translatora, dlatego po prostu poda on formę „pochodzōncõ”.
Niedawno jednak zostało zaproponowane nowe rozwiązanie techniczne,
które niesie nadzieję, ale rozpracowanie i zaadaptowanie go wymaga
czasu.
Czy translator jest zgubą dla języka śląskiego?
Pojawiły
się też zarzuty, że sillingowe narzędzie psuje
język, ponieważ tłumaczenia proponowane przez nie idą w
świat, ludzie przyjmują je bezkrytycznie i uczą się błędnych
form. Dowiedziałem się, że nawet artykuły na Wikipedii są pisane
nieprawidłowo przy użyciu translatora. Podany został gdzieś też
przykład zeszłorocznej kompromitacji, gdy trzecie miejsce na
jednoaktówkę po śląsku zajęła praca napisana po polsku,
przepuszczona przez translator i prawdopodobnie bez korekty
przedstawiona do konkursu.
Można
byłoby mieć obiekcje do translatora, gdyby poziom publikowanych
tekstów spadł po jego udostępnieniu. Ale niech osoby zarzucające
translatorowi psucie języka uczciwie odpowiedzą sobie na pytanie,
czy język śląskiej Wikipedii wcześniej był lepszy. Czy na
przykład zdania „Wolfowy bandy majům echt uokryślůno
drinhjyrarchijo. Wolfy majům rozwińjůno zistyma kůmůńikacyje śe
při půmocy ćelskowy godki” albo „We madżōngã zwykle siye
szpila s 136 wyrflami. Wyrfle sōm miyeszŏne a niyskŏrzi ônaczōne
we 4 mury, kŏżdy po 2 sztoki 17 wyrfli. 26 sztokōw je urziwanych
do stawiyaniyŏ rynki sztarŏwyj, 7 do formowaniyŏ trupiygŏ muru, a
resztŏ 35 sztokōw do dalszegŏ graniyŏ” są w ogóle przejawami
języka śląskiego?
Podobnie
szczerze warto byłoby odpowiedzieć sobie na pytanie, czy
jednoaktówki pisane bez użycia translatora są przykładami
językowej wirtuozerii. Jedne są lepsze, inne gorsze, ale do
doskonałości im wiele brakuje.
Trzecim
pytaniem, na które krytycy powinni sobie odpowiedzieć, jest to, czy
gdy ktoś wsiada za kierownicę, rozpędza się nadmiernie i wjeżdża
w przystanek pełen ludzi, to też dochodzą do wniosku, że winę
ponosi samochód. W obu przypadkach mamy do czynienia z
narzędziami wykorzystywanymi nieodpowiedzialnie przez dorosłych
ludzi. Jeżeli obarczenie samochodu winą byłoby nonsensem, to tym
samym są pretensje wobec translatora. Gdyby strażnicy czystości
języka śląskiego swoją energię poświęcili na edukowanie,
jak korzystać z narzędzi językowych, zamiast na narzekanie na
translator, zapewne wypadków niewłaściwego używania go byłoby
mniej.
Trzeba
też zwrócić uwagę, że tłumacze maszynowe nigdy nie podają w
stu procentach idealnego przekładu. Widziałem dyskusję, gdzie
przywoływany był tłumacz Google, który nie radzi sobie nawet z
przymiotnikiem „śląski” w przekładzie na śląski. Ale tak
naprawdę nie trzeba szukać w tak małym języku. Wielkie,
miliardowe korporacje nie są w stanie stworzyć narzędzia
tłumaczącego idealnie z jednego dużego języka na inny duży język
mimo tego, że robią to dla zysku i mają na to nieograniczone w
praktyce środki.

Wciąż
trwają kontrowersje związane z maszynowymi tłumaczeniami tytułów
wideo na YouTube, gdzie co rusz pojawiają się kwiatki w rodzaju
„Czy ktoś źle obliczył DOOM w Czarnobylu?” („Did one
miscalculation DOOM Chernobyl?” czyli „Czy jeden błąd w
obliczeniach ZGUBIŁ Czarnobyl?”), a na eBay można kupić na
przykład kasety „wykonane w indyku” („made in Turkey”),
bo angielskie „Turkey” może znaczyć zarówno „Turcja”, jak
i „indyk”.
Błędy
są nieodłączną częścią maszynowego tłumaczenia rozwijanego za
gigantyczne pieniądze i przy gigantycznych zasobach.
Pochlebia mi, że krytycy
widzą we mnie kogoś, kto ma możliwości większe niż
warte miliardy dolarów międzynarodowe koncerny,
ale takim oczekiwaniom sprostać niestety nie jestem w stanie.
I ostatecznie może warto sobie zadać pytanie, czy naprawdę język śląski jest tak słaby. Jeżeli przez dwieście lat nie zniszczyły go machiny dwóch państw, to naprawdę miałby go zniszczyć translator, co przy nim sobie dłubie jeden typ? Bądźmy poważni.


