Czy naprawdę możemy ogłosić, że polszczyzna „pokonała angielski” i stała się najlepszym językiem do pracy z AI? W ostatnich dniach polskie media społecznościowe buzują od zachwytu. Wystarczyło jedno zdanie wyrwane z kontekstu: „w badaniach amerykańskich naukowców polski okazał się najlepszym językiem dla sztucznej inteligencji”. Brzmi dumnie. Problem w tym, że prawda jest — jak zwykle — znacznie bardziej skomplikowana. Ktoś krzykną- najlepszy i już poszło. A jak by najpierw ktoś krzyknoł- nie nadaje się?
Co naprawdę zmierzono w badaniu ONERULER?
Źródłem internetowej euforii jest raport „One Ruler to Measure Them All” (Kim, Russell, Karpińska, Iyyer, 2025), opracowany przez Uniwersytet Maryland przy współpracy Microsoftu. To poważna, solidna praca, ale badająca tylko jeden, bardzo konkretny element działania modeli językowych:
➡ zdolność wyszukiwania informacji w ekstremalnie długich tekstach – nawet do 128 tys. tokenów (odpowiednik kilkuset stron książki).
Nie testowano:
kreatywności,
jakości rozmowy,
tłumaczeń,
stylu,
konstrukcji promptów,
logiki ani wnioskowania.
Mówimy wyłącznie o mechanicznej pamięci kontekstowej i „wyławianiu igły z ogromnego stogu siana”.
Na czym polegała przewaga polszczyzny?
W tym jednym typie zadania — needle-in-a-haystack — modele AI miały odnaleźć prostą informację ukrytą w ogromnym fragmencie tekstu.
W zestawieniu obejmującym 26 języków:
polski osiągnął średnio 88% poprawnych odpowiedzi,
angielski – 83,9% (6. miejsce),
chiński – 62,1% (jedno z ostatnich miejsc).
Co ciekawe, jak podkreślają sami autorzy raportu:
„Angielski nie jest najwyżej w naszym zestawieniu. Najskuteczniejszym językiem okazał się polski.”
Ale to tylko część historii.
Dlaczego polski mógł wypaść lepiej?
Badacze otwarcie przyznają, że nie ma jednoznacznego wyjaśnienia. Wskazują jednak trzy możliwe czynniki:
Tokenizacja – polski, jako język fleksyjny, może być dzielony na tokeny w sposób bardziej „regularny” niż języki logograficzne (jak chiński).
Zbieżności w danych treningowych – modele mogły być uczone na tekstach, które przypadkowo ułatwiły to konkretne zadanie.
Różne książki użyte jako kontekst — dla polskiego: Noce i dnie, dla angielskiego: Małe kobietki, dla niemieckiego: Czarodziejska Góra.
W praktyce oznacza to, że modele mogły…
➡ zwyczajnie lepiej radzić sobie z konkretną strukturą polskiego tekstu, a nie „z polszczyzną” jako taką.
Potwierdza to współautorka, Marzena Karpińska z Microsoft:
„Nie należy nadinterpretować wyników. Badanie nie dotyczyło jakości promptów, lecz precyzyjnego wyszukiwania informacji w długich tekstach.”
Czy to oznacza, że polski jest najlepszym językiem do pracy z AI?
Nie.
I naukowcy mówią o tym bardzo wyraźnie.
Modele na co dzień wykonują zadania:
kreatywne,
dialogowe,
analityczne,
tłumaczeniowe,
kodowe.
ONERULER sprawdzał jedynie wycinek jednego typu zdolności — i to przy ekstremalnych długościach tekstu, z którymi przeciętny użytkownik nie spotyka się nigdy.
W innych rodzajach testów:
angielski nadal bywa bardziej przewidywalny,
modele są lepiej dopracowane pod kątem danych anglojęzycznych,
różnice między językami bywają odwrotne.
Dlatego pytanie „który język jest najlepszy do promptów?” pozostaje bez jednoznacznej odpowiedzi.
Liczy się kontekst, zadanie, model i sposób formułowania polecenia.
Co z tego wynika dla użytkowników AI?
1. Nie ma jednego „najlepszego języka”
W zależności od zadania przewaga może leżeć po stronie:
angielskiego (kreatywność, kod, dokumentacja),
polskiego (często lepsze rozumienie kontekstu, krótkie odpowiedzi, streszczenia),
języków romańskich (stabilne wyniki w długich kontekstach).
2. Wyniki ONERULER to sygnał — nie dogmat
Badanie wskazuje, że języki fleksyjne mogą mieć ciekawe właściwości w kontekstach długich.
Ale aby cokolwiek ogłosić „prawdą naukową”, potrzeba:
kolejnych testów,
innych zadań,
większej próbki modeli.
3. Entuzjazm w mediach był… zrozumiałą przesadą
Wystarczyła jedna infografika — i zrobiło się z tego „polski jest najlepszy dla AI, kropka”. A to nieprawda.
Największy wniosek? To dopiero początek rozmowy
ONERULER pokazuje, że różne języki mogą zachowywać się w AI zupełnie inaczej, a ich struktura może wpływać na precyzję wyszukiwania informacji.
Nie oznacza to, że:
polski „pokonał angielski”,
polski jest najlepszym językiem do pisania promptów,
AI „lepiej myśli po polsku”.
Oznacza to coś znacznie ciekawszego:
– że modele jeszcze nie rozumieją wszystkich języków tak samo
– i że warto badać, jak ich architektura i tokenizacja wpływa na wyniki.
Dopiero ta wiedza pozwoli nam w przyszłości świadomie projektować narzędzia naprawdę wielojęzyczne.
Źródła
One Ruler to Measure Them All: Benchmarking Multilingual Long-Context Language Models, Kim, Russell, Karpińska, Iyyer (2025), University of Maryland & Microsoft.
Wypowiedź Marzeny Karpińskiej dla PAP (2025).
Analiza własna na podstawie dokumentu źródłowego przesłanego przez użytkownika. Dokument opublikowany do pobrania [strona]

