
Egzamin dla sztucznej inteligencji
Egzamin dla sztucznej inteligencji. FrontierMath sprawdza granice maszynowego rozumowania Sztuczna inteligencja coraz lepiej radzi sobie z zadaniami matematycznymi – ale tylko do pewnego poziomu. Aby sprawdzić, czy modele językowe potrafią myśleć jak prawdziwi matematycy, powstał projekt FrontierMath, koordynowany przez firmę Epoch AI. W inicjatywie wziął udział dr Bartosz Naskręcki z Uniwersytetu im. Adama Mickiewicza w Poznaniu, który współtworzył najtrudniejszy poziom testu – Tier 4. To właśnie tam umieszczono zadania, których rozwiązanie wymaga wiedzy eksperckiej i miesięcy pracy. – „Odpowiedzią miała być bardzo duża liczba, aby model nie mógł jej przypadkiem zgadnąć. Włożyłem w to zadanie całe 15 lat mojej pracy…