Брзиот развој на вештачката интелигенција (ВИ) во последно време донесе импресивни резултати, вклучувајќи го и неодамнешниот успех на OpenAI во решавањето на 80 години стар математички предизвик поставен од Пол Ердош. Меѓутоа, кога пред моделите на ВИ ќе се постават досега невидени, комплексни проблеми од истражувачко ниво, нивната моќ на заклучување сè уште заостанува зад врвните човечки умови.
Ова се резултатите од најригорозниот математички тест преземен досега, коишто беа објавени на 10 јуни во рамките на проектот First Proof. Целта на овој проект е објективно да ја процени способноста на ВИ за решавање на сложени математички проблеми преку задоволување на три клучни услова: задачите мора да бидат од истражувачки ранг, не смеат да бидат дел од податоците за обука на моделите и крајната оценка анонимно ја даваат врвни математичари.

Тајни задачи и автономен предизвик
За разлика од претходниот пробен тест во февруари, каде што резултатите не беа официјално проверени и постоеше сомнеж за човечка помош, овој пат организаторите применија строго контролиран систем. Десет истражувачи од различни математички области придонесоа со проблеми кои самите ги решиле во текот на своите истражувања, но никаде не ги објавиле – ниту во литература, ниту на интернет. Со тоа целосно бил елиминиран ризикот моделите едноставно да ги репродуцираат веќе научените информации.
Правилата налагаа користење на јавно достапни модели, па така напредните внатрешни системи како Aletheia на Google и неформалната верзија на Claude Mythos (Anthropic) биле исклучени од тестот. Како единствен голем технолошки гигант директно учествувал OpenAI со својот модел ChatGPT 5.5 Pro. Останатите три натпреварувачи биле академски тимови од Универзитетот во Калифорнија, Лос Анџелес (UCLA), Принстон и Швајцарскиот федерален институт за технологија (ETH) во Цирих. Овие тимови изградиле сопствени автоматизирани системи (т.н. harnesses) врз основа на постоечките четботови, овозможувајќи им на моделите меѓусебно да си ги проверуваат и подобруваат одговорите.
Тимската соработка со ВИ носи победа
Најдобар резултат постигнал тимот на ETH Цирих, кој успеал да реши 6 од вкупно 10 проблеми. Нивната тајна се состоела во систем којшто ги контролира и усовршува одговорите на ChatGPT со “советодавен совет“ составен од трите најголеми комерцијални четботови. Второто место го зазеде тимот на UCLA, по што следеа самостојниот ChatGPT 5.5 Pro на OpenAI и тимот на Принстон (кој примарно го користеше Gemini 3.1 Pro).
Табелата изгледа вака:
• 1 место – ETH Цирих (Мулти-моделен совет + ChatGPT) со решени 6 од 10 задачи
• 2 место – UCLA (Систем заснован врз ChatGPT) со решени 4 од 10 задачи
• 3 место – OpenAI (Самостоен ChatGPT 5.5 Pro) со решени 3 од 10 задачи
• 4 место – Принстон (Систем заснован врз Gemini 3.1 Pro) со решени 2 од 10 задачи
Каде потфрли вештачката интелигенција?
Три проблема останале нерешливи за сите четири системи. Според Јоханес Шмит од ETH Цирих, на моделите најчесто им недостигала „уште една критична и неочекувана идеја којашто човекот ја користи за да го премости последниот чекор“, или пак самата архитектура на пристапот била добра, но системите се губеле во деталите. Математичарката Лорен Вилијамс од Универзитетот Харвард појаснува дека нерешените задачи едноставно биле премногу оддалечени од она што веќе постои во објавената литература.
Дополнително, моделите покажале сериозен проблем со „халуцинации“ и фрапирачки недостиг од цитати. Кај одредени задачи, вештачката интелигенција буквално препишувала фрази, специфични нотации и терминологија од постари трудови за да го адаптира решението, но ниту еднаш не го навела изворот.
И покрај моменталните ограничувања, тимот на First Proof смета дека идните верзии на овој тест ќе бидат клучен репер за развојот на ВИ. Целта не е вештачката интелигенција да ги замени луѓето, туку да стане доверлив асистент што самостојно ќе проверува докази и ќе им помага на математичарите во нивните истражувања. Притисокот сега е префрлен кај технолошките лаборатории, кои несомнено ќе ги искористат овие објавени задачи за да ја тестираат вистинската граница на своите затворени модели.
Извор Nature