Рубрика: Информатика
Генеративната вештачка интелигенција нема кохерентно разбирање за светот
Објавено на 13.11.2024 - 15:00

Слика генерирана со ВИ

Големите јазични модели можат да прават импресивни работи, да пишуваат поезија или да генерираат функционални компјутерски програми, иако во основа овие модели се обучени да ги предвидуваат зборовите што следуваат во парче текст. Поради ваквите способности можеби ви се чини дека моделите индиректно учат за некои од општите вистини за светот. Но, тоа не е нужно така, открива една нова студија.

Истражувачите откриле дека популарен тип на генеративен модел на вештачка интелигенција може да обезбеди насоки за движење со автомобил низ Њујорк со речиси совршена точност, без притоа да се има на располагање точна карта на градот. Но, и покрај неверојатната способност на моделот да се движи ефикасно, кога истражувачите затвориле некои улици и додале неколку  заобиколувања, перформансите на ВИ драстично паднале.

По подлабоко разгледување на проблемот,  истражувачите откриле дека мапите на градот Њујорк што моделот имплицитно ги генерирал имале многу непостоечки улици сместени во планот  кои се поврзувале со далечни раскрсници. Ова може да има сериозни импликации за примената на генеративните модели на вештачка интелигенција во реалниот свет, бидејќи моделот што се чини дека добро функционира во еден контекст може да “падне” ако задачата или околината малку се изменат.

Апстрактен приказ на голем јазичен модел и негово разбирање за светот Слика генерирана со ВИ

„Една надеж е, со оглед на тоа што LLM (големите јазични модели) можат да ги постигнат сите овие неверојатни работи на јазично ниво, дека може да се употрбат истите овие алатки и во други делови од науката. Но, прашање дали LLM учат кохерентни световни модели е мошне важно ако сакаме да ги искористиме овие техники за постигнување на нови откритија“, вели постариот автор Ашеш Рамбачан, доцент по економија и главен истражувач во Лабораторијата за системи за информации и одлучување (LIDS) при МИТ. Меѓу другите автори на споменатиот труд се и Кејон Вафа, постдокторанд на Универзитетот Харвард; Џастин И. Чен, дипломиран студент по електротехника и компјутерски науки (EECS) на МИТ; Џон Клајнберг, Тиш универзитетски професор по компјутерски науки и информатички науки на Универзитетот Корнел; и Сендхил Муленатан, професор на МИТ на катедрите за EECS и  економија, и член на LIDS. Истражувањето ќе биде претставено на Конференцијата за системи за обработка на невронски информации, а трудот е веќе достапен на предпринт серверот arXiv.

Истражувачите се фокусирале на еден вид трансформерски модел на генеративна вештачка интелигенција. Трансформерите се обучуваат на огромна количина јазично засновани податоци со цел да го предвидат следниот токен во низата, како на пример следниот збор во една реченица. Но, ако научниците сакаат да утврдат дали LLM формирал точен модел на светот, мерењето на точноста на неговите предвидувања не е доволна, велат истражувачите. На пример, тие откриле дека трансформерот може да предвиди валидни потези во играта на Connect 4 речиси секој пат, без притоа да ги разбере правилата на играта. Затоа, тимот развил две нови метрики кои можат да го тестираат светскиот модел на трансформерот.

Истражувачите ги фокусирале своите проценки на класа на проблеми наречени детерминистички конечни автоматизации или DFA. DFA е проблем со низа состојби, како што се раскрсниците што треба да се поминат за да се стигне до дестинацијата, и конкретен начин на опишување на правилата што треба по пат да се следат. Тие избрале два проблема да ги формулираат како DFA: навигација по улиците во Њујорк и играње на стратегиската игра Отело.

Првата метрика што ја развиле, наречена дистинкција на секвенци, вели дека моделот формирал кохерентен светски модел ако гледа две различни состојби, како две различни табли на Отело, и препознава како тие се разликуваат. Секвенци, односно подредени листи на податочни точки, се она што трансформерите го користат за генерирање излезен одговор.

Втората метрика, наречена компресија на секвенца, вели дека трансформерот со кохерентен светски модел треба да знае дека две идентични состојби, како две идентични табли на Отело, имаат иста низа на можни следни чекори. Тие ги користеле овие метрики за тестирање на две вообичаени класи на трансформери, едната која е обучена за податоци генерирани од случајно произведени секвенции, а другата за податоци генерирани со следните стратегии. Изненадувачки, истражувачите откриле дека трансформерите кои правеле случајни избори формирале попрецизни световни модели, можеби затоа што виделе поширок спектар на потенцијални следни чекори за време на обуката.

И покрај тоа што трансформерите генерирале точни насоки и валидни движења на Отело во речиси секој пример, обете метрики откриле дека само една генерира кохерентен световен модел за потези во Отело, а ниту една не се покажала добра во формирањето кохерентни световни модели во примерот за пронаоѓање пат.

Истражувачите ги демонстрирале импликациите од оваа состојба со додавање на заобиколници во картата на Њујорк, што предизвикало грешки во сите навигациски модели.

Овие резултати покажуваат дека трансформерите можат изненадувачки добро да вршат одредени задачи без да ги разберат правилата. Ако научниците сакаат да изградат LLM кои можат да доловат точни световни модели, тие треба да заземат поинаков пристап, сметаат истражувачите.

Клучни зборови:
Слика генерирана со ВИ

Апстрактен приказ на голем јазичен модел и негово разбирање за светот Слика генерирана со ВИ

Слика генерирана со ВИ

Апстрактен приказ на голем јазичен модел и негово разбирање за светот Сликата е генерирана со ВИ