Кога големите јазични модели од вештачката интелигенција (АИ) се обучуваат на податоци генерирани од машина, наместо на луѓе, тоа доведува до колапс на моделот, се вели во студијата на британски и американски истражувачи што се појави неодамна на предпринт серверот arxiv.org.
„Со други зборови, употребата на [големи јазични модели] за објавување содржина на Интернет ќе го загади собирањето податоци за нивно обучување“, се вели во трудот. Ова претставува проблем за обуката на генеративна вештачка интелигенција во иднина, бидејќи сѐ повеќе текст и синтетички податоци генерирани од вештачка интелигенција се објавуваат на интернет.
Големите јазични модели како Open AI's ChatGPT и Alphabet's Bard првично беа обучени со користење претежно генериран текст од луѓе, избришан од Интернет и фино подесен со помош на дополнителни човечки информации. Но, сè повеќе онлајн содржини се создаваат и од самите модели со вештачка интелигенција.
Кога авторите Илија Шумаилов и Захар Шумајлов разговарале на тема големи јазични модели, тие се запрашале дали зголемената употреба на вештачки (машински генерирани) податоци што се користат во обуката може да предизвика проблеми за моделите во иднина. Според Шумаилов се чини дека тоа е сосема извесно. Имено, кога моделите со вештачка интелигенција учат од податоци генерирани од машина, а не од човечки, „се случува голема деградација по само неколку повторувања, дури и кога некои од оригиналните податоци се зачувани“, вели тој.
Грешки од несовршености во оптимизацијата, ограничените модели и конечните податоци на крајот предизвикуваат синтетичките податоци да бидат со (по)низок квалитет. Со текот на времето, грешките се сложени и на крајот ги принудуваат моделите кои учат од генерираните податоци дополнително погрешно да ја перцепираат реалноста.
Истражувачите велат дека проблемот постои за сите форми на генеративна вештачка интелигенција.
„Колапсот на моделот е феномен кој влијае на секој модел обучен на синтетички податоци“, вели Шумаилов.
„Откриваме дека учењето од податоци произведени од други модели предизвикува колапс на моделот – дегенеративен процес при кој, со тек на време, моделите забораваат на вистинската основна дистрибуција на податоците, дури и во отсуство на промена во дистрибуцијата со текот на времето“, пишуваат авторите.
Шумаилов го објаснува концептот на колапс на моделот користејќи аналогија на слики од кучиња.
Размислете за сценарио каде што имаме модел кој генерира слики од куче, а почетната база на податоци се состои од 10 кучиња со сини очи и 90 кучиња со жолти очи. По обуката на нашиот првичен модел, тој станува доста умешен во учењето од податоците, иако не совршен. Поради доминација на жолтооки кучиња во комплетот за обука, моделот ненамерно ги менува сините очи за да изгледаат малку позеленикаво. Последователно, го користиме овој модел за да генерираме нови кучиња и да ги споделиме на социјалните мрежи. Во овој момент, некој одлучува да го исчисти интернетот за слики од кучиња, вклучувајќи ги и генерираните. Тие извлекуваат 10 кучиња со сини очи кои сега изгледаат малку помалку сини и повеќе зелени, заедно со 90 кучиња со жолти очи. Тие потоа тренираат нов модел користејќи ги овие податоци, што доведува до сличен исход. Бидејќи поголемиот дел од податоците опфаќаат кучиња со жолти очи, моделот станува повешт во нивно претставување, додека неговата способност да ги разбира и претставува кучињата со сини очи се намалува.
„Со текот на времето, ова разбирање на малцинската група се влошува, напредувајќи од сино во сино-зелено, потоа зелено и на крајот жолто-зелено пред конечно да доведе до целосно губење или искривена перцепција на оваа информација. Овој феномен е колапс на моделот“.
За да се спречи тоа, Шумаилов вели дека е важно да се осигура дека малцинските групи од оригиналните податоци се прилично претставени во следните збирки на податоци, не само во однос на количината (на пример, 10 слики), туку и во однос на нивните карактеристични атрибути (на пр., синооки).
„Обуката за податоци во кои има грешки предизвикува моделите да ги научат овие грешки и погрешно да ја разберат реалноста. Со текот на времето овие недоразбирања се влошуваат“, вели Шумаилов.
Трудот укажува дека може да биде битно зачувувањето на податоците за обука генерирани од човек („произлезени од Интернет пред масовното усвојување на технологијата“), особено податоците што вклучуваат помалку веројатни појави, од каде ќе може да се учат следните модели.
Тој вели дека она што е најважно кога станува збор за избегнување на колапс на моделот е да се има пристап до податоците од „опашките на дистрибуцијата“. Компаниите и ентитетите кои сакаат да обучуваат модели на вештачка интелигенција во иднина ќе треба да „потрошат доволно ресурси за собирање податоци и прибелешки за да се осигураат дека нивните идни модели можат ефективно да учат“.