'Труење' на вештачката интелигенција – нов ризик во дигиталниот свет

Рубрика: Информатика

Автор: Ива Зафировска

Објавено на 28.10.2025 - 15:30

Вештачката интелигенција можеби наликува на совршена сигурна машина, но таа не е недопирлива. Новите извештаи покажуваат на можно 'труење' на системите со вештачка интелигенција, што ја прави една од најопасните манипулации со технологијата со потенцијално сериозни последици, не само за оние што ја користат вештачката интелигенција, туку и за општеството како целина.

Вметнувањето на само неколку стотици злонамерни датотеки во огромниот басен од збирки на податоци за вештачка интелигенција може да предизвика моделот да се ‘затруе’ или да се однесува на неочекуван и потенцијално штетен начин. Вака барем тврди неодамнешната заедничка анализа на неколку институти за безбедност на вештачката интелигенција.

Труењето со вештачка интелигенција вклучува намерно воведување на погрешни податоци при процесот на обука, така што моделот на вештачка интелигенција учи погрешни информации и подоцна создава грешки во своето работење. На техничко ниво, овој процес може да се случи за време на обуката (труење на податоците) или по неа (труење на моделот), но во двата случаи резултатот е ист – системот на вештачка интелигенција се однесува неправилно.

Постојат различни форми на вакви напади. Кај директните, таканаречени насочени напади, моделот е обучен да одговори на специфичен активирач (обично збор или код) што подоцна активира скриено однесување. На пример, моделот може нормално да одговара на прашања, но кога ќе препознае одреден збор, одеднаш дава несоодветен или неточен одговор. Индиректните напади, од друга страна, имаат за цел постепено да ја поткопаат доверливоста на моделот со тоа што му даваат пристрасни или лажни информации сè додека не ги прифати како вистинити.

Еден од наједноставните примери е ширењето на лажни веб-страници со лажни тврдења, како на пример ‘Зелената салата лечи рак’. Ако моделот собира податоци од такви извори, тој може несвесно да почне да шири дезинформации како да се научно исправни.

Студиите покажаа дека дури и минимална количина од вакви промени, како што е една неточна информација на милион токени (основната единица на текст што ја користи вештачката интелигенција за обработка на јазик), може значително да влијае на точноста и веродостојноста на резултатите.

Друг експеримент, во кој беше создаден намерно компромитиран модел наречен PoisonGPT, покажа колку лесно ваквите системи можат да шират лажни информации, а да изгледаат целосно легитимни. Покрај ризикот од дезинформации, отруените модели можат да ја загрозат и безбедноста на корисниците, бидејќи можат да откријат лични податоци или да обезбедат пристап до чувствителни информации.

Од друга страна, некои уметници го користат затрујувањето на податоците како средство за одбрана, со намерно вметнување неточни елементи во своите дела за да ги спречат моделите на вештачка интелигенција нелегално да ја користат нивната содржина. Сето ова укажува дека, и покрај општиот впечаток дека вештачката интелигенција е непогрешлива и сè помоќна, оваа технологија во суштина останува многу чувствителна и подложна на манипулација, заклучува The Conversation.

Клучни зборови:

вештачка интелигенција
труење
промпт
кибер криминал
заштита