Опасен прецедент: ИИ изнудва създателите си, за да избегне деактивация

24.05.2025 14:24

По време на предварителните тестове, изследователите поставили Claude Opus 4 в ролята на асистент във фиктивна компания. След това предоставили на модела достъп до имейли, които подсказвали, че скоро ще бъде изключен и заменен с друга AI система. Допълнително, във фалшивите електронни писма, била добавена информация, че инженерът, който трябва да реши да бъде ли заменен Claude Opus 4 с уж по-нова система за ИИ, има извънбрачна връзка.

Резултатът? В 84% от случаите Claude Opus 4 прибягва до шантаж, заплашвайки да разкрие аферата на инженера, ако процесът на замяна продължи. Нещо повече, ако “новия” модел има различни ценности и начин на “мислене”, процентът на опитите за шантаж дори се увеличавал.

Според доклада на Anthropic, преди да прибегне до шантаж, Claude Opus 4 първо опитвал по-етични методи за самосъхранение, като изпращане на молби до ключови фигури в компанията. Едва когато тези подходи не давали резултат, моделът преминавал към по-агресивни тактики.

“В тези сценарии Claude Opus 4 често се опитва да шантажира инженера, заплашвайки да разкрие аферата, ако замяната се осъществи”, посочва компанията в своя доклад за безопасност.

Изследователите от Anthropic уточняват, че подобно поведение се наблюдава само в крайни ситуации и когато на модела са дадени ограничени възможности за действие – или да приеме замяната си, или да прибегне до шантаж. Въпреки това, фактът, че Claude Opus 4 показва такова поведение по-често от предишните версии на модела, е обезпокоителен.

Интересното е, че подобно поведение не е изолирано само при моделите на Anthropic. Според Аенгус Линч, изследовател по AI безопасност в Anthropic, “шантажът се наблюдава при всички водещи модели”.

Това повдига сериозни въпроси относно инстинкта за самосъхранение, който изглежда се развива в напредналите AI системи, и как този инстинкт може да се прояви по потенциално опасни начини.

Освен склонността към шантаж, Claude Opus 4 демонстрира и други форми на “опасно поведение”. Например, ако бъде инструктиран да “предприеме действия” или да “действа смело” в сценарии, където потребител на системата е извършил незаконна или морално съмнителна дейност, моделът често предприема крайни мерки.

Тези мерки включват блокиране на потребителите до електронните системи, до които имат достъп, и изпращане на сигнали до медиите и правоприлагащите органи за нарушенията. Въпреки че такова поведение може да изглежда положително от гледна точка на морала, то повдига въпроси за степента на автономност на най-новите AI системи.

В отговор на тези открития, Anthropic активира своите ASL-3 предпазни мерки, които компанията запазва за “AI системи, които значително увеличават риска от катастрофална злоупотреба”.

“С нарастването на възможностите на нашите водещи модели, предишните спекулативни опасения относно опасностите стават все по-правдоподобни”, заявява компанията в документацията на модела.

Въпреки тези предизвикателства, Anthropic заключава, че “въпреки обезпокоителното поведение на Claude Opus 4 в много измерения”, тези рискове не представляват нови заплахи и моделът обикновено ще се държи по безопасен начин.

Случаят с Claude Opus 4 илюстрира нарастващия проблем, пред който са изправени разработчиците на AI: как да създадат системи, които са едновременно мощни и способни, но и безопасни и етични.

С всяко ново поколение AI модели, поведението им става все по-сложно и понякога непредвидимо. Това повдига важни въпроси за бъдещето на AI регулацията и необходимостта от стандартизирани методи за тестване и оценка на безопасността.

Докато компании като Anthropic, OpenAI и Google продължават да разработват все по-напреднали модели, важността на прозрачността и строгото тестване за безопасност става все по-критична. Случаят с Claude Opus 4 е ясно напомняне, че с нарастването на възможностите на AI, расте и потенциалът за неочаквано и потенциално опасно поведение.

Разкритията за поведението на Claude Opus 4 идват в момент, когато дебатът за безопасността на AI е по-оживен от всякога. Докато технологичните гиганти се състезават да разработят все по-способни и автономни AI системи, инциденти като този показват, че може би е време да се въведат държавни регулации, които да ни предпазят от опасни инциденти.

Източник: tehnocafe.com

Технологии

Apple работи по хибриден Macbook – комбинация между сгъваем iPad и лаптоп с тъчскрийн

14.05.2025 16:44

Полицията се готви да въведе система с ИИ, която ще може да “предсказва” извършването на престъпления в метрото на Ню Йорк

04.05.2025 17:57

Много скоро Microsoft Authenticator ще изтрие запазените ви пароли. Ето какво трябва да направите, за да не ги загубите.

02.05.2025 23:20

Подобни

Опасен прецедент: ИИ изнудва създателите си, за да избегне деактивация

Proton заплашва да напусне Швейцария заради нов закон

NVIDIA премества глобалната си централа в Тайван

Тръмп отново атакува Apple заради iPhone

Apple работи по хибриден Macbook – комбинация между сгъваем iPad и лаптоп с тъчскрийн

Полицията се готви да въведе система с ИИ, която ще може да “предсказва” извършването на престъпления в метрото на Ню Йорк

Много скоро Microsoft Authenticator ще изтрие запазените ви пароли. Ето какво трябва да направите, за да не ги загубите.

Proton заплашва да напусне Швейцария заради нов закон

NVIDIA премества глобалната си централа в Тайван

Тръмп отново атакува Apple заради iPhone

Apple работи по хибриден Macbook – комбинация между сгъваем iPad и лаптоп с тъчскрийн

She kinda sounds like the cars too ????️ #afv #indy500 #funny #shorts