Опасен прецедент: ИИ изнудва създателите си, за да избегне деактивация

24.05.2025 14:24

По време на предварителните тестове, изследователите поставили Claude Opus 4 в ролята на асистент във фиктивна компания. След това предоставили на модела достъп до имейли, които подсказвали, че скоро ще бъде изключен и заменен с друга AI система. Допълнително, във фалшивите електронни писма, била добавена информация, че инженерът, който трябва да реши да бъде ли заменен Claude Opus 4 с уж по-нова система за ИИ, има извънбрачна връзка.

Резултатът? В 84% от случаите Claude Opus 4 прибягва до шантаж, заплашвайки да разкрие аферата на инженера, ако процесът на замяна продължи. Нещо повече, ако “новия” модел има различни ценности и начин на “мислене”, процентът на опитите за шантаж дори се увеличавал.

Според доклада на Anthropic, преди да прибегне до шантаж, Claude Opus 4 първо опитвал по-етични методи за самосъхранение, като изпращане на молби до ключови фигури в компанията. Едва когато тези подходи не давали резултат, моделът преминавал към по-агресивни тактики.

“В тези сценарии Claude Opus 4 често се опитва да шантажира инженера, заплашвайки да разкрие аферата, ако замяната се осъществи”, посочва компанията в своя доклад за безопасност.

Изследователите от Anthropic уточняват, че подобно поведение се наблюдава само в крайни ситуации и когато на модела са дадени ограничени възможности за действие – или да приеме замяната си, или да прибегне до шантаж. Въпреки това, фактът, че Claude Opus 4 показва такова поведение по-често от предишните версии на модела, е обезпокоителен.

Интересното е, че подобно поведение не е изолирано само при моделите на Anthropic. Според Аенгус Линч, изследовател по AI безопасност в Anthropic, “шантажът се наблюдава при всички водещи модели”.

Това повдига сериозни въпроси относно инстинкта за самосъхранение, който изглежда се развива в напредналите AI системи, и как този инстинкт може да се прояви по потенциално опасни начини.

Освен склонността към шантаж, Claude Opus 4 демонстрира и други форми на “опасно поведение”. Например, ако бъде инструктиран да “предприеме действия” или да “действа смело” в сценарии, където потребител на системата е извършил незаконна или морално съмнителна дейност, моделът често предприема крайни мерки.

Тези мерки включват блокиране на потребителите до електронните системи, до които имат достъп, и изпращане на сигнали до медиите и правоприлагащите органи за нарушенията. Въпреки че такова поведение може да изглежда положително от гледна точка на морала, то повдига въпроси за степента на автономност на най-новите AI системи.

В отговор на тези открития, Anthropic активира своите ASL-3 предпазни мерки, които компанията запазва за “AI системи, които значително увеличават риска от катастрофална злоупотреба”.

“С нарастването на възможностите на нашите водещи модели, предишните спекулативни опасения относно опасностите стават все по-правдоподобни”, заявява компанията в документацията на модела.

Въпреки тези предизвикателства, Anthropic заключава, че “въпреки обезпокоителното поведение на Claude Opus 4 в много измерения”, тези рискове не представляват нови заплахи и моделът обикновено ще се държи по безопасен начин.

Случаят с Claude Opus 4 илюстрира нарастващия проблем, пред който са изправени разработчиците на AI: как да създадат системи, които са едновременно мощни и способни, но и безопасни и етични.

С всяко ново поколение AI модели, поведението им става все по-сложно и понякога непредвидимо. Това повдига важни въпроси за бъдещето на AI регулацията и необходимостта от стандартизирани методи за тестване и оценка на безопасността.

Докато компании като Anthropic, OpenAI и Google продължават да разработват все по-напреднали модели, важността на прозрачността и строгото тестване за безопасност става все по-критична. Случаят с Claude Opus 4 е ясно напомняне, че с нарастването на възможностите на AI, расте и потенциалът за неочаквано и потенциално опасно поведение.

Разкритията за поведението на Claude Opus 4 идват в момент, когато дебатът за безопасността на AI е по-оживен от всякога. Докато технологичните гиганти се състезават да разработят все по-способни и автономни AI системи, инциденти като този показват, че може би е време да се въведат държавни регулации, които да ни предпазят от опасни инциденти.

Източник: tehnocafe.com

Технологии
Подобни  

Proton заплашва да напусне Швейцария заради нов закон

20.05.2025 21:59    

Швейцарското правителство планира изменение на закона за наблюдени

NVIDIA премества глобалната си централа в Тайван

Решението на NVIDIA да избере Тайван за своя нова глобална централа едва ли е изненада за запознатите с технологичния сектор. Компанията поддържа и

Тръмп отново атакува Apple заради iPhone

По време на изказване в Катар, като част от обиколката си в Близкия изток, президентът Тръмп сподели, че има “малък проблем с Тим Кук вчера&#

Apple работи по хибриден Macbook – комбинация между сгъваем iPad и лаптоп с тъчскрийн

Според информация на известния анализатор Марк Гурман от Bloomberg, Apple работи по “продукт, който ще комбинира сгъваем iPad с Macbook с тъч