AI коригира само половината грешки в кода

11.04.2025 13:50
Коригирането на софтуерни грешки от AI е далеч от нивото, което човек би очаквал от опитни програмисти (снимка: CC0 Public Domain)

Тестването на моделите с изкуствен интелект е извършено на базата на най-добрия бенчмарк SWE-bench, който измерва способността на AI системите да създават програмен код. Оказва се, че дори топ AI модели като OpenAI (o1) и Anthropic (Claude 3.7 Sonnet) се справят само с половината от грешките.

По време на експеримента на AI агентите е възложено да решат 300 задачи за премахване на грешки в кода. Лидер е моделът Claude 3.7 Sonnet, който има успеваемост от 48,4%, следван от OpenAI o1 (30,2%) и o3-mini (22,1%).

Подобна ефективност в коригирането на софтуерни грешки е далеч от нивото, което човек би очаквал от опитни програмисти. Основният проблем, според TechCrunch, е, че изкуственият интелект все още не разбира как да използва наличните инструменти и да интерпретира грешките.

Ключова пречка остава липсата на данни за обучение на моделите. „Ние силно вярваме, че обучението или преквалификацията може да ги направи [AI моделите] по-добри интерактивни програми за отстраняване на грешки”, отбелязват авторите на изследването. „Това обаче изисква специализирани данни, например верига от записи на всички процеси на взаимодействие между хора и AI дебъгери”.

В момента такива данни са недостатъчни, което ограничава възможностите на AI моделите. Например, популярният инструмент Devin от стартиращата компания Cognition Labs се справя само с три от 20 теста за кодиране именно по тази причина.

И докато AI се използва силно от компании като Google, главният изпълнителен директор на компанията Сундар Пичай казва, че една четвърт от кода, създаден с помощта на изкуствен интелект, всъщност може да въведе грешки.

Технологичните лидери са скептични относно пълната автоматизация на програмирането. Бил Гейтс е убеден, че програмирането като професия със сигурност няма да изчезне. Подобни мнения споделят главният изпълнителен директор на Replit Амджад Масад, шефът на Okta Тод Маккинън и CEO-то на IBM Арвинд Кришна.

Въпреки очевидните предизвикателства, интересът към инструментите за разработка на AI продължава да расте. Инвеститорите виждат потенциал за повишаване на ефективността, но водещи разработчици смятат, че е твърде рано да се доверят изцяло на изкуствения интелект.

Източник: technews.bg

AI модели Microsoft изкуствен интелект коригиране на код програмиране
Технологии
Подобни  

Заключение

26.05.2025 19:10    

За начинаещите специалисти с образование в сферата на компютърните

Опасен прецедент: ИИ изнудва създателите си, за да избегне деактивация

По време на предварителните тестове, изследователите поставили Claude Opus 4 в ролята на асистент във фиктивна компания. След това предоставили на

Proton заплашва да напусне Швейцария заради нов закон

Швейцарското правителство планира изменение на закона за наблюдение, което според експерти създава сериозни рискове за сигурността на криптирането

NVIDIA премества глобалната си централа в Тайван

Решението на NVIDIA да избере Тайван за своя нова глобална централа едва ли е изненада за запознатите с технологичния сектор. Компанията поддържа и