Anthropic: разработчики с AI кодят хуже на 17%

Anthropic — компания, которая продаёт Claude Code и зарабатывает миллиарды на AI-копайлотах — в конце января выкатила исследование со своими же пользователями. Результат: разработчики, которые использовали AI-ассистент, показали на 17% хуже на кодинг-тесте, чем те, кто работал со старой доброй документацией. Это не байка из твиттера. Это рандомизированный контролируемый эксперимент с p-value 0.01.

Что именно проверили

52 профессиональных разработчика. Все писали на Python минимум год, 55% — больше семи лет. Исследователи Judy Hanwen Shen и Alex Tamkin взяли Trio — асинхронную Python-библиотеку, которую никто из участников раньше не трогал. Задача: разобраться с ней за 35 минут и решить две задачи.

Группы разделили так:

Контрольная: web search и документация.
Тестовая: GPT-4o в чате + всё то же самое.

После задач — квиз из 14 вопросов на понимание: чтение кода, дебаггинг, концепции.

Результат:

Контрольная группа: 20.1 балла из 27 (~67%)
AI-группа: 16 баллов из 27 (~50%)

Разница — 4.15 балла, p-value = 0.01. Авторы описывают её как "две буквенные оценки разницы". Это не шум. Это эффект.

Самое смешное: AI-группа сэкономила всего около двух минут. Статистически не значимо. Пока ты пишешь промпт и читаешь ответ, ты успеваешь прочитать два абзаца доки.

Где гэп самый жёсткий — дебаггинг

Отдельно авторы смотрели на вопросы про дебаггинг. Там разрыв был максимальным. Логика простая: если ты сам ловил ошибки Trio, ты понимаешь, почему они возникают. Если за тебя это делал GPT-4o, ты видел финальный рабочий код, но причину бага не понял.

А теперь посмотри, как это выглядит на live-coding собесе. Интервьюер сажает тебя на задачу, и первая ошибка — не в синтаксисе. Она в том, что ты не понимаешь, почему event loop блокируется, или почему connection pool протёк. И вот тут разработчик, который учился через делегирование, сыпется.

Это же подтверждают наблюдения из соседнего поста — vibe coding буквально убивает твои шансы на собесе, потому что ты не можешь отладить код, который не писал осознанно.

Шесть паттернов использования AI — три убивают тебя

Исследователи выделили шесть "персон" — по тому, как участники реально взаимодействовали с AI. Три из них показали результат ниже 40% на квизе:

AI Delegation. "Напиши мне код для X". Код работает. Ты не понимаешь, почему.
Progressive AI Reliance. Начал с уточняющих вопросов, потом соскользнул в делегирование. Самый распространённый паттерн.
Iterative AI Debugging. Падает тест — кидаешь ошибку в чат — копируешь фикс. Повторяй, пока не заработает.

Если ты узнаёшь свой рабочий флоу хоть в одном из этих пунктов — ты в зоне риска.

Три паттерна, которые работают

Те же исследователи нашли три паттерна, где результат был 65–86% — выше, чем у контрольной группы без AI вообще:

Generation-Then-Comprehension. AI выдаёт код, ты дальше пытаешь его вопросами: почему тут await, что будет, если убрать nursery, какой тут порядок исполнения.
Hybrid Code-Explanation. Просишь сразу "напиши и объясни построчно". Фильтр включается на этапе чтения объяснения.
Conceptual Inquiry. Код не просишь. Спрашиваешь только концепции. Ошибки решаешь руками. Эта группа, кстати, была второй по скорости в эксперименте.

Разница между проигрывающими и выигрывающими паттернами — не в том, используешь ли ты AI. А в том, кого ты делаешь главным: себя или модель.

Почему это напрямую про собесы

На собесе в 2026 интервьюер не проверяет, умеешь ли ты загуглить. Он проверяет, что остаётся в голове, когда тебя отрезают от инструментов. Большинство компаний на live-coding AI либо выключает, либо включает с подвохом — мы это разбирали в посте про 5 ошибок на AI-assisted собесе.

Есть второй слой. Компании всё чаще переводят разработчиков в роль валидатора AI-кода — про это было в builder vs validator. Но валидатор без понимания — это штамп "одобрено". А плохой валидатор опаснее, чем его отсутствие. Параллельное исследование IBM показало: разработчики с AI пишут 41% кода, и при этом количество production-инцидентов выросло на 23.5%.

Вывод простой: если твой AI-флоу попадает в три "плохих" паттерна, ты одновременно теряешь компетенцию, которую оценивает интервьюер, и не умеешь ловить баги в AI-коде — то, за что тебя и нанимают.

Что сделать прямо сейчас

Три конкретных изменения, которые не требуют героизма:

Перестань просить код. На час в день переключайся в режим "только вопросы": концепции, трейс выполнения, что будет, если убрать эту строчку. Авторы исследования буквально нашли, что эта группа училась лучше всех.
После любого AI-фикса — один вопрос. "Почему оригинальный код ломался?" Одна строка. Если не можешь объяснить ответ своими словами за 20 секунд — ты не понял, и на собесе это вылезет.
Тренируй дебаг без AI. Раз в неделю бери сломанный сниппет и чини его только через print-дебаг и документацию. Больно. Но именно этот навык гэп в 17% и измеряет.

Цитата авторов, которую стоит приклеить на монитор: "AI-enhanced productivity is not a shortcut to competence". Продуктивность и компетенция — это две разные метрики, и AI оптимизирует только одну из них.

Если хочешь проверить, насколько у тебя просел дебаг-навык без AI — прогони мок-собес в Sobes AI. Интервьюер задаёт follow-up вопросы на понимание: не "напиши код", а "объясни, почему он работает". Именно тот режим, который в исследовании Anthropic показал лучший результат — и именно тот, который ждёт тебя на реальном live-coding. Подробнее про то, как встроить AI в подготовку правильно — в полном гайде по AI для собесов.

Anthropic доказала: разработчики с AI кодят хуже на 17% — данные RCT

Что именно проверили

Где гэп самый жёсткий — дебаггинг

Шесть паттернов использования AI — три убивают тебя

Три паттерна, которые работают

Почему это напрямую про собесы

Что сделать прямо сейчас

Готовитесь к собеседованию?

Читайте также из этой серии

Новый формат собеса в 2026: тебе дают AI-код и просят найти, что там сломано

71% нанимающих менеджеров признали: техническое собеседование больше не работает

22% кандидатов читерят на технических тестах. Вот как компании их ловят