Anthropic: разработчики с AI кодят хуже на 17% | Sobes AI
S.
Sobes AI

Anthropic доказала: разработчики с AI кодят хуже на 17% — данные RCT

11.04.2026 | 5 мин чтения | 9 просмотров

Anthropic — компания, которая продаёт Claude Code и зарабатывает миллиарды на AI-копайлотах — в конце января выкатила исследование со своими же пользователями. Результат: разработчики, которые использовали AI-ассистент, показали на 17% хуже на кодинг-тесте, чем те, кто работал со старой доброй документацией. Это не байка из твиттера. Это рандомизированный контролируемый эксперимент с p-value 0.01.

Что именно проверили

52 профессиональных разработчика. Все писали на Python минимум год, 55% — больше семи лет. Исследователи Judy Hanwen Shen и Alex Tamkin взяли Trio — асинхронную Python-библиотеку, которую никто из участников раньше не трогал. Задача: разобраться с ней за 35 минут и решить две задачи.

Группы разделили так:

  • Контрольная: web search и документация.
  • Тестовая: GPT-4o в чате + всё то же самое.

После задач — квиз из 14 вопросов на понимание: чтение кода, дебаггинг, концепции.

Результат:

  • Контрольная группа: 20.1 балла из 27 (~67%)
  • AI-группа: 16 баллов из 27 (~50%)

Разница — 4.15 балла, p-value = 0.01. Авторы описывают её как "две буквенные оценки разницы". Это не шум. Это эффект.

Самое смешное: AI-группа сэкономила всего около двух минут. Статистически не значимо. Пока ты пишешь промпт и читаешь ответ, ты успеваешь прочитать два абзаца доки.

Где гэп самый жёсткий — дебаггинг

Отдельно авторы смотрели на вопросы про дебаггинг. Там разрыв был максимальным. Логика простая: если ты сам ловил ошибки Trio, ты понимаешь, почему они возникают. Если за тебя это делал GPT-4o, ты видел финальный рабочий код, но причину бага не понял.

А теперь посмотри, как это выглядит на live-coding собесе. Интервьюер сажает тебя на задачу, и первая ошибка — не в синтаксисе. Она в том, что ты не понимаешь, почему event loop блокируется, или почему connection pool протёк. И вот тут разработчик, который учился через делегирование, сыпется.

Это же подтверждают наблюдения из соседнего поста — vibe coding буквально убивает твои шансы на собесе, потому что ты не можешь отладить код, который не писал осознанно.

Шесть паттернов использования AI — три убивают тебя

Исследователи выделили шесть "персон" — по тому, как участники реально взаимодействовали с AI. Три из них показали результат ниже 40% на квизе:

  1. AI Delegation. "Напиши мне код для X". Код работает. Ты не понимаешь, почему.
  2. Progressive AI Reliance. Начал с уточняющих вопросов, потом соскользнул в делегирование. Самый распространённый паттерн.
  3. Iterative AI Debugging. Падает тест — кидаешь ошибку в чат — копируешь фикс. Повторяй, пока не заработает.

Если ты узнаёшь свой рабочий флоу хоть в одном из этих пунктов — ты в зоне риска.

Три паттерна, которые работают

Те же исследователи нашли три паттерна, где результат был 65–86% — выше, чем у контрольной группы без AI вообще:

  1. Generation-Then-Comprehension. AI выдаёт код, ты дальше пытаешь его вопросами: почему тут await, что будет, если убрать nursery, какой тут порядок исполнения.
  2. Hybrid Code-Explanation. Просишь сразу "напиши и объясни построчно". Фильтр включается на этапе чтения объяснения.
  3. Conceptual Inquiry. Код не просишь. Спрашиваешь только концепции. Ошибки решаешь руками. Эта группа, кстати, была второй по скорости в эксперименте.

Разница между проигрывающими и выигрывающими паттернами — не в том, используешь ли ты AI. А в том, кого ты делаешь главным: себя или модель.

Почему это напрямую про собесы

На собесе в 2026 интервьюер не проверяет, умеешь ли ты загуглить. Он проверяет, что остаётся в голове, когда тебя отрезают от инструментов. Большинство компаний на live-coding AI либо выключает, либо включает с подвохом — мы это разбирали в посте про 5 ошибок на AI-assisted собесе.

Есть второй слой. Компании всё чаще переводят разработчиков в роль валидатора AI-кода — про это было в builder vs validator. Но валидатор без понимания — это штамп "одобрено". А плохой валидатор опаснее, чем его отсутствие. Параллельное исследование IBM показало: разработчики с AI пишут 41% кода, и при этом количество production-инцидентов выросло на 23.5%.

Вывод простой: если твой AI-флоу попадает в три "плохих" паттерна, ты одновременно теряешь компетенцию, которую оценивает интервьюер, и не умеешь ловить баги в AI-коде — то, за что тебя и нанимают.

Что сделать прямо сейчас

Три конкретных изменения, которые не требуют героизма:

  1. Перестань просить код. На час в день переключайся в режим "только вопросы": концепции, трейс выполнения, что будет, если убрать эту строчку. Авторы исследования буквально нашли, что эта группа училась лучше всех.
  2. После любого AI-фикса — один вопрос. "Почему оригинальный код ломался?" Одна строка. Если не можешь объяснить ответ своими словами за 20 секунд — ты не понял, и на собесе это вылезет.
  3. Тренируй дебаг без AI. Раз в неделю бери сломанный сниппет и чини его только через print-дебаг и документацию. Больно. Но именно этот навык гэп в 17% и измеряет.

Цитата авторов, которую стоит приклеить на монитор: "AI-enhanced productivity is not a shortcut to competence". Продуктивность и компетенция — это две разные метрики, и AI оптимизирует только одну из них.

Если хочешь проверить, насколько у тебя просел дебаг-навык без AI — прогони мок-собес в Sobes AI. Интервьюер задаёт follow-up вопросы на понимание: не "напиши код", а "объясни, почему он работает". Именно тот режим, который в исследовании Anthropic показал лучший результат — и именно тот, который ждёт тебя на реальном live-coding. Подробнее про то, как встроить AI в подготовку правильно — в полном гайде по AI для собесов.

Готовитесь к собеседованию?

Sobes AI слушает вопросы интервьюера и генерирует ответы в реальном времени.

Скачать Sobes AI