Anthropic доказала: разработчики с AI кодят хуже на 17% — данные RCT
Anthropic — компания, которая продаёт Claude Code и зарабатывает миллиарды на AI-копайлотах — в конце января выкатила исследование со своими же пользователями. Результат: разработчики, которые использовали AI-ассистент, показали на 17% хуже на кодинг-тесте, чем те, кто работал со старой доброй документацией. Это не байка из твиттера. Это рандомизированный контролируемый эксперимент с p-value 0.01.
Что именно проверили
52 профессиональных разработчика. Все писали на Python минимум год, 55% — больше семи лет. Исследователи Judy Hanwen Shen и Alex Tamkin взяли Trio — асинхронную Python-библиотеку, которую никто из участников раньше не трогал. Задача: разобраться с ней за 35 минут и решить две задачи.
Группы разделили так:
- Контрольная: web search и документация.
- Тестовая: GPT-4o в чате + всё то же самое.
После задач — квиз из 14 вопросов на понимание: чтение кода, дебаггинг, концепции.
Результат:
- Контрольная группа: 20.1 балла из 27 (~67%)
- AI-группа: 16 баллов из 27 (~50%)
Разница — 4.15 балла, p-value = 0.01. Авторы описывают её как "две буквенные оценки разницы". Это не шум. Это эффект.
Самое смешное: AI-группа сэкономила всего около двух минут. Статистически не значимо. Пока ты пишешь промпт и читаешь ответ, ты успеваешь прочитать два абзаца доки.
Где гэп самый жёсткий — дебаггинг
Отдельно авторы смотрели на вопросы про дебаггинг. Там разрыв был максимальным. Логика простая: если ты сам ловил ошибки Trio, ты понимаешь, почему они возникают. Если за тебя это делал GPT-4o, ты видел финальный рабочий код, но причину бага не понял.
А теперь посмотри, как это выглядит на live-coding собесе. Интервьюер сажает тебя на задачу, и первая ошибка — не в синтаксисе. Она в том, что ты не понимаешь, почему event loop блокируется, или почему connection pool протёк. И вот тут разработчик, который учился через делегирование, сыпется.
Это же подтверждают наблюдения из соседнего поста — vibe coding буквально убивает твои шансы на собесе, потому что ты не можешь отладить код, который не писал осознанно.
Шесть паттернов использования AI — три убивают тебя
Исследователи выделили шесть "персон" — по тому, как участники реально взаимодействовали с AI. Три из них показали результат ниже 40% на квизе:
- AI Delegation. "Напиши мне код для X". Код работает. Ты не понимаешь, почему.
- Progressive AI Reliance. Начал с уточняющих вопросов, потом соскользнул в делегирование. Самый распространённый паттерн.
- Iterative AI Debugging. Падает тест — кидаешь ошибку в чат — копируешь фикс. Повторяй, пока не заработает.
Если ты узнаёшь свой рабочий флоу хоть в одном из этих пунктов — ты в зоне риска.
Три паттерна, которые работают
Те же исследователи нашли три паттерна, где результат был 65–86% — выше, чем у контрольной группы без AI вообще:
- Generation-Then-Comprehension. AI выдаёт код, ты дальше пытаешь его вопросами: почему тут await, что будет, если убрать nursery, какой тут порядок исполнения.
- Hybrid Code-Explanation. Просишь сразу "напиши и объясни построчно". Фильтр включается на этапе чтения объяснения.
- Conceptual Inquiry. Код не просишь. Спрашиваешь только концепции. Ошибки решаешь руками. Эта группа, кстати, была второй по скорости в эксперименте.
Разница между проигрывающими и выигрывающими паттернами — не в том, используешь ли ты AI. А в том, кого ты делаешь главным: себя или модель.
Почему это напрямую про собесы
На собесе в 2026 интервьюер не проверяет, умеешь ли ты загуглить. Он проверяет, что остаётся в голове, когда тебя отрезают от инструментов. Большинство компаний на live-coding AI либо выключает, либо включает с подвохом — мы это разбирали в посте про 5 ошибок на AI-assisted собесе.
Есть второй слой. Компании всё чаще переводят разработчиков в роль валидатора AI-кода — про это было в builder vs validator. Но валидатор без понимания — это штамп "одобрено". А плохой валидатор опаснее, чем его отсутствие. Параллельное исследование IBM показало: разработчики с AI пишут 41% кода, и при этом количество production-инцидентов выросло на 23.5%.
Вывод простой: если твой AI-флоу попадает в три "плохих" паттерна, ты одновременно теряешь компетенцию, которую оценивает интервьюер, и не умеешь ловить баги в AI-коде — то, за что тебя и нанимают.
Что сделать прямо сейчас
Три конкретных изменения, которые не требуют героизма:
- Перестань просить код. На час в день переключайся в режим "только вопросы": концепции, трейс выполнения, что будет, если убрать эту строчку. Авторы исследования буквально нашли, что эта группа училась лучше всех.
- После любого AI-фикса — один вопрос. "Почему оригинальный код ломался?" Одна строка. Если не можешь объяснить ответ своими словами за 20 секунд — ты не понял, и на собесе это вылезет.
- Тренируй дебаг без AI. Раз в неделю бери сломанный сниппет и чини его только через print-дебаг и документацию. Больно. Но именно этот навык гэп в 17% и измеряет.
Цитата авторов, которую стоит приклеить на монитор: "AI-enhanced productivity is not a shortcut to competence". Продуктивность и компетенция — это две разные метрики, и AI оптимизирует только одну из них.
Если хочешь проверить, насколько у тебя просел дебаг-навык без AI — прогони мок-собес в Sobes AI. Интервьюер задаёт follow-up вопросы на понимание: не "напиши код", а "объясни, почему он работает". Именно тот режим, который в исследовании Anthropic показал лучший результат — и именно тот, который ждёт тебя на реальном live-coding. Подробнее про то, как встроить AI в подготовку правильно — в полном гайде по AI для собесов.
Готовитесь к собеседованию?
Sobes AI слушает вопросы интервьюера и генерирует ответы в реальном времени.
Скачать Sobes AI