Не выключайте прослушку: CoT и интерпретируемость

8/4/2025

В июле 2025 года вышла важная работа о безопасности AI, в которой больше 40 авторов, причём спектр аффилиаций очень широкий: OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research… Среди авторов — легенда глубокого обучения Йошуа Бенджи, Войцех Заремба, Даниэль Кокотайло, знаменитые “AI-безопасники” Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди “expert endorsers” — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер… На чём же все они смогли единогласно сойтись?

Что такое CoT и почему это важно

Chain of Thought (CoT, цепочки рассуждений) — это способность языковых моделей “думать вслух”, последовательно излагая свои рассуждения на естественном языке перед тем, как дать финальный ответ. Если раньше модели вроде ChatGPT просто порождали текст слово за словом, то новое поколение рассуждающих моделей (reasoning models), начиная с OpenAI o1 и далее везде, специально обучается проводить расширенные рассуждения в текстовом виде. Грубо говоря, CoT — это листочек для записей, который дают моделям, чтобы они записывали промежуточные шаги и гипотезы, которые не обязательно войдут в окончательный ответ для пользователя.

Весь смысл статьи “Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety” сводится к тому, чтобы сказать разработчикам лучших LLM в мире: не отказывайтесь от простого советского человекочитаемого CoT! Почему этот вопрос вдруг стал актуальным, почему человекочитаемый CoT — это так важно, и что может прийти ему на смену?

Немного об интерпретируемости

По мере роста возможностей AI-систем растут и связанные с ними риски. Одна из ключевых проблем безопасности — непрозрачность того, как именно модели принимают решения. Мы видим входные данные и результат, но процесс между ними остаётся “чёрным ящиком”, теми самыми “giant inscrutable matrices”, о которых в своё время любил рассуждать Элиэзер Юдковский. И чем больше у модели возможностей, тем больше потенциальный негативный эффект от неправильных её решений. Чем ты сильнее, тем больше ты можешь сломать; и, конечно, сейчас уже есть о чём тревожиться, ведь речь идёт о системах, способных на сложное планирование, написание кода или принятие важных решений.

Поэтому одно из центральных направлений AI safety — это как раз интерпретируемость (interpretability). Я недавно писал об этом большой пост, а Дарио Амодеи — эссе “The Urgency of Interpretability“; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое.

Традиционные подходы к интерпретируемости AI, в частности механистическая интерпретируемость (mechanistic interpretability), которая пытается понять, как работают нейронные сети на уровне отдельных нейронов и небольших схем, из них составленных (её как раз активно развивает Anthropic, а я подробно обсуждаю в том посте), довольно быстро прогрессируют в последнее время. Это как раз то направление, из которого год назад получился “Golden Gate Claude“:

Но всё-таки успехи там далеко не полные, мы можем иногда кое-что заметить, но до полного понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.

Как CoT помогает безопасности AI

И вот появляется chain-of-thought “блокнотик для записей”, который даёт максимально прямой путь: если модель “думает” на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!

Авторы статьи утверждают (и это в целом бесспорное утвеждение), что мониторинг CoT представляет собой уникальную возможность для обеспечения безопасности AI-систем. Они приводят немало убедительных примеров.

Вот Meincke et al. (2024) рассказывают о том, что модели уже способны на in-context scheming (преследовать скрытые цели, не признаваясь в этом), но CoT в этой работе всегда всё выдаёт:

А Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно:

Кажется, что это восхитительная возможность, которой надо пользоваться как можно больше.

Почему CoT может испортиться

Однако эта возможность хрупка. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.

  • Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку “языки” для своих рассуждений. Это давно известный эффект; тот же первый автор ещё в 2022 году написал статью о том, что если дообучать обычную LLM (тогда рассуждающих и вовсе ещё не было) с наградами на основе исходов, а не текстов, то язык становится всё менее читаемым (Korbak et al., 2022).
  • Оптимизация CoT, и прямая, и непрямая, портит его. Попытки сделать рассуждения короче или “безопаснее” могут привести к тому, что они перестанут отражать реальный процесс мышления модели. Здесь главные потенциальные виновники — варианты process reward models (моделей, оценивающих путь к решению в RL, а не только ответ), которые будут следить за тем, чтобы LLM не совершали “мыслепреступлений”; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде, а нужную информацию передадут как-нибудь иначе. Такие примеры уже известны, и даже непрямая оптимизация вроде “давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки” тоже может привести к обфускации CoT (Baker et al., 2025).
  • Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в “блокнотике”. Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).

Что же делать?

Korbak et al. (2025) формулируют несколько конкретных рекомендаций, к которым лично я могу только присоединиться:

  • Разработать эффективные метрики для того, насколько возможно следить за CoT, то есть создать стандартизированные тесты для оценки того, насколько цепочки рассуждений действительно отражают процесс “мышления” модели.
  • Публиковать результаты оценок — включать информацию о возможностях мониторинга в технические отчёты о моделях.
  • Учитывать эту возможность при принятии решений — рассматривать способность к мониторингу CoT как важный фактор безопасности наряду с другими метриками.
  • При разработке разных методов, связанных с рассуждениями в LLM, изучать, как различные методы обучения влияют на понятность рассуждений.

Кстати, тут есть и ещё одно оптимистическое наблюдение: в реальности не всегда обязательно, чтобы мониторинг срабатывал в 100 или 99% случаев, даже когда цена ошибки велика. Было бы достаточно, если бы мониторинг можно было перезапускать так, чтобы ошибки не повторялись, а желательно не слишком коррелировали друг с другом — и тогда, понятное дело, любая константная вероятность обнаружения ошибки быстро станет очень близка к единице. В контексте LLM-агентов Bhatt et al. (2025) недавно написали об этом целую статью под названием “Ctrl-Z: Controlling AI Agents via Resampling”.

Философские размышления и выводы

Ситуация с CoT напоминает классическую проблему философии сознания: можем ли мы доверять тому, что кто-то говорит о своих мыслях? В случае с AI-моделями эта проблема усугубляется тем, что сами “мысли” являются результатом оптимизации. Модель может научиться порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять.

Есть и ещё один фундаментальный вопрос: является ли человеческий язык необходимым инструментом для сложных рассуждений или просто удобным промежуточным представлением? Скорее всего, конечно, второе, и для того, чтобы мониторинг CoT мог стать долгосрочным решением для AI-безопасности, нам нужно приложить нетривиальные усилия. Иначе “мысли” LLM быстро станут настолько же непостижимыми, как и их внутренние активации.

Авторы честно признают ограничения своего подхода: CoT-мониторинг не панацея, и его следует использовать только как дополнительный уровень защиты. Тем не менее, пока у нас есть эта возможность заглянуть в “мысли” LLM, было бы неразумно её игнорировать. И хочется продолжать изучать, развивать и использовать мониторинг цепочек рассуждений, пока это окно в мышление LLM остаётся открытым. Ведь оно может закрыться быстрее, чем мы думаем.

Сергей Николенко