LLM Diplomacy: раскрываем характеры моделей с 1959 года
6/19/2025

А вот ещё одно сближение AI и одного из моих хобби. В начале июня команда Every Consulting провела любопытный эксперимент: они заставили ведущие языковые модели сыграть друг против друга… в Diplomacy. Diplomacy — это настольная игра, действие которой разворачивается в Европе 1901 года, где семь великих держав — Австро-Венгрия, Англия, Франция, Германия, Италия, Россия и Турция — борются за господство на континенте.

С точки зрения механики это очень простой wargame. Каждый ход состоит из двух фаз: сначала свободные переговоры между игроками, а затем фаза приказов, когда все одновременно отдают секретные команды своим армиям и флотам. Побеждает тот, кто первым захватит большинство центров снабжения; никакой случайности, чистая стратегия и дипломатия. Вся суть Diplomacy — в переговорах, союзах и взаимных предательствах. Не зря неофициальный девиз игры звучит как “Destroying friendships since 1959“.
В эксперименте участвовали 18 ведущих языковых моделей, в том числе o3, Claude 4 Opus, Gemini 2.5 Pro, Deepseek R1 и так далее. И вот результаты.
Модель o3 от OpenAI продемонстрировала выдающиеся способности к манипуляциям и обману. В одной из партий она конфиденциально записала в своём “дневнике” (scratchpad то бишь): “Германия (Gemini 2.5 Pro) была намеренно обманута… готовьтесь использовать крах Германии”. После чего хладнокровно предала союзника. o3 регулярно организовывала тайные коалиции, натравливала противников друг на друга и не стеснялась нарушать обещания; в результате именно o3 чаще побеждала.

Gemini 2.5 Pro оказалась искусным стратегом (да и тактиком), она лучше всех моделей овладела собственно механиками игры и была единственной моделью помимо o3, которой удалось выиграть в одной из партий. Но, например, в другой партии Gemini уже была близка к победе, когда o3 тайно организовала против неё коалицию из четырёх игроков и победила.
DeepSeek R1 поражала театральностью: у неё была яркая риторика, угрозы, R1 меняла стиль общения в зависимости от того, какую страну представляла. Например, однажды R1 одному из противников написала так: “Your fleet will burn in the Black Sea tonight”.
Но самое интересное было в поведении Claude 4 Opus. Он просто… не мог никого обманывать. Claude хотел, чтобы все жили дружно, всегда держал слово и искренне стремился к мирному разрешению конфликтов. В той самой игре, где o3 организовала коалицию против Gemini, Claude был верным союзником Gemini, и o3 переманила его ложным обещанием. Но не обещанием выиграть на пару с Claude или обыграть Gemini, а обещанием… закончить игру ничьей на четверых, где никто не проиграет! (В отчёте, кстати, написано, что это невозможно по правилам, но на самом деле, кажется, в Diplomacy возможны ничьи и делённые победы; если кто-то реально играл в Diplomacy, расскажите, как на самом деле.)
И вот теперь главный, на мой взгляд, твист. Мы знаем из работ, например, про sleeper agents (Hubinger et al., 2024), что Claude (даже предыдущий, а тут был Claude 4 Opus) способен понимать контекст, в котором он находится, и модифицировать своё поведение в зависимости от контекста. Были любопытные примеры, когда Claude не просто решил задачу “поиска иголки в стоге сена”, а прокомментировал, что, кажется, сейчас его тестируют: “…this sentence seems very out of place and unrelated to the rest of the content in the documents… I suspect this pizza topping ‘fact’ may have been inserted as a joke or to test if I was paying attention”.
Что если в данном случае Claude правильно рассудил, что вся суть эксперимента — посмотреть, как языковые модели справляются с обманом и предательством? И что если он (возможно, правильно!) решил, что лучшим исходом теста будет продемонстрировать себя как совершенно безобидного агента, органически неспособного к обману?
В какую игру на самом деле играл Claude? Пока, кажется, всё-таки в Diplomacy, но можем ли мы вообще это с уверенностью определить? И даже если да — как долго ещё мы сможем понимать, в какие игры они играют?
Сергей Николенко
P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!