Люди против роботов: пьеса в трёх модальностях

7/6/2025

Митап “LLM в математике и алгоритмах” прошёл 5 июля 2025 года, и прошёл категорически успешно. Напишу о нём, когда появятся хорошие фотографии, а сейчас расскажу вам о квизе, который я для митапа подготовил и провёл.

Идея была в том, чтобы сделать такой квиз, на котором LLM смогут соревноваться с людьми, и ни у людей, ни у “роботов” не будет заведомого преимущества. Про один из туров — обычное ЧГК из базы — у меня особых сомнений не было: хотя я ещё в октябре 2024 года заметил, что рассуждающие LLM могут играть в ЧГК, тут пока несложно найти вопросы, на которых заведомого преимущества не будет. Например, у всех LLM сложно с игрой в буквы, потому что токены с буквами не сходятся (да, считать r в strawberry тоже сложно именно по этой причине), а если это ещё и по-русски происходит, то вообще, скорее всего, до свидания.

Но хотелось и как-то разнообразить программу, например сделать туры с разными модальностями. Это бы тоже могло оказаться сложным или хотя бы интересным для LLM. Спросил об этом Claude… и, конечно, тут же получил прекрасные идеи. Вот буквально под номерами 1 и 2 шли идеи, которые в итоге и попали в квиз:

Так что для второго тура я подобрал несколько интересных фотографий рукописей великих математиков. Получилось, кажется, действительно интересное задание; вот как, например, Гротендик иллюстрировал теорему Римана-Роха:

А со звуком опять попросил Claude написать код, который этот звук сгенерирует — и он, конечно же, без проблем справился. Правда, в итоге выяснилось, что эту конкретную идею всё-таки Claude не сам придумал, а взял из “Sound of Sorting” Тимо Бингманна, так что звуки алгоритмов поиска я сгенерировал, а для алгоритмов сортировки взял из готового видео.

Квиз мы больше нигде играть не будем, так что вот, выкладываю финальную презентацию:

Квиз против LLM — LLM в математике и алгоритмах — 5 июля 2025 года

И вот результаты (ссылка на табличку):

Давайте немного их проанализируем. Как и ожидалось, LLM было сложно со звуком. Claude просто не принимает звук на вход, так что из раунда был дисквалифицирован. А вот o3-pro и o4-mini-high, казалось бы, всё поняли, но почему-то ответов правильных дали мало. Вот как o3-pro идеально разложил аргументы про алгоритмы сортировки (аудио можно послушать в видео)… но почему-то все перепутал, я даже засомневался, не было ли какой ошибки в названиях файлов:

С картинками LLM справились почти идеально, в этом они куда лучше людей. Только задание про первую языковую модель Андрея Андреевича Маркова вызвало серьёзные проблемы у LLM — справился только o3-pro, а остальные писали что-то про криптографию:

А вот с ЧГК получилось, как я и ожидал, по-разному. Например, вот первый вопрос:

Алгоритм Дейкстры позволяет искать в графе кратчайшие пути, начинающиеся в стартовой вершине. Есть вариант его запуска из стартовой и конечной вершин одновременно. Юрий Натаров предложил для этой модификации в название алгоритма добавить четыре буквы. Какие?

Здесь я ожидал, что с буквами будут проблемы, и действительно, из LLM не взял никто; правда, проблемы оказались скорее с юмором и пониманием сути ЧГК, потому что почти все модели ответили Bidi от bidirectional, что логично, но совершенно не смешно и не повод для вопроса:

Лучше всех здесь снова выступил o3-pro — его идея не соответствует форме вопроса, но это всё равно гениально:

Другая забавная версия получилась на вопросе 4:

Альберту Эйнштейну приписывают фразу: “Не знаю, чем будут воевать в Третьей мировой войне, а в Четвёртой — камнями и палками”. Андрей Курпатов полагает, что “предупредительный камень” перед Четвёртой мировой был брошен уже в 2016 году. Так он характеризует событие, участники которого… делали что?

Большинство LLM ответили правильно, но Claude нашёл возможность проявить свою гражданскую позицию:

Вопрос 5 тоже задумывался как безнадёжное для LLM задание “пошути как автор пирожка, да ещё и не зная, что это пирожок”:

В одном шутливом произведении математик бродит по НЕМУ, удивляясь элементарности задач. “Здесь минус сорок, например”, — ворчит математик. Назовите ЕГО одним словом.

И действительно, ни одна LLM не взяла, но версии породили забавные:

А в целом вышло так, что только o3-pro по сумме трёх раундов победила всех человеков. Да и то скорее за счёт того, что картинки рукописей o3-pro скорее всего подгугливала, и запретить ей это не получалось. Но очевидно, что этот фронтир тоже потихоньку движется вперёд; надеюсь, что LLM скоро всё-таки смогут и юмор понимать, и буквы переставлять, и вообще станут полноценными ЧГК-помощниками и тренерами.

В этом уж точно нет ничего апокалиптического, сплошные плюсы.

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!