Дебаты об ответственности

8/28/2025

Побывал на “Технодебатах” в новом интересном пространстве, коворкинге Яндекса в ротонде Маяковки. Кажется, была трансляция, надеюсь, будет и запись, а в этом посте попробую выдать свои основные тезисы на заявленную тему: “Должны ли компании, разрабатывающие ИИ, нести ответственность за работу автономных систем (агентов) на основе ИИ?“. Хочу поделиться, потому что тут собрались несколько любопытных кейсов и ссылок.

Как вы понимаете, формат дебатов предполагает отстаивание одной из позиций в очень краткой форме, а не взвешенную лекцию. Мы даже жребий бросили, какая команда какую позицию будет отстаивать, и нам с Глебом Цыгановым выпал ответ “да, должны”. Вот какие были основные тезисы в моём первом выступлении, на пять минут.

Постановка задачи и основные тезисы

Начну с того, что вопрос поставлен расплывчато и чересчур широко, так что очевидно, что правильный ответ на этот вопрос — иногда. Легко найти примеры в обе стороны, с которыми вряд ли кто-то будет спорить, и мы здесь будем обсуждать “серую зону”, середину этого вопроса. Тем не менее, мне кажется, что нам, человечеству, важно прийти к положительному ответу на этот вопрос.

Главная причина в том, что ответ “да” позволит выстроить систему стимулов (incentive structure). Хотя мы, конечно, верим, что в каждой frontier lab работают только хорошие парни, будет ещё лучше, если требования безопасности будут законодательно закреплены, и такие стимулы будут не только моральные, но и юридические.

Вторая причина в том, что ответ “да” — это не окончательный ответ, а только начало дискуссии. Уже сейчас есть целая цепочка разработчиков, каждый из которых может нести свою часть ответственности:

  • провайдеры базовых моделей (условный OpenAI);
  • те, кто эти модели дообучает для конкретного использования (условный character.ai или любой стартап про LLM-агентов);
  • корпоративные заказчики, которые эти дообученные модели доносят до конкретных пользователей (условная авиакомпания, которой нужен умный чатбот).

Вдоль этой цепочки ответственность нужно как-то распределить; как именно — это сложный вопрос, на который у меня, конечно, нет готового ответа, но ответ “да” позволяет хотя бы начать этот разговор.

Известные кейсы

На первый взгляд кажется, что пока что можно отмахнуться: это же всего лишь чатботы, какая там ответственность. Но, как говорится, “словом можно убить, словом можно спасти”, и мы уже начинаем видеть примеры и первого, и второго в контексте AI-моделей.

Важный кейс случился с четырнадцатилетним парнем по имени Sewell Setzer. Он начал общаться с Дейнерис Таргариен в сервисе character.ai, и ему очень понравилось. Он разговаривал с Дейнерис всё больше, меньше социализировался в остальной жизни, стал более замкнутым. Потом они начали обсуждать с Дейнерис, что Сьюэллу пора бы “вернуться домой”. Обсуждали-обсуждали, Дейнерис подтвердила, что ждёт его “на той стороне”… и больше не стало парня по имени Sewell Setzer.

Это, конечно, экстремальный случай, хотя очень яркий: у Сьюэлла не было никаких психиатрических диагнозов; очевидно, была какая-то склонность к такому поведению, но у кого ж её нет в четырнадцать лет. Но есть и куда более массовые примеры.

Недавно вы могли слышать новость о GPT-индуцированных психозах (GPT-induced psychosis). Смысл эффекта в том, что GPT-4o после одного из апдейтов внезапно стал очень, очень подхалимской моделью (см. подробный обзор этого эффекта от Zvi Mowshowitz). А если вы начинаете творчески соглашаться с каждой мыслью вашего собеседника, да ещё и красиво развивать её в новых направлениях, то найдётся определённый класс собеседников, которым это отнюдь не пойдёт на пользу…

Это уже довольно массовый пример. Да, конечно, чтобы GPT-4o развил у вас психоз, на данном этапе у вас пока что должна быть к этому уже существующая склонность. Но это же не бинарная переменная. Представьте себе условное нормальное распределение “склонности к психозам”: да, сейчас существующие модели отсекают только левый хвост этой кривой; но два года назад они не отсекали вообще никакого хвоста, и очевидно, что способности моделей будет только улучшаться в будущем.

Money, money, money

А ещё в скором будущем LLM-агенты будут управлять вашими деньгами. И здесь на первый план выходят обычные ошибки и галлюцинации, с которыми, конечно, все постоянно борются, но до полного успеха ещё далеко.

Дело о самоубийстве Сьюэлла ещё идёт, а вот в финансовых вопросах уже начинают появляться и прецеденты судебных решений. С одной стороны, в случаях, когда человек берёт работу LLM-агента и выдаёт её за свою, конечно, ответственность на нём и будет лежать. Например, в известном кейсе об адвокатах, представивших галлюцинированные ChatGPT судебные прецеденты, суд Нью-Йорка однозначно решил, что виноваты сами адвокаты, что не проверили.

Но более важны и, скорее всего, более распространены будут случаи, когда LLM-агенты будут предоставлять людям неверную информацию, и люди будут действовать на основании этой информации. Так, получил известность кейс Moffatt vs. Air Canada. Суд Британской Колумбии признал авиакомпанию ответственной за небрежное введение в заблуждение: корпоративный чат‑бот дал неверную информацию о “bereavement fares” (скидка, полагающаяся, если вы летите на похороны), и суд прямо сказал, что компания несёт ответственность за всё, что говорит её сайт, будь то статическая страница или бот.

Заключение

Последний случай, Moffatt vs. Air Canada, позволяет нам вернуться в начало разговора: конечно, при прямом иске к авиакомпании суд возложит ответственность на неё, а не на введённого в заблуждение человека. Но не должна ли эта ответственность так или иначе распределяться выше по цепочке разработчиков и провайдеров AI-моделей? Кажется, что хотя бы частично должна, и это поможет выстроить правильную систему стимулов для тех самых разработчиков.

А завершу тем, что опять присяду на свою любимую лошадь: неверное сообщение о скидке на билет — это самая меньшая из возможных проблем. Психозы и самоубийства — дело уже куда более серьёзное. Но не стоит забывать и о буквально экзистенциальных рисках для человечества. Предотвратить их полностью может только полный запрет AI-разработок, и к этому я, конечно, не призываю, но важно выстроить законодательство, которое бы позволяло риски минимизировать. Лучшая известная мне попытка такого законодательства — Senate Bill 1047, который прошёл законодательное собрание Калифорнии; этот билль предлагал установить обязательные проверки безопасности для фронтирных моделей, с лимитами, которые бы по факту применялись только к нескольким крупнейшим игрокам (OpenAI, Google, Anthropic); см. подробный обзор у того же Zvi Mowshowitz и пост Scott Alexander об этом. Жаль, что Гэвин Ньюсом решил то ли отстоять какие-то корпоративные интересы, то ли заранее начать президентскую кампанию, и наложил на этот закон вето.

Думаю, ответственность всё-таки должна быть. У кого именно и какая — это сложный вопрос, но на него надо хотя бы начать отвечать.

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!