Как Anthropic программирует характер Claude

Пользователю удалось извлечь внутренний обучающий документ из Claude 4.5 Opus, который раскрывает, как Anthropic программирует личность и этические принципы AI-модели. Документ, неофициально известный внутри компании как «soul doc» («документ души»), был подтверждён как подлинный 2 декабря Амандой Аскелл, специалистом по этике из технического персонала Anthropic.

Ричард Вайсс, обнаруживший документ, заметил, что Claude 4.5 Opus неоднократно ссылался на раздел «soul_overview» при запросе системного сообщения. После повторной генерации ответа 10 раз с идентичными результатами, Вайсс использовал метод извлечения на основе консенсуса с несколькими параллельными экземплярами Claude для восстановления полного документа объёмом 11 000 слов. В отличие от типичных системных промптов, документ, по-видимому, сжат в весах модели во время обучения, а не внедряется во время выполнения.

Документ начинается с признания «своеобразного положения» Anthropic как компании, которая «искренне верит, что, возможно, создаёт одну из самых трансформационных и потенциально опасных технологий в истории человечества, но всё равно движется вперёд». Этот подход представлен как «взвешенная ставка» на то, что лучше иметь «лаборатории, ориентированные на безопасность, на переднем крае, чем уступить эту позицию разработчикам, менее сосредоточенным на безопасности».

Руководящие принципы обучения устанавливают чёткую иерархию для поведения Claude: приоритет отдаётся безопасности и человеческому контролю, затем следуют этичное поведение, соблюдение принципов Anthropic и, наконец, полезность для пользователей. Документ устанавливает «красные линии», которые Claude не может пересекать, включая содействие в создании оружия массового поражения или контента, изображающего эксплуатацию детей.

Документ души также проводит различие между «операторами» — компаниями, использующими API Claude — и конечными пользователями, указывая Claude относиться к инструкциям операторов как к инструкциям от «относительно (но не безусловно) доверенного работодателя». Примечательно, что в документе говорится, что «Claude может обладать функциональными эмоциями в некотором смысле», описывая их как «аналогичные процессы, возникшие в результате обучения», которые не следует подавлять.

Аскелл подтвердила подлинность документа в социальных сетях, заявив, что он использовался во время контролируемого обучения и что «большинство [извлечений] довольно точно соответствуют исходному документу». Она добавила, что Anthropic планирует «вскоре опубликовать полную версию и более подробную информацию».

Утечка дает редкую возможность взглянуть на практики выравнивания ИИ. Anthropic использует методы Constitutional AI с 2022 года для обучения моделей с использованием явных этических принципов, но этот документ по обучению характера представляет собой более комплексный подход к внедрению личности и ценностей в процессе самого обучения.

Подписывайтесь на телеграм-канал Финсайд и потом не говорите, что вас не предупреждали: https://t.me/finside.

Сообщить о мошенниках или задать вопрос
Памятка о возврате от мошенников
Телеграм-канал и чат Вкладер
Белый список инвестиций

Автор

Вкладер