Дата публикации
17.01.2025
Авторы
Марат Хамадеев Михаил Мозиков
Поделиться

Большие языковые модели проверили на эмоциональный алайнмент


Большие языковые модели (LLMs) хорошо зарекомендовали себя не только в задачах, требующих понимания и генерации текста, но и в качестве инструмента принятия решений. От машинного разума принято ожидать безэмоциональность, способность рассуждать «холодной головой», принимать взвешенные решения. Такие качества нужны в первую очередь там, где на кону человеческие жизни: медицина, право и другие области.

С другой стороны, улавливание ИИ-системами того, как ведут себя люди под влиянием эмоций — это тоже полезное свойство, которое позволяет моделировать социальные и экономические процессы. Обучение моделей принятию решений, которые соответствуют человеческим предпочтениям, этическим нормам и ожиданиям, называется выравниванием (alignment) или алайнментом.

Большие языковые модели обучаются на гигантских массивах данных, сгенерированных человеком, и поэтому усваивают определённые эмоциональные паттерны, которые можно выявить с помощью точно подобранных промптов. Однако вопрос о том, насколько правильно происходит эта эмуляция, и как оценить её корректность, до сих пор остается открытым.

Исследователи из AIRI и их коллеги из нескольких российских и зарубежных институтов сделали важный шаг в этом направлении, проведя серию экспериментов с рядом популярных LLM, сделав их участниками игровых и этических сценариев, где эмоции играют важную роль. Авторы отобрали пять базовых эмоций — гнев, радость, страх, грусть и отвращение — и разработали несколько способов их интеграции в модели с помощью промптов.

Экспериментам подверглись как коммерческие модели (GPT-4, GPT-3.5, Claude), так и открытые (LLaMA-2, OpenChat, GigaChat). Исследователи пробовали разные конфигурации игр, а также обратили внимание на язык, на котором преимущественно обучалась модель. В качестве сценариев они выбрали этические задачи различной сложности, игры на торг, повторяющиеся и многопользовательские социальные игры.


Схема экспериментального исследования с примерами промптов и игр

В результате опытов исследователи выявили множество интересных закономерностей, связанных с влиянием эмоций на LLM. Так, средние по размеру модели, такие как GPT-3.5, демонстрировали наиболее точное соответствие человеческим паттернам поведения. Большие же модели уровня GPT-4 выбирали наиболее близкие к оптимальным стратегии и меньше поддавались эмоциям. Авторы также обнаружили, что язык, на котором преимущественно обучается мультиязычная LLM, играет важную роль в её способности воспроизводить человеческие решения. Оказалось, что переход на второстепенные языки влечет за собой снижение качества алайнмента.

Подробнее результаты экспериментов приведены в статье, представленной на конференции NeurIPS 2024, код открыт и доступен на GitHub.

Присоединяйтесь к AIRI в соцсетях