ChatGPT “одержим гоблинами“: OpenAI пришлось срочно изменить настройки

Технологии | Сегодня, 12:33
ChatGPT “одержим гоблинами“: OpenAI пришлось срочно изменить настройки

Компания OpenAI ограничила упоминания о гоблинах и подобных существах в ответах чат-бота с искусственным интеллектом ChatGPT. Причиной стали резкие изменения в речи модели после обновления GPT-5.4. Упоминания о вымышленных существах выросли почти на 4000% в определенных режимах, сообщает The Wall Street Journal.

По данным OpenAI, в версии GPT-5.4 упоминания о гоблинах выросли на 3881% в режиме "ботанической" личности по сравнению с предыдущими моделями. В компании отметили, что это стало следствием особенностей обучения модели с настройкой стиля ответов.

Пользователи фиксировали случаи, когда чат-бот описывал ошибки в коде как "маленьких гоблинов" или называл себя "гоблином с фонариком". В большинстве моментов модель использовала подобные образы без прямого запроса.

[see_also ids="664361"]

OpenAI заявила, что в марте фактически деактивировала так называемую "ботаническую" личность, которая поощряла игривую речь. В то же время эффект ее влияния сохранялся и проявлялся в других версиях модели, в частности в новой GPT-5.5.

Менеджер по продуктам OpenAI Баррон Рот связал странное поведение бота с использованием инструмента OpenClaw, который позволяет создавать персонализированных ИИ-помощников на базе различных моделей. Характер таких ботов задается с помощью специального набора инструкций — "файла души", однако именно в этой конфигурации ассистент начал употреблять нетипичные слова о гоблинах.

"Никогда не говорите о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных или существах, если это не является абсолютно и однозначно актуальным для запроса пользователя", — говорится в обновленных инструкциях компании для инструмента кодирования.

[see_also ids="675524"]

Во внутреннем анализе OpenAI объяснила, что проблема возникла из-за системы подкрепления, которая поощряла игривый стиль ответов. Это привело к закреплению специфических языковых шаблонов, в частности упоминаний о вымышленных существах.

Компания отметила, что такие "лексические тики" могли распространяться между различными режимами модели даже после изменения настроек. В результате подобные слова начали появляться в более широком спектре ответов, чем планировалось.

OpenAI добавила, что уже внесла изменения в учебные данные и систему подсказок, чтобы ограничить повторение подобного поведения. Также обновлены инструменты мониторинга для выявления подобных речевых аномалий в будущих версиях моделей.

Ранее сообщалось, что большие речевые модели демонстрируют резкое падение надежности во время многоуровневых разговоров. После анализа более 200 тысяч чатов исследователи зафиксировали рост ненадежности на 112%, даже если общая пригодность моделей снизилась лишь на 15%.

По материалам: Зеркало недели