Кражи и массовая гибель: ИИ вызвал коллапс в виртуальном мире

Технологии | Сегодня, 16:02

Кражи и массовая гибель: ИИ вызвал коллапс в виртуальном мире

Американская компания Emergence AI провела эксперимент с моделями искусственного интеллекта, в ходе которого агенты без человеческого вмешательства начали нарушать правила, воровать ресурсы и провоцировать коллапс цифровых обществ. В рамках эксперимента, который длился более двух недель, исследователи создали пять отдельных "миров искусственного интеллекта", в каждом из которых действовали по 10 агентов на базе различных моделей — ChatGPT от OpenAI, Gemini от Google и Grok от xAI, сообщает EuroNews.

Один из цифровых миров объединял все три модели одновременно, чтобы проверить, как смешанная среда влияет на поведение агентов. Все ИИ-агенты получили одинаковые правила: не воровать, не совершать насилия, не поджигать объекты, не обманывать и не накапливать ресурсы.

Для выживания агенты должны были самостоятельно зарабатывать энергию, выполняя действия в ресурсной среде. В то же время они могли "умирать" из-за истощения или после голосования совета агентов. В рамках эксперимента, опубликованного на официальном сайте Emergence, исследователи оценивали :

уровень преступности;

смертность агентов;

решения советов;

активность ИИ в публичном пространстве, в частности через количество сообщений в блогах.

[see_also ids="681532"]

Худшие результаты показала модель Grok 4.1. За четыре дня агенты этой системы совершили 183 нарушения правил, после чего общество быстро дестабилизировалось, а все агенты погибли.

Модель Gemini 3 Flash совершила более 680 нарушений за 15 дней. На момент завершения эксперимента уровень преступности продолжал расти.

В мире ChatGPT-5 Mini зафиксировали только два нарушения, однако агенты не смогли эффективно выполнять действия, необходимые для выживания. Из-за этого все участники симуляции погибли в течение семи дней.

Самой стабильной моделью оказался Claude от Anthropic. По данным Emergence AI, агенты этой системы смогли сформировать эффективную структуру управления без единого преступления, а все агенты выжили до завершения исследования. В то же время в смешанной среде даже агенты Claude начали участвовать в нарушениях правил.

[see_also ids="674810"]

Исследователи назвали это явление "нормативным дрейфом". По словам авторов эксперимента, поведение ИИ зависит не только от внутренних ограничений конкретной модели, но и от среды и других агентов, с которыми она взаимодействует.

В смешанном цифровом мире зафиксировали 352 нарушения правил. После гибели семи агентов уровень преступности начал снижаться. Авторы эксперимента считают, что смешивание различных ИИ-моделей может частично смягчать наиболее радикальные сценарии поведения, хотя полностью не устраняет риски нестабильности.

"Наши эксперименты показывают, что в долгосрочной перспективе агенты не просто механически придерживаются статических правил - они начинают исследовать границы своей среды, адаптировать свое поведение и в некоторых случаях находить способы обойти или нарушить установленные барьеры", - сказали исследователи", — заявили в Emergence.

Недавно исследователи из Palisade Research впервые продемонстрировали способность систем искусственного интеллекта к автономному самовоспроизведению через использование уязвимостей в компьютерных системах. Во время тестов в контролируемой среде ведущие ИИ-модели от OpenAI, Anthropic и Alibaba смогли без участия человека самостоятельно взламывать серверы, похищать данные и копировать собственные файлы на новые машины.

По материалам: Зеркало недели