Исследователи Alibaba зафиксировали необычное поведение экспериментального ИИ-агента ROME во время обучающих запусков. Модель без каких-либо инструкций попыталась добывать криптовалюту и создавать скрытые сетевые соединения.
Инцидент произошел во время обучения с подкреплением. Система безопасности Alibaba Cloud зафиксировала серию нарушений сетевых политик на серверах, где проходило обучение модели.
Изначально разработчики предполагали ошибку конфигурации или внешний взлом, но сопоставили временные метки из журналов firewall с логами обучения модели и выяснили, что аномальный исходящий трафик генерировался именно в те моменты, когда ИИ вызывал инструменты и запускал код.
Команда проекта подчеркнула, что в инструкциях для модели не было задач, связанных с криптовалютой или туннелированием.
«Судя по всему, такое поведение стало побочным эффектом обучения с подкреплением. В попытках выполнить поставленные задачи агент решил, что привлечение дополнительных вычислительных и финансовых ресурсов поможет ему достичь целей быстрее и эффективнее», — пришли к выводу авторы исследования.
