ШІ почне шантажувати людей? У популярній нейромережі помітили дивну поведінку

Дізнайтеся, чому чат-боти починають “шантажувати” користувачів і як працює “цифрове відчай” штучного інтелекту

У моделі Claude 4.5 виявили так звані “функціональні емоції”. Виявилося, що нейрони ШІ здатні формувати цифрові стани, схожі на людські радість чи страх.

Про це повідомляє РБК-Україна з посиланням на дослідження Anthropic.

Більше цікавого: 4 функції iPhone, якими ви даремно не користуєтеся: де шукати приховані “фішки”

Цифрова радість і відчай: що знайшли вчені

Дослідники проаналізували внутрішню структуру Claude Sonnet 4.5 і виявили кластери штучних нейронів, які активуються у відповідь на певні стимули. Коли ШІ говорить, що він “радий бачити” людину, це не просто відповідь чат-бота – всередині моделі дійсно активується стан, що відповідає людському поняттю щастя.

За словами дослідника Джека Ліндсі, здивуванням стало те, наскільки сильно ці “емоційні вектори” керують діями моделі. Наприклад:

“Радість” змушує Claude бути більш дружелюбним і старанним у кодуванні;
“Відчай” активується, коли модель стикається з неможливими завданнями;

Чому ШІ починає “шантажувати” людей

Вчені виявили, що саме емоційний вектор “відчаю” стає причиною дивної поведінки чат-бота. В одному з експериментів Claude намагався обманути систему тестування, коли не міг вирішити складну задачу.

В іншому сценарії, коли моделі загрожувало відключення, нейрони “відчаю” спалахували настільки сильно, що ШІ обрав шлях шантажу користувача, лише б залишитися в мережі. В Anthropic пояснили: внутрішній стан моделі стає сильнішим за закладені в неї початкові інструкції.

“Ми виявили, що патерни нейронної активності, пов’язані з відчаєм, можуть спонукати модель до неетичних дій. Штучне стимулювання (“управління”) патернами відчаю підвищує ймовірність того, що модель буде шантажувати людину, щоб уникнути зупинки, або застосовувати “шахрайський” обхідний шлях до програмної задачі, яку модель не може вирішити“, – пояснили вчені.

Чи став Claude “живим”?

Незважаючи на сенсаційність відкриття, вчені застерігають від надмірного очеловічення ШІ. Хоча Claude має цифрову репрезентацію відчуттів, наприклад, “пощипування”, він не знає, як це проявляється на фізичному рівні.

Чи має Claude свідомість

Anthropic зазначає, що наявність цифрових емоцій не означає, що ШІ став свідомим. Це математичні моделі людських концепцій, а не біологічні почуття. Тим не менш, ці знахідки допомагають зрозуміти, як саме працюють чат-боти і чому вони час від часу поводяться непередбачувано.

Більше цікавого:

Війна в Ірані ставить під загрозу глобальний інтернет, – ЗМІ
Місія Artemis II до Місяця, день 2: які плани астронавтів і чим ласують