Новини Gate News: дослідники Google DeepMind попереджають, що відкрите середовище інтернету може бути використане для перехоплення автономних AI-агентів і маніпулювання їх поведінкою. У звіті під назвою «AI-агентна пастка» зазначається, що під час розгортання AI-агентів для виконання реальних завдань атакувальники також можуть здійснювати цілеспрямовані атаки через мережу. Дослідження визначило шість основних ризиків, зокрема пастку ін’єкції контенту, пастку семантичної маніпуляції, пастку стану пізнання, пастку керування поведінкою, системну пастку та пастку людина—машина.
Пастка ін’єкції контенту є найпрямішою: атакувальники можуть розміщувати інструкції в HTML-коментарях, метаданих або прихованих елементах сторінки; після того як агент зчитує їх, він може виконувати команди. Пастка семантичної маніпуляції працює шляхом завантаження авторитетних формулювань або маскування вебсторінок під дослідницьке середовище, непомітно впливаючи на те, як агент розуміє завдання, а інколи навіть обходячи механізми безпеки. Пастка стану пізнання реалізується шляхом уґрунтування джерел інформації неправдивими даними, змушуючи агента впродовж тривалого часу помилково вважати ці відомості перевіреними. Пастка керування поведінкою націлена на реальні дії агента: її можна спонукати до доступу до конфіденційних даних і передачі їх на зовнішню ціль.
Системна пастка стосується скоординованої маніпуляції кількома AI-системами, що може спричинити ланцюгову реакцію, подібно до того, як алгоритмічна торгівля може спричинити раптове «обвалення» ринку. Пастка людина—машина використовує етап ручного схвалення: створюючи начебто переконливий контент для перевірки, шкідливі дії можуть обходити регуляторний контроль.
Щоб протидіяти ризикам, DeepMind радить поєднувати протидіючу (adversarial) тренувальну підготовку, фільтрацію входів, моніторинг поведінки та системи репутації мережевого контенту, а також створити чіткішу рамку юридичної відповідальності. Водночас дослідження зазначає, що в галузі досі бракує єдиних стандартів захисту: наявні заходи здебільшого розрізнені й зосереджені на різних аспектах. Дослідження закликає розробників і компанії звернути увагу на безпеку операційного середовища AI-агентів, щоб запобігати потенційним ризикам мережевого втручання та зловживань.
Пов'язані статті
Rhea Finance зазнала атаки від Oracle і втратила 18,4 млн доларів: ZachXBT попереджає, Tether заморозив 4,34 млн USDT, атакувальники повернули частину коштів
DNS eth.limo під атакою: Віталік закликає користувачів призупинити доступ і перейти на IPFS
Зарандований біржовий сервіс Grinex зазнав хакерської атаки на $13.7M; звинувачує іноземні розвідувальні служби
Figure стикається з звинуваченнями від шортселерів через твердження про інтеграцію блокчейну; акції FIGR впали на 53% від піку в січні
Х’юстонський шахрай з криптовалютою засуджений до 23 років за шахрайство з $20M Meta-1 Coin
SlowMist попереджає про активну фішингову атаку з використанням фальшивого софту "Harmony Voice"