В Национальном исследовательском ядерном университете «МИФИ» (Москва) разработали архитектуру нейросети под названием MambaShield, которая устойчива к так называемым «атакам отравления» данных, сообщили в пресс-службе. Работа опубликована в престижном журнале Expert Systems with Applications и уже получила грант от Министерства экономического развития РФ в рамках программы развития центров искусственного интеллекта. Исследователи называют MambaShield не просто очередным алгоритмом, а фундаментом для доверенного ИИ, который можно устанавливать на атомные станции, в финансовые и медицинские организации, не опасаясь, что злоумышленник «отравит» обучающую выборку одной хитрой картинкой или пакетом данных.
Зачем такая защита нужна? Проблема реальна. Представьте, что система кибербезопасности банка работает с точностью 95%. Но злоумышленник постепенно, оставаясь незамеченным, внедряет в обучающие данные специально искажённые примеры. Со временем модель усваивает некорректные закономерности, и её качество падает до 40%. Это не сценарий фильма — это атака отравления данных (data poisoning), серьёзная угроза для современных систем машинного обучения. Большинство ИИ-моделей, включая знаменитые трансформеры, лежащие в основе ChatGPT, обладают фундаментальной уязвимостью перед такими атаками. Особенно коварны последовательные данные: логи сетей, временные ряды датчиков, финансовые транзакции. Вред наносится не сразу, а растягивается во времени — сначала чуть-чуть, потом ещё, а модель внешне продолжает работать корректно. Классические алгоритмы либо пропускают угрозу, либо требуют огромных вычислительных ресурсов.
Учёные МИФИ обратились к новой архитектуре — селективным моделям в пространстве состояний (Selective State Space Models, sSSM). В отличие от классических SSM, такие модели способны адаптироваться к входным данным: они обучаются динамически решать, какую информацию из прошлого контекста сохранить, а какую отбросить. Эту идею и положили в основу MambaShield. Проще говоря, если обычный ИИ пытается уловить и обработать все звуки сразу (звон ложек, музыку, голоса в шумном кафе), то MambaShield фокусируется только на словах нужного собеседника, отфильтровывая злонамеренный шум и атакующие вставки.
Чтобы получить модель с заданной устойчивостью к отравлениям, исследователи «сшили» в одну систему три инновационные технологии. Первая — прогрессивная дистилляция устойчивости (PARD). Вместо того чтобы учить одну модель сопротивляться всем видам атак, учёные обучили множество «учителей»: один специализируется на защите от подмены меток в данных, другой — от скрытых закладок (бэкдоров), третий — от градиентных атак. Затем специальный алгоритм передаёт знания всех моделей одному компактному «ученику», который работает быстро и надёжно. Вторая технология — иерархическое обучение с подкреплением (HRL). Система сама адаптируется к меняющемуся поведению нарушителя в реальном времени, без участия человека. Третья — PAC-Bayesian сертификация. Это самое важное для критической инфраструктуры (АЭС, аэропорты, банки): система даёт математические гарантии своей устойчивости. Теоретически доказано, что даже при отравлении 30% обучающих данных точность останется выше 97%.
Эксперименты проводились на трёх сложнейших наборах данных о кибератаках (CIC-IoT-2023, CSE-CICIDS2018, UNSW-NB15), включающих миллионы образцов вредоносного трафика. Результаты впечатляют, хотя авторы избегают восторженных оценок. Точность обнаружения составила 99,1% (у лучших аналогов — около 97%). При атаке отравления точность MambaShield падает всего на 2–3%, тогда как обычные модели деградируют на 18–20%. Скорость обработки последовательностей в 4,2 раза выше, чем у классического трансформера — это достигается за счёт линейной сложности алгоритма (время растёт пропорционально длине последовательности, а не квадратично). «Для практиков это означает меньше пропущенных угроз, меньше ложных тревог и меньшие счета за облачные вычисления», — отмечают авторы.
У новой архитектуры есть и ограничения. Система прекрасно работает на отрезках до 1000 шагов, но если последовательность слишком длинная (более 5000 шагов), накапливаются ошибки округления, и точность может упасть. Кроме того, если в обучающих данных больше 50–70% отравленных примеров, любая система, включая MambaShield, начнёт ошибаться.
Тем не менее, разработка не ограничивается защитой серверов. В здравоохранении она позволяет противостоять злонамеренным искажениям медицинских данных в сетях взаимодействия с пациентами. В беспилотном транспорте злоумышленник может отравить открытые датасеты изображений дорожных знаков, внедряя в них специальный шум, а MambaShield повышает устойчивость моделей, обученных на таких датасетах. В финансах классическая антифрод-система иногда помечает странные транзакции как безопасные, если злоумышленники месяцами совершают их друг другу и никто не жалуется, а затем проводят реальную кражу — MambaShield способна выявить отравление на ранней стадии. В промышленности представьте электростанцию с турбиной за миллионы долларов. Система ИИ следит за её состоянием, чтобы вовремя отправить на техобслуживание. Атакующий начинает незаметно подмешивать в поток данных от датчиков искажённые значения, и в результате система больше не считает опасные аномалии поводом для тревоги. Использование предиктивной аналитики совместно с MambaShield позволяет выявить и отсеять отравленные данные.
Как резюмируют сами исследователи, MambaShield — это фундамент для доверенного ИИ, который можно устанавливать на атомные станции, в финансовые и медицинские организации, не боясь, что злоумышленник «отравит» обучающую выборку одной хитрой картинкой или пакетом данных.






















