Американские ученые из Техасского университета в Остине, Техасского университета A&M и Университета Пердью провели исследование, результаты которого показали, что нейросети, обучающиеся на «мусорных» данных, начинают хуже рассуждать, чаще ошибаются и теряют способность логично формулировать мысли. Это явление получило название «гниение мозга» (brain rot), которое ранее применялось только к человеческому мозгу.
В ходе эксперимента ученые собрали два набора данных из социальной сети X (бывший Twitter). Один набор включал вирусные посты, кликбейтные темы, переработанные комментарии к мемам и эмоциональные треды. Второй набор содержал нейтральные тексты без эмоциональной окраски. На этих данных были обучены популярные языковые модели Llama3 от Meta (признана в России экстремистской организацией и запрещена) и Qwen от Alibaba.
Результаты оказались однозначными: обученные на вирусном контенте модели начали выдавать больше логических ошибок, фактических неточностей и проявляли меньшую способность удерживать длинные цепочки рассуждений. Исследователи Цзюньюань Хон и Атлас Ванг объяснили, что ИИ в этом случае не учится понимать, а лишь имитирует внимание.
Более того, последствия такого «обучения» оказались долгосрочными. Даже после повторной тренировки на качественных текстах модели не смогли полностью восстановить прежний уровень когнитивных способностей. Хон и Ванг назвали это явление «когнитивным шрамом».
Бывший старший научный сотрудник Google DeepMind Илья Шумайлов заявил, что не удивлен результатам эксперимента. Он отметил, что в научной среде давно обсуждается проблема «отравления моделей» — ситуации, когда в обучающие данные намеренно вносят искажения, чтобы влиять на поведение ИИ. По мнению Шумайлова, исследования о «гниении мозга» можно рассматривать как предупреждение: нужно тщательнее проверять данные, на которых обучаются системы.
Авторы исследования предложили ввести понятие «когнитивная гигиена» для искусственного интеллекта — аналог человеческой информационной гигиены. Они считают, что будущее ИИ напрямую зависит от достоверности и чистоты данных, на которых он формируется. Ученые предупреждают, что если большая часть контента в Сети уже создается ИИ и ориентируется на внимание, а не на смысл, будущие поколения моделей могут унаследовать те же ошибки мышления, которые сами же порождают.
К чему приведет засилье сгенерированного нейросетями контента
По мнению экспертов, общество сегодня стоит на пороге «цифрового Средневековья»: из-за засилья синтетического контента, сгенерированного с помощью ИИ, в интернете через десять лет можно остаться без проверенных научных и энциклопедических данных. Такая ситуация уже создает риски появления фейковой цифровой реальности. Например, в США еще в 2021 году появилась теория «мертвого интернета», согласно которой подавляющая часть контента в Сети производится ИИ-роботами.
Многие эксперты приходят к выводу о необходимости создания прозрачной системы аудита, в рамках которой каждый шаг генеративной модели должен быть проверен и объяснен профессиональным сообществом. Ключевым элементом, по мнению экспертов, станет разработка международных этических и методологических стандартов, которые закрепят принципы объективности и воспроизводимости при использовании ИИ в науке. Это позволит не блокировать инновации, а направить их в русло, укрепляющее доверие к цифровому знанию, а не подрывающее его, убеждены эксперты.
Как нейросети будут развиваться дальше
Следующий прорыв в развитии искусственного интеллекта (ИИ) будет связан с появлением модели, обладающей критическим мышлением, считает первый зампред IT-комитета Госдумы Антон Горелкин. Парламентарий отметил, что ИИ пока не умеет проверять факты и подтверждать информацию. Он считает, что развитие этой технологии будет направлено на устранение этого недостатка: «Количество действительно ценного контента в этом океане информации ничтожно мало, а нейросети сегодня не умеют проводить фактчекинг и верифицировать информацию. Думаю, следующий прорыв на рынке ИИ-ассистентов случится, когда там появится модель, обладающая критическим мышлением, способная отделить правду от вымысла. Пока этого не произошло, помогать ИИ верифицировать контент придется людям», — резюмирует Антон Горелкин.






















