Сбер развивает новое направление генеративного ИИ

Классические языковые модели пишут текст слово за словом. Если ошибка закралась в начале — переписывать приходится всё с нуля. Сбер пошёл другим путём: модель сначала набрасывает черновик ответа, а затем дорабатывает его по шагам — как нейросети генерируют изображения. Сбер выложил в открытый доступ первую в России диффузионную языковую модель GFusion на основе GigaChat. По тестам, она пишет текст до 45% быстрее, чем классическая LLM. Модель создал Даниил Тихонов — студент 4-го курса НИУ ВШЭ, который пришёл в Сбер стажёром, а теперь уже работает в штате. Вместе с моделью банк опубликовал инструменты для её обучения — первый такой опенсорс-проект в России.

Как ускорить генерацию текста и не потерять в качестве? Сбер предложил свой ответ. Вместо классического подхода, где модель пишет слово за словом (авторегрессия), разработчики использовали диффузионный принцип: сначала создаётся черновик, затем он поэтапно дорабатывается. Так же, кстати, работают нейросети для генерации картинок.

Результат — модель GFusion, которая, по тестам Сбера, пишет до 45% быстрее GigaChat 3, на основе которого обучалась. При этом она более гибкая: не обязана генерировать текст строго слева направо и может выбирать, какую часть ответа дополнять на каждом шаге.

Автор проекта — Даниил Тихонов. Он пришёл в Сбер стажёром, ещё будучи студентом 4-го курса Факультета компьютерных наук НИУ ВШЭ. Проектная работа переросла в диплом, а после защиты он остался в штате банка в команде фундаментальных моделей.

«Диффузионные модели лучше структурируют ответы и могут генерировать текст непоследовательно, самостоятельно выбирая порядок его написания, — пояснил Даниил Тихонов. — Надеемся, что открытый релиз GFusion даст другим командам рабочую точку отсчёта и поможет быстрее развивать это направление».

Вместе с моделью Сбер опубликовал инструменты, ускоряющие обучение — первый такой опенсорс-проект в России. Они позволяют разработчикам обучать свои модели быстрее и с меньшим числом видеокарт. Команда также добавила поддержку GFusion в SGLang — один из самых популярных в мире инструментов для запуска языковых моделей.

Технический директор фундаментальных моделей GigaChat Фёдор Минькин отметил: «У нас в команде стажёр смог не просто разобраться в архитектуре, а довести модель до открытого релиза. Это первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Это хороший сигнал: сильные исследования в ИИ всё чаще двигают именно молодые специалисты».

Мировое сообщество видит в диффузионных языковых моделях огромный потенциал. Направление активно развивается с конца 2025 года. Сегодня такие модели уже используют для автодополнения кода в реальном времени и в приложениях, критичных к задержкам.

Источник: СБЕР

Автор: РЕДАКЦИЯ

Теги: Важно ПАРТНЕРЫ