В лаборатории исследований искусственного интеллекта T-Bank AI Research достигнут важный прогресс в области интерпретируемости ИИ с разработкой нового метода SAE Match. Этот инновационный подход позволяет не только понять причины, по которым искусственный интеллект принимает те или иные решения, но и непосредственно влиять на качество и точность его ответов, пишут Ведомости.
Руководитель научной группы LLM Foundations Никита Балаганский отметил, что данное исследование имеет особое значение для применения ИИ в критически важных отраслях, таких как медицина, финансовый сектор и безопасность. Он добавил, что исследования направлены на то, чтобы быстро выявлять и исправлять сбои в работе модели без необходимости дорогостоящего переобучения.
Метод SAE Match обеспечивает прозрачность функционирования нейросетей, позволяя отслеживать изменения концепций на каждом этапе вычислений. Это важно, поскольку традиционные методы требуют значительных затрат на обучение и масштабирование.
Результаты работы команды будут представлены на Международной конференции по обучению представлений (ICRL) в Сингапуре с 24 по 28 апреля. Ученые подчеркивают, что их разработка не требует дополнительных данных или вычислительных ресурсов, что делает её особенно актуальной для малых исследовательских групп.