Исследователи из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ разработали новую модель искусственного интеллекта, способную эффективно распознавать эмоции в человеческой речи. Данная разработка значительно превосходит существующие аналоги в работе с комплексными данными, пишет ТАСС.
Модель, получившая название CA-SER, построена на базе парадигмы самообучения (SSL) и объединяет несколько современных подходов к анализу устной речи. Она не только детектирует основные характеристики речи, но и учитывает звуковые параметры, такие как громкость и тональность, что позволяет с высокой точностью определять эмоции говорящего.
По словам представителей компании, исходный код модели доступен в открытом доступе, что дает возможность другим ученым использовать этот инструмент для дополнительных исследований и экспериментов с различными языками и датасетами. Например, модель можно адаптировать для работы с русскоязычными эмоциональными корпусами и внедрять в голосовые помощники и контакт-центры.
Тестирование системы проводилось с использованием базы данных IEMOCAP, которая содержит широкий спектр аудиозаписей и мультимедийных данных, отражающих разнообразные человеческие эмоции. Результаты показали, что CA-SER значительно превзошла другие системы ИИ и сопоставима с более сложной нейросетью HuBERT, разработанной компанией Facebook.
Ученые надеются, что новая модель улучшит функциональность голосовых помощников и других цифровых систем, где важно точно распознавать эмоции пользователей, что, в свою очередь, повысит качество взаимодействия человека и машины.