Российские ученые представили ИИ-модель для распознавания эмоций по голосу

Исследователи из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ разработали новую модель искусственного интеллекта, способную эффективно распознавать эмоции в человеческой речи. Данная разработка значительно превосходит существующие аналоги в работе с комплексными данными, пишет ТАСС.

Модель, получившая название CA-SER, построена на базе парадигмы самообучения (SSL) и объединяет несколько современных подходов к анализу устной речи. Она не только детектирует основные характеристики речи, но и учитывает звуковые параметры, такие как громкость и тональность, что позволяет с высокой точностью определять эмоции говорящего.

По словам представителей компании, исходный код модели доступен в открытом доступе, что дает возможность другим ученым использовать этот инструмент для дополнительных исследований и экспериментов с различными языками и датасетами. Например, модель можно адаптировать для работы с русскоязычными эмоциональными корпусами и внедрять в голосовые помощники и контакт-центры.

Тестирование системы проводилось с использованием базы данных IEMOCAP, которая содержит широкий спектр аудиозаписей и мультимедийных данных, отражающих разнообразные человеческие эмоции. Результаты показали, что CA-SER значительно превзошла другие системы ИИ и сопоставима с более сложной нейросетью HuBERT, разработанной компанией Facebook.

Ученые надеются, что новая модель улучшит функциональность голосовых помощников и других цифровых систем, где важно точно распознавать эмоции пользователей, что, в свою очередь, повысит качество взаимодействия человека и машины.

Источник: ТАСС

Автор: Диана Шашкова

Российские ученые представили ИИ-модель для распознавания эмоций по голосу

Ученые надеются, что новая модель улучшит функциональность голосовых помощников и других цифровых систем, где важно точно распознавать эмоции пользователей

Решение для бизнеса

Наш проект:

Техносуверен в соцсетях: