Специалисты Новосибирского государственного университета (НГУ) разработали обновлённую диалоговую систему искусственного интеллекта, которая предназначена для точного распознавания русской речи. Об этом сообщил ТАСС на форуме «Золотая долина» научный сотрудник лаборатории прикладных цифровых технологий механико-математического факультета Иван Бондаренко.
По его словам, большинство существующих систем распознавания сталкиваются с проблемой — они выводят услышанную речь в нижнем регистре без знаков препинания. Хотя нейросеть Whisper от компании OpenAI способна корректно интерпретировать речь, она плохо приспособлена под особенности русского языка.
Бондаренко рассказал, что ученые интегрировали диалоговую нейронную сеть с системой распознавания и синтеза речи, создав модифицированную модель на базе Whisper. Эта модель прошла специальное дообучение, повышающее её понимание смыслового и структурного пространства русского языка, что делает распознавание более устойчивым и точным.
Обучение системы проходило на более чем 500 часах русскоязычной разговорной речи из различных источников, включая синтетические записи. Особенность метода в том, что в ситуации недостатка данных ученые использовали ИИ для создания дополнительных обучающих примеров — по сути, одна нейросеть обучает другую.
Основное применение системы — точное воспроизведение русского языка и его автоматический перевод на английский. Тесты проводились на записях выступлений ученых и политиков. По словам разработчиков, речь на записях воспроизводится с высокой точностью, хотя при обработке лекций по математике возникали сложности.
На текущий момент обработка голосового запроса занимает примерно 40 секунд, но ученые уже работают над сокращением этого времени до 5 секунд. Бондаренко подчеркнул, что модель лучше распознаёт речь, если обучение строится на принципах общего смыслового пространства языков, что повышает её устойчивость и эффективность.






















