BIS Journal №1(36)/2020

14 апреля, 2020

Golden VOiCES из России

В 2019 году технологии искусственного интеллекта (ИИ) для распознавания речи и диктора на среднем и дальнем микрофонах, соревновались на международном конкурсе VOiCES 2019. Две команды научных сотрудников российской ГК ЦРТ заняли первые места в двух номинациях. В статье описываются представленные на конкурс решения.

 

НАУЧНЫЙ КОНКУРС – РИНГ ДЛЯ ТЕХНОЛОГИЙ

Международные конкурсы решений на основе искусственного интеллекта сегодня являются площадкой для демонстрации систем ведущих игроков рынка ИИ. Конкурс VOiCES (Voices Obscured in Complex Environmental Settings - VOiCES From a Distance challenge), организованный SRI International, в 2019 году прошел впервые и стал площадкой для сравнения решений одной из наиболее сложных задач современного машинного обучения - распознавания речи в трудных условиях (с удаленного микрофона, в присутствии внешних источников шума). Решение такой задачи - ключ к созданию технологий для биометрической идентификации и автоматического распознавания речи, надежно работающих в различных (акустических) условиях.

Участие команды ГК ЦРТ, входящей с апреля 2019 года в экосистему Сбербанка, в VOiCES 2019 обусловлено высокой востребованностью решений для автоматического распознавания речи и распознавания диктора по голосу и необходимостью глубоких изысканий в этих сферах. С одной стороны, современные алгоритмы машинного слуха обеспечивают высокое качество работы в условиях телефонного канала, с другой, они не позволяют получать аналогичные результаты в условиях удаленного микрофона: точность их работы может снижаться на порядок.

В то же время, на рынке наблюдается рост спроса на голосовые ассистенты и другие решения, работающие с использованием речевого интерфейса. Технологии, в которых голос является не только уникальным паролем, но и универсальным интерфейсом для взаимодействия, уже сегодня встраиваются в мобильные устройства, медиасистемы автомобилей, становятся частью умного дома. Кроме того, решения для автоматического распознавания речи и голосовой идентификации диктора используются в умных колонках, решениях для речевой аналитики, ритейла.

Условия конкурса VOiCES 2019 во многом отражали ситуацию, сложившуюся в современной науке. Соревнующимся командам было предложено решить две задачи: распознать речь и идентифицировать диктора по голосу в рамках двух категорий:

  • фиксированная категория предполагала обучение моделей только на базах организаторов - чистой речи, записанной с расстояния до полуметра (ближнего микрофона);
  • открытая категория предполагала возможность добавления к обучающим данным иные базы, доступные участникам.

Чтобы принять участие в конкурсе, было необходимо подготовить минимум одно решение для задачи в любой категории.

Итоговое тестирование проводилось на данных, которые представляли собой зашумленные фонограммы, записанные с разного расстояния от источников звука и шума. Эталонная разметка для них была недоступна до подведения итогов.

Итоговое тестирование моделей всех участников проводилось на оригинальной базе VOiCES [2], которая включала VOiCES development set (множество фонограмм для первоначального тестирования) и VOiCES evaluation set (множество фонограмм для итогового тестирования). Фонограммы тестовых баз данных записывались с использованием 12 микрофонов (студийных, динамических, кардиоидных микрофонов SHURE SM58; всенаправленных, конденсаторных, петличных микрофонов AKG 417L; всенаправленного, динамического, петличного микрофона SHURE SM11). Все фонограммы представляли собой монозаписи, с частотой дискретизации 16 кГц и точностью представления 16 бит на отсчет.

При записи данных, на которых тестировались участники конкурса микрофоны располагались в определенных местах двух различных комнат. Полезный речевой сигнал проигрывался внутри комнат с использованием высококачественной системы воспроизведения. Динамик данной системы располагался на роботизированной платформе, которая имитировала поворот головы человека по отношению к множеству микрофонов. Речевой сигнал был искажен различными шумами: музыкой, звуком работающего телевизора, множественной человеческой речью на заднем плане, естественным шумом комнаты. Подробное описание условий формирования фонограмм представлено в статье [1].

Собственные разработки, подготовленные в рамках VOiCES 2019, участники представили на специальной сессии международной конференции Interspeech 2019 в Австрии.

В современной науке тип микрофона определяют условно. Считается, что микрофон, удаленный от диктора меньше, чем на 0,5 метра - ближний; от 0,5 до 2 метров - средний, дальше 2 метров - дальний.

 

РЕШЕНИЕ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ

Распознавание зашумленной речи, записанной на дальний или средний микрофон, - актуальная задача, для решения которой в современной науке пока не существует универсального решения. Именно этой задаче была посвящена номинация автоматического распознавания речи конкурса VOiCES From a Distance challenge 2019.

Российская команда участвовала в закрытой категории номинации, посвященной автоматическому распознаванию речи. Поэтому единственными обучающими данными для созданных систем стала подвыборка корпуса Libri Speech, содержащая 80 часов речи, записанной на ближний микрофон. Это и стало основной трудностью: обучать нейронные сети нужно было на чистых данных с ближнего микрофона, а распознавать в итоге пришлось зашумленные фонограммы, полученные с помощью дальнего микрофона. Для того, чтобы система работала точнее, команда расширила объем обучающих данных благодаря различным алгоритмам преобразования (аугментации). На основе предложенных обучающих фонограмм были искусственно сгенерированы новые данные, имитирующие фонограммы с удаленного микрофона с наложением шумов. Также использовалась адаптация системы к голосу диктора с помощью x-векторной системы и адаптация к акустике комнаты.

Россияне использовали комбинацию на уровне словных сеток шести акустических моделей, которые создавались на базе различных словарей произношения и входных признаков. N лучших гипотез (n-best) перевзвешивались тремя языковыми нейронными сетями, обученными на основе слов и подсловных единиц. Для обработки несловарных слов использовались тексты, искусственно сгенерированные с помощью нейросетевой языковой модели. Система автоматического распознавания речи, предложенная на конкурс российской командой, представлена на рисунке 1.

Рисунок 1. Схематичное изображение системы для автоматического распознавания речи, предложенной на конкурс VOiCES 2019 командой ГК ЦРТ

 

Созданная система на первом этапе производит очистку обучающих данных: удаляются возможные ошибки в эталонных текстовках. Затем, чтобы сделать фонограммы более разнообразными, применялась симуляция акустики помещения. С помощью программных средств обучающие данные как бы проигрывались в больших и маленьких комнатах разной конфигурации. Полученные таким образом данные очищались от помех, возникших из-за отражения звука в помещении, и использовались для получения отличительных характеристик голоса диктора (x-вектора), характеристик помещения (r-вектора), а также признаков еще двух типов: 80-размерных блоков фильтров и гамматонных блоков фильтров.

Нормализованные признаки каждого произнесения наряду с их первыми и вторыми производными комбинировались с x-векторами и r-векторами. Применение такого набора признаков в значительной степени схоже с процессом, происходящем в акустическом центре головного мозга, где выделение целевой речи происходит как по частотным признакам, так и по их динамическим характеристикам по времени, с учетом отражения звука о стены и предметы, которая не фильтруется напрямую, но подавляется благодаря механизму внимания.

Российская команда также представила систему без использования нейросетевых языковых моделей, использующая словарь из 530 тысяч слов, включая 500 тысяч искусственно сгенерированных слов. Для того чтобы достичь сходства обучающих данных с тестовыми, речевой корпус Libri Speech был модифицирован с помощью симулятора акустики помещения с добавлением различных шумов: шума музыки, шумов из корпусов MUSAN, AURORA, QUT-NOISE, звуком телепередач. Предложенные организаторами 80 часов записей чистой речи были искусственно увеличены в 24 раза. В результате, было получено 1894 часа модифицированных обучающих данных. Испытания предложенной на конкурс системы на множестве данных для первоначальной проверки показали ощутимое повышение точности распознавания речи.

Адаптация акустической модели к диктору с использованием высокоуровневых дикторских признаков (эмбеддингов) – широко распространенная практика. Опыт участия научных сотрудников ГК ЦРТ в конкурсе CHIME 5 в 2018 году показал, что адаптация акустической модели к диктору повышает качество распознавания речи, записанной не только в телефонном канале и на ближнем микрофоне, но и на дальнем микрофоне. В связи с этим, было решено применить эмбеддинги, извлеченные x-векторной системой. Экстрактор x-векторов с размерностью 512 был обучен на данных длиной 1894 часов, полученных указанным выше способом.

Наиболее ценным научным результатом конкурса для российской команды стало изобретение r-векторов, высокоуровневых признаков, которые выделяются из речевых данных и содержат информацию об акустической обстановке в помещении. Их выделение из звукового сигнала позволяет адаптироваться к акустике помещения, что в условиях обработки фонограмм, записанных с помощью дальнего микрофона, является более полезным, чем адаптация к диктору. Предварительное сравнение результатов работы системы автоматического распознавания речи, показали, что адаптация к диктору с помощью выделения x-вектора позволяет повысить точность распознавания с 80,6% до 82,46%. Выделение r-вектора повысило точность автоматического распознавания речи до 83,01%. Наибольшего прироста точности (83,53%) удалось добиться в результате сочетания обоих типов адаптации. Проводя аналогию с нейрофизиологией, можно сказать, что х-векторы и r-векторы в совокупности можно расценивать как паттерн говорящего в непосредственной обстановке разговора, что по всей видимости выделяется и в головном мозге при общении в конкретном случае.

Что касается языковых моделей, они были обучены на наборе текстовых расшифровок для фонограмм из обучающего корпуса. В рамках конкурса были доступны только 4 Мб обучающих текстов. Столь малый объем данных мог повлиять на обучение языковой модели, поэтому дополнительные языковые модели были обучены на двух наборах подсловных единиц, специальным образом подготовленных. Языковые модели на основе рекуррентных нейронных сетей применялись для перевзвешивания гипотез в системе распознавания речи.

Комбинация лучших языковых моделей позволила повысить точность распознавания до 87,14%. Что касается несловарных слов, которые негативно сказываются на работе систем распознавания, в описываемом конкурсе они также были. Множество данных для первоначальной проверки системы содержало 2255 уникальных несловарных слов. Чтобы предотвратить снижение качества распознавания на несловарных словах, языковые модели россиян обучались на искусственно сгенерированных текстах, содержащих более 3 миллионов новых уникальных слов. На этих текстах обучалась n-граммная языковая модель, которая затем интерполировалась с базовой языковой моделью. Словарь итоговой языковой модели был ограничен 500 тысячами наиболее часто генерируемых слов и 30 тысячами оригинальных слов. Это позволило повысить точность распознавания на базе для первоначальной проверки системы с 84,69% до 85,81% для одиночной системы.

Итоговая система автоматического распознавания речи, представленная на конкурс VOiCES 2019, продемонстрировала лучшую среди всех участников точность распознавания: 87,6% на множестве фонограмм для первоначального тестирования, 85,3% на множестве фонограмм для итогового тестирования. По итогам участия в номинации написана статья для специальной сессии конференции Interspeech 2019, в которой раскрываются подробности реализации выбранных решений [2].

Состав российской команды: И. Меденников, Ю. Хохлов, А. Романенко, И. Сорокин, А. Митрофанов, В. Батаев, А. Андрусенко, Т. Присяч, М. Кореневская, О. Петров, А. Затворницкий.

 

РЕШЕНИЕ ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ДИКТОРА ПО ГОЛОСУ

Обучение моделей в рамках фиксированной категории конкурса VOiCES 2019 для системы распознавания диктора могло быть реализовано только с использованием баз SITW и VoxCeleb1 и VoxCeleb2. Эти базы данных содержат аудиофайлы, полученные путем записи речи разных дикторов в различных комнатах с разным уровнем шума на несколько видов микрофонов.

Исключением из этого правила стали только детекторы речевой активности, их разрешалось обучать с использованием любых баз данных. Искусственное увеличение объема данных, имитирующих реальные условия, разрешалось проводить, используя любые публично доступные неречевые аудиозаписи.

В рамках фиксированной категории соревновалось более 20 команд. Решение, демонстрирующее максимальную точность распознавания диктора, разработала команда ГК ЦРТ. Особенность решения [5] заключается в использовании технологий, хорошо зарекомендовавших себя в системах идентификации диктора. При этом в основе систем, представленных в закрытой и открытой категориях номинации, - извлечение высокоуровневых признаков диктора c определенных слоев нейронных сетей, обученных классифицировать дикторов. Для повышения их устойчивости к различным условиям эти нейронные сети были обучены на специальным образом подготовленных данных на основе баз, предоставленных организаторами. Как и у команды, готовившей систему для автоматического распознавания речи, подготовка обучающих данных включала увеличение их объема путем имитации акустики разных помещений. В рамках подготовки финальных систем рассматривались различные подходы препроцессинга признаков, используемых в нейронных сетях. Эти подходы были основаны на применении различных детекторов речевой активности: на основе энергии сигнала, а также используемый в системах автоматического распознавания речи ГК ЦРТ.

Система идентификации диктора включал в себя компоненты для удаления искажения звукового сигнала, которое появляется из-за отражения звука от окружающих объектов, для повышения качества обучающих данных. Также на этом уровне извлекались низкоуровневые признаки диктора, которые постобрабатывались скользящим окном шириной 3 секунды. Что касается высокоуровневых дикторских признаков (эмбеддингов), использовались x-векторы и предложенные научными сотрудниками ГК ЦРТ c-векторы [6].

Выделенные признаки дикторов - x-векторы и c-векторы - было необходимо разделить в виртуальном признаковом пространстве. Для этого использовалась глубокая нейронная сеть. Финальное решение, занявшее первое место в фиксированной категории номинации, было получено в результате слияния нескольких подсистем, принимающих решение о принадлежности голоса тому или иному диктору.       

Открытая категория распознавания диктора предполагала снятие ограничений на обучающие данные. В данной категории, команды могли использовать любые речевые базы, в том числе и предоставленные в закрытой категории. Решение российской команды для открытой категории представляло собой обобщение опыта разработки подсистем, разработанных для закрытой категории, а также подбор оптимальной стратегии их нормализации и слияния. В открытой категории команда ГК ЦРТ заняла первое место среди четырех компаний.

Более подробное описание решений ГК ЦРТ для идентификации диктора дано в статьях [4, 5].

Разработанные для конкурса системы показали, что x-векторная системы, предложенная на конкурс командой ГК ЦРТ, превосходит c-векторную, а увеличение объема данных путем создания искусственной реверберации (отражения звука в помещении) делает систему более устойчивой к непредвиденным условиям. Детектор речевой активности, разработанный для автоматического распознавания речи в ряде случаев помогает добиться более высокого качества распознавания диктора по сравнению с детектором речевой активности на основе энергии.

Состав российской команды, победившей в номинации идентификации диктора: С. Новоселов (руководителем группы голосовой биометрии), А. Гусев, А. Иванов, Т. Пеховский, А. Шулипа, Г. Лаврентьева, В. Волохов, А. Козлов.

 

АНАЛИЗ РЕЗУЛЬТАТОВ И ПОСЛЕДУЮЩИЕ РАЗРАБОТКИ

Несмотря на то, что в рамках конкурса VOiCES 2019 от ГК ЦРТ выступали две отдельные команды (одна занималась задачей распознавания дикторов, другая - автоматическим распознаванием речи), им удалось обменяться опытом и технологиями при подготовке итоговых систем:

  • применялись дикторские представления как в распознавании речи, так и в распознавании дикторов;
  • в системе распознавания дикторов использовался детектор речевой активности, основанный на системе распознавания речи;
  • применялся алгоритм очистки звукового сигнала от помех, возникающих в результате отражения звука в помещении, для улучшения качества работы систем распознавания речи и распознавания дикторов;
  • использовались модели для построения импульсных характеристик помещений, которые затем служили для искусственного создания больших объемов симулированных данных, имитирующих реальные условия (эта процедура необходима при обучении систем распознавания речи и распознавания дикторов).

Такой подход привел научные команды ЦРТ к успеху: золоту во всех номинациях. Синергия различных технологий рассматривается учеными компании как один из способов достижения более высокого качества распознавания речи и диктора и будет использоваться в дальнейших разработках.

 

  1. Richey C. et al. Voices obscured in complex environmental settings (VOiCES) corpus // Interspeech 2018, Hyderabad, India, 2018.
  2. I. Medennikov, Y. Khokhlov, A. Romanenko, I. Sorokin, A. Mitrofanov, V. Bataev, A. Andrusenko, T. Prisyach, M. Korenevskaya, O. Petrov, and A. Zatvornitskiy, “The STC ASR system for the VOiCES from a distance challenge 2019,” in INTERSPEECH, 2019.
  3.  Y. Khokhlov., A. Zatvornitskiy, I. Medennikov, I. Sorokin, T. Prisyach, A. Romanenko, A. Mitrofanov, V. Bataev, A. Andrusenvko, M. Korenevskaya, O. Petrov. “R-vectors: New technique for adaptation to room acoustics”, in INTERSPEECH, 2019.
  4. Novoselov S., Gusev A., Ivanov A., Pekhovsky T., Shulipa A., Lavrentyeva G., Kozlov A., Volokhov V. STC-SID team's speaker recognition system for the VOiCES 2019 challenge // VOiCES 2019 description, 2019.
  5. Novoselov S., Gusev A., Ivanov A., Pekhovsky T., Shulipa A., Lavrentyeva G., Volokhov V., Kozlov A. STC speaker recognition systems for the VOiCES from a distance challenge // Interspeech 2019, Graz, Austria, 2019
  6. S. Novoselov, A. Shulipa, I. Kremnev, A. Kozlov, and V. Shchemelinin, “On deep speaker embeddings for text independent speaker recognition,” in Odyssey 2018 The Speaker and Language Recognition Workshop, June 26-29, Les Sables d’Olonne, France, Proceedings, 2018, pp. 378–385.

Смотрите также