BIS Journal №3(38)/2020

28 августа, 2020

Опять победа!

Российская технология распознавания речи от группы ЦРТ признана лучшей в мире.

Научная команда группы ЦРТ (входит в экосистему Сбербанка) одержала победу в самом сложном из направлений международного конкурса на распознавание речи с нескольких микрофонов в условиях естественной обстановки CHiME Speech Separation and Recognition Challenge (CHiME-6), существенно опередив решения лидеров в развитии методов распознавания речи – Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

 

УСЛОВИЯ КОНКУРСА ИЗМЕНИЛИСЬ

Проводившийся уже в шестой раз конкурс по разделению и распознаванию речи CHiME ставит для участников задания по распознаванию естественной разговорной речи на английском языке в повседневной домашней обстановке. При этом задача с каждым разом усложняется: в этом году, впервые в истории данного конкурса, помимо направления по распознаванию заранее сегментированной (разделённой) речи, было добавлено задание, где перед непосредственно распознаванием требовалось разделить аудиопоток на сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему (провести диаризацию). Команда ЦРТ принимала участие в решении обоих заданий, но основное внимание обратила на задачу более сложного направления — распознавания несегментированной речи.

Диаризация — процесс разделения входящего аудиопотока на сегменты в соответствии с принадлежностью аудиопотока тому или иному диктору.

Речевые данные для конкурса были записаны в условиях двадцати реальных домашних ужинов, состоящих из общения на свободные темы четырёх знакомых между собой людей (двух хозяев и двух гостей) в процессе приготовления пищи и непосредственно за ужином. Каждый раз записывалось 24 канала дальних микрофонов в трёх различных помещениях. На таких записях присутствуют отрезки, где слышна одновременная речь 2-4 человек, присутствуют реверберация и интенсивный шум: звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех, что значительно усложняет распознавание речи. Проблема выделения речи и её последующего распознавания в таких сложных условиях получила название cocktail party problem (проблема коктейльной вечеринки). Полученные записи были разделены на три набора образцов: для обучения, настройки и итогового тестирования представленных решений.

Дальним микрофоном называют микрофон, удалённый от диктора не менее чем на 2 м.

Базовое решение для задачи диаризации, предложенное организаторами конкурса, было основано на наиболее широко используемом в настоящее время подходе — кластеризации скрытых представлений диктора (эмбеддингов). Первым этапом в данном способе является выделение речевых сегментов при помощи детектора активности речи (VAD). Далее осуществляется разбиение сигнала на интервалы по 1,5 с с шагом 0,75 с, для каждого из которых считаются мел-кепстральные коэффициенты (MFCC) и извлекаются x-векторы — наиболее широко использующиеся сейчас эмбеддинги дикторов. Эти x-векторы разбиваются на 4 группы, соответствующие дикторам в сессии, при помощи вероятностного линейного дискриминативного анализа (PLDA) и алгоритма агломеративной иерархической кластеризации (AHC). Наконец, подряд идущие интервалы, соответствующие одному диктору, соединяются вместе. Этот подход дает довольно большую ошибку диаризации (DER), составляющую около 63%, что не позволяет применить алгоритм управляемого разделения источников (GSS), который продемонстрировал лучшие результаты при решении задач предыдущего конкурса CHiME-5.

 

ПРИНЦИПИАЛЬНО ИНОЙ ПОДХОД

Для оценки качества диаризации применяют следующие оценки (чем меньше значение данных показателей, тем более качественным считается диаризация):

 

DER — Diarization Error Rate

DER вычисляется сопоставлением результата диаризации с эталонной разметкой.

DER = (Tfa + Tmiss + Tspkr) / Тspeech,

где Tfa - false alarm time (время, когда система переоценивает количество дикторов),

Tmiss - miss time (время, когда система недооценивает количество дикторов),

Tspkr - error time (время, когда предполагаемый диктор не сопоставлен с эталонным),

Тspeech - общее время аудиофайла.

 

JER — Jaccard Error Rate

JER основан на индексе Jaccard, показателе сходства, который используется для оценки результатов систем сегментации изображений. JER показывает насколько пересечение результата диаризации и эталонной разметки отличается от их объединения. Он похож на DER, но при этом одинаково взвешивает вклад каждого диктора, независимо от того, какое количество речи он на самом деле произнёс.

При попытке совершенствовать предложенное базовое решение с помощью использования улучшенного 34-слойного экстрактора x-векторов Wide ResNet (WRN), обученного на данных VoxCeleb и замены агломеративной иерархической кластеризации на более эффективный алгоритм спектральной кластеризации (Spectal Clustering), сотрудникам ЦРТ удалось снизить ошибку диаризации с 63% до 47%, что всё ещё было недостаточно для эффективного применения алгоритма GSS. Ключевым недостатком подхода, основанного на кластеризации эмбеддингов, является его принципиальная неспособность выделять одновременную речь нескольких дикторов. В ходе анализа выяснилось, что доля одновременной речи в представленных записях значительна, поэтому вышеописанный подход даже в идеальном случае не способен снизить ошибку диаризации ниже 25,6%.

Российской командой был предложен принципиально иной подход, названный Target-Speaker Voice Activity Detection (TS-VAD), или детектирование активности целевого диктора, способный выделять одновременную речь нескольких дикторов. При таком подходе входные признаки MFCC преобразуются четырёхслойной свёрточной нейронной сетью (CNN), а затем подаются на четыре параллельных блока Speaker Detection (SD), имеющих общие параметры. Каждый SD-блок представляет собой двухслойную двунаправленную нейронную сеть с блоками долгой краткосрочной памяти LSTM (BLSTM), в котором дополнительным входом является i-вектор (более простой по сравнению с x-векторами вид эмбеддингов), соответствующий диктору. Затем объединённые выходы четырёх SD-блоков передаются на ещё один слой BLSTM, за которым следуют четыре параллельных полносвязанных слоя и двухклассовые слои softmax. Четыре пары выходов модели TS-VAD представляют вероятности наличия или отсутствия каждого диктора в конкретный момент времени (рис. 1).

Рисунок 1. Схема предложенной одноканальной TS-VAD модели

 

Для повышения эффективности работы TS-VAD в условиях многоканального сигнала была предложена многоканальная TS-VAD модель (TS-VAD-MC) в которой скрытые представления SD для каждого из дикторов, извлечённые из одноканальной TS-VAD модели по 10 каналам, комбинируются при помощи одномерной свёртки и простого механизма внимания. Результат этой комбинации подаётся в BLSTM слой и затем, как и в одноканальной модели, используется 4 слоя, отвечающие за бинарную классификацию наличия/отсутствия речи каждого из дикторов (рис. 2.).

Рисунок 2. Схема предложенной многоканальной TS-VAD модели

 

Ключевым фактором для предложенного TS-VAD подхода является точность оценки i-векторов для каждого диктора. Чтобы подсчитать точные i-векторы, требовалась хорошая диаризация, а, чтобы получить хороший результат диаризации, нужны, в свою очередь,точные i-векторы. Поэтому был использован итеративный подход к оценке i-векторов, схема которого представлена ниже. Для начальной итерации i-векторы для каждого диктора были построены на основе улучшенных х-векторов (WRN), вместо агломеративной иерархической диаризации AHC использовалась спектральная кластеризация SC, PLDA-score для сравнения x-векторов были заменены косинусным расстоянием (рис. 3).

Рисунок 3. Общая схема алгоритма решения по распознаванию речи, представленного командой ЦРТ

 

Использование такого алгоритма позволило существенно улучшить показатели точности распознавания DER и JER по сравнению с базовой моделью как на наборе образцов на котором можно было настраивать систему (development set, DEV), так и на наборе для итогового тестирования (evaluation set, EVAL), что наглядно видно в приведённой таблице сравнения результатов различных исследованных методов (рис. 4).

Рисунок 4. Полученные результаты различныхметодов, которые исследовала российская команда

 

СНИЖЕНИЕ ОШИБКИ

Как видно из таблицы, предложенный метод существенно снизил ошибку диаризации по сравнению с базовым решением на основе кластеризации дикторских эмбеддингов. Полученная в итоге диаризация оказалась достаточно качественной для применения алгоритма GSS: по сравнению с GSS на идеальной диаризации, распознавание было хуже всего на несколько процентов по показателю WER. Далее было проведено обучение акустической модели на наборе данных, состоящем из записей, полученных с использованием четырёх версий GSS с различными настройками, использована симуляция комнаты и другие возможности, включённые в базовое решение. Основная акустическая модель состоит из 9-уровневой сверточной нейронной сети (CNN), за которой следует 8-уровневая факторизованная нейронная сеть с временной задержкой (TDNN-F), использующая в качестве входных данных 80-мерные log Mel filterbank или gammatone filterbank. Также были использованы другие методы улучшения акустической модели, которые обеспечили дополнительное снижение показателя WER (рис. 5).

Рисунок 5. Общая схема акустической модели, предложенной командой ЦРТ

 

С ОТРЫВОМ ОТ КОНКУРЕНТОВ

Команда ЦРТ одержала победу в решении задачи второго направления со значительным отрывом от конкурентов (результат команды ЦРТ по показателю WER составил 43%, результат команды, занявшей второе место — 68%). Особенно стоит отметить то, что другими участниками соревнований выступали ведущие университеты мира, лидеры в развитии методов распознавания речи: университет Джонса Хопкинса, научно-технический университет Китая, университет Падерборна, университет Брно, в то время как коммерческие компании обычно не принимают участия в подобных конкурсах (рис. 6).

Рисунок 6. Итоговые результаты решения задачи второго направления по показателю WER, где меньшее значение показывает лучший результат (данные с официальной страницы результатов)

 

Качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорят сразу несколько дикторов, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит — существенно оптимизировать работу современных контакт-центров ретейла, e-commerce, телеком, других отраслей.

Качественное распознавание речи отдельных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь.

 

«Golden VOiCES из России» (BIS Journal №1/2020)

«Россияне победили на чемпионате мира по… идентификации!» (BIS Journal №1/2019)

Смотрите также