Описание программной оболочки, алгоритмов и процедур для распознавания ограниченной группы слов на основе скрытых моделей Маркова. Особенности распознавания в режиме реального времени, использование функции распределения вероятностей наблюдаемых событий.
Аннотация к работе
ПРОГРАММНАЯ ОБОЛОЧКА РАСПОЗНАВАНИЯ КОМАНДВ работе представлена программная оболочка, описание алгоритмов и процедур для распознавания ограниченной группы слов на основе скрытых моделей Маркова (СММ). Распознавание осуществляется в режиме реального времени с использованием функции нормального распределения вероятностей наблюдаемых событий. The paper presents the program, description of algorithms and procedures for recognition of a limited group of words based on the hidden Markov model (HMM).Примером таких приложений является система распознавания речи, которая может быть использована для голосового управления, голосовой идентификации, голосового перевода, компрессии речи и т. п. В настоящее время предложено большое число методов и подходов для построения систем распознавания речи в зависимости от их назначения: диктор-независимые системы, online и off-line системы, системы, распознающие слитную речь или отдельные команды, и т. п.1) основывается на том, что речи человека соответствует, в основном, частотный диапазон колебаний аналогового сигнала s(t) от 200 до 4000 Гц. Известно, что оцифрованный сигнал s i?0,1,2,…,N - 1 по теореме Котельникова может быть восстановлен однозначно и без потерь при частоте дискретизации, вдвое большей максимальной частоты в сигнале. Так как при оцифровке звука важным параметром является амплитудное квантование, то установлено, что при использовании квантования с разрядностью в 16 бит погрешности квантования остаются для слушателя практически незаметными.В данной работе решение задачи определения начала и конца слова в сигнале (VAD - voice activity detection) в режиме реального времени основано на анализе величин четырех различных характеристик сигнала: среднее значение «огибающей» сигнала, нормированное число переходов оцифрованного сигнала через нуль, отношение интенсивностей сигнал-шум и максимальная длительность «тишины». Первая характеристика основана на определении среднего значения модуля оцифрованной «огибающей» H (s) сигнала s , n i i = 0,1,…N-1: [N/2] Очевидно, что у речевого сигнала значение параметра E(s) больше среднего значения параметра E(s) у «тишины» сигнала или постороннего слабого шума, что и может быть использовано, как одно из условий, при выделении речевой фазы сигнала. Для шума с частотой выше 2000 Гц данное значение будет выше 0.5, поэтому при определении данного параметра для высокочастотного шума (без речевого сигнала) необходимо его значение инвертировать для сохранения возможности распознавания речевой фазы. ? ? стве сигнала анализируется оцифрованный шум d без речевого сигнала, то спектральная плотность шума определяется аналогичным выражением iВыделение речевых участков сигнала, в которых присутствуют слова, позволяет провести предварительную подготовку словаря распознаваемых слов на основе процедуры извлечения векторов признаков у слов, входящих в состав словаря. Выбранный сдвиг окна блока обеспечивает величину пересечения блоков при одном сдвиге на 68.75 %. Число блоков Q, на которое разбивается сигнал, при заданной длине сигнала N определяется по формуле: Q = ?N - K ? 1, (9) После разбиения сигнала на блоки полученные данные можно представить в следующем виде: a(q), где k - номер точки сигнала в k Особенностью восприятия звука человеком является тот факт, что в полосе частот звуковых колебаний до 1000 Гц субъективное восприятие удвоения частоты почти линейно со-впадает с физическим увеличением частоты в два раза.В качестве классификатора полученных векторов-признаков в настоящей работе применяются скрытые модели Маркова, в которых наблюдаемые события считаются результатом перехода от одного скрытого состояния к другому. В случае распознавания речи наблюдаемые события - это последовательность векторов кепстральных коэффициентов в блоках, на которые разбит сигнал. Однако число скрытых состояний и функции распределения вероятностей наблюдения коэффициентов неизвестны, и нельзя сказать, в каком из состояний находилась модель при наблюдении текущего события. Если речь рассматривать как последовательность перехода из одного состояния в другое (например, последовательность перехода по фонемам слова), то скрытые Марковские модели можно рассматривать в качестве инструмента распознавания. Если в процессе работы с данной моделью наблюдаемые события не встречаются в такой модели, то необходимо для данных событий найти ближайшие из представленных (т. е. кванто-ij вать наблюдаемые события) в модели.В программной оболочке было проведено исследование по распознаванию слов с использованием скрытых моделей Маркова с различным числом состояний. В качестве обучающей выборки для данных моделей выступали 10 слов, произнесенных одним автором, из записанных 50-ти экземпляров слова. Для проведения эксперимента распознавания программная оболочка использовала оставшиеся 40 экземпляров слова. В эксперименте распознавания менялось число заданных скрытых состояний, число кепстральных коэффициентов в блоке, диапазон выборки частот для распознавания и число слов словаря.