Моделирование алгоритма выделения огибающей сложных периодических сигналов и получение первичных признаков различных звуков, их использование в системах идентификации и верификации. Анализ безопасности разработки при её эксплуатации; определение затрат.
Аннотация к работе
Удобство для пользователя, простота, способность легко интегрироваться с другими методами - также важные факторы, говорящие о целесообразности применения речевых технологий в биометрических системах как отдельно, так и в комплексе с другими методами верификации/идентификации личности. Верификация диктора предполагает подтверждение или отвержение личности по ее речевой фразе при авторизации, т.е. система решает "да" при принятии решения о признании диктора тем, за кого он себя выдает, или "нет" при попытке обмана системы диктором, пытающимся получить авторизацию под чужим именем. Идентификация диктора (31) по его речевой фразе представляет собой определение конкретной личности из заданной группы в N дикторов или вынесение решения, что диктор не принадлежит к этой группе. Приложения систем верификации и идентификации могут быть самыми разнообразными - от систем локальной или удаленной (по телефону) авторизации личности, связанной с предоставлением прав (используется при допуске к охраняемым объектам или к информации и финансовым операциям в рамках, например, электронной коммерции) до юридических аспектов аутентификации личности в судебной практике. Системы автоматической верификации диктора по речевому сигналу обеспечивают надежность, соизмеримую с надежностью принятия решения человеком, хорошо знакомым с голосом диктора, а в некоторых ситуациях превосходят поточности решения человека (особенно при верификации по телефону).Аналитический сигнал - это один из способов комплексного представления сигнала, который применяется при анализе данных. При раздельном обратном преобразовании Фурье реальной и мнимой части спектра S() сигнал s(t) раскладывается на четную и нечетную составляющие. Пример сигнала (А), его комплексного спектра (В) и восстановления четной и нечетной части сигнала (С) из реальной и мнимой части спектра приведен на рис.1.1.1. Аналитическим сигналом, отображающим вещественный сигнал s(t), называют второй интеграл выражения (1.1.1), нормированный на, т.е. обратное преобразование Фурье спектра сигнала s(t) по положительным частотам: z(t) = (1.1.2) Аналогичное преобразование первого интеграла выражения (1.1.1) дает сигнал zs*(t), комплексно сопряженный с сигналом z(t): zs*(t) = Re z(t) - j·Im z(t), что наглядно видно на рис.Прямое преобразование Гильберта произвольной действительной функции x(t),-? <t <?, результат которого будем отображать знаком тильды над индексом исходной функции, задается сверткой x(t) с функцией hb(t) = 1/(t): (t) = H[x(t)] = x(t) * (1/t), (1.2.3) Это не более чем преобразование Фурье свертки функций: x(t)*hb(t) U X(f)?Hb(f), которое позволяет вычислить результат преобразования Гильберта во временной области через частотную область: (t) = (f)?exp(j2ft) df = X(f)?Hb(f)?exp(j2ft) df Функция hb(t)=1/t является нечетной, а спектр этой функции, представленный только мнимой частью, является (с учетом знака мнимой части) обратной сигнатурной функцией (рис.1.2.2): Hb(f) = TF[1/t] =-j?sgn(f) = (1.2.5) Функция Re(X(?)) (1.2.4) умножается на 1 при ?0, и тем самым превращается в нечетную мнимую часть Im( (?)) спектра (?) функции (t), показанную пунктиром. Аналогично на функцию-j?sgn(?) умножается и мнимая функция j?Im(X(???, при этом сигнатурная функция инвертируется (-j?j = 1), что меняет знак левой части функции Im(X(??? - области отрицательных частот, и превращает ее в реальную четную часть Re( (?)) спектра (?) (рис.1.2.5).Преобразование константы, а в силу линейности преобразования, и постоянной составляющей сигнала, равно нулю. Это прямо следует из нечетности ядра преобразования Гильберта. Отсюда следует, что при преобразовании Гильберта из квадратурной составляющей исключается постоянная составляющая. Однако в силу исключения из сигнала при первом преобразовании постоянной составляющей, при двойном преобразовании сигнал x(t) восстанавливается с исключенным средним значением по интервалу задания. Если все косинусные составляющие сигнала x(t) превращаются в ортогональные им синусные составляющие сигнала , а синусные - в ортогональные им косинусные, то и сигналы x(t) и должны быть ортогональны.Преобразование Гильберта аналоговых сигналов целесообразно выполнять не по формулам линейной свертки с оператором 1/t, который стремится к ? при t ? 0, а через спектр аналитической функции: z(t) = x(t) j? (t) U X(f) j? (f) = Z(f). Заменяя в этом выражении функцию (f) =-j sgn(f)?X(f), получаем: Z(f) = [1 sgn(f)]?X(f), (1.4.2) где функция 1 sgn(f) равна 0 при f 0, при этом: Z(f) = , (1.4.2") т.е. спектр функции z(t) является односторонним и устанавливается непосредственно по спектру функции x(t) при f ? 0 (см. также (1.2.13)). Обратное преобразование Фурье функции Z(f) должно давать комплексную функцию z(t), при этом из (1.4.2") следует: x(t) = Re [2 X(f) exp(j2ft) df], (1.4.3) При формировании аналитической функции по (1.4.1, 1.1.4) в качестве вещественной части функции следует использовать исходный сигнал x(t), а не его форму по (1.4.5").Зададим радиоимп
План
Содержание
Введение
1. Обзор методов анализа звуковых сигналов
1.1 Метод преобразования Гильберта
1.1.1 Понятие аналитического сигнала
1.1.2. Преобразование Гильберта
1.1.3. Свойства преобразования Гильберта
1.1.4 Вычисление преобразования Гильберта
1.1.5 Примеры применения преобразования
1.2 Спектральный метод анализа
2. Разработка алгоритма
2.1 Описание средств разработки
2.1.1 MATLAB
2.1.2 COOLEDIT Pro
2.2 Описание программ, реализующих алгоритм
2.2.1 Программа выделения огибающей тестовых сигналов
2.2.2 Программа выделения огибающей одиночных звуков
2.2.3 Программа выделения огибающей сложных звуков
3. Результаты экспериментального исследования
3.1 Одиночные звуки.
3.2 Переходы между звуками
3.3 Словосочетания
4. Анализ безопасности и экологичности работы
4.1 Анализ трудового процесса пользователя
4.2 Оценка качественных характеристик трудового процесса
4.3 Разработка мероприятий, снижающих воздействие выявленных вредных факторов
4.4 Экологичность работы
5. Экономическое обоснование работы
Заключение
Литература
Введение
Голос и речь человека несут, как известно, явную индивидуальную информацию в силу уникальности физиологического строения его артикуляторного аппарата и специфики речи. Именно поэтому они привлекают внимание фирм - разработчиков биометрических систем к применению верификации и идентификации диктора для различных приложений. Особенность голосовой биометрики состоит в том, что помимо прочего она допускает удаленную (по телефону) и скрытую аутентификацию с помощью простых и доступных сенсоров (микрофонов), что иногда невозможно или дорого для иной биометрической информации. Удобство для пользователя, простота, способность легко интегрироваться с другими методами - также важные факторы, говорящие о целесообразности применения речевых технологий в биометрических системах как отдельно, так и в комплексе с другими методами верификации/идентификации личности.
Верификация диктора предполагает подтверждение или отвержение личности по ее речевой фразе при авторизации, т.е. система решает "да" при принятии решения о признании диктора тем, за кого он себя выдает, или "нет" при попытке обмана системы диктором, пытающимся получить авторизацию под чужим именем. Качество системы верификации личности определяется двумя типами ошибок: FAR - вероятностью принять "чужака" за "своего" и FRR - вероятностью отвергнуть "своего". Но иногда критерий качества определяется как среднее этих ошибок EER= (FAR FRR)/2 при условии их равенства. Система верификации диктора работает хорошо, если вероятность ошибочных решений относительно мала.
Идентификация диктора (31) по его речевой фразе представляет собой определение конкретной личности из заданной группы в N дикторов или вынесение решения, что диктор не принадлежит к этой группе. Решения системы 51 могут быть таковы: правильное определение конкретной личности, входящей в заданную группу; ошибочное определение личности, входящей в указанную группу ("перепутывание"); отвержение "своего"; принятие (и отождествление с одним из членов группы) или отвержение "чужака". Качество системы тем выше, чем меньше вероятность ошибки при вынесении решения. Однако некоторые ошибки могут быть менее значимы, чем другие (например, принятие "чужака" может приводить к более драматическим последствиям, т.е. более высокой цене решения, чем неверная идентификация личности из заданной группы).
Приложения систем верификации и идентификации могут быть самыми разнообразными - от систем локальной или удаленной (по телефону) авторизации личности, связанной с предоставлением прав (используется при допуске к охраняемым объектам или к информации и финансовым операциям в рамках, например, электронной коммерции) до юридических аспектов аутентификации личности в судебной практике. Надежность верификации или идентификации, а также стоимость решения - важные вопросы, решение которых зависит от конкретного приложения и имеющихся альтернатив.
Речевая фраза, являющаяся объектом анализа и принятия решения при распознавании диктора, может иметь фиксированный характер (пароль), быть выбранной системой по случайному закону из заданного набора или быть произвольной. Соответственно различают текстозависимый, текстоподсказанный или текстонезависимый режим SVI.
Системы автоматической верификации диктора по речевому сигналу обеспечивают надежность, соизмеримую с надежностью принятия решения человеком, хорошо знакомым с голосом диктора, а в некоторых ситуациях превосходят поточности решения человека (особенно при верификации по телефону). Система должна быть предварительно информирована о том, с каким конкретно диктором она взаимодействует, что обеспечивается вводом PIN-кода в речевой или иной форме. Вероятности ошибки EER на уровне долей процента характерны для продвинутых систем SV. Наиболее низкие значения EER характерны для текстозависимого режима, когда верификация диктора проводится по фиксированной парольной фразе, а искажения речевого сигнала отсутствуют. Предполагается, что диктор сотрудничает с системой, т.е. обеспечивает нормальнее взаимодействие с ней в режиме использования парольных фраз.
При идентификации диктора, входящего в небольшую группу (например, жителей интеллектуального дома или корпоративных пользователей) вероятность ошибки может быть на уровне одного процента или менее при хорошем качестве сигнала. Но с ростом числа дикторов надежность падает. Если для идентификации диктора используется текстонезависимый режим, когда речевая фраза может быть произвольной, то это также может понижать надежность.