Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ - Дипломная работа

бесплатно 0
4.5 170
Строение артикуляционного аппарата человека с точки зрения возможности распознавания речи по артикуляции. Комплекс параметров артикуляции на основе контура внутренней области губ. Реализация модуля распознавания фонем русской речи по изображениям губ.


Аннотация к работе
Развитие компьютерной техники ведет к усовершенствованию интерфейсов между человеком и компьютером. Существующие системы распознавания речи, основанные на звуке, недостаточно надежны, так как их точность резко ухудшается при искажении звуковой информации шумами различной природы, например, в аэропортах, метро. Кроме того, при наличии нескольких говорящих система распознавания речи сталкивается с проблемой идентификации говорящего в данный момент. Разрабатываемая мультимодальная система распознавания речи так же может активно использоваться для решения экспертно-криминалистических задач, таких как сопоставление видеоизображения и аудио-сигнала, что достаточно часто необходимо при получении достоверной информации.Для исследования возможности распознавания речи по артикуляции рассмотрим строение речевого аппарата с точки зрения данной задачи. Артикуляционный аппарат или речевой тракт человека содержит три основных компонента, обеспечивающих образование членораздельной речи: - дыхательные органы, работа которых во время речепроизводства создает необходимые аэродинамические условия; гортань и голосовые связки, поведение которых определяет характер произносимого звука (гласный, сонант, звонкий согласный, глухой согласный) и мелодику высказывания в целом; С точки зрения речеобразования, каждый звук может быть описан уникальной комбинацией нескольких основных состояний артикуляционной системы - параметрами артикуляции: - Наличие или отсутствие вокализованности (работы голосовых связок); Как показали исследования, для русской речи практически полностью скрытой остается динамика движения тела, кончика и боковинок языка, небной занавески, голосовых связок.Минимальная единица звукового строя языка называется фонемой. В русском языке имеется 42 фонемы: 6 гласных (а, и, о, у, ы, э) и 36 согласных (б, б’, в, в’, г, г’, д, д’, ж, з, з’, э(й), к, к’, л, л’, м’, м, н, н’, п, п’, р, р’, с, с’, т, т’, ф, ф’, х, х’, ц, ч, ш, щ). сонорные (в образовании звука практически не участвует шум, они не имеют пары среди глухих согласных, т.е. являются непарными по глухости/звонкости) - [й], [м], [м‘], [н], [н‘], [л], [л‘], [р], [р‘]; глухие (в образовании звука не участвуют голосовые связки) - [ф], [ф‘], [с], [с‘], [ш], [п], [п‘], [т], [т‘], [к], [к‘], [х], [х‘], [ч], [щ]. Классификация согласных звуков по степени напряжения средней части спинки языка: мягкие (качество согласных, обусловленное наличием дополнительной средненебной (йотовой) артикуляции, которая соединяется с основной артикуляцией согласных, что резко повышает характерный тон и шум) - [й], [щ], [ч], [т‘], [д‘], [н‘], [б‘], [в‘], [г‘], [с‘], [р‘];Реализация фонемы, обусловленная конкретным фонетическим окружением, называется аллофоном. Визуальное отображение фонемы называется виземой (состояние губ, соответствующее фонемам устной речи). Если рассматривать задачу «чтения речи по губам» человеком (в частности, людьми с проблемами слуха), то, по мнению Мироновой Э.В. (к.п.н., педагог Института коррекционной педагогики РАО), заметно для глаза произнесение только двенадцати фонем, которым соответствуют шесть визем: «А» - губы не напряжены, рот раскрывается довольно широко; При исследовании вопроса фонемного и виземного состава русского языка для задачи мультимодального распознавания речи Карпов А.А. и др. признали оптимальным по критерию точности набор из 10 визем (включая паузу) (Таблица 2).На основе литературных данных можно сформулировать основные проблемы, усложняющих задачу считывания речи с губ: 1. Видимые движения губ многозначны (одной виземе может соответствовать несколько фонем); Слова в речи слиты в группы и артикуляция не прекращается с окончанием каждого отдельного слова (проблема разделения слов); Фонемы различаются по длительности. ВТАБЛИЦА525 приведены значения относительной длительности аллофонов (в %) при изменении темпа речи, а также их абсолютная длительность в миллисекундах (мс) и в числе видеокадров (кд) (при скорости съемки 25 кд/сек).При разработке алгоритма распознавания фонем по изображению губ, нам предстоит столкнуться с рядом задач.Наиболее общим образом деформируемую модель можно описать как объект, динамически меняющий форму под действием различных сил, называемых энергиями. Деформируемая модель (deformabletemplatemodel) представляет собой шаблон некоторой формы (для двумерного случая - открытая либо замкнутая кривая, для трехмерного - поверхность). Наложенный на изображение, шаблон деформируется под воздействием различных сил, внутренних (определенных для каждого конкретного шаблона) и внешних (определенных изображением, на которое наложен шаблон) - модель меняет свою форму, подстраиваясь под входные данные. Под моделями свободной формы подразумеваются модели, шаблон которых не имеет четко определенной структуры - в процессе деформации модель может принимать совершенно разные формы. Изменения деформируемой модели можно описать аналитической функцией, аргументом которой служит текущая геометрическая форма модели, входное изображение играет роль па

План
Оглавление

1. Введение

2. Распознавание речи по губам

2.1 Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции.

3. Перечень фонем русской речи

3.1 Классификация звуков русского языка

3.2 Особенности визуализации произносимых фонем.

3.3 Задача считывания речи с губ.

4. Разработка алгоритма распознавания фонем русской речи

4.1 Обзор

4.1.1 Гибкие контурные модели

4.1.2 Представление контуров губ в виде векторов признаков

4.1.3 Исследование поверхности для применения к чтению по губам.

4.2 Комплекс параметров артикуляции на основе контура внутренней области губ

4.3 Алгоритм выделения внутренней области губ и аппроксимации области эллипсом

4.4 Описание исследования распознавания фонем

5. Разработка биотехнической системы

5.1 Качество изображения

5.2 Требования к условиям регистрации изображения

5.2.1 Требования к геометрическим размерам лица на изображении

5.2.2 Требования к положению головы

5.3 Требования к характеристикам изображения лица

5.3.1 Требования к контрасту изображения

5.3.2 Требования к разрешению изображения

5.3.3 Требования к частоте кадров видеоизображения

5.4 Разработка структурно-функциональной схемы системы и схемы БТС. Формирование требований к подсистемам

5.5 Реализация модуля распознавания фонем русской речи по изображениям губ

6. Список использованной литературы

1

Введение
Развитие компьютерной техники ведет к усовершенствованию интерфейсов между человеком и компьютером. Один из важнейших способов человеческой коммуникации - речь, поэтому надежный ввод речевой информации является важным направлением усовершенствования человеко-машинных интерфейсов. Существующие системы распознавания речи, основанные на звуке, недостаточно надежны, так как их точность резко ухудшается при искажении звуковой информации шумами различной природы, например, в аэропортах, метро. При некоторых болезнях речевого аппарата, когда «пропадает голос». Кроме того, при наличии нескольких говорящих система распознавания речи сталкивается с проблемой идентификации говорящего в данный момент. Поэтому целесообразно одновременное использование видеоинформации, то есть чтения по губам, что также является важной частью человеческого восприятия речи. Разрабатываемая мультимодальная система распознавания речи так же может активно использоваться для решения экспертно-криминалистических задач, таких как сопоставление видеоизображения и аудио-сигнала, что достаточно часто необходимо при получении достоверной информации. И в случаях отсутствия приемника аудио-сигнала в системах видеонаблюдения. Создание системы распознающей все виземы русской речи является актуальной задачей. В рамках данной работы предполагается разработать систему распознавания визем по видеоизображению, в первую очередь используемых слабослышащими при чтении по губам. Целью квалификационной работы является разработка биотехнической системы для распознавания фонем русской речи по изображениям губ.

Для этого необходимо реализовать следующие задачи: - Определить характерные особенности фонем русского языка;

- Разработать алгоритм вычисления параметров артикуляции;

- Провести исследование по распознаванию фонем.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?