Скачать Дипломная работа на тему Исследование спектрограмм голоса с использованием пакета Matlab бесплатно и без регистрации

бесплатно 0

4.5 114

Дипломная работа Программирование Программирование, компьютеры и кибернетика Размещено: 10.01.2019

Возможности среды Matlab по цифровой обработке сигналов, включая спектральную обработку голоса человека, для выявления отклонений произношения гласных звуков и последующей коррекции. Программная реализация обработки гласных звуков в пакете Matlab.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:

Аннотация к работе

Matlab содержит инструменты для сбора данных; анализа и обработки данных; визуализации и цифровой обработки сигналов и изображений; создания алгоритмов и проектирования; моделирования и имитации; программирования и разработки приложений. До этого система имела единственную звуковую команду: sound(Y.Р5) - воспроизводит сигнал из вектора Y с частотой дискретизации Р5 с помощью колонок, подключенных к звуковой карте компьютера. Теперь появились дополнительные команды воспроизведения звука: sound(Y,...) - масштабирует и воспроизводит сигнал из массива Y: По синтаксису команда аналогична-sound( Y,...); [Y,FS,BITS]=wavread(FILE) - считывает файл типа WAVE с именем FILE и возвращает массив данных Y, частоту дискретизации FS (в герцах) и разрядность BITS кодирования звука (в битах); Помимо работы с wav-файлами можно воспроизводить вектор и матрицу в звуковом в виде с использованием следующих функций: - sound, синтаксис которой записывается следующим образом: sound (у, Fs, bits), где у - вектор или двухстолбцовая матрица сигнала, Fs - частота дискретизации, Гц, bits - число бит на отсчет (8 или 16).В данной выпускной квалификационной работе проведено исследование спектрограмм голоса с использованием пакета Matlab, в котором предусмотрены средства для воспроизведения и записи звука, а также для работы со звуковыми файлами формата wav. Таким образом, работа выполнена с помощью устройств и систем информационных технологий. При работе с устройствами и системами информационных технологий, в частности, с компьютером, человек подвергается воздействию следующих опасных и вредных производственных факторов (ОВПФ): электромагнитных полей, инфракрасного и ионизирующего излучений, шума и вибрации, статического электричества и др. Отметим, что при использовании данного метода также применяются устройства и системы информационных технологий, а именно: подключенная видеокамера с выводом изображения, полученного при обследовании, на экран. Правильно выполненная система освещения имеет большое значение в снижении производственного травматизма, уменьшая потенциальную опасность многих производственных факторов; создает нормальные условия для работы органам зрения и повышает общую работоспособность организма.Проведен анализ спектров и спектрограмм мужских и женских голосов для целей выявления отклонений произношения гласных звуков и последующей коррекции в дальнейшем.

Введение

Существует множество научных работ, связанных с обработкой речи как звукового сигнала, созданы разнообразные математические модели речевого аппарата (РА) человека. Вся эта деятельность направлена преимущественно на решение задач распознавания и синтеза речи. С другой же стороны, врач-оториноларинголог (ЛОР) при диагностике заболеваний РА ограничен результатами вредных рентгенологических либо инвазивных методов исследования и, конечно, собственным опытом. В настоящее время предпринимаются попытки расширить возможности врача с помощью компьютерной диагностики [1].

В этих целях применяется дорогостоящее программное обеспечение (ПО): Sound Forge, WAVELAB, Voiche и др. Это ПО имеет широкий функционал в обработке звуковых сигналов как таковых, но не предназначено непосредственно для диагностических целей и требует специальной подготовки для его использования. Большинство же созданного пока в помощь врачам ПО является не более чем реализацией части функционала вышеописанных продуктов.

Таким образом, до сих пор остается открытым вопрос о создании ПО по обработке голоса человека.

Появившаяся в начале 60-х годов и быстро увеличивающая свою мощность компьютерная техника позволила решать многие научные и инженерные задачи, которые не поддавались ранее решению аналитическими методами. К середине 70-х годов было накоплено большое количество алгоритмов численного решения таких задач. Образовались целые библиотеки алгоритмов. К числу лучших из таких библиотек следует отнести библиотеки матричных алгоритмов LINPACK и EISPACK департамента энергетики США. Эти библиотеки - собрание тщательно проверенных и оптимизированных алгоритмов, разработанных в течение многих лет ведущими мировыми специалистами. Они фактически представляют собой современное состояние численных методов для научных и инженерных целей. С появлением этих библиотек появилась также необходимость обеспечить кратчайший доступ широкой аудитории инженерных и научных работников к этому изобилию алгоритмов. Собственно говоря, создание языка Matlab (сокращенно от MATRIX LABORATORY - матричная лаборатория) и было обусловлено этой необходимостью [2].

Когда в 1978г. Cleve Moler, разработчик системы Matlab, предложил в качестве основного объекта языка Matlab использовать двумерный массив (матрицу), не требующий задания размерности, возможно, он не предполагал насколько эффективным окажется новый язык для написания матричных алгоритмов.

Matlab за прошедшие годы приобрел большую популярность, постепенно переместившись с больших вычислительных систем на персональные компьютеры, а сама программа вместе со всеми профессиональными приложениями, превратилась в мощную систему, охватывающую широкий спектр научных, инженерных и экономических применений.

Matlab содержит инструменты для сбора данных; анализа и обработки данных; визуализации и цифровой обработки сигналов и изображений; создания алгоритмов и проектирования; моделирования и имитации; программирования и разработки приложений.

Matlab выполняет множество компьютерных задач для поддержки научных и инженерных работ, начиная от сбора и анализа данных до разработки приложений. Среда Matlab объединяет математические вычисления, визуализацию и мощный технический язык. Встроенные интерфейсы позволяют получить быстрый доступ и извлекать данные из внешних устройств, файлов, внешних баз данных и программ. Кроме того, Matlab позволяет интегрировать внешние процедуры, написанные на языках Си, Си , Фортран, и Java с Matlab - приложениями.

Используемый более чем полумиллионом пользователей: в промышленности, государственных, академических и учебных организациях, Matlab фактически стал принятым во всем мире стандартом для технических вычислений. Matlab имеет широкий спектр применений, включая цифровую обработку сигналов и изображений, проектирование систем управления, естественные науки, финансы и экономику, а также приборостроение. Открытая архитектура позволяет легко использовать Matlab и сопутствующие продукты для исследования данных и быстрого создания конкурентоспособных пользовательских инструментов.

Развитие электроники и компьютерных технологий привело к использованию мультимедийных устройств для записи, хранения и воспроизведения звуковых данных. Голос также является звуковым сигналом и несет важную информацию о голосообразующей функции гортани. Это позволяет с помощью специальных компьютерных программ проводить его акустический анализ при различных заболеваниях гортани. Акустическим аналогом голоса является его спектр. Наиболее достоверные результаты получаются при усредненном спектральном анализе длинных отрезков спонтанной речи.

Он успешно применяется как при акустическом анализе патологических голосов [3], так и для определения качества голоса в спонтанной речи здоровых субъектов. Гортань здорового человека не способна воспроизводить абсолютно устойчивую частоту голоса. Каждый период будет, так или иначе, отличаться от последующего по частоте и амплитуде. Степень частотной нестабильности (пертурбации) вибрационной способности складок называется jitter. На его величину оказывают влияние структурные и биомеханические различия между голосовыми складками, нарушение состояния их слизистой оболочки, а также аэродинамические изменения в гортани [3]. Показатель измеряется в процентах и имеет тенденцию увеличиваться при охриплости. Степень амплитудной нестабильности вибрации голосовых складок называется shimmer. Показатель измеряется в ДБ, возрастая при увеличении массы складок и нарушении иннервации гортани. Любой голос всегда содержит определенное количество шума. Чем больше выражена охриплость, тем выше его уровень.

Целью данной выпускной работы явилось исследование акустических данных голоса человека на основе спектральных данных в среде Matlab. Полученные результаты могут быть использованы для сравнения данных до и после лечения больных с функциональным изменением голоса.

1.Обзорная часть. Обзор состояния и перспектив развития исследования спектрограмм голоса с использованием пакета Matlab

1.1 Компьютерный анализ звуков в среде Matlab методом цифровой обработки сигналов

Благодаря таким качествам Matlab и Simulink, как интегрированная разработка алгоритмов, возможность генкода и большое количество функций анализа данных, разработка приложений для цифровой обработки сигнала (ЦОС) значительно упрощается и ускоряется. Обеспечивая инженеров языком рабочего общения, Matlab сокращает разрыв между идеей, научными исследованиями и конечным продуктом. Его открытая архитектура позволяет работать во взаимодействии с другими программными средствами и системами в реальном времени. С помощью Matlab разработчик может проверять свои идеи, просчитывать допуски и генерировать решения, удовлетворяющие самым требовательным запросам [4].

Быстрая разработка приложений для ЦОС. Matlab ускоряет проектирование приложений благодаря интеграции в единой среде таких разноплановых средств как язык работы с матрицами, визуальное моделирование, автоматическая генерация программного кода и дополнительным пакетам программ для самых разных областей знаний.

Инженеры находят Matlab идеальным средством для обработки сигналов. Его мощный язык матричных вычислений естественен для представлена сигналов и разработки алгоритмов для ЦОС. Написание программы в Matlab занимает малую долю времени по сравнению с программированием на C/C без какой-либо потери гибкости или качества.

Дополнительные пакеты прикладных программ Matlab (Toolboxes) и блоков Simulink являются богатейшим источником готовых функций, базовых блоков для построения моделей и визуальных средств работы с сигналов. Это обеспечивает прекрасную основу для собственных алгоритмов и программ пользователя. Simulink, как составная часть комплекта продукции Matlab для обработки сигналов, позволяет быстро проектировать, моделировать и тестировать системы ЦОС, используя интерактивное визуальное моделирование с помощью диаграмм. Simulink помогает анализировать работу алгоритмов уже на самых ранних стадиях разработки программ. По мере приближения разработчика к окончательной реализации своих планов ему не становится сложнее модифицировать свой алгоритм - детализация приложения или дальнейшее приближение к реальным условиям нисколько не усложняет задачу программиста. Matlab Toolboxes содержат самые современные алгоритмы, снабженные документацией и подробным руководством по использованию. Они помогают разработчику быть в курсе последних новинок в области цифровой обработки сигналов, таких как вейвлеты или современный спектральный анализ, и применять их в собственных исследованиях (рис.1).

Matlab и Simulink позволяют осуществлять автоматическую генерацию программного кода ваших приложений Real-Time Workshop способен генерировать код стандарта ANSI С для работы со встроенными платами. Matia Compiler конвертирует алгоритмы, реализованные на языке Matlab в C/C код, что во взаимодействии с Math Libraries позволяет создавать автономные приложения.

Команды разработчиков могут взаимодействовать, используя Matlab в качестве языка общения и базового проектирования. Эта открытая система позволяет легко модифицировать исходный код, связывать внешние программы и данные, разделять идеи и программы для работы на платформах PC, UNIX и Macintosh.

Разработка алгоритмов и моделей Matlab и Simulink предлагают альтернативный традиционному способ проектирования приложений для цифровой обработки сигналов. Адаптируются ли стандартные алгоритмы, или создаются собственные, интегрированные в Matlab Simulink ускоряет процесс создания приложения хотя бы потому, что позволяет экспериментировать с различными подходами к решению задачи.

Рис.1. Средства Matlab для цифровой обработки сигналов.

Язык Matlab идеален для программирования алгоритмов для цифровой обработки сигналов. Поскольку основным элементом языка является массив, разработка алгоритмов в точности такова, как будто привычно записываются математические формулы. Кроме того, можно выбирать алгоритмы из обширной коллекции проверенных математических функций и функций обработки сигналов Matlab.

В отличие от программирования на С или C не нужно начинать программу с нуля или думать о том как подсоединить сложные библиотеки. Ваши поиски в интерактивном режиме приведут к полнофункциональному, прекрасно отлаженному алгоритму. Блок-диаграммы Simulink отражают иерархическую структуру моделей, упрощающую проектирование систем ЦОС и моделирование их поведения (рис.2).

Блок Simulink может представлять собой отдельный элемент системы, большую подсистему или нечто среднее между ними. Каждый блок можно модифицировать, настраивать в соответствии с необходимостью и получать в точности такое поведение системы, которое в каждом конкретном случае, не прибегая к традиционному программированию. С помощью Simulink можно интерактивно или программно изменять параметры модели в ходе самого моделирования. Сменные блоки выводить на дисплей анализа частот и др. позволят анализировать работу системы налету.

Simulink может работать как с непрерывными, так и с дискретными системами. Таким образом, можно без труда моделировать сложные системы, включающие изменяющиеся во времени компоненты (подсистемы) наряду с аналоговыми компонентами.

Можно включать в проект внешние программы, написанные на С, C или Фортране как динамически связываемые объектные модули можно вызывать из любой функции Matlab или блока Simulink. Используя такой открытый подход, можно сохранить проверенные временем разработки и создавать библиотеки для целевых приложений.

Рис.2. Модель Simulink.

Matlab и Simulink дают возможность каждому члену группы разработчиков проекта просматривать, осмыслив модифицировать алгоритм на всем протяжении цикла его разработки, от первоначальной идеи до работы приложения в реальном времени.

Инструментарий для обработки сигналов. Средства обработки сигналов в Matlab базируются на мощных библиотеках линейной алгебры и обработки. Среди их более 1000 функций суммирование и умножение матриц и векторов, вычисление сингулярных чисел, анализ собственных значений, статистика, фильтрация, свертки, корреляция и быстрое преобразование Фурье.

В Signal Processing Toolbox включены современные средства проектирования фильтров, спектрального анализа обработки сигналов DSP Blockset дополняет библиотеки Simulink блоками адаптивной фильтрации.

Image Processing Toolbox представляет собой робастное средство для совершенствования, реставрации, фильтрацииизображений и операций над отдельными областями.

Optimisation Toolbox позволяет настраивать параметры проекта, чтобы удовлетворить наложенным ограничениям например, на потребление энергии.

Statistics Toolbox включает моделирование стохастических процессов, аппроксимацию, различные статистические средства для многих приложений - от распознавания образов до тестирования и обработки результатов измерений

Symbolic Math Toolbox предоставляет доступ к ядру символьных вычислений для решения уравнений и расчете с произвольной точностью.

Communications Toolbox предлагает гибкий открытый подход к моделированию коммуникационных систем. Можно комбинировать и настраивать более 100 функций Matlab и блоков Simulink для виртуального модели всех деталей коммуникационных систем, Wavelet Toolbox - современное графическое средство для анализа нестационарных сигналов в задачах сжати подавления шумов и др.

Neural Network Toolbox и Fuzzy Logic Toolbox созданы для того, чтобы помочь использовать в своих исследованиях нейронные сети и нечеткую логику. Среди их приложений адаптивная фильтрация, распознавание образов и моделирование нелинейных систем.

Higher-Order Spectral Analysis Toolbox включает методы высокого порядка, справляющиеся с нелинейностью, негауссовыми сигналами, дающими о себе знать в задачах акустики, обработки векторных сигналов и др.

Среди других дополнительных пакетов Matlab - System Inentification Toolbox и Frequency Domain System Ident Toolbox для параметрического моделирования и оценивания. Control System Toolbox для проектирования систем управления, анализа устойчивости систем с обратной связью.

Современный набор программ Matlab для обработки сигналов помогает инженерам, работающим в области ЦОС быть в курсе последних достижений науки и технологии. Прекрасная документация, множество примеров позволят без труда разобраться в новых методах и включить их в свой арсенал. Тысячи пользователей Matlab разрабатывают программы, пишут книги и создают вебсайты, помогающие их коллегам использовать и самим реализовывать алгоритмы ЦОС в Matlab.

1.2 Фониатрическая информация

Фониатрическая информация характеризует состояние голосового аппарата по формированию гласных звуков, т.е. нарушение голоса [5]. К примеру, при различного рода простудных заболеваниях (острый ларингит) голос приобретает сиплый характер (дисфония) или вообще пропадает (афония) ввиду несмыкания голосовых связок. Острый ринит приводит к характерной при насморке гнусавости тембра. Фониатрическая информация является важным диагностическим показателем степени выраженности профессиональных нарушений голоса (у лекторов, педагогов, певцов, актеров и др.) и используется врачами-фониатрами в клинической практике (фоническое прослушивание). Применение современной аппаратуры позволяет объективизировать этот вид диагностики, придав ему количественные критерии (нарушение силы голоса, тембра по спектральным характеристикам и т.п.).

Весьма распространенным профессиональным заболеванием этого вида является фонастения, характеризующаяся слабостью голоса, уменьшением звуковысотного и динамического диапазонов и др. В отличие от острых воспалительных заболеваний фонастения характеризуется отсутствием видимых их проявлений в лорорганах, что заставляет искать ее причины в переутомлении центрально-нервных механизмов регулирования голосового аппарата.

1.3 Разработка диагностики нарушений голосовой функции и ее реабилитация на основе спектрального анализа в системе Matlab

Существует множество научных работ, связанных с обработкой голоса как звукового сигнала и направленных преимущественно на решение задач распознавания и синтеза речи. С другой стороны, врач-оториноларинголог и фониаторы при диагностике заболеваний речевого аппарата ограничены результатами рентгенологических либо инвазивных методов исследования и собственным опытом.

В настоящее время предпринимаются попытки с помощью компьютерной диагностики расширить возможности врача с применением дорогостоящего программного обеспечения (ПО): Sound Forge, WAVELAB и др. Это ПО имеет широкие возможности в обработке звуковых сигналов, но не предназначено непосредственно для диагностических целей и требует специальной подготовки для его использования. Большинство же созданного в помощь врачам ПО является реализацией части функционала указанных пакетов. Таким образом, вопрос о создании специализированного простого в обращении ПО и задача разработки методики использования такого ПО остаются злободневными.

Разрабатывается и создается ПО, помогающее врачам-оториноларингологам, фониаторам, логопедам в диагностике функциональной патологии и восстановления голосоречевых данных преподавателей, певцов, дикторов, актеров разговорного жанра [6]. Разработанный алгоритм опирается на существующие методы цифровой обработки сигналов (ЦОС), в частности - на спектральный анализ.

Реализация анализа и обработки спектра голоса проводится в среде Matlab 7.01. Для получения спектра звукового сигнала применяется быстрое преобразование Фурье (БПФ). БПФ производится над записью голоса, хранящейся в файле форматом WAVE, с частотой дискретизации 44 KHZ и размером аудио образца 16 bit.

Наиболее информативный участок спектра такой записи голоса представителя голосоречевой профессии, произносящего гласную “А”, представлен на рис.3. Применение фильтра скользящего среднего позволяет выделить на спектре участки, которые несут наиболее важную информацию - расположение пиков и их амплитуды.

Гласные звуки классифицируют как вокализованные и образуются при прохождении слабой струи воздуха через голосовой аппарат человека при ритмично колеблющихся голосовых связках [7], в отличие от согласных звуков, при образовании которых возникают завихрения потока, дающие согласным шумовую основу (рис.4).

Рис.3. Пример спектра голоса при произнесении буквы «А».

Рис.4. Амплитудный спектр звука “Ш ”.

Алгоритм создаваемого ПО можно представить следующей схемой: 1) на компьютер с помощью микрофона производится запись голоса пациента, произносящего различные гласные и согласные звуки;

2) применение БПФ для получения спектра записанного голоса;

3) к спектру применяется фильтр скользящего среднего;

4) полученная кривая сравнивается с аналогичной кривой для голоса, записанного ранее (день, неделю, месяц назад);

5) результаты сравнения представляются в наглядном графическом виде либо группой числовых параметров;

6) на основе сравнения делаются общие выводы о характере протекания изменений;

Метод диагностики и реабилитации, заложенный в программное обеспечение, заключается в том, что пациент обследуется достаточно длительное время (неделю или месяц), необходимое для выявления изменений в течение этого периода. Метод опирается на анализ различий в спектрах голоса пациента, записанного в “контрольных точках” периода наблюдения (раз в три дня или в неделю). Такой подход, на наш взгляд, снижает влияние методических и инструментальных ошибок, связанных с тем, что запись осуществляется не в студийных условиях, с оцифровкой речи и последующим применением к ней аппарата ЦОС.

Преимущество заключается и в том, что имеется возможность контролировать произношение определенных слогов, гласных или согласных звуков, а также - длительность звучания голоса. Для определения основных акустических параметров голоса достаточно, например, произношения гласной “А” во времени максимальной фонации, процесса образования звуков речи, определяемого колебаниями связок.

Такой подход, по сравнению с обработкой произвольной речи, существенно облегчает задачи диагностику, восстановления голосовой функции, профилактики голосовых расстройств вокально-педагогическими и фонопедическими методами, а также уменьшает возможность врачебных ошибок.

1.4 Исследование голосообразования и звукопроизношения с использованием цифровой обработки сигналов

В настоящее время быстрое развитие компьютерных технологий позволяет проводить глубокое, на новом высоком уровне исследование голосообразования и звукопроизношения, выявить проблемы работы голосового аппарата и открыть новые возможности их решения. Наиболее ярко изменения голосового аппарата наблюдается у людей педагогических и творческих профессий - преподавателей, певцов, дикторов, актеров разговорного жанра. Заболеваемость голосового аппарата составляет для педагогов - 40%, переводчиков - 31%, воспитателей детских садов и яслей - 36%, экскурсоводов - 77%. Среди всех обследованных больных с голосовыми нарушениями 80% являются профессионалами голоса в возрасте от 25 до 55 лет.

Несмотря на достаточно многочисленные клинические и компьютерные исследования различных видов голосовой патологии, целесообразно дальнейшее совершенствование их технологий в области постановки голоса людей голосоречевых профессий и реабилитационных мероприятий при голосовых нарушениях.

В связи с этим создание системы компьютерной диагностики голосовых данных является актуальной. Она представляет методы и программное обеспечение, позволяющие наиболее эффективно, экстренно и при минимуме дополнительных затрат комплексно оценить состояние представителей голосоречевых профессий с ЛОР-заболеваниями и другими проблемами голосового аппарата.

При определении голосовых данных проводилась слуховая диагностика голоса и спектральный анализ в диапазоне частот до 20500 Гц в среде программы Matlab, представляющей широкие возможности обработки звукового сигнала. Анализ осуществлялся на основе комплексной оценки объективных и субъективных показателей акустических характеристик голоса в пении и речи путем сравнения с эталоном звучания. Субъективными показателями являются основные свойства звука: высота, тембр, громкость, длительность, а объективными показателями, дополняющими оценку тембральных характеристик, - основные качества звучания голоса: звонкость, объем, полетность [8].

Акустическим аналогом голоса является его спектр. Реализация разработки анализатора спектра речи в среде Matlab 7.01 проводилась с использованием блоков для цифровой обработки сигналов библиотеки Simulink: Signal Processing Sources, Signal Management/Buffers, Estimation/Power Spectrum Estimation, Signal Processing Sinks. В качестве входного сигнала использовался женский голос молодой женщины 30 лет, записанный в формате «.wav», стандартного для операционных систем класса Windows. Спектр полученного звукового сигнала показан на рис.5, 6.

В сравнении с эталоном звучания видно, что необходима настройка голоса: подготовительная, коррекционная, координационная и речевая.

Этапы реабилитации голоса пациентки, имеющей профессию педагога, проводились авторами на кафедре «Оториноларингология» Ташкентской медицинской академии с участием фониатора и оториноларинголога. Коррекция осуществлялось по отработанной методике в строго определенной последовательности, начиная с гласных звуков. Настройка голоса осуществляется в процессе вокализации высокочастотного объемного звука "И". Затем полученные качества звучания тембра переносятся в строго определенном порядке на гласные "И", "Э", "А", "О", "У", обертоны в голосе управляются с помощью плавного их перемещения от высокочастотного звука И с последующим постепенным заполнением всего спектра частот гласными "Э", "А", "О", заканчивая низкочастотным "У", и, наоборот, от низкочастотного У до высокочастотного И, и далее с пропеванием последовательности гласных звуков "У", "О", "А", "Э", "И".

К примеру, вокализация гласного "У" увеличивает продолжительность дыхания, делает выдох плавным, а звук ровным (рис.7).

Начиная с версии Маtlав 5.0, в системе расширены средства для работы со звуком. До этого система имела единственную звуковую команду: sound(Y.Р5) - воспроизводит сигнал из вектора Y с частотой дискретизации Р5 с помощью колонок, подключенных к звуковой карте компьютера. Компоненты Y могут принимать значения в следующих пределах -1.0<=у<=1.0. Для воспроизведения стереозвука на допускающих это компьютерных платформах Y должен быть матрицей размера Мх2;

sound(Y) - функционирует аналогично, принимая частоту дискретизации по умолчанию равной 8192 Гц;

sound(Y,PS.BITS) - функционирует аналогично с заданием разрядности звуковой карты: BITS=8 или ВІТ=16.

Теперь появились дополнительные команды воспроизведения звука: sound(Y,...) - масштабирует и воспроизводит сигнал из массива Y: По синтаксису команда аналогична-sound( Y,...);

soundsc(Y ,...,SLIM) - аналогична предшествующей команде, но позволяет задать параметр SLIM = [MIN(Y) MAX(Y)], определяющий тот диапазон значений Y, который будет соответствовать полному динамическому диапазону звука. По умолчанию SLIM = [MIN(Y) МАХ(Y)].

Beep on или off - соответственно разрешает или запрещает гудок;

s=beep - возвращает состояние on|off beep - при s=on издает гудок.

Рис.5. Спектр звукового сигнала (женского голоса).

Рис.6. Звук "У" до занятий.

Рис.7. Звук "У" после занятий.

Кроме того, введены команды для считывания и записи файлов звукового формата .WAV, стандартного для операционных систем класса Windows wavwrite(Y,WAVEFILE_Е) - записывает файл типа WAVE под именем WAVELIFE. Данные по каждому каналу в случае стерео записывются в разных столбцах массива. Величины должны быть в диапазоне [-1; 1];

wavwrite(Y.FS.WAVEFILE) - делает то же с заданием частоты дискретизации FS (в герцах);

wavwrite(Y,FS,NBITS,WAVEFILE) - делает то же с заданием числа бит на отсчет NBITS, причем NBITS<=16;

Y=wavread(FILE) - считывает файл типа WAVE с именем FILE и возвращает данные в массиве Y;

[Y,FS,BITS]=wavread(FILE) - считывает файл типа WAVE с именем FILE и возвращает массив данных Y, частоту дискретизации FS (в герцах) и разрядность BITS кодирования звука (в битах);

[...]=wavread(FILE.N) - возвращает только первые N отсчетов из каждого канала файла;

[...]=wavread(FILE, [N1 N2]) - возвращает только отсчеты с номерами от N1 до N2 из каждого канала;

SIZ=wavread(FILE, "size") - возвращает объем аудиоданных в виде вектора SIZ=[samples channels] (samples - число отсчетов, channels - число каналов);

auwrite - записывает файл в соответствии со звуковым форматом фирм Sun и Next; auread воспроизводит файлы в Matlab 6 на Sun и в Matlab 5 на Next.

Применение спектрального компьютерного анализа голоса у лиц голосоречевых профессий позволяет врачу-фониатру более достоверно определять тип голоса и оценивать состояние голосового аппарата.

2. Основная часть. Исследование спектрограмм голоса с использованием пакета Matlab.

Разложим голос на составляющие, основными параметрами являются: частота, сила, длительность и тембр, которые, как величины, можно анализировать и но отдельности. В действительности, однако, подобный анализ не представляет собой реального выражения голоса, поскольку эти качества образуют единый неделимый комплекс.

Высота издаваемого звука зависит от числа колебаний голосовых складок в 1 секунду. Голосовые складки способны приходить в колебательные движения не только целиком, всей своей массой, но и отдельными участками. Только этим можно объяснить то, что одни и те же голосовые складки могут колебаться с различной частотой: примерно от 80 до 10 000 колебаний в секунду и даже больше.

Тоновый диапазон человеческого голоса представлен ппоследовательностью тонов, которые могут быть произведены голосовым аппаратом в пределах границ между самым низким и самым высоким звуками. Человеческий голос обычно включает в себя тоны от 64 до 1300 герц. В двух формах проявления человеческого голоса - пении и разговоре - качества голоса представлены несколько различно. Разговорный голос составляет лишь 110 от общего диапазона голоса. Тоновый охват певческого голоса значительно шире разговорного и зависит от вокального образования. Сила подаваемого звука определяется интенсивностью напряжения голосовых складок и величиной давления воздуха в подсвязочном пространстве. И тот и другой процесс регулируются центральной нервной системой. Контроль осуществляется с помощью слуха. Если же взаимоотношения между этими процессами нарушаются, например, при крике ужаса, то превалирование давления внутри трахеи вызывает звук, который характеризуется отсутствием чистой тональности.

Ниже представлен диапазон человеческого голоса (в Герцах): - Бас - 75-300.

- Баритон - 100-400 - Тенор - 120-500.

- Контральто - 170-780.

- Меццо-сопрано - 200-900.

- Сопрано - 230-1000.

- Колоратурное сопрано - 260-1400.

Для сравнения приведен частотный диапазон музыкальных инструментов: Контрабас - 40-300.

Виолончель - 65-880.

Альт - 130-1240.

Скрипка - 210-2800.

Фагот - 60-630.

Кларнет - 140-1980.

Гобой - 230-1480.

Флейта - 240-2300.

Туба - 45-320.

Тромбон - 80-500.

Валторны - 60-740.

Труба - 160-990.

Таким образом, человеческий голос имеет диапазон звучания от 75 до 110 Герц, который так или иначе перекрывает (заглушается, смешивается) с любым музыкальным инструментом (оптимальная точка - 300 Герц).

Также необходимо учитывать силу звучания (динамический диапазон) данных инструментов.

Динамический диапазон гитары составляет 15 ДБ; органа - 35 ДБ; рояля - 45 ДБ; женский голос - 20-35 ДБ; мужской голос - 20-45 ДБ, эстрадного оркестра-45-55 ДБ, симфонический оркестр 60-75 ДБ.

Сообщение, передаваемое с помощью речевого сигнала, - дискретно, т.е. может быть представлено в виде последовательности символов из конечного их числа. Звуковые символы, из которых составлен речевой сигнал, называются фонемами.

Речь с физической точки зрения состоит из последовательности звуков с паузами между их группами. При нормальном темпе речи паузы появляются между отрывками фраз. Как правило, слова произносятся слитно, хотя слушающий воспринимает слова но отдельности. При замедленном темпе речи, например при диктовке, паузы могут делаться между словами и даже их частями. Предлоги, союзы звучат всегда слитно с последующим словом. Частотный диапазон речи находится в пределах 70 - 1400 Гц.

Один и гот же звук речи разные люди произносят по-разному. Произношение звуков речи зависит от ударения, соседних звуков и т.п. Но при всем многообразии в их произношении звуки являются физическими реализациями (произнесением) ограниченного числа обобщенных звуков речи (фонем). Фонема - это то, что человек должен произнести, а звук-то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании.

Звуки речи делятся на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, в этом случае находящихся в напряженном состоянии. Под напором воздуха, идущего из легких, они периодически раз - двигаются, в результате чего создается прерывистый ноток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. Соответствующий период повторения импульсов называют периодом основного тона голоса Т0 - а обратную величину 1/Т0 - частотой основного тона. Если связки тонкие и сильно напряжены, то период получается коротким и частота основного тона высокой; для толстых, слабо напряженных связок - низкой. Частота основного тона для всех голосов лежит в пределах 70 - 450 Гц. При произнесении речи она непрерывно изменяется в соответствии с ударением, подчеркиванием звуков и слов, а также с проявлением эмоций (вопрос, восклицание, удивление и т.д.). Изменение частоты основного тона называется интонацией. У каждого человека свой диапазон изменения основного тона (обычно он бывает немногим более октавы) и своя интонация. Последняя имеет большое значение для узнавания говорящего.

Основной тон, интонация, устный почерк и тембр голоса служат для опознавания человека, и степень достоверности такая же высокая, как по отпечаткам пальцев. Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник (до 40), частоты которых кратны частоте основного тона. Огибающая спектра основного тона имеет спад в сторону высоких частот с крутизной около 6 ДБ/окт, поэтому для мужского голоса уровень составляющих на частоте 3000 Гц ниже их уровня на частоте 100 Гц примерно на 30 ДБ. При произнесении глухих звуков связки находятся в расслабленном состоянии, поток воздуха из легких свободно проходит в полость рта. Встречая на своем пути различные преграды в виде языка, зубов, губ, он образует завихрения, создающие шум со сплошным спектром.

Согласные по способу образования делятся на сонорные (л, ль, р, рь. м, мь, и, нь, й), щелевые (ж, з, зь, в, вь, ш, с, сь, ф, фь, х, хь), взрывные (б, бь, д, дь, г, гь, и, иь, т, ть, к, кь) и аффрикаты (ц, ч - комбинация глухих взрывных и щелевых). Гласных фонем всего шесть: а, о, у, э, и, ы (гласные е, я, е, ю - составные из и краткого или мягкого знака и гласных э, а, о, у).

Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности, глухие - самый низкий. Громкость речи непрерывно изменяется, особенно резко при произнесении взрывных звуков. Динамический диапазон уровней речи находится в пределах 35 - 45 ДБ. Гласные звуки речи имеют в среднем длительность около 0,15 с, согласные - около 0,08 (звук и - около 30 мс).

Звуки речи неодинаково информативны. Так, гласные звуки содержат малую информацию о смысле речи, а глухие согласные наиболее информативны (например, в слове «посылка» последовательность «о, ы, а» ничего не говорит, а «п, с, лк» дает почти однозначный ответ о смысле). Поэтому разборчивость речи снижается при действии шумов, в первую очередь изза маскировки глухих звуков [6-8].

Известно, что для передачи одного и того же сообщения по телеграфу и по речевому тракту требуется различная пропускная способность. Для телеграфного сообщения достаточна пропускная способность не более 100 бит с, а для речевого - около 100000 бит с (полоса равна 7000 Гц, динамический диапазон 42 ДБ, т.е. требуется семизначный код, откуда имеем 2 • 7000 -7=98 000 бит/с), т.е. в 100 раз большая.

Образование звуков речи происходит путем подачи команд к мускулам артикуляционных органов речи от речевого центра мозга. Общий поток сообщений от него составляет в среднем не более 100 бит/с. Вся остальная информация в речевом сигнале называется сопутствующей.

2.2 Запись и считывание данных из речевого сигнала в Matlab

В Matlab предусмотрены средства для воспроизведения и записи звука (речи), а также для работы со звуковыми файлами формата wav [9].

Чтение wav-файлов. Для считывания wav-файлов в Matlab используется функция wavread. В простейшем случае она может быть использована следующим образом: у = wavread ("filename"), где "filename" - имя звукового файла (расширение wav указывать не обязательно). В имя файла необходимо включить полный путь, за исключением тех случаев, когда файл находится в текущем (для Matlab) каталоге или в одном из каталогов, входящих в список поиска Matlab. Другой способ, не требующий указания имени файла, - полный путь, который заключается в определении местонахождения файла на жестком диске с помощью меню Matlab.

В результате вызова функции в переменную у будет помещено все содержимое указанного файла. Строки матрицы у соответствуют отсчетам сигнала, столбцы - каналам, которых в wav-файле может быть один (моно - канал) или два (стереоканал).

Помимо отсчетов сигнала в wav-файлах хранится и служебная информация, которая содержит следующие параметры: - частоту дискретизации, для определения которой в указанную функцию необходимо включить второй выходной параметр: [у, Fs] = wavread ("filename"), где Fs - частота дискретизации, Гц; - число бит на отсчет, для определения которого необходимо добавить еще один выходной параметр: [у, Fs, bils] = wavread ("filename"); - число отсчетов и каналов записи. Для получения данной информации необходимо вызвать функцию wavread с двумя входными параметрами: именем файла и текстовой строкой "size": wavesize = wavread ("filename*, "size").

При вызове такой функции из wav-файла извлекается служебная информация, которая возвращается в виде двухэлементного вектор-строки, первый элемент которого содержит число отсчетов, второй - число каналов;

- продолжительность звучания сигнала (в секундах), которую можно определить следующим образом: wavesize (1) Fs, где 1 указыва

Вывод

В итоге выполненной работы проведено исследование спектрограмм голоса с использованием пакета Matlab. Проведен анализ спектров и спектрограмм мужских и женских голосов для целей выявления отклонений произношения гласных звуков и последующей коррекции в дальнейшем.

Исследование показало, что полученные данные можно использовать специалистам по фониатрии для восстановления голоса у пациентов с функциональными нарушениями.

В учебном процессе результаты проведенных исследований могут использоваться для чтения дисциплин по направлению «Биомедицинская инженерия», и дисциплин, связанных с необходимостью разработки программных продуктов.

Список литературы

matlab сигнал голос

1. Гультяев А. Визуальное моделирование в среде Matlab: Учебный курс. - С.-Пб.: Питер, 2000. -432 с.

2. Потемкин В. Г. Система инженерных и научных расчетов Matlab 5.x: В 2-х т. Т.1. -М.: Диалог-МИФИ, 1999. -366 с.

3. http://www.matlab.exponenta.ru

4. Р. Гонсалес, Р. Вудс, С. Эддинс цифровая обработка изображений в среде Matlab. Москва: Техносфера, 2006. - 616 с.

5. Дж.Дэбни, Т.Харман Simulink 4. Секреты мастерства. Издательство: Бином. Лаборатория знаний, 2003.

6. Курбатова Е.А. Matlab 7. Самоучитель. Издательство: Вильямс.: 2005.- 256.

7. Алексеев Е.Р., Чеснокова О.В. MATLAB 7. Самоучитель. Издательство "НТ Пресс" 2006г. 464с.

8. Поршнев С.В. Matlab 7. Основы работы и программирования. учебник. Издательство "Бином. Лаборатория знаний" 2006.-320 с.

9. В.П. Дьяконов. Matlab 6.5 SP1/7 Simulink 5/6. Основы применения. М.: СОЛОН-Пресс, 2005. - 800с.

10. Безопасность жизнедеятельности. Безопасность технологических процессов и производств (Охрана труда). Учебн. пособие для вузов /Юлдашев О.Р., Кудратов О.К. и др. - Т.: Укитувчи, 2009. - 318 с.

11. Гигиенические требования к видеодисплейным терминалам, персональным требованиям к видеодисплейным терминалам, персональным электронно-вычислительным машинам и организации работы: Сан Пин 2.2.2 542-96. - М.: Госкомсанэпиднадзор России, 2009.

Размещено на .ru

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы

Дисциплины научных работ

Посмотреть все работы

Исследование спектрограмм голоса с использованием пакета Matlab - Дипломная работа

Чтобы скачать работу, Вы должны пройти проверку:

Дисциплины научных работ