Використання вейвлет-перетворень та нейронних мереж для обробки та покращення розпізнавання мовних сигналів - Автореферат

бесплатно 0
4.5 202
Вивчення компресії та зниження рівня шумів на основі апарату дискретних вейвлет-перетворень з врахуванням психоакустичних принципів сприйняття сигналів. Виділення та побудова еталонів мовних сигналів для подальшого їх використання в нейронних мережах.


Аннотация к работе
Існуючі засоби цифрової обробки мовних сигналів мають ряд недоліків внаслідок обмеженості використовуваних методів та алгоритмів, а також нестаціонарності мовних сигналів. Тому необхідно вдосконалювати існуючі та розробляти нові методи обробки мовних сигналів з метою отримання параметрів, менш чутливих до мінливості мовних сигналів, враховуючи особливості утворення та слухового сприйняття сигналів, які забезпечували б високу швидкодію та якість їх обробки. Проведена велика робота в найбільших наукових лабораторіях і компаніях світу, таких як IBM, AT&T, Oregon Institute, MITS, Dragon, Philips та ін., дозволила за останні десятиріччя перейти від теоретичних розробок і лабораторних систем до практичних продуктів обробки мовних сигналів (управління голосом, диктування, забезпечення доступу) з задовільними показниками. 1.На основі аналізу спектральних характеристик елементів мовних сигналів вдосконалено метод попередньої сегментації сигналів, який відрізняється від відомих тим, що базується на кореляційному аналізі спектральних сегментів (вікон) і дозволяє точніше виділяти межі елементів мовних сигналів для подальшої їх цифрової обробки та аналізу. 4.Модифіковано та адаптовано до цифрової обробки мовних сигналів метод дискретного вейвлет-перетворення на основі вибору ортонормованого вейвлет-базису за критерієм мінімальної ентропії коефіцієнтів вейвлет-розкладу на масштабованих рівнях розкладу, що дозволило, порівняно з існуючими методами, підвищити коефіцієнт компресії мовного сигналу та відношення сигнал/шум при відповідній якості відтворення сигналу.У першому розділі наведено огляд наукових публікацій вітчизняних і зарубіжних авторів з проблем формування та математичного моделювання мовних сигналів, психоакустичних принципів їх сприйняття, особливостей представлення у часовій і спектральних областях, методів цифрової обробки мовних сигналів з метою вирішення практичних задач. Розглянуто основні методи цифрової обробки мовних сигналів у часовій та спектральних областях. На основі аналізу стану проблеми встановлено, що необхідно проводити дослідження в області розробки нових та вдосконалення існуючих методів цифрової обробки мовних сигналів для ефективного використання їх у прикладних задачах. За спектральною характеристикою визначаються параметри, що дозволяють значною мірою ідентифікувати мовний сигнал. IMG_8ee5dcf6-3371-40e5-b7b2-95339c2e3da2 (більш високі коефіцієнти практично нечутливі до змін у сигналі) кепстральні коефіцієнти (КК), які характеризують мовний сигнал, а також дельта-параметри - перша та друга похідні у часі від кадру до кадру.Першою задачею при використанні НВП є вибір вейвлет-функції (ВФ), яка найкраще відображає локальні характеристики мовного сигналу. Встановлено, що для аналізу мовних сигналів НВП за критерієм мінімального значення ентропії найкраще підходять ВФ Morlet і mexihat, оскільки вони добре відображають локальні властивості мовних сигналів і є подібними до них у часовому представленні. Використання методів вейвлет-обробки дозволяє проведення локального аналізу мовних сигналів, що дає можливість точного виділення квазіперіодів мовних сигналів за максимальними значеннями коефіцієнтів розкладу, визначення меж вокалізованих ділянок мовних сигналів для наступної їх обробки та інше. Для розкладу мовних сигналів доцільно будувати ВФ, що відповідають мінімальним смисловим одиницям мови - фонемам або квазіперіодам з погляду максимальної їх подібності до мовних сигналів. Коефіцієнти, що не перевищують значення порогу, вважаються такими, що не несуть інформацію про сигнал і прирівнюються до нуля.У дисертаційній роботі розвинуто підходи вирішення задач цифрової обробки мовних сигналів з використанням апарату вейвлет-перетворень і нейронних мереж для розпізнавання та компресії мовних сигналів. Вдосконалено метод попередньої сегментації мовних сигналів на основі аналізу спектральних характеристик їх елементів, який відрізняється від відомих тим, що базується на кореляційному аналізі спектрів сусідніх сегментів і дозволяє точніше виділяти межі елементів мовних сигналів. Запропоновано нові параметри спектрально-часової невизначеності та ентропії спектру часового вікна мовних сигналів з логарифмічною шкалою частот, використання яких разом з відомими параметрами дозволило на 2-6% підвищити ефективність розпізнавання голосних звуків.

План
ОСНОВНИЙ ЗМІСТ ДИСЕРТАЦІЙНОЇ РОБОТИ

Вывод
У дисертаційній роботі розвинуто підходи вирішення задач цифрової обробки мовних сигналів з використанням апарату вейвлет-перетворень і нейронних мереж для розпізнавання та компресії мовних сигналів. Нижче перераховані основні висновки та результати дисертаційної роботи: 1. Вдосконалено метод попередньої сегментації мовних сигналів на основі аналізу спектральних характеристик їх елементів, який відрізняється від відомих тим, що базується на кореляційному аналізі спектрів сусідніх сегментів і дозволяє точніше виділяти межі елементів мовних сигналів.

2. Запропоновано нові параметри спектрально-часової невизначеності та ентропії спектру часового вікна мовних сигналів з логарифмічною шкалою частот, використання яких разом з відомими параметрами дозволило на 2-6% підвищити ефективність розпізнавання голосних звуків.

3. Розроблено методику вибору вейвлет-функцій для задач цифрової обробки та аналізу мовних сигналів на основі критеріїв мінімальної ентропії коефіцієнтів розкладу та показника частотно-часової локалізації вейвлет-функцій.

4. Розроблено та обґрунтовано методику вибору кроку масштабних коефіцієнтів НВП з точки зору рівномірного перекриття частотного діапазону мовних сигналів масштабованими вейвлет-функціями, що дозволило ефективніше аналізувати мовні сигнали та зменшити обєм обчислень, проводити аналіз та контроль зміни частоти основного тону.

5. Розроблені чисельні алгоритми побудови вейвлет-функцій, що відповідають фонемам звуків, та реалізації оберненого НВП, які дозволяють реалізувати процедури вейвлет-фільтрації мовних сигналів для виявлення тонкої частотної структури мовних сигналів з метою ідентифікації відповідних смислових елементів.

6. Модифіковано та адаптовано до цифрової обробки мовних сигналів метод дискретного вейвлет-перетворення на основі вибору ортонормованого вейвлет-базису за критерієм мінімальної ентропії коефіцієнтів на масштабованих рівнях розкладу та врахування особливостей слухового сприйняття, що дозволило знизити рівень шумів та підвищити коефіцієнт компресії мовного сигналу до 18-20 разів при задовільній якості відтворення.

7. Побудована ШНМ дозволяє враховувати, крім основних параметрів, додаткові та їх динаміку у часі, за рахунок чого підвищилася ефективність розпізнавання нейронною мережею елементів мовних сигналів на 2-6%. На роботу ШНМ негативно впливають шумові складові мовного сигналу, внаслідок чого для забезпечення ефективного розпізнавання елементів мовного потоку доцільно попередньо використовувати процедури зниження рівня шумів за рахунок використання апарату ДВП.

Список литературы
1. Романишин Ю.М., Гудим В.В. Часові та спектральні характеристики мовних елементів для побудови шаблонів // Електроніка та звязок. Тематичний випуск журналу. - 1999. - № 6. - Т. 1. - С. 227-230.

2. Смердов А., Романишин Ю., Гудим В., Крижанівський В. Спектрально-часова невизначеність двополярних сигналів / Вісник Державного університету "Львівська політехніка", № 367. Серія “Радіоелектроніка та телекомунікації”. - Львів, 1999. - С. 18-22.

3. Романишин Ю., Гудим В. Цифрова обробка мовних сигналів / Вісник Державного університету “Львівська політехніка”, № 387. Серія “Радіоелектроніка та телекомунікації”. - Львів, 2000. - С. 319-323.

4. Романишин Ю., Гудим В. Компресія мовних сигналів на основі дискретних хвильових перетворень / Вісник Національного університету “Львівська політехніка”, № 428. Серія “Радіоелектроніка та телекомунікації”. - Львів, 2001. - С. 22-27.

5. Гудим В.В., Романишин Ю.М. Побудова нейронної мережі для обробки мовних сигналів / Вісник Житомирського інженерно-технологічного інституту. Технічні науки. Спеціальний випуск - 2002.- Житомир, 2002. - С. 186-191.

6. Романишин Ю.М., Гудим В.В. Розрахунок двополюсних резистивних структур прямокутної форми методом конформних перетворень / Вісник Державного університету "Львівська політехніка", № 352. Серія “Радіоелектроніка та телекомунікації”. - Львів, 1998. - С.101-104.

7. Romanyshyn Yu., Gudym V. Digital Processing and Identification of Speech Signals /Proceedings of International Conference on Modern Problems of Telecommunications, Computer Science and Engineering Training. - Lviv-Slavsko, Ukraine, 2000. - P. 136-137.

8. Romanyshyn Yu., Hudym V. Wavelet Transforms Applications for Speech Signals Processing / The Experience of Designing and Application of CAD Systems in Microelectronics. Proceedings of the VI-th International Conference CADSM 2001. - Lviv-Slavsko, Ukraine, 2001. - P. 297-298.

9. Романишин Ю., Гудим В. Особливості спектральних характеристик мовних сигналів / Тези доповідей 3-ї міжнародної науково-технічної конференції "Математичне моделювання в електротехніці та електроенергетиці". - Львів: ДУ "ЛП", 1999. - С. 234.

10. Романишин Ю.М., Гудим В.В., Данчишин І.В., Романишин О.І. Порівняння спектрально-часових властивостей хвильових функцій / Матеріали 2-ї науково-практичної інтернет-конференції “Україна наукова 2002”, т. 12. Дніпропетровськ: Наука і освіта, 2002 - С. 21-24.
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?