Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання - Автореферат
При низкой оригинальности работы "Застосування вейвлет-аналізу для попередньої обробки мовних голосових сигналів в задачах сегментації, класифікації та пофонемного розпізнавання", Вы можете повысить уникальность этой работы до 80-100%
Одним з важливих напрямків досліджень є розробка інтелектуальних систем образного сприйняття мовної інформації, серед яких значну роль відіграють системи розпізнавання мовних голосових сигналів. Поява ЕОМ сприяла необхідності розвитку методів цифрової обробки мовного голосового сигналу. Значний вклад у розвиток технологій розпізнавання мовних голосових сигналів внесли відомі вчені Х. Дисертаційна робота виконана у відділі розпізнавання мовних образів Донецького інституту проблем штучного інтелекту МОН і НАН України відповідно до плану науково-дослідної роботи в рамках держбюджетних тем: «Розробка компютерної системи голосового набору математичних текстів на підставі пофонемного розпізнавання мовних образів», шифр PM-2002, № 0100U002241; «Розробка методів компютерного сприйняття суцільної природної вимови на підставі пофонемного розпізнавання мовних образів», шифр РСМ-2005, № 0105U001160, у яких автор брав участь як виконавець за розділами «Розробка методик перетворення мовлення», «Розробка методик розпізнавання мовлення». Метою дисертаційної роботи є розробка на основі методів вейвлет-аналізу методик і алгоритмів, що здійснюють обробку й розпізнавання мовних голосових сигналів в системах пофонемного розпізнавання. мовний голосовий сигнал фонемаПроведено аналіз методів параметризації мовного голосового сигналу, методів попередньої обробки голосового сигналу і його сегментації, основні підходи до розпізнавання мовних голосових сигналів, які застосовуються в існуючих системах розпізнавання як складових частинах інтелектуальних систем. У звязку з цим у розділі: запропоновано процедури обчислення вейвлет-спектра на основі неперервного вейвлет-перетворення (CWT) цифрового сигналу, що враховують область локалізації базисних функцій; з урахуванням обраного масштабуючого коефіцієнта обчислено необхідні для обробки й аналізу мовного голосового сигналу мінімальні й максимальні рівні розкладання за вейвлет-базисами та АЧХ банків відповідних фільтрів; для фонем різних класів проведено дослідження на інформативність вейвлет-базисів різного порядку на основі неперервних і дискретних вейвлетів; у відповідності з обраним вейвлетом розроблено методики зниження рівня шуму й виділення мовлення із голосового сигналу на основі методів вейвлет-аналізу. Вхідними даними цієї процедури є сигнал xe(n), який містить шум, і зразок шуму e(n), або x(n), що не містить шум, і зразок фона p(n); вихідними даними - відліки L, R вхідного сигналу, які відповідають лівій і правій границям слова; обчислені пороги a, b, a(m), b(m); оновлений сигнал ; усереднена енергія Ee(m) сигналу e(n) на рівні розкладання m. На етапі обчислення порогів виконується вейвлет-перетворення сигналу по рівнях j=jmin,…,jmax, розбиття його на фрейми довжини DN та обчислення порогів для маркування цих фреймів: а) пороги для сигналу, що містить шум, обчислюються за зразком шуму: , , (1) де Fe - множина фреймів сигналу, на які розбивається e(n); C(m,s) - міра контрастності, що знаходиться для кожного фрейму s за формулою Ця характеристика використовується в роботі для аналізу часової динаміки енергії спектра мовного голосового сигналу. б) якщо сигнал не містить шум, пороги обчислюються на основі вейвлет-спектру Добеші на рівні розкладання ja, що відповідає діапазонам частот основного тону (100-300 Гц), і jb, що відповідає діапазону частот 4-8 КГЦ, де зосереджена енергія шумних глухих щілинних або зімкнено-щілинних звуківПроведений аналіз існуючих методів параметризації й розпізнавання МГС показав необхідність застосування методів обробки сигналу, що забезпечують рухливе частотно-часове вікно, обєднання акустико-фонетичного й нейромережного підходів до розпізнавання МГС, а також дозволив сформулювати постановку задачі дослідження. Враховуючі обраний коефіцієнт масштабування, були обчислені необхідні для аналізу МГС мінімальні й максимальні рівні розкладання за досліджуваними вейвлет-базисами, центральні частоти й смуги пропускання відповідних вейвлет-фільтрів та їх АЧХ. Подібні характеристики банків фільтрів відповідають поведінці щільності енергетичного спектра МГС й дозволяють сформувати набори ознак для опису динаміки сигналу з урахуванням абсолютного порога чутності. Для параметризації звуків мовлення експериментально був обраний оптимальний вейвлет-базис за критерієм мінімуму ентропії коефіцієнтів вейвлет-спектра FWT й CWT. Удосконалено методики зниження рівня шуму і знаходження границь слів в голосовому сигналі за рахунок виконання класифікації його фреймів, що дозволяє враховувати акустичні особливості ШФК звуків мовлення.
План
ОСНОВНИЙ ЗМІСТ РОБОТИ
Вывод
У дисертаційній роботі представлено вирішення актуальної наукової задач попередньої обробки МГС, сегментації і пофонемного розпізнавання на основі вейвлет-аналізу. Аналіз отриманих результатів дозволяє зробити наступні висновки.
1. Проведений аналіз існуючих методів параметризації й розпізнавання МГС показав необхідність застосування методів обробки сигналу, що забезпечують рухливе частотно-часове вікно, обєднання акустико-фонетичного й нейромережного підходів до розпізнавання МГС, а також дозволив сформулювати постановку задачі дослідження.
2. Враховуючі обраний коефіцієнт масштабування, були обчислені необхідні для аналізу МГС мінімальні й максимальні рівні розкладання за досліджуваними вейвлет-базисами, центральні частоти й смуги пропускання відповідних вейвлет-фільтрів та їх АЧХ. Подібні характеристики банків фільтрів відповідають поведінці щільності енергетичного спектра МГС й дозволяють сформувати набори ознак для опису динаміки сигналу з урахуванням абсолютного порога чутності.
3. Для параметризації звуків мовлення експериментально був обраний оптимальний вейвлет-базис за критерієм мінімуму ентропії коефіцієнтів вейвлет-спектра FWT й CWT.
4. Удосконалено методики зниження рівня шуму і знаходження границь слів в голосовому сигналі за рахунок виконання класифікації його фреймів, що дозволяє враховувати акустичні особливості ШФК звуків мовлення. Це виключає можливість прийняття короткочасного високоамплітудного шуму за мовлення, низькоамплітудного МГС за шум і підвищує ефективність подальшого розпізнавання.
5. Одержали подальший розвиток методики узагальненої і детальної сегментації МГС, що використовують FWT. Вони дозволяють виділяти міжфонемні переходи незалежно від голосових даних диктора та інтенсивності МГС в результаті аналізу динаміки енергетичних характеристик його вейвлет-спектра.
6. Розроблено методику визначення періоду основного тону за вейвлет-спектром. Сформовано набори ознак, що дозволяють зробити класифікацію фонем. При цьому для виділення акустичних характеристик звуків мовлення використовувалися методи, що базуються на психофізичних особливостях сприйняття мовлення, та методи, засновані на акустичній теорії мовотворення. Для класифікації сегментів запропонована методика, що поєднує в собі акустико-фонетичний і нейромережний підходи до розпізнавання МГС. Це дозволило прискорити процедуру навчання нейромережі та підвищити ефективність розпізнавання.
7. На базі запропонованих методик розроблено алгоритми попередньої обробки, сегментації голосового сигналу і класифікації звуків мовлення та виконано порівняльний аналіз ефективності їх роботи. Отримані результати функціонування алгоритмів зниження рівня шуму порівнювалися з результатами очищення сигналу за допомогою відомих програмних пакетів роботи зі звуком. Кращими є методики, запропоновані в дисертаційній роботі та засновані на вейвлет-перетворенні. Чисельне дослідження функціонування алгоритмів класифікації фонем полягало в порівняльному аналізі ефективності запропонованих у роботі наборів ознак і виборі архітектури нейромережі. Найкращими для розпізнавання в межах розглянутих ШФК є ознаки, засновані на мірі контрастності Морле. Помилки розпізнавання не перевищують 5 %.
8. На базі розроблених алгоритмів створено нову ІТ, що здійснює обробку МГС і класифікацію звуків мовлення. Її функціональна структура сформована у вигляді 4 блоків, які можуть функціонувати в режимі навчання або робочому режимі: зниження рівня шуму; визначення границь слова й сегментації МГС; узагальненої класифікації; розпізнавання фонем. Для функціонування цих блоків у робочому режимі розроблено структуру бази даних фонем і шуму, що складається з 4 розділів, які заповнюються даними в результаті роботи відповідних блоків у режимі навчання.
Запропоновані методики та алгоритми можуть бути використані при розробці систем компютерного розпізнавання мовних образів. Практична значимість підтверджена актами впровадження.
Список литературы
1. Ермоленко Т. В. Применение вейвлет-преобразования для обработки и распознавания речевых сигналов // Искусственный интеллект. 2002. №4. С. 200-208.
2. Yermolenko T. V. Segmentation of a speech signal with application of fast wavelet-transformation // International Journal on Information Theories and Applications. 2003. Vol. 10, №3. P. 306-310.
3. Ермоленко Т. В. Фонетический анализ речевого сигнала на основе вейвлет-разложения // Искусственный интеллект. 2003. №3. C. 409-416.
4. Ермоленко Т. В. Использование непрерывного вейвлет-преобразования при распознавании вокализованных участков речевого сигнала // Искусственный интеллект. 2004. №4. С. 499-503.
5. Ермоленко Т. В. Разработка системы распознавания изолированных слов русского языка на основе вейвлет-анализа // Искусственный интеллект. 2005. №4. С. 595-601.
6. Ермоленко Т. В. Методика формирования эталонов фонем, базирующаяся на вейвлет-преобразовании Морле // Таврический вестник информатики и математики. 2006. №1. С. 127-132.
7. Ермоленко Т. В. Исследование признаков, используемых для пофонемного распознавания, с помощью нейросети // Искусственный интеллект. 2007. №4. С. 357-363.
8. Ермоленко Т. В. Фонетический анализ речевого сигнала на основе вейвлет-разложения // Материалы международной научно-технической конференции «Интеллектуальные и многопроцессорные системы». 2003. Т.1. Таганрог: ТРТУ. 2003. С. 191-192.
9. Ермоленко Т. В. Фонетический анализ и сегментация речевого сигнала на основе вейвлет-разложения // Материалы международной научно-технической конференции «Информационные технологии в социологии, экономике, образовании и бизнесе» Изд-во Запорожского государственного университета. 2003. С. 48-49.
10. Ермоленко Т. В. Методика формирования эталонов фонем, базирующихся на вейвлет-преобразовании Морле // Тезисы докладов Международной научной конференции «Интеллектуализация обработки информации». Сімферополь. 2006. С. 82-83.
11. Ермоленко Т. В. Сравнительный анализ наборов признаков, используемых для пофонемного распознавания речи // Материалы Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы - 2007». Донецк: ИПИИ «Наука і освіта». 2007. С. 110-114.
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы