Інформаційно-вимірювальна система для автоматичного розпізнавання голосу - Автореферат

бесплатно 0
4.5 138
Підвищення достовірності та зменшення ймовірностей виникнення похибок першого та другого роду ІВС для розпізнавання голосу, зменшення часу та кількості обчислень, необхідних для його розпізнавання. Розроблення алгоритмів оброблення мовних сигналів.


Аннотация к работе
Враховуючи, що достовірність роботи ІВС для розпізнавання голосу залежить від адекватності математичних моделей, використаних для опису процедури формування та сприйняття мовних сигналів людиною, методів виділення з нього ознак, за якими можна розпізнати голос та методів класифікації голосів за цими ознаками, роботи, спрямовані на вдосконалення методів та алгоритмів оброблення мовних сигналів з метою підвищення ефективності роботи ІВС для розпізнавання голосу є актуальними. Вперше запропоновано метод оцінювання ефективності ІВС для розпізнавання голосу на основі інтегрального функціонально-статистичного критерію, який на відміну від існуючих, використовує для порівняння потенційну ІВС для розпізнавання голосу, що дозволяє оцінювати ефективність різних типів ІВС для розпізнавання голосу, оптимізувати їх структуру на стадії проектування і знизити вартість кінцевого продукту. Удосконалено математичну модель слухової системи людини, яка на відміну від існуючих, врахує вплив сенсорних слухових нейронів при розпізнаванні голосу, що дозволило сформулювати новий спосіб представлення індивідуальних ознак для розпізнавання голосу та зменшити імовірності виникнення похибок першого та другого роду при його розпізнаванні за цими ознаками. Вперше запропоновано метод підвищення інформативності частоти основного тону для розпізнавання голосу, в якому, на відміну від існуючих, за ознаку для розпізнавання використано значення коефіцієнтів вейвлет-перетворення на відрізках мовного сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону, що дозволило досягти імовірності виникнення похибок першого роду 1,1% та імовірності виникнення похибок першого роду 1,9% при розпізнаванні голосів за цією ознакою. В роботах опублікованих у співавторстві автором розроблено: [1] - схему пристрою для виділення ознак мовних сигналів та описано принцип його функціонування; [2] - схему пристрою для ущільнення мовних сигналів та описано принцип його функціонування; [3] - метод та алгоритм ущільнення мовних сигналів; [4] - удосконалено математичну модель слухової системи людини та розроблено алгоритм виділення кореляційних функцій частоти основного тону з мовних сигналів; [6] - математичний апарат для виділення ознак вокалізованих, шумних звуків та пауз мови та проведено оцінювання інформативності запропонованих ознак з використанням ентропійного критерію; [7] - метод та алгоритм розпізнавання голосу за значеннями коефіцієнтів вейвлет-перетворення на відрізках сигналу, де спостерігаються екстремуми кореляційних функції частоти основного тону; [8] - алгоритм оптимізації вектору ознак з використанням розкладу Карунена-Лоева; [9] - обґрунтовано можливість використання в якості інформативної ознаки для розпізнавання голосу тривалість звучання наголошених складів та голосних звуків мови.Структурна схема типової ІВС для розпізнавання голосу складається з таких блоків: пристрою для здійснення аналого-цифрового перетворення; блоку попереднього оброблення дискретизованого мовного сигналу, який відповідає за зміну темпу звучання, фільтрацію та сегментацію мовного сигналу на інформативні в контексті розпізнавання голосу відрізки; блоку виділення індивідуальних ознак, де шляхом відповідних перетворень мовний сигнал представляється у вигляді вектору параметрів у просторі відповідної ознаки; блоку класифікаторів, які за одержаним вектором параметрів відносять голос, що розпізнається, до одного з класів в просторі відповідної ознаки. Проведений аналіз сучасних ІВС для розпізнавання голосу показав, що їм властиві такі недоліки: обмеженість знань про формування мовних кодів, що обумовлено відсутністю моделі того, як кодується в мовному сигналі лінгвістична інформація і де в цьому коді виникають помилки, які обумовлено індивідуальними особливостями голосу конкретної людини; відсутність методів, які б дозволяли проводити інтегральне оцінювання ефективності різних типів ІВС для розпізнавання голосу; низька завадостійкість існуючих індивідуальних ознак; зниження достовірності розпізнавання голосів при зростанні їх кількості; відсутність математичного апарату, який би дозволяв враховувати вплив шумів на імовірності виникнення похибок першого та другого роду ІВС для розпізнавання голосу; відсутність інформації про залежність метрологічних показників ІВС для розпізнавання голосу від структури та складу її апаратної частини. Для забезпечення універсального оцінювання ефективності ІВС для розпізнавання голосу запропоновано використовувати, окрім вказаних критеріїв, узагальнений функціонально-статистичний критерій, модифікований відповідно до поставленої задачі шляхом аналізу реальної і потенційний ІВС для розпізнавання голосу Використовуючи розроблений математичний апарат, в другому розділі проведено дослідження ефективності розпізнавання голосів від тривалості парольної фрази, особливостей її виголошення, рівня шуму, що присутній в мовному сигналі, за яким проводиться розпізнавання голосу. Третій розділ дисертаційної роботи містить основні теорети

План
2. Основний зміст роботи
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?