Поиск ключевых слов в слитной речи для современных систем обработки аудиосигналов - Автореферат

бесплатно 0
4.5 152
Анализ основных элементов методики построения лингвистической модели, позволяющей учитывать контекст речевого потока. Сеть спутывания - компактная форма записи конкурирующих временных гипотез, полученных в результате декодирования речевых сигналов.


Аннотация к работе
Методика оценки меры достоверности ключевых слов, основанная на апостериорной вероятности, энтропии, длине и мере подобия строк, позволяющая достичь лучших характеристик поиска за счет использования информации об отношениях между апостериорными вероятностями конкурирующих гипотез. Методика объединения триграммных моделей с триггерными моделями и моделями триггерных групп, отличающаяся использованием информации о распределенных связях между словами и позволяющая улучшить оценку лингвистической составляющей меры достоверности. Отдельные положения работы докладывались и обсуждались на конференциях различного уровня: на X международной конференции «Pattern Recognition and Information Processing PRIP-2009»(Минск, 2009); на XIII международной конференции «Speech and Computer SPECOM2009» (Петербург, 2009); на XVII международной конференции «Conceptual Structures for Extracting Natural Language Semantics SENSE09»(Москва, 2009); на международной конференции «Компьютерная лингвистика и интеллектуальные технологии» Диалог 2009 (Бекасово, 2009); на XIV международной конференции «Современные проблемы информатизации в анализе и синтезе технологических и программно-телекоммуникационных систем» (Воронеж, 2009); на XI Республиканской научно-методической конференции молодых ученых (Брест, 2009); на 66 научной конференции студентов и аспирантов(Минск, БГУ, 2009); на международной научно-технической конференции «Информационные системы и технологии IST09» (Минск, БГУ, 2009). на 52-й международной научно-технической конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Москва, МФТИ, 2009). Для определения правдоподобности найденных ключевых слов в диссертационной работе было впервые предложено использовать комплексную меру достоверности ключевого слова W на основе апостериорной вероятности и ММР с учетом длины и акустической стабильности: , (1) где - весовые коэффициенты, - апостериорная вероятность предполагаемого ключевого слова W, - усовершенствованное ММР, рассчитанное с использованием матрицы спутывания слогов, - количество слогов в ключевом слове W, AS(W)-акустическая стабильность, представляющая собой относительную частоту появления ключевого слова. В качестве одного из критериев по определению достоверности результата поиска можно использовать не только абсолютное значение апостериорной вероятности некоторого слова, но и величину отличия этой вероятности от вероятностей других слов.

Введение
С развитием информационных технологий, Интернета и мультимедиа, объем аудиоданных стремительно возрастает. В связи с этим на первый план выходит актуальная задача создания эффективных алгоритмов индексации и быстрого поиска данных. Задача поиска речевых данных в этом ключе является наиболее востребованной в связи с высокой информативностью и широким использованием речевых сигналов.

На данный момент основополагающей технологией в этой области является технология поиска ключевых слов (ПКС). Технология ПКС востребована для поиска и эффективного управления мультимедиа файлами, содержащими речевую информацию; для создания систем информационной безопасности (контроль незаконной речевой связи и незаконных аудио-видео данных в Интернете, прослушивание и анализ речевых потоков); для речевого управления бытовыми электронными устройствами; для создания автоматических справочных служб.

В последнее время для создания систем ПКС, независящих от словаря, достаточно широкое распространение приобрел подход, основанный на использовании специальной структуры - решетки частей слов. Основное преимущество этого метода в том, что он обладает большой гибкостью, а также результат поиска не зависит от словаря декодирования. Решетка предоставляет возможность сохранять большое количество гипотез, но при этом необходимо использование эффективного алгоритма оценки достоверности гипотез.

Однако современным системам поиска ключевых слов характерно наличие ряда недостатков. Во-первых, при верификации ключевых слов с использованием одной меры достоверности невозможно достичь высокой вероятности правильного обнаружения. Во-вторых, для построения оптимальных акустических моделей речевых сигналов использование подхода на основе максимума апостериорной вероятности не всегда приводит к минимизации ошибки декодирования. В-третьих, использование простых n-граммных лингвистических моделей, характерных для современных систем распознавания речи и поиска ключевых слов, не позволяет учесть все априорные зависимости, характерные для языка. В-четвертых, в настоящее время существует проблема распознавания акустически подобных пар слогов, что в итоге приводит к снижению эффективности системы ПКС в целом. В связи с этим совершенствование методов и алгоритмов ПКС путем построения оптимальных акустических и лингвистических моделей речи является приоритетным направлением в области анализа и обработки речевых сигналов. Все результаты, полученные при исследовании данной проблемы, автоматически распространяются на приложения обработки и поиска информации в системах мультимедиа.

Связь работы с крупными научными программами, темами.

Диссертационная работа выполнена на кафедре радиофизики Белорусского государственного университета в рамках проекта Международного научно-технического центра (МНТЦ B-1375, договор от 01.06.2006, Москва) “Разработка методов анализа, индексации и поиска аудио документов в базах данных мультимедиа”.

Цель и задачи исследования.

Целью работы является разработка методик и алгоритмов поиска и верификации ключевых слов для современных систем обработки аудиосигналов. Для достижения данной цели предусмотрено решение следующих задач: 1. Разработка алгоритма сегментации и выделения речевых фрагментов в слитном потоке аудиоданных.

2. Разработка методики оценки меры достоверности ключевых слов, позволяющей улучшить характеристики системы поиска на основе решетки слогов и сети спутывания.

3. Создание методики построения лингвистической модели, позволяющей учитывать контекст речевого потока и эффективно моделировать последовательности слов.

4. Разработка алгоритма комплексной верификации ключевых слов для снижения уровня ложных тревог.

5. Создание программной реализации предлагаемых методов и алгоритмов и их тестирование с использованием реальных речевых данных.

Положения, выносимые на защиту: 1. Методика оценки меры достоверности ключевых слов, основанная на апостериорной вероятности, энтропии, длине и мере подобия строк, позволяющая достичь лучших характеристик поиска за счет использования информации об отношениях между апостериорными вероятностями конкурирующих гипотез.

2. Методика объединения триграммных моделей с триггерными моделями и моделями триггерных групп, отличающаяся использованием информации о распределенных связях между словами и позволяющая улучшить оценку лингвистической составляющей меры достоверности.

3. Алгоритм верификации ключевых слов на основе машины на опорных векторах, отличающийся от известных одновременным использованием нескольких мер достоверности и позволяющий снизить вероятность ложных тревог.

Личный вклад соискателя.

Соискателем выполнены все приведенные в работе разработки и исследования. Постановка задач и обсуждение результатов проводились совместно с научным руководителем и сотрудниками кафедры радиофизики Белорусского государственного университета. Соавторы опубликованных работ принимали участие в проведении экспериментальных исследований и обсуждении их результатов. Обработка, интерпретация данных, а также выводы сделаны автором самостоятельно.

Апробация результатов диссертации.

Отдельные положения работы докладывались и обсуждались на конференциях различного уровня: на X международной конференции «Pattern Recognition and Information Processing PRIP-2009»(Минск, 2009); на XIII международной конференции «Speech and Computer SPECOM2009» (Петербург, 2009); на XVII международной конференции «Conceptual Structures for Extracting Natural Language Semantics SENSE09»(Москва, 2009); на международной конференции «Компьютерная лингвистика и интеллектуальные технологии» Диалог 2009 (Бекасово, 2009); на XIV международной конференции «Современные проблемы информатизации в анализе и синтезе технологических и программно-телекоммуникационных систем» (Воронеж, 2009); на XI Республиканской научно-методической конференции молодых ученых (Брест, 2009); на 66 научной конференции студентов и аспирантов(Минск, БГУ, 2009); на международной научно-технической конференции «Информационные системы и технологии IST09» (Минск, БГУ, 2009). на 52-й международной научно-технической конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Москва, МФТИ, 2009).

Программные комплексы «Система сегментации аудиоданных» и «Система поиска ключевых слов» внедрены в программных продуктах резидента Парка высоких технологий компании “Сакрамент ИТ”, а также «Система вейвлет-анализа фрагментов аудиоданных» и «Система МОВ» были внедрены в учебные процессы Харбинского научно-технического университета и Харбинского политехнического университета (Китайская народная республика).

1. Рассмотрение общей структуры системы поиска ключевых слов и разработке эффективного метода сегментации аудиосигналов

Общая схема предложенной в диссертационной работе системы поиска ключевых слов представлена на рисунке 1.

Рисунок 1 - Схема работы системы поиска ключевых слов

Система ПКС должна включать четыре основных блока. Первый блок позволяет выделить речевые сегменты из слитного потока аудио на входе системы, и представить их в виде последовательности векторов признаков, поскольку в реальных условиях эксплуатации сегменты речи могут быть либо зашумлены, либо перемежаться с музыкальными фрагментами. В рамках второго блока осуществляется обучение акустических и лингвистических моделей речи. Данное обучение осуществляется на основе предварительно подготовленных баз данных. Третий блок позволяет сформировать гипотезы о наличии или отсутствии ключевых слов в некоторых временных рамках на основе полученных акустических и лингвистических моделей. В рамках четвертого блока осуществляется верификация найденных ключевых слов.

Для выделения речевых последовательностей было предложено использовать машины на опорных векторах. Результаты сравнительного тестирования предложенного метода и других современных классификаторов для сегментации акустической последовательности на речь, музыку, тишину показали, что наилучшие результаты обеспечиваются классификатором на основе машины на опорных векторах.

Для обеспечения компромисса между максимальной гибкостью, устойчивостью декодирования и вычислительной сложностью в качестве базовой единицы декодирования был выбран слог. Для оценки достоверности некоторой гипотезы о последовательности слов было обосновано использование суммы вероятности акустической модели и вероятности лингвистической модели.

2. Разработка алгоритма поиска ключевых слов на основе решетки слогов и предложенной в диссертации новой меры достоверности на основе апостериорной вероятности и минимального межстрокового расстояния с учетом длины, акустической стабильности и энтропии

Для оценки апостериорной вероятности обычно используется алгоритм прямого-обратного хода, а мера достоверности ключевых слов оценивается с применением алгоритма минимального межстрокового расстояния (ММР), который анализирует последовательности фонем с учетом возможности вставок, удалений и замен. Очевидно, что при этом использование для верификации традиционного алгоритма оценки апостериорной вероятности является ненадежным методом. В связи с резким ростом при декодировании количества вариантов строк (в том числе и неправильных) необходимо использовать меру достоверности, учитывающую априорную информацию об искомой последовательности слогов, принадлежащей ключевому слову. Такой подход в случае присутствия ключевого слова в анализируемом речевом сигнале, позволит увеличить комплексное значение его вероятности. Для определения правдоподобности найденных ключевых слов в диссертационной работе было впервые предложено использовать комплексную меру достоверности ключевого слова W на основе апостериорной вероятности и ММР с учетом длины и акустической стабильности: , (1) где - весовые коэффициенты, - апостериорная вероятность предполагаемого ключевого слова W, - усовершенствованное ММР, рассчитанное с использованием матрицы спутывания слогов, - количество слогов в ключевом слове W, AS(W) -акустическая стабильность, представляющая собой относительную частоту появления ключевого слова. Использование меры достоверности СМ(W) для гипотетических ключевых слов позволяет уменьшить количество ложных тревог, возникших в результате использования алгоритма ММР.

В процессе поиска ключевых слов решетка генерирует различные варианты последовательности слогов, каждому из которых соответствует слово с некоторой апостериорной вероятностью. Если в этих последовательностях встречается ключевое слово, то одной из ключевых задач системы поиска является определение степени достоверности каждого из встреченных ключевых слов. В качестве одного из критериев по определению достоверности результата поиска можно использовать не только абсолютное значение апостериорной вероятности некоторого слова, но и величину отличия этой вероятности от вероятностей других слов. Основная идея такого подхода заключается в том, что если вероятность какого-то события значительно превосходит вероятности других событий, то такое событие может быть признано более достоверным, чем событие с той же вероятностью, но из равновероятного набора.

Для построения эффективной меры достоверности с учетом этого факта в работе было предложено использовать энтропию. Значение энтропии тем больше, чем беспорядочнее представлена информация. Представим энтропию некоторого события как , (2) где - вероятность события, когда случайная величина равна .

Определим меру достоверности ключевого слова W как сумму мер достоверности непосредственно для ключевой последовательности слогов и очень похожих последовательностей : . (3) где - соответственно начальный и конечный узлы дуги. - мера сходства слогов и , оцененная на основе алгоритма ММР.

Далее проведем нормализацию данной меры достоверности, , (4) и вычислим для нормированной величины значение энтропии: . (5)

Определим новую меру достоверности следующим образом:

, (6) где - исходная достоверность, определяемая согласно выражению (2), - среднее значение энтропии для анализируемого сегмента, определяемое как: . (7)

Предложенная впервые для поиска ключевых слов мера достоверности с учетом энтропии позволила включить в процесс принятия решения не только характеристики самой гипотезы, но и сравнительные характеристики анализируемой гипотезы по сравнению с остальными, т.е. характеристики всего набора гипотез. Введение такого рода информации позволило более детально использовать информацию об апостериорных вероятностях гипотез, представленную решеткой, и улучшить оценки достоверности каждой их них. Экспериментально было показано, что использование новой меры достоверности на основе энтропии и с учетом длины и меры подобия сравниваемых слов позволяет достичь лучших характеристик системы ПКС, в частности, зависимости вероятности правильного обнаружения Pd от вероятности ложной тревоги FAR (рисунок 2).

Рисунок 2 - Сравнение мер достоверности ключевых слов: 1 - Новая мера достоверности с учетом энтропии; 2 - Мера достоверности на основе апостериорной вероятности

3. Методика объединения триграммных моделей с триггерными моделями и моделями триггерных групп, которая позволила использовать информацию о распределенных связях между словами и обеспечила улучшение оценки лингвистической составляющей меры достоверности для поиска ключевых слов на основе сети спутывания

Сеть спутывания является компактной формой записи конкурирующих временных гипотез, полученных в результате декодирования речевых сигналов. Сеть спутывания создается путем выравнивания всех путей решетки фрагментов речи, т. е. приведения речевой решетки к линейному виду. На данный момент не разработано эффективных методов выравнивания речевых решеток ввиду наличия ряда проблем. Первая из них связана со сложностью структуры речевой решетки, которая затрудняет расчет шкалы выравнивания. Второй проблемой является то, что низкие вероятности появления взаимоисключающих гипотез в решетке могут повлиять на эффективность процесса декодирования в полученной сети спутывания. Для решения первой проблемы в данной главе проводится модификация метода наибольших апостериорных вероятностей (МНАВ), а для решения второй проблемы разрабатывается методика переоценки лингвистической вероятности появления ключевого слова с помощью триггерных моделей и моделей триггерных групп.

Сеть спутывания, получаемая путем извлечения информации из словесных структур, дает более ясное представление обо всех конкурирующих гипотезах, и ее использование поможет улучшить точность декодирования речи. При использовании стандартного метода оценки максимума апостериорной вероятности система декодирования оценивает последовательность слов, представляющую собой путь с максимальной апостериорной вероятностью, полученный при заданных акустической и лингвистической моделях. Однако данный метод не всегда приводит к минимизации коэффициента ошибок слов, используемого в качестве оценки меры эффективности системы ПКС.

Использование сети спутывания позволяет улучшить точность декодирования речи и достичь минимума коэффициента ошибок слов. Для достижения компромисса между качеством сгенерированной сети спутывания и вычислительной сложностью генерации используются различные методы сегментирования решетки. В диссертационной работе была проведена модификация метода сегментирования решетки за счет использования энтропии при расчете апостериорных вероятностей согласно выражению (6). В этом случае алгоритм предложенного усовершенствованного метода наибольших апостериорных вероятностей (УМНАВ), учитывающий энтропию дуг решетки, имеет следующий вид: Шаг 1. Выбор дуги e с максимальной апостериорной вероятностью согласно формуле: , (8) где E - множество дуг решетки; - апостериорная вероятность с учетом энтропии дуги ei ;

Шаг 2. Если дуги e не существует, то решетка не может быть дальше разделена и следует перейти к шагу 7, иначе , где - множество дуг искомого сегмента;

Шаг 3. Найти дугу по формуле: , (9) где - это степень взаимного временного перекрытия дуг ei и e; - степень сходства слов, отмеченных индексами и , рассчитанную с использование алгоритма ММР; ?, ?, ? - весовые коэффициенты;

Шаг 4. ;

Шаг 5. Если и принадлежат разным множествам спутывания, то Шаг 6. Если , перейти к шагу 2, иначе E является искомым ступенчатым множеством;

Шаг 7. Если количество сегментов меньше чем 4, то перейти к шагу 1, иначе завершить алгоритм.

В таблице 1 приводятся сравнительные характеристики различных методов генерации сети спутывания.

Таблица 1 - Сравнение эффективности методов генерации сети спутывания

Характеристики методов Выравнивание по опорным точкам Быстрый метод Хью МНАВ УМНАВ

Относительное время 0.38 0.07 0.38 0.39

Ошибки выравнивания 7.67 8.87 5.55 5.51

Сложность 7.5 7.7 7.2 7.2

Как видно из таблицы 1, разработанный УМНАВ обеспечивает наименьший уровень ошибки выравнивания среди всех исследованных методов. Как правило, для моделирования контекстных связей между словами в системах ПКС используются биграммные или триграммные модели. Данные модели учитывают только близкие контекстные зависимости в пределах трех слов. Однако некоторые зависимости могут оказаться за пределами этого окна, в связи с этим было предложено использовать тригерную модель для учета такого рода взаимосвязей между словами и улучшения лингвистической оценки. Также для улучшения оценки лингвистической вероятности в диссертационной работе было впервые предложено использовать триггерные группы, включающие три слова, и разработано два типа окна для выбора триггерных групп (рисунок 3).

Рисунок 3 - Расположение инициируемого ключевого слова в зависимости от типа окна: а - тип W1; б - тип W2: - слова слитной речи, - ключевое слово

Для окна типа W1 построим пары триггеров , , , , , , и для учета вероятности появления этих пар в слитной речи введем триггерную модель. Для оценки вероятности триггерной модели было впервые предложено использовать три основных критерия: 1) максимальное значение вероятности (max(W1))

; (10)

2) сумма вероятностей (sum(W1))

; (11)

3) среднее значение вероятностей (avg(W1)): . (12)

Для окна типа W2 строятся пары триггеров , , , , , , и оценивается вероятность аналогичным образом.

Для улучшения качества лингвистической модели, объединим триграммную и триггерную модель согласно следующему выражению: , , (13) где ? - весовой коэффициент; - лингвистическая вероятность появления ключевого слова в триграммной модели.

Использование дополнительно триггерных моделей и моделей триггерных групп для оценки общей лингвистической вероятности позволяет учесть взаимосвязь между словами, которые употребляются не последовательно друг за другом. Экспериментально было определено, что наилучшая точность достигается при ? =0,3, и использование триггерной модели и модели триггерных групп позволяет добиться лучшей точности поиска, чем при использовании просто триграммной модели (рисунок 4).

Рисунок 4 - Эффективность ПКС с использованием триграммных и триггерных моделей: 1 - триграмная модель модель триггерных групп, определенная по среднему значению вероятностей с окном типа w2; 2 - триграммная модель

4. Разработка, анализ и экспериментальное исследование алгоритмов разделения пар спутывания и последующей верификации найденных ключевых слов на основе машины на опорных векторах (МОВ)

Одной из основных сложностей при поиске ключевых слов, остается декодирование акустически схожих пар спутывания, в значительной степени влияющее на общую эффективность системы ПКС. Этот факт свидетельствует о необходимости дополнительного анализа пар спутывания, представляющих конкурирующие версии, и использования алгоритмов верификации. Для различения пар спутывания слогов в диссертационной работе было предложено использовать акустические МОВ. Апостериорная вероятность для сети спутывания оценивается на основе алгоритма прямого-обратного хода для решетки, а при использовании МОВ оценка апостериорной вероятности происходит напрямую при помощи классификатора. Объединение этих двух оценок было предложено производить следующим образом: , (14) где - некоторый слог из пары спутывания, - апостериорная вероятность на основе сети спутывания, - выходная апостериорная вероятность МОВ, - гибридная вероятность, - весовой коэффициент. Гибридная вероятность может быть использована напрямую для различения слогов из пары спутывания. Слог, для которого суммарная вероятность большая, принимается в качестве правильного варианта.

В результате выполнения декодирования на основе решетки и сети спутывания система ПКС генерирует оценки различных мер достоверности, сравнение которых с порогом позволяет принять решение о наличии или отсутствии искомых ключевых слов в потоке слитной речи. Однако, как было показано ранее, использование такого подхода приводит к высокому уровню ложных тревог. Уменьшение этого уровня за счет изменения порога приводит к снижению вероятности правильного обнаружения. Для устранения этого недостатка, присущего всем пороговым классификаторам, в диссертационной работе для верификации ключевых слов было предложено использовать гибридный подход на основе МОВ, позволяющий принимать многокритериальные решения. Для реализации данного подхода в диссертационной работе была предложена и реализована следующая структура системы поиска ключевых слов (рисунок 5).

Рисунок 5 - Структура гибридной системы поиска ключевых слов

Отличительной особенностью предложенной структуры является то, что на выходе сети спутывания производится оценка мер достоверности и значений апостериорной вероятности, из анализа которых принимается решение о наличии пары спутывания. Если такая пара спутывания обнаруживается, то для вычисления апостериорной вероятности слогов спутывания используется гибридная оценка согласно выражению (14). Далее значения мер достоверности и апостериорных вероятностей поступают на вход блока многокритериального принятия решений, реализованного на основе МОВ.

Алгоритм верификации ключевых слов на основе гибридной системы имеет следующий вид.

Шаг 1. Речевые данные поступают на систему декодирования, которая генерирует решетку слогов и затем преобразуется в сеть спутывания.

Шаг 2. В каждом множестве спутывания оставляются только три гипотетических слога с максимальными вероятностями и оценивается мера достоверности гипотетического слова. Если полученная мера достоверности больше порогового значения, то происходит переход к шагу 4.

Шаг 3. Создается объединенный вектор признаков, с помощью МОВ классификатора идентифицируются слоги спутывания, для которых переоценивается апостериорная вероятность согласно выражению (14).

Шаг 4. Производится верификация ключевых слов.

В ходе экспериментов для верификации ключевых слов была использована МОВ с ядром в виде гауссовской радиальной функции и экспериментально определены оптимальные параметры классификатора на основе МОВ. МОВ объединяла три меры достоверности: динамический рейтинг, нормализацию состояний и достоверность на интервале. Разработанная и обученная МОВ была использована для верификации ключевых слов в качестве дополнительной процедуры, на вход которой подаются результаты поиска ключевых слов на основе сети спутывания.

Для оценки эффективности предложенных и разработанных в диссертации методов и алгоритмов был проведен эксперимент по поиску ключевых слов. На рисунке 6 показана эффективность систем ПКС, созданных на основе решетки с использованием обычной меры достоверности и новой меры достоверности с блоком верификации. На рисунке 7 представлена эффективность систем ПКС, созданных на основе обычной сети спутывания и сети спутывания с использованием разработанных методик и алгоритмов: триггерной модели и модели триггерных групп, гибридной оценки вероятности пар спутывания и блока верификации. Как видно из рисунков 6 и 7, использование разработанных методов и алгоритмов при построении системы ПКС на основе решетки и сети спутывания позволяет улучшить эффективность поиска.

Рисунок 6 - Эффективность систем ПКС, созданных на основе решетки: 1 - Решетка с использованием новой меры достоверности и блока верификации; 2 - Решетка с использованием обычной меры достоверности

Рисунок 7 - Эффективность систем ПКС, созданных на основе сети спутывания: 1 - Сеть спутывания с использованием триггерной модели, гибридной оценки вероятности пар спутывания и блока верификации; 2 - Обычная сеть спутывания

Вывод
декодирование речевой временной

Список литературы
1. На основании анализа основных алгоритмов извлечения признаков аудиосигналов показано, что для задачи сегментации важными являются не только характеристики отдельных фреймов, но и комплексные характеристики сигнала в целом. Разработан метод сегментации аудиосигналов на основе машины на опорных векторах, обеспечивающий наилучшее разделение аудиосигналов на четыре основных класса (речь, речь с фоновым шумом, музыку, тишину) по сравнению с методами сегментации на основе решающего правила, критерия Байеса, скрытых Марковских моделей и нейронных сетей [1, 4, 8, 10].

2. На основании сравнения основных методов компактного представления результатов декодирования показано, что использование решетки слогов намного эффективнее с точки зрения вычислительной сложности. Для уменьшения вычислительной сложности алгоритма вычисления апостериорной вероятности ключевых слов на основе решетки предложено использовать процедуру сокращения избыточности и экспериментально определено для нее значение порога [5].

3. Разработана методика оценки меры достоверности на основе апостериорной вероятности, минимального межстрокового расстояния и энтропии с учетом длины и меры подобия строк, и показано, что предложенная мера достоверности позволяет достичь лучших характеристик поиска [2, 5, 7, 9, 11, 12, 14].

4. Разработан метод сегментирования решетки для создания сети спутывания на основе наибольших апостериорных вероятностей, и показано, что он обеспечивает наименьший уровень ошибки выравнивания среди всех используемых на настоящий момент методов. Установлено, что новый метод сравним по показателю относительного времени генерации сети спутывания с методом выравнивания по опорным точкам и методом наибольших апостериорных вероятностей. Экспериментально показано, что с точки зрения глобальных ошибок выравнивания предложенный метод превосходит быстрый метод Хью и алгоритм выравнивания по опорным точкам [6, 16, 17].

5. Разработана методика объединения триграммных моделей с триггерными моделями и моделями триггерных групп и показано, что использование лингвистических триггеров позволяет улучшить точность поиска ключевых слов [6, 15].

6. Разработан алгоритм верификации ключевых слов на основе использования нескольких мер достоверности и машины на опорных векторах, и показано, что использование предложенного алгоритма верификации при фиксированной точности поиска позволяет снизить вероятность ложных тревог [3, 13].

Рекомендации по практическому использованию результатов.

Результаты, полученные в диссертационной работе, позволяют создавать эффективные системы поиска ключевых слов для решения задач анализа и индексации аудиоданных.

Результаты диссертационной работы могут быть использованы: - для контроля речевых потоков путем выборочного декодирования речевых последовательностей и обнаружения в них слов из некоторого фиксированного списка;

- для обеспечения удобного интерфейса человек-компьютер в диалоговых системах различного назначения;

- в учебном процессе учреждений образования при подготовке специалистов в области IT-технологий.

Литература

1. Хейдоров, И.Э. Алгоритм сегментации аудиосигналов в мультимедийных системах поиска информации / И.Э. Хейдоров, П.Д. Кухарчик, Цзинбинь Янь // Электроника Инфо. - 2007. - № 12. - С. 54-58.

2. Янь, Цзинбинь. Исследование характеристик системы поиска ключевых слов на основе минимального интервала редактирования и мер доверительности / Цзинбинь Янь, И.Э. Хейдоров, А.В. Ткаченя // Речевые технологии. - 2008. - № 4. - С. 5-14.

3. Верификация ключевых слов на основе мер доверительности и метода опорных векторов / Цзинбинь Янь, А.М. Сорока, А.А. Трус, И.Э. Хейдоров // Электроника Инфо. - 2009. - № 5. - С. 44-49.

4. Yan, Jingbin. Audio classification based on one-class SVM / Jingbin Yan, Shi Wu, I.E. Kheidorow // J. of Computer Applications. - 2009. - Vol. 29, № 5. - P. 1419-1422.

5. Поиск ключевых слов в слитной речи на основе усовершенствованной меры достоверности / Цзинбинь Янь, Ши У, А.В. Ткаченя, И.Э. Хейдоров // Вестн. Белорус. гос. ун-та. Сер. 1, Физика. Математика. Информатика. - 2009. - № 3. - С. 44-48.

6. Янь, Цзинбинь. Исследование алгоритма поиска ключевых слов на основе сети спутывания / Цзинбинь Янь, А.М. Сорока, А.В. Ткаченя // Электроника Инфо. - 2009. - № 9. - С. 70-73.

7. Янь, Цзинбинь. Распознавание ключевых слов с использованием фонематической сети / Цзинбинь Янь, Ши У // Современные проблемы информатизации в анализе и синтезе технологических и программно-телекоммуникационных систем : сб. тр. XIV Междунар. открытой науч. конф. / редкол.: О.Я. Кравец [и др.]. - Воронеж, 2009. - С. 350-352.

8. Янь, Цзинбинь. Устойчивый метод сегментации аудиоданных / Цзинбинь Янь, Ши У // Современные проблемы информатизации в анализе и синтезе технологических и программно-телекоммуникационных систем : сб. тр. XIV Междунар. открытой науч. конф. / редкол.: О.Я. Кравец [и др.]. - Воронеж, 2009. - С. 540-542.

9. Янь, Цзинбинь. Поиск ключевых слов в потоке речи на основе решетки слогов и алгоритма минимального расстояния / Цзинбинь Янь, Р.М. Алиев // XI Республиканская научно-методическая конференция молодых ученых / редкол.: И.В. Абрамова [и др.], Брест, 15 мая 2009. - Брест, 2009. - С. 36-38.

10. Speech segmentation to phonemes based on hybrid hidden Markov models / Jingbin Yan, Shi Wu, I.E. Kheidorov, A.V. Tkachenia // 10th International conference on pattern recognition and information processing, PRIP 2009, Minsk, 19-21 May 2009 / Belarus. State Univ. [et al.]. - Minsk, 2009. -P. 192-194.

11. Янь, Цзинбинь. Верификация речевых ключевых слов использованием энтропии / Цзинбинь Янь, Ши У // Сборник работ 66 научной конференции студентов и аспирантов Белорусского государственного университета, Минск, 21-22 мая 2009 г. - Минск, 2009. - С. 218-221.

12. Алиев, Р.М. Поиск ключевых слов с использованием решетки фрагментов слов. / Р.М. Алиев, Цзинбинь Янь, И.Э. Хейдоров // Компьютерная лингвистика и интеллектуальные технологии : сб. материалов ежегод. междунар. конф. «Диалог 2009», Бекасово, 27-31 мая 2009 г. / Рос. фонд фундам. исслед., Моск. гос. ун-т ; редкол.: А.Е. Кибрик [и др.]. - М., 2009. - С. 351-354.

13. Kheidorow, I.E. New approach to keyword search based on key-event detection procedure / I.E. Kheidorow, P.D. Kukharchik, Jingbin Yan // 13th International conference on speech and computer SPECOM-2009, Saint Petersburg, 21-25 June 2009 / Russ. acad. of sciences ; St. Petersburg inst. for informatics a. automation. - St. Petersburg, 2009. - P. 383-387.

14. Tkachenia, A.V. Robust keyword search using subword lattice / A.V. Tkachenia, Jingbin Yan, A.A. Trus // 17th International conference on conceptual structures for extracting natural language semantics, SENSE’09, Moscow, 26 July 2009. - Moscow, 2009. - P. 101-107.

15. Янь, Цзинбинь. Использование триггерного моделирования для улучшения качества поиска ключевых слов в сети спутывания / Цзинбинь Янь, Р.М. Алиев // Информационные системы и технологии IST’2009 : сб. тр. V междунар. конф.-форума. Minsk, 16-17 ноября 2009 г. / редкол.: Н.И. Листопад [и др.]. - Минск, 2009. - С. 194-196.

16. Янь, Цзинбинь. Разработка метода создания сети спутывания путем сегментации / Цзинбинь Янь, Р.М. Алиев, А.В. Ткаченя // Информационные системы и технологии IST’2009 : сб. тр. V междунар. конф.-форума. Minsk, 16-17 ноября 2009 г. / редкол.: Н.И. Листопад [и др.]. - Минск, 2009. - С. 191-193.

17. Янь, Цзинбинь. Разработка метода создания сети спутывания / Цзинбинь Янь А.М. Сорока // 52-й научной конференции МФТИ. Сб. трудов, Москва, 26-27 ноября 2009 г. / редкол.: Н.И. Кудрявцев [и др.]. - Москва, 2009. - С. 118-120.

Размещено на .ru
Заказать написание новой работы



Дисциплины научных работ



Хотите, перезвоним вам?