Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях - Доклад

бесплатно 0
4.5 204
Рассмотрение возможности применения методов многомерного шкалирования и кластеризации к лингвистическим задачам. Анализ базы данных "Языки мира". Обоснование адекватности применяемого аппарата для типологических и компаративистских исследований.

Скачать работу Скачать уникальную работу

Чтобы скачать работу, Вы должны пройти проверку:


Аннотация к работе
На протяжении многих лет в ИЯ РАН ведется разработка уникального информационного ресурса - БД «Языки Мира». В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. По состоянию на 26.03.06 БД «Языки Мира» характеризуется следующими количественными параметрами: количество языков: 315 языков Евразии, количество признаков: 3821, формат представления данных: бинарный, общий размер информационного пространства БД составляет свыше 1,2 млн. бинарных состояний. Однако и в ней языки описаны всего по 131 признаку. При кодировке признаков было принято следующее решение - использовать двоичную логику, либо язык обладает данным признаком, либо нет.9 БУРУШАСКИ 33 РУССКИЙ18 ТУРЕЦКИЙ 42 ГАЛИСИЙСКИЙ21 БАГВАЛИНСКИЙ 45 БОЛГАРСКИЙ24 КАЛМЫЦКИЙ 48 ШУГНАНСКИЙНаиболее известным способом ординации, основанным на использовании матрицы расстояний, является неметрическое многомерное шкалирование, отображающее объекты в пространство низкой размерности таким образом, что в нем Евклидовы расстояния между образами объектов пропорциональны расстояниям в исходной матрице. Для них были рассчитаны расстояния, выполнена ординация и рассчитаны ошибки ординации. Для оценки качества полученной ординации, т.е. соответствия расстояний в матрице и Евклидовых расстояний на ординационной плоскости, используются как методы визуализации, так и численные характеристики. Наиболее распространенной численной характеристикой является STRESS, вычисляемая по формуле: , где суммирование ведется по всем парам объектов, есть исходная мера различия (расстояние) между i-м и j-м объектами (языками), а - Евклидово расстояние между i-м и j-м объектами на ординационной плоскости. Для визуальной оценки качества ординации используется график Шепарда, в котором по горизонтали откладывается расстояние в исходноей матрице, а по вертикали - монотонная регрессия на него Евклидовых расстояний на ординационной плоскости.Создание базы данных “Языки мира” позволяет применить к лингвистическим задачам совершенно новый класс методов - многомерное шкалирование, кластеризация, в том числе, с использованием нейронных сетей и др.

Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность
своей работы


Новые загруженные работы

Дисциплины научных работ





Хотите, перезвоним вам?