Рассмотрение возможности применения методов многомерного шкалирования и кластеризации к лингвистическим задачам. Анализ базы данных "Языки мира". Обоснование адекватности применяемого аппарата для типологических и компаративистских исследований.
При низкой оригинальности работы "Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях", Вы можете повысить уникальность этой работы до 80-100%
На протяжении многих лет в ИЯ РАН ведется разработка уникального информационного ресурса - БД «Языки Мира». В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. По состоянию на 26.03.06 БД «Языки Мира» характеризуется следующими количественными параметрами: количество языков: 315 языков Евразии, количество признаков: 3821, формат представления данных: бинарный, общий размер информационного пространства БД составляет свыше 1,2 млн. бинарных состояний. Однако и в ней языки описаны всего по 131 признаку. При кодировке признаков было принято следующее решение - использовать двоичную логику, либо язык обладает данным признаком, либо нет.9 БУРУШАСКИ 33 РУССКИЙ18 ТУРЕЦКИЙ 42 ГАЛИСИЙСКИЙ21 БАГВАЛИНСКИЙ 45 БОЛГАРСКИЙ24 КАЛМЫЦКИЙ 48 ШУГНАНСКИЙНаиболее известным способом ординации, основанным на использовании матрицы расстояний, является неметрическое многомерное шкалирование, отображающее объекты в пространство низкой размерности таким образом, что в нем Евклидовы расстояния между образами объектов пропорциональны расстояниям в исходной матрице. Для них были рассчитаны расстояния, выполнена ординация и рассчитаны ошибки ординации. Для оценки качества полученной ординации, т.е. соответствия расстояний в матрице и Евклидовых расстояний на ординационной плоскости, используются как методы визуализации, так и численные характеристики. Наиболее распространенной численной характеристикой является STRESS, вычисляемая по формуле: , где суммирование ведется по всем парам объектов, есть исходная мера различия (расстояние) между i-м и j-м объектами (языками), а - Евклидово расстояние между i-м и j-м объектами на ординационной плоскости. Для визуальной оценки качества ординации используется график Шепарда, в котором по горизонтали откладывается расстояние в исходноей матрице, а по вертикали - монотонная регрессия на него Евклидовых расстояний на ординационной плоскости.Создание базы данных “Языки мира” позволяет применить к лингвистическим задачам совершенно новый класс методов - многомерное шкалирование, кластеризация, в том числе, с использованием нейронных сетей и др.
Вы можете ЗАГРУЗИТЬ и ПОВЫСИТЬ уникальность своей работы