Статистика в пространствах произвольной природы. Изучение расстояний в различных пространствах данных. Аксиоматическое введение метрики в пространстве неотрицательных суммируемых функций. Мера симметрической разности как расстояние между множествами.
Аннотация к работе
Московский государственный технический университет им.Ядром прикладной статистики является статистика в пространствах произвольной природы, основанная на использовании расстояний и задач оптимизации. В настоящей статье обсуждаются расстояния в различных пространствах статистических данных, в частности, их вывод на основе соответствующих систем аксиом. The core of applied statistics is statistics in spaces of arbitrary nature, based on the use of distances and optimization problems. This article discusses the various distances in spaces of statistical data, in particular, their conclusions on the basis of appropriate systems of axioms.В настоящей статье обсудим расстояния (метрики, показатели различия) в различных пространствах статистических данных, в частности, их получение на основе соответствующих систем аксиом. Как известно, расстоянием в пространстве Х называется числовая функция двух переменных d(x,y), x є X, y є X, определенная на этом пространстве, т.е. в стандартных обозначениях d: X2 > R1, где R1 - прямая, т.е. множество всех действительных чисел. Такое расстояние естественно использовать в пространстве Х значений номинального признака: если два значения (например, названные двумя экспертами) совпадают, то расстояние равно 0, а если различны - то 1. Пространство функций, элементами которого являются функции х = x(t), у = y(t), 0< t <1, превращают в метрическое пространство (т.е. в пространство с метрикой), вводя расстояние Между множествами можно ввести и другое расстояние: В ряде задач прикладной статистики используются функции двух переменных, для которых выполнены не все три аксиомы расстояния, а только некоторые.Первый этап - используют наиболее известное расстояние - евклидово (а при измерении расстояния между признаками - коэффициент линейной парной корреляции Пирсона). Этот подход и в настоящее время широко используется теми, кто не интересуется проблемой выбора расстояний. Второй этап характеризуется присутствием в сознании исследователей информации о наличии ряда различных расстояний при неясности оснований для выбора того или иного расстояния. Общая рекомендация дается теорией устойчивости [16, 22] - целесообразно одни и те же данные обрабатывать различными способами, с использованием тех или иных расстояний; если выводы совпадают, то они, скорее всего, соответствуют реальности; если же выводы различны, то очевидна их субъективность, определяемая выбором исследователем метода анализа данных.