Решение различных задач нечисловой статистики. Линейные оценки плотности распределения вероятностей в пространствах произвольной природы. Частный случай конечного множества. Состоятельность и нормальность оценок при выполнении естественных условий.
Оценки плотности распределения вероятностей в пространствах произвольной природы используют для решения различных задач нечисловой статистики [1], называемой также статистикой объектов нечисловой природы или статистикой нечисловых данных. Такие оценки применяют при описании статистических данных, восстановлении зависимостей (в непараметрической регрессии), в задачах дискриминантного и кластерного анализа и т.д. Проекционные оценки получаются при разложении плотности в ряд по базисным функциям и рассмотрении в качестве оценки плотности конечного отрезка этого ряда с заменой коэффициентов на их оценки [8]. Эти оценки использовались прежде всего в задачах классификации (дискриминантного анализа, диагностики) и известны как оценки «методом kn ближайших соседей» (см., например, [14, разд. В [8] нами найдены главные члены среднего квадрата ошибки M(fn(x) - f(x))2 для оценки (4) типа Парзена - Розенблатта с ядерной функцией K(u) = 0,5 при |u| 1 (согласно [20, с.96]) и для оценки Фикс - Ходжеса, вычисленные нами на основе [21].
Введение
Оценки плотности распределения вероятностей в пространствах произвольной природы используют для решения различных задач нечисловой статистики [1], называемой также статистикой объектов нечисловой природы или статистикой нечисловых данных. Такие оценки применяют при описании статистических данных, восстановлении зависимостей (в непараметрической регрессии), в задачах дискриминантного и кластерного анализа и т.д. Однако систематическое изложение теории оценок плотности распределения вероятностей в пространствах произвольной природы ранее не публиковалось. Настоящая статья начинает заполнение этого пробела. Математический аппарат приводится полностью (проще говоря, теоремы даются в строгих формулировках и с доказательствами).
1. Различные виды оценок плотности статистика плотность вероятность пространство
Пусть (Z, A) - измеримое пространство, p и q - сигма-конечные меры на (Z, A), причем p абсолютно непрерывна относительно q, т.е. из q(B) = 0 следует p(B) = 0 для любого множества B из сигма-алгебры A. В этом случае на (Z, A) существует неотрицательная измеримая функция f(x) такая, что (1) для любого множества C из сигма-алгебры измеримых множеств A. Функция f(x) называется производной Радона - Никодима меры q по мере p, а в случае, когда q - вероятностная мера, также плотностью вероятности q по отношению к мере p [2, с.460].
Пусть X1, X2 ,…, Xn - независимые одинаково распределенные случайные элементы (величины), распределение которых задается вероятностной мерой q. В настоящей статье рассмотрим несколько видов непараметрических оценок плотности вероятности q по выборке X1, X2 ,…, Xn. А именно, линейные оценки и их частные случаи - ядерные и гистограммные, и оценки типа Фикс - Ходжеса, не являющиеся линейными.
Мера p предполагается заданной. В случае конечномерного евклидова пространства Z = Rk в качестве p обычно используют лебегову меру. Если пространство объектов нечисловой природы конечно, то в качестве p можно использовать меру, приписывающую каждому элементу x из Z единичный вес [1]. В качестве p можно применять распределение определенного случайного элемента со значениями в Z. В теории случайных процессов рассматривают плотности по гауссовским мерам [3, 4, 5].
В предположении непрерывности неизвестной плотности f(x) представляется целесообразным «размазать» каждый атом эмпирической меры, т.е. рассмотреть линейные оценки, введенные в нашей первой работе по нечисловой статистике [6, с.24]: (2) в которых действительнозначные функции gn удовлетворяют некоторым условиям регулярности, обсуждаемым ниже.
Укажем несколько частных случаев оценок (2). Гистограммные оценки определяются с помощью последовательности Tn разбиений пространства Z на непересекающиеся области (элементы Tn) и функций
(3) где A(x) - элемент разбиения Tn, которому принадлежит x.
Первая работа по непараметрическим оценкам плотности вероятности вида (2) принадлежит Н.В. Смирнову [7], изучившему оценки (2) - (3) с измельчающейся последовательностью разбиений Tn, для которых максимальный (по x) диаметр областей A(x) стремится к 0. Проекционные оценки получаются при разложении плотности в ряд по базисным функциям и рассмотрении в качестве оценки плотности конечного отрезка этого ряда с заменой коэффициентов на их оценки [8]. Теория проекционных оценок для пространств произвольной природы развита Н.Н. Ченцовым [9, разд.25]. Однако для построения таких оценок нужен ортонормальный базис в пространстве функций на Z, а для конкретных пространств объектов нечисловой природы методы построения подобных базисов, пригодные для проведения расчетов, обычно не разработаны. Поэтому мы вынуждены разрабатывать другие виды непараметрических оценок плотности.
Пусть d - показатель различия на Z [1] (в наиболее важных частных случаях - метрика на Z). В [10] введены ядерные оценки плотности - оценки вида (2) с
(4) где K = K(u)
- ядро (ядерная функция), hn - последовательность положительных чисел (показателей размытости), b(hn, x) - нормировочный множитель. В [8] линейные оценки (2) с функциями gn из (4) названы «обобщенными оценками типа Парзена - Розенблатта», т.к. в частном случае
Z = R1, d(x, Xi) = | x - Xi |, b(hn, x) = hn они переходят в известные оценки, введенные Розенблаттом [11] и Парзеном [12], которым посвящены сотни работ.
Естественный класс оценок плотности, не являющихся линейными, был предложен в частном случае конечномерного пространства Фикс и Ходжесом [13]. Эти оценки использовались прежде всего в задачах классификации (дискриминантного анализа, диагностики) и известны как оценки «методом kn ближайших соседей» (см., например, [14, разд. 6.2], [15, разд. 4.4]). Выбирается шар с центром в точке x, имеющий минимальный радиус среди всех шаров, содержащих kn элементов выборки. Пусть Vn - объем этого шара (ясно, что Vn - случайная величина). В качестве оценки плотности используют случайную величину fn(x) = kn/Vn.
Для произвольных пространств Z объектов нечисловой природы обобщенная оценка типа Фикс - Ходжеса определена нами в [8] с помощью связанных с точкой x пространства Z системы расширяющихся множеств U(x, r), r > 0, такой, что U(x, r1) является частью U(x, r2) при r1 0 совпадает с Z. Пусть r* - точная нижняя грань r таких, что U(x, r) содержит не менее kn элементов выборки, тогда обобщенной оценкой типа Фикс - Ходжеса называется fn(x) = kn/p(U(x, r*)).
Если Z является метрическим пространством с метрикой d или же пространством с показателем различия d, то естественно использовать
U(x, r) = {y: d(x, y) < r}.
Есть и иные методы оценки плотности случайной величины. Так, в [16] предложено находить оценку как решение экстремальной статистической задачи. По существу речь о том, чтобы оптимально оценить число слагаемых в частном случае проекционных оценок Ченцова, однако ссылки на работы Н.Н. Ченцова отсутствуют. Оценки находятся лишь численно. В [17, 18] предложено использовать аналог проекционных оценок для квадратного корня из плотности вероятности.
Рассмотрим частный случай
Z = R1, d(x, Xi) = | x - Xi |, b(hn, x) = hn.
Известно, что среди ядерных оценок вида (4) можно найти сходящиеся с наилучшей возможной по порядку величины скоростью [19, с.321]. Аналогичный результат верен и для проекционных оценок Ченцова [9]. В [8] нами найдены главные члены среднего квадрата ошибки M(fn(x) - f(x))2 для оценки (4) типа Парзена - Розенблатта с ядерной функцией K(u) = 0,5 при |u| 1 (согласно [20, с.96]) и для оценки Фикс - Ходжеса, вычисленные нами на основе [21]. Оптимальный порядок скорости сходимости для обеих оценок одинаков и достигается при kn = nhn = n4/5 (отметим, что вопреки мнению [14, с.188] следует выбирать kn достаточно большим). При этом множители перед степенями kn и hn в формулах для средних квадратов ошибок являются функциями от плотности и ее второй производной, причем сравнить эти множители в общем случае не представляется возможным: результат сравнения зависит от конкретного вида указанных функций.
Из сказанного с учетом результатов работ [22, 23] вытекает, что в классическом случае Z = Rk нет оснований установить, какими из различных видов непараметрических оценок плотности следует пользоваться. Поэтому в статистике объектов нечисловой природы целесообразно проработать возможность использования оценок плотности различных типов. При этом выделяются линейные оценки, поскольку они согласно (2) являются суммами случайных функций, независимых и одинаково распределенных в силу того, что X1, X2 ,…, Xn - выборка. Их легко реализовать численно. Среди конкретных видов линейных оценок выделяются ядерные оценки [24], поскольку разработаны аксиоматические подходы к выбору метрики в пространствах объектов нечисловой природы [1]. Ядерные оценки выгодно отличаются от гистограммных отсутствием произвола при выборе разбиений Tn. Ядерные оценки при фиксированной метрике (показателя различия) d имеют конкретный вид с точностью до ядерной функции K(u) и последовательности hn показателей размытости, как и в классическом случае.
Будем рассматривать сходимость по вероятности. Перенос результатов на случай сходимости с вероятностью 1 обычно не вызывает трудностей.
2. Линейные оценки
Положим
Yin = Yin(x) = gn(x, Xi), тогда согласно (2)
. (5)
Поскольку случайные величины Yin независимы и одинаково распределены, то согласно (5) для состоятельности и асимптотической нормальности fn(x) необходимо и достаточно, чтобы при безграничном росте объема выборки n были выполнены предельные соотношения
. (6)
Укажем естественные условия, при которых справедливы соотношения (6).
Поскольку , (7) то для существования математического ожидания Mfn(x) достаточно, чтобы были выполнены следующие условия: (I) , (II) .
Выполнение условия (I) можно обеспечить путем выбора gn, в то время как условие (II) наложено на неизвестную плотность f.
Нам понадобится условие нормировки
(III) . gn(x, y) = gn(y, x), то условие (III) вытекает из естественного требования того, чтобы функция fn(x) была плотностью, т.е.
. (8)
Из соотношения (7) и условия (III) следует, что . (9)
Для того, чтобы изучить интеграл в правой части (9), разобьем его на два - по окрестности U(x) точки x и по ее внешности Z \ U(x). Чтобы такое разбиение позволило получить полезные выводы, введем условие (IV).
(IV) Функция f непрерывна в точке x.
Возьмем произвольное число a > 0. В силу условия (IV) существует окрестность U(x) точки x такая, что (10) для всех точек y из окрестности U(x) точки x.
Замечание. Вплоть до условия (IV) пространство (Z, A) рассматривалось как измеримое. В условии (IV) появилось понятие непрерывности, т.е. предположение, что Z - топологическое пространство. Будем считать, что измеримая и топологическая структуры пространства Z согласованы между собой, т.е. открытые множества измеримы. Для Z из конечного числа элементов, представляющих основной интерес в нечисловой статистике [1], это условие выполнено тривиально.
Согласно (9) имеем
. (11)
Каждое из слагаемых в правой части (11) рассмотрим по отдельности. Для первого из них справедлива цепочка неравенств: (12)
Чтобы гарантировать, что первое слагаемое в (11) стремится к 0, когда a стремится к 0, добавим новое условие: (V)
(отметим, что в условии (I) c1n = c1n(x)). Тогда (13)
Для второго неравенства в (11) с учетом неравенства справедлива оценка
(14)
Для того, чтобы правая часть неравенства (14) стремилась к 0 при безграничном росте n, введем условие (VI).
(VI) Для любой окрестности U(x) точки x
Теорема 1. Если условия (I) - (VI) выполнены, то (15)
Доказательство. Рассмотрим малое число b > 0. Положим a = b/(2c1(x)). Рассмотрим окрестность U(x) = U(x, b) такую, что неравенство (10) выполнено для этого a. Тогда правая часть неравенства (13) равна b/2. Из условия (VI) следует, что существует число n0 = n0(x, b) такое, что (16)
при n > n0, следовательно, правая часть неравенства (14) меньше b/2. Из равенства (11) следует, что |Mfn(x) - f(x)| n0, следовательно, соотношение (15) выполнено.
Замечание. При доказательстве теоремы 1 использовалось только равенство (7), т.е. одинаковая распределенность элементов выборки Xi - их независимость не требовалась.
Если случайные величины Yin = gn(x, Xi) некоррелированы и имеют дисперсию, то (17)
Для существования дисперсии Dfn(x) достаточно предположить, что выполнено условие
(VII)
Учитывая условия (I), (II) и равенство (17). Напрашивающееся условие ограниченности последовательности dn является слишком жестким - ему не удовлетворяют ядерные оценки (4).
Теорема 2. Пусть случайные величины
Yin = gn(x, Xi), i = 1, 2, …, n, независимы и одинаково распределены, выполнены условия (I) - (VII)
(18)
Тогда fn(x) - состоятельная и асимптотически нормальная оценка плотности f в точке x.
Доказательство. Из теоремы 1, соотношений (17) и (18) следует, что средний квадрат ошибки M(fn(x) - f(x))2 стремится к 0 при безграничном росте объема выборки n, и с помощью неравенства Чебышева получаем состоятельность. Асимптотическая нормальность следует из Центральной предельной теоремы (следствие на с.255 [25]), поскольку случайные величины Yin независимы, одинаково распределены и имеют ненулевую дисперсию.
Замечание 1. Для проекционных оценок условие (VI) не выполнено. Они отражают плотность «в целом», а оценки, удовлетворяющие условие (VI), - локально.
Замечание 2. Условия (I) - (VII) проверяют для конкретных видов оценок.
3. Оценивание вероятности попадания в область
Получим аналог равенства (1), определяющего понятие плотности, для оценок плотности fn(x). Для любого события A, любого малого числа e >0 и любого натурального числа n = 1, 2, …, положим
(19)
Содержательный смысл Гр(А|e,n) - окрестность границы множества A, заданная в терминах gn.
Теорема 3. Пусть выполнены условия (III), (V) равномерно для всех x из Z и (20) для любого e > 0. Тогда по вероятности
(21)
Доказательство. Выборку X1, X2 ,…, Xn разобьем на три части: H1 - совокупность тех элементов выборки, которые входят во внутреннюю часть A, т.е. в A \ Гр(А|e,n), H2 - множество результатов наблюдений, попавших в Гр(А|e,n), и H3 - множество результатов наблюдений, лежащих в остальной части Z, т.е. в дополнении к объединению A и Гр(А|e,n). Тогда сумма, задающая линейную оценку плотности согласно (2), разбивается на три суммы в соответствии с делением выборки на три части H1, H2, H3: (22)
Для Xi из H1 в силу (19) и условия (III)
(23)
Аналогично для Xi из H3 по тем же причинам
(24)
Наконец, для Xi из H2 в силу условия (V) (а также условия (I))
(25)
Из последних четырех формул (22) - (25) следует, что (26) где |Hi| обозначает число элементов множества Hi, i = 1, 2, 3.
Первое слагаемое в правой части неравенства (26) не превосходит e. Рассмотрим второе. Случайная величина |H2| является числом успехов в n испытаниях Бернулли с вероятностью успеха p в каждом испытании, где p есть вероятность попадания случайной величины (элемента) X1 в Гр(А|e,n). Из соотношения (20) и неравенства Чебышева следует, что второе слагаемое в правой части неравенства (26) стремится к 0 при безграничном росте объема выборки n.
Рассмотрим левую часть неравенства (26). Случайная величина |H1| является числом успехов в n испытаниях Бернулли с вероятностью успеха p в каждом испытании, где p есть вероятность попадания случайной величины (элемента) X1 во внутренность множества A, т.е. в A \ Гр(А|e,n). В силу соотношения (20) эта вероятность успеха при безграничном росте объема выборки n стремится к вероятности попадания случайной величины X1 в множество A. Из неравенства (26) и последних утверждений вытекает соотношение (21). Теорема 3 доказана.
4. Сходимость выборочной моды к теоретической
Обсудим сходимость выборочной моды к теоретической. Поскольку выборочная мода есть Arg max{fn(x)}, где максимум берется по всем x из Z, а теоретическая мода есть Arg max{f(x)}, где максимум берется по тем же x, то для доказательства сходимости выборочной моды к теоретической кажется естественным применить методы изучения асимптотики решений экстремальных статистических задач (см. [1], [26]). Однако возникают сложности, связанные с тем, что случайные функции gn(x, Xi) не являются ограниченными сами и их дисперсии также не ограничены. Кроме того, эти функции не являются асимптотически равномерно разбиваемыми [26]. В общей теории асимптотики решений экстремальных статистических задач показано, что асимптотическая равномерная разбиваемость тесно связана с равномерной сходимостью, в то время как для линейных оценок плотности на прямой, как известно, [20, с.68-70], требуется выполнение ряда условий. Поэтому нельзя ожидать простоты формулировок аналогичных результатов для пространств общей природы [27]. Приведем один результат о сходимости выборочной моды к теоретической. Теорема 4. Пусть Z состоит из конечного числа элементов, условия теоремы 2 выполнены для всех x из Z. Тогда выборочная мода сходится к теоретической по вероятности при росте объема выборки. Доказательство вытекает из теоремы 2.2.2 [1] и теоремы 2 выше.
Пусть множество Z конечно, сигма-алгебра A измеримых подмножеств совпадает с множеством всех подмножеств Z, мера p - считающая, т.е. p({x}) = 1 для любого x из Z. Тогда f(x) = P(X1 = x) для любого x из Z, условия (I), (II), (IV) и (VII) всегда выполнены, условия (III), (V) и (VI) переходят в условия
(27)
(28)
(29) соответственно. Условие (29) можно заменить на более простое: для любого x из Z
(30)
Обычная оценка вероятности P(X1 = x) - частота (число совпадений элементов выборки с точкой x, деленное на объем выборки) - является частным случаем гистограммной оценки (3), если области разбиения Tn есть одноэлементные множества {x}. Переход к использованию gn позволяет «сглаживать» частотную оценку.
Замечание. Поскольку плотность вероятности f > 0, то представляется естественным потребовать, чтобы выполнялось условие fn > 0, а потому и условие gn > 0, что делает ненужным условие (I). Однако при этом увеличивается смещение и уменьшается скорость сходимости ядерных оценок (4). Оказывается целесообразным использование знакопеременных ядерных функций (см. [1], [24]). Поэтому мы не считаем целесообразным принимать условие fn > 0.
Асимптотической теории конкретных видов линейных оценок, а также применению линейных оценок и их частных видов для решения различных задач нечисловой статистики (построения оценок условной плотности, условного среднего, т.е. регрессионной зависимости, правил принятия решений в дискриминантном анализе, при проверке гипотезы однородности двух выборок и др. [28]) должны быть посвящены отдельные публикации.
Отметим близость и взаимопереплетение методологических подходов нечисловой статистики (статистики объектов нечисловой природы, статистики нечисловых данных) и системной нечеткой интервальной математики [29, 30].
Список литературы
1. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана. 2009. - 541 с.
2. Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В. Прохоров. - М.: Большая Российская Энциклопедия, 1999. - 910 с.
3. Ибрагимов И.А., Розанов Ю.А. Гауссовские случайные процессы. - М.: ЕЕ Медиа, 2012. - 385 с. (М.: Наука, 1970. - 384 с.).
4. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974. - 696 с.
5. Скороход А.В. Интегрирование в гильбертовом пространстве. - М.: Наука, 1975. - 232 с.
6. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки // Экспертные оценки / Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1979. - С.17-33.
8. Орлов А.И. Непараметрические оценки плотности в топологических пространствах // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. - С. 12-40.
9. Ченцов Н.Н. Статистические решающие правила и оптимальные выводы. - М.: ЕЕ Медиа, 2012. - 524 с. (М.: Наука, 1972. - 520 с.).
10. Орлов А.И. Статистика объектов нечисловой природы // Теория вероятностей и ее применения. - 1980. - Т.XXV. - №3. - С.655-656.
11. Rosenblatt M. Remarks on some nonparametric estimates of a density function // Ann. Math. Statist. - 1956. - V.27. - N 5. - P. 832 - 837.
12. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statist. - 1962. - V.33. - N 6. - P. 1065-1076.
13. Fix E., Hodges J.L. Discriminatory analysis: nonparametric discrimination: consistency properties. - Rep. N 4. - USAF school of Aviation Medicine. - Texas. - February 1951. - Project 21-49-004. - Contract AF-41-(128)-31.
14. Фукунага К. Введение в статистическую теорию распознавания образов. - М.: Наука, 1979. - 368 с.
15. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976. - 511 с.
16. Вапник В.Н., Стефанюк А.Р. Непараметрические методы восстановления плотности вероятности // Автоматика и телемеханика. - 1978. - №8. - С.38 - 52.
17. Богданов Ю.И. Информация Фишера и непараметрическая аппроксимация плотности распределения // Заводская лаборатория. - 1998. - №7. - С.56-61.
24. Орлов А.И. Ядерные оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Пермский госуниверситет, 1996. - С.68-75.
25. Гнеденко Б.В. Курс теории вероятностей. Изд. 6-е, перераб. и доп. - М.: Наука, 1988. - 448 с.
26. Орлов А.И. Асимптотика решений экстремальных статистических задач // Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып.10. - М.: Всесоюзный научно-исследовательский институт системных исследований, 1982. - С. 4-12.
27. Орлов А.И. Оценки плотности в пространствах произвольной природы // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-т. - Пермь, 2013. - Вып. 25. - С.21-33.
28. Орлов А.И. О развитии статистики объектов нечисловой природы // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КУБГАУ) [Электронный ресурс]. - Краснодар: КУБГАУ, 2013. - №09(093). С. 273 - 309. - IDA [article ID]: 0931309019. - Режим доступа: .
29. Луценко Е.В. Орлов А.И. Системная нечеткая интервальная математика (СНИМ) - перспективное направление теоретической и вычислительной математики // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КУБГАУ) [Электронный ресурс]. - Краснодар: КУБГАУ, 2013. - №07(091). С. 255 - 308. - IDA [article ID]: 0911307015. - Режим доступа: .
5. Skorohod A.V. Integrirovanie v gil"bertovom prostranstve. - M.: Nauka, 1975. - 232 s.
6. Orlov A.I. Statistika ob#ektov nechislovoj prirody i jekspertnye ocenki // Jekspertnye ocenki / Voprosy kibernetiki. Vyp.58. - M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme «Kibernetika», 1979. - S.17-33.