Вариа́ция — различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация — необходимое условие существования и развития массовых явлений. [1] Определение вариации необходимо при организации выборочного наблюдения, статистическом моделировании и планировании экспертных опросов. По степени вариации можно судить об однородности совокупности, устойчивости значений признака, типичности средней, о взаимосвязи между какими-либо признаками. [2]
Содержание
Показатели вариации
Абсолютные показатели
где — выборочное среднее.
где , — первый (нижний) и третий (верхний) квартили соответственно, — медиана (второй или серединный квартиль).
Относительные показатели
Известно, что коэффициент вариации может быть записан посредством долей [4] :
где .
где — математическое ожидание. Эта формула применяется для вероятностных моделей.
Столбчатая диаграмма · Совмещённая диаграмма · Диаграмма управления · Лесная диаграмма · Гистограмма · Q-Q диаграмма · Диаграмма выполнения · Диаграмма разброса · Стебель-листья · Ящик с усами
Полезное
Смотреть что такое «Вариация (статистика)» в других словарях:
Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия
статистика — ▲ измерение ↑ масса, явление статистика измерение массовых явлений. выборка группа испытуемых представителей. на выборку (взять #). дисперсия. рассеяние. вариация разброс значений. варианта. | закон распределения. медиана. | биометрия: ковариация … Идеографический словарь русского языка
ВАРИАЦИОННАЯ СТАТИСТИКА — ВАРИАЦИОННАЯ СТАТИСТИКА, термин, объединяющий группу приемов статистического анализа, применяющихся преимущественно в естественных науках. Во второй половине XIX в. Кетле (Quetelet, «Anthro pometrie ou mesure des differentes facultes de 1… … Большая медицинская энциклопедия
Мода (статистика) — У этого термина существуют и другие значения, см. Мода (значения). Мода значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например … Википедия
Медиана (статистика) — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия
Среднеквадратическое отклонение — (синонимы: среднеквадратичное отклонение, квадратичное отклонение; близкие термины: стандартное отклонение, стандартный разброс) в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины … Википедия
ГОСТ Р 50779.11-2000: Статистические методы. Статистическое управление качеством. Термины и определения — Терминология ГОСТ Р 50779.11 2000: Статистические методы. Статистическое управление качеством. Термины и определения оригинал документа: 3.4.3 (верхняя и нижняя) границы регулирования Граница на контрольной карте, выше которой верхняя граница,… … Словарь-справочник терминов нормативно-технической документации
Корреляция — (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора
t-критерий Стьюдента — t критерий Стьюдента общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t критерия связаны с проверкой равенства средних… … Википедия
Погружаемся в статистику вместе с Python. Часть 3. Тестов много, принцип один
Доброго времени суток, уважаемые хабрадамы и хабрагоспода. В этой статье мы задраим люки нашего батискафа как можно плотнее, добавим оборотов нашему питоновскому движку и погрузимся в пучины статистики, на ту глубину, в которую уже практически не проникает солнечный свет. На этой глубине мы встретим очень много самых разных статистических тестов, проплывающих мимо нас в виде причудливых формул. Сначала нам покажется, что все они устроены по-разному, но мы попробуем докопаться до самой главной движущей силы всех этих странных существ.
О чем мне следует вас предупредить перед погружением на такую глубину? Во-первых, я предполагаю, что вы уже почитали книгу Сары Бослаф «Статистика для всех», а еще покопались в официальной документации модуля stats библиотеки SciPy. Уж простите меня за мое следующее предположение, но мне кажется, что вы скорее всего были немного ошарашены огромным количеством тестов, которые там имеются, и были ошарашены еще больше, когда поняли, что это на самом деле только верхушка айсберга. Ну, а если вы еще не столкнулись со всеми прелестями этого чудесного «пубертатного периода», то рекомендую раздобыть книгу Александра Ивановича Кобзаря «Прикладная математическая статистика. Для инженеров и научных работников». Ну, а если вы «в теме», то все равно загляните под кат, почему? Потому что изложение и интерпретация фактов порой важнее и интереснее самих фактов.
Неудачный пример
Как обычно, сначала импортируем все необходимое:
«Голая статистика» Чарльза Уилана;
«Как лгать при помощи статистики» Дарелла Хаффа;
«Парадоксы в теории вероятностей и математической статистике» Габора Секея.
Итак, попробуем представить дальнейшие действия нашего руководителя. Первым делом хочется взглянуть на данные, но поскольку их мало, то обычная гистограмма не подойдет. В этом случае лучше всего воспользоваться эмпирической функцией распределения вероятностей:
Распределение сместилось влево, хотя это вовсе не значит, что все работники показали улучшение результата (определенный индекс соответствует определенному работнику), это можно заметить по значениям метрик, или лучше нарисовать вот такой график:
Хотя руководитель может отобразить результаты и так:
На уровне значимости c p-value равным 0.03 можно сделать вывод о том, что результат оказался статистически значимым. В принципе, на этом можно было бы и остановиться. Но что-то не дает покоя нашему руководителю. Уместно ли применение данного теста?
У нас есть две выборки со следующими статистиками:
Чтобы выполнить t-тест мы должны предполагать, что выборки взяты из генеральных совокупностей, которые распределены хотя бы приблизительно нормально (хотя, на самом деле это не очень критично), к тому же дисперсии этих генеральных совокупностей тоже должны быть хотя бы приблизительно равны. Но с чем мы в действительности имеем дело? Стандартные отклонения выборок очень близки друг к другу, но значит ли это что и дисперсии генеральных совокупностей тоже равны? А что с требованием нормальности генеральных совокупностей? По факту нам нужно, применить центральную предельную теорему, т.е. на самом деле нам нужно, чтобы средние значения выборок имели нормальное распределение. Но как понять, работает центральная предельная теорема в нашем случае или нет?
Однородность дисперсий
Смотрите, наш руководитель применил t-тест для зависимых выборок, рассчитывая на то, что мат.ожидание генеральной совокупности сместилось влево, но при этом никакого изменения дисперсии не произошло. Тем более выборочные стандартные отклонения практически равны, что придает еще большей уверенности. Но что, если это всего лишь случайное совпадение?
Для начала мы можем посмотреть на то, как будут распределены выборочные дисперсии двух генеральных совокупностей. Для этого сгенерируем по 5000 выборок из распределений и по 10 элементов в каждой выборке, затем вычислим выборочную дисперсию для каждой из них:
врезка по поводу качества кода
сложное разделяется на шаги и снабжается комментариями;
запутанное разбивается на шаги, снабжается комментариями и пояснениями.
Бывает и так, что ваш код должен быть чем-то вроде «полуфабриката», который будет переписываться на другие языки и затачиваться под разные «хотелки». В этом случае лучше отказаться от всякого «синтаксического сахара», т.е. кодить максимально просто. Скорее всего, человек, который будет переписывать ваш код по дефолту, будет обладать неприлично большим уровнем компетентности в вопросах разработки. Но этот простой совет может очень сильно упростить жизнь как вам, так и этому человеку.
Чтобы облегчить сравнение двух распределений можно изображать их в виде полигонов, как мы и поступили. На этом графике мы видим, что дисперсии распределены одинаково, что неудивительно, так как отклонения генеральных совокупностей равны. Еще можно наблюдать некоторую асимметрию: левый «хвост» короче правого. Думаю, что уже нет никакого смысла ходить «вокруг, да около» и вы уже давным-давно поняли, что речь пойдет о хи-квадрат распределении. Оценить параметры распределения можно с помощью метода максимального правдоподобия, который реализован в методе fit():
Мы построили график и что дальше? У нас есть функции распределения плотности вероятности для выборочных дисперсий, взятых из двух генеральных совокупностей, распределенных как и . Причем мы видим, что эти функции практически идентичны. Как мы можем использовать эти функции? Допустим, мы извлекли выборку из десяти элементов стандартное отклонение которой равно 2, может ли выборка с таким отклонением быть получена случайно из генеральной совокупности с распределением ?
Полученное p-value не так уж и велико, а это значит, что получить выборку, состоящую из 10 элементов из генеральной совокупности с распределением и выборочным стандартным отклонением не так то уж и просто. Впору засомневаться в том, что отклонение генеральной совокупности действительно равно 1.5. Однако, если уровень значимости задан как , то мы все-таки должны признать, что получение выборки с таким отклонением обусловлено случайностью.
С другой стороны, мы всегда можем задать какую-то область, вероятность попадания в которую будет равна заданному значению, например 0.1:
Если отклонение от вершины распределения превысит указанный диапазон, то с мы можем утверждать, что данное отклонение обусловлено какими-то факторами, повлиявшими на генеральную совокупность, но не случайностью.
А что насчет равенства дисперсий двух генеральных совокупностей? Очевидно, отношение выборочных дисперсий тоже должно быть как-то распределено. Давайте взглянем, как распределена величина:
где это номер выборки:
Перед нами распределение Фишера, узнать параметры которого можно с помощью все того же метода fit():
Функция распределения плотности вероятности на этом графике позволяет проверять гипотезы о равенстве дисперсий генеральных совокупностей. Например, если из первой генеральной совокупности была извлечена выборка с дисперсией равной 3, а из второй совокупности выборка с дисперсией равной 1, то получить случайным образом две такие выборки будет крайне трудно:
То есть, если мы будем попарно извлекать две выборки по 10 элементов в каждой из двух генеральных совокупностей с распределениями и , то вероятность того, что отношение дисперсий этих выборок окажется равным или большим 3, составит всего 0.023. А это хороший повод засомневаться в том, что дисперсии генеральных совокупностей равны.
Отношение выборочных дисперсий в нашем примере равно:
Так что наш руководитель может быть спокоен по поводу равенства дисперсий двух генеральных совокупностей. Однако ему вдруг становится очень любопытно, почему для сравнения средних, приходится так много возиться с дисперсиями. Может быть, попробовать дисперсионный анализ? ANOVA? Просто предположим, что мы имеем дело с двумя независимыми выборками, как будто бы у нас на самом деле две группы программистов, одна из которых участвовала в образовательном процессе, а другая нет. Давайте воспользуемся функцией f_oneway() и посмотрим на результат (чем меньше значение pvalue, тем меньше вероятность того, что средние генеральных совокупностей равны):
Но что скрывается под капотом этого теста? Может что-то жутко сложное и непонятное?
Однофакторный дисперсионный анализ
На самом деле принцип работы выполненного выше теста чрезвычайно прост, и мы можем легко воспроизвести работу функции f_oneway(), для чего нам понадобятся всего две формулы:
(mean square between group) просто показывает, как среднее каждой группы отклоняется от общего среднего. Очевидно, что чем меньше средние групп отличаются друг от друга, тем меньше значение . С другой стороны (mean square within group) показывает, что если средние групп не слишком сильно отличаются друг от друга, то внутригрупповая дисперсия практически не будет отличаться от общегрупповой. Эти две формулы нужны для того, чтобы статистически обосновать различие средних групп, но они являются ничем иным, как формулами для вычисления дисперсии. Согласитесь, в этом есть какой-то парадокс, ведь сравнивая средние, мы по сути сравниваем дисперсии. В поддержку утверждения того, что это действительно дисперсии говорит и тот факт, что отношение к имеет распределение Фишера:
В чем довольно легко убедиться:
Код для картинки
Вы можете попробовать воспроизвсти работу теста Левене, который реализован в SciPy как функция levene(). Этот тест (критерий) устроен точно так же, как однофакторный ANOVA, но проверяет гипотезу о равенстве дисперсий генеральных совокупностей:
Гипотеза о «нормальности»
Суть центральной предельной теоремы заключается в том, что чем больше объем выборки, тем сильнее выборочное среднее будет стремиться к нормальному распределению. Благодаря данной теореме, мы, например, можем пользоваться критерием Стьюдента, даже если знаем, что генеральная совокупность имеет распределение отличное от нормального. Но беда в том, что центральная предельная теорема работает только для выборочного среднего, но не для выборочной дисперсии. Это очень легко продемонстрировать на следующем примере: сгенерируем 10000 выборок по 5 элементов в каждой из стандартных нормального, равномерного и лапласова распределений, а затем сравним, как будут распределены суммы квадратов элементов каждой выборки:
Для дисперсионного анализа нам крайне важно, чтобы суммы квадратов элементов выборки имели хи-квадрат распределение, как видите, это возможно, только если выборки взяты из «нормальной» генеральной совокупности. Если есть подозрения, что это условие не выполняется, то мы не можем использовать дисперсионный анализ, хотя мы по-прежнему можем пользоваться критерием Стьюдента для сравнения средних двух выборок (по-моему есть какая-то модификация критерия Стьюдента для сравнения средних произвольного количества групп).
А если нам все-таки нужен именно ANOVA, то как понять, что выборка взята из «нормальной» генеральной совокупности? Допустим, у нас есть вот такая выборка:
Согласитесь, что глядя на эту выборку очень трудно сделать какие-то выводы о ее принадлежности к тому или иному распределению. Что мы можем придумать? Давайте сгенерируем 50 тысяч выборок из нормального распределения по 5 элементов в каждой, отсортируем элементы в каждой выборке по возрастанию, а затем посмотрим, как распределены элементы в зависимости от индекса:
Любопытно, не правда ли? Оказывается, что отсортированные элементы распределены не одинаково, точнее все распределения имеют похожую форму, но отличаются сдвигом и масштабом. Наверное, мы могли бы сделать следующее:
«на глазок» прикинуть тип распределения;
подобрать параметры с помощью метода максимального правдоподобия;
рассчитать вероятность совместного отклонения элементов выборки от вершины каждого распределения (рассчитать статистику);
провести какое-то количество экспериментов, чтобы посмотреть как распределена плотность рассчитанной в предыдущем пункте вероятности (построить распределение статистики);
определить критическую область.
В принципе, у нас есть все шансы на то, чтобы придумать собственный критерий, который будет проверять гипотезу о том, что выборка взята из «нормальной» генеральной совокупности. Разве не круто. Например, мы можем даже визуально прикинуть вероятность того, что какая-то выборка принадлежит нормальному распределению:
Или что какая-то выборка вряд ли принадлежит нормальному распределению:
В общем, судя по всему мы действительно можем придумывать какие-то свои статистические тесты. Но согласитесь, все равно хочется думать, что внутри некоторых тестов происходит какая-то магия. Не зря их так много: десятки, может даже сотни. Не хочется верить в то, что все они устроены по такому простому принципу. Однако, это так. В качестве простого примера мы можем рассмотреть критерий Колмогорова:
В данном случае, чем меньше p-value, тем меньше вероятность того, что выборка взята из «нормальной» генеральной совокупности. А теперь давайте попробуем воспроизвести работу этого теста, который на самом деле не так уж и сильно отличается от того, что мы придумали выше. Для начала нам нужно вычислить эмпирические функции распределения вероятности и одну теоретическую, ту, с которой будет происходить сравнение:
Статистикой в данном критерии является максимальная попарная разность между значениями эмпирических функций и теоретической, т.е. максимальная разность между красными и синими ступеньками или красными и зелеными ступеньками:
Данная статистика имеет вот такое распределение плотности вероятности (попробуйте построить график при n=5):
Благодаря которому мы можем вычислить значение p-value:
Согласитесь, не так уж и сложно. Но надо признаться, что я так и не смог понять, что из себя пердставляет ecdf_le (есть только смутные представления). А то, что ecdf_le вообще должна присутствовать в вычислениях удалось понять только после просмотра исходников. Но тут же надо добавить, что моя «любовь» к статистике как раз и началась после того, как я полез в исходники seaborn, чтобы посмотреть, как вычисляются доверительные интервалы.
Напоследок
Научные и технические статьи нельзя назвать легким чтивом, но писать их еще утомительнее. Хочется доносить какие-то сложные идеи в простой и непринужденной форме. Хочется надеяться, что у меня это хоть немного получается.
Тем не менее, как бы там ни было, мы еще продолжим погружение! В песне Эминема «My name is» у меня есть любимая строчка «I just drank a fifth of vodka — dare me to drive? (Go ahead)», которая очень хорошо подходит для описания всего дальнейшего погружения.