Что означают отрицательные нулевые и положительные значения эксцесса
Асимметрия – это свойство распределения выборки, которое характеризует несимметричность распределения случайной величины. На практике симметричные распределения встречаются редко и чтобы выявить и оценить степень асимметрии, вводят следующую меру (третий центральный момент)
, (4)
Асимметрия бывает положительной и отрицательной ( -асимметрия считается значительной
— асимметрия считается незначительной). Положительная сдвигается влево, а отрицательная – вправо.
Симметричным называется распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений средняя арифметическая, мода и медиана равны между собой. Простейший показатель асимметрии основан на соотношении показателей центра распределения: чем больше разность между средней арифметической и модой (медианой), тем больше асимметрия ряда.
или .
Для сравнения асимметрии в нескольких рядах используют относительный показатель асимметрии.
или
Величина может быть положительной и отрицательной. Если , то на графике такой ряд будет иметь вытянутость вправо (правосторонняя асимметрия), если , то вытянутость влево (левосторонняя асимметрия).
Функция СКОС
Возвращает асимметрию распределения. Асимметрия характеризует степень несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение распределения в сторону положительных значений. Отрицательная асимметрия указывает на отклонение распределения в сторону отрицательных значений.
Замечания
Аргументы должны быть либо числами, либо содержащими числа именами, массивами или ссылками.
Учитываются логические значения и текстовые представления чисел, которые введены непосредственно в список аргументов.
Если аргумент, который является массивом или ссылкой, содержит текст, логические значения или пустые ячейки, эти значения игнорируются; ячейки, содержащие нулевые значения, учитываются.
Аргументы, которые представляют собой значения ошибок или текст, не преобразуемый в числа, приводят к возникновению ошибки.
Если имеется менее трех точек данных или стандартное отклонение равно нулю, функция СКОС возвращает значение ошибки #ДЕЛ/0!.
Уравнение для асимметрии имеет следующий вид:
Эксцесс
Эксцесс – это мера крутости кривой распределения.
(5)
Кривая распределения может быть островершинной, плосковершинной, средне вершинной. Эти четыре момента составляют набор особенностей распределения при анализе данных. Для нормального распределения А=0, Е=0.
Функция ЭКСЦЕСС
Возвращает эксцесс множества данных. Эксцесс характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение. Отрицательный эксцесс обозначает относительно сглаженное распределение.
Синтаксис
Число1, число2. — от 1 до 255 аргументов, для которых вычисляется эксцесс. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.
Понятие параметрических тестов, ассиметрии и эксцесса
В данной статье представлены важные категории логически выводимых статистических тестов и обсуждаются параметры описательной статистики, относящиеся к нормальному распределению.
Добро пожаловать в нашу серию статей о статистике в электротехнике. Ранее мы рассмотрели статистический анализ и описательный анализ в электротехнике, а затем обсудили среднее отклонение, стандартное отклонение и дисперсию в обработке сигналов.
Теперь мы перешли к исследованию нормального распределения в электротехнике, в частности, как понимать гистограммы, вероятность и кумулятивную функцию распределения нормально распределенных данных. Данная статья расширяет это обсуждение, касаясь параметрических тестов, асимметрии и эксцесса.
Когда нормальное распределение не выглядит нормальным
В предыдущих статьях мы рассмотрели нормальное распределение (также известное как распределение Гаусса) как идеализированное математическое распределение и как гистограмму, полученную из эмпирических данных. Если измеряемое явление характеризуется нормальным распределением значений, форма гистограммы по мере увеличения размера выборки будет всё больше похожа на колоколообразную (гауссову) кривую.
Однако это приводит нас к интересному вопросу: как мы узнаем, что явление характеризуется нормальным распределением значений?
Если у нас есть большой объем данных, мы можем просто посмотреть на гистограмму и сравнить ее с гауссовой кривой. Однако с меньшими наборами данных ситуация будет сложнее. Даже если мы анализируем базовый процесс, который действительно создает нормально распределенные данные, гистограммы, созданные из небольших наборов данных, могут оставлять место для сомнений.
Рисунок 1 – Распределены ли эти данные нормально?
В данной статье мы обсудим два описательных статистических показателя (асимметрию и эксцесс), которые помогут нам определить, соответствуют ли наши данные нормальному распределению.
Однако сначала я хочу изучить связанный с этим вопрос: почему нас волнует, соответствует ли набор данных нормальному распределению?
Параметрические и непараметрические тесты
Существуют различные статистические методы, помогающие нам анализировать и интерпретировать данные, и некоторые из этих методов относятся к категории статистических выводов. Мы часто используем слово «тест», когда говорим о статистической процедуре вывода, и эти тесты могут быть параметрическими или непараметрическими.
Различие между параметрическими и непараметрическими тестами заключается в характере данных, к которым применяется тест. Когда набор данных демонстрирует распределение, которое в достаточной степени согласуется с нормальным распределением, можно использовать параметрические тесты. Когда данные не распределены нормально, мы переходим к непараметрическим тестам.
Примерами параметрических тестов являются парный t-критерий, односторонний дисперсионный анализ (ANOVA) и коэффициент корреляции Пирсона. Непараметрическими альтернативами этим критериям являются, соответственно, критерий знаковых рангов Уилкоксона, критерий Краскела–Уоллиса и ранговая корреляция Спирмена.
Почему «параметрический» и «непараметрический»?
Если вас смущает эта терминология параметрический/непараметрический, вот объяснение: параметр – это характеристика всей генеральной совокупности (совокупности значений), например, средний рост всех канадцев или стандартное отклонение выходных напряжений, генерируемых всеми микросхемами эталонного напряжения REF100 (я придумал эту модель микросхемы).
Обычно мы не можем знать параметр с уверенностью потому, что наши данные представляют собой только выборку из генеральной совокупности. Однако мы можем произвести оценку параметра, вычислив соответствующее статистическое значение на основе выборки.
Параметрические тесты основываются на предположениях, связанных с нормальностью распределения генеральной совокупности, и параметрами, которые характеризуют это распределение. Когда данные не распределены нормально, мы не можем делать такие предположения, и, следовательно, мы должны использовать непараметрические тесты.
Зачем заморачиваться с параметрическими тестами?
Если существуют непараметрические тесты и их можно применять независимо от нормальности распределения, зачем утруждать себя определением, является ли распределение нормальным? Давайте, просто применим непараметрический тест и покончим с этим!
Есть простая причина, по которой мы избегаем непараметрических тестов, когда данные достаточно нормальны: параметрические тесты, как правило, более эффективны. «Эффективность» в статистическом смысле означает, насколько эффективно тест обнаружит взаимосвязь между переменными (если эта взаимосвязь существует). Мы можем сделать любой тип тестов более эффективным, увеличив размер выборки, но для того, чтобы получить наилучшую информацию из имеющихся данных, мы по возможности используем параметрические тесты.
Оценка нормальности: асимметрия и эксцесс
Мы можем попытаться определить, демонстрируют ли эмпирические данные неопределенно нормальное распределение, просто взглянув на гистограмму. Однако, чтобы решить, является ли распределение достаточно нормальным, чтобы оправдать использование параметрических тестов, нам могут потребоваться дополнительные аналитические методы.
Асимметрия
Один из этих методов – вычислить асимметрию набора данных. Нормальное распределение идеально симметрично относительно среднего, и, таким образом, любое отклонение от идеальной симметрии указывает на некоторую степень ненормальности измеренного распределения.
На следующем рисунке представлены примеры асимметричных форм распределения.
Рисунок 2 – Изображение положительной асимметрии, нулевой асимметрии и отрицательной асимметрии
Асимметрия может представляться положительным или отрицательным числом (или нулем). Распределения, симметричные относительно среднего значения, такие как нормальное распределение, имеют нулевую асимметрию. Распределение, которое «наклоняется» вправо, имеет отрицательную асимметрию, а распределение, которое «наклоняется» влево, имеет положительную асимметрию.
Как правило, значения асимметрии, которые находятся в пределах ±1 от асимметрии нормального распределения, указывают на достаточную нормальность для использования параметрических тестов.
Эксцесс
Мы используем эксцесс, чтобы количественно оценить тенденцию явления создавать значения, далекие от среднего. Существуют различные способы описания информации, которую эксцесс передает о наборе данных: «хвостатость» (обратите внимание, что значения, далекие от среднего, находятся в хвостах распределения), «величина хвоста» или «вес хвоста» и «островершинность» (последнее несколько проблематично, потому что эксцесс напрямую не измеряет остроту или гладкость).
Нормальное распределение имеет значение эксцесса 3. Следующая диаграмма дает общее представление о том, как эксцесс больше или меньше 3 соответствует формам ненормального распределения.
Рисунок 3 – Обратите внимание, что эксцесс больше или меньше 3 соответствует формам, отличным от нормального распределения.
Оранжевая кривая – нормальное распределение. Обратите внимание, что синяя кривая по сравнению с оранжевой кривой имеет большую «величину хвоста», то есть большую массу вероятности в хвостах. Эксцесс синей кривой, которая называется распределением Лапласа, равен 6. Зеленая кривая называется равномерным распределением; вы можете видеть, что хвосты отсутствуют. Эксцесс равномерного распределения равен 1,8.
Как и в случае асимметрии, общее правило состоит в том, что эксцесс в пределах ±1 от эксцесса нормального распределения указывает на достаточную нормальность.
Заключение
Конечно, о параметрических тестах, асимметрии и эксцессе можно сказать гораздо больше, но я думаю, что мы рассмотрели достаточно материала для вводной статьи. Обобщим вышесказанное:
7. Асимметрия и эксцесс эмпирического распределения
В предыдущих статьях мы познакомились с показателями центральной тенденции и вариации, и сейчас рассмотрим ещё пару характеристик статистической совокупности. Для тех, кто зашёл с поисковика и хочет изучить тему с азов, сразу ссылка на организационный урок: Математическая статистика для «чайников», там же, в конце, список всех статей курса. И до статьи 7-й – как рукой подать, после чего будет небольшой и очень приятый экзамен.
Итак, что такое асимметрия и эксцесс? Говоря простым языком, это показатели, характеризующие геометрическую форму распределения. Асимметрия характеризует меру скошенности графика влево / вправо, а эксцесс – меру его высоты.
Данные показатели рассчитываются как для эмпирических, так и для теоретических распределений, которые мы изучили в курсе теории вероятностей, и за «эталон» симметрии принято нормальное распределение:
Очевидно, что любое нормальное распределение строго симметрично относительно своего центра, следовательно, его асимметрия равна нулю. Данный график кажется пологим, но стандартное отклонение в данном примере достаточно велико (см. на синие точки) и на самом деле такая высота «гармонична». Поэтому эксцесс нормального распределения (любого) принимают за «отправную» нулевую точку.
Почему именно нормальное распределение? Потому что философское – обязательно прочитайте эту интереснейшую статью по ссылке, если ещё не успели этого сделать!
В теории вероятностей существуют строгие формулы для вычисления коэффициентов асимметрии и эксцесса(будут ниже), но на практике мне такие задачи не встречались. И поэтому я сразу перехожу к статистике и распределениям эмпирическим, т.к. здесь таких задач как раз выше крыши. С положительным эксцессом, если выразиться тематически 🙂
Начнём с асимметрии. Асимметрия характеризует меру скошенностиполигона или гистограммы влево / вправо относительно самого высокого участка, и во многих случаях для «прикидки» асимметрии достаточно взглянуть на соответствующие чертежи. Так, например, посмотрим на полигон частот из Примера 8:
И, в принципе, тут всё видно – пациент скорее симметричен, чем асимметричен 🙂
Простейшим критерием симметрии является равенство средней, моды и медианы: но в жизни такого идеального совпадения, конечно, не бывает (даже тело человека немного асимметрично), и поэтому у «почти симметричных» распределений эти показатели должны располагаться очень близко друг к другу. И в самом деле, как мы вычислили в Примере 8: .
Обратите внимание, что рассматриваемые распределения имеют единственную модальную вершину, и далее речь пойдёт только о таких распределениях.
Правосторонняя асимметрия характеризуется удлинённым правым «хвостом», смотрим на гистограмму Примера 10:
Простейшим признаком правосторонней асимметрии является тот факт, что , и это неудивительно – ведь справа находится значительное количество вариант, и поэтому средняя смещена вправо. И поэтому английский статистик Карл Пирсон, который ещё не раз нас порадует своими методами, предложил следующую формулу для расчёта коэффициента асимметрии:
, где – среднее квадратическое отклонение статистической совокупности. Что тоже логично, ведь у разных распределений – разный «разброс» значений и разные представления о мере асимметрии.
Левостороння асимметрия, наоборот, характеризуются удлинённым левый «хвостом» и неравенством ,…. картинки быстро не нашлось, поэтому просто разверну чертёж в графическом редакторе:
Из формулы следует, что в левостороннем случае коэффициент асимметрии отрицателен (т.к. ), а в правостороннем – положителен (), и чем больше по модулю – тем сильнее скос распределения.
Недостаток формулы Пирсона состоит в том, что она описывает лишь центральную часть распределения и практически не учитывает «периферию». И, чтобы вас томить, сразу продвинутая формула, которая охватывает все варианты, для определённости запишу её для выборочной совокупности объёма :
, где – куб стандартного выборочного отклонения, а – так называемый центральный эмпирический момент третьего порядка. Для несгруппированной статической совокупности он рассчитывается так: ( – выборочная средняя), а для сформированного вариационного ряда – так: , где – вариантыдискретного ряда или середины частичных интерваловинтервального ряда, а – соответствующие частоты.
Смысл знаков тот же самый: если , то распределение скошено вправо, если – то влево. При этом принята следующая условная градация: если полученное значение по модулю меньше, чем 0,25, то асимметрия незначительна, если , то умеренная, и если , то существенная.
И чем МЕНЬШЕ по модулю , тем рассматриваемое эмпирическое распределение БЛИЖЕ к нормальному распределению с параметрами .
Справочно формулы теории вероятностей: асимметрия случайной величины рассчитывается по «родственной» формуле , где – среднее квадратическое отклонение, а – центральный теоретический момент 3-го порядка. Для дискретной случайной величины он рассчитывается так: , а для непрерывной – через интеграл: .
Теперь об эксцессе замолвим слово. Он характеризует высоту и очень коварный. В том смысле, что глаза будут часто обманывать. Так, например, посмотрим на чертёж Примера 7 из статьи об интервальном вариационном ряде:
Ну видно же – гистограмма и полигон серьёзно вытянуты вверх. Но это только кажется. Дело в том, что стандартное отклонение этого распределения невелико, и для сего небольшого рассеяния такая высота ДАЖЕ МАЛА. МалА – по сравнению с «эталонным» нормальным распределением с параметрами .
Поэтому аналитика и ещё раз аналитика. Коэффициент эксцесса эмпирического распределения рассчитывается по формуле:
, где – центральный эмпирический момент четвёртого порядка: – для несгруппированных данных, и – для сформированного вариационного ряда.
Для случайных величин из тервера формула схожа: , где – для дискретной, и – для непрерывной случайной величины.
Если , то эмпирическое распределение является более высоким («островершинным») – относительно «эталонного» нормального распределения с параметрами . Если же – то более низким и пологим. И чем больше по модулю, тем «аномальнее» высота в ту или иную сторону.
В примере выше, как ни странно, , и сейчас мы убедимся в этом аналитически:
Итак, сто пачек чая из Примера 7 ( – середины интервалов):
и нам требуется вычислить коэффициенты асимметрии и эксцесса
Решение: поскольку в формулах асимметрии и эксцесса фигурирует стандартное отклонение, то сначала нужно рассчитать выборочную среднюю и дисперсию.
Вычислим произведения , их сумму и грамм – средний вес пачки чая. Дисперсию здесь сподручнее найти не по формуле, а по определению: . Для этого рассчитаем произведения и сразу :
Ловкость рук и никаких трудностей, вы удивитесь, как всё быстро:
Собственно, финальные расчёты:
здесь правильнее, конечно, отклонение поправить, но обычно этим пренебрегают.
Центральные моменты 3-го и 4-го порядков:
И, наконец, коэффициенты. Вычислим коэффициент асимметрии: , то есть, распределение обладает существенной правосторонней асимметрией, что, кстати, хорошо было видно по чертежу.
Вычислим коэффициент эксцесса: – вот оно как! Оказывается, распределение не то что выше, а заметно ниже, чем нормальное распределение с параметрами
Ответ:
Вот такой вот у нас получился эксекас 🙂
Помимо геометрических форм, эти коэффициенты позволяют «прикинуть», насколько близка к нормальному распределению не только выборочная, но и вся генеральная совокупность. Это одна из важнейших задач статистики, которую мы разберём в разделе Статистические гипотезы.
Ну а сейчас я предлагаю вам небольшое экзаменационное задание по первым семи урокам. Оно типично для студенческой практики – дана статистическая совокупность, и требуется выполнить много-много чего. Внимательно проверьте, всё ли вы усвоили, всё ли умеете:
В результате эксперимента получены данные, записанные в виде статистического ряда:
…это ещё ерунда 🙂
И сразу обратите внимание, что в условии речь идёт о результатах эксперимента, а значит, перед нами выборочная совокупность, т.к. теоретически опыты можно повторять бесконечное количество раз.
1) Составить интервальный вариационный ряд, состоящий из 9 равных интервалов. Видео в помощь.
3) Найти моду и медиану.
5) Вычислить коэффициенты асимметрии и эксцесса, сделать выводы.
Не тушуйтесь – я с вами! Краткое решение для сверки внизу страницы.
И на этом, как вы правильно догадались, дело не заканчивается, поэтому сохраните файл с решением! Типовая задача содержит больше пунктов, и после изучения гипотезы о законе распределения генеральной совокупности, выполняем следующие задания:
6) По найденным характеристикам сделать вывод о форме эмпирического ряда распределения.
7) Построить нормальную кривую по опытным данным на графике гистограммы.
8) Произвести оценку степени близости теоретического распределения эмпирическому ряду с помощью критерия согласия Пирсона на уровне значимости 0,05.
Пример 20. Решение:
1) По статистическим данным находим: , . Вычислим размах вариации: ед. По условию, выборку следует разделить на равных интервалов, таким образом, длина частичного интервала: ед. Разметим интервалы и подсчитаем частоты по каждому интервалу, после чего убедимся, что объём выборки . Вычислим относительные частоты и относительные накопленные частоты :
2) Построим гистограмму относительных частот:
и эмпирическую функцию распределения:
3) Моду вычислим по формуле , в данном случае: – нижняя граница модального интервала; – длина модального интервала; – частота модального интервала; – частота предыдущего интервала; – частота следующего интервала.
Таким образом: ед.
Медиану вычислим по формуле , в данном случае: – объём выборочной совокупности; половину вариант содержит интервал и – его нижняя граница; – длина медианного интервала; – частота медианного интервала; – накопленная частота предыдущего интервала.
Таким образом: ед.
4) Найдём середины интервалов, произведения и вычислим выборочную среднюю ед., после чего заполним оставшуюся часть таблицы и рассчитаем остальные показатели: