Что означают отрицательные нулевые и положительные значения асимметрии
7. Асимметрия и эксцесс эмпирического распределения
В предыдущих статьях мы познакомились с показателями центральной тенденции и вариации, и сейчас рассмотрим ещё пару характеристик статистической совокупности. Для тех, кто зашёл с поисковика и хочет изучить тему с азов, сразу ссылка на организационный урок: Математическая статистика для «чайников», там же, в конце, список всех статей курса. И до статьи 7-й – как рукой подать, после чего будет небольшой и очень приятый экзамен.
Итак, что такое асимметрия и эксцесс? Говоря простым языком, это показатели, характеризующие геометрическую форму распределения. Асимметрия характеризует меру скошенности графика влево / вправо, а эксцесс – меру его высоты.
Данные показатели рассчитываются как для эмпирических, так и для теоретических распределений, которые мы изучили в курсе теории вероятностей, и за «эталон» симметрии принято нормальное распределение:
Очевидно, что любое нормальное распределение строго симметрично относительно своего центра, следовательно, его асимметрия равна нулю. Данный график кажется пологим, но стандартное отклонение в данном примере достаточно велико (см. на синие точки) и на самом деле такая высота «гармонична». Поэтому эксцесс нормального распределения (любого) принимают за «отправную» нулевую точку.
Почему именно нормальное распределение? Потому что философское – обязательно прочитайте эту интереснейшую статью по ссылке, если ещё не успели этого сделать!
В теории вероятностей существуют строгие формулы для вычисления коэффициентов асимметрии и эксцесса (будут ниже), но на практике мне такие задачи не встречались. И поэтому я сразу перехожу к статистике и распределениям эмпирическим, т.к. здесь таких задач как раз выше крыши. С положительным эксцессом, если выразиться тематически 🙂
Начнём с асимметрии. Асимметрия характеризует меру скошенности полигона или гистограммы влево / вправо относительно самого высокого участка, и во многих случаях для «прикидки» асимметрии достаточно взглянуть на соответствующие чертежи. Так, например, посмотрим на полигон частот из Примера 8:
И, в принципе, тут всё видно – пациент скорее симметричен, чем асимметричен 🙂
Простейшим критерием симметрии является равенство средней, моды и медианы: но в жизни такого идеального совпадения, конечно, не бывает (даже тело человека немного асимметрично), и поэтому у «почти симметричных» распределений эти показатели должны располагаться очень близко друг к другу. И в самом деле, как мы вычислили в Примере 8: .
Обратите внимание, что рассматриваемые распределения имеют единственную модальную вершину, и далее речь пойдёт только о таких распределениях.
Правосторонняя асимметрия характеризуется удлинённым правым «хвостом», смотрим на гистограмму Примера 10:
Простейшим признаком правосторонней асимметрии является тот факт, что , и это неудивительно – ведь справа находится значительное количество вариант, и поэтому средняя смещена вправо. И поэтому английский статистик Карл Пирсон, который ещё не раз нас порадует своими методами, предложил следующую формулу для расчёта коэффициента асимметрии:
, где – среднее квадратическое отклонение статистической совокупности. Что тоже логично, ведь у разных распределений – разный «разброс» значений и разные представления о мере асимметрии.
Левостороння асимметрия, наоборот, характеризуются удлинённым левый «хвостом» и неравенством ,…. картинки быстро не нашлось, поэтому просто разверну чертёж в графическом редакторе:
Из формулы следует, что в левостороннем случае коэффициент асимметрии отрицателен (т.к. ), а в правостороннем – положителен (), и чем больше по модулю – тем сильнее скос распределения.
Недостаток формулы Пирсона состоит в том, что она описывает лишь центральную часть распределения и практически не учитывает «периферию». И, чтобы вас томить, сразу продвинутая формула, которая охватывает все варианты, для определённости запишу её для выборочной совокупности объёма :
, где – куб стандартного выборочного отклонения, а – так называемый центральный эмпирический момент третьего порядка. Для несгруппированной статической совокупности он рассчитывается так:
( – выборочная средняя),
а для сформированного вариационного ряда – так:
, где – варианты дискретного ряда или середины частичных интервалов интервального ряда, а – соответствующие частоты.
Смысл знаков тот же самый: если , то распределение скошено вправо, если – то влево. При этом принята следующая условная градация: если полученное значение по модулю меньше, чем 0,25, то асимметрия незначительна, если , то умеренная, и если , то существенная.
И чем МЕНЬШЕ по модулю , тем рассматриваемое эмпирическое распределение БЛИЖЕ к нормальному распределению с параметрами .
Справочно формулы теории вероятностей: асимметрия случайной величины рассчитывается по «родственной» формуле , где – среднее квадратическое отклонение, а – центральный теоретический момент 3-го порядка. Для дискретной случайной величины он рассчитывается так: , а для непрерывной – через интеграл: .
Теперь об эксцессе замолвим слово. Он характеризует высоту и очень коварный. В том смысле, что глаза будут часто обманывать. Так, например, посмотрим на чертёж Примера 7 из статьи об интервальном вариационном ряде:
Ну видно же – гистограмма и полигон серьёзно вытянуты вверх. Но это только кажется. Дело в том, что стандартное отклонение этого распределения невелико, и для сего небольшого рассеяния такая высота ДАЖЕ МАЛА. МалА – по сравнению с «эталонным» нормальным распределением с параметрами .
Поэтому аналитика и ещё раз аналитика. Коэффициент эксцесса эмпирического распределения рассчитывается по формуле:
, где – центральный эмпирический момент четвёртого порядка:
– для несгруппированных данных, и
– для сформированного вариационного ряда.
Для случайных величин из тервера формула схожа: , где – для дискретной, и – для непрерывной случайной величины.
Если , то эмпирическое распределение является более высоким («островершинным») – относительно «эталонного» нормального распределения с параметрами . Если же – то более низким и пологим. И чем больше по модулю, тем «аномальнее» высота в ту или иную сторону.
В примере выше, как ни странно, , и сейчас мы убедимся в этом аналитически:
Итак, сто пачек чая из Примера 7 ( – середины интервалов):
и нам требуется вычислить коэффициенты асимметрии и эксцесса
Решение: поскольку в формулах асимметрии и эксцесса фигурирует стандартное отклонение, то сначала нужно рассчитать выборочную среднюю и дисперсию.
Вычислим произведения , их сумму и грамм – средний вес пачки чая. Дисперсию здесь сподручнее найти не по формуле, а по определению: . Для этого рассчитаем произведения и сразу :
Ловкость рук и никаких трудностей, вы удивитесь, как всё быстро:
Собственно, финальные расчёты:
здесь правильнее, конечно, отклонение поправить, но обычно этим пренебрегают.
Центральные моменты 3-го и 4-го порядков:
И, наконец, коэффициенты. Вычислим коэффициент асимметрии:
, то есть, распределение обладает существенной правосторонней асимметрией, что, кстати, хорошо было видно по чертежу.
Вычислим коэффициент эксцесса:
– вот оно как! Оказывается, распределение не то что выше, а заметно ниже, чем нормальное распределение с параметрами
Ответ:
Вот такой вот у нас получился эксекас 🙂
Помимо геометрических форм, эти коэффициенты позволяют «прикинуть», насколько близка к нормальному распределению не только выборочная, но и вся генеральная совокупность. Это одна из важнейших задач статистики, которую мы разберём в разделе Статистические гипотезы.
Ну а сейчас я предлагаю вам небольшое экзаменационное задание по первым семи урокам. Оно типично для студенческой практики – дана статистическая совокупность, и требуется выполнить много-много чего. Внимательно проверьте, всё ли вы усвоили, всё ли умеете:
В результате эксперимента получены данные, записанные в виде статистического ряда:
…это ещё ерунда 🙂
И сразу обратите внимание, что в условии речь идёт о результатах эксперимента, а значит, перед нами выборочная совокупность, т.к. теоретически опыты можно повторять бесконечное количество раз.
1) Составить интервальный вариационный ряд, состоящий из 9 равных интервалов. Видео в помощь.
3) Найти моду и медиану.
5) Вычислить коэффициенты асимметрии и эксцесса, сделать выводы.
Не тушуйтесь – я с вами! Краткое решение для сверки внизу страницы.
И на этом, как вы правильно догадались, дело не заканчивается, поэтому сохраните файл с решением! Типовая задача содержит больше пунктов, и после изучения гипотезы о законе распределения генеральной совокупности, выполняем следующие задания:
6) По найденным характеристикам сделать вывод о форме эмпирического ряда распределения.
7) Построить нормальную кривую по опытным данным на графике гистограммы.
8) Произвести оценку степени близости теоретического распределения эмпирическому ряду с помощью критерия согласия Пирсона на уровне значимости 0,05.
Пример 20. Решение:
1) По статистическим данным находим: , .
Вычислим размах вариации: ед.
По условию, выборку следует разделить на равных интервалов, таким образом, длина частичного интервала:
ед.
Разметим интервалы и подсчитаем частоты по каждому интервалу, после чего убедимся, что объём выборки . Вычислим относительные частоты и относительные накопленные частоты :
2) Построим гистограмму относительных частот:
и эмпирическую функцию распределения:
3) Моду вычислим по формуле , в данном случае:
– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предыдущего интервала;
– частота следующего интервала.
Таким образом:
ед.
Медиану вычислим по формуле , в данном случае:
– объём выборочной совокупности;
половину вариант содержит интервал и – его нижняя граница;
– длина медианного интервала;
– частота медианного интервала;
– накопленная частота предыдущего интервала.
Таким образом:
ед.
4) Найдём середины интервалов, произведения и вычислим выборочную среднюю ед., после чего заполним оставшуюся часть таблицы и рассчитаем остальные показатели:
Выборочная дисперсия:
,
выборочное среднее квадратическое отклонение:
ед.,
коэффициент вариации:
5) Вычислим центральные эмпирические моменты 3-го и 4-го порядков:
коэффициент асимметрии:
и коэффициент эксцесса:
Таким образом, выборочная совокупность практически симметрична, но несколько ниже, чем нормальное распределение с параметрами .
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам