Что называют стандартным отклонением и дисперсией

Стандартное отклонение против дисперсии

Стандартное отклонение и отклонение являются статистическими мерами разброса данных, то есть они представляют, насколько сильно отклоняется от среднего или насколько значения обычно «отклоняются&

Содержание:

Стандартное отклонение и отклонение являются статистическими мерами разброса данных, то есть они представляют, насколько сильно отклоняется от среднего или насколько значения обычно «отклоняются» от среднего (среднего). Нулевое отклонение или стандартное отклонение означает, что все значения идентичны.

Сравнительная таблица

Важные концепции

Символы

Формула стандартного отклонения и дисперсии часто выражается следующим образом:

Формулы

Дисперсия набора п равновероятные значения могут быть записаны как:

Формулы с греческими буквами выглядят устрашающе, но это не так сложно, как кажется. Чтобы выразить это простыми шагами:

Это дает дисперсию. Извлеките квадратный корень из дисперсии, чтобы найти стандартное отклонение.

Это отличное видео от Khan Academy объясняет концепции дисперсии и стандартного отклонения:

пример

Допустим, набор данных включает высоту шести одуванчиков: 3 дюйма, 4 дюйма, 5 дюймов, 4 дюйма, 11 дюймов и 6 дюймов.

Сначала найдите среднее значение точек данных: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Теперь возведите каждое отклонение в квадрат и найдите их сумму: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5.

Теперь разделите сумму квадратов на количество точек данных, в данном случае растений: 43,5 / 6 = 7,25

Таким образом, дисперсия этого набора данных составляет 7,25, что является довольно произвольным числом. Чтобы преобразовать его в реальное измерение, возьмите квадратный корень из 7,25 и найдите стандартное отклонение в дюймах.

Стандартное отклонение составляет около 2,69 дюйма. Это означает, что для образца любой одуванчик в пределах 2,69 дюйма от среднего значения (5,5 дюйма) является «нормальным».

Зачем возводить в квадрат отклонения?

Приложения в реальном мире

Дисперсия выражается как математическая дисперсия. Поскольку это произвольное число по сравнению с исходными измерениями набора данных, его трудно визуализировать и применять в реальном смысле. Нахождение дисперсии обычно является лишь последним шагом перед определением стандартного отклонения. Значения дисперсии иногда используются в финансовых и статистических формулах.

Стандартное отклонение, которое выражается в исходных единицах набора данных, гораздо более интуитивно понятно и ближе к значениям исходного набора данных. Чаще всего он используется для анализа демографических данных или выборок населения, чтобы понять, что в этом населении является нормальным.

Поиск выбросов

Нормальное распределение (кривая Белла) с полосами, соответствующими 1σ

При нормальном распределении около 68% совокупности (или значений) попадают в 1 стандартное отклонение (1σ) от среднего, а около 94% попадают в 2σ. Значения, которые отличаются от среднего на 1,7σ или более, обычно считаются выбросами.

На практике системы качества, такие как «Шесть сигм», пытаются снизить количество ошибок, так что ошибки становятся исключением. Термин «процесс шести сигм» исходит из того, что если имеется шесть стандартных отклонений между средним значением процесса и ближайшим пределом спецификации, практически ни один элемент не будет не соответствовать спецификациям. [1]

Стандартное отклонение выборки

В реальных приложениях используемые наборы данных обычно представляют собой выборки населения, а не целые совокупности. Слегка измененная формула используется, если на основе частичной выборки должны быть сделаны общие выводы.

Используя пример с одуванчиком, эта формула может понадобиться, если мы отобрали только 6 одуванчиков, но хотели бы использовать этот образец для определения стандартного отклонения для всего поля с сотнями одуванчиков.

Источник

Стандартное отклонение

Стандартное отклонение (англ. Standard Deviation) — простыми словами это мера того, насколько разбросан набор данных.

Вычисляя его, можно узнать, являются ли числа близкими к среднему значению или далеки от него. Если точки данных находятся далеко от среднего значения, то в наборе данных имеется большое отклонение; таким образом, чем больше разброс данных, тем выше стандартное отклонение.

Стандартное отклонение обозначается буквой σ (греческая буква сигма).

Стандартное отклонение также называется:

Использование и интерпретация величины среднеквадратического отклонения

Стандартное отклонение используется:

Рассмотрим два малых предприятия, у нас есть данные о запасе какого-то товара на их складах.

День 1День 2День 3День 4
Пред.А19211921
Пред.Б15261524

В обеих компаниях среднее количество товара составляет 20 единиц:

Однако, глядя на цифры, можно заметить:

Если рассчитать стандартное отклонение каждой компании, оно покажет, что

Стандартное отклонение показывает эту волатильность данных — то, с каким размахом они меняются; т.е. как сильно этот запас товара на складах компаний колеблется (поднимается и опускается).

Расчет среднеквадратичного (стандартного) отклонения

Формулы вычисления стандартного отклонения

Разница между формулами S и σ («n» и «n–1»)

Состоит в том, что мы анализируем — всю выборку или только её часть:

Как рассчитать стандартное отклонение?

Пример 1 (с σ)

Рассмотрим данные о запасе какого-то товара на складах Предприятия Б.

День 1День 2День 3День 4
Пред.Б15261524

Если значений выборки немного (небольшое n, здесь он равен 4) и анализируются все значения, то применяется эта формула:

Что называют стандартным отклонением и дисперсией

Применяем эти шаги:

1. Найти среднее арифметическое выборки:

μ = (15 + 26 + 15+ 24) / 4 = 20

2. От каждого значения выборки отнять среднее арифметическое:

3. Каждую полученную разницу возвести в квадрат:

4. Сделать сумму полученных значений:

5. Поделить на размер выборки (т.е. на n):

6. Найти квадратный корень:

Пример 2 (с S)

Задача усложняется, когда существуют сотни, тысячи или даже миллионы данных. В этом случае берётся только часть этих данных и анализируется методом выборки.

У Андрея 20 яблонь, но он посчитал яблоки только на 6 из них.

Популяция — это все 20 яблонь, а выборка — 6 яблонь, это деревья, которые Андрей посчитал.

Яблоня 1Яблоня 2Яблоня 3Яблоня 4Яблоня 5Яблоня 6
9254127

Так как мы используем только выборку в качестве оценки всей популяции, то нужно применить эту формулу:

Что называют стандартным отклонением и дисперсией

Математически она отличается от предыдущей формулы только тем, что от n нужно будет вычесть 1. Формально нужно будет также вместо μ (среднее арифметическое) написать X ср.

Применяем практически те же шаги:

1. Найти среднее арифметическое выборки:

Xср = (9 + 2 + 5 + 4 + 12 + 7) / 6 = 39 / 6 = 6,5

2. От каждого значения выборки отнять среднее арифметическое:

X1 – Xср = 9 – 6,5 = 2,5

X2 – Xср = 2 – 6,5 = –4,5

X3 – Xср = 5 – 6,5 = –1,5

X4 – Xср = 4 – 6,5 = –2,5

X5 – Xср = 12 – 6,5 = 5,5

X6 – Xср = 7 – 6,5 = 0,5

3. Каждую полученную разницу возвести в квадрат:

4. Сделать сумму полученных значений:

Σ (Xi – Xср)² = 6,25 + 20,25+ 2,25+ 6,25 + 30,25 + 0,25 = 65,5

5. Поделить на размер выборки, вычитав перед этим 1 (т.е. на n–1):

(Σ (Xi – Xср)²)/(n-1) = 65,5 / (6 – 1) = 13,1

6. Найти квадратный корень:

S = √((Σ (Xi – Xср)²)/(n–1)) = √ 13,1 ≈ 3,6193

Дисперсия и стандартное отклонение

Стандартное отклонение равно квадратному корню из дисперсии (S = √D). То есть, если у вас уже есть стандартное отклонение и нужно рассчитать дисперсию, нужно лишь возвести стандартное отклонение в квадрат (S² = D).

Дисперсия — в статистике это «среднее квадратов отклонений от среднего». Чтобы её вычислить нужно:

Ещё расчёт дисперсии можно сделать по этой формуле:

Правило трёх сигм

Это правило гласит: вероятность того, что случайная величина отклонится от своего математического ожидания более чем на три стандартных отклонения (на три сигмы), почти равна нулю.

Что называют стандартным отклонением и дисперсией

Глядя на рисунок нормального распределения случайной величины, можно понять, что в пределах:

Это означает, что за пределами остаются лишь 0,28% — это вероятность того, что случайная величина примет значение, которое отклоняется от среднего более чем на 3 сигмы.

Стандартное отклонение в excel

Вычисление стандартного отклонения с «n – 1» в знаменателе (случай выборки из генеральной совокупности):

1. Занесите все данные в документ Excel.

Что называют стандартным отклонением и дисперсией

2. Выберите поле, в котором вы хотите отобразить результат.

3. Введите в этом поле «=СТАНДОТКЛОНА(«

4. Выделите поля, где находятся данные, потом закройте скобки.

Что называют стандартным отклонением и дисперсией

5. Нажмите Ввод (Enter).

Что называют стандартным отклонением и дисперсией

В случае если данные представляют всю генеральную совокупность (n в знаменателе), то нужно использовать функцию СТАНДОТКЛОНПА.

Что называют стандартным отклонением и дисперсией

Что называют стандартным отклонением и дисперсией

Коэффициент вариации

Коэффициент вариации — отношение стандартного отклонения к среднему значению, т.е. Cv = (S/μ) × 100% или V = (σ/X̅) × 100%.

Стандартное отклонение делится на среднее и умножается на 100%.

Можно классифицировать вариабельность выборки по коэффициенту вариации:

Источник

Среднее отклонение, стандартное отклонение и дисперсия в обработке сигналов

В данной статье рассматриваются три описательных статистических меры с точки зрения приложений обработки сигналов.

В предыдущей статье, посвященной описательной статистике для инженеров-электронщиков, мы увидели, что центральную тенденцию набора данных могут передавать как среднее арифметическое, так и медиана. Несмотря на то, что медиана менее чувствительна к выбросам, в электронике и цифровой обработке сигналов чаще используется среднее арифметическое. Среднее арифметическое, по сути, является основным статистическим методом в электротехнике.

Однако для адекватного описания или понимания набора данных нам часто требуется нечто большее, чем только среднее арифметическое.

Когда мы сообщаем только о центральной тенденции, мы не учитываем важный аспект данных, а именно то, каким образом значения отклоняются от центральной тенденции.

Отклонение от среднего значения

Давайте представим, что мы оцифровали два аналоговых входных сигнала. Если мы преобразуем цифровые коды обратно в единицы вольт и построим графики по времени, они будут выглядеть следующим образом:

Что называют стандартным отклонением и дисперсией Рисунок 1 – График измеренных сигналов

Мы можем довольно хорошо угадать средние значения, просто взглянув на график: центральная тенденция синего сигнала равна 1,2 В, а красного сигнала – 0,8 В. Но если мы сообщим только о средних значениях, мы создадим впечатление, что единственное важное различие между этими двумя сигналами – это разница средних значений 0,4 В (или мы можем назвать это уровнем постоянной составляющей или смещением по постоянному напряжению). Очевидно, что это еще не всё.

Инженер-электронщик интуитивно идентифицирует эти сигналы как устойчивые сигналы постоянного напряжения (возможно, напряжения питания), которые содержат довольно много шума.

Что еще более важно, мы немедленно признаем, что синий сигнал значительно более шумный, чем красный сигнал. Это основное различие в шумовых характеристиках теряется, если рассматривать только среднее значение.

Кстати, почему мы замечаем шум в этих сигналах? Так как

Когда статистик видит небольшие случайные отклонения от среднего значения, инженер-электронщик видит шум.

Среднее отклонение

Насколько шумные эти сигналы? Довольно шумные? Очень шумные? Попробуем дать более точный ответ на этот вопрос. Другими словами, нам нужно количественно определить отклонение в этих наборах данных.

Моя первая мысль при измерении отклонения состоит в том, чтобы найти расстояние между каждой точкой данных и средним значением, а затем вычислить среднее значение всех этих расстояний. Это даст нам среднее отклонение (также называемое средним абсолютным отклонением, MAD, mean absolute deviation), то есть типовое значение, на которое значения отклоняются от центральной тенденции. Ниже показана формула среднего отклонения:

Что называют стандартным отклонением и дисперсией Рисунок 2 – На этом графике горизонтальные линии показывают уровни напряжения, которые на величину одного среднего отклонения выше и ниже среднего значения.

Хотя среднее отклонение интуитивно понятно, оно не является самым распространенным методом количественной оценки склонности сигнала отклоняться от среднего значения. Для этого нам нужно стандартное отклонение.

Дисперсия и стандартное отклонение

В области электротехники проблема со средним отклонением состоит в том, что мы усредняем разности напряжений (или токов), и, следовательно, работаем в области амплитуд. Природа шумовых явлений такова, что при анализе шума мы делаем упор на мощности, а не на амплитуды, и, следовательно, нам нужен статистический метод, который работает в области мощностей.

К счастью, это просто. Мощность пропорциональна квадрату напряжения или тока, и, следовательно, всё, что нам нужно сделать, это возвести разность в квадрат до суммирования и усреднения. Результатом этой процедуры является статистическая мера, называемая дисперсией, обозначаемая σ 2 (сигма в квадрате):

Мы можем описать дисперсию как усредненную мощность случайных отклонений сигнала, выраженную в виде мощности. Это означает, что единица измерения дисперсии будет отличаться единицы измерения значений, с которых мы начинали. Если мы анализируем колебания в сигнале напряжения, дисперсия имеет единицы измерения В 2 вместо В.

Если мы хотим выразить склонность сигнала отклоняться случайным образом, используя исходную единицу измерения, мы должны компенсировать возведение в квадрат каждой разности, применив к конечному значению квадратный корень:

Эта процедура генерирует статистическую меру, известную как стандартное отклонение, то есть усредненную мощность случайных отклонений сигнала, выраженную в виде амплитуды. Таким образом, если мы анализируем сигнал напряжения, стандартное отклонение имеет единицы измерения В, несмотря на то, что мы вычислили стандартное отклонение, используя квадрат отклонений напряжения.

Что называют стандартным отклонением и дисперсией Рисунок 3 – На этом графике горизонтальные линии показывают уровни напряжения, которые на величину одного стандартного отклонения выше и ниже среднего значения.

Дисперсия и стандартное отклонение по-разному выражают одну и ту же информацию. Хотя дисперсия, насколько я понимаю, более удобна в определенных аналитических ситуациях, стандартное отклонение обычно предпочтительнее, поскольку это число, которое можно непосредственно интерпретировать, как меру склонности сигнала отклоняться от среднего значения.

Заключение

Стандартное отклонение и дисперсия являются важными статистическими методами, которые часто фигурируют в технических и общественных науках. Я надеюсь, что данная статья помогла вам понять основную связь между этими понятиями и электрическими сигналами, и в следующей статье мы рассмотрим некоторые интересные подробности, связанные со стандартным отклонением.

Источник

Среднее абсолютное отклонение позволяет решить проблему, заключающуюся в том, что сумма отклонений от среднего равна нулю. Для этого при расчете среднего используется абсолютное значение отклонений.

Второй подход к расчету отклонений состоит в их возведении в квадрат.

Дисперсия и стандартное отклонение, основанные на квадрате отклонений, являются двумя наиболее широко используемыми мерами дисперсии:

Далее обсуждается расчет и использования дисперсии и стандартного отклонения.

Дисперсия генеральной совокупности.

Если нам известен каждый элемент генеральной совокупности, мы можем вычислить дисперсию генеральной совокупности или просто дисперсию (англ. ‘population variance’).

Она обозначается символом σ 2 [сигма] и представляет собой среднее арифметическое квадратов отклонений от среднего значения.

Формула дисперсии генеральной совокупности.

Зная среднее значение μ, мы можем использовать Формулу 11 для вычисления суммы квадратов отклонений от среднего с учетом всех N элементов в генеральной совокупности, а затем для определения среднего квадратов отклонений путем деления этой суммы на N.

Независимо от того, является ли отклонение от среднего положительным или отрицательным, возведение в квадрат этой разности дает положительное число.

Таким образом, дисперсия решает проблему отрицательных отклонений от среднего значения, устраняя их посредством операции возведения в квадрат этих отклонений.

Рассмотрим пример.

Прибыль в процентах от выручки для оптовых клубов BJ’s Wholesale Club, Costco и Walmart за 2012 год составляла 0.9%, 1.6% и 3.5% соответственно. Мы рассчитали среднюю прибыль в процентах от выручки как 2.0%.

Следовательно, дисперсия прибыли в процентах от выручки составляет:

Стандартное отклонение генеральной совокупности.

Поскольку дисперсия измеряется в квадратах, нам нужен способ вернуться к исходным единицам. Мы можем решить эту проблему, используя стандартное отклонение, т.е. квадратный корень из дисперсии.

Стандартное отклонение легче интерпретировать, чем дисперсию, поскольку стандартное отклонение выражается в той же единице измерения, что и наблюдения.

Формула стандартного отклонения генеральной совокупности.

Стандартное отклонение генеральной совокупности (или просто стандартное отклонение, а также среднеквадратическое отклонение, от англ. ‘population standard deviation’), определяемое как положительный квадратный корень из дисперсии генеральной совокупности, составляет:

Используя пример прибыли в процентах от выручки для оптовых клубов BJ’s Wholesale Club, Costco и Walmart за 2012 год, в соответствии с Формулой 12, мы вычислим дисперсию 1.21, а затем возьмем квадратный корень: \( \sqrt <1.21>\) = 1.10.

Как дисперсия, так и стандартное отклонение являются примерами параметров распределения. В последующих чтениях мы введем понятие дисперсии и стандартного отклонения как меры риска.

Занимаясь инвестициями, мы часто не знаем среднего значения интересующей совокупности, обычно потому, что мы не можем практически идентифицировать или провести измерения для каждого элемента генеральной совокупности.

Поэтому мы рассчитываем среднее значение по генеральной совокупности и среднее выборки, взятой из совокупности, и вычисляем выборочную дисперсию или стандартное отклонение выборки, используя формулы, немного отличающиеся от Формул 11 и 12.

Мы обсудим эти вычисления далее.

Однако в инвестициях у нас иногда есть определенная группа, которую мы можем считать генеральной совокупностью. Для четко определенных групп наблюдений мы используем Формулы 11 и 12, как в следующем примере.

Пример расчета стандартного отклонения для генеральной совокупности.

В Таблице 20 представлен годовой оборот портфеля из 12 фондов акций США, которые вошли в список Forbes Magazine Honor Roll 2013 года.

Журнал Forbes ежегодно выбирает американские взаимные фонды, отвечающие определенным критериям для своего почетного списка Honor Roll.

Оборачиваемость или оборот портфеля, показатель торговой активности, является меньшим значением из стоимости продаж или покупок за год, деленным на среднюю чистую стоимость активов за год. Количество и состав списка Forbes Honor Roll меняются из года в год.

Таблица 20. Оборот портфеля: взаимные фонды Forbes Honor Roll за 2013 год.

Годовой оборот портфеля (%)

CGM Focus Fund (CGMFX)

Hotchkis And Wiley Small Cap Value A Fund (HWSAX)

Aegis Value Fund (AVALX)

Delafield Fund (DEFIX)

Homestead Small Company Stock Fund (HSCSX)

Robeco Boston Partners Small Cap Value II Fund (BPSCX)

Hotchkis And Wiley Mid Cap Value A Fund (HWMAX)

T Rowe Price Small Cap Value Fund (PRSVX)

Guggenheim Mid Cap Value Fund Class A (SEVAX)

Wells Fargo Advantage Small Cap Value Fund (SSMVX)

Stratton Small-Cap Value Fund (STSCX)

Основываясь на данных из таблицы 20, сделайте следующее:

Решение для части 1:

μ = (10 + 360 + 37 + 20 + 49 + 1 + 32 + 72 + 9 + 19 + 16 + 11)/12
= 636 /12 = 53%.

Решение для части 2:

Установив, что μ = 53%, мы можем вычислить дисперсию

Числитель (сумма квадратов отклонений от среднего) равен:

Таким образом, σ 2 = 107,190/12 = 8,932.50.

Для расчета стандартного отклонения находим квадратный корень:

Единицей измерения дисперсии является процент в квадрате, поэтому единицей измерения стандартного отклонения также является процент.

Решение для части 3:

Если генеральная совокупность четко определена как фонды Forbes Honor Roll за один конкретный год (2013 г.), и если под оборотом портфеля понимается конкретный одногодичный период, о котором отчитывается Forbes, то применение формул генеральной совокупности для дисперсии и стандартного отклонения уместно.

Результаты 8,932.50 и 94.51 представляют собой, соответственно, перекрестную дисперсию и стандартное отклонение годового оборота портфеля для фондов Forbes Honor Roll за 2013 год.

Фактически, мы не могли должным образом использовать фонды Honor Roll для оценки дисперсии оборота портфеля (например) любой другой по-разному определенной генеральной совокупности, потому что фонды Honor Roll не являются случайной выборкой из какой-либо большей генеральной совокупности взаимных фондов США.

Выборочная дисперсия.

Статистика, которая измеряет дисперсию по выборке, называется выборочной дисперсией или дисперсией выборки (англ. ‘sample variance’).

В приведенном ниже обсуждении обратите внимание на использование латинских букв вместо греческих для обозначения объема выборки.

Формула выборочной дисперсии.

Формула 13 предписывает нам предпринять следующие шаги для вычисления выборочной дисперсии:

Мы проиллюстрируем расчет выборочной дисперсии и выборочного стандартного отклонения на примере ниже.

Отличие выборочной дисперсии от дисперсии генеральной совокупности.

Формула для выборочной дисперсии почти такая же, как и для дисперсии генеральной совокупности, за исключением использования среднего значения выборки \( \overline X \) вместо среднего значения генеральной совокупности μ и другого делителя.

Мы обсудим эту концепцию далее в чтении о выборке.

Стандартное отклонение выборки.

Для стандартного отклонения генеральной совокупности мы аналогичным образом можем вычислить стандартное отклонение выборки, взяв квадратный корень из положительной дисперсии выборки.

Формула стандартного отклонения выборки.

Стандартное отклонение выборки (выборочное стандартное отклонение, выборочное среднеквадратическое отклонение, англ. ‘sample standard deviation’), обозначается символом s и рассчитывается следующим образом:

Чтобы рассчитать стандартное отклонение выборки, мы сначала вычисляем дисперсию выборки, используя приведенные выше шаги. Затем мы берем квадратный корень из выборочной дисперсии.

Пример, приведенный ниже, иллюстрирует расчет выборочной дисперсии и стандартного отклонения выборки для двух взаимных фондов, представленных ранее.

Пример расчета выборочной дисперсии и стандартного отклонения выборки.

После расчета геометрических и арифметических средних доходностей двух взаимных фондов в Примере (1) мы вычислили две меры дисперсии для этих фондов, размах и среднее абсолютное отклонение доходности (см. Пример расчета размаха и среднего абсолютного отклонения для оценки риска).

Теперь мы вычислим выборочную дисперсию и стандартное отклонение выборки для доходности тех же двух фондов.

Таблица 15. Совокупная доходность двух взаимных фондов, 2008-2012 гг.
(повтор).

Фонд Selected
American Shares
(SLASX)

Фонд T. Rowe Price
Equity Income
(PRFDX)

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *