Что называют стандартным отклонением и дисперсией
Стандартное отклонение против дисперсии
Стандартное отклонение и отклонение являются статистическими мерами разброса данных, то есть они представляют, насколько сильно отклоняется от среднего или насколько значения обычно «отклоняются&
Содержание:
Стандартное отклонение и отклонение являются статистическими мерами разброса данных, то есть они представляют, насколько сильно отклоняется от среднего или насколько значения обычно «отклоняются» от среднего (среднего). Нулевое отклонение или стандартное отклонение означает, что все значения идентичны.
Сравнительная таблица
Важные концепции
Символы
Формула стандартного отклонения и дисперсии часто выражается следующим образом:
Формулы
Дисперсия набора п равновероятные значения могут быть записаны как:
Формулы с греческими буквами выглядят устрашающе, но это не так сложно, как кажется. Чтобы выразить это простыми шагами:
Это дает дисперсию. Извлеките квадратный корень из дисперсии, чтобы найти стандартное отклонение.
Это отличное видео от Khan Academy объясняет концепции дисперсии и стандартного отклонения:
пример
Допустим, набор данных включает высоту шести одуванчиков: 3 дюйма, 4 дюйма, 5 дюймов, 4 дюйма, 11 дюймов и 6 дюймов.
Сначала найдите среднее значение точек данных: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Теперь возведите каждое отклонение в квадрат и найдите их сумму: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5.
Теперь разделите сумму квадратов на количество точек данных, в данном случае растений: 43,5 / 6 = 7,25
Таким образом, дисперсия этого набора данных составляет 7,25, что является довольно произвольным числом. Чтобы преобразовать его в реальное измерение, возьмите квадратный корень из 7,25 и найдите стандартное отклонение в дюймах.
Стандартное отклонение составляет около 2,69 дюйма. Это означает, что для образца любой одуванчик в пределах 2,69 дюйма от среднего значения (5,5 дюйма) является «нормальным».
Зачем возводить в квадрат отклонения?
Приложения в реальном мире
Дисперсия выражается как математическая дисперсия. Поскольку это произвольное число по сравнению с исходными измерениями набора данных, его трудно визуализировать и применять в реальном смысле. Нахождение дисперсии обычно является лишь последним шагом перед определением стандартного отклонения. Значения дисперсии иногда используются в финансовых и статистических формулах.
Стандартное отклонение, которое выражается в исходных единицах набора данных, гораздо более интуитивно понятно и ближе к значениям исходного набора данных. Чаще всего он используется для анализа демографических данных или выборок населения, чтобы понять, что в этом населении является нормальным.
Поиск выбросов
Нормальное распределение (кривая Белла) с полосами, соответствующими 1σ
При нормальном распределении около 68% совокупности (или значений) попадают в 1 стандартное отклонение (1σ) от среднего, а около 94% попадают в 2σ. Значения, которые отличаются от среднего на 1,7σ или более, обычно считаются выбросами.
На практике системы качества, такие как «Шесть сигм», пытаются снизить количество ошибок, так что ошибки становятся исключением. Термин «процесс шести сигм» исходит из того, что если имеется шесть стандартных отклонений между средним значением процесса и ближайшим пределом спецификации, практически ни один элемент не будет не соответствовать спецификациям. [1]
Стандартное отклонение выборки
В реальных приложениях используемые наборы данных обычно представляют собой выборки населения, а не целые совокупности. Слегка измененная формула используется, если на основе частичной выборки должны быть сделаны общие выводы.
Используя пример с одуванчиком, эта формула может понадобиться, если мы отобрали только 6 одуванчиков, но хотели бы использовать этот образец для определения стандартного отклонения для всего поля с сотнями одуванчиков.
Стандартное отклонение
Стандартное отклонение (англ. Standard Deviation) — простыми словами это мера того, насколько разбросан набор данных.
Вычисляя его, можно узнать, являются ли числа близкими к среднему значению или далеки от него. Если точки данных находятся далеко от среднего значения, то в наборе данных имеется большое отклонение; таким образом, чем больше разброс данных, тем выше стандартное отклонение.
Стандартное отклонение обозначается буквой σ (греческая буква сигма).
Стандартное отклонение также называется:
Использование и интерпретация величины среднеквадратического отклонения
Стандартное отклонение используется:
Рассмотрим два малых предприятия, у нас есть данные о запасе какого-то товара на их складах.
День 1 | День 2 | День 3 | День 4 | |
---|---|---|---|---|
Пред.А | 19 | 21 | 19 | 21 |
Пред.Б | 15 | 26 | 15 | 24 |
В обеих компаниях среднее количество товара составляет 20 единиц:
Однако, глядя на цифры, можно заметить:
Если рассчитать стандартное отклонение каждой компании, оно покажет, что
Стандартное отклонение показывает эту волатильность данных — то, с каким размахом они меняются; т.е. как сильно этот запас товара на складах компаний колеблется (поднимается и опускается).
Расчет среднеквадратичного (стандартного) отклонения
Формулы вычисления стандартного отклонения
Разница между формулами S и σ («n» и «n–1»)
Состоит в том, что мы анализируем — всю выборку или только её часть:
Как рассчитать стандартное отклонение?
Пример 1 (с σ)
Рассмотрим данные о запасе какого-то товара на складах Предприятия Б.
День 1 | День 2 | День 3 | День 4 | |
Пред.Б | 15 | 26 | 15 | 24 |
Если значений выборки немного (небольшое n, здесь он равен 4) и анализируются все значения, то применяется эта формула:
Применяем эти шаги:
1. Найти среднее арифметическое выборки:
μ = (15 + 26 + 15+ 24) / 4 = 20
2. От каждого значения выборки отнять среднее арифметическое:
3. Каждую полученную разницу возвести в квадрат:
4. Сделать сумму полученных значений:
5. Поделить на размер выборки (т.е. на n):
6. Найти квадратный корень:
Пример 2 (с S)
Задача усложняется, когда существуют сотни, тысячи или даже миллионы данных. В этом случае берётся только часть этих данных и анализируется методом выборки.
У Андрея 20 яблонь, но он посчитал яблоки только на 6 из них.
Популяция — это все 20 яблонь, а выборка — 6 яблонь, это деревья, которые Андрей посчитал.
Яблоня 1 | Яблоня 2 | Яблоня 3 | Яблоня 4 | Яблоня 5 | Яблоня 6 |
9 | 2 | 5 | 4 | 12 | 7 |
Так как мы используем только выборку в качестве оценки всей популяции, то нужно применить эту формулу:
Математически она отличается от предыдущей формулы только тем, что от n нужно будет вычесть 1. Формально нужно будет также вместо μ (среднее арифметическое) написать X ср.
Применяем практически те же шаги:
1. Найти среднее арифметическое выборки:
Xср = (9 + 2 + 5 + 4 + 12 + 7) / 6 = 39 / 6 = 6,5
2. От каждого значения выборки отнять среднее арифметическое:
X1 – Xср = 9 – 6,5 = 2,5
X2 – Xср = 2 – 6,5 = –4,5
X3 – Xср = 5 – 6,5 = –1,5
X4 – Xср = 4 – 6,5 = –2,5
X5 – Xср = 12 – 6,5 = 5,5
X6 – Xср = 7 – 6,5 = 0,5
3. Каждую полученную разницу возвести в квадрат:
4. Сделать сумму полученных значений:
Σ (Xi – Xср)² = 6,25 + 20,25+ 2,25+ 6,25 + 30,25 + 0,25 = 65,5
5. Поделить на размер выборки, вычитав перед этим 1 (т.е. на n–1):
(Σ (Xi – Xср)²)/(n-1) = 65,5 / (6 – 1) = 13,1
6. Найти квадратный корень:
S = √((Σ (Xi – Xср)²)/(n–1)) = √ 13,1 ≈ 3,6193
Дисперсия и стандартное отклонение
Стандартное отклонение равно квадратному корню из дисперсии (S = √D). То есть, если у вас уже есть стандартное отклонение и нужно рассчитать дисперсию, нужно лишь возвести стандартное отклонение в квадрат (S² = D).
Дисперсия — в статистике это «среднее квадратов отклонений от среднего». Чтобы её вычислить нужно:
Ещё расчёт дисперсии можно сделать по этой формуле:
Правило трёх сигм
Это правило гласит: вероятность того, что случайная величина отклонится от своего математического ожидания более чем на три стандартных отклонения (на три сигмы), почти равна нулю.
Глядя на рисунок нормального распределения случайной величины, можно понять, что в пределах:
Это означает, что за пределами остаются лишь 0,28% — это вероятность того, что случайная величина примет значение, которое отклоняется от среднего более чем на 3 сигмы.
Стандартное отклонение в excel
Вычисление стандартного отклонения с «n – 1» в знаменателе (случай выборки из генеральной совокупности):
1. Занесите все данные в документ Excel.
2. Выберите поле, в котором вы хотите отобразить результат.
3. Введите в этом поле «=СТАНДОТКЛОНА(«
4. Выделите поля, где находятся данные, потом закройте скобки.
5. Нажмите Ввод (Enter).
В случае если данные представляют всю генеральную совокупность (n в знаменателе), то нужно использовать функцию СТАНДОТКЛОНПА.
Коэффициент вариации
Коэффициент вариации — отношение стандартного отклонения к среднему значению, т.е. Cv = (S/μ) × 100% или V = (σ/X̅) × 100%.
Стандартное отклонение делится на среднее и умножается на 100%.
Можно классифицировать вариабельность выборки по коэффициенту вариации:
Среднее отклонение, стандартное отклонение и дисперсия в обработке сигналов
В данной статье рассматриваются три описательных статистических меры с точки зрения приложений обработки сигналов.
В предыдущей статье, посвященной описательной статистике для инженеров-электронщиков, мы увидели, что центральную тенденцию набора данных могут передавать как среднее арифметическое, так и медиана. Несмотря на то, что медиана менее чувствительна к выбросам, в электронике и цифровой обработке сигналов чаще используется среднее арифметическое. Среднее арифметическое, по сути, является основным статистическим методом в электротехнике.
Однако для адекватного описания или понимания набора данных нам часто требуется нечто большее, чем только среднее арифметическое.
Когда мы сообщаем только о центральной тенденции, мы не учитываем важный аспект данных, а именно то, каким образом значения отклоняются от центральной тенденции.
Отклонение от среднего значения
Давайте представим, что мы оцифровали два аналоговых входных сигнала. Если мы преобразуем цифровые коды обратно в единицы вольт и построим графики по времени, они будут выглядеть следующим образом:
Рисунок 1 – График измеренных сигналов
Мы можем довольно хорошо угадать средние значения, просто взглянув на график: центральная тенденция синего сигнала равна 1,2 В, а красного сигнала – 0,8 В. Но если мы сообщим только о средних значениях, мы создадим впечатление, что единственное важное различие между этими двумя сигналами – это разница средних значений 0,4 В (или мы можем назвать это уровнем постоянной составляющей или смещением по постоянному напряжению). Очевидно, что это еще не всё.
Инженер-электронщик интуитивно идентифицирует эти сигналы как устойчивые сигналы постоянного напряжения (возможно, напряжения питания), которые содержат довольно много шума.
Что еще более важно, мы немедленно признаем, что синий сигнал значительно более шумный, чем красный сигнал. Это основное различие в шумовых характеристиках теряется, если рассматривать только среднее значение.
Кстати, почему мы замечаем шум в этих сигналах? Так как
Когда статистик видит небольшие случайные отклонения от среднего значения, инженер-электронщик видит шум.
Среднее отклонение
Насколько шумные эти сигналы? Довольно шумные? Очень шумные? Попробуем дать более точный ответ на этот вопрос. Другими словами, нам нужно количественно определить отклонение в этих наборах данных.
Моя первая мысль при измерении отклонения состоит в том, чтобы найти расстояние между каждой точкой данных и средним значением, а затем вычислить среднее значение всех этих расстояний. Это даст нам среднее отклонение (также называемое средним абсолютным отклонением, MAD, mean absolute deviation), то есть типовое значение, на которое значения отклоняются от центральной тенденции. Ниже показана формула среднего отклонения:
Рисунок 2 – На этом графике горизонтальные линии показывают уровни напряжения, которые на величину одного среднего отклонения выше и ниже среднего значения.
Хотя среднее отклонение интуитивно понятно, оно не является самым распространенным методом количественной оценки склонности сигнала отклоняться от среднего значения. Для этого нам нужно стандартное отклонение.
Дисперсия и стандартное отклонение
В области электротехники проблема со средним отклонением состоит в том, что мы усредняем разности напряжений (или токов), и, следовательно, работаем в области амплитуд. Природа шумовых явлений такова, что при анализе шума мы делаем упор на мощности, а не на амплитуды, и, следовательно, нам нужен статистический метод, который работает в области мощностей.
К счастью, это просто. Мощность пропорциональна квадрату напряжения или тока, и, следовательно, всё, что нам нужно сделать, это возвести разность в квадрат до суммирования и усреднения. Результатом этой процедуры является статистическая мера, называемая дисперсией, обозначаемая σ 2 (сигма в квадрате):
Мы можем описать дисперсию как усредненную мощность случайных отклонений сигнала, выраженную в виде мощности. Это означает, что единица измерения дисперсии будет отличаться единицы измерения значений, с которых мы начинали. Если мы анализируем колебания в сигнале напряжения, дисперсия имеет единицы измерения В 2 вместо В.
Если мы хотим выразить склонность сигнала отклоняться случайным образом, используя исходную единицу измерения, мы должны компенсировать возведение в квадрат каждой разности, применив к конечному значению квадратный корень:
Эта процедура генерирует статистическую меру, известную как стандартное отклонение, то есть усредненную мощность случайных отклонений сигнала, выраженную в виде амплитуды. Таким образом, если мы анализируем сигнал напряжения, стандартное отклонение имеет единицы измерения В, несмотря на то, что мы вычислили стандартное отклонение, используя квадрат отклонений напряжения.
Рисунок 3 – На этом графике горизонтальные линии показывают уровни напряжения, которые на величину одного стандартного отклонения выше и ниже среднего значения.
Дисперсия и стандартное отклонение по-разному выражают одну и ту же информацию. Хотя дисперсия, насколько я понимаю, более удобна в определенных аналитических ситуациях, стандартное отклонение обычно предпочтительнее, поскольку это число, которое можно непосредственно интерпретировать, как меру склонности сигнала отклоняться от среднего значения.
Заключение
Стандартное отклонение и дисперсия являются важными статистическими методами, которые часто фигурируют в технических и общественных науках. Я надеюсь, что данная статья помогла вам понять основную связь между этими понятиями и электрическими сигналами, и в следующей статье мы рассмотрим некоторые интересные подробности, связанные со стандартным отклонением.
Среднее абсолютное отклонение позволяет решить проблему, заключающуюся в том, что сумма отклонений от среднего равна нулю. Для этого при расчете среднего используется абсолютное значение отклонений.
Второй подход к расчету отклонений состоит в их возведении в квадрат.
Дисперсия и стандартное отклонение, основанные на квадрате отклонений, являются двумя наиболее широко используемыми мерами дисперсии:
Далее обсуждается расчет и использования дисперсии и стандартного отклонения.
Дисперсия генеральной совокупности.
Если нам известен каждый элемент генеральной совокупности, мы можем вычислить дисперсию генеральной совокупности или просто дисперсию (англ. ‘population variance’).
Она обозначается символом σ 2 [сигма] и представляет собой среднее арифметическое квадратов отклонений от среднего значения.
Формула дисперсии генеральной совокупности.
Зная среднее значение μ, мы можем использовать Формулу 11 для вычисления суммы квадратов отклонений от среднего с учетом всех N элементов в генеральной совокупности, а затем для определения среднего квадратов отклонений путем деления этой суммы на N.
Независимо от того, является ли отклонение от среднего положительным или отрицательным, возведение в квадрат этой разности дает положительное число.
Таким образом, дисперсия решает проблему отрицательных отклонений от среднего значения, устраняя их посредством операции возведения в квадрат этих отклонений.
Рассмотрим пример.
Прибыль в процентах от выручки для оптовых клубов BJ’s Wholesale Club, Costco и Walmart за 2012 год составляла 0.9%, 1.6% и 3.5% соответственно. Мы рассчитали среднюю прибыль в процентах от выручки как 2.0%.
Следовательно, дисперсия прибыли в процентах от выручки составляет:
Стандартное отклонение генеральной совокупности.
Поскольку дисперсия измеряется в квадратах, нам нужен способ вернуться к исходным единицам. Мы можем решить эту проблему, используя стандартное отклонение, т.е. квадратный корень из дисперсии.
Стандартное отклонение легче интерпретировать, чем дисперсию, поскольку стандартное отклонение выражается в той же единице измерения, что и наблюдения.
Формула стандартного отклонения генеральной совокупности.
Стандартное отклонение генеральной совокупности (или просто стандартное отклонение, а также среднеквадратическое отклонение, от англ. ‘population standard deviation’), определяемое как положительный квадратный корень из дисперсии генеральной совокупности, составляет:
Используя пример прибыли в процентах от выручки для оптовых клубов BJ’s Wholesale Club, Costco и Walmart за 2012 год, в соответствии с Формулой 12, мы вычислим дисперсию 1.21, а затем возьмем квадратный корень: \( \sqrt <1.21>\) = 1.10.
Как дисперсия, так и стандартное отклонение являются примерами параметров распределения. В последующих чтениях мы введем понятие дисперсии и стандартного отклонения как меры риска.
Занимаясь инвестициями, мы часто не знаем среднего значения интересующей совокупности, обычно потому, что мы не можем практически идентифицировать или провести измерения для каждого элемента генеральной совокупности.
Поэтому мы рассчитываем среднее значение по генеральной совокупности и среднее выборки, взятой из совокупности, и вычисляем выборочную дисперсию или стандартное отклонение выборки, используя формулы, немного отличающиеся от Формул 11 и 12.
Мы обсудим эти вычисления далее.
Однако в инвестициях у нас иногда есть определенная группа, которую мы можем считать генеральной совокупностью. Для четко определенных групп наблюдений мы используем Формулы 11 и 12, как в следующем примере.
Пример расчета стандартного отклонения для генеральной совокупности.
В Таблице 20 представлен годовой оборот портфеля из 12 фондов акций США, которые вошли в список Forbes Magazine Honor Roll 2013 года.
Журнал Forbes ежегодно выбирает американские взаимные фонды, отвечающие определенным критериям для своего почетного списка Honor Roll.
Оборачиваемость или оборот портфеля, показатель торговой активности, является меньшим значением из стоимости продаж или покупок за год, деленным на среднюю чистую стоимость активов за год. Количество и состав списка Forbes Honor Roll меняются из года в год.