Что означает стандартное отклонение
Стандартное отклонение
Стандартное (среднеквадратическое) отклонение (Standard Deviation) используется для оценки отклонения (разброса) значений от их средней величины. Рассчитывается как корень квадратный из дисперсии и обычно обозначается греческой буквой σ (сигма). В финансовом анализе его считают мерой неопределенности, то есть риска.
Большое значение отклонения показывает больший разброс значений от средней величины и указывает на более высокий риск; меньшее, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения и указывает на меньшую волатильность.
Инвестиции в акции США, IPO и Pre-IPO
Рассмотрим, как работает стандартное отклонение на примере. Допустим, что средняя годовая доходность некой инвестиции составляет 5%, а годовое стандартное отклонение доходности этой инвестиции равняется 10%.
В случае нормального распределения в пределы одного стандартного отклонения попадают порядка 68% ожидаемых будущих доходов. Это означает, что вероятность того, что фактический результат будет отстоять от ожидаемого значения больше, чем на величину одного отклонения, равняется лишь 32%.
Вероятность того, что фактический результат попадет в пределы двух стандартных отклонений от ожидаемого значения соответствующего распределения, равняется приблизительно 95%, а вероятность того, что он попадет в пределы трех отклонений от ожидаемого значения, составляет больше 99%.
Среднеквадратическое (стандартное) отклонение доходности различных классов активов не является статичной величиной. Бывают времена, когда доходность одних классов активов оказывается более волатильной, чем доходность других.
Из книги Ричарда Ферри “Все о распределении активов”.
Стандартное отклонение (Standard Deviation)
Стандартное отклонение (σ, s) – это мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от Cреднего арифметического (Mean) находятся точки данных. Его также можно назвать мерой центральной тенденции: чем меньше стандартное отклонение, тем более «сгруппированы» данные вокруг центра (среднего). Чем отклонение больше, тем больше разброс значений.
Стандартное отклонение в статистике
Метрика рассчитывается с помощью следующей формулы:
Пример. Мы располагаем Выборкой (Sample) из 10 наблюдений, где указано, сколько килограммов томатов собрали дачники в этом месяце:
Средним значением выборки будет 7,7:
$$\bar
Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет:
Причина, по которой мы возводим разницы в квадрат, заключается в том, что большие отклонения от среднего как бы «наказываются» более сурово. Возведение в квадрат также приводит одинаковому учету отклонений в обоих направлениях (положительном и отрицательном), то есть расстояние от среднего значения у отрицательного и положительного числа будет рассчитано верно в обоих случаях.
Суммой значений правого столбца является число 64,1. Итак, согласно формуле стандартное отклонение будет равно:
Стандартное отклонение в Машинном обучении
Представьте, что перепись «томатного» населения приобрела более широкие масштабы, и исследователи собрали данные о целом климатическом поясе. Мало тех, кто собрал по 2 килограмма, и тех, кто собрал 50. В среднем, садоводы собирали 25 кг.
При создании модели прогнозирования урожая стандартное отклонение уточняет наши предположения с помощью следующих принципов:
Библиотека Statistics
Рассчитывание стандартного отклонения выполняется мгновенно с помощью библиотеки statistics:
Стандартное отклонение
Опубликовано 06.07.2021 · Обновлено 06.07.2021
Что такое стандартное отклонение?
Стандартное отклонение – это статистика, которая измеряет разброс набора данных относительно его среднего значения. Стандартное отклонение рассчитывается как квадратный корень из дисперсии путем определения отклонения каждой точки данных относительно среднего значения. Если точки данных находятся дальше от среднего значения, в наборе данных имеется большее отклонение; таким образом, чем шире разброс данных, тем выше стандартное отклонение.
Ключевые выводы:
Понимание стандартного отклонения
Стандартное отклонение – это статистический показатель в области финансов, который в применении к годовой норме доходности инвестиций проливает свет на историческую волатильность этих инвестиций. Чем больше стандартное отклонение ценных бумаг, тем больше разница между каждой ценой и средним значением, которое показывает больший диапазон цен. Например, волатильные акции имеют высокое стандартное отклонение, в то время как отклонение стабильных голубых фишек обычно довольно низкое.
Формула стандартного отклонения
Расчет стандартного отклонения
Стандартное отклонение рассчитывается следующим образом:
Использование стандартного отклонения
Стандартное отклонение – особенно полезный инструмент в инвестиционных и торговых стратегиях, поскольку он помогает измерять волатильность рынка и ценных бумаг, а также прогнозировать тенденции производительности. Например, что касается инвестирования, индексный фонд, вероятно, будет иметь низкое стандартное отклонение по сравнению с его эталонным индексом, поскольку цель фонда – воспроизвести индекс.
С другой стороны, можно ожидать, что фонды агрессивного роста будут иметь высокое стандартное отклонение от относительных фондовых индексов, поскольку их управляющие портфелями делают агрессивные ставки для получения прибыли выше среднего.
Более низкое стандартное отклонение не обязательно является предпочтительным. Все зависит от вложений и готовности инвестора принять на себя риск. Имея дело с величиной отклонений в своих портфелях, инвесторы должны учитывать свою терпимость к волатильности и свои общие инвестиционные цели. Более агрессивные инвесторы могут быть довольны инвестиционной стратегией, которая выбирает автомобили с волатильностью выше среднего, в то время как более консервативные инвесторы могут не делать этого.
Стандартное отклонение – паевых инвестиционных фондов и других продуктов. Большой разброс показывает, насколько доходность фонда отклоняется от ожидаемой нормальной доходности. Поскольку эта статистика проста для понимания, она регулярно предоставляется конечным клиентам и инвесторам.
Стандартное отклонение против дисперсии
Дисперсия получается путем взятия среднего значения точек данных, вычитания среднего значения из каждой точки данных в отдельности, возведения в квадрат каждого из этих результатов, а затем взятия другого среднего значения этих квадратов. Стандартное отклонение – это квадратный корень из дисперсии.
Дисперсия помогает определить размер разброса данных по сравнению со средним значением. По мере того, как дисперсия становится больше, происходит большее изменение значений данных, и может быть больший разрыв между одним значением данных и другим. Если все значения данных близки друг к другу, дисперсия будет меньше. Однако это сложнее понять, чем стандартное отклонение, потому что дисперсия представляет собой результат, возведенный в квадрат, который не может быть осмысленно выражен на том же графике, что и исходный набор данных.
Стандартные отклонения обычно легче изобразить и применить. Стандартное отклонение выражается в той же единице измерения, что и данные, что не обязательно относится к дисперсии. Используя стандартное отклонение, статистики могут определить, имеют ли данные нормальную кривую или другую математическую зависимость. Если данные ведут себя по нормальной кривой, то 68% точек данных будут находиться в пределах одного стандартного отклонения от среднего или среднего значения точки данных. Большие отклонения приводят к тому, что большее количество точек данных выходит за пределы стандартного отклонения. Меньшие отклонения приводят к большему количеству данных, близких к среднему.
Большой недостаток
Самый большой недостаток использования стандартного отклонения заключается в том, что на него могут влиять выбросы и экстремальные значения. Стандартное отклонение предполагает нормальное распределение и рассчитывает всю неопределенность как риск, даже если она в пользу инвестора, например, доходность выше среднего.
Пример стандартного отклонения
Скажем, у нас есть точки данных 5, 7, 3 и 7, всего 22. Затем вы разделите 22 на количество точек данных, в данном случае на четыре, что даст среднее значение 5,5. Это приводит к следующим определениям: x̄ = 5.5 и N = 4.
Затем вычисляется квадратный корень из дисперсии, что дает стандартное отклонение примерно 1,915.
Таким образом, абсолютное значение годовой доходности за вычетом среднего составляет 24,39%, 11,57%, 42,27%, 52,1% и 24,03% соответственно. Затем все эти значения возводятся в квадрат, чтобы получить 0,059, 0,013, 0,179, 0,271 и 0,058. Выборочная дисперсия – это среднее значение квадрата разности, или 0,145, где значения в квадрате складываются и делятся на 4 (N минус 1). Квадратный корень из дисперсии используется для получения стандартного отклонения 38,08%.
Конспект курса «Основы статистики»
1. Введение
Способы формирования репрезентативной выборки:
Простая случайная выборка (simple random sample)
Стратифицированная выборка (stratified sample)
Групповая выборка (cluster sample)
Типы переменных:
непрерывные (рост в мм)
дискретные (количество публикаций у учёного)
Ранговые (успеваемость студентов)
Гистограмма частот:
Позволяет сделать первое впечатление о форме распределения некоторого количественного признака.
Описательные статистики:
Меры центральной тенденции (узкий диапазон, высокие значения признака):
( используется для среднего значения из выборки, а для генеральной совокупности латинская буква )
Свойства среднего:
Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.
Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.
Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю.
Меры изменчивости (широкий диапазон, вариативность признака):
При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные.
Дисперсия генеральной совокупности:
(среднеквадратическое отклонение генеральной совокупности)
(среднеквадратическое отклонение выборки)
Свойства дисперсии:
Квартили распределения и график box-plot
Нормальное распределение
Отклонения наблюдений от среднего подчиняются определённому вероятностному закону.
Стандартизация
Правило «двух» и «трёх» сигм
Центральная предельная теорема
Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением .
30″ alt=»SE = \frac
Доверительные интервалы для среднего
Доверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).
Идея статистического вывода
2. Сравнение средних
T-распределение
Если число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).
Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы от
«Форма» распределения определяется числом степеней свободы ().
С увеличением числа распределение стремится к нормальному.
t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности.
Сравнение двух средних; t-критерий Стьюдента
Критерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента.
Условия для корректности использования t-критерия Стьюдента:
Две независимые группы
Формула стандартной ошибки среднего:
Формула числа степеней свободы:
Формула t-критерия Стьюдента:
Переход к p-критерию:
Проверка распределения на нормальность, QQ-Plot
Однофакторный дисперсионный анализ
Часто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ.
Группы:
Нулевая гипотеза:
Альтернативная гипотеза:
Среднее значение всех наблюдений:
Общая сумма квадратов (Total sum of sqares):
Показатель, который характеризует насколько высока изменчивость данных, без учёта разделения их на группы.
Число степеней свободы:
— Межгрупповая сумма квадратов (Sum of sqares between groups)
— Внутригрупповая сумма квадратов (Sum of sqares within groups)
F-значение (основной статистический показатель дисперсионного анализа):
При делении значения межгрупповой суммы квадратов на число степеней свободы, полученный показатель усредняется.
Поэтому формула F-значения часто записывается:
Множественные сравнения в ANOVA
Проблема множественных сравнений:
Поправка Бонферрони
Самый простой (и консервативный) метод: P-значения умножаются на число выполненных сравнений.
Критерий Тьюки
Критерий Тьюки используется для проверки нулевой гипотезы против альтернативной гипотезы , где индексы и обозначают любые две сравниваемые группы.
Указанные сравнения выполняются при помощи критерия Тьюки, который представляет собой модифицированный критерий Стьюдента:
где — рассчитываемая в ходе дисперсионного анализа внутригрупповая дисперсия.
Многофакторный ANOVA
При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.
Исследуемые группы называют эффектами обработки. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.
Условия применения двухмерного дисперсионного анализа:
Генеральные совокупности, из которых извлечены выборки, должны быть нормально распределены.
Выборки должны быть независимыми.
Дисперсии генеральных совокупностей, из которых извлекались выборки, должны быть равными.
Группы должны иметь одинаковый объем выборки.
АБ тесты и статистика
3. Корреляция и регрессия
Понятие корреляции
Коэффициент корреляции – это статистическая мера, которая вычисляет силу связи между относительными движениями двух переменных.
Принимает значения [-1, 1]
— показатель силы и направления взаимосвязи двух количественных переменных.
Знак коэффициента корреляции показывает направление взаимосвязи.
Коэффициент детерминации
— показывает, в какой степени дисперсия одной переменной обусловлена влиянием другой переменной.
Равен квадрату коэффициента корреляции.
Принимает значения [0, 1]
Условия применения коэффициента корреляции
Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:
Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.
Распределения переменных и должны быть близки к нормальному.
Число варьирующих признаков в сравниваемых переменных и должно быть одинаковым.
Коэффициент корреляции Спирмена
Регрессия с одной независимой переменной
Уравнение прямой:
— (intersept) отвечает за то, где прямая пересекает ось y.
— (slope) отвечает за направление и угол наклона, образованный с осью x.
Метод наименьших квадратов
Формула нахождения остатка:
— остаток
— реальное значение
— значение, которое предсказывает регрессионная прямая
Сумма квадратов всех остатков:
Параметры линейной регрессии:
Гипотеза о значимости взаимосвязи и коэффициент детерминации
Коэффициенты линейной регрессии
Коэффициенты регрессии (β) — это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
Коэффициент детерминации
— доля дисперсии зависимой переменной (Y), объясняем регрессионной моделью.
— сумма квадратов остатков
— сумма квадратов общая
Условия применения линейной регрессии с одним предиктором
Линейная взаимосвязь и
Нормальное распределение остатков
Регрессионный анализ с несколькими независимыми переменными
Множественная регрессия (Multiple Regression)
Множественная регрессия позволяет исследовать влияние сразу нескольких независимых переменных на одну зависимую.
Требования к данным
линейная зависимость переменных
нормальное распределение остатков
проверка на мультиколлинеарность
нормальное распределение переменных (желательно)