Что значит статистически значимый
Статистическая значимость
Статистическая значимость часто применяется в маркетинге. С ее помощью определяют правильность выдвинутых предположений и вероятность их результатов. Она позволяет сделать выбор среди представленных теорий, что приводит к получению отличных результатов на практике.
Что такое статистическая значимость
Суть статистической значимости состоит в определении того, существует ли реальное основание в разнице между выбранными для исследования показателями, или это случайность? С данным понятием тесно связаны «нулевая» и «альтернативная» гипотезы.
Для лучшего понимания термина «статистическая значимость» необходимо понять, что такое «проверка гипотез». Эти два термина тесно взаимосвязаны.
Гипотеза иначе называется теорией. После окончания ее разработки требуется установить порядок по сбору достаточного количества доказательств этой теории и собрать их. Существует два типа гипотез: нулевая и альтернативная.
Нулевая гипотеза представляет собой теорию, которая гласит, что внесение коррективов ничего не поменяет, то есть сравниваемые объекты равнозначны в своих свойствах и нет смысла что-либо менять. Суть исследования заключается в опровержении гипотезы.
Альтернативная (исследовательская) гипотеза подразумевает сравнение, в результате которого один объект показывает себя эффективнее, чем другой.
Статистическая значимость как количественный показатель требует оценки. Оценка проходит поэтапно.
Постановка эксперимента
Все начинается с формулировки гипотезы. При этом должно быть выдвижение и нулевой, и альтернативной гипотезы. Придется сравнивать два набора данных для выяснения схожести и отличий. Эти утверждения требуют подтверждения с помощью экспериментальных данных.
Данный уровень представляет собой порог статистической значимости, который каждый устанавливает сам. Этот уровень носит название displaystyle \alpha >\alpha – уровня. Чаще всего, устанавливают значение в 0,05. Вероятность найти разницу составляет 5%. Чем выше уровень, тем достовернее результаты.
Когда нужна максимальная достоверность, стоит снизить значение с 0,05 до 0,01. Чаще всего, такие показатели применяют в производстве для выявления брака. Однако для большинства экспериментов достаточно значения в 0,05.
Решение об используемом критерии
После установки уровня требуется определить, какой критерий использовать: одно- или двусторонний. Здесь стоит опираться на t-критерии Стьюдента. Они показывают, насколько нормально распределены данные. Графически они представлены в виде колоколообразной кривой. Большее количество результатов расположено в середине.
Критерий Стьюдента позволяет математически проверить расположены ли данные в установленных пределах или же выпадают из нормального распределения.
Двусторонний критерий нужен, когда нет уверенности в том, что показатели находятся выше или ниже установленной нормы распределения.
Когда есть точная уверенность, в каком направлении может наблюдаться выход за пределы нормы, нужно использовать односторонний критерий.
Определение объема выборки
Здесь потребуется статистическая мощность. Она представляет собой вероятность, что при выбранном объеме будет получен ожидаемый результат. Распространенный порог — 80%. Для анализа можно использовать специальные онлайн-калькуляторы. Это позволит определить оптимальный объем выборки.
Часто проводят пробное исследование, которое позволяет получить данные для анализа и установить объем выборки. Когда такой возможности нет, стоит поискать в тематической литературе усредненные значения.
Вычисление стандартного отклонения
Стандартное отклонение показывает величину разброса данных. Оно позволяет сделать выбор о близости или отдаленности данных. Их вычисляют по следующей формуле: s = √∑((xi – µ)2/(N – 1)).
s — стандартное отклонение;
∑ указывает на необходимость суммировать полученные данные по выборке;
xi соответствует значению i, то есть отдельному полученному результату;
µ — это среднее значение для данной группы;
N — общее число данных в выборке.
Теперь потребуется отыскать среднее значение для каждой группы. Для этого суммируют средние значения каждой группы и делят на объем выборки.
Далее необходимо определить разницу (xi – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение.
Теперь каждую полученную величину умножают на саму себя или возводят во вторую степень и суммируют величины. После этой операции не должно остаться отрицательных значений.
Следующий шаг — деление объема минус один. Делят полученную в предыдущем шаге сумму на величину, полученную от вычитания единицы. После этого извлекают квадратный корень из величины. Это и будет нужная величина стандартного отклонения.
Определение значимости
Для определения значимости потребуется взять две группы данных. Для последней вычисляют стандартное отклонение, после чего вычисляют дисперсию между обеими группами по формуле:
sd — дисперсия между двумя группами;
s1 — стандартное отклонение в группе 1, N1 — объем выборки в группе 1;
s2 — стандартное отклонение в группе 2, N2 — объем выборки в группе 2.
Необходимо определить t-оценку показателей для перевода полученных данных в стандартизированную форму, которая позволить провести сравнение с другими данными. Эта оценка делает возможным проверку t-критерия, а также выяснение величины отличия одной группы от другой. Для определения t-оценки применяют формулу: t = (µ1 – µ2)/sd:
µ1 — среднее значение для первой группы;
µ2 — среднее значение для второй группы;
sd — дисперсия между двумя выборками.
Совет: первым используют большее среднее значение, чтобы итоговая величина не была отрицательной.
Далее требуется определить степень свободы выборки. Для этого вычисляют объем: суммируют объемы двух выборок и вычитают 2. Полученная величина станет окончательной. Ее оценивают по таблице значений критерия Стьюдента (t-критерия). Таблица представлена ниже.
Пользоваться представленной таблицей просто: находите строку в соответствии с полученной степенью свободы и определяете соответствующее t-оценке Р-значение.
Например, при степени свободы 8 и t-оценке 2,61 Р-значение для одностороннего критерия попадает между 0,01 и 0,025. При выбранном показателе в 0,05 эти данные попадают в категорию «статистически значимые». Это помогает сделать выбор в пользу альтернативной гипотезы и отказаться от нулевой.
Заключение
Определение статистической значимости помогает решать маркетинговые задачи и минимизировать риски. Такие расчеты часто проводятся при A/B тестированиях и помогают узнать, как будет вести себя клиент в будущем, окупится ли товар и т.д.
Статистическая значимость в экспериментах и анализе данных
Что именно имеют в виду ученые и исследователи, когда заявляют, что что-то является или не является статистически значимым? Как установить статистическую значимость и как ее интерпретировать?
Добро пожаловать в 11-ю часть серии статей о статистике в электротехнике. До сих пор мы рассматривали как высокоуровневые определения, так и конкретные примеры статистических концепций, полезных для инженера-практика. Чтобы узнать больше о том, что мы рассмотрели, ознакомьтесь со статьями, перечисленными в меню с оглавлением выше, над статьей.
Статистическая значимость: туманная концепция?
Любой, кто обычно читает исследовательские статьи, часто сталкивается со «статистической значимостью», часто сопровождаемой загадочной ссылкой на p Рисунок 1 – Если мы предполагаем, что нулевая гипотеза верна, мы часто будем использовать гауссову кривую в качестве функции плотности вероятности, с помощью которой мы решаем, является ли результат статистически значимым.
Порог вероятности
Статистическая значимость основана на вероятности получения результата при предположении, что нулевая гипотеза верна. Предположим, что в ходе нашего эксперимента мы получили число x (это может быть что угодно: артериальное давление, доход от продаж, средний балл теста).
Обращаясь к функции плотности вероятности, связанной с нулевой гипотезой, мы можем определить, будет ли вероятность получения x или какого-либо другого числа, которое более маловероятно, чем x, менее 5% (p Рисунок 2 – Гауссова кривая – это функция плотности вероятности, которая соответствует распределению значений, когда нулевая гипотеза верна. Мы вычисляем p-значение наблюдаемого результата путем интегрирования части этой функции плотности вероятности.
Если p-значение достаточно низкое, нет смысла продолжать предполагать, что между двумя переменными нет никакой связи. Таким образом, мы отвергаем нулевую гипотезу и утверждаем, что связь существует.
Интерпретация статистической значимости
Предыдущее объяснение описывает статистическую значимость способом, который я считаю наиболее простым и математически последовательным: если p-значение наблюдаемого результата меньше заранее определенного порога, который мы называем уровнем значимости, наблюдаемый результат очень маловероятен, если нулевая гипотеза верна. Поэтому, когда мы отвергаем нулевую гипотезу, это равносильно подтверждению того, что эксперимент обнаружил связь между интересующими переменными.
Это же общее сообщение можно передать другими способами, которые могут оказаться полезными:
Толкование слова «значимость»
Большая путаница в отношении статистической значимости возникает из-за использования слова «значимость», которое в данном контексте ограничивается конкретным статистическим использованием и не совпадает со словом «значимость» в обычном языке.
Статистически значимые результаты не обязательно являются важными или значимыми результатами. Статистическая значимость не означает практической значимости, а также отсутствие статистической значимости не означает, что экспериментальные результаты не имеют практической ценности.
Уровень значимости
Чтобы установить статистическую значимость, мы должны сравнить p-значение с уровнем значимости, обозначенным как ⍺. Уровни значимости в некоторой степени произвольны и выбираются в соответствии с условиями заданной области. Как было указано выше, часто используются ⍺ = 0,05 и ⍺ = 0,01, хотя в некоторых случаях выбирается более высокое или гораздо более низкое значение.
Заключение
Несмотря на возможное неправильное использование статистической значимости и доказательства широко распространенной неверной интерпретации, она остается важным методом в исследованиях и экспериментах. Мы продолжим изучение этой темы в следующей статье.
Статистическая значимость
В статистике величину называют статисти́чески зна́чимой, если мала вероятность её случайного возникновения или еще более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль-гипотезы. Разница называется «статистически значимой», если появление имеющихся данных (или еще более крайних данных) было бы маловероятно, если предположить, что эта разница отсутствует; это выражение не означает, что данная разница должна быть велика, важна, или значима в общем смысле этого слова.
Уровень значимости теста — вероятность отклонить нулевую гипотезу, если на самом деле нулевая гипотеза верна (решение известное как ошибка первого рода, или ложноположительное решение). Процесс решения часто опирается на p-величину (читается «пи-величина»). p-величина — собственно накопленная вероятность наблюдения уровня статистического критерия (насчитанного по выборке) при принятии нулевой гипотезы. Если p-величина меньше выбранного аналитиком критического уровня накопленной вероятности, то нулевая гипотеза отвергается. Так, событие с накопленной вероятностью 0,05 можно признать маловероятным (в одном испытании). Чем меньше p-величина, тем меньше вероятность нулевой гипотезы и значима тестовая статистика. Чем меньше p-величина, тем сильнее основания отвергнуть нулевую гипотезу. это традиционное понятие проверки гипотез в частотной статистике. Уровень значимости обыкновенно обозначают греческой буквой α (альфа). Популярными уровнями значимости являются 10 %, 5 %, 1 %, и 0,1 %. Если тест выдаёт p-величину меньше α-уровня, то нулевая гипотеза отклоняется. Такие результаты называют «статистически значимыми». Например, если кто-то говорит, что «шансы того, что случившееся является совпадением, равны одному из тысячи», то имеется в виду 0,1 % уровень значимости.
Различные значения α-уровня имеют свои достоинства и недостатки. Меньшие α-уровни дают бо́льшую уверенность в том, что уже установленная альтернативная гипотеза значима, но при этом есть больший риск не отвергнуть ложную нулевую гипотезу (ошибка второго рода, или «ложноотрицательное решение»), и таким образом меньшая статистическая мощность. Выбор α-уровня неизбежно требует компромисса между значимостью и мощностью, и следовательно между вероятностями ошибок первого и второго рода.
В отечественных научных работах часто употребляется неправильный термин «достоверность» вместо термина «статистическая значимость». [источник не указан 204 дня]
См. также
Примечания
Литература
George Casella, Roger L. Berger Hypothesis Testing // Statistical Inference. — Second Edition. — Pacific Grove, CA: Duxbury, 2002. — С. 397. — 660 с. — ISBN 0-534-24312-6
Ссылки
Статистические показатели | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Описательная статистика |
| ||||||||||||
Статистический вывод и проверка гипотез |
| ||||||||||||
Корреляция | Коэффициент корреляции Пирсона · Ранг корреляций (Коэффициент Спирмана для ранга корреляций, Коэффициент тау Кендалла для ранга корреляций) · Переменная смешивания | ||||||||||||
Линейные модели | Основная линейная модель · Обобщённая линейная модель · Анализ вариаций · Ковариационный анализ | ||||||||||||
Регрессия | Линейная · Нелинейная · Непараметрическая регрессия · Полупараметрическая регрессия · Логистическая регрессия |
Полезное
Смотреть что такое «Статистическая значимость» в других словарях:
СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ — см. ЗНАЧИМОСТЬ СТАТИСТИЧЕСКАЯ. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии
Статистическая значимость — (stayistical significance) – определение вероятности того, что данные исследования отражают естественные соотношения и не связаны с экспериментальными манипуляциями … Энциклопедический словарь по психологии и педагогике
СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ — Степень, в которой является маловероятным то, что полученный результат был бы получен, если бы действовали только случайные факторы и, следовательно, степень, в которой это может быть приписано систематическим влияниям. Сама эта степень обычно… … Толковый словарь по психологии
СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ — (STATISTICAL SIGNIFICANCE) См.: Значимости проверка … Социологический словарь
Статистическая значимость — (statistical significance) определение вероятности того, что данные исследования получены случайно, а не в результате экспериментальных манипуляций … Общая психология: глоссарий
Статистическая значимость результата (p-уровень) — оцененная мера уверенности в истинности результата представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p уровень = 0,05 (т.е. 1/20) показывает, что имеется 5% вероятность, что… … Официальная терминология
Статистическая значимость (statistical significance) — Исследователи часто используют статистические критерии для оценки получаемых результатов. Эти критерии позволяют исследователю оценить вероятность того, что такие результаты могли появиться чисто случайно. Термин С. з. употребляется как раз в… … Психологическая энциклопедия
Статистическая физика — Статистическая физика … Википедия
Значимость — В Викисловаре есть статья «значимость» Значимость важность, значительность чего либо. Значимость наличие значения, смысла. Статистическая значимость в статистике: мера уверенности в неслучайности полученной величины. Значимость… … Википедия
Статистическая значимость
Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.
Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.
Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.
Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.
Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.
Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.
Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.