Что относится к стратифицированным показателям

Стратификация, или как научиться доверять данным

Посмотрите на эти два набора точек и подумайте: какой из них вам кажется более «случайным»? Распределение на левом рисунке явно неравномерно. Есть места, в которых точки сгущаются, а есть и такие, в которых точек почти нет: из-за этого даже может показаться, что левый график более тёмный. На правом рисунке локальные сгущения и разрежения тоже присутствуют, но меньше бросаются в глаза.

Что относится к стратифицированным показателям

Меж тем, именно левый график получен при помощи «честного» генератора случайных чисел. Правый график тоже содержит сплошь случайные точки; но эти точки сгенерированы так, чтобы все маленькие квадраты содержали равное количество точек.

Стратификация — метод выбора подмножества объектов из генеральной совокупности, разбитой на подмножества (страты). При стратификации объекты выбираются таким образом, чтобы итоговая выборка сохраняла соотношения размеров страт (либо контролируемо нарушала эти соотношения, см. пункт 3). Скажем, в рассмотренном примере генеральная совокупность — точки внутри единичного квадрата; стратами являются наборы точек внутри квадратов меньшего размера.

1. Простой пример: вычисление площади фигуры

Что относится к стратифицированным показателям

Для начала, чтобы продемонстрировать мощь стратификации, я использую сгенерированные во введении наборы точек для вычисления площади закрашенной фигуры — четверти круга с радиусом, равным 0.4. Случайные точки будут бросаться внутрь единичного квадрата и увеличивать счётчик при попадании внутрь круга. Отношение полученного числа к общему числу бросков будет оценкой площади фигуры по методу Монте-Карло.

Что относится к стратифицированным показателям

Простейший (нестратифицированный) способ генерации случайных точек для этой задачи можно реализовать так:

Стратификацию можно реализовать разными способами, я выбрал следующий: все маленькие квадратики пронумерованы, и при генерации очередная точка попадает в квадратик со следующим номером; номера зациклены. Этот метод работает хорошо только если общее число точек кратно числу страт, но, к счастью, в данном случае так и есть.

Теперь будем генерировать наборы точек многократно и проследим за невязкой — величиной отклонения полученной оценки площади от истинного значения. Код для простого алгоритма находится здесь, а для стратифицированного — здесь.

Что относится к стратифицированным показателям

Видно, что оценка, полученная стратифицированным методом, выигрывает по точности и имеет меньшую дисперсию.

В этот момент вы можете возразить, что нужно было просто взять регулярную сетку и таким образом сделать дисперсию равной нулю. Однако такая оценка не была бы несмещённой! К тому же рассматриваемая задача является модельной, а на множестве людей или, скажем, поисковых запросов никакой регулярной сеткой воспользоваться не удастся.

2. Кросс-валидация

Следующие примеры относится к области машинного обучения.

Ситуация первая: в задаче существуют объективные зависимости, которые нужно учитывать для адекватной оценки качества моделей. Например, в задачах кластеризации функция близости двух объектов может зависеть от размера кластера, и нужно добиваться равномерного распределения размеров кластеров между обучающими и тестовыми выборками. Если этого не делать, оценки качества будут заниженными.

Ситуация вторая: нестационарный характер восстанавливаемых зависимостей, т.е. их изменчивость во времени. Так, предсказание посещаемости торговых центров существенно зависит от того, является ли выбранный день выходным. Для получения адекватных оценок обобщающей способности все дни в обучающей выборке должны предшествовать дням, входящим в тестовую выборку. Если этого не делать, оценки качества будут завышены, как правило — чрезвычайно сильно.

Продемонстрирую стратификацию на модельной задаче первого типа. Рассмотрим такую зависимость:

Что относится к стратифицированным показателям

Пусть эта зависимость приближается одномерной линейной моделью. Лишь небольшая часть примеров отклоняется от простого линейного приближения, и именно эти примеры будут давать основной вклад в величину ошибки модели. По существу, чем больше таких «выбросов» попадёт в тестовую выборку, тем меньше их окажется в обучающей выборке, тем выше будет ошибка на тестовой выборке. Можно даже сказать, что измерению всякий раз подвергается не метод обучения, а степень равномерности распределения выбросов между обучающей и тестовой выборками!

Генерацию выборки, обучение одномерной линейной модели, многократный процесс кросс-валидации, в т.ч. стратифицированной, а также построение вариационных рядов я реализовал вот так. Не буду сейчас вдаваться в детали реализации (тем более что она не слишком аккуратна), а сразу приведу графики вариационных рядов полученных оценок:

Что относится к стратифицированным показателям

Действительно, без стратификации оценки имеют большую дисперсию и, кроме того, занижены. Нужно, однако, понимать, что стратифицированная оценка будет корректной только в том случае, если доля выбросов в выборке репрезентативна доле выбросов в генеральной совокупности.

3. Немного математики

Методы стратификации часто используются в онлайн-экспериментах, это достаточно естественно для веб-сервисов: поведение пользователей зависит от характеристик устройств, операционных систем, версий браузеров, характеристик самих пользователей и так далее. Поэтому без стратификации в A/B-тестах легко столкнуться с тем, что, скажем, доля мобильных пользователей в разбиениях различается на 0.5% и интегральные метрики измеряют эффект от этого перекоса, а не от вносимого изменения.

Стратифицированный подход в данном случае предписывает разбивать наблюдения на страты (по версиям устройств, ОС, браузеров и т.д.), вычислять метрики внутри страт, взвешивать их сообразно размерам этих страт и таким образом получать значения интегральных показателей.

Классической работой в этой области является статья Online Stratified Sampling: Evaluating Classifiers at Web-Scale от Microsoft Research, которую я решительно рекомендую к прочтению.

В общем случае будем считать, что дана генеральная совокупность размера Что относится к стратифицированным показателям, из которой выбираются без повторений Что относится к стратифицированным показателямпредставителей для оценки вероятности Что относится к стратифицированным показателямпринадлежности элемента совокупности некоторому классу Что относится к стратифицированным показателям.

Генеральная совокупность разбита на Что относится к стратифицированным показателямнепересекающихся подмножеств — страт. Внутри Что относится к стратифицированным показателям-й страты размера Что относится к стратифицированным показателямвозможно вычислить оценку Что относится к стратифицированным показателямвероятности принадлежности элемента страты классу Что относится к стратифицированным показателям. Тогда стратифицированная оценка вероятности будет вычисляться как

Что относится к стратифицированным показателям

Дисперсия этой величины благодаря независимости выборов внутри каждой из страт вычисляется просто:

Что относится к стратифицированным показателям

Интересно, что для минимизации дисперсии требуется семплить из страт непропорционально их размерам!

Если выбираются Что относится к стратифицированным показателямобъектов из генеральной совокупности, количество Что относится к стратифицированным показателямобъектов из Что относится к стратифицированным показателям-й страты для минимизации дисперсии оказывается пропорциональным произведению размера страты на стандартное отклонение величины внутри этой страты:

Что относится к стратифицированным показателям

Единственная сложность здесь в том, что для осуществления оптимального семплинга нужно заранее знать дисперсии внутри страт. Впрочем, на практике они часто известны с достаточной точностью.

Теперь понятно, что делать с систематическими смещениями в данных: их можно нивелировать стратификацией и последующим перевзвешиванием. Например, если в данных существенно смещены социально-демографические показатели, можно стратифицировать именно по ним, а веса страт взять из соответствующей официальной статистики.

Заключение и прагматика

Что относится к стратифицированным показателям

При работе с данными, так же как и при социологических исследованиях, потребность в качественной стратификации может быть чрезвычайной. При анализе логов веб-панелей типа SimilarWeb или Alexa можно получить некорректные результаты из-за нерепрезентативности множества пользователей, поставивших себе расширение. Клиентские части сервисов теряют часть информации при логировании, причём чаще для пользователей со слабыми сетевыми соединениями. Подобного рода ошибки могут портить аналитику и, в конечном счёте, приводить к неверным решениям в развитии продуктов и бизнеса.

Всякий раз при обработке очередного набора данных полезно спросить себя: репрезентативен ли он? Не нужно ли его дополнительно стратифицировать и перевзвесить? Что известно о его происхождении и возможных искажениях?

Если ответов нет или они неудовлетворительны — очень может быть, что данные вас обманут.

Источник

Анализ стратифицированных данных

Стратификация является единственным способом исследования и контроля значений других, помимо экспозиции и заболевания, переменных при анализе данных. Под стратификацией понимают деление данных на подгруппы, или страты. Например, стратификация по полу или возрасту означает, что данные классифицируются по мужчинам и женщинам или по категориям возраста. В разделе «Показатели для сравнения частоты заболевания» содержится раздел о стандартизации, в котором в качестве примера приводится стандартизация по возрасту. Процедура стандартизации является одним из типов стратифицированного анализа.

Основной целью стратифицированного анализа является оценка и при необходимости контроль мешающих факторов. Смешивание возникает, когда какая-либо причина помимо исследуемой экспозиции является более распространенной в экспонированной группе, чем в неэкспонированной. При стратификации данных по мешающему фактору, например, на мужчин и женщин, каждая страта окажется свободной от смешивающего эффекта стратифицированной переменной. То есть, если связь между экспозицией и заболеванием анализируется отдельно, скажем, у мужчин и женщин, каждая из двух страт по полу даст оценку эффекта экспозиции, свободную от мешающего фактора пола. Такие стратифицированные результаты часто сообщаются не отдельно, а объединяются в один результат. Примером этого служит стандартизация по возрасту в том же разделе, где контролируется таким образом смещение со стороны возраста.

Еще одной целью проведения стратифицированного анализа является анализ модификации эффекта. Модификация эффекта означает, что эффект экспозиции в одних стратах сильнее, чем в других. Если, например, относительный риск заболевания в связи с экспозицией составляет 2 для женщин и 3 для мужчин, пол будет модифицировать это влияние и являться, таким образом, модификатором эффекта.

Основной принцип использования стратификации для контроля смешивания будет проиллюстрирован на двух примерах: из когортного исследования и из исследования случай-контроль.

Примите к сведению
Изготовление светодиодных табло. Информационное светодиодное табло ra86.ru.
Информация на этом сайте представлена в справочных и образовательных целях и не должна быть использована как инструкция по лечению. В любых случаях необходимо консультироваться у врача.

Источник

Стратифицированная выборка

Что относится к стратифицированным показателям Что относится к стратифицированным показателям Что относится к стратифицированным показателям Что относится к стратифицированным показателям

Что относится к стратифицированным показателям

Что относится к стратифицированным показателям

Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется ме­тод простой случайной выборки.

Формально, выбор элементов из каждого слоя может осущест­вляться только с помощью SRS. Однако на практике иногда применяется систематический от­бор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя.

Главная задача стратифицированной выборки — увели­чение точности без увеличения затрат.

Переменные, используемые для деления совокупности на слои, называются стратифика­ционными переменными.

Критерии для их выбора: однородность, неоднородность, взаимосвя­занность и стоимость.

Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям — наоборот, как можно более разнородными.

Кроме того, стратификационные переменные должны быть тесно связаны с исследуемой ха­рактеристикой. Чем больше переменные соответствуют этим критериям, тем эффективнее уменьшение нежелательных отклонений в выборке. В конце концов, переменные должны снижать стоимость процесса расслоения, будучи простыми в оценке и применении. Как правило, для стратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности.

Для стра­тификации можно использовать несколько переменных, однако больше двух применяют ред­ко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора.

Другое важное решение связано с использованием пропорциональной или непропорцио­нальной выборки.

При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности.

При непропорциональном стратификационном отборе объем выборки, полу­ченной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя.

Логика непропорциональной выборки проста.

Во-первых, слои относи­тельно большего размера больше влияют на определение средней для генеральной совокупно­сти. Следовательно, эти слои больше влияют на формирование результатов выборочного на­блюдения. Таким образом, слои должны быть представлены большим количеством элементов.

Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим сред­неквадратичным отклонением. (Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Обратите внимание, что эти ме­тоды идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквад­ратичное отклонение в каждом слое.

При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магази­нах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в не­больших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.

Что относится к стратифицированным показателям

Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие се­мьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую слу­чайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно пред­ставлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода SRS с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.

Источник

Расчет характеристик стратифицированной выборки

Что относится к стратифицированным показателям Что относится к стратифицированным показателям Что относится к стратифицированным показателям Что относится к стратифицированным показателям

Что относится к стратифицированным показателям

Что относится к стратифицированным показателям

Характери­стики такой выборки рассчитываются как «взвешенные» величины: показатели по каждой страте комбинируются в общую среднюю; вклад групповых средних пропорционален «весу» каждой страты в выборочной или генеральной совокупности.

Это записывается следующим образом: s= sx 2 + s 2 i (7)

Расчет средней ошибки при отборе, пропорциональном численности единиц в стратах, производится по формуле

Что относится к стратифицированным показателям

или, если пренебречь отношением n/N,

Что относится к стратифицированным показателям

Что относится к стратифицированным показателям

Из соотношения для средней ошибки (7) следует, что ошибка стратифицированной выборки меньше средней ошибки чисто слу­чайной выборки либо равна ей, когда межгрупповая дисперсия равна нулю.

Пример. Предположим, что выборка содержит 5 страт (группы семей по среднему доходу 6 ). Необходимо определить величину рас­ходов на годовую, подписку. Из каждой 2-й страты взяты по две семьи (объем выборки n = 10, см. табл. 19).

Что относится к стратифицированным показателям

Что относится к стратифицированным показателям

Таким образом, как видно из рассмотренного примера, страти­фицированная выборка при прочих равных условиях дает более точные результаты.

5. 5.Многоступенчатые и комбинированные способы, формирования выборочной совокупности

Выборка может строиться как одно или многоступенчатая. При многоступенчатом отборе на каждой ступени меняется единица отбора. Например, на первой ступени производится отбор промышленных предприятий, на второй — отбор бригад на предприя­тиях, попавших в выборку на первой ступени, на третьей — отбор рабочих из бригад, попавших в выборку на второй ступени отбора, и т. д.

Необходимость многоступенчатого отбора вызвана, как правило, отсутствием информации о всех единицах генеральной совокупности. При многоступенчатом отборе для организации первой ступени не­обходимо иметь информацию о распределении’ того или иного приз­нака по всей совокупности единиц отбора первой ступени. Для организации второй ступени нужна уже только информация об отобранных единицах первой ступени.

На первой ступени, как правило, используется случайный отбор, а, начиная со второй ступени случайно отбирается количество еди­ниц, пропорциональное размеру соответствующей единицы преды­дущей ступени и т. д.

Доли отбора на каждой ступени комбинируются таким образом, чтобы в целом доля отбора выборки обеспечивала всем единицам генеральной совокупности равные шансы попасть в выборку.

Пропорциональный способ организации многоступенчатой вы­борки имеет определенные неудобства. Социолог, с одной стороны, уменьшает объем выборки в целях экономии средств и сокращения сроков проведения исследования, а с другой,— соблюдая принцип пропорциональности, он может получить очень малочисленные группировки по отдельным факторам, которые окажутся недостаточ­ными для статистического анализа.

Существует несколько способов формирования многоступенчатых выборок.

Для примера рассмотрим способ организации двухступенчатой выборки, отбор единиц которой на первой ступени осуществляется с вероятностью, пропорциональной размеру. Воспользуемся для при­мера условиями и задачами организации выборки в известном ис­следовании ленинградских социологов.

Единицы первой ступени отбора — предприятия города.

Составляется полный список единиц наблюдений первой ступени отбора — промышленных предприятий и численности молодых рабочих на каждом из них. Генеральная совокупность включала 50 таких предприятий.

Что относится к стратифицированным показателям

Единицы отбора ранжируются по численности рабочих, выделенных в качестве единиц наблюдения принимается решение о вклю­чении в выборку определенного числа заводов, например пяти. По таблице случайных чисел выбирается чисел (М1, М2, М3, М4 и М5)между N1 и N (общей кумулированной численностью рабочих в генеральной совокупности). В выборку включаются те предприятия, чьи номера оказались в той же строке (j), которая соответствует кумуляте, содержащей одно из чисел Мk k=1/5 т. е. i = f, если N1+N2+…+Nj-1 Что относится к стратифицированным показателям

Вторая ступень отбора реализуется следующим образом. На каждом предприятии, включенном в выборку; выбирается одно и то же число рабочих (единиц второй ступени отбора). Далее отбор может быть случайным или систематическим.

Ошибка многоступенчатой выборки (на примере двухступенча­той выборки). При многоступенчатом отборе (начиная с двухсту­пенчатого) следует учитывать специфику расчета ошибки выборки. Каждая ступень отбора делает свой «вклад» в отклонение находи­мых оценок от истинных значений характеристик в генеральной совокупности.

Для достаточно большого объема выборки существуют упрощенные формулы расчета средней ошибки.

Что относится к стратифицированным показателям

где s 2 1 —дисперсия единиц первой ступени отбора и n 1 —их числен­ность; n 2 2 —дисперсия единиц второй ступени отбора и n 2 — их численность в составе единиц первой ступени отбора в выборке.

Упрощенность этой формулы состоит в том, что внутригрупповые дисперсии рассчитываются внутри каждой единицы первой ступени после отбора из нее единиц второй ступени. Здесь указана «невзвешенная» средняя из квадратов ошибок по всей сумме единиц второй ступени (n 2 ). Это второй источник случайных ошибок.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *