Что относится к стратифицированным показателям
Стратификация, или как научиться доверять данным
Посмотрите на эти два набора точек и подумайте: какой из них вам кажется более «случайным»? Распределение на левом рисунке явно неравномерно. Есть места, в которых точки сгущаются, а есть и такие, в которых точек почти нет: из-за этого даже может показаться, что левый график более тёмный. На правом рисунке локальные сгущения и разрежения тоже присутствуют, но меньше бросаются в глаза.
Меж тем, именно левый график получен при помощи «честного» генератора случайных чисел. Правый график тоже содержит сплошь случайные точки; но эти точки сгенерированы так, чтобы все маленькие квадраты содержали равное количество точек.
Стратификация — метод выбора подмножества объектов из генеральной совокупности, разбитой на подмножества (страты). При стратификации объекты выбираются таким образом, чтобы итоговая выборка сохраняла соотношения размеров страт (либо контролируемо нарушала эти соотношения, см. пункт 3). Скажем, в рассмотренном примере генеральная совокупность — точки внутри единичного квадрата; стратами являются наборы точек внутри квадратов меньшего размера.
1. Простой пример: вычисление площади фигуры
Для начала, чтобы продемонстрировать мощь стратификации, я использую сгенерированные во введении наборы точек для вычисления площади закрашенной фигуры — четверти круга с радиусом, равным 0.4. Случайные точки будут бросаться внутрь единичного квадрата и увеличивать счётчик при попадании внутрь круга. Отношение полученного числа к общему числу бросков будет оценкой площади фигуры по методу Монте-Карло.
Простейший (нестратифицированный) способ генерации случайных точек для этой задачи можно реализовать так:
Стратификацию можно реализовать разными способами, я выбрал следующий: все маленькие квадратики пронумерованы, и при генерации очередная точка попадает в квадратик со следующим номером; номера зациклены. Этот метод работает хорошо только если общее число точек кратно числу страт, но, к счастью, в данном случае так и есть.
Теперь будем генерировать наборы точек многократно и проследим за невязкой — величиной отклонения полученной оценки площади от истинного значения. Код для простого алгоритма находится здесь, а для стратифицированного — здесь.
Видно, что оценка, полученная стратифицированным методом, выигрывает по точности и имеет меньшую дисперсию.
В этот момент вы можете возразить, что нужно было просто взять регулярную сетку и таким образом сделать дисперсию равной нулю. Однако такая оценка не была бы несмещённой! К тому же рассматриваемая задача является модельной, а на множестве людей или, скажем, поисковых запросов никакой регулярной сеткой воспользоваться не удастся.
2. Кросс-валидация
Следующие примеры относится к области машинного обучения.
Ситуация первая: в задаче существуют объективные зависимости, которые нужно учитывать для адекватной оценки качества моделей. Например, в задачах кластеризации функция близости двух объектов может зависеть от размера кластера, и нужно добиваться равномерного распределения размеров кластеров между обучающими и тестовыми выборками. Если этого не делать, оценки качества будут заниженными.
Ситуация вторая: нестационарный характер восстанавливаемых зависимостей, т.е. их изменчивость во времени. Так, предсказание посещаемости торговых центров существенно зависит от того, является ли выбранный день выходным. Для получения адекватных оценок обобщающей способности все дни в обучающей выборке должны предшествовать дням, входящим в тестовую выборку. Если этого не делать, оценки качества будут завышены, как правило — чрезвычайно сильно.
Продемонстрирую стратификацию на модельной задаче первого типа. Рассмотрим такую зависимость:
Пусть эта зависимость приближается одномерной линейной моделью. Лишь небольшая часть примеров отклоняется от простого линейного приближения, и именно эти примеры будут давать основной вклад в величину ошибки модели. По существу, чем больше таких «выбросов» попадёт в тестовую выборку, тем меньше их окажется в обучающей выборке, тем выше будет ошибка на тестовой выборке. Можно даже сказать, что измерению всякий раз подвергается не метод обучения, а степень равномерности распределения выбросов между обучающей и тестовой выборками!
Генерацию выборки, обучение одномерной линейной модели, многократный процесс кросс-валидации, в т.ч. стратифицированной, а также построение вариационных рядов я реализовал вот так. Не буду сейчас вдаваться в детали реализации (тем более что она не слишком аккуратна), а сразу приведу графики вариационных рядов полученных оценок:
Действительно, без стратификации оценки имеют большую дисперсию и, кроме того, занижены. Нужно, однако, понимать, что стратифицированная оценка будет корректной только в том случае, если доля выбросов в выборке репрезентативна доле выбросов в генеральной совокупности.
3. Немного математики
Методы стратификации часто используются в онлайн-экспериментах, это достаточно естественно для веб-сервисов: поведение пользователей зависит от характеристик устройств, операционных систем, версий браузеров, характеристик самих пользователей и так далее. Поэтому без стратификации в A/B-тестах легко столкнуться с тем, что, скажем, доля мобильных пользователей в разбиениях различается на 0.5% и интегральные метрики измеряют эффект от этого перекоса, а не от вносимого изменения.
Стратифицированный подход в данном случае предписывает разбивать наблюдения на страты (по версиям устройств, ОС, браузеров и т.д.), вычислять метрики внутри страт, взвешивать их сообразно размерам этих страт и таким образом получать значения интегральных показателей.
Классической работой в этой области является статья Online Stratified Sampling: Evaluating Classifiers at Web-Scale от Microsoft Research, которую я решительно рекомендую к прочтению.
В общем случае будем считать, что дана генеральная совокупность размера , из которой выбираются без повторений представителей для оценки вероятности принадлежности элемента совокупности некоторому классу .
Генеральная совокупность разбита на непересекающихся подмножеств — страт. Внутри -й страты размера возможно вычислить оценку вероятности принадлежности элемента страты классу . Тогда стратифицированная оценка вероятности будет вычисляться как
Дисперсия этой величины благодаря независимости выборов внутри каждой из страт вычисляется просто:
Интересно, что для минимизации дисперсии требуется семплить из страт непропорционально их размерам!
Если выбираются объектов из генеральной совокупности, количество объектов из -й страты для минимизации дисперсии оказывается пропорциональным произведению размера страты на стандартное отклонение величины внутри этой страты:
Единственная сложность здесь в том, что для осуществления оптимального семплинга нужно заранее знать дисперсии внутри страт. Впрочем, на практике они часто известны с достаточной точностью.
Теперь понятно, что делать с систематическими смещениями в данных: их можно нивелировать стратификацией и последующим перевзвешиванием. Например, если в данных существенно смещены социально-демографические показатели, можно стратифицировать именно по ним, а веса страт взять из соответствующей официальной статистики.
Заключение и прагматика
При работе с данными, так же как и при социологических исследованиях, потребность в качественной стратификации может быть чрезвычайной. При анализе логов веб-панелей типа SimilarWeb или Alexa можно получить некорректные результаты из-за нерепрезентативности множества пользователей, поставивших себе расширение. Клиентские части сервисов теряют часть информации при логировании, причём чаще для пользователей со слабыми сетевыми соединениями. Подобного рода ошибки могут портить аналитику и, в конечном счёте, приводить к неверным решениям в развитии продуктов и бизнеса.
Всякий раз при обработке очередного набора данных полезно спросить себя: репрезентативен ли он? Не нужно ли его дополнительно стратифицировать и перевзвесить? Что известно о его происхождении и возможных искажениях?
Если ответов нет или они неудовлетворительны — очень может быть, что данные вас обманут.
Анализ стратифицированных данных
Стратификация является единственным способом исследования и контроля значений других, помимо экспозиции и заболевания, переменных при анализе данных. Под стратификацией понимают деление данных на подгруппы, или страты. Например, стратификация по полу или возрасту означает, что данные классифицируются по мужчинам и женщинам или по категориям возраста. В разделе «Показатели для сравнения частоты заболевания» содержится раздел о стандартизации, в котором в качестве примера приводится стандартизация по возрасту. Процедура стандартизации является одним из типов стратифицированного анализа.
Основной целью стратифицированного анализа является оценка и при необходимости контроль мешающих факторов. Смешивание возникает, когда какая-либо причина помимо исследуемой экспозиции является более распространенной в экспонированной группе, чем в неэкспонированной. При стратификации данных по мешающему фактору, например, на мужчин и женщин, каждая страта окажется свободной от смешивающего эффекта стратифицированной переменной. То есть, если связь между экспозицией и заболеванием анализируется отдельно, скажем, у мужчин и женщин, каждая из двух страт по полу даст оценку эффекта экспозиции, свободную от мешающего фактора пола. Такие стратифицированные результаты часто сообщаются не отдельно, а объединяются в один результат. Примером этого служит стандартизация по возрасту в том же разделе, где контролируется таким образом смещение со стороны возраста.
Еще одной целью проведения стратифицированного анализа является анализ модификации эффекта. Модификация эффекта означает, что эффект экспозиции в одних стратах сильнее, чем в других. Если, например, относительный риск заболевания в связи с экспозицией составляет 2 для женщин и 3 для мужчин, пол будет модифицировать это влияние и являться, таким образом, модификатором эффекта.
Основной принцип использования стратификации для контроля смешивания будет проиллюстрирован на двух примерах: из когортного исследования и из исследования случай-контроль.
Примите к сведению
Изготовление светодиодных табло. Информационное светодиодное табло ra86.ru.
Информация на этом сайте представлена в справочных и образовательных целях и не должна быть использована как инструкция по лечению. В любых случаях необходимо консультироваться у врача.
Стратифицированная выборка
Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки.
Формально, выбор элементов из каждого слоя может осуществляться только с помощью SRS. Однако на практике иногда применяется систематический отбор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя.
Главная задача стратифицированной выборки — увеличение точности без увеличения затрат.
Переменные, используемые для деления совокупности на слои, называются стратификационными переменными.
Критерии для их выбора: однородность, неоднородность, взаимосвязанность и стоимость.
Элементы, относящиеся к одному слою, должны быть как можно более однородными, а относящиеся к разным слоям — наоборот, как можно более разнородными.
Кроме того, стратификационные переменные должны быть тесно связаны с исследуемой характеристикой. Чем больше переменные соответствуют этим критериям, тем эффективнее уменьшение нежелательных отклонений в выборке. В конце концов, переменные должны снижать стоимость процесса расслоения, будучи простыми в оценке и применении. Как правило, для стратификации используют такие переменные, как демографические характеристики (как показано на примере квотной выборки), разновидность покупателя (владельцы кредитной карточки или те, кто ее не имеет), величина фирмы или отрасль промышленности.
Для стратификации можно использовать несколько переменных, однако больше двух применяют редко, поскольку это непрактично и экономически неоправданно. Несмотря на то, что количество слоев в расслоенной выборке остается предметом спора, опыт показывает, что использовать нужно не больше шести. При использовании больше шести слоев любое повышение точности сводится на нет увеличением стоимости расслоения и отбора.
Другое важное решение связано с использованием пропорциональной или непропорциональной выборки.
При пропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности.
При непропорциональном стратификационном отборе объем выборки, полученной из каждого слоя, пропорционален доле этого слоя в объеме генеральной совокупности и среднеквадратичному отклонению распределения исследуемой характеристики среди всех элементов этого слоя.
Логика непропорциональной выборки проста.
Во-первых, слои относительно большего размера больше влияют на определение средней для генеральной совокупности. Следовательно, эти слои больше влияют на формирование результатов выборочного наблюдения. Таким образом, слои должны быть представлены большим количеством элементов.
Во-вторых, для повышения точности оценки следует отбирать больше элементов из слоев с большим среднеквадратичным отклонением, и меньше элементов — из слоев с меньшим среднеквадратичным отклонением. (Если все элементы слоя идентичны, выборка, состоящая из одного элемента, обеспечит получение полной информации.) Обратите внимание, что эти методы идентичны при условии, что исследуемая характеристика имеет одно и то же среднеквадратичное отклонение в каждом слое.
При применении непропорционального отбора необходимо рассчитать среднеквадратичное отклонение распределения исследуемой характеристики среди элементов слоя. Поскольку эта информация не всегда доступна, исследователю часто приходится полагаться на интуицию и логику, определяя объем выборки для каждого слоя. Например, в крупных розничных магазинах можно ожидать большего отклонения в объемах продаж некоторых продуктов, чем в небольших магазинах. Поэтому крупные магазины представлены в выборке непропорционально большим количеством элементов. Когда исследователя в первую очередь интересует выявление различий между слоями, обычно создают одинаковые по объему выборки из каждого слоя.
Стратификационный метод обеспечивает наличие в выборке всех важных подгрупп. Это особенно важно, если исследуемая характеристика неравномерно распределена среди элементов генеральной совокупности. Например, распределение дохода семей неравномерно, так как годовой доход большинства семей составляет меньше 50 тысяч долларов, и лишь немногие семьи имеют годовой доход, равный 125 тысяч долларов и выше. Если применить простую случайную выборку, семьи с доходом 125 тысяч долларов и выше могут не быть адекватно представлены. Стратифицированная выборка позволяет обеспечить соответствующее количество таких семей в выборке. Она сочетает в себе простоту метода SRS с возможностью повышения точности. Поэтому данный метод формирования выборки весьма популярен.
Расчет характеристик стратифицированной выборки
Характеристики такой выборки рассчитываются как «взвешенные» величины: показатели по каждой страте комбинируются в общую среднюю; вклад групповых средних пропорционален «весу» каждой страты в выборочной или генеральной совокупности.
Это записывается следующим образом: s= sx 2 + s 2 i (7)
Расчет средней ошибки при отборе, пропорциональном численности единиц в стратах, производится по формуле
или, если пренебречь отношением n/N,
Из соотношения для средней ошибки (7) следует, что ошибка стратифицированной выборки меньше средней ошибки чисто случайной выборки либо равна ей, когда межгрупповая дисперсия равна нулю.
Пример. Предположим, что выборка содержит 5 страт (группы семей по среднему доходу 6 ). Необходимо определить величину расходов на годовую, подписку. Из каждой 2-й страты взяты по две семьи (объем выборки n = 10, см. табл. 19).
Таким образом, как видно из рассмотренного примера, стратифицированная выборка при прочих равных условиях дает более точные результаты.
5. 5.Многоступенчатые и комбинированные способы, формирования выборочной совокупности
Выборка может строиться как одно или многоступенчатая. При многоступенчатом отборе на каждой ступени меняется единица отбора. Например, на первой ступени производится отбор промышленных предприятий, на второй — отбор бригад на предприятиях, попавших в выборку на первой ступени, на третьей — отбор рабочих из бригад, попавших в выборку на второй ступени отбора, и т. д.
Необходимость многоступенчатого отбора вызвана, как правило, отсутствием информации о всех единицах генеральной совокупности. При многоступенчатом отборе для организации первой ступени необходимо иметь информацию о распределении’ того или иного признака по всей совокупности единиц отбора первой ступени. Для организации второй ступени нужна уже только информация об отобранных единицах первой ступени.
На первой ступени, как правило, используется случайный отбор, а, начиная со второй ступени случайно отбирается количество единиц, пропорциональное размеру соответствующей единицы предыдущей ступени и т. д.
Доли отбора на каждой ступени комбинируются таким образом, чтобы в целом доля отбора выборки обеспечивала всем единицам генеральной совокупности равные шансы попасть в выборку.
Пропорциональный способ организации многоступенчатой выборки имеет определенные неудобства. Социолог, с одной стороны, уменьшает объем выборки в целях экономии средств и сокращения сроков проведения исследования, а с другой,— соблюдая принцип пропорциональности, он может получить очень малочисленные группировки по отдельным факторам, которые окажутся недостаточными для статистического анализа.
Существует несколько способов формирования многоступенчатых выборок.
Для примера рассмотрим способ организации двухступенчатой выборки, отбор единиц которой на первой ступени осуществляется с вероятностью, пропорциональной размеру. Воспользуемся для примера условиями и задачами организации выборки в известном исследовании ленинградских социологов.
Единицы первой ступени отбора — предприятия города.
Составляется полный список единиц наблюдений первой ступени отбора — промышленных предприятий и численности молодых рабочих на каждом из них. Генеральная совокупность включала 50 таких предприятий.
Единицы отбора ранжируются по численности рабочих, выделенных в качестве единиц наблюдения принимается решение о включении в выборку определенного числа заводов, например пяти. По таблице случайных чисел выбирается чисел (М1, М2, М3, М4 и М5)между N1 и N (общей кумулированной численностью рабочих в генеральной совокупности). В выборку включаются те предприятия, чьи номера оказались в той же строке (j), которая соответствует кумуляте, содержащей одно из чисел Мk k=1/5 т. е. i = f, если N1+N2+…+Nj-1
Вторая ступень отбора реализуется следующим образом. На каждом предприятии, включенном в выборку; выбирается одно и то же число рабочих (единиц второй ступени отбора). Далее отбор может быть случайным или систематическим.
Ошибка многоступенчатой выборки (на примере двухступенчатой выборки). При многоступенчатом отборе (начиная с двухступенчатого) следует учитывать специфику расчета ошибки выборки. Каждая ступень отбора делает свой «вклад» в отклонение находимых оценок от истинных значений характеристик в генеральной совокупности.
Для достаточно большого объема выборки существуют упрощенные формулы расчета средней ошибки.
где s 2 1 —дисперсия единиц первой ступени отбора и n 1 —их численность; n 2 2 —дисперсия единиц второй ступени отбора и n 2 — их численность в составе единиц первой ступени отбора в выборке.
Упрощенность этой формулы состоит в том, что внутригрупповые дисперсии рассчитываются внутри каждой единицы первой ступени после отбора из нее единиц второй ступени. Здесь указана «невзвешенная» средняя из квадратов ошибок по всей сумме единиц второй ступени (n 2 ). Это второй источник случайных ошибок.