Что значит провести группировку
Что значит провести группировку
Тема3: Сводка и группировка статистических материалов.
3.1 Содержание и задача сводки. Этапы сводки.
3.2 Статистические группировки. Виды группировок.
3.3 Группировочные признаки и их выбор. Определение числа групп и величины интервала.
3.4 Вторичная группировка.
3.5 Ряды распределения. Их виды.
3.6 Статистические таблицы.
3.1 Содержание и задача сводки. Этапы сводки.
В результате статистического наблюдения получают материал, характеризующий отдельные единицы совокупности. Эти единицы обладают многочисленными признаками, поэтому невозможно использовать материал наблюдения для обобщающей характеристики статистической совокупности. Возникает необходимость специальной обработки статистических данных, т.е. сводки материалов наблюдения.
Сводка представляет собой комплекс последовательных действий по обобщению конкретных единичных данных, образующих совокупность в целях выявления типических черт и закономерностей, присущих изучаемому явлению в целом.
Задачи сводки:
1) Охарактеризовать исследуемую совокупность с помощью систем статистических показателей;
2) Выявить и измерить таким путем его существенные черты и особенности.
Эта задача решается на 3 этапах:
1этап. Осуществляется систематизация материалов, собранных при наблюдении.
2этап. Уточняется предусмотренная планом система показателей, с помощью которых количественно характеризуются свойства и особенности изучаемого предмета.
3этап. Проводятся расчеты, а затем рассчитанные показатели для наглядности представляются в таблицах, статистических рядах, графиках. К ним даются пояснения (делается анализ представленных данных).
3.2 Статистические группировки. Виды группировок.
Чаще всего простые итоговые данные сводки не удовлетворяют исследователя, т.к. дают лишь общее представление об изучаемом объекте. Поэтому далее проводят группировку полученных данных по отдельным признакам.
Группировка – это разделение множества единиц совокупности на однородные группы по определенным, существенным для них, признакам.
Как самостоятельный метод исследования она позволяет решить три основные задачи:
1) выделить социально-экономические типы; 2) изучить структуру однотипной совокупности; 3) обнаружить существенные связи и зависимость между признаками.
В соответствии с этими задачами группировки подразделяются на 3 вида: типологические, структурные и аналитичекие.
1) Типологические группировки – это разделение исследуемой совокупности на социально-экономические типы, однородные группы единиц в соответствии с правилами научного группировки. Например, группировка стран по их общественно-полическому устройству.
3) Аналитические группировки – позволяют установить и изучить связь между результативными и факторными признаками единиц однотипной совокупности.
Результативные признаки – это признаки, зависимые от других признаков ОПП=ЧР ГВ
Факторные признаки – это признаки, оказывающие влияние на другие признаки (численность рабочих, среднегодовая выработка).
Кроме того по степени сложности изучаемого массового явления и от задач анализа группировки могут производиться по одному признаку (простые группировки) или по нескольким признакам (комбинированные).
3.3 Группировочные признаки и их выбор. Определение числа групп и величины интервала.
Одним из важных элементов проведения статистических группировок является выбор группировочного признака. Группировочные признаки м.б. количественные (зарплата, возраст) и атрибутивные (т.е. не имеющие количественной меры – национальность, пол, профессии). Кроме того, по экономическому содержанию различают результативный и факторный признаки.
Результативные признаки – это признаки, зависимые от других признаков.
Факторные признаки – это признаки, оказывающие влияние на другие признаки.
При выборе группировочного признака и проведении статистических группировок необходимо руководствоваться следующими указаниями:
1) В основу типологической группировки д.б. положены наиболее существенные признаки.
2) При выделении социально-экономических типов нельзя ограничиваться только одним признаком. Необходимо брать целый комплекс существенных признаков.
3) Приёмы и способы группировки д. изменяться применительно к особенностям общественных явлений, к конкретным историческим условиям их развития.
После того, как выбран группировочный признак, определяется число групп во всей совокупности и величина интервала к каждой группе. На практике для определения числа групп используют графический и аналитический методы.
Рассмотрим аналитический метод, согласно которому число групп определяется по формуле Стерджесса:
n=1+3,322lgN
n – число групп
N – число единиц совокупности
h=(Xmax—Xmin)/n – величина интервала
Интервалы м.б. закрытые (имеют и нижние и верхние границы) открытые. Они применяются Толькой для первой и последней группировок.
Интервалы м.б. равными (ширина интервала во всех группах одна и та же) и неравные (разная ширина).
3.4 Вторичная группировка.
1) когда ранее проведенная группировка не удовлетворяет целям исследования в отношении числа групп;
2) для сравнения данных, относящихся к различным периодам времени или к разным территориям;
3) если первичная группировка была произведена по разным группировочным признакам или по разным интервалам.
Существует два способа проведения вторичной группировки:
1. объединение мелких групп в более крупные;
2. выделение определенной доли единиц совокупности.
3.5 Ряды распределения. Их виды.
Первичная обработка и систематизация материалов статистического наблюдения приводит к образованию упорядоченных рядов цифр.
Ряд цифровых показателей, представляющей распределение единиц совокупности по одному признаку в определенной последовательности называется рядом распределения. Ряды распределения, построенные по атрибутивному признаку, называются атрибутивными рядами распределения.
Ряды распределения, построенные по количественному признаку (варьирующему) называются вариационными рядами распределения.
Числовые значения количественного признака в вариационном ряду распределения называются вариантами и располагаются в определенной последовательности.
Варианты могут выражаться целыми числами и дробными, положительными и отрицательными, абсолютными и относительными. Пример, прибыль (+), убыток (-), % относит.
В вариационных рядах и в целом по всей совокупности выделяются три основных элемента:
Вариационные ряды подразделяются на дискретные и интервальные.
В дискретных вариационных рядах значение вариантов отличается друг от друга на определенную величину. Варианты дискретного ряда выражаются целыми числами. Например, число членов семьи.
16. Аналитическая группировка
До сих пор нам встречалась одна статическая совокупность, с которой можно сделать много хороших и полезных вещей, но, как вы понимаете, там, где одна, там и две, и три и больше совокупностей. Причём, одна совокупность может зависеть от другой. О подобных связях и пойдёт речь далее по курсу. Добро пожаловать в новую, ещё более яркую и интересную реальность!
И начнём мы с аналитической группировки – популярной и несложной задачи, которая встречается повсеместно, особенно её любят предлагать студентам-экономистам. На данном уроке вы узнаете, что такое аналитическая группировка и научитесь БЫСТРО выполнять это действие. Объяснять, как обычно, буду на конкретном примере:
…да, это уже задача предпенсионного возраста 🙂
Имеются выборочные данные о выпуске продукции и сумме прибыли (млн. руб.) по 30 предприятиям:
Задание для начинающих:
1) Методом аналитической группировки установите наличие и характер корреляционной связи между стоимостью произведенной продукции и суммой прибыли на одно предприятие (результаты оформите в виде групповой и аналитической таблицы).
И пункт для продолжающих, продолжить рекомендую всем;)
2) Измерьте тесноту корреляционной связи между стоимостью произведенной продукции и суммой прибыли эмпирическим корреляционным отношением
Сделайте выводы. И мы их сделаем! Разберёмся в задании, решим и сделаем:
Итак, по условию нам даны две статистические совокупности: – выпуск продукции по предприятиям (в млн. руб.) и – прибыль по соответствующим предприятиям (тоже в млн. руб.). Зададимся вопросом: как влияет стоимость произведённой продукции (выпуск) на размер прибыли? Очевидно, что чем больше предприятие выпускает, тем больше у него прибыль. Но всегда ли это так? Нет не всегда. Ведь крупное предприятие может быть и убыточным, может не продать всю продукцию при увеличении её производства. Однако общая тенденция состоит в том, что при увеличении выпуска продукции, увеличивается и средняя прибыль по предприятиям. Ибо масштаб имеет значение, пекарни – это пекарни, а хлебзаводы – это заводы. НО при увеличении значений , тем не менее, нам могут встретиться и отдельные дышащие на ладан предприятия и даже гиганты в предбанкротном состоянии.
Такая нежёсткая зависимость называется корреляционной, о ней я уже немного рассказывал в курсе теорвера на уроке Зависимость и коэффициент ковариации непрерывных случайных величин. Но этот страх мало кто читал, поэтому я объяснил всё заново 🙂 И повторю ещё не раз.
Совокупность (выпуск продукции) называется факторной (причинной) или признаком-фактором. Совокупность (прибыль) называется результативной (следственной) или признаком-результатом.
Но не всё так просто. Дело в том, что вышесказанное является лишь нашим предположением. А вдруг в условии дано 30 каких-нибудь северокорейских заводов, где нет такой зависимости?
Именно поэтому по условию задачи требуется установить наличие и характер корреляционной связи между стоимостью произведенной продукции и суммой прибыли на одно предприятие. Под характером связи понимается её направление, при этом возможны следующие варианты:
– прямая связь («чем больше, тем больше» – наш случай);
– обратная связь («чем больше, тем меньше»);
– отсутствие связи («чем больше, тем так же хаотично»).
И установить всё это нужно методом аналитической группировки – данная группировка позволяет выяснить наличие и направление корреляционной связи между признаком-фактором и признаком-результатом .
И мы начинаем, наконец, оформлять решение:
Прежде всего, нужно определить признак-фактор и признак-результат. Самостоятельно, на основе логических рассуждений. Тут же высказываем предположение о наличии и направлении предполагаемой корреляционной связи. В нашей задаче можно записать примерно следующее:
Очевидно, что средний размер прибыли по предприятиям зависит от стоимости выпущенной продукции, при этом, чем больше выпущено продукции, тем выше может быть прибыль. Таким образом, выпуск продукции является признаком-фактором, а прибыль предприятий – признаком-результатом; предполагаемая корреляционная зависимость – прямая.
Обращаю ваше внимание, что эта часть задания является если не обязательной, то строго желательной. Часто в условии прямо запрашивается этот пункт.
Теперь проверяем нашу гипотезу (предположение) методом аналитической группировки.
Как выполнить аналитическую группировку?
Сначала нужно упорядочить совокупности по признаку-фактору. Расположим предприятия по возрастанию выпуска продукции (оранжевый цвет):
В Экселе эта сортировка выполняется буквально в пару щелчков, и чуть ниже будет ролик о том, как быстро решить нашу задачу. Номера предприятий можно было опустить, но я оставил их для лучшего понимания выполненного действия.
Теперь выполняем группировку совокупностей – опять же по признаку-фактору (выпуску продукции). Поскольку в условии нет никаких указаний на этот счёт, то используем стандартную равноинтервальную группировку. Размах вариации составляет:
млн. руб., оптимальное количество интервалов определим по формуле Стерджеса, для объёма совокупности оно составляет:
интервалов
Таким образом, длина каждого интервала: млн. руб., в результате чего у нас получаются интервалы: 41-53, 53-65, 65-77, 77-89 и 89-101 млн. руб. Собственно, организуем группы и начинаем заполнять групповую таблицу. Напоминаю, что значения, попадающие на «стык» интервалов следует относить в следующий интервал:
В нижней части таблицы подсчитываем количество предприятий по каждой группе, сумму значений (внимание!) результативного признака (прибыли), и, наконец, средние значения результативного признака по группам.
Основные результаты представим в виде аналитической таблицы:
Теперь смотрим короткое видео о том, как это всё быстро подсчитать:
Как выполнить аналитическую группировку в MS Excel? (Ютуб)
Сделаем краткие выводы: аналитическая группировка показала, что при увеличении стоимости выпущенной продукции наблюдается увеличение средней прибыли по предприятиям. Таким образом, между рассмотренными факторами действительно существует прямая корреляционная зависимость.
То есть, наше предположение (см. начало задания) подтвердилось.
Обращаю внимание, что средние значения (правая колонка) не обязаны строго возрастать (либо убывать), и если вы получите такой результат, то это будет нормально, ведь корреляционная зависимость не является жёсткой. ВажнА общая тенденция увеличения (либо уменьшения) средних значений. Но может статься, что по итогу вообще не проучится какой-то внятной закономерности. И это тоже результат исследования! С соответствующими выводами о слабой зависимости либо отсутствии таковой.
И вот здесь мы как раз подошли ко второму пункту задания: представьте, что значения признака-фактора меняются (в ту или иную строну). При этом признак-результат может реагировать на это изменение по-разному. Явственно и чётко. Или не очень. Или вообще слабо, на грани хаотичной случайности. «Отклик» может быть совершенно разным
И возникает вопрос: насколько СИЛЬНО влияет факторный признак на результат, насколько теснА связь между факторами?
Ответы на этот вопрос дают эмпирический коэффициент детерминации, о котором я уже рассказал в статье о дисперсиях, и связанное с ним эмпирическое корреляционное отношение.
Переходим ко второй части задания, а именно:
2) Измерим тесноту корреляционной связи между стоимостью произведенной продукции и
прибылью с помощью эмпирического корреляционного отношения.
Сначала вычислим эмпирический коэффициент детерминации. Начнём рассуждать неформально: прибыль (признак-результат) варьируется под влиянием самых разных факторов, их может быть довольно много. И общая дисперсия учитывает ВСЕ факторы, влияющие на изменение прибыли.
Далее мы разбили совокупность на группы, причём, в основу группировки был положен выпуск продукции (один из факторов). Как вы знаете из предыдущего урока, существенность влияния ЭТОГО фактора измеряется межгрупповой дисперсией . И эмпирический коэффициент детерминации показывает ДОЛЮ влияния группировочного признака – чем ближе этот коэффициент к единице, тем сильнее влияние причины на следствие.
Внимание! Если вам не очень понятно, о чём речь, обязательно изучите предыдущий урок по ссылкам выше!
Собственно, переходим к вычислениям. Общую дисперсию прибыли можно вычислить как по исходным, так и отсортированным данным, это не имеет значения. Я выберу первый вариант. Сначала найдём среднее значение прибыли по все выборке:
млн. руб.
Дисперсию вычислим по определению:
О том, как автоматизировать расчёты в Экселе, я неоднократно рассказывал в своих видеороликах, в частности, на уроке о дисперсиях.
Вычислим межгрупповую дисперсию:
И для очистки совести можно ещё вычислить внутригрупповую дисперсию, чтобы проверить правило сложения дисперсий и убедиться в правильности выполненных расчётов. Что я и сделал на черновике.
В результате:
, таким образом, 88,32% вариации прибыли обусловлено стоимостью выпущенной продукции. Оставшаяся часть вариации обусловлена другими факторами.
По коэффициенту можно судить о силе влияния причины на следствие, однако для оценки этой силы существует «специализированный» показатель, а именно:
эмпирическое корреляционное отношение, равное квадратному корню из . Фактически это отношение соответствующих стандартных отклонений:
Данное отношение тоже изменяется в пределах , и характеризует тесноту (силу) связи между признаками. Для качественной оценки этой силы часто используют так называемую шкалу Чеддока:
В нашем случае , таким образом, прибыль предприятий очень сильно зависит от стоимости выпущенной продукции.
Следует отметить, что результаты подобных задач не являются какой-то «абсолютной истиной» – это всего лишь математическая модель. Так, мы могли выполнить группировку другим способом, разбить выборочную совокупность на иное количество групп, и тогда у нас получились бы другие средние значения прибыли и другие коэффициенты . Однако, они вряд ли будут сильно отличаться от полученных результатов, и выводы мы сделаем те же самые. И это действительно так.
Кстати, если вы получили явно сомнительные результаты, то можно попробовать подобрать более удачную группировку, например, укрупнить интервалы и сделать меньше групп или использовать равнонаполненную группировку. В реальных практических исследованиях для повышения репрезентативности целесообразно увеличить объём выборки, т.е. рассмотреть не 30 значений, а 50-100 или даже больше. И в этом нет ничего необычного – ведь первоначальная модель может оказаться неудачной.
Следующее задание для самостоятельного решения:
По результатам выборочного исследования 20 банков известны процентные ставки и соответствующие суммы выданных кредитов:
1) Определить факторный и результативный признак и выдвинуть предположение о наличии и направлении корреляционной связи между показателями.
2) Методом аналитической группировки проверить наличие корреляционной связи, выборку разбить на 4 группы с равным количеством банков в каждой. Результаты представить в виде групповой и аналитической таблицы. Сделать выводы.
3) Вычислить эмпирический коэффициент детерминации и эмпирическое корреляционное отношение. Сделать выводы.
Обратите внимание, что во 2-м пункте вам прямо указано, как следует выполнять группировку – в таких случаях не нужно проявлять самодеятельность – строго следуем указаниям условия. А если решение получится не слишком удачное, то это уж проблемы автора задачи.
Все числа забиты в Эксель и вам осталось быстренько выполнить действия. Решение для сверки совсем близко.
Что ещё можно сказать по теме?
В некоторых задачах результативных признаков может быть несколько, как правило, два, например: – выпуск продукции – прибыль и – себестоимость производства. Никаких проблем – сортируем совокупности по признаку-фактору (выпуску продукции), при этом в Экселе нужно выделить не два, а уже три столбца, о чём я уже рассказывал в ролике. Далее выполняем группировку и рассчитываем средние значения прибыли и себестоимости по каждой группе. Делаем выводы. Заметим, кстати, что корреляционная связь , вероятно, обратная, поскольку при увеличении выпуска продукции, издержки могут падать (ввиду автоматизации процесса при массовом производстве).
И в заключение хочу сказать, что показатели вам могут быть предложены самые разные, поэтому при решении этих задач следует включать голову и элементарную логику.
Пример 62. Решение:
1) Очевидно, что чем больше процентная ставка, тем в среднем будет меньше сумма кредита, поскольку при высоких ставках заёмщику труднее расплачиваться по обязательствам. Таким образом, процентная ставка – признак-фактор, а сумма кредита – признак-результат. Предполагаемая корреляционная зависимость – обратная («чем больше, тем меньше»).
2) Проверим выдвинутое предположение методом аналитической группировки. Упорядочим выборочную совокупность по возрастанию процентной ставки и разобьём её на группы по банков в каждой группе:
По каждой группе вычислим сумму кредитов (графа «Итого») и средние значения кредита млн. руб. (разделив суммы на объёмы групп, то есть на 5).
Результаты сведём в аналитическую таблицу:
Таким образом, при увеличении процентных ставок средние значения выданных кредитов уменьшаются, что подтверждает обратную корреляционную зависимость суммы кредита от процентной ставки.
3) Найдём эмпирический коэффициент детерминации .
Вычислим общую среднюю (рассчитываю по упорядоченной совокупности):
млн. руб.
Вычислим общую дисперсию:
Вычислим межгрупповую дисперсию:
В результате:
, таким образом, 83,98% вариации размера кредита обусловлено процентной ставкой (группировочным признаком). Оставшаяся часть вариации обусловлена другими факторами.
Вычислим эмпирическое корреляционное отношение:
Таким образом, корреляционная зависимость суммы кредита от процентной ставки является очень сильной.
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам