Что означает термин категоризация данных
База знаний
Вопросы и ответы
Как работает автоматическая категоризация данных?
Система позволяет реализовывать произвольную категоризацию объектов, но этот механизм становится действительно удобным, если настроено автоматическое проставление категорий объектам в типичных случаях.
Для использования в системе механизма автоматической категоризации данных необходимо указать настройку программы «Автоматическая категоризация» в разделе «Делопроизводство».
После этого в разделе «Нормативно-справочная информация» по команде «Правила категоризации» откроется список правил для автоматической категоризации, где и перечисляются все используемые в работе правила.
В ней отражается список с объектами, к которым можно применять данное правило в соответствии с указанными типами в настройке «Для каких данных правила».
В верхней части формы есть флаг «Проверять правило автоматически при выделении в списке». Если флаг не указан, то для выполнения проверки к текущему объекту в списке нужно нажать кнопку «Проверить правило на объекте» или использовать сочетание клавиш Ctrl + Shift + П.
В результате в правом нижнем углу формы отражается пиктограмма, отражающая результат применения файла к объекту, более подробно (сообщение об ошибке или результат выполнения «Да» или «Нет») выводится в таблице в нижней части формы.
Существуют способы проставления категорий вручную. Система поддерживает возможность проверки правильности присвоения категорий при указании настройки программы «Проверка категорий документов и файлов».
1. Управление в широком понимании этого термина это
586. Взаимовлияние исследователя и информанта является проблемой для сбора данных в качественных исследованиях?
587. Какой из нижеперечисленных принципов не относится к специфике проведения качественных исследований:
(?) направленность «на субъекта»
(!) использование стандартизированного инструментария для изучения массовых социальных явлений и процессов
(?) установка на комплексное понимание контекста события
(?) указание на определенную ситуацию и на герменевтический анализ действия
588. На какую социологическое направление опирается «социологическая диагностика», формирующая «социальный диагноз»?
589. Что происходит на этапе качественного исследования «наряд заданий» в цикле работ «Основные этапы подготовки исполнителей полевого цикла исследования»?
(?) разработка плана выборочной совокупности
(?) определение проблемы исследования
(!) выдача заданий анкетерам и интервьюерам
(?) разработка анкет или бланков интервью
590. Что происходит на этапе качественного исследования «этап пробных работ» в цикле работ «Основные этапы подготовки исполнителей полевого цикла исследования»?
(?) планирование исследования с заказчиком
(!) репетиция процедур использования методических документов (например, анкет)
(?) формирование научного отчета
591. Что не относится к типичным ошибкам, трудностям, проблемам в организации качественного исследования?
(?) программа исследования не формировалась, а инструментарий разработан (появляются системные ошибки из-за неучтенной информации)
(?) программа составлена без предварительного знакомства с объектом
(?) на подготовительном этапе не сформированы рабочий план и сетевой график работ
(!) выборочная совокупность относится к вероятностному типу
(?) план исследовательских работ не согласован с заказчиком
592. Что происходит на «инструктивно-ознакомительном этапе» качественного исследования в цикле работ «Основные этапы подготовки исполнителей полевого цикла исследования»?
(?) разработка плана выборочной совокупности
(?) определение проблемы исследования
(!) ознакомление исполнителей с целями, задачами исследования
(?) разработка анкет или бланков интервью
593. Текст (стенограмма), получившаяся в результате проведения глубинного интервью:
594. Что называется «проверкой надежности данных» в качественном исследовании?
(!) выявление противоречий в высказываниях респондента
595. Что означает термин «триангуляция данных» в качественных исследованиях?
(!) возможность совмещать методы качественного и количественного анализа
(?) проверка качественных данных с помощью других методик
(?) сравнение результатов, полученных разными исследователями
596. Какой разновидности кодирования данных в качественных методах не существует?
597. Что означает термин «категоризация данных»?
(!) перевод информации в категории
(?) исключение части ненужной информации из текста
598. Что не относится к типичным ошибкам и трудностям при анализе качественных данных?
(?) субъективизм интерпретации, вытекающий из одностороннего анализа объекта (способ преодоления–триангуляция)
(?) быстрое обобщение данных, основывающееся на малом числе случаев
(?) отсутствие проверки информации на надежность
(!) использование «жестких» методов сбора информации
(?) проблема сознательной и несознательной неискренности респондента, его дополнительной интерпретации событий через призму прожитой жизни
599. Источники данных в историографии не бывают:
600. Какой ученый предложил общую схему анализа и описания «историй жизни»?
601. Что понимал М. Вебер под понятием «идеальный тип»?
(!) некую социокультурную модель, служащую орудием теоретического понимания
602. Биографический метод является разновидностью какого метода?
(?) метода парных сравнений
(?) метода балльных оценок
603. Применение причинных моделей к анализу «историй жизни» требует использования процедур:
604. Какие дальнейшие действия предполагает процедура «категоризации данных «?
(?) триангулярный подход к исследованию: сопоставление данных качественного и количественного подходов
(!) перевод текстовой информации в категории и субкатегории
(?) синергетический эффект выводов исследования
(?) исключение части ненужной информации из текста
605. Что не относится к способам теоретизирования в качественном исследовании (метод восхождения к теории)?
606. Какого вида кодирования в качественных методах не существует?
607. Что называют историографией в качественных методах?
(?) процесс выбора респондентов
(!) попытку реконструкции прошлого на основе документальных данных
(?) процесс формирования научного отчета
(?) процесс сбора информации
1. Наиболее простым видом социологического анализа, охватывающим, как правило, небольшие обследуемые совокупности и основывающимся на упрощенной программе и сжатом по объему методическом инструментарии является
2. Самым сложным видом социологического анализа, ставящим своей целью не только описание структурных элементов изучаемого явления, но и выяснение причин, которые лежат в его основе и обуславливают распространенность, устойчивость или изменчивость и другие свойственные ему черты, является
3. Наиболее распространенным видом социологического исследования и одновременно самым широко используемым методом сбора первичной социологической информации, предполагающим обращение к непосредственному носителю изучаемой проблемы и нацеленным на те ее стороны, которые мало или вообще не поддаются прямому наблюдению, является
4. Информационная функция социологического исследования заключается в
(?) Выработке практических мер по совершенствованию социальной реальности, эффективного контроля над социальными процессами
(!) Получении информации о состоянии и тенденциях развития явлений и процессов общественной жизни, функционирования общностей, групп, отдельных индивидов, их потребностей, мотивов, реального и вербального поведения, общественного мнения
(?) Открытии новых знаний о функционировании и развитии общества и его отдельных сфер, о сущности социальных явлений и процессов, роли человека в них.
5. Познавательная функция социологического исследования заключается в
(?) Выработке практических мер по совершенствованию социальной реальности, эффективного контроля над социальными процессами
(!) Получении информации о состоянии и тенденциях развития явлений и процессов общественной жизни, функционирования общностей, групп, отдельных индивидов, их потребностей, мотивов, реального и вербального поведения, общественного мнения
(?) Открытии новых знаний о функционировании и развитии общества и его отдельных сфер, о сущности социальных явлений и процессов, роли человека в них
6. Методологический раздел программы социологического исследования включает
(!) Обоснование актуальности проблемы
(?) Обоснование типа выборочной совокупности
(!) Определение цели исследования
(!) Интерпретацию основных понятий
7. Методический раздел программы социологического исследования включает
(?) Определение объекта исследования
(!) Определение типа исследования
(!) Обоснование типа выборочной совокупности
(!) Выбор методов сбора информации
8. Однозначно трактуемое понятие, доступная наблюдению или измерению характеристика изучаемого объекта называется
9. Сведение абстрактного теоретического понятия к множеству значений с указанием инструмента их измерения (получения) называется
(?) Эмпирическая интерпретация понятия
(?) Теоретическая интерпретация понятия
10. Объяснительная гипотеза – это
(?) Предположение о существующих свойствах объекта, о характере связей между изучаемыми элементами данного объекта
(!) Предположение о степени тесноты связей, взаимодействий и причинно-следственных зависимостей в изучаемых социальных явлениях и процессах.
11. Выборка, для которой каждый элемент генеральной совокупности имеет определенную, заранее заданную вероятность быть отобранным называется
12. Свойство выборки адекватно отражать характеристики генеральной совокупности получило название
13. Отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности получило название
14. как соотносятся выборочная и генеральная совокупности?
(?) Объем выборочной совокупности равен объему генеральной совокупности
(!) Объем выборочной совокупности меньше объема генеральной совокупности
(?) Объем выборочной совокупности больше объема генеральной совокупности
15. Выборка методом «снежного кома» относится к
16. Шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства, называется
(!) Шкала равных отношений
17. шкала, классифицирующая по названию (название не измеряется количественно, а лишь позволяет отличить один объект от другого или одного субъекта от другого), называется
(?) Шкала равных отношений
18. Порядковая шкала – это
(!) Шкала, классифицирующая по принципу «больше – меньше».
(?) Шкала, классифицирующая по принципу «больше на определенное количество единиц – меньше на определенное количество единиц».
(?) Это шкала, классифицирующая по названию. Название не измеряется количественно, а лишь позволяет отличить один объект от другого или одного субъекта от другого.
19. В социологии индекс рассматривается как
(!) Сводный числовой показатель, полученный в результате исследования и анализа данных, т.е. на основе других данных.
(?) Первичная информация, полученная в результате социологического исследования
(?) Количество единиц выборочной совокупности
20. Индекс как эмпирический показатель может создаваться
(?) Только на начальном этапе социологического исследования
(?) В результате социологического исследования
(!) Как на начальном этапе исследования, так и в результате исследования.
21. Какова главная задача исследований с использованием количественных методов:
(!) Получение численной оценки состояния объекта изучения
(?) Углубление знаний об объекте
(?) Получение предварительных сведений об объекте, для его дальнейшего углубленного изучения
(?) Разработка практических рекомендаций для
22. Как можно охарактеризовать количественные методы исследования:
(?) Как понимающие и интерпретативные
(?) Как гибкие и индивидуальные
(!) Как формализованные и массовые
23. Сравнительным называется исследование, направленное на:
(?) Анализ закономерностей, тенденций в развитии изучаемого объекта
(!) Изучение однотипных объектов, либо одного объекта в разное время
(?) Проверку, апробацию методики, инструментария
24. Совокупность данных об объекте на определенных стадиях, получаемых в исследованиях соответствующих социальных субъектов это:
25. Псевдолонгитюдный метод заключаются:
(?) В изучении продолжительных периодов развития объекта, но за короткое время
(?) В наблюдении за развитием объекта до определенного момента
(!) В получении показателей для разных социальных групп в хронологическом упорядочивании этих показателей
(?) В научном анализе фактов социальной действительности
(?) В научной интерпретации полученной социальной информации
(!) В чувственном познании социальных объектов
26. Наиболее универсальным эмпирическим методом исследования, который используется во всех без исключения науках, является:
27. Какой из нижеперечисленных методов не относится к количественным методам:
28. Методология контент-анализа документа напоминает:
(!) Лингвистический анализ текста содержания
(?) Анализ библиографических ссылок в научной литературе
29. Если перед исследователем стоит задача получить информацию, которая должна быть сравнима и поддаваться классификации, то необходимо использовать интервью:
30. Метод анализа, заключающийся в том, что обследуемая совокупность расчленяется на однородные группы, отдельные единицы которых обладают общим для всех них признаком, называются:
31. Таблица, в которой группируются результаты выявления связи между двумя переменными, называется:
32. Статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную называется:
33. В каких случаях, при статистической обработке социологической информации исследователи прибегают к расчету «медианы»:
(?) Когда важна быстрота определения меры центральной тенденции
(?) Когда впоследствии нужно будет вычислять стандартное отклонение
(!) Когда в совокупности есть «нетипичные» данные, резко влияющие на среднее
34. С какой целью для статистической обработки социологической информации используется факторный анализ:
(?) Для вычисления коэффициентов корреляции в самых разнообразных соотношениях между переменными
(?) Для исследования влияния переменных факторов на изучаемую переменную по дисперсиям
(!) Для изучения взаимосвязей между совокупностью переменных
35. Системный анализ это:
(!) Это методологическое и методическое направление в изучении социальной реальности, рассматривающее любой ее фрагмент как систему
(?) Это способ объяснения явлений, основанный на анализе их развития
(?) Объяснительные принципы, предопределяющие направление интерпретации результатов исследования
36. Формой методической реализации принципа развития является:
37. Функциональный подход интересуется главным образом:
(!) Связями изучаемого объекта со средой
(?) Выявлением и описанием структуры объектов (явлений)
(?) Выявлением связи изучаемых явлений во времени
38. Что, главным образом, характерно для структурного метода анализа:
(!) Интерес к отношениям между структурными элементами объекта
(?) Выявление связей изучаемых явлений во времени
(?) Рассмотрение любого фрагмента социальной реальности, как системы
39. Изучение сложного социального объекта предполагает использование
40. Развитие качественной методологии стало возможным благодаря:
41. Какая логика анализа характерна для качественных исследований:
Умная нормализация данных: категориальные и порядковые данные, “парные” признаки
Эта статья внеплановая. В прошлый раз я рассматривал нюансы и проблемы различных методов нормализации данных. И только после публикации понял, что не упомянул некоторые важные детали. Кому-то они покажутся очевидными, но, по-моему, лучше сказать об этом явно.
Нормализация категориальных данных
Чтобы не засорять текст базовыми вещами, я буду считать, что Вы знаете, что такое категориальные и порядковые данные, и чем они отличаются от остальных.
Очевидно, что любая нормализация может выполняться только для числовых данных. Соответственно, если для дальнейшей работы Вашему алгоритму/программе подходят только числа, то необходимо преобразовать все остальные типы к ним.
С категориальными данными всё просто. Если целью является не просто кодировка (шифровка) значений какими-то числами, то единственный доступный вариант — это представить их в виде значений “1” — “0” (ДА — НЕТ) для каждой возможной категории. Это так называемое one-hot-кодирование. Когда вместо одного категориального признака появится столько новых “булевых” признаков, сколько существует возможных категорий.
Никаких вычислений медиан или средних арифметических, никаких смещений.
Если Вы подготавливаете данные для входа нейронной сети, это именно то, что нужно.
Важно понять, что применять преобразования подобные стандартизации к категориальным/”булевым” признакам как минимум бесполезно, а как максимум — вредно. Поскольку может необоснованно увеличить или уменьшить их интервал значений. Подробнее о важности равенства этих интервалов я писал в прошлый раз.
К тому же, если Вы хотите получить результат, основанный на данных, а не на внутренних особенностях алгоритмов, то даже после преобразования в числовую форму категориальные признаки нельзя использовать как обычные числовые для вычисления “расстояний” между объектами или их “схожести”. Если два объекта отличаются только “наличием черного цвета”, это не значит, что между ними “расстояние” равное некому безразмерному единичному интервалу. Это значит именно то, что у одного есть чёрный цвет, а у другого его нет — и не более того.
Конечно, какой-то результат Вы получите всегда, даже при подходе «не хочу мудрить, пусть будут просто числа 0 и 1». Сомнительный, но получите. Как корректно работать с такими данными, я подробно напишу в следующей статье.
Нормализация порядковых данных
С порядковыми данными немного сложнее. Они занимают “промежуточное” положение между категориальным и относительным (обычными числами) типами данных. И при работе с ними необходимо сделать выбор, к какому из соседних типов их преобразовывать. Без Вашего осознанного решения здесь никак.
Вариант 1. Из порядковых в категориальные. В этом случае теряется информация о порядке значений (что больше). Но если это не является (по Вашему мнению) важным фактором, и особенно, когда возможных значений немного, то вполне приемлемо. На выходе получаем набор категорий, с которыми дальше работаем, как описано выше.
Вариант 2. Преобразование в интервальный тип (обычные числа). В этом случае сохраняется порядок значений, но “добавляется” необоснованная информация о величине разницы между двумя значениями.
До преобразования Вы знали, какие значения больше других, но не могли сказать насколько больше. После — это станет возможным, хотя, повторюсь, без всякого обоснования.
Дальше работаем как с обычными значениями — нормируем и т.д.
“Парные” признаки
Формально такого понятия, конечно, не существует. Я так обозначаю редкую, но заслуживающую внимания ситуацию.
Для начала определение. “Парными” признаками я называю признаки, которые измеряются в одинаковых единицах и вместе описывают единый комбинированный признак. Причем изменения по любому из таких “напарников” равнозначны.
Проще пояснить на примере. Представьте, что у Вас есть набор данных о строениях, размещенных на одной улице города, которая лежит строго с юга на север. Данные самые разные — тип, размер, количество жильцов, цвет и координаты (широта и долгота). И перед Вами стоит задача провести кластерный анализ для выявления групп похожих строений.
“Парными” признаками здесь являются широта и долгота, которые вместе составляют единый признак “координаты”. Временно забудем про остальные признаки и присмотримся к координатам.
Для кластеризации важно определять расстояние между двумя объектами. В нашем случае расстояние рассчитывается по их координатам. И совершенно одинаково, например, отстоит детский садик от стадиона на 100 м вдоль по улице, или он в тех же 100 м через дорогу. Это одинаковые 100 м.
Если на этот нюанс не обращать внимания, то после нормализации ситуация станет такой
Изначальный смысл совершенно исказился. “Расстояние” между зданиями, расположенными через дорогу стало практически таким же большим, как и между домами в начале и конце улицы. Это произошло из-за того, что значения широты и долготы были нормализированы независимо друг от друга.
Решение этой проблемы лежит в определении параметров масштабирования самого “протяженного” признака (в нашем случае долготы) и применения его к всем “парным” признакам.
Да, формально, мы снизили влияние признака “широта”. Но это было обусловлено его реальным физическим смыслом.
Правила безопасности
“Назначать” признаки в “парные” нужно очень осторожно и с четким пониманием исследуемой области.
Возьмем другой пример. Вы анализируете колебания некоего узла/датчика, закрепленного на вертикальном элементе в большом механизме. У Вас есть величины колебаний как “вправо-влево” (синие стрелки), так и “вперёд-назад” (оранжевые стрелки). Еще, из-за конструктивных особенностей механизма, колебания “вправо-влево” могут быть в несколько раз больше, чем “вперёд-назад”.
Вроде бы ситуация схожая с прошлой. Оба признака измеряются в миллиметрах. И вместе они составляют условные “координаты” узла при его колебаниях.
Но, допустим, оказывается (из-за тех же конструктивных особенностей), что сильные колебания “вперёд-назад”, пусть даже они по величине в разы меньше, чем “вправо-влево”, могут привести к поломке узла. Т.е. величина изменения у этого признака не равнозначна его “напарнику”.
В этом случае снижать влияние этого признака, как мы выше поступили с “широтой”, наоборот нельзя.
В общем, напоследок банальный совет — перед тем как начать какие-либо преобразования своих данных, не забудьте внимательно к ним присмотреться. Вдруг среди них есть что-то требующее чуть более индивидуального подхода.
База знаний
Вопросы и ответы
Что такое категоризация данных и для чего она нужна?
Категоризация данных позволяет классифицировать документы, файлы, проекты, проектные задачи, мероприятия и документы как в разрезах, используемых в рамках всей компании, так и в удобных для конкретного пользователя представлениях.
Для использования в системе механизма категоризации необходимо указать флаг «Категории для документов и файлов» в разделе Делопроизводство в настройках программы, после этого станут доступны элементы управления, формы и отчеты механизма категоризации. Можно будет создавать дерево категорий и настраивать доступ к ним.
В дереве категорий можно создать персональные (личные) и общие категории, доступ к которым будет у строго определенных пользователей или рабочих групп. Иерархия категорий не допускает, чтобы персональные категории подчинялись общим и наоборот.
Категории данных устанавливаются пользователем или автоматически по заранее настроенным правилам. Каждый документ системы, файл, мероприятие, проект или проектная задача могут иметь произвольное число общих и личных категорий.
Указание категорий позволяет просматривать данные в требуемых разрезах в разделах Документы и файлы, Нормативно-справочная информация, Главное, а также в форме списков документов или файлов, используя команду «Категории».
Есть возможность производить отбор по нескольким интересующим категориям, используя варианты «И»/«ИЛИ» объединения результатов отбора по каждой отдельной категории. Возможен отбор и с учетом подкатегорий.
Существуют настройки системы, управляющие механизмом категорий: «Категории для документов и файлов», «Автоматическая категоризация», «Проверка категорий документов и файлов».