Что не является составляющей управления данными
Анализ данных и управление данными
Управление данными – это процесс, который подразумевает сбор, хранение, обработку и интерпретацию накопленных данных. Сегодня для многих компаний управление данными – это отличная возможность понять данные, которые уже собраны, «узнать» конкурентов, выстроить предикативную аналитику (прогнозирование), ответить на многие вопросы бизнеса.
Управление данными
Что включает управление данными? Перечислим основные процессы:
Исходя из вышеперечисленного становится ясно, что для успешного управления данными необходимо:
Основные проблемы при управлении данными
Среди самых распространенных ошибок и трудностей, которые возникают при сборе, хранении и интерпретации данных, называют:
Во многих вопросах на этапе сбора загрузки данных может помочь такой продукт, как Alteryx, который помогает соединять данные из разных источников, обогащать и готовить их к использованию в системах Business Intelligence.
Анализ данных
У вас уже есть подходящий объем нужных и важных данных? Теперь, помимо хранения, их нужно анализировать. Анализ данных поможет ответить на многие вопросы бизнеса, принять взвешенные решения, «увидеть» своего покупателя, оптимизировать складские и логистические процессы. В общем, big data для анализа больших данных важен и нужен в любой сфере, любой компании, на любом уровне.
Решение для анализа данных состоит из трех основных блоков:
Все это кажется достаточно сложным, но на самом деле не все так страшно.
Современные аналитические решения
Что делать компаниям, у которых нет штата аналитиков? И нет программиста-разработчика? Но есть желание делать аналитику!
Конечно, решение есть. Сейчас на рынке представлено достаточно автоматизированных систем для аналитики и – что важно! – визуализации ваших данных.
В чем плюсы таких систем (типа Tableau):
Таким образом, внедрить такой аналитический продукт может любая компания: неважно, сколько сотрудников в ней работает. Tableau подходит и индивидуальным предпринимателям, и крупным компаниям. В апреле 2018 года ООН выбрала Tableau в качестве аналитической платформы для всех своих офисов по всему миру!
Компании, которые работают с такими автоматизированными системами аналитики, отмечают, что табличные отчеты, которые раньше строились за 6 часов, в Tableau собираются буквально за 10-15 минут.
Не верите? Попробуйте сами – скачайте бесплатную пробную версию Tableau и получите обучающие материалы по работе с программой:
Хотите узнать, как провести анализ и сделать отчеты быстро?
Data Governance. 5 основных задач управления данными
Юлия Порохненко, аналитик данных, Beltel Datanomics.
Data Governance или управление данными – это совокупность практик, которые помогают администрировать данные компании.
Согласно докладу 2019 State of Data Management управление данными – одна из пяти основных стратегических инициатив для организации. Они становятся активом, от которого зависит успех бизнеса. Использование информационного ресурса и успешная цифровая трансформация возможны только в случае, когда компания способна управлять своими данными, поэтому важно внедрить этот процесс уже сейчас.
Data Governance – требование современной, быстро меняющейся и высоко конкурентной корпоративной среды. Сейчас, когда у компаний есть возможность собирать огромные объёмы информации, нужна дисциплина для максимизации её ценности, управления рисками и сокращения затрат.
Вне зависимости от того, используется ли информация только внутри компании или выходит за её рамки, администрирование данных является обязательной задачей, поскольку многие бизнес-процессы так или иначе работают с данными.
Основные задачи управления данными
Низкое качество данных – это проблема не только для сотрудников отделов информационных технологий и аналитики, а бизнеса в целом. Хотя технология обеспечения качества данных внедряется и обслуживается IT-отделом, основную выгоду получают другие подразделения. Например, неверная разметка акционных продаж отделом маркетинга может привести к ошибкам при прогнозировании объёма товара на следующую акцию, поэтому важно внедрить в рабочий процесс контроль за качеством данных. Это позволит сократить время, которое тратится на то, чтобы привести данные в порядок: убрать дубликаты, привести к одному формату, заполнить пропуски, почистить шумы и т.д.
Ни одна система не будет эффективно работать, если у неё нет доступа к необходимой информации. Кроме того, нужно обеспечить работоспособность системы, которая предоставляет доступ пользователям к информации. Для этого рекомендуется использовать облачные хранилища и отказоустойчивые базы данных. Данные могут быть потеряны – случайно или намеренно стёрты с носителя, поэтому необходимо делать резервные копии.
Внедрение процессов Data Governance позволяет получить полный контроль над данными. Можно контролировать, где и в каком формате они хранятся, обеспечивать версионность, поддерживать актуальность данных, определить правила доступа к данным и т.д.
Если разные сотрудники будут работать с одними и теми же данными, но при этом не синхронизировать их между собой, это может привести к неверным результатам. Можно разместить всю информацию в одном общем хранилище, например, в базе данных или облаке. Это позволит сотрудникам работать с актуальной информацией, которая едина для всех.
Накопление информации из множества источников приводит к получению данных в разрозненном виде, их нужно приводить к единому виду и формату. Задача усложняется, если речь идёт о тысячах строк. Каждый сотрудник может по-своему записать одно и то же значение. Например, «500 грамм» и «0.5 кг» воспринимаются человеком одинаково, но для машины это совершенно разные значения. И чтобы система понимала их правильно, необходимо привести все данные к одному формату, а это может занять много времени. Продуктивнее заранее определить политику работы с данными, стандарт, которому будут следовать все сотрудники. Таким образом, даже новый сотрудник или аналитик на стороне сможет понимать данные, и работа будет эффективнее.
Успешное внедрение управления данными в рабочий процесс можно показать на примере.
Молочный завод планирует внедрить автоматизированную систему оптимизации технологического процесса. Показатели датчиков хранятся в базе данных, значения записываются в базу в автоматическом режиме согласно принятому на производстве формату. Периодически делается резервная копия данных.
При таком подходе можно быть уверенным, что при обращении к данным будет получена наиболее актуальная и корректная информация, поскольку нет необходимости в согласовании и проверке вводимых данных, как это бывает, если данные вносятся в таблицу вручную оператором. В случае если данные будут потеряны, их всегда можно восстановить из резервной копии. Принятый на производстве стандарт позволит сократить время на подготовку информации для реализации системы оптимизации технологического процесса.
Внедрение практик управления данными (Data Governance) в рабочий процесс поможет организации повысить качество корпоративных данных, увеличить их ценность и монетизировать в дальнейшем.
Автор: Юлия Порохненко, Аналитик данных Beltel Datanomics.
Как подготовить стратегию по управлению данными
Многие воспринимают цифровую трансформацию как источник новых проблем, хотя именно отказ от нее рискует стать причиной отставания от конкурентов и снижения эффективности бизнеса. Начать процесс цифровизации и сделать его успешным поможет стратегия управления данными. К такому выводу пришли гости прошедшей экспертной встречи « Цифровая трансформация банка — парадоксы перехода » от Global CIO, в которой приняли участие представители ICL Services (входит к ГК ICL). В ходе встречи обсуждали трудности, перспективы и прогнозы по цифровому развитию банков.
Как использовать данные для повышения эффективности
В каждой организации данные можно разделить на «пассив» и/или «актив». Цель цифровой трансформации — преобразование данных из пассива в актив, то есть в рабочий инструмент, которым можно и нужно управлять. Только в этом случае они смогут принести реальную пользу и выгоду бизнесу.
Данные как пассив, как правило, не структурированы, неизвестного качества, получены в результате непрозрачных или сложных трансформаций, не связаны и не согласованы между собой, а за их хранение, использование и преображение отвечает узкий круг специалистов. При этом остальным сотрудникам компании данные недоступны или непонятны.
Одна из главных целей преобразования данных в актив — сделать так, чтобы данные были демократизированы, то есть доступны всем сотрудникам компании в соответствии с политиками безопасности.
Современные требования к работе с данными
Ключевые этапы трансформации конвейера данных
Типовой конвейер данных почти любого data-процесса состоит из следующих этапов: генерация идеи; ее проверка в песочнице в ограниченном объеме или на всем объеме данных сразу; моделирование, во время которого данные встраиваются в существующие модели; разработка новой модели данных и проверка достижения цели; обкатка на автоматических тестах; развертывание; встраивание в существующий конвейер данных и подготовка мониторинга для дальнейшей работы с данными.
Как эти этапы преобразуются, когда мы говорим о цифровой трансформации?
Если в старой парадигме источниками знаний у нас были документация, «головы» и компетенции сотрудников, то сейчас без таких продуктов, как Data Glossary (в том числе бизнес-глоссарий), который описывает и структурирует те данные, с которыми мы работаем, уже не обойтись.
Если раньше в моде были разрозненные инструменты моделирования бизнес-процессов, ПО и данных, то сейчас более перспективной представляется преобразование всех данных в централизованные и связанные модели. Также сформировался устойчивый тренд на активное использование внешних источников данных и их встраивание в существующие в организации модели, которые в дальнейшем используются в кейсах по монетизации данных.
Следующий тренд — переход от императивной разработки хранилищ данных к декларативной. В первом сценарии необходимо было задать последовательность действий для достижения результата, а хранилища вели себя так, как предписывали их создатели. Второй сценарий подразумевает использование принципиально другого подхода, благодаря которому любой конвейер данных можно описать в виде моделей, их связей, правил преобразования, а далее уже сам встроенный инструментарий будет генерировать код, осуществляющий конечные трансформации данных. Проще говоря, становится доступной возможность описать, что представляет собой проблема и каким должен быть ожидаемый результат, но без описания способа достижения этого результата. Ранее такой класс систем назывался DWA (Data Warehouse Automation), сейчас же, с развитием облачных технологий, появились инструменты, реализующие данную концепцию в виде Model-Driven среды с возможностью смены бэкенда хранилища данных при необходимости.
Помимо этого, предполагается переход от ручных мониторинга, тестирования, выгрузки и моделирования в MS Excel к использованию всех современных наработок Software Engineering — версионированию, ревью кода и так далее. Все, что является частью конвейера данных, выкладывается в единое хранилище — так называемый репозиторий (GIT). Также на данном этапе происходит реализация Near-production-песочниц, в которых можно быстро сгенерировать идею, сразу проверить ее на большом объеме данных, а если идея сработала, то «продуктивизировать» полученное решение. В идеальном сценарии протестировать идею может любой пользователь компании без вмешательства ИТ-специалистов.
Последний элемент трансформация конвейера данных — использование концепции «Data Pipeline as code». Она подразумевает исключение множества ручных шагов из процесса и обеспечение плавного, автоматизированного потока данных от одной фазы конвейера к другой, сопровождающегося достаточно зрелыми процессами и инструментами CI\CD. На этапе разработки также важно заложить возможность автоматического запуска тестов, проверки качества данных и их описания, автоматизированную установку и сборку всей сети данных в целостный конвейер.
Как определить зрелость системы управления данными в компании
Есть два способа определения зрелости компании — быстрый и точный. Они помогут понять, какие изменения необходимо вносить в процессы внутри компании.
Быстрый способ предполагает самооценку на основе общедоступных методик — их достаточно много, все они — зарубежные. Можно использовать, например, американскую методику CMMI (Capability Maturity Model Integration). В методиках уже собраны чек-листы, пройдя по каждому пункту которых, можно понять на какой стадии зрелости находится ваша компания. Такие методики также дают понять, какие процессы в компании эффективны, а какие нет.
Второй способ — точный. Это комплексный аудит с привлечением отраслевых экспертов либо компании-аудитора или компании-консультанта.
Как встроить стратегию управления данными в планы по цифровизации. Чек-лист мероприятий:
Конечным результатом этих преобразований станет формирование стратегии, учитывающей планы развития организации, а также плана действий и его ресурсных ограничений. В компании появится понимание, сколько сил и денег будет потрачено, к каким результатам это приведет. При этом реализация стратегии будет поддержана ключевыми стейкхолдерами со стороны руководства и бизнес-подразделений компании.
Соблюдая все эти шаги, можно встать на путь цифровой трансформации, перейдя, наконец, от бесконечного планирования к конечному результату.
Data Governance: от теории к практике
Содержание
Надо сказать, что data governance – это не совсем системы. Точнее правильнее –не только системы. Это прежде всего стратегия для эффективного управления корпоративными данными. И только потом это набор инструментов, которые позволяют бизнесу понять, какими активами данных он владеет, как эти данные связаны друг с другом, кто и как ими пользуется, позволяет управлять их качеством.
Data Governance и Data Management – в чем разница?
Так как в русском языке data governance переводится, как управление данными, то часто этот термин путают с термином data management. В чем же разница?
Одним из основных различий между двумя бизнес-функциями является то, что Data Governance – это стратегия, а Data Management – тактика. Это означает, что в дополнение к созданию общей парадигмы управления данными в организации, руководители должны определить конкретные практики по управлению информацией, для того чтобы достигать своих целей. Кроме того, Data Governance не контролируется технологическими решениями. Напротив, бизнес использует технологии для того, чтобы решить основные вопросы, которые ставит перед ним план по управлению данными. Наконец, важно понимать, что Data Governance и management работают параллельно друг другу и дополняют друг друга.
Что нужно для Data Governance
В идеале для обеспечения организационного процесса управления корпоративными данными нужно создать специальную организационную единицу, которая будет заниматься управлением данными как активом организации. Это большой сложный вопрос: каким образом методологически управлять жизненным циклом данных, каким образом поддерживать корпоративную модель данных. Без такой модели, без понимания, какие данные есть в организации, как ими управлять и как они могут быть использованы бизнесом, данные не представляют никакой ценности.
Администрирование данных чаще всего объединяет в себе такие понятия, как обслуживание процессов управления данными (Data Stewardship), качеством данных (Data Quality), а также другие концепции, реализация которых способствует достижению наибольшего контроля компании над своими активами данных. Сюда также можно включить методы, технологии и тактики грамотного управления данными. Справедливо упомянуть здесь безопасность и конфиденциальность, целостность, удобство в использовании, гибкость, доступность, разграничение ролей и обязанностей, а также управление внутренними и внешними потоками данных компании в целом.
Компании, которые используют Data Governance, выделяют следующие преимущества: более низкие затраты на управление данными (Data Management) за счет переиспользования процедур, управление соответствием нормам регулятора и соблюдением compliance-практик, прозрачность любых действий с данными, помощь во внедрении обучения управления активами данных. Но если говорить совсем просто, то главное, Data Governance решает три задачи: обеспечивает доступность наших данных, прозрачность жизненного цикла данных и дает пользователям компании согласованные непротиворечивые и проверенные данные.
Важной вещью при внедрении практик Data Governance является бизнес-глоссарий. Мы все знаем, что даже в рамках одной и той же компании бизнес говорит на разных языках. Да, используют одни и те же термины, но понимают под ними совершенно разные вещи. Как раз эту проблему призван решить бизнес-глоссарий.
Это не просто справочник с описанием терминов и методологией расчета. Это полноценная среда разработки, согласования и утверждения терминологии, построения взаимосвязей терминов с другими информационными активами компании. Перед тем как попасть в бизнес-глоссарий, термин должен пройти все этапы согласования с бизнес-заказчиками и центром качества данных. Только после этого он становится доступным для использования. Уникальность такого инструмента в том, что он позволяет проводить связи от уровня бизнес-термина до конкретных пользовательских отчётов, в которых он используется, а также до уровня физических объектов баз данных.
Как внедрить практику Data Governance
Data Governance не является моделью отношения к данным, использование которой гарантирует краткосрочный успех. Приготовьтесь к тому, что процесс будет долгим и местами сложным.
Базовый шаг для создания практики Data Governance – проектирование зрелой ИТ-архитектуры. Работа с данными, которые стали стратегическим цифровым активом, требует от вычислительной инфраструктуры максимальной гибкости. Поэтому главной задачей каждого ИТ-директора становится создание архитектуры для производительной работы аналитики и платформ.
Одним из примеров работы с инфраструктурой в рамках стратегии Data Governance можно назвать создание единой виртуальной среды для работы с данными. Для этого необходимы правильно выстроенные мощности, объединяющие производительные вычислительные платформы для больших массивов информации, СХД для архива, накопители для хранения горячих данных и быстрого доступа к ним в любой момент времени.
Уже после создания готовой к переходу на Data Governance вычислительной инфраструктуры, можно решать, где хранить данные. Это можно делать внутри компании, а можно отдать в облако, во внешний центр обработки данных или частный ЦОД. Одновременно собираются в каталог данных все технические метаданные (например, данные о том, в каких информационных системах хранится информация), а для каждого бизнес-термина фиксируется в бизнес-глоссарии единое для всей компании определение.
Далее, следует скорректировать управление данными в существующих производственных системах: ввести ролевую модель и распределить обязанности и полномочия на заведение и проверку данных, чтобы их вводили и проверяли опытные эксперты, а не все пользователи систем. Дополнительно можно добавить процедуру перекрестной проверки данных между системами, например, в аналогичных системах проверять наличие данных, которые уже введены, и в свою систему вводить их подобным образом, без противоречий с введенными. Если же противоречия неизбежны, то инициировать процедуру исправления недостоверных данных.
Следующий шаг — настройка процессов извлечения данных из систем трансформации и загружать их в нужные представления (ETL, Extract, Transform & Load). То есть для корректной передачи данные нужно привести к единой системе значений и детализации. Получаемые при этом преимущества — готовые процедуры выгрузки и необходимых преобразований данных, которые можно многократно применять по запросу. Как правило, инструменты ETL позволяют быстро дополнять и менять настройки трансформации, что дополнительно сокращает издержки.
Одновременно с ETL желательно внедрить корпоративную сервисную шину данных (Enterprise Service Bus, ESB), поскольку это позволит автоматизировать процесс доставки нужных данных в нужные места к нужному времени, гарантировать такую доставку и централизовать управление интеграцией. Некоторые компании на этом ставят точку, так как дальнейшие действия для организаций определенных отраслей и размеров потребуют больших инвестиций в изменение процессов работы.
После закрытия базовых потребностей в Data Governance можно говорить о полноценном контроле качества данных. Решается это с помощью профилирования данных. Идентифицируются параметры, которые будут контролироваться и вводится понятие «качественные данные». Все эти инициативы позволяют начать полноценную работу по улучшению качества данных и поддержанию их в этом состоянии.
Поддерживать данные в качественном состоянии можно с применением процедур Data Quality. Это довольно серьезный механизм, требующий существенной проработки деталей: назначения ответственных (Data Steward), разработки методологии, использования автоматических систем. Зато при использовании этих механизмов можно говорить о качественных, непротиворечивых, достоверных, неповторяющихся данных.
Еще одним большим блоком становится внедрение инструмента управления мастер-данными (Master Data Management, MDM). MDM необходим для управления процессом сбора данных, их верификации, дедупликации и превращения обычного хранилища в хранилище чистых данных. Исполнение этой части влечет за собой существенное изменение работы предприятия с данными. Ставятся на контроль точки их заведения, регламентируются любые изменения, вводятся новые роли, для которых разрабатываются процедуры и инструменты помощи в принятии решений в случае противоречий.
И, конечно, перед всем процессом создания data governance, очень важно внедрить правила для обеспечения качества данных и провести соответствующие организационные изменения. Всё это позволит точнее и быстрее анализировать данные, формировать отчётность и принимать правильные бизнес-решения. И в итоге ответить на главный вызов – создать адекватную модель и инструменты управления данными.
Чем помочь процессу Data Governance?
Увы, в большинстве российских компаний этот вопрос пока никак не решается, хотя в западных организациях много примеров отношения к данным как к важнейшему корпоративному активу. Поэтому на рынке существует множество программных решений для управления данными.
Чтобы познакомиться с лучшими образцами, проще всего обратиться к аналитическим агентствам. Gartner регулярно выпускает Магические квадранты, в которых только в группе Лидеров указывается около десятка вендоров. Те, кому интересно посмотреть на всех, с легкостью найдут этот квадрант в сети, я лишь скажу, что последние годы лидером упорно держится Informaticа. Она же, надо отметить, на первых позициях в рейтингах IDC, вторых главных аналитиков ИТ-мира. В их исследовании по оценке производителей программных решений по каталогизации данных Informatica значительно опережает всех остальных вендоров, и единственный, кто в состоянии ее догнать, это IBM.
Но какой конкретно программный продукт использовать для управления данными вы еще успеете решить. Пока давайте просто запомним, что просто почистить данные, создать идеальную систему бизнеса-анализа недостаточно. Главное, как она будет поддерживаться. Для этого и нужен data governance.
Управление данными
Средства управления данными в z/OS (DFSMS)
Управление данными в z/OS заключается в организации идентификации, хранения, каталогизации, поиска данных различного назначения (в том числе и программ), которые применяются для системных и пользовательских нужд. Основной единицей управления является набор данных ( data set ), определяемый как именованная совокупность связанных элементов данных, размещаемых во внешней памяти или иных устройствах.
Последние четыре модуля являются опциональными.
Характеристика наборов данных
Операционная система z/OS обеспечивает обработку наборов данных на уровне логических записей и блоков. Это означает, что набор данных представляется в виде совокупности логических записей, а приложения получают доступ к логическим записям и обрабатывают их как единое целое. В то же время обмен данными между периферийными устройствами и основной памятью (ввод-вывод) осуществляется блоками (или физическими записями). В блоке объединяется некоторое количество логических записей. Таким образом, для каждого набора данных необходимо установить согласованные размеры логических записей и блоков.
В z/OS поддерживаются три формата логических записей: записи фиксированной длины, записи переменной длины, записи неопределенной длины. Записи фиксированной длины имеют постоянный размер и в языке управления заданиями идентифицируются символами F или FB в зависимости от выбранного способа блокирования записей:
Записи неопределенной длины ( идентификатор U ) характеризуются только размером блока и не содержат никакой информации о делении на логические записи.
Простые имена в составном имени принято называть квалификаторами.
Далее будут рассмотрены основные типы организации наборов данных, за исключением индексно-последовательных и наборов данных прямого доступа (не рекомендованы IBM к использованию как устаревшие) и HFS (будут рассмотрены в п. 5.1.6).
Последовательные наборы данных
При использовании записей фиксированной длины (форматы F и FB ) LRECL определяет размер каждой записи набора данных. Размер блока для формата FB выбирается кратным длине записи.
При использовании записей неопределенной длины (формат U ) система не поддерживает деления набора данных на логические записи и производит его обработку блоками фиксированного размера ( BLKSIZE ).