Что относится к средствам интеграции в business intelligence
Все о Process Mining от ProcessMi
Все о технологии Process Mining — кейсы, термины, решения и аналитика. Российский и зарубежный опыт от группы экспертов ProcessMi
BI — Business Intelligence (бизнес-аналитика, бизнес-анализ)
Business Intelligence (BI) – это совокупность методов и инструментов, применяемых в организациях любого масштаба, которые обеспечивают перевод информации в человекочитаемую форму, предназначенную для проведения бизнес-анализа.
Любопытно определение, данное BI крупным американским СМИ: “BI превращает данные в знания, а знания в бизнес-действия, которые приносят выгоду”.
Классический глоссарий и вовсе не дает конкретного определения понятию, а раскрывает BI-инструментарий: “Программное ПО, которое позволяет пользователям наглядно видеть и использовать большое количество различных массивов сложных данных при решении управленческих вопросов”.
История Business Intelligence (BI)
Впервые понятие BI увидело свет в 1958 году в материале представителя IBM Ганса Питера Луна. Современная трактовка же выросла из систем принятия решений, разрабатываемых в 80-ых.
Пользователи систем
Возможности BI
Возможности BI-систем, связанные с данными, можно разбить на четыре важнейших направления:
Системы такого класса могут поддерживать большое число аналитических признаков, а любую аналитику можно использовать как платформу для построения отчетов. Поправки можно внести за несколько кликов, что позволяет быстро реагировать на изменения в потребностях организации. В расчетах не участвуют устаревшие или неактуальные данные из-за их нахождения в ОП (расчет происходит в “режиме реального времени” – моменте запроса). Система не агрегирует данные, вследствие чего пользователи могут анализировать их на всех уровнях (рассматривать даже мелкие транзакции). Уровень производительности систем таков, что на платформе для анализа могут быть не только данные организации, но и её партнеров, клиентов, поставщиков.
Инструменты BI
Gartner выделяет следующие типы инструментария:
Преимущества
Технологии
Вендоры
Отчет Gartner за 2018 год гласит, что крупнейшими вендорами BI продолжают оставаться Qlik, Tableau и Microsoft. Среди других вендоров: Sisence, SAS, SAP, Birst, Looker, Domo, Oracle, Salesforce, IBM, TIBCO Software и др.
Примечательно, что в 2019 компания Qlik приобрела Attunity, Google выкупил Looker, а Salesforce заключил сделку с Tableau.
Средства Business Intelligence
Обзор подготовлен Наталией Елмановой.
Средства создания отчетов
Нередко в качестве средств создания отчетов применяются офисные приложения (в частности, Microsoft Office). Эти продукты обычно обладают развитыми средствами управления печатью документов, нередко обеспечивают доступ к данным с помощью какого-либо из универсальных механизмов доступа.
OLAP-средства
Технология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). Концепция OLAP была описана в 1993 г. Э. Ф. Коддом, известным исследователем баз данных и автором реляционной модели данных. В настоящее время поддержка OLAP реализована во многих СУБД и иных инструментах, будучи оптимальным решением для большого класса приложений, где пользователи сталкиваются с многомерными данными.
OLAP-кубы: немного технических деталей
Что представляют собой OLAP-данные? В качестве ответа на этот вопрос рассмотрим простейший пример. Предположим, в корпоративной базе данных некоего предприятия имеется таблица, содержащая сведения о продажах товаров или услуг, и данные из нее можно получить с помощью следующего запроса:
Предположим, нас интересует, какова суммарная стоимость заказов, сделанных клиентами из разных стран. В этом случае уместно выполнить запрос вида
и получить одномерный набор агрегатных данных (табл. 1).
Таблица 1. Одномерный набор агрегатных данных
Country | SUM (ExtendedPrice) |
Argentina | 7327.3 |
Austria | 110788.4 |
Belgium | 28491.65 |
Brazil | 97407.74 |
Canada | 46190.1 |
Denmark | 28392.32 |
Finland | 15296.35 |
France | 69185.48 |
Germany | 209373.6 |
. | . |
Если же мы хотим узнать, какова суммарная стоимость заказов, сделанных клиентами из разных стран и доставленных разными службами доставки, мы должны выполнить запрос, содержащий два параметра в предложении GROUP BY:
Таблица 2. Такой набор данных называется сводной таблицей
Country | ShipperName | ||
Federal Shipping | Speedy Express | United Package | |
Argentina | 1 210.30 | 1 816.20 | 5 092.60 |
Austria | 40 870.77 | 41 004.13 | 46 128.93 |
Belgium | 11 393.30 | 4 717.56 | 17 713.99 |
Brazil | 16 514.56 | 35 398.14 | 55 013.08 |
Canada | 19 598.78 | 5 440.42 | 25 157.08 |
Denmark | 18 295.30 | 6 573.97 | 7 791.74 |
Finland | 4 889.84 | 5 966.21 | 7 954.00 |
France | 28 737.23 | 21 140.18 | 31 480.90 |
Germany | 53 474.88 | 94 847.12 | 81 962.58 |
. | . | . | . |
Далее можно добавить в рассмотрение третий параметр, выполнив запрос, например, следующего вида:
и на основании результатов этого запроса построить трехмерный куб (рис. 1).
Рис. 1. Трехмерный OLAP-куб. |
Добавляя дополнительные параметры для анализа, теоретически можно создать куб с любым числом изменений, при этом наряду с суммами в ячейках OLAP-куба могут содержаться результаты вычисления иных агрегатных функций.
Рис. 2. Примеры несбалансированных иерархий в измерениях OLAP-кубов. |
Настольные OLAP-средства
OLAP-функциональность часто реализуется в продуктах, предназначенных для статистической обработки данных (в частности, в ПО компаний StatSoft и SPSS), а также в ряде генераторов отчетов (например, в Crystal Reports). Существуют также библиотеки классов или компонентов, применяемые в средствах разработки приложений и позволяющие создавать простейшие OLAP-решения.
Отметим, что весьма неплохими средствами многомерного анализа обладают электронные таблицы, в частности, Microsoft Excel начиная с версии 2000: с помощью Excel можно создавать и хранить в виде файла локальное многомерное хранилище агрегатных данных относительно небольшого объема и отображать двух- или трехмерные сечения полученного куба, а также создавать Web-страницы с внедренными элементами управления Office Web Components, обеспечивающими интерактивный просмотр OLAP-данных.
Настольные OLAP-средства обычно применяются при небольшом числе параметров и умеренном разнообразии их значений, поскольку полученные агрегатные данные должны размещаться в адресном пространстве такого приложения, а при увеличении числа параметров объем занимаемой данными оперативной памяти увеличивается экспоненциально. Именно поэтому даже самые примитивные клиентские OLAP-средства обычно содержат инструменты предварительного подсчета объема оперативной памяти, который потребуется при создании и отображении многомерного куба.
Серверные OLAP-cредства
Многие настольные OLAP-средства позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих подобные запросы. Так, Microsoft Excel, начиная с версии 2000, может обращаться к многомерным хранилищам данных Microsoft SQL Server 7.0 OLAP Services и Microsoft SQL Server 2000 Analysis Services и отображать в виде сводных таблиц и диаграмм подмножества данных, хранимых на этих OLAP-серверах.
Средства Data Mining
Немного о стандартах в области BI
BI-средства масштаба предприятия и средства разработки
Как было сказано выше, к современным средствам Business Intelligence относятся также средства разработки BI-приложений (BI Platforms) и средства анализа и обработки данных масштаба предприятия, позволяющие осуществлять весь комплекс действий, связанных с анализом данных и созданием отчетов (Enterprise BI Suites).
Рис. 3. «Магический квадрат» для Enterprise BI Suites. Источник: Gartner Group, http://mediaproducts.gartner.com/reprints/cognos/116968.html. |
Рис. 4. «Магический квадрат» для BI Platform. Источник: Gartner Group, http://mediaproducts.gartner.com/reprints/cognos/116968.html. |
Ведущие поставщики и их продукты
В этом разделе мы кратко рассмотрим, какие категории продуктов выпускают лидеры рынка средств Business Intelligence.
Business Objects
Помимо средств общего назначения, компания Business Objects предлагает широкий спектр аналитических решений для вертикальных рынков, а также дополнений к ERP-, CRM, SCM-системам ведущих производителей и средства доставки BI-наполнения пользователям.
Cognos
Помимо BI-средств, Cognos поставляет решения, созданные на их основе, а также дополнения к ERP-, CRM, SCM-системам ведущих производителей.
Information Builders
Microsoft
Компания Microsoft (http://www.microsoft.com) вышла на рынок средств Business Intelligence достаточно недавно, но при этом ей удалось значительно расширить его за счет компаний, нуждающихся в относительно недорогих аналитических решениях.
Аналитические службы Microsoft SQL Server 2000 позволяют работать с любыми реляционными данными, доступными с помощью OLE DB, содержат два алгоритма Data Mining и могут также использовать алгоритмы Data Mining, разработанные сторонними производителями. Клиентские средства могут обращаться к данным, хранящимся на этих серверах, с помощью OLE DB; отметим, что есть возможность обращаться к аналитическим службам из приложений Microsoft Office последних трех версий, а также создавать клиентские приложения для аналитических служб на его основе.
Oracle
Отметим, что, помимо собственно OLAP-сервера, средств доступа к OLAP-данным и средств создания BI-приложений, Oracle поставляет ряд готовых аналитических решений на их основе.
Компания SAS (http://www.sas.com) поставляет на рынок около 100 продуктов и готовых решений, в целом поддерживающих все направления Business Intelligence: средства разработки приложений, предназначенных для доступа к данным, управления ими, а также для анализа и представления данных; серверные OLAP-средства, позволяющие создавать хранилища OLAP-данных; средства создания отчетов. Среди продуктов SAS имеются также средства Data Mining, позволяющие составлять бизнес-прогнозы.
Другие статьи из раздела
Chloride
Демонстрация Chloride Trinergy
Впервые в России компания Chloride Rus провела демонстрацию системы бесперебойного электропитания Chloride Trinergy®, а также ИБП Chloride 80-NET™, NXC и NX для своих партнеров и заказчиков.
NEC Нева Коммуникационные Системы
Завершена реорганизация двух дочерних предприятий NEC Corporation в России
С 1 декабря 2010 года Генеральным директором ЗАО «NEC Нева Коммуникационные Системы» назначен Раймонд Армес, занимавший ранее пост Президента Shyam …
компания «Гротек»
С 17 по 19 ноября 2010 в Москве, в КВЦ «Сокольники», состоялась VII Международная выставка InfoSecurity Russia. StorageExpo. Documation’2010.
Новейшие решения защиты информации, хранения данных и документооборота и защиты персональных данных представили 104 организации. 4 019 руководителей …
МФУ Panasonic DP-MB545RU с возможностью печати в формате А3
Хотите повысить эффективность работы в офисе? Вам поможет новое МФУ #Panasonic DP-MB545RU. Устройство осуществляет
Adaptec by PMC
RAID-контроллеры Adaptec Series 5Z с безбатарейной защитой кэша
Опытные сетевые администраторы знают, что задействование в работе кэш-памяти RAID-контроллера дает серьезные преимущества в производительности …
Chloride
Трехфазный ИБП Chloride от 200 до 1200 кВт: Trinergy
Trinergy — новое решение на рынке ИБП, впервые с динамическим режимом работы, масштабируемостью до 9.6 МВт и КПД до 99%. Уникальное сочетание …
Business Intelligence: что такое BI-система и зачем она нужна бизнесу
Создайте рассылку в конструкторе за 15 минут. Отправляйте до 1500 писем в месяц бесплатно.
Отправить рассылку
Business Intelligence, или BI-системы — это набор инструментов и технологий для сбора, анализа и обработки данных. Например, в компании для приёма заявок используют несколько каналов и нужно собрать единую статистику продаж. Или рекламные кампании охватывают несколько площадок и необходимо сравнить их эффективность. Все эти процессы можно настроить через BI-систему.
Необработанную информацию из разных источников посредством BI преобразуют в удобную и понятную аналитику. BI-системы (Microsoft Power BI, Tableau, Qlik) можно применять в любой отрасли или сфере деятельности — как на уровне компании в целом, так и для подразделений или отдельных продуктов.
Как работают BI-системы
Для обычного пользователя принцип действия BI-системы выглядит просто: к системе подключают источники данных, далее информация направляются в единое хранилище и обрабатываются, а затем демонстрируются в виде готовых отчётов. Источниками данных выступают различные системы — облачные (Oracle Cloud, Google BigQuery, Microsoft Azure и другие веб-подключения), файловые (Excel, XML, PDF и иные табличные файлы), реляционные (SQL Server, MySQL, Oracle).
Пример отчета о глобальных продажах магазина в Power BI
Чтобы использовать BI-систему пользователю не нужно обладать специальными IT-познаниями. С помощью понятного интерфейса можно запросить нужный отчёт и получить доступ к аналитике. Система сформирует удобный дашборд — информационную панель, на которой визуально представленные данные сгруппированы по смыслу. Все данные на дашборде — интерактивные. Графики можно увеличивать и перестраивать. Можно просматривать источники информации и детально изучать показатели аналитики. Для отображения доступны разные форматы — отчёты, таблицы, графики, диаграммы.
За простым использованием системы скрываются сложные процессы обработки данных и формирования расширенной аналитики. В состав BI-решения входят:
BI-системы поддерживают множество бизнес-решений — от операционных до стратегических. С помощью технологий анализируют огромные объёмы информации. Но внимание пользователя акцентируется только на ключевых факторах аналитики, которые позволяют смоделировать варианты последующих действий и бизнес-решений.
Принцип работы BI-системы на примере Power BI
Важно, что любая компания может адаптировать BI-систему под свои потребности. Например, выбрать источники данных, задать принцип обработки информации, определить формат отчётности.
BI-системы особенно полезны, если объединяют сведения с рынка и информацию из финансовых и производственных источников компании. Совокупность внешних и внутренних данных даёт полное представление ситуации в бизнесе. Такую картину невозможно получить при анализе одного источника и ограниченной аналитике.
Зачем внедрять BI-системы в бизнесе
Компании оперируют огромными объемами данных. Например, считают расходы и выручку, определяют чистую прибыль, анализируют трафик и количество заявок, отслеживают выпуск продукции. Все данные для аналитики хранятся в разных форматах и различных системах.
Чтобы обработать информацию, аналитики сначала собирают все данные в одну таблицу, затем сортируют и оставляют только нужные показатели, а потом сравнивают показатели с прошлыми отчётами. Такая работа отнимает десятки часов еженедельно. При этом в процессе формирования отчёта показатели могут утратить актуальность. К тому же аналитики могут ошибиться или собрать неполные данные. Итоговый отчёт может оказаться бесполезным.
Вручную собрать и обработать все данные компании невозможно. Часть информации так и остаётся необработанной. Компания может случайно пропустить заявки клиентов, своевременно не узнать о сбоях производства, потерять деньги из-за игнорирования проблем.
Основные задачи, решаемые посредством систем BI:
Общая цель Business Intelligence — предоставление бизнесу возможности принятия обоснованных решений с учётом полной аналитики. У компании, внедрившей BI, будут полные, точные и организованные данные.
Панель анализа клиентов в Microsoft Power BI
Благодаря BI-системам компаниям не нужно нанимать специалистов по data science (наука о данных) — система соберет все «сырые» данные, самостоятельно обработает их и автоматически покажет информацию, с которой можно работать.
Как понять, что компании нужно использовать Business Intelligence
Любая компания в любой отрасли может применять Business Intelligence. Особенно задуматься о внедрении BI-систем стоит, если:
BI-системы могут стать ценным инструментом для принятия решений и разработки стратегии. Полученные данные можно использовать в самых разных сферах — маркетинге, продажах, поставках, финансах. Например, можно:
Business Intelligence выводит работу компании на новый уровень. Постоянный мониторинг данных позволяет принимать более продуманные и своевременные решения. Доступность исторических и текущих данных помогает строить верные прогнозы для бизнеса. Оперативный доступ сотрудников к аналитике и операционным данным повышает качество работы и одновременно снижает трудовые и временные затраты.
Как выбирать программное обеспечение для внедрения BI
Существует достаточно много надёжных поставщиков BI-инструментов. Например, популярны платформы Microsoft, Tableau, Qlik. Также востребованы системы Zoomdata, Sisense, Information Builders.
Можно выделить несколько факторов, на которые стоит обратить внимание при выборе эффективной BI-системы:
Нельзя сказать, какое BI-решение является самым лучшим. Компании выбирают платформу BI с учётом различных критериев и собственных возможностей.
Примеры BI-систем
Tableau
Система выполняет углубленный анализ информации и представляет результаты на информационной интерактивной панели в режиме реального времени. Источниками данных для аналитики могут быть любые источники с программным интерфейсом.
Над отчётом могут работать одновременно несколько пользователей. При этом пользователи могут самостоятельно создавать необходимые инструменты или использовать готовые решения. Результатом можно делиться через системный сервер, по ссылке или email.
Tableau работает в вебе, на десктопе и мобильных устройствах.
Пример визуализации данных в Tableau
Power BI
Сервис от Microsoft предназначен для анализа и визуальной демонстрации больших объёмов информации. Можно подключать разные источники данных, в том числе собственные приложения.
Система совместима с продуктами MIcrosoft (MS Excel, SQL Server, Azure Cloud Service). Интерфейс программы разработан по подобию Windows.
Сервис функционирует на любых платформах: в облаке, на десктопе и смартфонах. Интерактивные дашборды показывают данные в реальном времени и доступны на любом устройстве. Пользователи могут делиться отчётами несколькими способами.
Выбор диаграммы для представления результатов в Power BI
BI-система предусматривает импорт информации из различных источников. Данные проходят обработку в оперативной памяти. Созданные визуализации можно корректировать, дополнять любыми фильтрами. В Qlik доступна совместная работа над отчётами.
Платформа доступна для корпоративного и персонального использования. При этом продукт работает на десктопе, в облачной версии и на любых устройствах с наличием браузера. Для всех версий предусмотрен одинаковый алгоритм аналитики.
Отчёт по анализу бюджета в Qlik
Business Intelligence превращает множественные разрозненные данные в полезную информацию для руководства и управления бизнесом, проверки гипотез и принятия решений. Компании, которые используют стратегии BI, располагают точными, полными и организованными данными. Это помогает оценить текущее состояние бизнеса, выявить проблемы и возможности, спланировать будущее развитие.
Business Intelligence на больших данных — наш опыт интеграции
В вопросах производительности BI обычно приходится искать компромисс между скоростью работы аналитики и объемами данных, над которыми она реализована. Мы попробовали “убить двух зайцев” сразу, и сегодня я хочу поделиться нашим опытом интеграции Visiology с платформой Arenadata при построении гибридной модели работы BI.
Если вы читаете наш блог, то уже знаете о платформе Visiology хотя бы в общих чертах (если нет, это можно легко исправить, прочитав наш первый пост). Но сегодня речь пойдет не только о платформе Visiology и BI как таковых, но также о наших новых друзьях Arenadata. А точнее, об интеграции, которая позволила реализовать гибридную работу аналитики с большой скоростью и на больших объемах данных.
Зачем потребовалась интеграция Arenadata и Visiology?
Подходов к работе BI-систем на сегодняшний день несколько. Но когда речь идет о больших данных для самых разных задач, обычно используется ROLAP. Работает он достаточно просто: когда пользователь нажимает что-то на дашборде, например, выбирает какой-то фильтр, внутри платформы формируется SQL-запрос, который уходит на тот или иной бэкэнд. В принципе, под системой BI может лежать любая СУБД, которая поддерживает запросы — от Postgres до Teradata. Подробнее о схемах работы OLAP я рассказывал здесь.
Но даже с колоночной СУБД есть свои минусы при работе с BI, и самый первый из них — это более низкая эффективность использования кэша на уровне платформы в целом, потому что СУБД, в отличие от самой BI-платформы, «не знает» многого о поведении пользователей и не может использовать эту информацию для оптимизации. Когда большое количество пользователей начинают работать, по-разному делать запросы и обращаться к дашбордам, требования к железу, на котором крутится СУБД — даже хорошая, аналитическая и колоночная — могут оказаться очень серьезными.
Второй вариант — это In-memory OLAP. Он подразумевает перенос всех обрабатываемых данных в специальный движок, который молниеносно прорабатывает базу в 200-300 Гб — это порядок единицы миллиардов записей. Кстати, подробнее про ограничения In-Memory OLAP я уже рассказывал здесь. На практике встречаются инсталляции In-Memory OLAP, укомплектованные 1-2-3 терабайтами оперативной памяти, но это скорее экзотика, причем дорогостоящая.
Практика показывает, что далеко не всегда можно обойтись тем или иным подходом. Когда требуются одновременно гибкость, возможность работы с большим объемом данных и поддержка значительного количества пользователей, возникает потребность в гибридной системе, которая с одной стороны загружает данные в движок In-Memory OLAP, а с другой — постоянно подтягивает нужные записи из СУБД. В этом случае движок OLAP используется для доступа ко всему массиву данных, без всяких задержек. И в отличие от чистого In-Memory OLAP, который нужно периодически перезагружать, в гибридной модели мы всегда получаем актуальные данные.
Такое разделение данных на “горячие” и “холодные” объединяет плюсы обоих подходов — ROLAP и In-Memory, но усложняет проект внедрения BI. Например, разделение данных происходит вручную, на уровне ETL процедур. Поэтому для эффективной работы всего комплекса очень важна совместимость между бэкэндом и самой BI-системой. При том, что SQL-запросы остаются стандартными, в реальности всегда есть аспекты их выполнения, нюансы производительности.
Arenadata и Arenadata QuickMarts
Платформа данных Arenadata состоит из нескольких компонентов, построенных на базе открытых технологий, и используется многими российскими и зарубежными компаниями. В состав решения входит собственное MPP решение на базе Greenplum, дистрибутив Hadoop для хранения и обработки неструктурированных и слабоструктурированных данных, система централизованного управления ADCM (Сluster Management) на базе Ansible и другие полезные компоненты, в том числе Arenadata QuickMarts (ADQM).
СУБД ADQM — это колоночная СУБД от Arenadata, построенная на базе ClickHouse, аналитической СУБД, которую развивает Яндекс. Изначально ClickHouse создавалась для внутреннего проекта Яндекс.Метрика, но эта СУБД очень понравилась сообществу. В результате исходный код ClickHouse был переведен в OpenSource (лицензия Apache-2) и стал популярен по всему миру. На сегодняшний день насчитывается порядка 1000 инсталляций ClickHouse по всему миру, и только 1/3 из них в России. И хотя Яндекс остается основным контрибьютором развития СУБД, лицензия Apache-2 позволяет абсолютно свободно использовать продукт и вносить изменения в проект.
Современная колоночная СУБД использует аппаратную оптимизацию CPU (SSE). ClickHouse может очень быстро выполнять запросы за счет векторных оптимизаций и утилизации всего ресурса многоядерных CPU. На базе ClickHouse работают огромные кластера — сам Яндекс растягивает эту СУБД на несколько сотен серверов. Это гарантирует, что вместе с этим решением вы можете масштабироваться в достаточно больших объемах.
Но главная фича ClickHouse в нашем контексте — это эффективная работа с достаточно специфическими аналитическими запросами. Если витрины уже отстроены и вам нужно предоставить доступ пользователей к BI с минимальной латентностью, эта история как раз для ClickHouse. Эта СУБД прекрасно справляется с запросами без джойнов и соединений.
Во многих сравнениях ClickHouse дает серьезную фору даже классическим СУБД, например, той же Oracle Exadata. Результаты этих тестов можно найти на ресурсах Яндекса.
Производительность QuickMarts
Типичные запросы быстрей чем за секунду
> 100 раз быстрей чем Hadoop и обычные СУБД
До 2 терабайт в секунду для кластера на 400 нод
Но вернемся к Arenadata QuickMarts. Это сборка ClickHouse, которая немного отличается от сборки Яндекса. Наши коллеги из Arenadata даже позже выпускают релизы, потому что проводят больше тестов, чтобы серьезные задачи в продакшене работали только на стабильных версиях.
При этом установка и настройка ADQM происходит из Arenadata Cluster Manager. Кастомизированная СУБД обладает расширенными механизмами авторизации пользователей, a также средствами мониторинга на базе Graphite и Grafana. Но самое главное, что QuickMarts изначально располагает готовыми коннекторами и прозрачно взаимодействует с другими компонентами платформы, в т.ч. с ADB (Greenplum), что позволяет по мере необходимости подгружать данные из ADB в ADQM.
В нашем случае QuickMarts используется для работы с витринами, к которым через BI обращаются сотни или тысячи пользователей. Архитектура системы позволяет выдать им данные “здесь и сейчас”, а не ждать 20-30 секунд, когда обработается их запрос по витринам в более медленной СУБД.
Как работает интеграция Arenadata и Visiology
Когда Visiology используется вместе с Arenadata, схема работы системы выглядит следующим образом. Основное хранилище данных может быть реализовано на базе ADB (GreenPlum), из которой создаются витрины данных, хранящиеся уже в ADQM. За счет интеграции между компонентами решения система работает как единое целое, а необходимые для запросов данные поднимаются на нужный уровень автоматически.
Фактически в аналитической системе создается только один дашборд, а графику обрабатывает движок In-Memory ViQube — ядро платформы Visiology. Пользователь лишь выбирает те или иные фильтры, а задача по выгрузке самих транзакций выполняется уже на бэкенде ресурсами QuickMarts.
Раньше подобная интеграция была только с Vertica, но сейчас мы совместно с коллегами сделали интеграцию для Arenadata QuickMarts. Это радостная новость для сторонников ClickHouse, потому что BI работает с популярной СУБД по гибридной схеме. При этом Arenadata DB, выполняющая функцию корпоративного хранилища данных, обеспечивает необходимую трансформацию данных для дальнейшей работы QuickMarts и Visiology.
Все запросы BI обрабатываются движком ViQube. Если пользователь обращается к тем данным, которых нет в памяти, система автоматически генерирует SQL-запрос, который выполняется на Arenadata QuickMarts.
Чтобы все это заработало, мы реализовали поддержку диалекта ClickHouse для основных аналитических функций и добавили автоматическое переключение между режимами работы OLAP в зависимости от того, где находятся данные на самом деле. Однако для пользователя все остается предельно прозрачным: он даже не знает, как работает система — просто делает запросы в интерфейсе BI и получает результаты, причем достаточно быстро.
Конечно, у такой схемы есть и свои минусы. Например, учитывая ограничения SQL, не все аналитические функции будут доступны на полном объеме данных. Но зато появляется возможность отрабатывать огромное количество транзакций, для большого количества людей, которые в основном изучают тренды на готовых дашбордах, и лишь иногда ищут конкретные записи.
Развиваемся дальше
Сейчас интеграция находится на стадии версии v1.0, и мы планируем дальнейшие доработки. В частности, уже сейчас речь идет о том, чтобы расширить набор доступных аналитических возможностей, а также об интеграции в единую консоль управления (например, у Arenadata есть решение Cluster Manager (ADCM), которое позволяет управлять всеми компонентами ландшафта из единой консоли, рассматриваем это как один из вариантов).
Будем признательны, если вы напишете в комментариях, с какими сценариями запуска BI на больших данных вы сталкивались. Ну а мы всегда готовы поделиться своим опытом в деталях!