Сегодня компаниям как никогда нужна отдельная стратегия интеграции корпоративных данных. Пользователи уже давно сталкиваются с проблемой получения целостной унифицированной картины при изучении информации из разных источников и местоположений. С появлением мультиклауда и расширением мультиоблачных пакетов ситуация стала еще сложнее. Именно поэтому мы решили обратиться к опыту компании TDWI и изучили три ключевые стратегии, с помощью которых виртуализация данных упрощает управление информацией в гибридных и мультиоблачных средах.
1. Для интеграции данных используйте виртуализацию
Многим компаниям до боли знакома следующая история. Данные по обслуживанию клиентов и продажам собираются в систему CRM, которая является SaaS-продуктом. В свою очередь, специалисты, занимающиеся маркетинговой аналитикой, создают в облаке озеро данных, для которого применяются технологии Hadoop и NoSQL, чтобы с помощью машинного обучения получить нужные прогнозы на полуструктурированных или вообще не структурированных данных. В то же время другие подразделения разворачивают собственные хранилища данных, пользуясь при этом услугами разных облачных провайдеров. В результате при интеграции и подготовке данных, например для построения отчетов BI, мы имеем многочисленные этапы работы и процедуры ETL (Extract, Transform, Load), каждая из которых предназначена для конкретного случая использования.
Такая разрозненность данных и разнообразие облачных ресурсов заметно усложняет получение целостного видения существующей корпоративной информации. Однако решить эту проблему возможно с помощью виртуализации данных, которая позволяет пользователям сформировать единое логическое представление объединенных разнородных данных. При этом нет необходимости их интегрировать, перемещая в одно консолидированное место. Слои виртуализации объединяют запросы к различным источникам и выполняют необходимые манипуляции — пользователю совершенно не обязательно знать, где именно находятся нужные ему данные.
Подготовительные этапы для работы с данными также управляются на уровне виртуализации, что помогает сэкономить время, обычно затрачиваемое на реализацию data pipeline (алгоритма работы с данными) для извлечения нужной информации из каждого источника. Виртуализация обеспечивает единую точку централизованного доступа для каждого пользователя, каждого облачного экземпляра приложения или другой операционной или аналитической потребности, возникающей, когда проводится межоблачная интеграция данных.
В качестве логической, а не физической стратегии интеграции, виртуализация поможет упростить процесс получения полного представления о данных, которые могут быть расположены как на локальных площадках, так и на платформах нескольких облачных провайдеров.
2. Обеспечьте прозрачный доступ к мультиоблачным данным
Облегчение доступа к данным со стороны бизнес- или дата-аналитиков должно являться приоритетом для организаций, применяющих data-driven подход. Вместо того, чтобы предоставлять возможности визуализации и анализа только избранным пользователям, компании могут развертывать «инструменты самообслуживания» (каталоги данных) для нетехнических руководителей или, например, менеджеров бизнес-направлений.
Отметим, что лишь небольшая часть компаний довольна тем, насколько легко их сотрудники могут получить доступ к требуемой информации из локальных или облачных хранилищ. С помощью виртуализации можно объединить данные из разнородных источников и при этом изолировать пользователей от изменений информации. Это также дает организациям большую гибкость при миграции с одной облачной платформы на другую, не вызывая неудобств для пользователей.
Для виртуализации данных широко применяются метаданные, что подчеркивает важность каталогов и репозиториев для расширения доступа к информации. Каталог — это эффективный способ документирования объектов, доступных для использования (например, таблицы или веб-службы). С его помощью пользователи могут видеть, какие объекты доступны, но не знают их местоположение и формат. Это может быть полезно при работе со сложными ИТ-системами — такими как гибридные или мультиоблачные среды.
3. Снижайте миграцию или движение данных
Организациям важно проанализировать, как они могут сократить миграцию или движение данных, ведь именно эти процессы отнимают больше всего времени, когда осуществляется инеграция данных. Обычно они включают в себя этапы извлечения, репликации, подготовки и загрузки, на каждом из которых могут происходить ошибки или замедление работы сети, требующие перезапуска целых циклов. В результате работа приложений дает сбой, поскольку приходится ждать завершения всех процессов.Взрывной рост данных усугубил эту проблему. Организациям, решившим перейти в облако, приходится перемещать большие объемы исходных данных по сети в облачные озера данных или из хранилищ SaaS в системы других облачных провайдеров. Естественно, интенсивное движение и миграция информации создает нагрузку на сети из-за увеличения трафика. Решения для виртуализации могут сократить перемещение данных путем объединения запросов из различных источников. Они ускоряют запросы с помощью технологии push down, использующей мощности платформ, на которых размещены данные. Например, это могут быть озера данных или облачные хранилища, работающие на кластерах базы данных с массовой параллельной обработкой (MPP), что ускоряет производительность агрегатных функций и других операций запросов. Некоторые решения включают методы оптимизации запросов на самом уровне виртуализации, что повышает эффективность и сокращает движение данных по сети. Однако организациям также следует подумать о том, как использовать виртуализацию данных для повышения эффективности запросов и сокращения задержек при получении ответов для пользователей.
Заключение
Работа с неструктурированными данными, распределенными по локальным и облачным платформам нескольких провайдеров, всегда требует много времени и ресурсов. Однако организации могут использовать виртуализацию данных для того, чтобы модернизировать свои стратегии интеграции, обеспечить простой доступ сотрудникам и уменьшить потребность в перемещении информации, которая часто возникает при работе в гибридных или мультиоблачных средах.
По материалам TDWI