Корпоративные ИТСети и инфраструктура

Данные для ML отправляются в облака

Раньше компании не знали где хранить и как обращаться с колоссальным количеством данных, полученным благодаря сравнительно новым источникам информации (социальные сети, смартфоны, Интернет вещей). Сейчас они активно используют их для интеллектуального анализа и размещают эти данные в облаке. В связи с чем возникает вопрос: какие именно данные, используемые для целей машинного обучения (machine learning, ML) и, следовательно, умной аналитики, хранятся в облаках? Для ответа мы обращаемся к опыту немецких компаний.

В топе — финансы и IoT

То, что вы не способны измерить, тем вы, соответственно, не сможете управлять. Количественная оценка данных становится для бизнеса все более востребованной, так как дает объективное представление о ценности бизнес-процессов.

Cогласно Crisp Research, большинство немецких компаний берут данные из уже установленных систем ERP (Enterprise resource planning), прежде всего из приложений SAP. Финансовые показатели всегда находятся в центре внимания любой коммерческой организации. Их «подают» в системы машинного обучения 59% немецких компаний. К тому же, по данным  BARC, за последние десять лет количество решений для BI (business intelligence) и аналитики выросло с 300 до 600 (что, скорее всего, коррелирует с растущими объемами информации).

Не менее популярны для анализа и производственные данные: их используют для машинного обучения 43% компаний. Компании собирают данные по всем производственным процессам, как правило, преследуя две цели: повысить эффективность производства существующих продуктов и усовершенствовать разработку новых решений. Также активно продолжает проникать на немецкие заводы и фабрики Интернет вещей. Машины и датчики генерируют все больше и больше информации. И, например, в рамках обслуживания оборудования сбор таких данных помогает отслеживать износ компонентов и автоматически оптимизировать план технических работ. При доле в 66% трафик с машин и датчиков IoT составляет большую часть данных, используемых для машинного обучения, в немецких компаниях.

Фокус на облачном хранилище данных

Машинное обучение, интеллектуальное обслуживание, умная аналитика — все это возможно только при наличии достаточного количества данных в облачных дата-центрах. Для машинного обучения нужны быстро реагирующие системы хранения, которые можно легко масштабировать. Но решающими факторами при выборе подходящего решения для большинства компаний являются его стоимость, а также степень безопасности и защиты данных. Недостаточно просто хранить данные в облаке — помимо вышеупомянутых критериев, система для хранения информации, адаптированная под потребности машинного обучения, также должна отвечать современным требованиям. Вот некоторые из них.

1. Неограниченный масштаб хранения. Для обучения алгоритмов и точных решений нужны большие наборы данных. Управление такими датасетами требует систем хранения, которые могут масштабироваться без ограничений. К тому же исходные наборы данных будут расширяться в процессе использования.

2. Важные метаданные. В machine learning метаданные являются ключом к извлечению ценности из собранной информации. Хранение объектов позволяет описывать данные с помощью неограниченного набора тегов, чтобы упростить поиск определенных элементов в наборе. 

3. Гибридная архитектура. Алгоритмы учатся на разных типах данных, которые требуют различных возможностей производительности. Поэтому в системах должны правильно сочетаться различные технологии хранения, чего  можно достичь, благодаря, например, гибридной архитектуре. Для больших массивов данных иногда требуются гипермасштабируемые ЦОДы со специально разработанной серверной архитектурой. 


4. Локальность и облачная интеграция. Хотя многие данные для ML хранятся в облаке, некоторая их часть по-прежнему остается в локальных ЦОД. Причин этому несколько — например, желание сэкономить или возможные проблемы с комплаенсом. Однако независимо от того, находятся ли данные в облаке или где-то еще, интеграция с  облаком является одним из ключевых  требований, так как только облачные интегрированные локальные системы хранения объектов обеспечивают максимальную гибкость при использовании облачных ML-инструментов. Локальное решение должно иметь возможность упрощать поток между двумя средами, а не ограничивать его.

Заключение

Исследования показывают, что немецкие компании для целей машинного обучения и умной аналитики в основном размещают три типа данных: финансовые, производственные и собранные с датчиков и машин IoT. Как правило, большую часть этой информации организации предпочитают размещать в облачных хранилищах данных, так как те, благодаря своей гипермасштабируемости, гибкости и производительности, соответствуют  ключевым критериями для работы с большими массивами данных.

Помогите нам стать лучше!

Пожалуйста, оцените этот материал, нажав на звёздочки ниже.

Средний рейтинг:

Теги

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Back to top button