Les bases de l’automatisation des pipelines de données
Comme de très nombreuses entreprises, vous utilisez sûrement de multiples pipelines de données (data pipelines), probablement de nombreux types différents. Vous avez peut-être déjà entendu parler d’enchaînement ETL (extract, transform, load), mais un enchaînement de données n’est pas exactement la même chose. Un enchaînement ETL est un sous-ensemble d’un enchaînement de données avec ses propres caractéristiques. Les plateformes d’orchestration proposent désormais d’intégrer l’automatisation ETL et d’autres enchaînements de données pour une plus grande fluidité de fonctionnement et facilité d’administration.
Qu’est-ce qu’un pipeline de données ?
Le terme générique de pipeline de données désigne tout simplement un système IT permettant de déplacer des données d’un système vers un autre. Les entreprises utilisent de tels enchaînements de données à différentes fins, notamment :
- Pour la manipulation de gros volumes de données de différentes sources
- Pour automatiser l’entreposage de données
- Pour l’analyse de données
- Pour optimiser le stockage cloud
- Pour administrer des sources de données séparées ou « en silo »
Dans certains enchaînements, les données sont traitées en temps réel (« streamed »), mais ce n’est pas toujours le cas. Les données de l’enchaînement peuvent être chargées dans une base de données ou un entrepôt, ou à destination d’autres cibles, de type lac de données, bucket Amazon Web Services (AWS), appli de visualisation, ou encore Salesforce.
Dans certains enchaînements, les données sont « transformées », dans d’autres, non. Les données transformées sont converties dans un format facilement utilisable par différentes applications.
Il existe trois grands types d'enchaînements, selon l’objet visé. Certains appartiennent à plusieurs catégories. Et différents outils d’enchaînement de données et de gestion de workflow interviennent.
- Temps réel. Les enchaînements de données en temps réel sont optimisés pour traiter les données dès qu’elles arrivent. C’est le cas pour les données provenant d’une source de streaming, les données des marchés financiers ou les données télémétriques des objets connectés de l’Internet des objets (IoT).
- Par lots (Batch). Les enchaînements de données par lots sont recommandés pour les déplacements de gros volumes de données à intervalles réguliers, sans que ce soit en temps réel. Ce peut être le cas pour des données marketing transférées une fois par semaine vers un entrepôt de données pour analyse ultérieure. Les données peuvent y être stockées par lots en attente d’être traitées.
- Cloud (Cloud-native). Ces enchaînements optimisés pour les données basées dans le cloud sont capables de créer des charges complexes de traitement de données. C’est le cas d’AWS Data Pipeline, un service web Amazon permettant de transformer et d’automatiser les données dans le cloud. On recommande d’utiliser un enchaînement cloud-native pour migrer des informations dans le cloud en vue d’une analyse hautement sophistiquée.
Pipeline de données vs. ETL
Les enchaînements de données ETL sont utiles pour centraliser des sources de données disparates afin d’obtenir une version consolidée d'information de différents systèmes, d’applications, de banques de données, de systèmes métier et de capteurs. Ce ne sont pas des enchaînements temps réel. Les enchaînements ETL s’exécutent généralement par lots. Il est possible, par exemple, de configurer l’exécution de lots la nuit, à 1h, quand le trafic est au plus bas.
Avant la transformation, l’information est extraite de plusieurs sources hétérogènes. Une fois les données transformées dans un même format, elles peuvent être chargées dans un entrepôt de données ETL ou une base de données quelconque
Plateformes d’orchestration pour l’automatisation des enchaînements de données
Les enchaînements ETL sont souvent réalisés par un système tournant sur IBM i ou z/OS. Le problème le plus courant réside dans le transfert de ces données dans des applis de tiers aux fins de traitement, d’analyse et de reporting, puis de communication du résultat aux utilisateurs concernés.
Une plateforme d’orchestration comme OpCon peut servir de passerelle entre les systèmes, constituant un point d’intégration. OpCon communique avec de très nombreuses applis de tiers, legacys, cloud et hybrides, via un connecteur dédié, un agent ou une API (application programming interface).
OpCon est à la fois flexible et rétro compatible, si bien que la plateforme peut aussi bien communiquer avec un serveur IBM vieux de 25 ans qu’avec un cluster de conteneurs Kubernetes hébergé dans le cloud sur AWS. OpCon sait transférer les données là où vous le lui désignez. Rien que les intégrations ETL couvrent les bases de données Informatica, Oracle, MYSQL, Teradata et Mongo DB.
Une plateforme d’orchestration sert également de point de contrôle unique pour l’automatisation de tous les pipelines de données. Beaucoup d’entreprises ont des applis de pipeline de données, mais nombre des processus de transfert des données d’un bout à l’autre de l’enchaînement sont soit manuels, soit insuffisamment automatisés. En tant que point de contrôle unique, OpCon constitue une alternative bien orchestrée aux multiples interfaces de contrôle des processus automatisés.
Le reporting est un autre aspect clé du processus d’automatisation. Les applis de tiers n’offrent généralement que des fonctions d’ordonnancement limitées pour produire les rapports. OpCon se distingue par ses options avancées d’ordonnancement et de transfert des rapports, de façon à informer systématiquement les décideurs de l’avancement des processus d’automatisation des enchaînements de données.
Vous aimeriez en savoir plus sur la façon dont votre entreprise pourrait utiliser l’automatisation pour orchestrer ses pipelines de données ? Renseignez le formulaire ci-dessous afin que nous puissions discuter de vos problématiques.
Dans cet article
Qu’est-ce que l’automatisation des pipelines de données et quels outils peuvent vous aider ? Nous répondons à ces questions et vous informons.