data lake architecture big data hadoop

J’aurais aussi bien pu appeler cet article « Pourquoi est-ce qu’il est temps de vous intéressez à Hadoop »  car il me paraît important d’ouvrir encore les horizons pour que vous soyez mieux informés et mieux armés. Big Data, Data Lake, Data Hub, Hadoop, ne sont pas que des mots ou que du marketing.

Ce type d’architecture a autant d’impact que le web en a eu lors de son arrivée dans nos vies et dans nos entreprises !

 

Expliquer

J’imagine que vous avez beaucoup entendu parler de prévision, de prédictif, ou même de machine learning, voir deep learning… Vous vous êtes sans doute dit que tout ça ce n’est pas pour vous. N’est-ce pas ? Peut-être, je vous l’accorde.

En tous les cas, il est certain que vous voudriez pouvoir expliquer votre chiffre d’affaires, une bonne ou mauvaise performance… Décisionnel, c’est le mot en français qui désigne l’intelligence des affaires, encore appelé Business Intelligence. C’est ce dont il est question ici. Il est important que dans vos affaires vous sachiez prendre vos décisions à partir des faits, donc des chiffres, c’est-à-dire des données !

J’ai passé quelques mois dans une fonderie. J’adorais voir les fondeurs plonger leurs mains dans le sable, le serrer très fort et lancer « C’est une bonne journée aujourd’hui, on va bien fondre ! »

L’expérience, c’est ce sur quoi se basent les fondeurs, ici.

 

datalake hadoop architecture big data

Photo by Markus Spiske on Unsplash

 

Vous aussi, vous avez vos intuitions, et loin de moi l’idée de vous les ôter ! Mais pour expliquer des faits, s’appuyer sur le réel c’est sans doute mieux. Vos intuitions n’en seront que mieux confortées ! C’est pour cela qu’il vous faut des données.

Ainsi et désormais, dès la conception de vos applications, il vous faut en tenir compte et chercher à capter toute la donnée qui vous est utile, et même celle qui vous semble la plus inutile mais qui vous sera nécessaire à long terme.

Après tout, vous disposez déjà de données dans toutes vos solutions : site web, CRM, ERP, application mobiles, solution RH… Remontent-elles toutes, ces données ?

C’est bien grâce à l’ensemble de ces données que vous saurez détailler et expliquer votre activité. Vient alors l’interrogation suivante : « Est-ce que cette donnée est historisée ? ».

 

Consolider

Les organisations ont depuis toujours eu une quantité folle de données à gérer ! Oui, à toutes les époques, cette quantité de données paraissait toujours importante par rapport à celle que l’on savait déjà gérer.

Mettons de côté cette fameuse quantité, ou volumétrie. Ce qui importe c’est obtenir une vision complète de son activité !

Toutes les organisations, entreprises, PME ont des systèmes d’information éclatés (éparses). Un outil de gestion, la comptabilité, les ressources humaines… Forcément, avoir une vision globale de sa performance réclamait de rassembler toutes les données dans un même point ! Et nous y revenons à notre historisation !

Pour consolider et historiser, les entrepôts de données, ou Data Warehouses, font leur apparition et viennent secourir les entreprises dans cette tâche. La Business Intelligence prend son essor. Les indicateurs de performance transversaux aident alors au pilotage et accompagnent le suivi de la stratégie.

Cette consolidation permet de premières corrélations entre les différents domaines. Ce n’est pas pour autant que les organisation s’ouvrent. Elles restent cloisonnées !

 

Le Data Warehouse a ses limites

Bien que l’on sache y stocker de nombreuses quantité de données, le Data Warehouse (DWH) qui repose en grande partie sur des bases de données relationnelles, atteint ses limites. Il ne sait pas tant stocker de données que ça ! Et il ne saura de toutes les façons pas toutes les traiter ! En plus, malgré ses nombreuses qualités le DWH n’offre pas une fiabilité à toute épreuve pour ses traitements voir même pour le stockage : ici, il est question de tolérance à la panne. Les data warehouses, bien qu’ils aient été conçus pour être massivement parallèles et intègres, auront une résilience toute relative.

 

datawwarehouse business intelligence

Photo by Thomas Kvistholt on Unsplash

 

Les data warehouses ne présentent pas plus de stratégie de reprise des jobs qui plantent ; couplé à des mécanismes externes, ils peuvent apporter ce type de caractéristiques.

Les data warehouses, comme déjà indiqué plus haut, offrent le massivement parallèle, donc ils savent distribuer les traitements, par contre plus vous avez de données plus l’environnement coûte cher ! Il n’est même pas possible de lisser ces coûts selon une certaine linéarité.

 

Annuaire et gouvernance des données

Aujourd’hui les besoins en matière de gestion de données ont beaucoup évolué ! Avant même de citer la RGPD (ou GDPR en anglais), les organisations découvrent la nécessité de cataloguer leurs données et d’en désigner un responsable. A côté de la DSI (Direction des Systèmes d’Information) et de la Direction Générale apparaît désormais le CDO (Chief Data Officer) – ou tout simplement en français, Directeur-rice des Données !

C’est dire à quel point la donnée prend une importance certaine dans les organisations.

Ce catalogage des données oblige un suivi au plus près. Chaque nouvelle version de cette donnée, chaque changement de structure, chaque traitement qui a jamais été réalisé, chaque changement de responsable, chaque tableau de bord qui la présente, chaque API qui l’expose, chaque utilisateur qui y accède doit être tracé !

Bien entendu, ce n’est pas parce que l’on parle de « désilotage » des organisations qu’il n’est pas souhaitable d’en sécuriser son accès ! Il est utile de corréler vos ventes, votre production, vos achats, et le trafic routier, mais il est tout autant exigible de filtrer la donnée en fonction de l’utilisateur capable d’observer l’analyse.

Évidemment nos data warehouses et autres plateformes d’informatique décisionnelles n’ont pas offert un tel niveau de service. Bien entendu, bousculés par de nouvelles solutions, ils tentent de rattraper ce retard fonctionnel.

 

Plateforme Hyper Unifiée

Nous y arrivons ! Tout cet article pour essayer de vous convaincre, qu’il est tant que vous considériez une Plateforme de données Hyper Unifiée !

Nommez votre Directeur-rice des Données. Demandez-lui en tout premier lieu de s’assurer que tous vos utilisateurs, vos clients, vos partenaires, vos fournisseurs aient accès aux données qui leur sont utiles pour la bonne réalisation de votre activité et servir votre stratégie.

Celui ou celle-ci comprendra vite qu’il faut vous donner les moyens d’être une entreprise étendue à chaque fois que quelqu’un devra prendre une décision. En effet, la donnée dont il ou elle aura besoin sera accessible, car elle aura été identifiée, collectée, nettoyée, cataloguée, sécurisée, et qu’elle sera disponible.

Le Directeur ou la Directrice des Données, en collaboration avec la DSI (et le reste de l’organisation, bien sûr) s’attacheront à ce que tout type de traitements puisse s’exécuter dans votre plateforme : batch, streaming, interrogation ad hoc, machine learning…

 

Hadoop est cette plateforme hyper unifiée pour la donnée !

Les offres en cloud ont fleuri et vous proposent aussi bien du IAAS, du PAAS, en gros votre système d’information peut totalement être en OPEX de nos jours ! Vous pouvez vous libérer d’une importante partie de la gestion de votre infrastructure. Ne vous en occupez pas, d’autres le font pour vous – et sans doute mieux que vous !

Le cloud devient désormais une commodité, votre “stratégie donnée” ne le sera jamais !

Bref, Hadoop, qui a démarré il y a plus de dix ans maintenant, fournit deux services de base : le stockage distribué et le calcul distribué. Le tout bien entendu avec la tolérance à la panne et la linéarité des coûts qui sont les arguments de base en faveur d’Hadoop, ceux dont tout le monde parle !

Mais avez-vous vraiment considéré l’ensemble des services qui s’y exécutent aujourd’hui ? Est-ce que tous ces services n’en font pas réellement cette plateforme hyper unifiée qui vous assurerait cette transformation de votre système pour tirer le meilleur de vos données et asseoir votre stratégie ?

Parce que c’est bien de cela dont il s’agit.

Hadoop est cette plateforme hyper unifiée pour vos données car elle s’érige en soutenant ces nombreux services :

    • Gouvernance des données : Apache Atlas, Cloudera Navigator, Talend Metadata Manager : tel que l’impose la RGPD aujourd’hui, vos cahiers de traitements sont carrément visuels, et à portée de clic.
    • Accès universel à la donnée :

      • Fédération des données (Apache Calcite, Dremio, PrestoDB, Apache Drill, Teiid)
      • Catalogue de données  (Alation, Collibra, Waterline, Zeenea)
      • Qualité des données (Apache Griffins, Yahoo Validatar, Talend Data Quality, …)
      • Data preparation : l’utilisateur métier, comme dans Excel, en plus d’une expérience complètement renouvelée avec le stockage d’Hadoop – voir notre livre blanc sur le Data Preparation.
      • Gestion de données (OLTP) (Apache Trifodion, Esgyn, Apache Phoenix, Splice Machine…)
      • Analyse Massive de données : Apache Druid, Apache Hive, Apache Impala, (plus l’ensemble des couches SQL), Warp10 (manipulation de série temporelles)… Sans oublier l’ensemble des solutions de streaming ! Et Apache Kafka !
      • Développeurs en intégration de données (Talend Big Data, Penthao Data Integrator, CDAP, HDF, Hue, …)
      • Architecte de données (organisation des données, organisation des traitements)
    • Gestion de l’environnement : Ambari, Cloudera Manager, AWS EMR, Google Dataproc…
    • Gestion de l’infrastructure (Hortonworks Cloudbreak, Cloudera Director…)
  • Et avec Hadoop 3 toutes vos applications vont pouvoir s’y exécuter !
hadoop plateforme data lake

Photo by Markus Spiske on Unsplash

 

Bien sûr il y a des plateformes où toutes ces briques sont déjà intégrées !

Finalement, aucun architecte, aucune DSI ne prend le risque de bâtir une solution non résiliente, incapable de s’adapter à la charge, non réversible, sans maîtrise des coûts… C’est ce que vous apporte globalement les systèmes distribués ! Et Hadoop est une des meilleures plateformes pour gouverner et unifier toutes vos données.

En une phrase, choisir Hadoop c’est faire le pari d’une architecture qui vous ouvre de nouvelles portes.

 

 

 

Charly Clairmont

 

 

Image de couverture Designed by Freepik