Le Real Time Data Processing avec StreamSets et Apache Nifi

real time data processing image de couverture traffic aérien

Qu’est ce que c’est Real-Time data Processing ? Le Real-Time Data Processing – traitement de données temps réel – consiste à exécuter des processus sur des données sur une période très courte et dont le résultat est délivré dans des délais tout aussi courts. Ainsi, ces traitements se terminent à peine les données absorbées.

Lire la suite

Tableau Server 10.5 – La gouvernance, le retour !

Peu après le Tableau Tour de Londres, je vous avais déjà dit d’annuler vos vacances d’hiver. Annulez Noël, annulez votre séjour de ski à Risoul, vous allez avoir du pain sur la planche ! Car winter Tableau Server 10.5 is coming. Et avec lui, une révolution majeure, la possibilité de créer des sous-projets, des sous-sous-projets, des sous-sous-sous-projets et pour les plus insatiables des sous-sous-sous-sous-pro… STOP !

Lire la suite

Talend Connect 2017

Comme tous les ans, nous sommes allés passer la journée avec les utilisateurs Talend de toute l’Europe lors du Talend Connect 2017.

Lire la suite

Faire un job ETL avec Apache Spark (Partie 1)

job etl avec spark image de couverture

Apache Spark est un framework de data processing qui permet de traiter de gros volumes de données. Spark se charge de distribuer le calcul sur plusieurs machines en utilisant principalement les mémoires vives (RAM). Le projet a été initié par Matei Zaharia dans le  laboratoire AMPLAB de l’université de Berkeley en 2009 avant d’être confié à la fondation Apache. Matei est actuellement le CTO de Databricks, la société commerciale derrière Apache Spark.

Lire la suite