de la data preparation à la dataviz avec trifacta et tableau

Il y a quelques semaines, nous vous avions partagé un article sur le nouvel outil de data préparation intégré à Tableau : Tableau Prep. Aujourd’hui, nous revenons pour vous parler d’un autre leader sur le marché : Trifacta !

L’intérêt de cet article est de vous montrer rapidement et simplement comment, en quelques clics, nous pouvons obtenir notre base prête à l’emploi avec un outil adapté et performant pour l’intégrer dans notre outil de data viz favori Tableau.

J’ai choisi de réaliser une visualisation des flux migratoires en Europe, vaste sujet d’actualité, et me suis appuyée sur un jeu de données disponible sur la base d’Eurostat.

Qu’est-ce-que Trifacta ?

Née en 2012, Trifacta a décidé de faire de la data préparation son cœur de métier en se spécialisant dès le départ dans ce secteur d’activité. Bien que de nombreux acteurs sur le marché le concurrencent (Talend, Dataïku, Tableau etc.), il reste un des leaders et c’est bien justifié !

 

Il propose actuellement 3 produits :

Son but est d’optimiser le temps de préparation de la donnée de manière simple, rapide et intuitive grâce à des recommandations basées sur des algorithmes de machines Learning.

Le plus :  Son traitement visuel qui permet d’analyser instantanément la donnée, les discordances et le futur traitement que l’on souhaite effectuer (module « preview »).

Pour plus d’information concernant la data préparation et l’outil, n’hésitez à consulter notre livre blanc sur la Data préparation.

 

Préparer avec Trifacta

Venant d’un cursus géographique, j’affectionne particulièrement les viz cartographiques et pour mon plus grand bonheur, Tableau développe de plus en plus son offre de traitement spatial (mais on pourra revenir sur le sujet dans un prochain article !).

Les cartes de flux (en oursins) sont des viz parlantes et faciles à analyser mais avoir une base prête à intégrer dans Tableau pour concevoir ce type de représentation peut être un peu plus complexe.  C’est pourquoi nous devons souvent faire un pré-traitement pour les construire.

Pour exemple, la base qui va être traitée par la suite représente les migrations entre les pays Européens en 2016 (ici nous allons prendre des pays européens vers la France) et pour illustrer au mieux cette phase de préparation, voici une petite vidéo récapitulative des traitements qui ont été effectués :

 

 

En somme, les étapes sont les suivantes :

  • Importation de la base dans Trifacta
  • Nettoyage des données aberrantes (caractères spéciaux, texte dans du numérique, espaces etc.)
  • Importation de nouvelles informations dans la table de traitement avec le traitement LOOKUP (label des codes pays)
  • Filtrage sur la France pour le pays d’accueil
  • Nettoyage de la colonne des pays d’origine (« Europe », « Unknown », etc.)
  • Création d’un itinéraire (départ/arrivée) afin de pouvoir construire nos flux dans Tableau avec notre nombre de migrations.

 

trifacta data preparation tableau data visualisation

 

Et voilà, une table finale comprenant un code unique pour chaque itinéraire, le point de départ (pays_origine), le point d’arrivée (pays_acceuil), le label pour chaque pays et le nombre d’immigrés.  La donnée est nettoyée et la structure de notre table est prête pour Tableau.

Pour l’export des données, vous avez la possibilité de générer un fichier JSON ou CSV en sortie (dans notre cas, nous allons extraire la table en .csv) :

 

triacta permet de générer un fichier json ou csv

 

Finalement, cette préparation n’a pris qu’une dizaine de minutes et reste simple alors lancez-vous et optimiser votre temps de traitement !

 

Visualiser avec Tableau

Une fois la table nettoyée et structurée, l’intégration dans Tableau est un jeu d’enfant !

Il suffit d’importer notre .csv et en quelques clics nous obtenons notre carte des flux :

intégrer le fichier csv dans tableau après traitement dans trifacta

TOP 5 :  Italie, Portugal, Angleterre, Espagne et Roumanie

 

Vous souhaitez avoir les migrations inverses, de la France vers les autres pays d’Europe ?

Rien de plus simple ! Copiez les recettes (traitements) effectuées dans Trifacta et modifier rapidement les filtres pays d’origine (sur la France) et pays d’accueil (conserver tous les autres pays). Exportez la table et visualisez avec Tableau :

 

visualisation dans tableau des flux migratoires vers la france

 

Avec des outils performants et adaptés comme Trifacta et Tableau, nous gagnons de plus en plus de temps dans le traitement et la restitution de nos données. A votre tour d’essayer !

 

 

 

Clélia Boursin