Faire un job ETL avec Apache Spark (Partie 1)

job etl avec spark image de couverture

Apache Spark est un framework de data processing qui permet de traiter de gros volumes de données. Spark se charge de distribuer le calcul sur plusieurs machines en utilisant principalement les mémoires vives (RAM). Le projet a été initié par Matei Zaharia dans le  laboratoire AMPLAB de l’université de Berkeley en 2009 avant d’être confié à la fondation Apache. Matei est actuellement le CTO de Databricks, la société commerciale derrière Apache Spark.

Lire la suite

Talend 6 : Quoi de neuf ?

Il y a quelques semaines, Talend annonçait la sortie de sa nouvelle version. Spark et big data en temps réel, intégration en continu, nouveaux connecteurs et MDM, quoi de neuf dans la v6.0 ?

Lire la suite

Big Data Hadoop, un déploiement de plus en plus simple

lake in the mountains - illustration data lake

Je voulais intituler cet article « Big Data aussi simple que LAMP ». J’ai vite trouvé que c’était réducteur. Depuis qu’Altic – maintenant fusionné avec Synotis pour former Synaltic – s’intéresse au Big Data, j’ai toujours imaginé qu’il fallait que l’appropriation et plus généralement le fonctionnement de ces technologies soient de plus en plus simple. C’est vrai après tout, même quand vous vous serez décidé à vous lancer dans cette nouvelle aventure, il vous faudra savoir par quel bout démarrer.

Lire la suite