Faire un job ETL avec Apache Spark (Partie 1)

job etl avec spark image de couverture

Apache Spark est un framework de data processing qui permet de traiter de gros volumes de données. Spark se charge de distribuer le calcul sur plusieurs machines en utilisant principalement les mémoires vives (RAM). Le projet a été initié par Matei Zaharia dans le  laboratoire AMPLAB de l’université de Berkeley en 2009 avant d’être confié à la fondation Apache. Matei est actuellement le CTO de Databricks, la société commerciale derrière Apache Spark.

Lire la suite

Vers l’analytique en continu

berlin buzzword 2017 charly clairmont graff

Envoyé spécial au Berlin Buzzword 2017, Charly Clairmont poursuit son exploration des dernières tendances de l’open source. Aujourd’hui, il nous parle de data au service de l’humanité et des dernières innovations autour d’Apache Kafka.

Lire la suite