Track 3: Big Data, Machine Learning and Cloud (15:00 - 16:00)

Alvaro del Castillo: "Taller práctico de Big Data"

El objetivo del taller es introducir los conceptos básicos de Big Data de una forma práctica utilizando Apache Spark. El foco será marcar que diferencias introduce Big Data con respecto al procesamiento tradicional de los datos: procesamiento distribuido basado en el particionamiento de los datos.

Descripción

Partiendo de los conceptos de datos, información, conocimiento y sabiduría (pirámide DIKW), iremos contextualizando el procesamiento de datos en general y veremos lo que hace que Big Data sea diferentes. Pasaremos por las arquitecturas Lambda y Kappa a nivel general y, una vez asentados los conceptos clave, comenzaremos con la parte práctica.

En ella se mostrará como implementar con Apache Spark el procesamiento de los datos de GitHub Archive. Se mostrará como hacer la persistencia de los datos con un sistema distribuido como ElasticSearch y, se realizará alguna visualización.

En función del tiempo, se dará alguna pincelada de las partes de Streaming, Graphs and Machine Learning que ofrece Spark.

Público objetivo

La charla va dirigida a desarrolladores que quieran introducirse en el campo de Big Data.

Ponente(s)

Álvaro del Castillo San Félix, Software Architect at Paradigma Digital.