Del curso: Python para data science y big data esencial

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.900 cursos impartidos por expertos del sector.

Desafío: MapReduce aplicado con PySpark

Desafío: MapReduce aplicado con PySpark

(Sonido) A continuación, voy a proponerte dos ejercicios para que apliques sobre un par de bases de datos algunos de los contenidos que hemos explorado a lo largo de este curso. El primero se fundamenta en el uso de Spark y vas a analizar los diferentes estilos de cocina en base a una base de datos de restaurantes que venden tacos y burritos en los Estados Unidos. Lo que te pido es que explores en qué formato está almacenada la información en la columna 'cuisines', la limpies y encuentres una manera de generar un "ranking" con los tipos de cocina más populares. Si quieres un consejo, la función 'Flatmap' combinada con alguna función para manipular "strings" te van a ser de mucha ayuda, pero aun así hay docenas de maneras distintas de enfocar este problema. El segundo ejercicio que te propongo es en relación a la base de datos sobre la cual hemos trabajado durante el curso. Vamos a explorar aquellos vuelos de más de 2000 km de distancia y con retrasos superiores a las dos horas. Se te…

Contenido