Del curso: Python para data science y big data esencial

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.900 cursos impartidos por expertos del sector.

Cómo construir funciones map

Cómo construir funciones map

Vamos a ver, mediante unos ejemplos muy sencillos, cómo podemos generar nuestras propias funciones 'map'. No entraremos aquí en la teoría sobre cómo funciona MapReduce, pero para situarnos, las funciones 'map' son aquellas que procesan nuestros datos almacenados en particiones, aplicándoles filtros y ordenaciones, y que posteriormente nos servirán para que las funciones 'reduce' los procesen y resuman. Lo primero que vamos a hacer es cargar nuestra base de datos, que consiste en aerolíneas estadounidenses. Vamos a aplicar un 'sample' de una pequeña fracción de los datos, vamos a limpiar la base de datos eliminando datos faltantes, datos nulos, duplicados... y vamos a generar un objeto que va a ser un "array" paralelizado de la columna 'origin'. Para hacerlo, usamos esta instrucción, seleccionamos esta columna, el RDD, lo recogemos y ya lo tenemos. Hemos guardado este objeto en memoria para que sea más ágil el cálculo. La primera función 'map' que vamos a crear es la más sencilla de…

Contenido