Del curso: Python para data science y big data esencial

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.900 cursos impartidos por expertos del sector.

Operaciones numéricas con RDD

Operaciones numéricas con RDD

En este vídeo vamos a ver cómo podemos trabajar con operaciones numéricas en nuestras bases de datos en PySpark. Lo primero que vamos a hacer es importar los paquetes que necesitemos. Vamos a crear nuestros objetos de configuración y contexto, y vamos a importar nuestra base de datos. Vamos a estar trabajando solo con una fracción de los datos una vez remezclados. Vamos a transformar esta variable en variable entera, vamos a estar eliminando también los datos faltantes de estas variables, aquellos datos que sean nulos y también los duplicados. Lo primero que te muestro es una aproximación bastante clásica de cómo se realiza la función 'sum' con funciones 'lambda'. Lo que estamos haciendo aquí es ver cómo se suman todos los valores, del uno hasta el millón, usando una función 'lambda'. Una función 'lambda' se usa tan sencillamente como: usamos el objeto, punto, 'reduce', y le aplicamos este método. Va a depender de dos parámetros, y lo que vamos a estar haciendo es sumándolos todos…

Contenido