Del curso: Python para data science y big data esencial
Accede al curso completo hoy mismo
Únete hoy para acceder a más de 24.900 cursos impartidos por expertos del sector.
Operaciones numéricas con RDD - Tutorial de Python
Del curso: Python para data science y big data esencial
Operaciones numéricas con RDD
En este vídeo vamos a ver cómo podemos trabajar con operaciones numéricas en nuestras bases de datos en PySpark. Lo primero que vamos a hacer es importar los paquetes que necesitemos. Vamos a crear nuestros objetos de configuración y contexto, y vamos a importar nuestra base de datos. Vamos a estar trabajando solo con una fracción de los datos una vez remezclados. Vamos a transformar esta variable en variable entera, vamos a estar eliminando también los datos faltantes de estas variables, aquellos datos que sean nulos y también los duplicados. Lo primero que te muestro es una aproximación bastante clásica de cómo se realiza la función 'sum' con funciones 'lambda'. Lo que estamos haciendo aquí es ver cómo se suman todos los valores, del uno hasta el millón, usando una función 'lambda'. Una función 'lambda' se usa tan sencillamente como: usamos el objeto, punto, 'reduce', y le aplicamos este método. Va a depender de dos parámetros, y lo que vamos a estar haciendo es sumándolos todos…
Practica mientras aprendes con los archivos de ejercicios.
Descarga los archivos que el instructor utiliza para enseñar el curso. Sigue las instrucciones y aprende viendo, escuchando y practicando.
Contenido
-
-
-
-
-
-
-
-
-
Introducción a PySpark8 min 21 s
-
(Bloqueado)
Sintaxis en PySpark. Qué necesitamos saber4 min 1 s
-
(Bloqueado)
Qué son los RDD (Resilient Distributed Databases)4 min 27 s
-
(Bloqueado)
Funciones lambda5 min 11 s
-
(Bloqueado)
Dataframes en PySpark8 min 43 s
-
(Bloqueado)
Transformaciones básicas en PySpark5 min 16 s
-
(Bloqueado)
Acciones básicas en PySpark3 min 13 s
-
(Bloqueado)
Operaciones numéricas con RDD3 min 43 s
-
-
-