Configurar y Usar PySpark en Google Colab
PySpark es una poderosa herramienta para procesar y analizar grandes cantidades de datos utilizando Apache Spark. En este blog, aprenderás a configurar PySpark en Google Colab y realizar operaciones básicas de análisis de datos.
Paso 1: Configurar PySpark en Google Colab
- Ve a Google Colab y crea un nuevo notebook.
- Si no tienes instalado Spark, en la primera celda de tu notebook ejecuta el siguiente comando:
Esto descargará e instalará PySpark en tu entorno de Colab.
Paso 2: Configurar un entorno simple
- Después de instalar PySpark, importa las librerías principales para comenzar a trabajar:
- Crea una sesión de Spark para ejecutar tus operaciones:
Esto iniciará el motor de Spark en tu notebook.
Paso 3: Cargar un archivo de datos
- Sube un archivo de datos simple, en este caso el dataset de logs de servidores publicado en Kaggle
Este paso garantiza que el dataset se encuentre en el entorno de Colab, para esto se utiliza la función dataset_download() de la librería Kagglehub.
- Para leer el archivo en PySpark usa el siguiente código:
Esto cargará el archivo como un DataFrame de PySpark, donde cada fila corresponde a una línea del archivo, la función "show(5)" imprime las primeras 5 filas, el numero de filas lo puedes ajustar según la necesidad.
Paso 4: Procesar los datos
- Cuenta cuántas líneas tiene tu archivo, utilizando el siguiente código:
Para obtener el número total de líneas de los datos utiliza la función count() e imprime la variable haciendo uso de "f" antes de declarar la cadena de texto para poder interpolar la variable "lineas_totales".
- Filtra líneas con una palabra específica, por ejemplo, busca las líneas que contienen la palabra "error", utiliza la función filter() para obtener las líneas buscadas y show() para mostrarlas.
- Divide las líneas en palabras y cuenta cuántas veces aparece cada una. Utilizando la función flatMap para obtener las palabras de cada linea y map() para contarlas, también la función reduceByKey te ayudará a sumar las veces que aparece cada palabra:
Paso 5: Finalizar
- Es buena práctica detener la sesión de Spark al finalizar:
No hay comentarios.:
Publicar un comentario