Instalación Apache-Spark

Descarga Spark:(descomprimir el fichero.tgz)-(crear)Mover a la carpeta /spark https://spark.apache.org/downloads.html In: root@juan-Aspire-ES1-512:/# curl -O https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz In: root@juan-Aspire-ES1-512:/# tar xvf spark-3.1.1-bin-hadoop3.2.tgz In: root@juan-Aspire-ES1-512:/# mv spark-3.1.1-bin-hadoop3.2/ /spark Descarga de datos TXT y CSV : Descargamos dos ficheros con datos para trabajar con BigData , uno con el libro ‘Moby Dick’ y el otro con unos datos de costes […]

Seguir leyendo

Que es PySpark

Nota: (PySpark es una interfaz (Framework) para Apache Spark diseñado en Python. Podemos escribir aplicaciones Spark utilizando la API-Python, tenemos una Shell-PySpark para analizar de forma interactiva sus datos en un entorno distribuido. La compatibilidad PySpark con la mayoría de las funciones de Spark lo hace un Framework imprescindible. Como: Spark SQL, DataFrame, Streaming, Mllib, […]

Seguir leyendo