Spark-Worker

Nota: (creación de una images-docker-worker usare como base-python-pip-nano-java:latest d00fbf90b86b para usarla en proyectos de “Apache-Spark-Docker-Compose” ). Spark-Worker Nota: (Lo primero crear la carpeta my-dockerfile donde guardamos nuestros Dockerfile, con nano creamos Spark-worker.Dockerfile y pegamos el testo correspondiente“siempre con mayúscula .Dockerfile” ). In: root@juan-SATELLITE-C55-C-1JM:/# mkdir my-dockerfile In: root@juan-SATELLITE-C55-C-1JM:/# cd my-dockerfile Creamos un archivo dockerfile con nano […]

Seguir leyendo

Spark-Master

Nota: (creación de una images-docker-master usare como base-jupyter:latest 04d1d2b17e54 para usarla en proyectos de “Apache-Spark-Docker-Compose” ). Spark-Master Nota: (Lo primero crear la carpeta my-dockerfile donde guardamos nuestros Dockerfile, con nano creamos Spark-Master.Dockerfile y pegamos el testo correspondiente“siempre con mayúscula .Dockerfile” ). In: root@juan-SATELLITE-C55-C-1JM:/# mkdir my-dockerfile In: root@juan-SATELLITE-C55-C-1JM:/# cd my-dockerfile Creamos un archivo dockerfile con nano […]

Seguir leyendo

Images-Base-Jupyter

Nota: (creación de una images-docker que nos sirva como base para otras aplicaciones como apache-spark, juncional para jupyterlab y jupyter-notebook). Images-Base-Jupyter Nota: (Lo primero crear la carpeta my-dockerfile donde guardamos nuestros Dockerfile, con nano creamos jupyter.Dockerfile y pegamos el testo correspondiente“siempre con mayúscula .Dockerfile” ). In: root@juan-SATELLITE-C55-C-1JM:/# mkdir my-dockerfile In: root@juan-SATELLITE-C55-C-1JM:/# cd my-dockerfile Creamos un […]

Seguir leyendo

Spark-Standalone-Cluster-Docker

Nota: La necesidad de tener una computación en paralelo en sistema distribuido en my-portatil sin necesidad de uso de servidores físicos o virtuales para nuestros proyectos y laboratorios, usando en este caso PySpark, tenemos interesantes proyectos en GitHub usaremos uno de ellos en este post. Spark-Standalone-Cluster-Docker Nota: GitHub, es un servicio de alojamiento de Internet […]

Seguir leyendo

SparkSession

Nota: SparkSession se ha convertido de hecho en un punto de entrada a Spark para trabajar con RDD, DataFrame y Dataset, desde Spark-2.0 (SparkContext era punto de entrada antes de salir SparkSession pero sigue usando) . Que es SparkSession -. SparkSession se esta convirtiendo en la puerta de entrada a PySpark para trabajar con RDD […]

Seguir leyendo

SparkContext

Nota: SparkContext esta presente a partir de la versión Spark-1, es el punto de entrada a Spark y PySpark, Crear SparkContext es lo primer que tenemos que hacer para usar RDD , Acumuladores y Variables de difusión en el clúster mediante programación, es el objeto sc es una variable predeterminada disponible en spark-shell y PySpark. […]

Seguir leyendo