PySpark – Moreluz.iA

Spark-Standalone-Cluster-Docker

25 de octubre de 202215 de marzo de 2024juan

Nota: La necesidad de tener una computación en paralelo en sistema distribuido en my-portatil sin necesidad de uso de servidores físicos o virtuales para nuestros proyectos y laboratorios, usando en este caso PySpark, tenemos interesantes proyectos en GitHub usaremos uno de ellos en este post. Spark-Standalone-Cluster-Docker Nota: GitHub, es un servicio de alojamiento de Internet […]

Seguir leyendo

SparkSession

22 de octubre de 202215 de marzo de 2024juan

Nota: SparkSession se ha convertido de hecho en un punto de entrada a Spark para trabajar con RDD, DataFrame y Dataset, desde Spark-2.0 (SparkContext era punto de entrada antes de salir SparkSession pero sigue usando) . Que es SparkSession -. SparkSession se esta convirtiendo en la puerta de entrada a PySpark para trabajar con RDD […]

Seguir leyendo

SparkContext

1 de octubre de 202215 de marzo de 2024juan

Nota: SparkContext esta presente a partir de la versión Spark-1, es el punto de entrada a Spark y PySpark, Crear SparkContext es lo primer que tenemos que hacer para usar RDD , Acumuladores y Variables de difusión en el clúster mediante programación, es el objeto sc es una variable predeterminada disponible en spark-shell y PySpark. […]

Seguir leyendo

Instalar-PySpark

23 de septiembre de 202215 de marzo de 2024juan

Nota: En este post procederemos a la instalación en my-portatil en un entorno virtual de Python-venv de esta forma creamos marco-trabajo-aislado, sencillo de utilizar y evitamos cargar nuestro entorno de trabajo de cosas que usamos puntualmente. En el cual Instalar-Spark-Modo-Standalone con jupyter-notebook. Entorno virtual de Python (VENV) Nota: Crear otro entornos de Python ya […]

Seguir leyendo

Que es PySpark

25 de marzo de 202214 de marzo de 2024juanDeja un comentario

Nota: (PySpark es una interfaz (Framework) para Apache Spark diseñado en Python. Podemos escribir aplicaciones Spark utilizando la API-Python, tenemos una Shell-PySpark para analizar de forma interactiva sus datos en un entorno distribuido. La compatibilidad PySpark con la mayoría de las funciones de Spark lo hace un Framework imprescindible. Como: Spark SQL, DataFrame, Streaming, Mllib, […]

Seguir leyendo

L	M	X	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30