PySpark

PySpark es una biblioteca de Spark escrita en Python para ejecutar la aplicación de Python usando las capacidades de Apache Spark, cuando trabajamos PySpark es tamos usando un motor de procesamiento analítico para potentes aplicaciones de aprendizaje automático y procesamiento de datos distribuidos a gran escala.

Nota: (PySpark es una interfaz (Framework) para Apache Spark diseñado en Python. Podemos escribir aplicaciones Spark utilizando la API-Python, tenemos una Shell-PySpark para analizar de forma interactiva sus datos en ...
Leer Más
Nota: En este post procederemos a la instalación en my-portatil en un entorno virtual de Python-venv de esta forma creamos marco-trabajo-aislado, sencillo de utilizar y evitamos cargar nuestro entorno de ...
Leer Más
Nota: SparkContext esta presente a partir de la versión Spark-1, es el punto de entrada a Spark y PySpark, Crear SparkContext es lo primer que tenemos que hacer para usar ...
Leer Más
Nota: SparkSession se ha convertido de hecho en un punto de entrada a Spark para trabajar con RDD, DataFrame y Dataset, desde Spark-2.0 (SparkContext era punto de entrada antes de ...
Leer Más
Nota: La necesidad de tener una computación en paralelo en sistema distribuido en my-portatil sin necesidad de uso de servidores físicos o virtuales para nuestros proyectos y laboratorios, usando en ...
Leer Más