Pandas

Librerias-Python

Nota: (En Computación y Ciencia de datos, pandas es una biblioteca de software escrita como extensión de Numpy para manipulación y análisis de datos para el lenguaje de programación Python. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales).

Que es Pandas

. Pandas es una biblioteca escrita como extensión de NumPy para procesar y analizar datos en el lenguaje de programación Python . En particular, contiene estructuras de datos y operadores para acceder a tablas numéricas y series temporales . Pandas es software libre publicado bajo la licencia BSD de 3 cláusulas . El nombre deriva del término panel data (datos de panel), un término econométrico para conjuntos de datos que contienen observaciones durante varios períodos para la misma unidad de investigación.

Nota: El concepto de biblioteca en informática, llamada por vicio del lenguaje, librería (library) es un conjunto de implementaciones funcionales, codificadas en un lenguaje de programación, que ofrece una interfaz bien definida para la funcionalidad que se invoca.

Nota: La licencia BSD es la licencia de software otorgada principalmente para los sistemas BSD (Berkeley Software Distribution), un tipo del sistema operativo Unix-like. Es una licencia de software libre permisiva como la licencia de OpenSSL o la MIT License.

Características de la biblioteca :

  • Objeto DataFrame para la manipulación de datos con indexación integrada.
  • Herramientas para leer y escribir datos entre estructuras de datos en memoria y diferentes formatos de archivo .
  • Alineación de datos y manejo integrado de datos faltantes.
  • Remodelación y pivoteo de conjuntos de datos.
  • Segmentación basada en etiquetas, indexación elegante y creación de subconjuntos de grandes conjuntos de datos.
  • Inserción y eliminación de columnas de estructura de datos.
  • Agrupar por motor que permite operaciones de división, aplicación y combinación en conjuntos de datos.
  • Fusión y unión de conjuntos de datos.
  • Indexación de ejes jerárquicos para trabajar con datos de alta dimensión en una estructura de datos de menor dimensión.
  • Funcionalidad de serie temporal: generación de rango de fechas y conversiones de frecuencia, estadísticas de ventana móvil, regresiones lineales de ventana móvil , cambio de fecha y retraso.
  • Proporciona filtrado de datos.

-. La biblioteca ha sido altamente optimizada en cuanto a rendimiento, con caminos de código crítico escritos en Cython o en C.

Nota: Cython es un lenguaje de programación para simplificar la escritura de módulos de extensión para Python en C y C++. Siendo estrictos, la sintaxis de Cython es la misma de Python pero con algunos agregados.

-. Para comprobar la funcionalidad de Pandas usaremos un entorno Venv-Jupyter de esta forma no perturbaremos el sistema operativo principal, lo instalare , probare y usaremos la magnifica herramienta Jupyter.

Activar el entorno :

  • In: root@juan-SATELLITE-C55-C-1JM:/# cd my-venv
  • In: root@juan-SATELLITE-C55-C-1JM:/my-venv# source jupyter/bin/activate
  • (jupyter) root@juan-SATELLITE-C55-C-1JM:/my-venv#

Nota: podemos listar los paquetes que tenemos instalados en nuestro entorno my-venv con ((jupyter) root@juan-SATELLITE-C55-C-1JM:/my-venv# pip list) vemos que al Instalación de Matplotlib tenemos instalados como complemento mas de cincuenta paquetes, pero no Pandas, procedamos a su instalacion.

Instalar Pandas:

  • (jupyter) root@juan-SATELLITE-C55-C-1JM:/my-venv# pip install pandas

Arrancar Jupyter :

  • (jupyter) root@juan-SATELLITE-C55-C-1JM:/my-venv# jupyter notebook –allow-root –no-browser

Nota: Acontinuacion unos ejemplos, importaremos pandas , matplotlid y numpy

Ejemplo Curvas:

  • import pandas as pd
  • import matplotlib.pyplot as plt
  • import numpy as np
  • df = pd.DataFrame(np.random.randn(100, 5), columns=list(‘ABCDE’))
  • df=df.cumsum() # Devuelve la suma acumulada sobre un DataFrame o Series axis
  • df.plot()
  • plt.show()

Ejemplo Gráfica de barras:

  • import pandas as pd
  • import matplotlib.pyplot as plt
  • import numpy as np
  • df = pd.DataFrame(np.random.rand(10, 5), columns=list(‘ABCDE’))
  • df.plot.bar(stacked=True)
  • plt.show()

Ejemplo Diagrama de caja :

  • import pandas as pd
  • import matplotlib.pyplot as plt
  • import numpy as np
  • df = pd.DataFrame(np.random.rand(7, 5), columns=list(‘ABCDE’))
  • df.plot.box()
  • plt.show()

Ejemplo Histograma:

  • import pandas as pd
  • import matplotlib.pyplot as plt
  • import numpy as np
  • data = pd.Series(np.random.normal(size=100))
  • data.hist(grid=False)
  • plt.show()

 

Recopilando:

Pandas es una biblioteca de código abierto con licencia BSD que proporciona estructuras de datos y herramientas de análisis de datos fáciles de usar y de alto rendimiento para el lenguaje de programación Python .