Generalidades

Macrodatos

Nota: (Big-Data hace referencia al manejo y análisis masivo de datos, los cuales pueden estar en diferentes formatos o estructuras. Estos datos pueden ponerlos en valor por personas o empresas. Se encuentran con grandes volúmenes de datos, que de ser explotados correctamente son de gran utilidad para organizaciones para conseguir ventajas competitivas respecto a sus competidores).

Generalidades-(Big-Data)

-. La tecnologías de información tradicionales no dan la talla al intentar procesar tan gran volumenes de datos, la cantidad de datos que las organizaciones están produciendo se ha incrementado de una forma exponencial. El Big-Data nace como un paradigma para el tratamiento y aprovechamiento de los datos que se generan bajo ciertas características como la cantidad elevada de datos, los cuales se generan a gran velocidad y contienen una diversidad en cuanto a sus formatos y orígenes.

 

Definición:

  • Big-data o macrodatos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente.
  • Se ha definido como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica.
  • Big-data representa los activos de información caracterizados por un volumen, velocidad y variedad tan altos que requieren una tecnología específica y métodos analíticos para su transformación en valor. Algunas organizaciones agregan una nueva V, veracidad para describirlo, Las tradicionales tres V (volumen, variedad y velocidad) se han ampliado con velocidad otras características complementarias del big-data.
  • Big-Data es donde se necesitan herramientas informáticas paralelasprocesamiento distribuido usando paralelizarpara manejar los datos, y procesarlos. Representa un cambio claramente definido en la informática utilizada a través de teorías de Programación-Paralelas y pérdidas de algunas de las garantías y capacidades hechas por el modelo-relacional-Codd.

Nota: El modelo relacional, para el modelado y la gestión de bases de datos, es un modelo de datos basado en la lógica de predicados y en la teoría de conjuntos. Su idea fundamental es el uso de relaciones. Estas relaciones podrían considerarse en forma lógica como conjuntos de datos llamados tuplas.

Nota: El modelo no relacional, es las bases de datos NoSQL están diseñadas para varios patrones de acceso a datos que incluyen aplicaciones de baja latencia. Las bases de datos de búsqueda NoSQL están diseñadas para hacer análisis sobre datos semiestructurados algunos ejemplos (Redis) , (MongoDB)

Nota: NoSQL es una amplia clase de sistemas de gestión de bases de datos que difieren del modelo clásico de SGBDR (Sistema de Gestión de Bases de Datos Relacionales) en aspectos importantes, siendo el más destacado que no usan SQL como lenguaje principal de consultas.

  • Big-Data usa estadísticas inductivas y conceptos de identificación de sistemas no lineales, para inferir leyes (regresiones, relaciones no lineales y efectos causales) a partir de grandes conjuntos de datos con baja densidad de información, con la finalidad de revelar relaciones y dependencias, o para realizar predicciones de resultados y comportamientos.

 

Características:

  • Volumen: Recopilar datos de diversas fuentes para big-data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, dispositivos inteligentes (IO), equipo industrial, vídeos, medios sociales,equipo con sensores y más. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.
  • Velocidad: La velocidad es el ritmo al que se reciben los datos y al que se aplica alguna acción . La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real. Como Internet de las Cosas, los datos llegan una velocidad sin precedentes y deben ser manejados de manera oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están impulsando la necesidad de manejar estos torrentes de datos en tiempo real. El tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados de forma eficaz. También completan pedazos pedidos a través de la fusión de datos.
  • Variedad: La variedad hace referencia a los diversos tipos de datos disponibles los datos se presentan en todo tipo de formatos. En el big-data, los datos se presentan en nuevos tipos de datos-no-estructurados. Los tipos de datos-no-estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos. En este contexto, la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafíos de su análisis.
  • Veracidad: La veracidad se refiere a la calidad de los datos la calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis. Debido a que los datos provienen de tantas fuentes diferentes, es difícil vincular, comparar, limpiar y transformar los datos a través de los sistemas. Las empresas necesitan conectar y correlacionar las relaciones, las jerarquías y los múltiples vínculos de datos.
  • Valor: una gran cuantía de datos frecuentemente extrae pequeñas informaciones de valor, cómo conseguir dicha información de manera eficiente es uno de los retos que afronta día a día el área de la inteligencia de datos. El valor es sin duda una cualidad fundamental en el análisis, los datos generados deben ser útiles. Los datos que se transforman en información, que a su vez se convierte en conocimiento y a su vez en una acción o decisión, no todos los datos tienen valor, ni se pueden utilizar para tomar decisiones comerciales. Es importante conocer el valor de los datos disponibles, establecer una forma de limpiar los datos y confirmar que son relevantes para el propósito deseado.

 

Arquitectura:

  • Google publicó un documento sobre un proceso llamado MapReduce. El concepto MapReduce proporciona un modelo de procesamiento en paralelo, y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen a través de nodos paralelos y se procesan en paralelo. Los resultados se recopilan y se entregan el paso Reducir. El marco fue muy exitoso, por lo que otros quisieron replicar el algoritmo. Por lo tanto, una implementación del marco MapReduce fue adoptada por un proyecto de código abierto Apache llamado Hadoop. Apache Spark se desarrolló en respuesta a las limitaciones del paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones no solo el mapa seguido de la reducción.
  • Una arquitectura de capas-múltiples es una opción para abordar los problemas que presenta el big-data. Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el poder de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones para el usuario.
  • El lago de datos (data-lake) permite que una organización cambie su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la administración de la información. Esto permite una segregación rápida de datos en el lago de datos, lo que reduce el tiempo de sobrecarga

Nota: data-lake es un sistema o depósito de datos almacenados en su formato natural sin procesar, generalmente objetos o archivos. Un data-lake suele ser un único almacén de datos que incluye copias sin procesar de los datos del sistema de origen, datos de sensores, datos sociales, etc, y datos transformados que se utilizan para tareas como informes , visualización , análisis avanzado y aprendizaje automático .

  • Un data-lake puede incluir: “Datos estructurados de bases de datos relacionales filas y columnas”, “datos-semiestructurados CSV , registros, XML , JSON”, “Datos no estructurados correos , documentos, PDF” y “datos binarios imágenes, audio , video. Un data-lake se puede establecer en las instalaciones dentro de los centros de datos de una organización o en la nube utilizando servicios en la nube de proveedores como Amazon , Microsoft o Google.

 

Recopilando:

Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos, para abordar los problemas que presenta el big data.