Nota: (La Tecnología Big-Data se puede definir como una utilidad de software diseñada para analizar, procesar y extraer la información de conjuntos de datos extremadamente complejos y grandes que el software de procesamiento de datos tradicional nunca podría manejar).
Tecnología Big-Data
-. Tenemos para procesar Big-Data muchas herramientas. Como Apache-Hadoop, NoSQL, Apache-Cassandra, Aprendizaje-Automático y MapReduce. Estas herramientas maneja algunos de los tipos de big-data.
- Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas, son las bases de datos relacionales y los almacenes de datos.
- Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Son los PDF, documentos multimedia, correos o documentos de texto.
- Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios Metadatos-Semiestructurados que describen los objetos y las relaciones entre ellos, como los archivos tipo hojas de cálculo, HTML, XML o JSON.
-. Los big-data-multidimensionales también se pueden representar como Tensores, los sistemas de bases de datos Array proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se aplican a big-data incluyen un cálculo basado en Tensor eficiente, como el aprendizaje de bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en búsqueda, extracción de datos, sistemas de archivos distribuidos, bases de datos distribuidas, nube e infraestructura basada en HPC e Internet.
-. Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes-datos. Su gran virtud es la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamaño en el RDBMS.
-. Los profesionales de los procesos de análisis de big-data generalmente son hostiles al almacenamiento compartido más lento, prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidad de estado sólido (SSD) hasta disco SATA de gran capacidad dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartidas, la red de área de almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son relativamente lentas, complejas y costosas. Estas cualidades no son las que necesitamos para los sistemas de análisis de datos grandes Big-Data.
-. La entrega de información real o casi en tiempo real es una de las características definitorias del análisis de big-data. Se evita la latencia siempre que sea posible. Los datos en la memoria son buenos , los datos en el disco giratorio en un entorno SAN no lo son.
Captura:
-. La pregunta que se sule hacer ¿De dónde provienen todos estos datos? Los fabricamos directa o indirectamente, segundo tras segundo. Un iPhone hoy tiene más capacidad de cómputo que la NASA cuando se llegó a la Luna, por lo que la cantidad de datos generados por persona y en unidad de tiempo es muy grande. La procedencia de los datos según las siguientes categorías.
- Generados por las propias personas: Enviar correos o WhatsApp, Facebook, etc.,son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados. Cada minuto al día se se generan datos masivamente las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.
- Obtenidas a partir de transacciones: La facturación, tarjetas de fidelización, las llamadas telefónicas, los accesos a WiFi públicas, el pago con tarjetas de crédito o las transacciones entre cuentas bancarias generan información que tratada puede ser datos relevantes.
- Marketing y web: Se genera una gran cantidad de datos cuando se navega por internet, la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de seguimiento utilizadas en su mayoría con fines de marketing y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
- Obtenidos a partir de las interacciones máquina a máquina: Son datos obtenidos a partir de la recogida de métricas obtenidas desde dispositivos sensores de temperatura, de luz, de altura, de presión, de sonido etc., que transforman las magnitudes físicas o químicas y las convierten en datos. La masificacion de las comunicaciones inalámbricas wifi, Bluetooth, RFID, etc. ha cambiado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de signos vitales, pulseras en los festivales, monitorizadores del funcionamiento y conducción de autoḿoviles, los smartphone tienen sensores de localización.
- Datos biométricos recolectados: En general provienen de servicios de seguridad, defensa y servicios de inteligencia, son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiados por los ministerios de defensa y departamentos de inteligencia.
Transformación:
- Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen que no estarán relacionadas. El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado.
- Aquí entran en juego las plataformas extraer, transformar y cargar ETL, su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones y finalmente cargar los datos en la base de datos o almacén de datos especificados.
Almacenamiento NoSQL:
-. NoSQL son sistemas de almacenamiento que no cumplen con el esquema entidad-relación. Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales. Tenemos cuatro grandes grupos de bases de datos NoSQL.
- Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a los mapas o diccionarios de datos, donde se accede al dato a partir de una clave única. Los valores de los datos son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere un formateo de los datos muy estricto.
Nota: Son útiles para operaciones simples basadas en las claves. Es el aumento de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Apache-Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios.
- Almacenamiento documental: las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor, diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de datos concreta, en este caso guardamos datos semiestructurados. Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos. Todos los documentos tienen una clave única con la que pueden ser accedidos e identificados explícitamente. Estos documentos no son opacos al sistema.
Nota: CouchDB o MongoDB son quizá las más populares. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades de datos.
- Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas, algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y otros. Las operaciones JOIN se sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los nodos.
- Almacenamiento orientado a columnas: por último, este almacenamiento es parecido al documental. Su modelo de datos es definido como un mapa de datos multidimensional poco denso, distribuido y persistente. Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo una misma clave. A diferencia del documental y el clave-valor, en este caso se pueden almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite agrupar columnas en familias y guardar la información cronológicamente, mejorando el rendimiento.
Análisis de datos:
-. El análisis mirar los datos y explicar lo que esta pasando. Teniendo los datos almacenados según diferentes tecnologías de almacenamiento, necesitaremos diferentes técnicas de análisis de datos como las siguientes
- Asociación: permite encontrar relaciones entre diferentes variables. Teniendo en cuenta la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electrónicos.
- Minería de datos: tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de aprendizaje automático con almacenamiento en bases de datos. Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos.
- Agrupación clustering: el análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis. El propósito es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos, conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clusterización.
- Análisis de texto text-analytics: gran parte de los datos generados por las personas son textos, como correos, búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras.
Visualización de datos:
-. Los clientes finales agradece una presentación bien estructurada de resultados estadísticos en gráficos o mapas en vez de en tablas con números. En los macrodatos se llega un paso más el mundo es complejo, dinámico, multidimensional, el papel es estático y plano.
- Mondrian es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un cuadro de mando integral de una organización.
Nota: Mondrian es un servidor OLAP escrito en Java. Permite analizar grandes cantidades de datos almacenados en bases de datos SQL de una forma interactiva sin necesidad de escribir las sentencias que serían necesarias para ello en SQL. Repositorio de código
- las infografías el término se ha extendido para designar diagramas dinámicos o explícitos y animados interactivos que integran imagen generada por computadora u ordenador, donde se recogen los resultados de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas.
Nota: La infografía es la disciplina que trata sobre los diagramas visuales complejos, cuyo objetivo es resumir o explicar figurativamente informaciones o textos, empleando más variados medios visuales e incluso auditivos que el mero esquema o diagrama.
Recopilando:
Las tecnologías de Big-Data se refieren a las soluciones de software que incorporan minería de datos, intercambio,Almacenamiento NoSQL, visualización, etc.
- Referencias: Entorno-Moreluz
- Referencias: Para-saber-mas