Big Data (II)

Factor_Humano_Formacion_Big_Data_2

Big Data (II)

Share on LinkedInTweet about this on TwitterShare on Facebook

Big Data hace referencia a sistemas informáticos que se basan en la acumulación de datos a gran escala junto a procedimientos usados para identificar patrones recurrentes dentro de esos mismos datos.

Como ya comentamos en nuestro post anterior, la tendencia a manipular ingentes cantidades de datos es debida a la necesidad de incluir los datos relacionados del análisis en un gran conjunto de datos: análisis de negocio, publicitarios, datos de enfermedades, espionaje, lucha contra el crimen organizado, etc. Todo esto conlleva a que los expertos se encuentren con limitaciones debido a la tremenda cantidad de datos en áreas como la meteorología, las simulaciones de procesos físicos o las investigaciones relacionadas con los procesos biológicos y ambientales, por poner algunos ejemplos, pero también esas mismas limitaciones afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios.

Y es que, el volumen de los datos masivos crece constantemente.

Para poder trabajar de manera óptima con tal cantidad de datos, existen muchísimas herramientas como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… y un largo etcétera. Existen tres tipos de Big Data, a saber:

  • Datos estructurados (o Structured Data). Son aquellos que tienen bien definidos su longitud y formato, tales como fechas, números o las cadenas de carácteres: Bases de datos relacionales y hojas de cálculo, entre otros.
  • Datos no estructurados (o Unstructured Data). Estos datos se encuentran en el formato tal y como fueron recolectados careciendo de un formato específico, por lo que no se pueden almacenar dentro de una tabla al no poder desgranarse su información a tipos básicos de datos. Archivos PDF, e-mails o documentos de texto son algunos de los ejemplos que podemos incluir en esta modalidad.
  • Datos semiestructurados (o Semistructured Data). Es una información poco regular como para ser gestionada de una forma estándar. Contienen marcadores para separar los diferentes elementos pero no se limitan a campos determinados. Son datos que poseen sus propios metadatos semiestructurados que describen los objetos y las relaciones entre ellos: HTML, XML o JSON.

La procedencia de estos datos se dividen en las siguientes categorías:

  • Generados por personas. Envío de correos electrónicos, mensajes de WhatsApp, postear en Facebook la trigésima foto de un gatito encantador o lanzar un tuit se encuentran entre las muchas acciones cotidianas que crean nuevos datos y metadatos que son analizados.
  • Transacciones de datos. La facturación, las llamadas o las transacción entre cuentas bancarias también generan información con datos relevantes. Es decir, cuando hacemos un ingreso de una cantidad determinadas de euros, la computación lo interpreta como una acción delimitada en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados.
  • E-marketing y web. A la hora de navegar por interner generamos una gran cantidad de datos. Existen herramientas de "tracking" que se utilizan con fines de marketing y análisis de negocio: Nuestra presencia en la red queda registrada; cuánto pasamos en cada página y cuándo las visitamos.
  • Machine to Machine (M2M). Se considera M2M a las tecnologías que comparten datos con dispositivos que transforman las magnitudes físicas o químicas y las convierten en datos: medidores, sensores de temperatura, de luz, de altura, de presión, de sonido. También los GPS o los sensores de signos vitales en la medicina.
  • Biométrica. Conjunto de datos que provienen de la seguridad, defensa y servicios de inteligencia. Son generados por escáneres de retina, lectores de huellas digitales, etc. Su propósito es proporcionar mecanismos de seguridad por lo que suelen estar custodiados por los ministerios de defensa y departamentos de inteligencia de los gobiernos.

Una vez almacenan estos datos, se necesitan diferentes técnicas de análisis.

  • Asociación. Permite encontrar relaciones entre diferentes variables. Bajo la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los e-commerce.
  • Minería de datos (o Data Mining). Tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de machine learning con almacenamiento en bases de datos. Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos.
  • Agrupación (Clustering). El análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en otros más pequeños de los que no conocíamos su parecido antes del análisis. El propósito del "Clustering" es encontrar similitudes entre estos grupos y el descubrimiento de nuevos, conociendo las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clustering.
  • Análisis de texto (o Text Analytics). Gran parte de los datos generados por las personas son textos, como e-mails, búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras.

¡Recuerda que en Factor Humano Formación puedes convertirte en un gran profesional en Big Data gracias a nuestro programa de certificaciones Big Data Science School de Arcitura™!

Sin comentarios

Publicar una respuesta