Tal vez muchos conozcan que es Big Data, pero me atrevería a decir que no están seguros de cómo aplicarlo en la vida real. En esta oportunidad mencionaré los rasgos más importantes de Big Data y como aplicarlo prácticamente.

Definición

Existen muchas definiciones para este concepto, tomo la de la consultora tecnológica IDC:

Big Data es una nueva generación de tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes volúmenes de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con el objeto de extraer valor económico de ellos.

Tipos de datos

Big Data se encarga de tratar datos no convencionales, esos que no se almacenan en bases de datos relacionales. Dadas las características de las fuentes de información de hoy en día, podemos clasificarlos así:

  • Datos estructurados: Los datos que tienen un formato bien definido y de campos fijos. Por ejemplo: bases de datos relacionales, hoja de cálculo, archivos de texto.
  • Datos semiestructurados: Los datos no contienen un formato fijo, sin embargo, contienen etiquetas y otros marcadores que permiten separar los elementos de un dato. Por ejemplo: páginas web (HTML), formatos de transmisión de datos (JSON, XML).
  • Datos no estructurados: Son datos sin tipos predefinidos y no se tiene mucho control sobre ellos. Por ejemplo: video, audio, imágenes, mensajes de correo electrónico, ebooks, mensajería instantánea (WhatsApp, Messenger, SnapChat, Viber, etc), redes sociales (Facebook, Twitter, Instagram, etc), datos de hardware como señales inalámbricas y sensores.

Características

Según IBM y consultoras de información como Gartner, Big Data se mueve en múltiples dimensiones: volumen, velocidad, variedad, veracidad, valor.

  • Volumen: Las empresas ya comenzaron a almacenar enormes cantidades de información, nos encontramos en la era del Petabyte y el Exabyte.
  • Velocidad: De nada sirve amasar enormes cantidades de información si no se puede procesar inmediatamente, este aspecto es muy importante a considerar en Big Data.
  • Variedad: ¿Es una fecha? ¿Es un registro de una base de datos relacional? ¿Es un audio? ¿Es una señal de WiFi? ¿Qué tipo de dato es? Si se desconoce la información que tenemos, el negocio puede estar en riesgo por la ignorancia de lo que sucede.
  • Veracidad: Variedad y fuentes de datos crecen ¿Pero son confiables estas?. La veracidad juega otro papel clave en Big Data.
  • Valor: La información tiene que decirle algo al negocio, lo suficiente como para tomar decisiones correctas.

¿Y cómo se aplica?

Hasta aquí supongo que todo se entiende y se ve bonito, pero ¿Cómo se aplica? hablemos un poco de Hadoop.

Hadoop es un framework de código abierto que permite procesar grandes cantidades de datos a un costo muy bajo. También incluye una colección de elementos de procesamiento distribuidos para las tres clasificaciones de datos: estructurados, semiestructurados y no estructurados hasta el orden de los Petabytes.

Sus principales componentes son:

  • HDFS: Sistema de archivos distribuidos.
  • MapReduce: Modelo de programación asociado a procesamiento de grandes volúmenes de datos. Los programas se paralelizan automáticamente y se ejecutan en un cluster (grupo de servidores/nodos).
(Hadoop Ecosystem)

Si hacemos una parada nuevamente, ahora sabemos el concepto de “Big Data” y que también podemos hacer proceso de grandes volúmenes de información (Big Data) con un framework de software llamado “Hadoop”.

Ahora bien, cuando hablamos de clusters, hay que pensar en muchos puntos de trabajo, más de un par de servidores trabajando al mismo tiempo, y para eso también se puede hacer virtualización por lo que tecnología de nube es un buen punto de partida.

HDInsight (El Hadoop de Microsoft Azure)

HDInsight es un servicio de Microsoft Azure que implementa Hadoop. Se integra con otros servicios de Microsoft como: PowerBI, SQL Server Reporting Services & Analysis Services y Excel.

A continuación, expongo la manera en cómo se pueden crear clusters de Hadoop con el servicio de HDInsight desde el portal de Microsoft Azure:


Sígueme en Twitter @vmorenoz

¿Te gustó este artículo? Únete a Facebook en MicrosoftLand

Deja un comentario