Las palabras “Big Data” llevan tiempo formando parte de las tendencias dentro de lo que se ha dado en llamar transformación digital. Junto con el Cloud Computing y Blockchain, constituye una de las tecnologías más prometedoras, y es ya una realidad en multitud de servicios, públicos y privados, a lo largo de todo el mundo.
¿Qué es Big Data?
En primer lugar, hablamos de Big Data cuando una empresa o institución pretenda emplear un enfoque data-driven (impulsado por datos) de modo que se plantee como objetivo extraer el máximo valor de la información, sea propia, de fuentes externas accesibles, o una combinación de ambas.
Fijada la primera premisa, conceder y valorar el potencial que los datos tienen en una organización, la atención debe fijarse en el volumen, la naturaleza, almacenamiento y fuentes de dichos datos.
Volumen de datos
Una de las características de Big Data, y que la diferencian de las arquitecturas de datos tradicionales, es que es capaz de tratar grandes volúmenes de datos. Es en lo que la mayoría de la gente piensa cuando escucha Big Data, y aquí surge la primera cuestión ¿Cuál es la cantidad a partir de la cual se considera que es un gran volumen?
No hay un criterio concreto. Una opinión extendida durante algún tiempo la fijaba en la escala del Terabyte (1024 GB), probablemente porque entonces se consideraba un volumen lo suficientemente grande como para conllevar largos tiempos de procesamiento y hardware más complejo del habitual.
Pero dada la velocidad de avance de los procesadores, y el descenso de coste de la memoria RAM, fijar una cifra basada estos parámetros conduciría a tener que elevarla al alza, al cabo de pocos meses. Lo que hace medio año se consideraba “gran volumen”, es posible que hoy ya no lo sea tanto, en términos de esfuerzo para una máquina.
Dejemos por un momento la cuestión del volumen de información. Volveremos después sobre ello, visto el resto de factores que hacen al Big Data distinto.
Fuentes de datos y velocidad de procesamiento
El siguiente elemento diferenciador frente a las soluciones tradicionales de tratamiento de datos es la diversidad de información. Frente al clásico Business Intelligence, con cuadros de mando que trabaja a partir de datos estructurados (típicamente en bases de datos SQL), Big Data da solución cuando las fuentes de información son variadas. Esto significa capacidad de procesar, desde documentos de texto o archivos de sonido, hasta ficheros en formatos como XML o JSON, o de registro de operaciones, por poner unos cuantos ejemplos. Además de datos estructurados, por supuesto. Cualquier formato, en el cual puede haber información susceptible de ser útil se puede procesar mediante la arquitectura de Big Data.
Y un tercer criterio es la necesidad de procesamiento en casi tiempo real. Frente al ya mencionado Business Intelligence, que requiere consolidar datos agregados, transcurriendo así días o semanas, ahora es posible reaccionar en segundos según la información entrante, una rápida toma de decisiones, e incluso automatizar estas.
Volviendo a la cuestión del volumen de datos.
Cuando, por volumen, junto con los condicionantes de variedad y velocidad, el volumen de datos no pueda ser procesado por una sola máquina, o el coste de esta no sea operativo, entonces será necesaria una plataforma Big Data.
Hay otras variables, que algunos autores añaden, como el valor del dato y su variabilidad de flujo en el tiempo. En todo caso, Big Data siempre estará ahí donde confluyan volumen, variedad y velocidad.