El registro de información para posterior análisis y toma de decisiones es una práctica muy antigua. Ya en el paleolítico superior se empleaban métodos rudimentarios de almacenamiento de datos, mediante el empleo de muescas en huesos, o con palos. De este modo se podía llevar una cuenta de provisiones, hacer cálculos básicos e incluso prever necesidades de alimento.
En la antigua Babilonia surgieron las primeras bibliotecas, como lugares donde se almacenaba el conocimiento de la época, al mismo tiempo que se generalizó el uso del ábaco. Más tarde, la biblioteca de Alejandría llegaría a albergar medio millón de documentos.
En la Grecia del siglo II AC se desarrolló la primera computadora mecánica conocida. El mecanismo de Anticitera era un aparato con un complejo sistema de engranajes de bronce que se accionaba manualmente, para hacer predicciones astronómicas.
En 1662, el estadístico inglés John Graunt realizó el primer experimento de análisis de datos estadísticos que se conoce. Tomando como base los datos de defunciones en Londres, intentó crear un sistema para avisar de la aparición y propagación de la peste bubónica en la ciudad.
En 1865 aparece por primera vez el término Business Intelligence. Es en la obra Cyclopædia of Commercial and Business Anecdotes, de Richard Millar Devens, donde se describe la estrategia de un banquero de la época para mejorar sus negocios, recogiendo y estructurando datos proporcionados por su red de información.
Durante todo el siglo XX los avances tecnológicos permiten almacenar volúmenes crecientes de información de múltiples tipos, y en 1989 es el periodista Erik Larson habla por primera vez de lo que hoy conocemos como Big Data, en un artículo sobre marketing publicado en Harpers Magazine.
En 1997 Google lanza su motor de búsqueda, el más usado hasta nuestros días. Para entonces, la cantidad de información generada en el mundo ya crecía de forma exponencial desde hacía varios años.
En 2005, Roger Mougalas, de O’Reilly Media, acuñó el término Big Data. Ese mismo año, los ingenieros de Apache Doug Cutting y Mike Cafarella crearon Hadoop, cuyo propósito inicial era indexar toda la World Wide Web. La capacidad de la Web 2.0 de generar enormes volúmenes de datos es lo que hace surgir la necesidad de procesarlos, de forma ágil, ya que de poco sirve disponer de una ingente cantidad de información, si cuando se consigue extraer la más importante, está desactualizada. Hadoop es la primera plataforma Big Data Open Source y aún hoy es la base fundamental de prácticamente la totalidad de los sistemas de Big Data.
Entre 2009 a 2011 aparecen empresas como Cloudera y Hortonworks. Ambas nacen con el propósito de conseguir una gestión de los datos más sencilla y mejorada.
La irrupción del internet de las cosas (IoT) y la Web 3.0 ha traído consigo mayores crecimientos de volúmenes de datos, y por tanto retos mayores, a la hora de explotar su valiosa información para los negocios.
El “secreto” de Big Data
Más allá de toda la tecnología que se ha ido desarrollando el gran secreto de Big Data, el modo de abordar el reto de procesar en cuasi tiempo real grandes volúmenes de datos, y de muy diversas fuentes es realmente sencillo y se podría resumir en dos puntos:
- Dividir la tarea en tareas más pequeñas
- Asignar las tareas pequeñas resultantes a diferentes máquinas, para su realización simultanea (en paralelo)
En cuanto a los datos, también se dividen en conjuntos más pequeños, y se distribuyen entre diferentes nodos de la plataforma de Big Data
Y un tercer ingrediente es la capacidad de la plataforma Big Data para adaptar sus recursos según aumenta o disminuye el flujo de datos, junto con la velocidad requerida para obtener resultados, es decir, la escalabilidad.