Cada día creamos datos que vienen de una multiplicidad de fuentes: registros de tráfico, posts que ponemos en los sitios de social media, fotos y vídeos online, sensores que recogen información del clima, transacciones bancarias online, GPS, llamadas de teléfono o registros de los organismos gubernamentales. Juntos suman la cantidad de 2,5 trillones de bytes, tanto que el 90% de ellos se han creado en los últimos 2 años. Es Big Data.

Big Data es un conjunto de datos que es demasiado grande, se actualiza demasiado deprisa y no encaja en las estructuras de proceso de datos IT de las empresas.

De la información al conocimiento

La información son los datos que tenemos a nuestro alcance. Es abundante, se olvida y cambia. El conocimiento consiste en extraer lo valioso de la información, su riqueza y su profundidad. El conocimiento permite tomar decisiones razonadas y actuar en consecuencia. La información tiene poco valor si no se transforma en conocimiento. Grandes cantidades de datos son inútiles si no podemos sacar conclusiones. Es necesario pasar de la información al conocimiento.

Big Data tiene dos desafíos. Manejar ingentes cantidades de información y analizarla para entenderla.

En los últimos años han florecido las empresas que se dedican de una u otra forma al manejo de grandes volúmenes de datos, tanto en relación al hardware, como al software y a los servicios asociados. Oracle, el gigante de las bases de datos, tiene un producto llamado Exadata en el que lo combina todo en lo que se denomina un appliance. Antes, Teradata ya se dedicaba al datawarehouse o almacén de datos. IBM siempre ha tenido productos relacionados con el mundo de Business Analytics. Hace poco compró Netezza, otro appliance en el que todo está incluido. Desde el punto de vista del software, muchas empresas han saltado al mercado con productos que manejan grandes cantidades de datos, los estructuran en cubos de información preprocesada y los atacan con herramientas de consulta como Cognos, también comprada por IBM.

Big Data tiene tres dimensiones, las tres V:

  • Volumen. Terabytes o Petabytes de información inundan los proyectos de Big Data
  • Velocidad. El dato de ayer no sirve hoy, hay que responder al mundo cambiante al instante
  • Variedad. Los datos ya no solo están estructurados en bases de datos a la antigua usanza. Ahora incluyen audio, video , posts de social media y mucho más.

El análisis de los grandes datos puede descubrir patrones escondidos que antes era muy complicado procesar. Pero el manejo de los datos no es cosa fácil empezando por el principio. La calidad de los datos es esencial. Todas las empresas tienen registros con clientes duplicados o vacíos. Desde el mismo inicio hasta el informe final se usan multitud de herramientas que quieren asegurar la fiabilidad de las conclusiones. Solo el portfolio de productos de IBM para la gestión de la información tiene decenas de productos, de calidad, de manejo, de reporting, de consolidación, de minería o de predicción.

Para algunas grandes empresas como Google, Big Data es una necesidad imperiosa. Nadie sabe cómo funciona o qué hacen con su masiva cantidad de datos pero es seguro que el coste de su gestión es muy elevado. Para Pymes, productos de alquiler, en la nube o de software libre están disponibles además de un hardware relativamente asequible.

Pero Big Data comienza a penetrar en mundos antes imposibles. El LHC, gran colisionador de hadrones del CERN genera tantos datos que la mayor parte de ellos se desechan, confiando en que no estén tirando nada importante. Siempre es posible recolectar más y más datos y hacerse preguntas más complejas. En el mundo de la sanidad la gestión de todas las historias clínicas. Más aún, todas las imágenes médicas como radiografías y resonancias. Y siempre existirá un médico que quiera cruzar datos de, por ejemplo, todas las radiografías de pacientes con tumor que no han muerto en cinco años, tenían familia y no tenían antecedentes de alcohol. Y querríamos saber los datos de consumo eléctrico de todos los contadores al minuto para tomar decisiones adecuadas de consumo. ¿Contadores? ¿Por qué no cada enchufe y cada electrodoméstico? O saber todos los tuits que hablan de un determinado tema y relacionarlos con noticias de prensa. O seguir el movimiento de cada vehículo en las carreteras. O estudiar la influencia de los rumores que se propagan en los social media sobre las bolsas y productos financieros. El catalogo de preguntas que pueden hacerse las industrias, sectores y empresas es inacabable. Es Big Data.