¿Qué es Big Data?

Imagina una enorme cantidad de información o bien a través de una analogía es como medir cada uno de los litros que conforman todos los océanos del mar, donde cada litro contiene datos, que al ser sumados e integrados de la manera correcta (se analizan) sirven para la toma de decisiones.

Hoy por ejemplo Google recibe una cantidad impresionante de información, a través de las búsquedas desde computadoras y desde diferentes dispositivos móviles. Sin mezclar los temas pensemos en una de las divisiones de Google que es Youtube donde además de cantidades impresionantes de información, existen cantidades también impresionantes de dinero:

Tiene cuatro billones de visitas cada día, entre todas las horas que la gente dedica a ver videos existen 800 mil usuarios visitan el sitio mensualmente, eso da la cifra que cada minuto se sube 72 horas.

En YouTube los usuarios fuera de Estados Unidos somos la mayoría (70%) y son más de 60 idiomas en los que se suben videos en dicha plataforma al mismo tiempo.

Google tiene la capacidad de analizar terabytes de información en segundos, tiene un lenguaje de programación propio para poder realizar este análisis en nanosegundos conocido como Dremel y también fabrican sus propios servidores con varias memorias y discos, donde procesan la información muy rápidamente.

Así es, Big Data viene del Internet y la gran cantidad de información que se genera desde Facebook, Twitter y blogs. Donde compañías como Cadillac y Soriana deben procesar rápidamente para saber que esta sucediendo y poder reaccionar.

En el pasado se tenían servidores potentes con bases de datos de Microsoft como SQL,  DB2 de IBM u ORACLE con información en gran cantidad, pero…estructurada.

Big Data es una cantidad mayor y viene en formato estructurado o semiestructurado o de plano no estructurado, donde es imposible almacena, indexar o tratar de interpretar esa información.

Cuando Google y Facebook fueron creados no existía una solución que pudiera procesar esa cantidad de información que generaban y menos transformarla en algo útil para ser analizado y tomar decisiones.

Big Data no es transaccional sino de procesamiento de datos, tampoco se respalda toda esa información como hoy se hace con las bases de datos estructurados.

En resumen Big Data se trata de datos complejos en muy grandes volúmenes pero deben ser atrapada/extraída de múltiples fuentes de información.

De hecho ya desde hace tiempo el servicio secreto de los Estados Unidos utilizan tecnología para detectar posibles actos terroristas o gente que atente contra la seguridad del Presidente, donde desde líneas telefonías, internet, mensajes de texto o videos, tienen la capacidad de analizar la información con detalle de procedencia, acento de la conversación y se lo toman con mucha seriedad en su análisis y créanme que funciona.

Pero en el mundo de los negocios:  ¿Qué debería analizarse en este océano de información?.  ¿Si no estoy en Big Data de verdad pierdo la oportunidad de tomar una ventaja competitiva?. ¿Quiénes me pueden ayudar con soluciones en esta nueva ola de tecnología conocida con Big Data?.

Bueno…aquí unas respuestas:

Compañías como Claudera tienen soluciones basadas en Hadoop, que es un proyecto basado en herramientas sin licenciamiento.

Sin embargo también están IBM y Oracle, el primero con InfoSphere y el segundo con hardware (Exadata) y software (Endeca), pero también esta EMC2, Information Builders, Software AG y JackBe.
 

La gente que estamos metidos en tecnología debemos pensar en Big Data con un enfoque integral, es decir:

1.- Considerar la seguridad

2.- Pensar en que mucha de la información generara falta de confianza por el volumen y velocidad
3.- No es solo la cantidad de datos, sino la velocidad a la que se generar y como prolifera
4.- Hay múltiples fuentes de información y tiene formatos distintos (voz, datos, imagen y video)
5.- Se tiene que integrar a las soluciones con que hoy cuenta la organización (Business Intelligence, RDMBS, BPM, Business Analytics, etc., etc.)
6.- Se deben crear los ambientes de: a)  Desarrollo, b) Administración y c) Usuario final
7.- No es un paquete, ni un componente, ni un servicio; sino la suma de todo lo anterior
8.- Ya hay DATA CENTERS que rentan el servicio
9.- Se tiene que hablar de Petabytes a Zetabytes  en las cantidades información

Eventualmente muchas compañías líderes empezaran a involucrarse en este tema, así que ve pensando en lo siguiente:

I- Muchos datos potencialmente valiosos son descartados por cuestiones de no capacidad en su procesamiento por consideraciones de performance.
II- Grandes volúmenes de datos no estructurados o semiestructurados por si solos no tienen valor a menos que se les meta inteligencia para interpretarlos (Tweets, logs, etc.).
III- No esta tan claro que debe analizarse pero debe analizarse.
IV- Siempre estaremos procesando volúmenes de información excesivamente altos.
V- VELOCIDAD, VELOCIDAD, ¡VELOCIDAD!
VI- Los expertos en este tema tendrán una alta demanda para integrar soluciones por los próximos seis años (al menos).

Chiste Final:

– Compadre, cómo se les llama a las mujeres adictas al sexo?

– Ninfómanas!

– No sea pendejo compadre……
                             A que número?!

 

Deja un comentario