José Miguel Castro Carrillo
Cada día utilizamos dispositivos mediante los cuales se emite una cantidad grande de información: cada vez que hacemos clic en una página web, pagamos con tarjeta de crédito, publicamos imágenes en las redes sociales, encendemos el GPS, etc. Todas estas acciones producen datos masivos que deben ser tratados.
Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior, es decir, está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos.
Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede administrarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.
El concepto de Big Data tambien engloba las infraestructuras, tecnologías y servicios que han sido creados para poder gestionar esta gran cantidad de información, por lo que permite obtener respuestas más completas, ya que dispone de mayor cantidad de informacion, por lo que la disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.
Si bien el concepto de “big data” en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos relacionales y alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaba los usuarios a través de Facebook. YouTube y otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes conjuntos de datos.
El desarrollo de marcos de código abierto seria esencial para el crecimiento del Big Data, pues estos hacían que fuera más fácil de usar y más barato de almacenar. En los años transcurridos desde entonces, el volumen se ha disparado, porque los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son únicos que lo hacen.
La cantidad de datos almacenados en el mundo se está duplicando cada dos años y la explosión de datos es una consecuencia de la revolución digital y de la gran adopción por parte de los ciudadanos y de las empresas de herramientas y tecnologías como las redes sociales, los dispositivos móviles, la geolocalizacion, y los objetos y sensores conectados a la Red, conocido como el internet de las cosas.
Con la llegada de la internet de las cosas, hay un mayor número de objetos y dispositivos conectados a internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos, que describe un escenario en el que diversas cosas estan conectadas y se comunican, donde el propósito de esta innovación tecnológica es conectar los ítems que usamos diariamente a internet, con el objetivo de aproximar cada vez más el mundo físico al digital.
La falta de tiempo de las personas genera la necesidad de conectarse en internet de nuevas maneras, que permiten la creación de dispositivos que ejecutan tareas que no necesitamos hacer y estos dispositivos conversan por medios de diferentes protocolos dentro de la misma red, acompañan nuestras actividades, almacenan informacion y a partir de ahí, nos auxilian día tras día.
Ya estamos acostumbrados a usar internet con los Smartphone, computadoras TVs Smart y videojuegos, pero en este contexto la idea no es tener un medio más para conectarse a internet en sí, sino hacer con que los dispositivos sean más eficientes, además de contribuir para optimizar recursos naturales, para la salud y otras inumeras oportunidades.
Asimismo, la computación en la nube ha ampliado aún más las posibilidades del big data donde la nube ofrece una escalabilidad realmente flexible donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto de datos. El futuro es ahora, parte de nuestro presente.