NoSQL Databases, un nuevo reto para Data Mining

El crecimiento de Internet y con ello la aparición de grandes corporaciones como Google, Yahoo, eBay, Facebook, Twitter, Digg o Lingedin basadas, todas ellas, en la gestión y búsqueda de contenidos, ha planteado nuevos retos a la industria de las bases de datos.
Manejar volúmenes de datos del orden de Petabytes = 1.000 Terabytes y además hacerlo de forma ágil y rápida hacía inviable seguir con el sistema tradicional de bases de datos relacional ACID gestionada por una CPU.
La solución estaba en la antigua Roma, Julio César con aquella frase "Divide et vinces", una vez más el divide y vencerás llevó a los ingenieros de Google a pensar en un nuevo concepto.
Las Bases de Datos Distribuidas

En este caso, la base de datos queda bajo el control de "un sistema central de gestión de la base de datos" DBMS, que no es más que una red de servidores que se reparten la responsabilidad de almacenar la base de datos.
De hecho, lo que hacen es partir la base de datos en rebanadas ( ... si ... pensad en las rebanadas de pan ) , de forma que cada servidor se responsabiliza de una de estas rebanadas (Chunk Nodes).
Google lideró esta carrera desde el principio, con dos revolucionarios proyectos:
- Google File System
- Google MapReduce, un potente entorno de trabajo, pensado para trabajar con bases de datos distribuidas
Yahoo tomó el relevo, más tarde, y con el proyecto Hadoop creó un nuevo entorno de trabajo mejorando los proyectos iniciales de Google, hasta convertirse en la actualidad en un entorno de referencia al albergar la base de datos Cassandra utilizada por Facebook, Twitter y Digg entre otros.
Nuevos Retos para Data Mining
Por supuesto, aprovechar el potencial computacional de redes de servidores mediante técnicas de trabajo distribuidas, supone todo un reto y toda una oportunidad para la industria Data Mining y para la industria de la Inteligencia Artificial.
¿Se os ocurre aplicaciones en este sentido? ...
- blog de jgironesr
- Inicie sesión para enviar comentarios