Recientemente inicie una conversación sobre “Big Data”. Permitame ahora profundizar en el concepto:

·         El paradigma de los grandes datos se refiere a una nueva forma de pensar para manejar cada vez más información y resguardar el valor de la información. No hay un “número” de bytes estrictamente – hace años quizá era la información del censo de Estados Unidos o la mantenida por los burós de crédito.

·         Las bodegas de datos tradicionales han contenido hasta ahora información transaccional. Pero en la década pasada se han incorporado datos en tiempo real, datos de comportamiento sobre transacciones y extracción de sentimiento de redes sociales. De ahí la necesidad de nuevas herramientas analíticas. Recalco que las soluciones actuales de inteligencia de negocio permanecen.

·         La “Integración de datos” entre redes y multiempresas va más por allá de lo que hoy están haciendo las empresas líderes en “data warehousing”. Se requiere un nuevo nivel del “extraer, transformar y cargar” datos al exterior de la empresa. Las normas están por discutirse, no existen.

Desde el punto de vista técnico hoy existen dos aproximaciones muy distintas a manipular grandes cantidades de información:

1.       El administradores de base de datos relacional que todos conocemos, pero conforme crecen se hacen muy difíciles de implementar y administrar. Pero ideales para información transaccional.

2.       UDF. El uso de un sistema de archivos distribuido en combinación con lo que se denomina “Funciones Definidas por usuario”. Esto es primariamente lo que hace MapReduce. Tanto Microsoft como Google o Facebook utilizan este esquema para los repositorios de mayor escala. Existen implementaciones a distintos niveles: programación en java, de mayor nivel como Apache Pig!, en forma de ambiente integrado para desarrollo de soluciones o con aplicaciones de terceros para problemas específicos (v.gr. Ozzie o Zookeeper). No cumple con las reglas ACID para operaciones transaccionales.

3.       Híbrido: Por ejemplo el Empujar la información de bases de datos a Hadoop, cargar los resultados de MapReduce en bases de datos o combinaciones más complejas donde los mapeadores y reductores son bases de datos o utilizan el HDFS como almacenamiento subyacente. Otras combinaciones de cómputo paralelo.

Cualquiera de estos modelos continúa teniendo limitantes: ninguno de los dos puede procesar eficientemente consultas con una “gran unión” de datos. ¿Es importante tener un estándar de acceso unificado a relacional y noSQL? ¿Qué nuevas oportunidades representa Big Data en modelos de negocio?... Encuentre aquí una lista de los mejores reportes y artículos originales que compile para usted.