En ce 21ième siècle, à l’heure du tout numérique, toute information a vocation à être « donnée » et toute donnée représente potentiellement un facteur clé pour la réussite d’une organisation, qu’il s’agisse d’un organisme de recherche, d’un acteur du Secteur Public ou d’une entreprise. Nous vous invitons à lire à ce propos le rapport Big data: The next frontier for innovation, competition, and productivity du McKinsey Global Institute.

Dans ce véritable « déluge de données » auquel doivent faire face les organisations, il devient difficile de se repérer et d’extraire l’information utile. Sans surprise, on constate donc dans ce contexte un besoin croissant de stocker et d'analyser de grandes quantités de données (non structurées). Ceci concerne tout azimut les données issues de capteurs, d’appareils, de robots, etc. et ce volume devrait croître de façon exponentielle au cours de la prochaine décennie. Les données en entrée peuvent être les échanges sur les réseaux sociaux, le contenu de pages Web, les fichiers journaux de serveur Web, les informations de trafic urbain, les transactions bancaires, les données sur les marchés financiers, l'imagerie satellite, la diffusion des flux audio, les fichiers journaux de pistes GPS, etc. Il est aujourd’hui courant de parler de Téraoctets pour les particuliers et de Pétaoctets pour les organisations.

Il est également possible de parler de « révolution des données » dans lequel les acteurs ne sont plus seulement les organisations elles-mêmes mais également l’ensemble de la population et l’ensemble des nouveaux terminaux connectés (Internet des données) ouvrant ainsi la voie à une augmentation exponentielle des données dites non structurées.

C’est avec ce déluge de données qu’est né le terme Big Data et les Big Data s’imposent de partout : les DSI les poussent, les analystes veulent les utiliser, et plus généralement tout le monde veut acquérir de nouvelles connaissances qui aideront leur organisation à croître et à prospérer.

Pour autant, si les « Big Data » s’appliquent bien dans cette avalanche de données, il n’en est pas moins difficile d’exprimer exactement ce qu’elles représentent.

Pour répondre à la question, nous reprenons ici pour notre propos la définition proposée par le Gartner (Cf. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data) mais d'autres définitions peuvent conduire à un résultat similaire. Le Gartner caractérise les Big Data comme des défis dans trois domaines distincts, et caractérisés par le principe des 3V de plus en plus démocratisé :

  • Volume : Pouvez-vous gérer le volume de données généré au quotidien ? Le volume correspond à la quantité de données stockées, utilisées et générées au sein d’une entité. Au-delà de quantifier ces données et de définir un seuil spécifique, la problématique est basée sur la capacité à gérer les volumes de données, en constante augmentation, générés par l’entité.
  • Vitesse : Est-il possible d’analyser la quantité de données reçues en temps réel ou avec une vitesse suffisante pour être réutilisée en temps voulu ? Cette caractéristique se base principalement sur la capacité à extraire, analyser, transformer et restituer l’information en à une vitesse suffisamment rapide pour une prise de décision efficace.
  • Variété : Pouvez-vous gérer la complexité d’analyse de multiples sources de données, que celles-ci soient structurées ou non structurées ? Les sources de données étant diverses (base de données, coordonnées GPS, mesures, médias, etc.) la capacité d’analyser l’ensemble de ces données est un point clés de ces Big Data.

Ce sont les 3 points clés qui permettent de définir ce que sont les Big Data et vous serez amenés très probablement à faire face à chacun des Vs à un degré ou un autre si ce n’est d’ores et déjà le cas.

Il est ici par ailleurs important de prendre en compte que la notion de Big Data est avant tout relative. Ce qui va être considéré comme des Big Data dans un contexte ne le sera pas forcément dans un autre et ceci aura un impact direct sur les technologies et choix afférents pour traiter ces données.

Le Forrester propose dans l’article What's Your Big Data Score? une méthode basée sur le principe des 3V qui permet d’identifier au travers d’une note si une entreprise possède des Big Data et dans quelle mesure elle est capable de les gérer. Sur cette « simple » base, il est ainsi possible d’obtenir un premier aperçu des problématiques et des succès afférent aux Big Data d’une entreprise.

De même, le schéma ci-dessous donne une première vue du choix de la solution à utiliser entre de la BI (Business Intelligence) traditionnelle et du Big Data en fonction du principe des 3V.

image

Tout un chacun s’accordera à dire qu’il est important d’identifier, pour les organisations, l’intérêt que peuvent revêtir, au-delà du « buzz » ambiant, les Big Data dans leur contexte propre.

Les Big Data représentent l’ensemble des technologies, des tendances et du potentiel pour les organisations à obtenir de l’information utile. Pour l’entreprise par exemple, cette information utile représente l’occasion d’accroitre les revenus liés à son activité, de s’ouvrir à de nouvelles perspectives économiques, ou encore de réduire les coûts engendrés par la recherche d’informations et de la prise de décision, etc. Les Big Data sont donc en phase de devenir un facteur clé pour la croissance et la compétitivité des organisations.

« En 2015, les organisations qui construiront un système de gestion d’information moderne et plus performant que leurs concurrents les surpasseront financièrement de 20% » Gartner, Mark Beyer, « Information Management in the 21st Century »

Les enjeux sont donc divers, variés et propres à chaque organisation :

  • Une entreprise d’e-commerce trouvera notamment une utilité dans l’analyse des goûts et achats d’un utilisateur afin de lui proposer les produits les plus adaptés à son besoin ;
  • Une entreprise dont le secteur d’activité est la finance trouvera un réel intérêt à analyser les courts en temps réel et récupérer un ensemble d’indicateurs en quasi temps réel relatifs à la prise de décision financière ;
  • De même, toute organisation utilisant de la BI (Business Intelligence) pourra augmenter son potentiel en affinant ses résultats et en créant pour de nouveaux indicateurs amenés par les Big Data.

Face à cette situation, nos clients nous demandent de les aider à stocker, gérer et analyser ces nouveaux types de données et de leur proposer pour cela des réponses techniques adaptées.

Lors de l’évènement PASS Summit en octobre 2011, Microsoft a annoncé sa feuille de route et son approche des Big Data. Notre objectif est de fournir des préconisations et des solutions à l’ensemble des personnes concernées pour leurs données structurées et non structurées de toute taille. Au travers d’un partenariat étendu avec Hortonworks, un acteur commercial de l’écosystème Apache Hadoop, cet investissement de Microsoft commence à se traduire par :

  • Des solutions Big Data complètes et prêtes à l'emploi, avec notamment une distribution fondée sur Hadoop prête pour l'entreprise pour Windows Server et Windows Azure, avec l’annonce récente de HDInsight Server, de Windows Azure HDInsight Service et du kit .NET Framework SDK for Hadoop,
  • Des approches pour tous grâce à l'utilisation d'outils familiers comme Excel, PowerPivot for Excel et Power View pour extraire facilement des pistes de réflexion à partir des données,
  • Et, au global, une plate-forme ouverte, interopérable et flexible avec une compatibilité totale avec l’écosystème Apache Hadoop.

Comme le dit David Campbell, technical fellow, Microsoft, « les Big Data doivent fournir des réponses aux métiers, pas de la complexité pour le SI”.

Depuis PASS, nous sommes fréquemment interrogés à propos de l'interaction entre :

  • Hadoop, MapReduce, SQL Server Integration Services (SSIS) et Power View.
  • Hadoop, MapReduce et StreamInsight.
  • Etc.

Dans la pratique, il existe en effet de multiples raisons pour lesquelles vous pourriez vouloir regarder de telles combinaisons.

Compte tenu de la variété des situations, ce nouveau blog vous propose d’entrer de façon pragmatique dans le monde du #BigData avec la mise en avant de problématiques données assorties de la proposition de scénarios/solutions type prêts à l’usage. Ce blog sera également l’occasion de faire des focus particuliers sur la mise en œuvre concrète d’une technologie particulière dans le contexte des solutions Microsoft pour le Big Data.

Nous espérons vous compter parmi nos lecteurs (et commentateurs) réguliers :)