A l’occasion de l’ouverture de blog, nous vous proposions un cadre d’échanges et de partage avec la mise en avant de problématiques données assorties de la proposition de scénarios/solutions type prêts à l’usage. Ainsi, pour rentrer de façon pragmatique dans le monde du #BigData, l’objectif que nous nous sommes fixé consiste notamment à partager des focus particuliers sur la mise en œuvre concrète d’une technologie particulière ou d’un ensemble de technologies dans le contexte des solutions Microsoft pour le Big Data.

A ce titre, les Journées SQL Server 2012 ont été l’occasion de découvrir un ensemble de démonstrations des plus intéressantes lors de la session Big Data mêlant Big Data et BI (Business Intelligence) dans un continuum. Vous avez été nombreuses et nombreux à les apprécier.

imageimage

Romain Casteres, consultant Décisionnel de la société DCube à l’origine de ces démonstrations, a eu la gentillesse de prendre le temps nécessaire à la rédaction d’un article technique détaillé pour permettre à tout un chacun de les reproduire.

J’ai aujourd’hui le plaisir de publier dans ce blog ce billet rédigé par Romain Casteres. Je profite de cette occasion pour le remercier très sincèrement pour cette remarquable contribution.

Je vous en souhaite une bonne lecture.

--Philippe


La 2ème édition des journées SQL server (JSS) s’est déroulée les 10 et 11 décembre au centre des conférences de Microsoft à Issy-les-Moulineaux (Paris). Les JSS, ce sont deux jours de conférences, gratuites, organisées par le GUSS, avec plus de 30 sessions sur l’univers SQL Server, le décisionnel et la base de données. Avec Benjamin Guinebertière, nous avons animé le lundi 10 décembre 2012 une session sur l’offre Big Data de Microsoft (Voir les slides). Il m’a été proposé de rédiger un article reprenant les différentes démonstrations et permettant à chacun de les reproduire.

Seront traités dans cet article les processus pour capturer, transformer, enrichir et visualiser des données issues du réseau social Twitter depuis Windows Azure, Hadoop (Windows Azure HD Insight), SSIS (SQL Server Integration Services), SSAS (SQL Server Analysis Services), et Excel. Cet article expose en trois parties les différents modes d’analyses :

Ce billet a été rédigé par Jérôme Christ (pour l’introduction de la seconde partie) et par Romain Casteres, tous deux consultants de la société DCube.

Merci à Cheikh Diop, Bertrand Pierson, Damien Dorison et Arnaud Milleker pour la relecture.

Vous retrouverez toutes les sources aux adresses suivantes :

Pourquoi le Big Data et la Business Intelligence ?

Pour piloter leur business, les entreprises doivent répondre aux questions liées :

  • A l’analyse du web et de ses réseaux sociaux ;
  • Aux flux de données grossissants et non-structurés ;
  • Aux prédictions permettant d’anticiper les décisions.

Ainsi, seules les organisations en mesure de tirer parti du Big Data et donc de répondre à ces nouveaux types de questions seront capables de se différencier des concurrents et de faire des économies sur les couts IT.

image

La Business Intelligence (BI) va être de plus en plus associée au Big Data, mais quelles sont leurs limites respectives ?

Critères

Hadoop et Hive

Moteurs de requêtage BI

Récupérer et stocker toutes les données

Oui

Non

Support des requêtes sur les données de détail

Oui

Non

Support des requêtes interactives depuis des applications

Non

Oui

Support des outils de BI et de visualisation

Non

Oui

Composition d’un Tweet

Voici la composition d’un Tweet au format JSON (JavaScript Object Notation), nous reprendrons certaines de ces valeurs par la suite :

{

"in_reply_to_status_id_str":null,

"text":"Acabo de visitar Hotel Cosmos 100 en #MyTown2",

"in_reply_to_user_id_str":null,

"retweet_count":0,

"geo":null,

"source":"\u003Ca href=\"http:\/\/www.apple.com\" rel=\"nofollow\"\u003EiOS\u003C\/a\u003E",

"retweeted":false,

"truncated":false,

"id_str":"263272653685669888",

"entities":{"user_mentions":[],"hashtags":[{"text":"MyTown2","indices":[37,45]}],

"urls":[]},

"in_reply_to_user_id":null,

"in_reply_to_status_id":null,

"place":null,

"coordinates":null,

"in_reply_to_screen_name":null,

"created_at":"Tue Oct 30 13:34:26 +0000 2012",

"user":

{

"notifications":null,

"contributors_enabled":false,

"time_zone":"Bogota",

"profile_background_color":"000000",

"location":"Bogota",

"profile_background_tile":false,

"profile_image_url_https":"https:\/\/si0.twimg.com\/profile_images\/2778449231\/e66fe190e3bb0bbd2efca21817117613_normal.jpeg",

"default_profile_image":false,

"follow_request_sent":null,

"profile_sidebar_fill_color":"EFEFEF",

"description":"Nac\u00ed de la nada, y me forme en distintas dimensiones, actualmente soy Creativo  gr\u00e1fico de la empresa",

"favourites_count":546,

"screen_name":"Johuvudu",

"profile_sidebar_border_color":"EEEEEE",

"id_str":"59155791",

"verified":false,

"lang":"es",

"statuses_count":5564,

"profile_use_background_image":true,

"protected":false,

"profile_image_url":"http:\/\/a0.twimg.com\/profile_images\/2778449231\/e66fe190e3bb0bbd2efca21817117613_normal.jpeg",

"listed_count":0,

"geo_enabled":true,

"created_at":"Wed Jul 22 15:32:13 +0000 2009",

"profile_text_color":"333333",

"name":"Jhon Van Der Meyde ",

"profile_background_image_url":"http:\/\/a0.twimg.com\/profile_background_images\/613484067\/arfu62g9y7wz8pvcbjtg.jpeg",

"friends_count":220,

"url":null,

"id":59155791,

"is_translator":false,

"default_profile":false,

"following":null,

"profile_background_image_url_https":"https:\/\/si0.twimg.com\/profile_background_images\/613484067\/arfu62g9y7wz8pvcbjtg.jpeg",

"utc_offset":-18000,

"profile_link_color":"009999",

"followers_count":117

},

"id":263272653685669888,

"contributors":null,

"favorited":false

}

Analyse des 5 dernières secondes

image

Microsoft Stream Insight est une plate-forme permettant de traiter des événements complexes et d’analyser leurs résultats en temps réels.

Vous trouverez sur le site CodePlex une démonstration documentée sur comment analyser des Tweets en temps réel et visualiser leurs tendances.

Big Data Twitter Demo: http://twitterbigdata.codeplex.com/

image

Dans la seconde partie de cet article, Jérôme vous montrera comment récupérer des Tweets en relation avec le voyage à partir d’un Worker Role dans Windows Azure pour les sauvegarder dans une Blob Storage Azure (espace de stockage dans le Cloud). Par la suite, dans une troisième et dernière partie, je vous montrerais comment les intégrer dans un Framework Big Data pour les analyser depuis Excel.