Le 24 octobre dernier, Microsoft annonçait dans le billet Simplifying Big Data for the Enterprise du blog du groupe produit SQL Server la disponibilité d’Hadoop pour les utilisateurs de Windows Azure. Windows Azure HDInsight Service se veut le moyen le plus simple de déployer, de gérer et faire passer à l’échelle des solutions basées sur Hadoop.

Cette version comprend:

  • Des mises à jour Hadoop qui assurent les dernières versions stables de HDFS (Hadoop Distributed File System) et Map/Reduce, Pig, Hive, et Sqoop ;
  • Un SDK pour écrire des « jobs » Hadoop en utilisant le Framework .NET et l’IDE Visual Studio ;
  • Mais également une installation locale d’Hadoop destinée aux développeurs au travers d’HDInsight Server. Nous allons y revenir dans la suite de ce billet comme le titre le laisse supposer.

La session Developing Big Data Analytics Applications with JavaScript and .NET for Windows Azure and Windows de Matt Winkler, Principal Program Manager, lors de la conférence //build/ début novembre donne une vue d’ensemble de cette version.

Windows Azure HDInsight Service et HDInsight Server ont été développés en partenariat avec le développeur logiciel et distributeur Hadoop Hortonworks pour donner aux clients l'accès à une distribution d’Hadoop prête pour l'entreprise avec les dernières versions des composants mis à disposition. Rob Bearden, PDG d’Hortonworks, declare à ce propos : "Our expanded partnership with Microsoft empowers customers to build and deploy on platforms that are fully compatible with Apache Hadoop." (Cf. également Enabling Big Data Insight for Millions of Windows Developers).

Dans le cadre de l’engagement continu de Microsoft vis-à-vis d’Apache Hadoop, l'équipe en charge de cette version a travaillé activement pour soumettre les changements à la communauté Apache. Vous pouvez suivre l'avancement de ces travaux et les contributions associées en suivant la branche de code « branch-1-win » pour les « check-ins » liés à HDFS et à Map/Reduce. Microsoft contribue également sur des correctifs à d'autres projets, comme Hive, Pig et HBase. Cet ensemble de composants ne constitue qu’un début ; avec des actualisations mensuelles à venir, Microsoft va ajouter d'autres projets tels qu’HCatalog, le service de gestion de stockage pour les données créées avec Hadoop.

Pour démarrer avec Windows Azure HDInsight Service, rendez-vous sur http://www.hadooponazure.com pour soumettre un formulaire d'invitation. Des codes d'invitation sont envoyés selon ce que permettent les capacités courantes et l’utilisation du service. Une fois dans le service, vous pouvez provisionner un cluster gratuitement, pendant 5 jours. Il est très facile de tirer parti du stockage Windows Azure Blob, de sorte que vous pouvez stocker vos données de façon permanente dans le stockage Blob, et ne mettre en ligne votre cluster Hadoop que lorsque vous avez besoin pour traiter les données. De cette façon, vous utilisez uniquement le calcul (compute) dont vous avez besoin, quand vous en avez besoin, et tirez parti des fonctionnalités de stockage Windows Azure, telles que la géo-réplication des données et l'utilisation de ces données à partir de n'importe quelle application.

Dans le même temps, sans avoir besoin d’un code d’invitation, il vous est possible de démarrer en téléchargeant simplement HDInsight Server (en pré-version) ici et de l’installer depuis l’environnement Web Platform Installer (Web PI) sur une machine Windows. Cela permet d’avoir Hadoop sur une machine Windows (un portable par exemple) sans nécessiter Cygwin.

Voyons ce que donne cette installation depuis une toute nouvelle machine sous Windows Server 2012 Standard par exemple.

Commençons par désactiver la fonctionnalité IE ESC (Internet Explorer Enhanced Security Configuration).

Exécutez Server Manager.

image

Cliquez sur le lien On à côté du libellé IE Enhanced Security Configuration.

Dans la boîte de dialogue Internet Explorer Enhanced Security Configuration, sélectionnez Off pour les administrateurs et utilisateurs et cliquez sur OK.

image

Appuyez sur le touche Windows pour afficher l’écran Démarrer et cliquez sur Internet Explorer.

image

Naviguez vers l’URL http://www.microsoft.com/web/gallery/install.aspx?appid=HDINSIGHT-PREVIEW.

image

Cliquez sur Install Now.

image

Cliquez sur Run. L’environnement Web Plaform Installer s’installe et vous propose ensuite d’installer HDInsight Server.

image

Cliquez sur Install pour lancer l’installation d’HDInsight Server.

image

Cliquez sur I Accept. L’installation démarre.

image

image

Cliquez sur Finish.

image

Cliquez sur Exit.

Le bureau Windows comporte désormais un ensemble de raccourcis vers différentes fonctions de votre environnement Hadoop :

  • Hadoop Command Line ;
  • Hadoop MapReduce Status ;
  • Hadoop Name Node Status ;
  • Microsoft HDInsight Dashboard.

image

Double-cliquez sur le raccourci Hadoop Command Line.

image

Vous voilà prêt(e) à exécuter différentes commandes comme :

hadoop fs –ls

hadoop fs –mkdir sampleFolder

Etc.

image

Depuis Internet Explorer, naviguez vers l’URL http://localhost:8080 pour accéder à la console interactive JavaScript.

image

Cliquez sur Turn on Intranet settings. Dans la boîte de dialogue d’avertissement Internet Explorer, cliquez sur Yes.

image

Vous êtes prêt(e) à travailler avec votre environnement Hadoop depuis la console, le tableau de bord HDInsight et visualiser les différents statuts disponibles.

Double-cliquez sur le raccourci Microsoft HDInsight Dashboard pour afficher le tableau de bord.

image

Il n’y a plus qu’à démarrer :) Cliquez pour cela sur Getting started.

Les raccourcis Hadoop MapReduce Status et Hadoop Name Node Status vous donnent par ailleurs les statuts disponibles de votre environnement.

image

image

Nous en avons fini pour cette première « tournée du propriétaire ».

A vous de jouer à présent !!