Introduction

HDInsight est disponible en version bêta publique sur le portail de Windows Azure depuis quelques jours. Voici en quelques copies d’écrans la façon don’t cela se présente et comment démarrer avec ce nouveau service.

Création du cluster

Je suppose ici que vous avez un compte Windows Azure actif. Si ce n’est pas le cas, vous pouvez créer un compte de test en profitant de l’offre 90 jours. Attention cependant, le déploiement d’HDInsight sur cette offre peut consommer les ressources incluses assez rapidement. Plus d’informations sur le sujet à http://www.windowsazure.com/en-us/pricing/details/#header-4, chapitre “HDInsight (Preview)”.

 

NB: Avant de commencer, vous pouvez vérifier si votre compte a déjà accès à la fonctionnalité en cliquant sur NEW en bas à gauche dans le portail Windows Azure (https://manage.windowsazure.com). Si vous avez cela,

image

c’est que vous ne vous êtes pas encore inscrit pour cette fonctionnalité en preview. Vous pouvez le faire en suivant le lien ci-dessous.

 

Avant de créer le premier cluster, il est nécessaire de créer un compte de stockage dans le datacenter de l’est des Etats-Unis (East US), puisque l’offre est disponible uniquement dans ce datacenter pour l’instant. Voici un exemple de paramètres de création d’un tel compte de stockage depuis le portail Windows Azure (https://manage.windowsazure.com).

image

Le compte de stockage est nécessaire à la création d’un cluster Hadoop car c’est un des systèmes de stockage de données disponibles. L’autre étant bien sûr HDFS. HDInsight appelle ce système de fichier ASV (Azure Storage Vault).

 

 

La création du cluster se fait ensuite de la façon suivante:

image

 

image

Cela déclenche la création du cluster:

image

image

image

image

image

image

Le cluster est prêt.

 

Découverte du cluster

Toujours depuis le portail Windows Azure, dans la rubrique HDInsight, on voit le cluster auquel on accède de la façon suivante:

image

 

image

 

image

image

 

La création du cluster a généré des données dans le compte de stockage. On peut voir cela avec un outil tel que CloudXplorer:

image

 

depuis la console interactive en JavaScript, il est également possible de voir cela:

image

 

image

mais il est également possible d’accéder aux données sur hdfs:

image

 

Les données sur HDFS sont stockées sur des disques locaux des datanodes, alors que les données sur ASV sont stockées dans le compte de stockage. Les performances sont équivalentes; elles peuvent d’ailleurs être meilleures avec asv. La principale difference est surtout que les données dans asv survivent à l’arrêt du cluster HDInsight, ce qui n’est pas le cas des données hdfs (puisqu’elles sont sur les disques des VM qu’on supprime en arrêtant le cluster).

 

Passons maintenant à la connexion en bureau à distance (l’équivalent de SSH dans le monde Linux) au head node.

Cela peut se faire depuis l’une ou l’autre des methods suivantes:

image

ou

  image

on arrive sur le bureau du head node

image

Les principales icônes sont:

image permet de lancer des jobs, manipuler le système de fichiers (asv ou hdfs) en ligne de commande

image permet de voir les jobs en cours d’exécution depuis le portail standard Hadoop

image permet de voir le système de fichier HDFS via le portail standard Hadoop

 

Par exemple, pour voir les données depuis la ligne de commande, comme nous l’avons fait plus haut depuis la console JavaScript, on peut faire comme sur n’importe quel cluster Hadoop:

image

 

Lancement d’un job Map/Reduce avec un JAR

Il est possible de lancer un job MAP/REDUCE écrit en Java. Une façon de le faire est d’aller dans le portail d’administration et de cliquer sur Samples

image

puis

image

image

 

image

Il est à noter que cela revient à lancer la même commande depuis le head node:

image

A la fin, on peut suivre ce qui s’est passé de façon classique en Hadoop, via le portail image

image

 

ou depuis la console de gestion HDInsight

image

image

 

 

Lancement d’un job PIG

Lançons un job PIG tel que décrit dans la documentation standard d’Hortonworks (voir http://docs.hortonworks.com/HDPDocuments/HDP1/HDP-1.2.2/bk_installing_manually_book/content/rpm-chap5-4.html).

Comme Windows n’a pas de fichier /etc/passwd, on peut copier / coller les quelques lignes suivantes pour créer un fichier local:

 

root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin

image

image

Cela a eu pour effet de copier cela dans le stockage Windows Azure sous la forme d’un blob:

image

 

image

 

image

image

 

image

 

 

Lancement d’un job HIVE

Exécutons le même type de job que PIG, mais en HIVE cette fois-ci.

image

 

image

 

image

image

image

 

Pour aller plus loin

Il existe beaucoup d’autres fonctionnalités à découvrir dans le cluster HDInsight. Voici quelques pistes que je vous suggère:

 

Smile

Benjamin Guinebertière (@benjguin)