À propos de ce cours


L’objectif principal du cours est de donner aux étudiants le plan des compétences et la mise en œuvre de workflows Big Data sur HDInsight.


Profil de l’audience


Ce cours s’adresse principalement aux ingénieurs de données, aux architectes de données, aux scientifiques de données et aux développeurs de données qui prévoient d’implémenter des flux de travaux d’ingénierie Big Data sur HDInsight.

A l’issue de ce cours, les étudiants seront capables de:

  • Déployer des clusters HDInsight.
  • Autoriser les utilisateurs à accéder aux ressources.
  • Chargement des données dans HDInsight.
  • Dépannage de HDInsight.
  • Implémenter des solutions batch.
  • Concevoir des solutions ETL par lots pour le Big Data avec Spark
  • Analyser des données avec Spark SQL.
  • Analyser les données avec Hive et Phoenix.
  • Décrire l’analyse de flux.
  • Implémentez Spark Streaming à l’aide de l’API DStream.
  • Développer des solutions de traitement de données en temps réel Big Data avec Apache Storm.
  • Construire des solutions qui utilisent Kafka et HBase.

Module 1: Initiation à HDInsightCe module présente Hadoop, le paradigme MapReduce et HDInsight

Leçons:

Qu’est-ce que le Big Data?
Introduction à Hadoop
Travailler avec la fonction MapReduce
Présentation de HDInsight

Atelier: Travailler avec HDInsight

Provisionner un cluster HDInsight et exécuter des travaux MapReduce

À la fin de ce module, les étudiants seront en mesure de:

Décrivez Hadoop, MapReduce et HDInsight.
Utilisez des scripts pour mettre en service un cluster HDInsight.
Exécutez un programme MapReduce de comptage de mots à l’aide de PowerShell.

Module 2: Déploiement de clusters HDInsight

Ce module fournit une vue d’ensemble des types de cluster Microsoft Azure HDInsight, en plus de la création et de la maintenance des clusters HDInsight. Le module explique également comment personnaliser les clusters à l’aide d’actions de script via le portail Azure, Azure PowerShell et l’interface de ligne de commande Azure. Ce module comprend des travaux pratiques qui permettent de déployer et de gérer les clusters.

Cours

Identifier les types de cluster HDInsight
Gestion des clusters HDInsight à l’aide du portail Azure
Gestion des clusters HDInsight à l’aide d’Azure PowerShell

Atelier: Gestion des clusters HDInsight avec le portail Azure

Créer un cluster HDInsight utilisant le stockage Data Lake Store
Personnaliser HDInsight en utilisant des actions de script
Supprimer un cluster HDInsight

À la fin de ce module, les étudiants seront en mesure de:

Identifier les types de cluster HDInsight
Gérez les clusters HDInsight à l’aide du portail Azure.
Gérez les clusters HDInsight à l’aide de Azure PowerShell.

Module 3: Autoriser les utilisateurs à accéder aux ressources

Ce module fournit une vue d’ensemble des clusters Microsoft HDInsight non liés à un domaine et liés à un domaine, ainsi que la création et la configuration de clusters HDInsight liés à un domaine. Le module explique également comment gérer les clusters joints à un domaine à l’aide de l’interface utilisateur de gestion Ambari et de l’interface utilisateur d’administration de Ranger. Ce module inclut les travaux pratiques qui créeront et géreront des clusters joints à un domaine.

Cours:

Clusters non liés à un domaine
Configuration de clusters HDInsight joints à un domaine
Gérer les clusters HDInsight joints à un domaine

Atelier: Autoriser les utilisateurs à accéder aux ressources

Préparer l’environnement de laboratoire
Gérer un cluster non joint à un domaine

À la fin de ce module, les étudiants seront en mesure de:

Identifiez les caractéristiques des clusters HDInsight ne faisant pas partie d’un domaine ou d’un domaine.
Créez et configurez des clusters HDInsight liés à un domaine via Azure PowerShell.
Gérez le cluster joint au domaine à l’aide de l’interface utilisateur de gestion Ambari et de l’interface utilisateur d’administration de Ranger.
Créez des stratégies Hive et gérez les autorisations des utilisateurs.

Module 4: Chargement de données dans HDInsight

Ce module fournit une introduction au chargement de données dans le stockage Microsoft Azure Blob et le stockage Microsoft Azure Data Lake. À la fin de cette leçon, vous saurez comment utiliser plusieurs outils pour transférer des données vers un cluster HDInsight. Vous apprendrez également à charger et à transformer des données pour réduire le temps d’exécution de votre requête.

Cours:

Stockage des données pour le traitement HDInsight
Utilisation des outils de chargement de données
Maximiser la valeur des données stockées

Atelier: Chargement de données dans votre compte Azure

Charger des données à utiliser avec HDInsight

À la fin de ce module, les étudiants seront en mesure de:

Discutez de l’architecture des principales solutions de stockage HDInsight.
Utilisez des outils pour télécharger des données vers des clusters HDInsight.
Compressez et sérialisez les données téléchargées pour réduire le temps de traitement.

Module 5: Résolution des problèmes de HDInsight

Dans ce module, vous apprendrez à interpréter les journaux associés aux différents services du cluster Microsoft Azure HDInsight afin de résoudre tout problème que vous pourriez rencontrer avec ces services. Vous en apprendrez également plus sur Operations Management Suite (OMS) et ses fonctionnalités.

Leçons:

Analyser les journaux HDInsight
Grumes de fil
Tas dumps
Suite de gestion des opérations

Atelier: Dépannage de HDInsight

Analyser les journaux HDInsight
Analyser les journaux YARN
Surveiller les ressources avec Operations Management Suite

À la fin de ce module, les étudiants seront en mesure de:

Recherchez et analysez les journaux HDInsight.

Utilisez les journaux YARN pour le dépannage des applications.

Comprendre et activer les vidages de tas.
Décrivez comment le système OMS peut être utilisé avec les ressources Azure.

Module 6: Implémentation de solutions par lots

Dans ce module, vous allez étudier la mise en œuvre de solutions par lots dans Microsoft Azure HDInsight à l’aide de Hive et Pig. Vous discuterez également des approches disponibles pour l’opérationnalisation du pipeline de données disponibles pour les charges de travail Big Data sur une pile HDInsight.

Cours:

Stockage Apache Hive
Requêtes de données HDInsight utilisant Hive et Pig
Opérationnaliser HDInsight

Laboratoire: Implémenter des solutions batch

Déployer le cluster HDInsight et le stockage de données
Utiliser les transferts de données avec les clusters HDInsight
Interroger les données du cluster HDInsight

À la fin de ce module, les étudiants seront en mesure de:

Comprenez Apache Hive et les scénarios dans lesquels il peut être utilisé.
Exécutez des travaux par lots à l’aide d’Apache Hive et d’Apache Pig.

En plus de leur expérience professionnelle, les étudiants qui suivent ce cours devraient avoir:

Expérience en programmation utilisant R et familiarité avec les packages R courants
Connaissance des méthodes statistiques courantes et des meilleures pratiques en matière d’analyse de données.
Connaissance de base du système d’exploitation Microsoft Windows et de ses fonctionnalités principales.
Connaissance pratique des bases de données relationnelles.

 

Programme de Formation

No curriculum found !
Course Reviews
N.C
ratings
  • 5 stars0
  • 4 stars0
  • 3 stars0
  • 2 stars0
  • 1 stars0

No Reviews found for this course.

© Copyright 2018 Reunit.
X