À propos de ce cours


L’objectif principal du cours est de donner aux étudiants la possibilité d’utiliser Microsoft R Server pour créer et exécuter une analyse sur un jeu de données volumineux et de montrer comment l’utiliser dans des environnements Big Data, tels qu’un cluster Hadoop ou Spark, ou un environnement SQL.

Profil de l’audience
Ce cours s’adresse principalement aux personnes souhaitant analyser de grands ensembles de données dans un environnement Big Data.
Le public  est constitué de développeurs qui doivent intégrer les analyses R dans leurs solutions.

A l’issue de ce cours, les étudiants seront capables de:

  • Expliquer le fonctionnement de Microsoft R Server et Microsoft R Client
  • Utilisez R Client avec R Server pour explorer le Big Data stocké dans différents magasins de données.
  • Visualiser les données en utilisant des graphiques et des graphiques  transformés et nettoyer les grands ensembles de données
  • Implémenter des options pour fractionner des tâches d’analyse en tâches parallèles
  • Construire et évaluer des modèles de régression générés à partir de données volumineuses
  • Créer, évaluer et déployer des modèles de partitionnement générés à partir de données volumineuses
  • Utiliser R dans les environnements SQL Server et Hadoop

 

Plan du cours:

Module 1: Microsoft R Server et R Client

Expliquez le fonctionnement de Microsoft R Server et Microsoft R Client.

  1. Qu’est-ce que le serveur Microsoft R?
  2. Utilisation du client Microsoft R
  3. Les fonctions de ScaleR

Atelier: Exploration de Microsoft R Server et Microsoft R Client

  • Utilisation du client R dans VSTR et RStudio
  • Exploration des fonctions ScaleR
  • Connexion à un serveur distant

À la fin de ce module, les étudiants seront en mesure de:

  • Expliquez le rôle du serveur R.
  • Se connecter au serveur R à partir du client R
  • Expliquez le but des fonctions ScaleR.

Module 2: Exploration des données massives

À la fin de ce module, l’étudiant sera en mesure d’utiliser R Client avec R Server pour explorer les données volumineuses stockées dans différents magasins de données.

Leçons:

  • Comprendre les sources de données ScaleR
  • Lecture de données dans un objet XDF
  • Résumé des données dans un objet XDF

Atelier: Exploration du Big Data

  • Lecture d’un fichier CSV local dans un fichier XDF
  • Transformer les données en entrée
  • Lecture des données de SQL Server dans un fichier XDF
  • Génération de résumés sur les données XDF

À la fin de ce module, les étudiants seront en mesure de:

  • Expliquer les sources de données ScaleR
  • Décrire comment importer des données XDF
  • Décrire comment résumer les données conservées au format XCF

Module 3: Visualiser des données volumineusesExpliquez comment visualiser des données à l’aide de graphiques et de tracés.

Leçons:

  • Visualisation des données en mémoire
  • Visualiser le Big Data

Atelier: Visualiser des données

  • Utilisation de ggplot pour créer un tracé à facettes avec des superpositions
  • Utilisation de rxlinePlot et de rxHistogram

À la fin de ce module, les étudiants seront en mesure de:

  • Utilisez ggplot2 pour visualiser les données en mémoire
  • Utilisez rxLinePlot et rxHistogram pour visualiser des données volumineuses

Module 4: Traitement de données volumineusesExpliquez comment transformer et nettoyer les ensembles de données volumineuses. Leçons

  • Transformer le Big Data
  • Gestion des ensembles de données

Laboratoire: Traitement de données volumineuses

  • Transformer le Big Data
  • Tri et fusion de données volumineuses
  • Connexion à un serveur distant

À la fin de ce module, les étudiants seront en mesure de:

  • Transformer le Big Data en utilisant rxDataStep
  • Effectuer des opérations de tri et de fusion sur des ensembles de données volumineux

Module 5: Mise en parallèle des opérations d’analyseExpliquez comment implémenter des options pour fractionner des tâches d’analyse en tâches parallèles.Leçons

  • Utilisation du contexte de calcul RxLocalParallel avec rxExec
  • Utilisation du package revoPemaR

Laboratoire: Utiliser rxExec et RevoPemaR pour paralléliser des opérations

  • Utiliser rxExec pour maximiser l’utilisation des ressources
  • Création et utilisation d’une classe PEMA

À la fin de ce module, les étudiants seront en mesure de:

  • Utiliser le contexte de calcul rxLocalParallel avec rxExec
  • Utilisez le package RevoPemaR pour rédiger des analyses personnalisées évolutives et distribuables.

Module 6: Création et évaluation de modèles de régressionExpliquez comment créer et évaluer des modèles de régression générés à partir de Big DataLessons

  • Clustering Big Data
  • Générer des modèles de régression et faire des prédictions

Atelier: Création d’un modèle de régression linéaire

  • Créer un cluster
  • Création d’un modèle de régression
  • Générer des données pour faire des prédictions
  • Utiliser les modèles pour faire des prédictions et comparer les résultats

À la fin de ce module, les étudiants seront en mesure de:

  • Cluster Big Data pour réduire la taille d’un ensemble de données.
  • Créez des modèles de régression linéaire et logit et utilisez-les pour faire des prédictions.

Module 7: Création et évaluation de modèles de partitionnementExpliquez comment créer et évaluer des modèles de partitionnement générés à partir de données volumineuses.Leçons

  • Création de modèles de partitionnement basés sur des arbres de décision.
  • Tester les modèles de partitionnement en établissant et en comparant des prévisions

Atelier: Création et évaluation de modèles de partitionnement

  • Fractionner le jeu de données
  • Modèles de construction
  • Exécution de prévisions et test des résultats
  • Comparer les résultats

À la fin de ce module, les étudiants seront en mesure de:

  • Créez des modèles de partitionnement à l’aide des algorithmes rxDTree, rxDForest et rxBTree.
  • Testez les modèles de partitionnement en faisant et en comparant les prévisions.

Module 8: Traitement de données volumineuses dans SQL Server et HadoopExpliquez comment transformer et nettoyer des ensembles de données volumineuses. Leçons

  • Utiliser R dans SQL Server
  • Utilisation de Hadoop Map / Reduce
  • Utiliser Hadoop Spark

Atelier: Traitement de données volumineuses dans SQL Server et Hadoop

  • Création d’un modèle et prévision des résultats dans SQL Server
  • Effectuer une analyse et tracer les résultats avec Hadoop Map / Reduce
  • Intégration d’un script sparklyr dans un flux de travail ScaleR

À la fin de ce module, les étudiants seront en mesure de:

  • Utilisez R dans les environnements SQL Server et Hadoop.
  • Utilisez les fonctions ScaleR avec Hadoop sur un cluster Map / Reduce pour analyser des données volumineuses.

 

En plus de leur expérience professionnelle, les étudiants qui suivent ce cours devraient avoir:

Expérience en programmation utilisant R et familiarité avec les packages R courants
Connaissance des méthodes statistiques courantes et des meilleures pratiques en matière d’analyse de données.
Connaissance de base du système d’exploitation Microsoft Windows et de ses fonctionnalités principales.

Connaissance pratique des bases de données relationnelles.

Programme de Formation

No curriculum found !
Course Reviews
N.C
ratings
  • 5 stars0
  • 4 stars0
  • 3 stars0
  • 2 stars0
  • 1 stars0

No Reviews found for this course.

© Copyright 2018 Reunit.
X