Big Data pour le développement

Big Data pour le développement

Contexte du cours

introduction

Dans le cadre du pilier renforcement des capacités du projet Big Data for Development, AIMS-NEI a conçu un programme de formation basé sur le Big Data for Development (BD4D-SCP) enseigné sur l'ensemble du réseau AIMN-NEI, d'abord au Rwanda, maintenant au Sénégal , et bientôt au Cameroun.

Le cours s'adresse aux personnes passionnées par la science des données en général et plus particulièrement dans l'analyse et le traitement des mégadonnées, ayant au moins quatre ans d'études de premier cycle ou au moins deux à trois ans d'expérience en tant que professionnel de la statistique ou tout autre sujet lié à la science des données.

Un certain nombre de formations à court terme sont en cours pour atteindre les objectifs de notre projet BD4D d'augmenter le nombre d'utilisateurs de données scientifiques en Afrique et de fournir une plate-forme permettant aux praticiens d'interagir.

Toujours dans le cadre du renforcement des capacités, l'AIMS-NEI organisera le premier atelier de formation pour les cadres supérieurs, intitulé: Exploiter la puissance du Big Data (LPBD). L'objectif de cet atelier est de faire découvrir aux dirigeants l'ère du Big Data, en démontrant comment ce phénomène bouleverse les entreprises traditionnelles et ouvre la porte à de nouveaux produits et services.

Aperçu du cours

Les ensembles de données deviennent de plus en plus gros au fur et à mesure que la population mondiale augmente et que les choses deviennent de plus en plus connectées. Les logiciels et techniques de traitement de données traditionnels ne peuvent pas gérer ces ensembles de données à grande échelle. Ce cours enseigne les bases du traitement d'ensembles de données à grande échelle à l'aide de Python.

En outre, le cours enseigne également comment effectuer des tâches informatiques courantes telles que la gestion des données et la création de modèles d'apprentissage automatique avec Python. Ce cours adopte une approche pratique pour doter les participants des outils les plus essentiels en temps opportun.

Ce cours met l'accent sur l'apprentissage lié à la pratique, en tant que tel, il comprend de nombreux exercices pour donner aux participants suffisamment de temps pour s'exercer

Approcher

Ce cours adopte une approche pratique pour doter les participants des outils les plus essentiels en temps opportun. Les cours commencent par les principes de base de Python et se concentrent principalement sur les structures de données, puis se déplacent rapidement vers les principales bibliothèques pour la science des données en Python.

Ensuite, le cours passe au traitement du Big Data en fournissant d'abord de brefs concepts théoriques sur le sujet, puis enseigne Apache Spark, un outil avancé pour le traitement de grands ensembles de données. Ensuite, il propose des conférences d'introduction à l'apprentissage automatique avant de passer à une explication détaillée de la façon de construire ces algorithmes en python. Ce cours favorise l'apprentissage par la méthode pratique.

Objectifs du cours

  1. Comprendre les concepts avancés du langage Python: structures de données, fonctions, classes etc.
  2. Effectuer des tâches informatisées sur les données en utilisant le langage Python: ingestion de données, traitement, visualisation, récupération Web, etc.
  3. Traitez un ensemble de données à grande échelle (20 Go +) sur un ordinateur personnel à l'aide d'Apache Spark et utilisez des plates-formes de «cloud computing».
  4. Familiarisez-vous avec les bases théoriques des algorithmes d'apprentissage automatique courants.
  5. Être capable de créer et d'évaluer des modèles d'apprentissage automatique à l'aide de la bibliothèque «scikit-learn».

Calendrier des cours

Jour 1: Concepts avancés en Python. Lors de ce premier jour, le cours se concentrera sur le langage de programmation Python afin de construire une base solide pour le reste du matériel de cours. Les participants seront initiés aux techniques pratiques du niveau intermédiaire au niveau avancé, telles que l'écriture de fonctions, les classes, la gestion des erreurs, le conditionnement du code Python, etc.

Jour 2: Python pour la science des données: le jour 2 se concentre sur l'exécution de tâches courantes de science des données à l'aide de Python. Nous expliquerons comment utiliser les données, traiter, analyser, visualiser, `` Web Scraping '' et plus encore en utilisant Python, tout en introduisant des packages essentiels (Pandas, Geopandas, Numpy, Matplotlib, etc.) pour effectuer ces tâches.

Jour 3: Gestion du Big Data: le troisième jour, le cours couvre la gestion de grands ensembles de données à l'aide de Python.

Les sujets suivants seront abordés en plus de l'introduction au Big Data, du multitraitement en Python, d'Apache Spark, de l'utilisation des plates-formes cloud courantes, etc.

Jour 4: Machine Learning (ML) en Python. Le quatrième jour, le cours débutera par une conférence d'introduction à l'apprentissage automatique. le reste de la journée sera consacré à l'exécution de diverses tâches de ML (par exemple, préparation des données, création de modèles, évaluation et interprétation) à l'aide du package scikit-learn en Python. \

Jour 5: Rassembler tout cela: le dernier jour, nous nous concentrerons sur les compétences acquises dans ce cours pour résoudre des problèmes de science des données du monde réel en examinant des études de cas.

Les études de cas potentielles à couvrir incluent: comment traiter les images satellites nocturnes (géospatiale), comment traiter les enregistrements d'appels volumineux à partir de téléphones portables (données mobiles) et comment créer des modèles ML pour imputer les données de capteur manquantes (données de capteur).

Conditions préalables

Programmation: possibilité d'écrire un programme simple en Python (niveau Python basique)

Maths et statistiques: Formation en statistique, science des données des sciences quantitatives.

Information pour les candidats

Cette formation aura lieu du 1er au 5 juillet 2019 à Dakar au Sénégal et se déroulera en anglais. La participation au cours est limitée à 40 personnes et est gratuite. Les déjeuners et pauses café sont disponibles sur place au moment de l'inscription. AIMS-NEI ne fournit aucune aide financière aux candidats retenus pour cette courte formation et encourage chaque candidat retenu à prendre ses propres dispositions pour couvrir tous les coûts associés à sa participation à ce programme, y compris le transport. Profil de l'instructeur Le Dr Dunstan Matekenya est un scientifique senior avec plus de 10 ans d'expérience dans les domaines des statistiques traditionnelles et des méthodes modernes d'apprentissage automatique. Il travaille actuellement en tant que Data Scientist au siège du Groupe de la Banque mondiale (GBM) à Washington DC. Avant de rejoindre le GBM, le Dr Dunstan Matekenya a terminé son doctorat à l'Université de Tokyo en 2016. Son doctorat en recherche est axé sur l'utilisation de méthodes d'apprentissage automatique pour explorer les informations glanées à partir des données du téléphone mobile. Avant de réorienter sa carrière vers la science des données, le Dr Dunstan Matekenya a précédemment travaillé comme statisticien au Bureau national des statistiques du Malawi de 2007 à 2017, où il a activement contribué à des projets phares en 2008, tels que le recensement de la population et du logement en tant que leader. de l'unité SIG. Sa passion est de contribuer à la modernisation des statistiques officielles dans les pays en développement grâce à l'utilisation de sources de données alternatives telles que les données de téléphonie mobile, ainsi qu'à l'amélioration des capacités en science de terrain. Les données.

Processus de sélection

Tous les candidats intéressés à postuler pour cette courte formation intensive en traitement de données avec Python doivent utiliser le lien en ligne pour compléter et soumettre leur candidature avec toutes les pièces justificatives avant la date limite indiquée sur le site Web d'AIMS Sénégal. Nous informerons les candidats présélectionnés de fournir des informations supplémentaires pour finaliser leur candidature. Les candidats présélectionnés seront évalués pour s'assurer de leurs compétences Python. Après une semaine de la date limite, nous informerons les candidats retenus. Date limite de candidature: 7 juin 2019 - 23 h 59 (TU). Toute demande concernant cette courte formation doit être envoyée à: aii@nexteinstein.org.