19 Jan 2016

En décembre, j’ai terminé le troisième des trois cours du programme de certificat en science des données de la formation professionnelle & continue (PCE) de l’Université de Washington. Tous les cours de ce programme duraient 10 semaines, avec des conférences de 3 heures organisées une fois par semaine. Comme je vis à Denver, je ne pouvais pas assister physiquement aux réunions, qui se tenaient sur le campus de l’UW à Seattle, et je faisais donc partie de la cohorte en ligne. Ceci est mon examen du programme, et j’espère qu’il pourra être utile à d’autres personnes qui envisagent le programme.

Pourquoi me suis-je engagé dans le programme de certificat ?

Time for a Change

Au début de 2014, j’ai décidé que j’en avais assez. Je faisais du travail lié aux données pour le gouvernement fédéral depuis un peu plus de 8 ans, mais j’étais prêt à relever un nouveau défi. Le travail était bon, mais j’étais fatigué de la bureaucratie écrasante, et du sentiment que ma carrière ne progressait plus dans la direction que je souhaitais (quelqu’un a malheureusement décidé que j’avais un peu d’aptitude pour la gestion, et je pouvais me sentir attiré), et j’étais fatigué d’utiliser une version 2006 de MATLAB pour faire une grande partie de mon travail de données « amusant ».

Prendre des MOOC

Alors, en 2014, j’ai commencé à prendre des cours en ligne ouverts et massifs (MOOC) sérieusement. Je savais que j’aimais, et que j’étais assez doué pour l’analyse des données et la programmation, alors j’ai commencé à suivre des cours dans la filière Data Science d’Udacity (c’était avant que leurs populaires programmes Nanodegree ne soient développés). En mai, j’avais découvert Coursera, et en juin, j’ai commencé la spécialisation en science des données de la JHU (j’ai terminé cette spécialisation en décembre 2014). Je prévois d’examiner certains aspects de ces MOOC à une date ultérieure, mais pour l’instant, je me contenterai de mentionner que ces cours ont changé ma vie.

Certificat et application de l’UW

À l’été 2014, j’ai découvert le certificat en science des données de l’UW PCE. Même si je suivais de nombreux MOOC, je n’étais toujours pas sûr qu’ils m’aideraient réellement à me qualifier pour un emploi. Je n’obtenais pas beaucoup de réponses des recruteurs sur LinkedIn, et les quelques candidatures que j’ai lancées sur les murs des entreprises n’ont pas fait mouche. Je n’étais pas prêt pour le temps et les dépenses d’un programme de maîtrise en science des données, alors j’ai pensé qu’un certificat professionnel universitaire serait la prochaine meilleure chose, et peut-être m’aiderait-il à trouver quelques contacts supplémentaires pour établir une connexion d’emploi.

J’ai donc postulé pour le programme. Comme cela fait environ un an et demi que j’ai postulé, je ne me souviens pas de beaucoup de détails sur le processus de demande, mais je crois qu’il y avait un test de 25 questions sur les connaissances en science des données (un peu de SQL et de statistiques sont ce dont je me souviens), je devais soumettre un CV, une courte déclaration d’intérêt et environ 50 $ comme frais de demande. Ce n’était pas trop stressant.

Accepté, mais nouvel emploi!

J’ai été accepté dans le programme. Cependant, il y avait une liste d’attente, donc je ne pouvais pas commencer avant avril 2015.

Au moment où avril est arrivé, j’étais en pourparlers avec un recruteur et j’ai eu un entretien avec l’entreprise pour laquelle je travaille maintenant. Ils voulaient que je vienne faire de l’apprentissage automatique pour eux ! J’étais à quatre semaines de la première classe du programme de certificat lorsque j’ai accepté mon nouvel emploi. J’étais donc confronté à un dilemme : j’avais atteint mon objectif (nouvel emploi dans le secteur privé), mais je venais de commencer ce programme pour lequel j’avais attendu 7 mois (et payé plus de 1100 $ non remboursables pour y participer). Devais-je continuer ? Après quelques délibérations, j’ai cédé et décidé que l’argent était un coût irrécupérable, alors autant apprendre quelque chose.

Le cours #1 était suffisamment bon pour que je continue à payer et à suivre chaque cours suivant, malgré un débat interne massif à chaque fois (ai-je besoin de cela ? devrais-je dépenser mon temps / argent ailleurs ?). Dans l’ensemble, j’ai apprécié le reste du programme et je me sens accomplie d’avoir terminé ; cependant, je ne suis pas sûre que ce soit le meilleur investissement de mon temps et de mon argent. J’apprends plus, et plus rapidement, en prenant la plupart des MOOC que je ne l’ai fait avec ce programme (le post Don’t Send Your Kids to College de James Altucher me vient à l’esprit). Mais, j’ai également établi plusieurs connexions précieuses avec mes camarades de classe, beaucoup plus de connexions que je n’ai fait à partir de n’importe quel MOOC.

Ce programme est-il pour vous ?

Ok, assez sur mes motivations pour prendre le programme de certificat. Voici quelques-uns de mes points positifs et négatifs pour le programme, qui, si vous êtes un Data Scientist en herbe et que vous vous demandez si vous devriez essayer le certificat, pourraient vous aider à prendre une décision.

Ce que j’ai aimé à propos du programme

  • Certificat d’une institution de confiance qui est un leader dans la science des données et l’apprentissage automatique.
  • Assister à des cours en ligne ou en personne (si vous vivez dans la région de Seattle). Nice qu’ils vous donnent le choix, et que même en tant qu’étudiant en ligne, vous pouvez assister « en direct ».
  • Les commentaires personnels des instructeurs sur tous les devoirs (pour moi, c’était généralement 2-3 lignes de commentaires). Je ne sais pas si c’est mieux ou pire que les devoirs notés automatiquement ou par les pairs sur de nombreux MOOC.
  • Cours enseignés par des Data Scientists dans l’industrie. Mes cours étaient enseignés par des scientifiques de données chez Prediction Software, Zillow et Microsoft.
  • Possibilité de parler aux instructeurs et de leur poser des questions. Même en ligne, il y a une fonction de chat, et l’assistant d’enseignement relaie les questions à l’instructeur. C’est agréable d’avoir un retour en temps réel des instructeurs.
  • Le coût : j’ai dépensé environ 3400 $ pour les trois cours. Beaucoup plus cher qu’un MOOC, mais beaucoup moins cher qu’un diplôme de maîtrise.
  • Matériel d’apprentissage et de lecture supplémentaire. Les instructeurs ont tous fait un excellent travail pour trouver des choses intéressantes à lire dans le cadre des devoirs hebdomadaires.
  • Établir des contacts, et une cohorte continue. Dans le premier cours, il y avait environ 45 étudiants ; environ la moitié était en classe et l’autre moitié en ligne. Les instructeurs ont mis en place un groupe LinkedIn, et la plupart d’entre nous se sont connectés (le groupe est fermé, alors n’essayez pas de le trouver et de le rejoindre !). Environ 20 % des étudiants ont abandonné au troisième cours, mais ceux qui étaient les plus actifs dans le groupe sont restés et ont contribué. C’était amusant de voir mes camarades de classe obtenir de nouveaux emplois dans l’analytique au cours des derniers mois, et établir les connexions avec eux a été précieux.
  • Des devoirs assez faciles. Celui-ci peut couper dans les deux sens – si les affectations n’étaient pas difficiles, alors je n’ai pas appris beaucoup ; mais, cela signifie que je peux compléter mon apprentissage avec d’autres expériences. En moyenne, j’ai passé 3 heures en classe par semaine, et 2 à 3 heures sur les devoirs.

Ce que je n’ai pas aimé dans le programme

  • Présence obligatoire en classe au moins 8 des 10 conférences par cours. L’assiduité est prise en compte. La classe se réunit à 18 heures, heure du Pacifique, et dure 3 heures. Donc, comme j’ai une heure d’avance, pour moi, c’était de 19 h à 22 h. Les deux premiers mois, je devais me lever à 5 heures du matin pour aller travailler, alors assister à ces cours pendant qu’ils se déroulaient pouvait donner lieu à une journée de sommeil le lendemain. Évidemment, plus vous êtes loin de Seattle, plus il sera difficile d’assister aux conférences en ligne.
  • Regarder les conférences en temps réel. Lorsque je prends des MOOC, j’accélère généralement les vidéos à 1,5x à 2,0x la vitesse réelle, selon la vitesse à laquelle l’orateur parle. Cela m’aide à mieux me concentrer. Avec les MOOC, vous pouvez également revenir en arrière si vous manquez quelque chose. Avec le cours en direct, évidemment, vous ne pouvez pas le faire jusqu’à ce que la conférence soit affichée (généralement le lendemain), et alors trouver votre moment clé n’est pas trivial.
  • Impossible de voir l’instructeur dans les conférences. D’autres cours en ligne que j’ai pris ont une caméra formée sur l’instructeur, de sorte que vous pouvez les voir tout en regardant également les diapositives. La technologie de l’UW, pour une raison quelconque, ne montre pas l’instructeur, de sorte que vous entendez juste leur voix et regardez les diapositives. Cela rend beaucoup plus difficile de se concentrer si vous êtes un étudiant en ligne, et dilue un peu l’apprentissage, puisque vous ne pouvez pas voir la communication non verbale.
  • La continuité entre les classes est moins qu’idéale. Dans les cours #2 et #3, il y a plusieurs fois où les instructeurs ont demandé : « Avez-vous appris ce dernier cours ? ». Il serait bon qu’un programme plus ciblé puisse être cloué et que les instructeurs se transmettent mieux les informations.
  • Weka pour l’apprentissage automatique ? Dans le deuxième cours, nous avons fait des statistiques en utilisant R. Et puis, au lieu de continuer avec R dans le troisième cours, l’instructeur a enseigné l’apprentissage automatique en utilisant Weka. Les bonnes personnes de l’Université de Waikato ont fait un bon travail avec le logiciel Weka, mais est-ce que quelqu’un dans l’industrie utilise encore Weka ? Je ne le vois pas dans de nombreuses offres d’emploi. Heureusement, l’instructeur connaissait bien R et acceptait les devoirs en R si nous le voulions, c’est ainsi que j’ai fait mes devoirs. Mais, il a enseigné une grande partie du cours en utilisant Weka, ce qui, selon moi, est une opportunité majeure manquée et une erreur.
  • Pas assez de profondeur. Ok, donc la science des données est un sujet très large, qui se développe tout le temps. UW a apparemment décidé pour ce programme qu’ils iraient pour la largeur plutôt que la profondeur. C’est probablement une bonne décision, car il n’y a qu’un nombre limité de choses que vous pouvez intégrer dans 90 heures de cours, puis vous envoyez les étudiants apprendre par eux-mêmes, en ayant été au moins exposés à de nouveaux concepts. Mais j’ai continué à vouloir approfondir et en apprendre davantage sur divers sujets dont nous avons parlé ; au lieu de cela, nous passions au concept suivant pour une diapositive ou deux.

Revue rapide des cours individuels

Cours 1 : Introduction à la science des données

Le premier cours était une enquête de base sur la terre de la science des données. Il s’agit véritablement d’une introduction, et il ne suppose pratiquement aucune connaissance préalable de la science des données. Nous avons appris le flux de données de base à travers un projet, et avons parcouru quelques amorces sur les outils de la science des données (R, Python, SQL, MATLAB/Octave, ainsi qu’une petite introduction à Hadoop). Nous avons eu quelques devoirs en R, nous avons appris les matrices éparses et nous avons eu un ou deux devoirs en SQL. Le cours n’est pas très difficile, surtout si vous avez déjà été exposé à la science des données, mais les conférences étaient bonnes et les lectures supplémentaires étaient utiles. Je donne à ce cours un B- – bon contenu et bon instructeur, mais la vitesse et la profondeur n’étaient pas ce pour quoi j’avais espéré payer. J’ai presque abandonné le programme après ce cours, mais quand il est venu le temps de s’inscrire et de remettre les informations de ma carte de crédit pour le cours 2, je suis allé de l’avant et je l’ai fait.

Cours 2 : Méthodes d’analyse des données

Malgré le nom de ce cours, il s’agissait principalement d’un cours de statistiques et de lutte contre les données. Je pense que c’était le meilleur cours des trois, et j’ai appris pas mal de choses sur certaines méthodes de stats que je ne connaissais pas. Le cours que j’ai suivi était dispensé par un spécialiste des données chez Zillow, un docteur en mathématiques appliquées qui était également un professeur talentueux. Malheureusement, il semble que les prochaines exécutions du cours pourraient avoir un nouvel instructeur – à déterminer au moment où j’écris ces lignes – alors espérons qu’ils pourront trouver un bon remplaçant.

Tous les devoirs utilisaient R. Nous avons eu une certaine exposition à la réalisation de raclage de sites Web avec R (oui, vous pouvez voir « Ew ! » ici – Python est de loin supérieur pour le raclage de sites Web !), à l’exécution de simulations Monty Hall, à l’analyse de base des graphiques de réseau, à la régression et à la création de variables autorégressives, entre autres concepts statistiques. Nous avons terminé le cours par un projet de cours, où nous devions trouver nos propres données, les analyser et rédiger un rapport. Mon projet final était l’exploration de la fréquentation du Denver B-Cycle 2014.

Je donne à ce cours un A. Je l’ai trouvé assez difficile par moments, et les devoirs m’ont fait réfléchir et ont pris quelques heures chacun. J’ai estimé que ce cours valait mon argent et mon temps.

Cours 3 : Dériver des connaissances à partir de données à l’échelle

Après une bonne expérience avec le cours 2, je n’ai eu aucun problème à m’inscrire au troisième cours.

Ce cours était en quelque sorte, en quelque sorte, le cours d’apprentissage automatique.

Ce cours était enseigné par un statisticien de Boeing de longue date qui travaille actuellement en tant que scientifique principal des données pour Microsoft. Il semblait être un gars très agréable, faisant des blagues et racontant des histoires folkloriques pour la classe. J’aurais aimé pouvoir assister aux conférences en personne, au lieu de les écouter en ligne, car je pouvais dire qu’il interagissait vraiment avec la classe et partageait son enthousiasme (il avait également la mauvaise habitude de s’éloigner du microphone pendant une demi-minute à la fois).

Cependant, j’ai été plutôt déçu par ce cours en tant que suivi du deuxième cours. À ce stade, nous avions passé probablement 3 mois à travailler en R, pour le premier et le deuxième cours combinés, il aurait donc été logique d’enseigner les concepts d’apprentissage automatique et d’attribuer des devoirs en R. Au lieu de cela, comme je l’ai mentionné dans ma liste de griefs, nous avons utilisé Weka. Bien sûr, Weka a une belle interface graphique, mais je ne voulais pas apprendre un nouveau logiciel dont je garantis que je ne l’utiliserai pas à l’avenir (désolé, mais R, Python et les paquets d’apprentissage automatique Spark seront bien plus utiles). Heureusement, l’instructeur nous a permis de rendre nos devoirs en R. Mais je suis devenu si frustré par le cours que j’ai syntonisé les conférences, afin d’obtenir mon assiduité, puis j’ai laissé mon ordinateur en marche pendant que j’allais faire autre chose.

Le projet final de ce cours consistait à participer à une compétition Kaggle. L’accent n’était que peu sur la compétition – il s’agissait plutôt de documenter notre processus, de la compréhension de l’exploration des données, à la modélisation, à la rédaction de nos résultats. L’instructeur nous a demandé de nous mettre par deux. C’est une autre chose très difficile à faire en tant qu’étudiant en ligne. J’ai d’abord trouvé quelques gars pour former une équipe ; cependant, nous étions tous dans des fuseaux horaires différents et, étant donné les responsabilités familiales, il était difficile de se rencontrer le soir, alors j’ai fini par dire « désolé les gars, je vais y aller seul ». Chaque équipe de la classe a choisi une compétition Kaggle actuelle qui lui semblait intéressante, de sorte que nous avons travaillé collectivement sur environ 8 projets différents, au lieu d’être en concurrence les uns avec les autres, comme dans le cours edX Analytics Edge. J’ai choisi le concours How Much Did It Rain ? II ; si cela vous intéresse, vous pouvez voir la rédaction de mon projet dans mon repo GitHub.

Je donne à ce cours un C-. Il y avait de bonnes informations, et l’instructeur était intéressant, mais le choix de Weka m’a dérouté, et l’organisation du cours était un peu pauvre (les étudiants étaient souvent confus par les dates d’échéance).

Résumé

Dans l’ensemble, je donne à ce programme de certificat une note de B-.

Je le recommanderais pour les personnes qui peuvent assister en personne, pour ceux qui ont de bonnes compétences en technologie/math/stats et qui n’ont pas été exposés à la science des données, mais qui sont vraiment curieux et veulent apprendre, et pour ceux qui aiment un environnement d’apprentissage très bien structuré. Je le recommande également si vous souhaitez développer votre réseau professionnel de personnes partageant les mêmes idées (en particulier dans la région de Seattle). J’ai entendu dire que les participants aux cours se sont mis en réseau et se sont entraidés pour trouver un emploi. Peut-être que cela s’est produit dans ma cohorte( ?), mais il est difficile de le dire en tant qu’étudiant en ligne.

Je ne le recommande pas si vous avez pris, ou si vous êtes à l’aise avec les MOOC en science des données et/ou en apprentissage automatique (Coursera, Udacity, edX, etc.), ou peut-être si vous êtes prêt à sillonner la liste des maîtres en science des données à source ouverte, ou si vous avez travaillé dans une capacité de science des données pendant un certain temps. Pour mon argent et mon temps, les cours sur les sites de MOOC ont eu beaucoup plus de valeur. Ne vous attendez pas à terminer ces trois cours et à sortir un Data Scientist de l’autre côté – cela effleure à peine la surface (bien que cela puisse être un bon point de départ !).

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.