19 jan 2016
In december heb ik de derde van drie cursussen afgerond in het Professional & Continuing Education’s (PCE) Certificate in Data Science-programma van de University of Washington. Alle cursussen in dit programma waren 10 weken lang, met colleges van 3 uur die eenmaal per week werden gehouden. Omdat ik in Denver woon, kon ik de bijeenkomsten, die op de UW-campus in Seattle werden gehouden, niet fysiek bijwonen, dus maakte ik deel uit van het online cohort. Dit is mijn beoordeling van het programma, en hopelijk kan het nuttig zijn voor anderen die het programma overwegen.
- Waarom ging ik het certificaatprogramma in?
- Tijd voor een verandering
- Taking MOOCs
- UW Certificate and Application
- Accepted, but New Job!
- Is dit programma iets voor jou?
- Wat ik leuk vond aan het programma
- Wat ik niet goed vond aan het programma
- Quick Review of Individual Courses
- Course 1: Introduction to Data Science
- Cursus 2: Methoden voor gegevensanalyse
- Cursus 3: Kennis afleiden uit gegevens op schaal
- Samenvatting
Waarom ging ik het certificaatprogramma in?
Tijd voor een verandering
In het begin van 2014 besloot ik dat ik er genoeg van had. Ik had iets meer dan 8 jaar data-gerelateerd werk gedaan voor de federale overheid, maar ik was toe aan een nieuwe uitdaging. Het werk was goed, maar ik was moe van de verpletterende bureaucratie, en het gevoel dat mijn carrière niet langer vorderde in de richting die ik wenste (iemand besloot helaas dat ik een beetje aanleg had voor management, en ik kon voelen dat ik erin werd getrokken), en was moe van het gebruik van een 2006-versie van MATLAB om veel van mijn “leuke” datawerk te doen.
Taking MOOCs
Dus in 2014 begon ik serieus Massive Open Online Courses (MOOCs) te volgen. Ik wist dat ik hield van, en redelijk goed was in, data-analyse en programmeren, dus begon ik cursussen te volgen in de Data Science track op Udacity (dit was voordat hun populaire Nanodegree-programma’s werden ontwikkeld). Tegen mei had ik Coursera ontdekt, en in juni begon ik aan de JHU Data Science Specialization (ik heb die specialisatie in december 2014 afgerond). Ik ben van plan om sommige aspecten van deze MOOC’s op een later tijdstip te herzien, maar voor nu zal ik gewoon vermelden dat deze cursussen levensveranderend waren.
UW Certificate and Application
In de zomer van 2014 ontdekte ik over het UW PCE Data Science-certificaat. Hoewel ik veel MOOC’s volgde, was ik nog steeds onzeker of ze me daadwerkelijk zouden helpen me te kwalificeren voor een baan. Ik kreeg niet veel hits van recruiters op LinkedIn, en een paar sollicitaties die ik over de muren van bedrijven gooide, leverden geen reacties op. Ik was nog niet klaar voor de tijd en kosten van een masteropleiding in Data Science, dus ik dacht dat een universitair professioneel certificaat het op één na beste zou zijn, en me misschien zou helpen wat extra contacten te vinden om een baan te vinden.
Dus heb ik me aangemeld voor het programma. Omdat het ongeveer anderhalf jaar geleden is dat ik me aanmeldde, herinner ik me niet veel bijzonderheden over de aanvraagprocedure, maar ik geloof dat er een test van 25 vragen was over Data Science-kennis (wat SQL en statistieken zijn wat ik me herinner), ik moest een cv indienen, een korte interesseverklaring en ongeveer $ 50 als aanvraagkosten. Het was niet al te stressvol.
Accepted, but New Job!
Ik was geaccepteerd in het programma. Er was echter een wachtlijst, dus ik kon pas in april 2015 beginnen.
Tegen de tijd dat april om de hoek kwam kijken, was ik in gesprek met een recruiter en had ik een gesprek met het bedrijf waar ik nu voor werk. Ze wilden dat ik Machine Learning voor hen kwam doen! Ik zat 4 weken in de eerste klas van het certificaatprogramma toen ik mijn nieuwe baan accepteerde. Ik zat dus met een dilemma: ik had mijn doel bereikt (nieuwe baan in de privésector), maar ik was net begonnen aan dit programma waar ik 7 maanden op had gewacht (en meer dan $1100 voor had betaald). Zou ik doorgaan? Na enige overwegingen, gaf ik toe, en besloot dat het geld een verzonken kost was, dus ik kon net zo goed iets leren.
Cursus #1 was goed genoeg dat ik bleef betalen voor en elke volgende cursus volgde, ondanks massale interne discussie elke keer (heb ik dit nodig? moet ik mijn tijd/geld ergens anders aan besteden?). Over het algemeen heb ik genoten van de rest van het programma en voel ik me geslaagd door het af te ronden; ik ben er echter niet zeker van dat het de beste investering van mijn tijd en geld was. Ik leer meer, en sneller, van de meeste MOOC’s dan van dit programma (James Altucher’s Don’t Send Your Kids to College post komt bij me op). Maar ik heb ook een aantal waardevolle contacten gelegd met mijn medeklasgenoten, veel meer contacten dan bij welke MOOC dan ook.
Is dit programma iets voor jou?
Ok, genoeg over mijn beweegredenen om het certificaatprogramma te volgen. Hier zijn enkele van mijn positieve en negatieve punten voor het programma, die, als je een ontluikende Data Scientist bent en je afvraagt of je het certificaat moet proberen, je kunnen helpen bij het maken van een beslissing.
Wat ik leuk vond aan het programma
- Certificaat van een vertrouwde instelling die toonaangevend is op het gebied van Data Science en Machine Learning.
- Volg cursussen online of in persoon (als je in de buurt van Seattle woont). Leuk dat ze je de keuze geven, en dat je zelfs als online student “live” kunt bijwonen.”
- Persoonlijke feedback van de instructeurs op alle opdrachten (voor mij was het meestal 2-3 regels feedback). Niet zeker of dit beter of slechter is dan auto-graded of peer-graded opdrachten op veel MOOC’s.
- Cursussen gegeven door Data Scientists in het bedrijfsleven. Mijn cursussen werden gegeven door Data Scientists bij Prediction Software, Zillow, en Microsoft.
- Gelegenheid om te praten met en vragen te stellen aan de instructeurs. Zelfs online is er een chatfunctie, en de onderwijsassistent geeft vragen door aan de instructeur. Het is leuk om real-time feedback te krijgen van de instructeurs.
- De kosten: ik besteedde ongeveer $ 3400 voor de drie cursussen. Veel duurder dan een MOOC, maar veel goedkoper dan een master’s degree.
- Extra leer- en leesmateriaal. De docenten deden allemaal geweldig hun best om interessante dingen te vinden om te lezen als onderdeel van de wekelijkse opdrachten.
- Contacten leggen, en een continu cohort. In de eerste cursus waren er ongeveer 45 studenten; ongeveer de helft was in de klas en de andere helft online. De instructeurs richtten een LinkedIn groep op, en de meesten van ons sloten zich aan (de groep is gesloten, dus probeer hem niet te vinden en er lid van te worden!). Misschien 20% van de studenten haakte af tegen de derde cursus, maar de studenten die het meest actief waren in de groep bleven erbij en droegen bij. Het was leuk om te zien hoe mijn klasgenoten de afgelopen maanden nieuwe banen kregen in analytics, en de connecties met hen maken was waardevol.
- Vrij gemakkelijke opdrachten. Dit mes snijdt aan twee kanten – als de opdrachten niet moeilijk waren, dan heb ik niet veel geleerd; maar het betekent dat ik mijn leren kan aanvullen met andere ervaringen. Gemiddeld spendeerde ik 3 uur per week in de klas, en 2-3 uur aan huiswerk.
Wat ik niet goed vond aan het programma
- Verplichte aanwezigheid bij minstens 8 van de 10 colleges per cursus. Aanwezigheid wordt geregistreerd. De les begint om 18.00 uur Pacific Time en duurt 3 uur. Dus, omdat ik een uur vooruit ben, was dat voor mij 19.00-10.00 uur. De eerste twee maanden moest ik om 5 uur ’s ochtends opstaan voor mijn werk, dus het bijwonen van deze lezingen terwijl ze werden gehouden, kon een slaperige volgende dag opleveren. Het is duidelijk dat hoe verder je van Seattle verwijderd bent, hoe moeilijker het zal zijn om de colleges online bij te wonen.
- Colleges in real-time bekijken. Wanneer ik MOOC’s volg, versnel ik de video’s meestal tot 1,5x tot 2,0x de echte snelheid, afhankelijk van hoe snel de spreker praat. Dit helpt me beter te concentreren. Met MOOCs kun je ook terugspoelen als je iets mist. Met de live cursus, natuurlijk kun je dat niet doen totdat de lezing wordt geplaatst (meestal de volgende dag), en dan is het vinden van uw sleutel moment is niet triviaal.
- Kan de instructeur niet zien in colleges. Andere online cursussen die ik heb gevolgd, hebben een camera die op de instructeur is gericht, zodat je hem kunt zien terwijl je ook naar dia’s kijkt. De technologie van UW laat om een of andere reden de docent niet zien, dus je hoort alleen zijn stem en kijkt naar de dia’s. Dit maakt het veel moeilijker om je te concentreren als je een online student bent, en verwatert het leren een beetje, omdat je de non-verbale communicatie niet kunt zien.
- Continuïteit tussen de lessen minder dan ideaal. In cursus #2 en #3 vroegen de docenten verschillende keren: “Heb je deze vorige cursus al geleerd?” Het zou goed zijn als er een meer gericht curriculum kon worden vastgespijkerd en de docenten informatie beter aan elkaar doorgaven.
- Weka voor Machine Learning? In de tweede cursus deden we statistiek met behulp van R. En dan, in plaats van verder te gaan met R in de derde cursus, onderwees de instructeur Machine Learning met behulp van Weka. De goede mensen van de universiteit van Waikato hebben goed werk geleverd met de Weka-software, maar gebruikt iemand in de industrie nog Weka? Ik zie het niet vaak in personeelsadvertenties. Gelukkig kende de docent R goed, en accepteerde hij opdrachten in R als we dat wilden, dus op die manier heb ik mijn opdrachten gemaakt. Maar, hij onderwees een groot deel van de cursus met behulp van Weka, wat ik denk dat een grote gemiste kans en een fout is.
- Niet genoeg diepgang. Oke, dus Data Science is een zeer breed onderwerp, groeit de hele tijd. UW heeft blijkbaar voor dit programma besloten dat ze voor de breedte zouden gaan in plaats van de diepte. Dat is waarschijnlijk een goede beslissing, want je kunt maar zoveel in 90 uur colleges stoppen, en dan stuur je de studenten weg om zelf te leren, nadat ze in ieder geval met nieuwe concepten in aanraking zijn gekomen. Maar ik wilde steeds dieper gaan en meer leren over verschillende onderwerpen waarover we spraken; in plaats daarvan gingen we naar het volgende concept voor een slide of twee.
Quick Review of Individual Courses
Course 1: Introduction to Data Science
De eerste cursus was een basisoverzicht van het land van Data Science. Het is echt een inleiding, en veronderstelt bijna geen voorkennis van Data Science. We leerden over de basis datastroom door middel van een project, en gingen door een aantal primers op tools van Data Science (R, Python, SQL, MATLAB/Octave, evenals een kleine intro tot Hadoop). We hadden een paar huiswerkjes in R, en leerden over sparse matrices, en hadden een paar huiswerkjes in SQL. De cursus is niet erg uitdagend, zeker niet als je al eerder in aanraking bent geweest met Data Science, maar de lezingen waren goed en de extra lezingen waren nuttig. Ik geef deze cursus een B- – goede inhoud en goede instructeur, maar de snelheid en diepgang waren niet wat ik hoopte dat ik ervoor betaald had. Ik was bijna gestopt met het programma na deze cursus, maar toen het tijd werd om me in te schrijven en mijn creditcardgegevens voor cursus 2 te overhandigen, ging ik door en deed ik het.
Cursus 2: Methoden voor gegevensanalyse
Ondanks de naam van deze cursus, was dit in de eerste plaats een cursus over statistiek en het wringen met gegevens. Ik vond dit de beste cursus van de drie, en ik heb heel wat geleerd over een aantal statistiekmethoden die ik niet kende. Mijn cursus werd gegeven door een Senior Data Scientist bij Zillow, een doctor in de Toegepaste Wiskunde die ook een getalenteerde docent was. Helaas ziet het ernaar uit dat de cursus in de toekomst een nieuwe docent krijgt – TBD terwijl ik dit schrijf – dus hopelijk kunnen ze een goede vervanger vinden.
Alle huiswerken gebruikten R. We hadden enige blootstelling aan het doen van web scraping met R (ja, je kunt hier “Ew!” zien – Python is veel beter voor web scraping!), het uitvoeren van Monty Hall-simulaties, het doen van basisnetwerkgrafiekanalyse, regressie en het creëren van autoregressieve variabelen, naast andere statistische concepten. We eindigden de cursus met een cursus project, waar we onze eigen data moesten vinden, analyseren en een verslag schrijven. Mijn laatste project was het onderzoeken van Denver B-Cycle 2014 Ridership.
Ik geef deze cursus een A. Ik vond het soms behoorlijk uitdagend, en de huiswerken zetten me aan het denken en namen elk een paar uur in beslag. Ik vond dat deze cursus mijn geld en mijn tijd waard was.
Cursus 3: Kennis afleiden uit gegevens op schaal
Na een goede ervaring met cursus 2, had ik geen moeite om me in te schrijven voor de derde cursus.
Deze cursus was een soort van, soort van, de cursus Machine Learning.
Deze cursus werd gegeven door een statisticus die al lang bij Boeing werkt en die momenteel werkt als Principal Data Scientist voor Microsoft. Hij leek een zeer persoonlijke man, die grapjes maakte en volksverhalen vertelde voor de klas. Ik wou dat ik persoonlijk bij de colleges had kunnen zijn, in plaats van online mee te luisteren, want ik kon zien dat hij echt interactie had met de klas en zijn enthousiasme deelde (hij had ook de vervelende gewoonte om telkens een halve minuut van de microfoon weg te lopen).
Hoewel was ik nogal teleurgesteld in deze cursus als vervolg op de tweede cursus. We hadden nu waarschijnlijk 3 maanden werk in R gedaan, voor de eerste en tweede cursus samen, dus het zou logisch zijn geweest om machine learning-concepten te leren en huiswerk in R toe te wijzen. In plaats daarvan gebruikten we Weka, zoals ik in mijn klachtenlijst heb vermeld. Natuurlijk, Weka heeft een mooie GUI, maar ik wilde geen nieuwe software leren die ik in de toekomst gegarandeerd niet zal gebruiken (sorry, maar R, Python en Spark Machine Learning pakketten zullen veel nuttiger zijn). Gelukkig mochten we van de docent ons huiswerk in R inleveren. Maar ik raakte zo gefrustreerd door de cursus dat ik afstemde op de colleges, om mijn aanwezigheid te halen, en vervolgens mijn computer liet draaien terwijl ik iets anders ging doen.
Het eindproject voor deze cursus was om deel te nemen aan een Kaggle-wedstrijd. De focus lag maar een klein beetje op de competitie – het ging meer om het documenteren van ons proces, van het begrijpen van het verkennen van de gegevens, tot het modelleren, tot het opschrijven van onze resultaten. De instructeur vroeg ons om samen te werken. Ook dat is erg moeilijk als online student. Aanvankelijk vond ik een paar jongens om een team te vormen; maar we zaten allemaal in verschillende tijdzones, en gezien familieverplichtingen was het moeilijk om ’s avonds af te spreken, dus zei ik uiteindelijk “sorry jongens, ik doe het alleen”. Elk team in de klas koos een huidige Kaggle competitie die hen interessant leek, dus we werkten collectief aan ongeveer 8 verschillende projecten, in plaats van tegen elkaar te strijden, zoals in de edX Analytics Edge cursus. Ik koos voor de How Much Did It Rain? II wedstrijd; als je geïnteresseerd bent kun je mijn project writeup zien in mijn GitHub repo.
Ik geef deze cursus een C-. Er was goede informatie, en de instructeur was interessant, maar de keuze van Weka verbijsterde mijn geest, en de cursusorganisatie was een beetje slecht (studenten waren vaak verward door vervaldata).
Samenvatting
Over het geheel genomen, geef ik dit certificaat programma een cijfer van B-.
Ik zou het aanraden voor mensen die het persoonlijk kunnen bijwonen, voor mensen met goede tech / wiskunde / statistieken vaardigheden die nog niet zijn blootgesteld aan Data Science, maar echt nieuwsgierig zijn en willen leren, en voor degenen die houden van een zeer goed gestructureerde leeromgeving. Ik zou het ook aanraden als je geïnteresseerd bent in het uitbreiden van je professionele netwerk van gelijkgestemde individuen (vooral die in de omgeving van Seattle). Ik heb gehoord dat mensen in de cursussen netwerken en elkaar aan banen hebben geholpen. Misschien is dat in mijn cohort gebeurd?), maar het is moeilijk te zeggen als een online student.
Ik raad het niet aan als je MOOC’s in Data Science en / of Machine Learning (Coursera, Udacity, edX, enz.) hebt gevolgd, of je misschien bereid bent om je door de Open Source Data Science Masters-lijst te ploeteren, of als je al enige tijd in een Data Science-capaciteit werkt. Voor mijn geld en mijn tijd waren cursussen op de MOOC-sites veel waardevoller. Verwacht niet dat je deze drie cursussen afrondt en aan de andere kant als Data Scientist uit de bus komt – dit is nauwelijks een tipje van de sluier (hoewel het een goede plek kan zijn om te beginnen!).