19 jan 2016

I december avslutade jag den tredje av tre kurser i University of Washingtons program Professional & Continuing Education’s (PCE) Certificate in Data Science. Alla kurser i detta program var 10 veckor långa, med tre timmars föreläsningar som hölls en gång i veckan. Eftersom jag bor i Denver kunde jag inte fysiskt delta i mötena, som hölls på UW:s campus i Seattle, så jag ingick i kohorten online. Detta är min granskning av programmet och kan förhoppningsvis vara till nytta för andra som överväger programmet.

Varför gick jag in i certifikatprogrammet?

Tid för en förändring

I början av 2014 bestämde jag mig för att jag hade fått nog. Jag hade gjort datarelaterat arbete för den federala regeringen i drygt åtta år, men jag var redo för en ny utmaning. Arbetet var bra, men jag var trött på den förkrossande byråkratin och på att det kändes som om min karriär inte längre utvecklades i den riktning jag önskade (någon bestämde tyvärr att jag hade lite fallenhet för ledarskap, och jag kände hur jag drogs in i det), och jag var trött på att använda en 2006 års version av MATLAB för att göra en stor del av mitt ”roliga” dataarbete.

Tar MOOC:s

Så under 2014 började jag på allvar att ta Massive Open Online Courses (MOOC:s). Jag visste att jag älskade, och var ganska bra på, dataanalys och programmering, så jag började läsa kurser i datavetenskapsspåret på Udacity (detta var innan deras populära Nanodegree-program utvecklades). I maj hade jag upptäckt Coursera, och i juni påbörjade jag JHU Data Science Specialization (jag avslutade den specialiseringen i december 2014). Jag planerar att granska vissa aspekter av dessa MOOCs vid ett senare tillfälle, men för tillfället nämner jag bara att dessa kurser var livsavgörande.

UW Certificate and Application

Sommaren 2014 fick jag reda på UW PCE Data Science-certifikatet. Även om jag läste många MOOC:s var jag fortfarande osäker på om de faktiskt skulle hjälpa mig att kvalificera mig för ett jobb. Jag fick inte många träffar från rekryterare på LinkedIn, och några ansökningar som jag slängde över företagens väggar fick ingen respons. Jag var inte redo för tiden och kostnaden för ett masterprogram i datavetenskap, så jag tänkte att ett yrkescertifikat från ett universitet skulle vara det näst bästa, och kanske hjälpa mig att hitta ytterligare kontakter för att skapa en jobbkontakt.

Så jag ansökte till programmet. Eftersom det är ungefär ett och ett halvt år sedan jag ansökte minns jag inte många detaljer om ansökningsprocessen, men jag tror att det fanns ett test på 25 frågor om Data Science-kunskaper (lite SQL och statistik är vad jag minns), jag var tvungen att skicka in ett CV, en kort intresseförklaring och ungefär 50 dollar som ansökningsavgift. Det var inte alltför stressigt.

Antagen, men nytt jobb!

Jag blev antagen till programmet. Det fanns dock en väntelista, så jag kunde inte börja förrän i april 2015.

När april kom var jag i samtal med en rekryterare och hade en intervju med det företag som jag nu arbetar för. De ville att jag skulle komma och arbeta med maskininlärning för dem! Jag var fyra veckor in i den första klassen i certifikatprogrammet när jag tackade ja till mitt nya jobb. Så jag stod inför ett dilemma: jag hade nått mitt mål (nytt jobb i den privata sektorn), men jag hade precis börjat detta program som jag hade väntat i sju månader på att få börja (och betalat över 1 100 US-dollar för att delta). Skulle jag fortsätta? Efter en del överväganden gav jag efter och bestämde mig för att pengarna var en försvunnen kostnad, så jag kunde lika gärna lära mig något.

Kurs 1 var tillräckligt bra för att jag fortsatte att betala för och gå varje efterföljande kurs, trots en massiv intern debatt varje gång (behöver jag det här? borde jag spendera min tid/pengar någon annanstans?). På det hela taget njöt jag mestadels av resten av programmet och känner mig fulländad för att jag avslutade det; jag är dock inte säker på att det var den bästa investeringen av min tid och mina pengar. Jag lär mig mer, och snabbare, genom att delta i de flesta MOOC:s än vad jag gjorde genom det här programmet (James Altuchers inlägg Don’t Send Your Kids to College kommer jag att tänka på). Men jag fick också flera värdefulla kontakter med mina klasskamrater, långt fler kontakter än jag fick från någon MOOC.

Är det här programmet något för dig?

Okej, det räcker med att berätta om mina motiv för att ta certifikatprogrammet. Här är några av mina positiva och negativa synpunkter på programmet som, om du är en blivande datavetare och undrar om du ska försöka ta certifikatet, kan hjälpa dig att fatta ett beslut.

Vad jag gillade med programmet

  • Certifikat från en betrodd institution som är ledande inom datavetenskap och maskininlärning.
  • Delta i kurser online eller personligen (om du bor i Seattle-området). Trevligt att de ger dig valet och att du även som online-student kan delta ”live”.
  • Personlig feedback från instruktörerna på alla uppgifter (för mig var det oftast 2-3 rader feedback). Jag är inte säker på om detta är bättre eller sämre än automatiskt betygsatta eller kollegialt betygsatta uppgifter på många MOOCs.
  • Kurser som lärs ut av datavetare inom industrin. Mina kurser undervisades av datavetare på Prediction Software, Zillow och Microsoft.
  • Möjlighet att prata med och ställa frågor till instruktörerna. Även online finns det en chattfunktion, och lärarassistenten vidarebefordrar frågorna till läraren. Det är trevligt att få feedback i realtid från instruktörerna.
  • Kostnaden: Jag spenderade cirka 3 400 dollar för de tre kurserna. Mycket dyrare än en MOOC, men mycket billigare än en magisterexamen.
  • Extra inlärnings- och läsmaterial. Lärarna gjorde alla ett bra jobb med att hitta intressanta saker att läsa som en del av veckouppgifterna.
  • Att knyta kontakter, och en kontinuerlig kohort. I den första kursen fanns det cirka 45 studenter; ungefär hälften var i klassrummet och hälften online. Lärarna inrättade en LinkedIn-grupp och de flesta av oss fick kontakt (gruppen är stängd, så försök inte hitta och gå med i den!). Kanske 20 % av studenterna försvann vid den tredje kursen, men de studenter som var mest aktiva i gruppen stannade kvar och bidrog. Det har varit roligt att se mina klasskamrater få nya jobb inom analytik under de senaste månaderna, och att knyta kontakter med dem har varit värdefullt.
  • Ganska enkla uppgifter. Den här kan vara dubbelriktad – om uppgifterna inte var svåra har jag inte lärt mig så mycket, men det betyder att jag kan komplettera min inlärning med andra erfarenheter. I genomsnitt ägnade jag 3 timmar i veckan åt lektioner och 2-3 timmar åt läxor.

Vad jag inte gillade med programmet

  • Obligatorisk närvaro vid minst 8 av 10 föreläsningar per kurs. Närvaron räknas. Kursen träffas klockan 18.00 Pacific Time och pågår i 3 timmar. Eftersom jag ligger en timme framåt i tiden var det 19.00-22.00 för mig. Under de två första månaderna var jag tvungen att vakna klockan 5 på morgonen för att jobba, så att delta i föreläsningarna medan de hölls kunde leda till en sömnig nästa dag. Det är uppenbart att ju längre bort från Seattle du befinner dig, desto svårare blir det att delta i föreläsningarna online.
  • Att titta på föreläsningar i realtid. När jag deltar i MOOCs brukar jag snabba upp videorna till 1,5x till 2,0x den verkliga hastigheten, beroende på hur snabbt talaren pratar. Detta hjälper mig att fokusera bättre. Med MOOCs kan du också spola tillbaka om du missar något. Med en direktsänd kurs kan du naturligtvis inte göra det förrän föreläsningen läggs ut (vanligtvis nästa dag), och då är det inte helt enkelt att hitta nyckelmomentet.
  • Kan inte se instruktören i föreläsningar. Andra onlinekurser som jag har gått har en kamera riktad mot instruktören, så att du kan se dem samtidigt som du tittar på bilderna. UW:s teknik visar av någon anledning inte instruktören, så man hör bara hans röst och tittar på bilderna. Detta gör det mycket svårare att fokusera om man är en online-studerande och försvagar inlärningen lite, eftersom man inte kan se den icke-verbala kommunikationen.
  • Kontinuiteten mellan klasserna är mindre än idealisk. I kurserna nr 2 och 3 frågade lärarna flera gånger: ”Lärde du dig den här kursen förra gången?”. Det skulle vara bra om en mer fokuserad kursplan kunde spikas och om instruktörerna förmedlade information till varandra bättre.
  • Weka för maskininlärning? I den andra kursen gjorde vi statistik med hjälp av R. I stället för att fortsätta med R i den tredje kursen lärde instruktören ut maskininlärning med hjälp av Weka. De goda människorna vid University of Waikato gjorde ett bra jobb med mjukvaran Weka, men är det någon inom industrin som använder Weka längre? Jag ser det inte i många jobbannonser. Lyckligtvis kunde läraren R väl och accepterade uppgifter i R om vi ville, så det var så jag slutförde mina uppgifter. Men han undervisade en stor del av kursen med hjälp av Weka, vilket jag tycker är ett stort missat tillfälle och ett misstag.
  • Inte tillräckligt djup. Okej, så datavetenskap är ett mycket brett ämne som växer hela tiden. UW beslutade tydligen för det här programmet att de skulle satsa på bredd snarare än djup. Detta är förmodligen ett bra beslut, eftersom det finns bara så mycket du kan få in i 90 timmars föreläsningstid, sedan skickar du iväg studenterna för att lära sig på egen hand, efter att åtminstone ha blivit utsatta för nya begrepp. Men jag ville hela tiden gå djupare och lära mig mer om olika ämnen som vi pratade om; i stället gick vi över till nästa koncept för en eller två bilder.

Snabb genomgång av enskilda kurser

Kurs 1: Introduktion till datavetenskap

Den första kursen var en grundläggande översikt över datavetenskapens land. Den är verkligen en introduktion och förutsätter nästan inga förkunskaper om datavetenskap. Vi lärde oss om grundläggande dataflöde genom ett projekt och gick igenom några primörer om verktyg för datavetenskap (R, Python, SQL, MATLAB/Octave, samt en liten introduktion till Hadoop). Vi hade några hemuppgifter i R och lärde oss om sparsamma matriser och hade en eller två SQL-läxor. Kursen är inte särskilt utmanande, särskilt om du har haft någon tidigare exponering för datavetenskap, men föreläsningarna var bra och den extra läsningen var till hjälp. Jag ger den här kursen ett B- – bra innehåll och bra instruktör, men hastigheten och djupet var inte vad jag hoppades att jag betalade för. Jag var nära att hoppa av programmet efter den här kursen, men när det var dags att registrera mig och lämna över mina kreditkortsuppgifter för kurs 2, gick jag vidare och gjorde det.

Kurs 2: Metoder för dataanalys

Trots kursens namn var det här i första hand en kurs i statistik och datahantering. Jag tyckte att detta var den bästa kursen av de tre, och jag lärde mig en hel del om vissa statistikmetoder som jag inte kände till. Min körning av kursen leddes av en Senior Data Scientist på Zillow, en doktor i tillämpad matematik som också var en begåvad lärare. Tyvärr ser det ut som om framtida kurser kan få en ny instruktör – TBD när jag skriver detta – så förhoppningsvis kan de hitta en bra ersättare.

Alla hemuppgifter använde R. Vi fick en viss exponering för att göra webscraping med R (ja, du kan se ”Ew!” här – Python är långt överlägset för webscraping!), köra Monty Hall-simuleringar, göra grundläggande analys av nätverksgrafer, regression och skapa autoregressiva variabler, bland andra statistiska begrepp. Vi avslutade kursen med ett kursprojekt, där vi var tvungna att hitta våra egna data, analysera dem och skriva en rapport. Mitt slutprojekt var att utforska Denver B-Cycle 2014 Ridership.

Jag ger den här kursen ett A. Jag tyckte att den var ganska utmanande ibland, och hemuppgifterna fick mig att tänka och tog några timmar vardera. Jag kände att kursen var värd mina pengar och min tid.

Kurs 3: Deriving Knowledge from Data at Scale

Efter en bra erfarenhet av kurs 2 hade jag inga problem med att anmäla mig till den tredje kursen.

Den här kursen var typ, typ, kursen om maskininlärning.

Kursen undervisades av en mångårig Boeing-statistiker som för närvarande arbetar som Principal Data Scientist för Microsoft. Han verkade vara en mycket trevlig kille som skämtade och berättade folkliga historier för klassen. Jag önskar att jag kunde ha varit på föreläsningarna personligen, istället för att lyssna på nätet, för jag kunde se att han verkligen interagerade med klassen och delade med sig av sin entusiasm (han hade också en obehaglig vana att vandra bort från mikrofonen i en halv minut åt gången).

Jag var dock ganska besviken på den här kursen som en uppföljning till den andra kursen. Vid det här laget hade vi tillbringat förmodligen tre månader med att arbeta i R, för den första och andra kursen tillsammans, så det skulle ha varit vettigt att lära ut begrepp för maskininlärning och tilldela hemuppgifter i R. Istället använde vi, som jag nämnde i min lista över klagomål, Weka. Visst, Weka har ett snyggt GUI, men jag ville inte lära mig en ny programvara som jag garanterat inte kommer att använda i framtiden (tyvärr, men R, Python och Spark Machine Learning-paket kommer att vara mycket mer användbara). Lyckligtvis tillät läraren oss att lämna in våra hemuppgifter i R. Men jag blev så frustrerad över kursen att jag stämde in på föreläsningarna, för att få min närvaro, och sedan lät datorn vara igång medan jag gick och gjorde något annat.

Det slutliga projektet för den här kursen var att delta i en Kaggle-tävling. Fokus låg bara lite på tävlingen – det handlade mer om att dokumentera vår process, från förståelsen att utforska data, till modellering, till att skriva upp våra resultat. Instruktören bad oss att bilda par. Detta är en annan mycket svår sak att göra som nätstudent. Jag hittade först ett par killar för att bilda ett lag, men vi befann oss alla i olika tidszoner och med tanke på familjeansvaret var det svårt att träffas på kvällen, så jag sa till slut: ”Ledsen killar, jag gör det ensam”. Varje grupp i klassen valde en aktuell Kaggle-tävling som verkade intressant för dem, så vi arbetade kollektivt med ungefär 8 olika projekt, istället för att tävla mot varandra, som i edX Analytics Edge-kursen. Jag bestämde mig för How Much Did It Rain? II-tävlingen; om du är intresserad kan du se min projektbeskrivning i min GitHub-repo.

Jag ger den här kursen ett C-. Det fanns bra information och instruktören var intressant, men valet av Weka gjorde mig förbryllad och kursorganisationen var lite dålig (studenterna var ofta förvirrade av förfallodatum).

Sammanfattning

Sammanfattningsvis ger jag det här certifikatsprogrammet betyget B-.

Jag skulle rekommendera det för personer som kan delta personligen, för personer med goda tekniska/matematiska/statistiska färdigheter som inte har exponerats för datavetenskap, men som verkligen är nyfikna och vill lära sig, och för personer som gillar en mycket välstrukturerad inlärningsmiljö. Jag skulle också rekommendera det om du är intresserad av att utöka ditt professionella nätverk av likasinnade personer (särskilt de i Seattle-området). Jag har hört att folk på kurserna nätverkar och har hjälpt varandra att hitta jobb. Kanske hände det i min kohort(?), men det är svårt att avgöra som online-student.

Jag rekommenderar inte kursen om du har tagit, eller är bekväm med att ta, MOOCs i datavetenskap och/eller maskininlärning (Coursera, Udacity, edX, etc.), eller om du kanske är villig att gå igenom Open Source Data Science Masters-listan, eller om du har jobbat med datavetenskap under en längre tid. För mina pengar och min tid var kurser på MOOC-sajter mycket mer värdefulla. Förvänta dig inte att avsluta dessa tre kurser och komma ut som datavetare på andra sidan – detta skrapar knappt på ytan (även om det kan vara ett bra ställe att börja!)

.

Lämna ett svar

Din e-postadress kommer inte publiceras.