19 jan 2016

I december afsluttede jeg det tredje af tre kurser i University of Washingtons Professional & Continuing Education’s (PCE) Certificate in Data Science program. Alle kurser i dette program var 10 uger lange, med 3 timers forelæsninger afholdt en gang om ugen. Da jeg bor i Denver, kunne jeg ikke fysisk deltage i møderne, der blev afholdt på UW’s campus i Seattle, så jeg var en del af online-kohorten. Dette er min gennemgang af programmet, og forhåbentlig kan det være nyttigt for andre, der overvejer programmet.

Hvorfor tilmeldte jeg mig certifikatprogrammet?

Tid til en forandring

I begyndelsen af 2014 besluttede jeg, at jeg havde fået nok. Jeg havde udført datarelateret arbejde for den føderale regering i lidt over 8 år, men jeg var klar til en ny udfordring. Arbejdet var godt, men jeg var træt af det knusende bureaukrati og følte, at min karriere ikke længere udviklede sig i den retning, jeg ønskede (nogen besluttede desværre, at jeg havde en lille smule talent for ledelse, og jeg kunne mærke, at jeg blev trukket ind), og jeg var træt af at bruge en 2006-udgave af MATLAB til at udføre meget af mit “sjove” dataarbejde.

Tager MOOC’er

Så i 2014 begyndte jeg for alvor at tage Massive Open Online Courses (MOOC’er). Jeg vidste, at jeg elskede og var ret god til dataanalyse og programmering, så jeg begyndte at tage kurser i Data Science-sporet hos Udacity (dette var før deres populære Nanodegree-programmer blev udviklet). I maj havde jeg opdaget Coursera, og i juni begyndte jeg på JHU Data Science Specialization (jeg afsluttede denne specialisering i december 2014). Jeg har planer om at gennemgå nogle aspekter af disse MOOC’er på et senere tidspunkt, men indtil videre vil jeg blot nævne, at disse kurser var livsændrende.

UW Certificate and Application

I sommeren 2014 fandt jeg ud af, at UW PCE Data Science-certifikatet var et UW PCE-certifikat. Selv om jeg tog mange MOOC’er, var jeg stadig usikker på, om de rent faktisk ville hjælpe mig til at kvalificere mig til et job. Jeg fik ikke mange hits fra rekrutteringsfolk på LinkedIn, og et par ansøgninger, som jeg smed over virksomhedernes vægge, fik ingen bidder. Jeg var ikke klar til den tid og de udgifter, der er forbundet med et masterprogram i datalogi, så jeg tænkte, at et professionelt universitetscertifikat ville være det næstbedste, og måske kunne det hjælpe mig med at finde nogle ekstra kontakter til at skabe en jobtilknytning.

Så jeg søgte ind på programmet. Da det er ca. halvandet år siden, jeg søgte, husker jeg ikke mange detaljer om ansøgningsprocessen, men jeg mener, at der var en test på 25 spørgsmål om viden om Data Science (noget SQL og statistik er det, jeg husker), jeg skulle indsende et CV, en kort interessetilkendegivelse og ca. 50 dollars som ansøgningsgebyr. Det var ikke alt for stressende.

Accepteret, men nyt job!

Jeg blev optaget på programmet. Der var dog en venteliste, så jeg kunne først starte i april 2015.

Men da april kom, var jeg i samtaler med en rekrutteringskonsulent og havde en samtale med den virksomhed, som jeg nu arbejder for. De ville have mig til at komme og lave Machine Learning for dem! Jeg var 4 uger inde i den første klasse i certifikatprogrammet, da jeg accepterede mit nye job. Så jeg stod i et dilemma: Jeg havde nået mit mål (nyt job i den private sektor), men jeg var lige begyndt på dette program, som jeg havde ventet 7 måneder på at starte (og betalt over 1.100 dollars, der ikke skulle refunderes, for at deltage). Skulle jeg fortsætte? Efter nogle overvejelser gav jeg efter og besluttede mig for, at pengene var en tabt omkostning, så jeg kunne lige så godt lære noget.

Kursus nr. 1 var godt nok til, at jeg fortsatte med at betale for og tage hvert efterfølgende kursus, på trods af en massiv intern debat hver gang (har jeg brug for dette? skal jeg bruge min tid/penge andre steder?). Alt i alt nød jeg for det meste resten af programmet og føler mig fuldført for at afslutte; jeg er dog ikke sikker på, at det var den bedste investering af min tid og penge. Jeg lærer mere og hurtigere ved at tage de fleste MOOC’er, end jeg gjorde fra dette program (James Altucher’s Don’t Send Your Kids to College post kommer til at tænke på). Men jeg fik også flere værdifulde forbindelser med mine klassekammerater, langt flere forbindelser, end jeg fik fra nogen MOOC.

Er dette program for dig?

Ok, nok om mine motivationer for at tage certifikatprogrammet. Her er nogle af mine positive og negative sider ved programmet, som, hvis du er en spirende Data Scientist og overvejer, om du bør prøve certifikatet, måske kan hjælpe dig med at træffe en beslutning.

Hvad jeg kunne lide ved programmet

  • Certifikat fra en betroet institution, der er førende inden for Data Science og Machine Learning.
  • Deltag i kurser online eller personligt (hvis du bor i Seattle-området). Dejligt at de giver dig valget, og at du selv som online studerende kan deltage “live.”
  • Personlig feedback fra instruktørerne på alle opgaver (for mig var det som regel 2-3 linjer feedback). Ikke sikker på, om dette er bedre eller værre end automatisk bedømte eller peer-bedømte opgaver på mange MOOC’er.
  • Kurser, der undervises af dataloger i industrien. Mine kurser blev undervist af Data Scientists hos Prediction Software, Zillow og Microsoft.
  • Mulighed for at tale med og stille spørgsmål til instruktørerne. Selv online er der en chatfunktion, og undervisningsassistenten videresender spørgsmål til instruktøren. Det er rart at få feedback i realtid fra instruktørerne.
  • Omkostningerne: Jeg brugte omkring 3.400 dollars for de tre kurser. Meget dyrere end en MOOC, men meget billigere end en kandidatgrad.
  • Ekstra lærings- og læsematerialer. Instruktørerne gjorde alle et godt stykke arbejde med at finde interessante ting at læse som en del af de ugentlige opgaver.
  • At skabe kontakter og en kontinuerlig kohorte. På det første kursus var der ca. 45 studerende; ca. halvdelen var på klassen og halvdelen online. Underviserne oprettede en LinkedIn-gruppe, og de fleste af os fik kontakt (gruppen er lukket, så prøv ikke at finde og tilmelde dig den!). Måske 20 % af de studerende var gået ud af gruppen ved det tredje kursus, men de studerende, der var mest aktive i gruppen, blev i gruppen og bidrog. Det har været sjovt at se mine klassekammerater få nye job inden for analytik i løbet af de sidste par måneder, og det har været værdifuldt at skabe kontakter med dem.
  • Ret nemme opgaver. Denne kan skære begge veje – hvis opgaverne ikke var svære, har jeg ikke lært meget; men det betyder, at jeg kan supplere min læring med andre erfaringer. I gennemsnit brugte jeg 3 timer i klassen om ugen og 2-3 timer på lektier.

Hvad jeg ikke kunne lide ved programmet

  • Obligatorisk tilstedeværelse i mindst 8 ud af 10 forelæsninger pr. kursus. Der tages hensyn til tilstedeværelsen. Kurset mødes kl. 18.00 Pacific Time og løber i 3 timer. Så da jeg er en time foran, var det for mig 19:00-22:00. I de første to måneder skulle jeg stå op kl. 5 om morgenen for at arbejde, så det kunne give en søvnig næste dag at deltage i disse forelæsninger, mens de blev afholdt. Det er klart, at jo længere væk fra Seattle du er, jo vanskeligere vil det være at deltage i forelæsningerne online.
  • At se forelæsninger i realtid. Når jeg tager MOOC’er, sætter jeg normalt hastigheden på videoerne op til 1,5x til 2,0x den reelle hastighed, afhængigt af hvor hurtigt taleren taler. Det hjælper mig til at fokusere bedre. Med MOOC’er kan du også spole tilbage, hvis du går glip af noget. Med et live-kursus kan du naturligvis ikke gøre det, før forelæsningen er lagt ud (normalt den næste dag), og så er det ikke trivielt at finde dit nøgleøjeblik.
  • Kan ikke se instruktøren i forelæsninger. Andre online-kurser, jeg har taget, har et kamera rettet mod instruktøren, så du kan se dem, mens du også ser på dias. UW’s teknologi viser af en eller anden grund ikke instruktøren, så man hører bare deres stemme og ser på dias. Det gør det meget sværere at fokusere, hvis man er online-studerende, og det udvander læringen en smule, da man ikke kan se den ikke-verbale kommunikation.
  • Kontinuiteten mellem undervisningsgangene er mindre end ideel. I kursus nr. 2 og 3 var der flere gange, hvor instruktørerne spurgte: “Har du lært dette sidste kursus?” Det ville være godt, hvis et mere fokuseret pensum kunne nagles fast, og instruktørerne videregav information til hinanden bedre.
  • Weka for Machine Learning? På det andet kursus lavede vi statistik ved hjælp af R. Og så, i stedet for at fortsætte med R på det tredje kursus, underviste instruktøren i Machine Learning ved hjælp af Weka. De gode folk på University of Waikato gjorde et godt stykke arbejde med Weka-softwaren, men er der nogen i industrien, der bruger Weka længere? Jeg kan ikke se det i mange jobannoncer. Heldigvis kendte underviseren R godt, og accepterede opgaver i R, hvis vi ønskede det, så det var sådan jeg løste mine opgaver. Men han underviste meget af kurset ved hjælp af Weka, hvilket jeg synes er en stor forspildt mulighed og en fejl.
  • Ikke nok dybde. Okay, så Data Science er et meget bredt emne, der vokser hele tiden. UW besluttede tilsyneladende for dette program, at de ville gå efter bredden snarere end dybden. Det er nok en god beslutning, for der er kun så meget, man kan få plads til i 90 timers forelæsning, og så sender man de studerende af sted for at lære på egen hånd, efter at de i det mindste er blevet udsat for nye koncepter. Men jeg blev ved med at ønske at gå i dybden og lære mere om de forskellige emner, vi talte om; i stedet gik vi videre til det næste koncept i et slide eller to.

Quick Review of Individual Courses

Kursus 1: Introduktion til Data Science

Det første kursus var en grundlæggende gennemgang af landet inden for Data Science. Det er virkelig en introduktion, og det forudsætter næsten ingen forudgående viden om Data Science. Vi lærte om grundlæggende dataflow gennem et projekt, og gennemgik nogle primers om værktøjer inden for Data Science (R, Python, SQL, MATLAB/Octave, samt en lille intro til Hadoop). Vi havde et par hjemmeopgaver i R, og lærte om sparsomme matricer, og havde en SQL-hjemmeopgave eller to. Kurset er ikke særlig udfordrende, især ikke hvis man tidligere har haft noget med Data Science at gøre, men forelæsningerne var gode, og de ekstra læsninger var nyttige. Jeg giver dette kursus et B- – godt indhold og god instruktør, men hastigheden og dybden var ikke det, jeg håbede, at jeg betalte for. Jeg var tæt på at droppe ud af programmet efter dette kursus, men da det blev tid til at tilmelde mig og aflevere mine kreditkortoplysninger til kursus 2, gik jeg videre og gjorde det.

Kursus 2: Metoder til dataanalyse

Trods navnet på dette kursus var dette primært et kursus i statistik og datafortælling. Jeg syntes, at det var det bedste kursus af de tre, og jeg lærte en hel del om nogle statistikmetoder, som jeg ikke kendte. Min kørsel af kurset blev undervist af en Senior Data Scientist hos Zillow, en Applied Math PhD, som også var en dygtig underviser. Desværre ser det ud til, at fremtidige kørsler af kurset kan få en ny instruktør – TBD, mens jeg skriver dette – så forhåbentlig kan de finde en god afløser.

Alle hjemmeopgaverne brugte R. Vi havde en vis eksponering for at lave webscraping med R (ja, du kan se “Ew!” her – Python er langt overlegen til webscraping!), køre Monty Hall-simuleringer, lave grundlæggende netværksgrafanalyse, regression og skabe autoregressive variabler, blandt andre statistiske koncepter. Vi afsluttede kurset med et kursusprojekt, hvor vi skulle finde vores egne data, analysere dem og skrive en rapport. Mit afsluttende projekt var at undersøge Denver B-Cycle 2014 Ridership.

Jeg giver dette kursus et A. Jeg syntes, at det til tider var ret udfordrende, og hjemmeopgaverne fik mig til at tænke og tog et par timer hver. Jeg følte, at dette kursus var mine penge og min tid værd.

Kursus 3: Deriving Knowledge from Data at Scale

Efter en god oplevelse med kursus 2 havde jeg ingen problemer med at tilmelde mig det tredje kursus.

Dette kursus var sådan set, på en måde, maskinlæringskurset.

Dette kursus blev undervist af en mangeårig statistiker fra Boeing, der i øjeblikket arbejder som Principal Data Scientist for Microsoft. Han virkede som en meget sympatisk fyr, der lavede vittigheder og fortalte folkelige historier for klassen. Jeg ville ønske, at jeg kunne have været til stede ved forelæsningerne personligt i stedet for at lytte online, for jeg kunne se, at han virkelig interagerede med klassen og delte sin entusiasme (han havde også en ubehagelig vane med at vandre væk fra mikrofonen i et halvt minut ad gangen).

Derimod var jeg temmelig skuffet over dette kursus som opfølgning på det andet kursus. På det tidspunkt havde vi nok brugt 3 måneder på at arbejde i R, for første og andet kursus tilsammen, så det ville have givet mening at undervise i maskinlæringsbegreber og tildele hjemmeopgaver i R. I stedet brugte vi, som jeg nævnte i min gripeliste, Weka. Selvfølgelig har Weka en flot GUI, men jeg ønskede ikke at lære en ny software, som jeg garanteret ikke vil bruge i fremtiden (beklager, men R, Python og Spark Machine Learning-pakker vil være langt mere nyttige). Heldigvis tillod underviseren os at aflevere vores hjemmeopgaver i R. Men jeg blev så frustreret over kurset, at jeg tunede ind på forelæsningerne, for at få mit fremmøde, og så lod jeg min computer køre, mens jeg gik ud og lavede noget andet.

Det afsluttende projekt for dette kursus var at deltage i en Kaggle-konkurrence. Fokus var kun en lille smule på konkurrencen – det handlede mere om at dokumentere vores proces, fra forståelse udforskning af data, til modellering, til at skrive vores resultater op. Instruktøren bad os om at danne par. Dette er en anden meget vanskelig ting at gøre som online studerende. I første omgang fandt jeg et par fyre til at danne et hold; men vi befandt os alle i forskellige tidszoner, og på grund af familiemæssige forpligtelser var det svært at mødes om aftenen, så jeg sagde til sidst “undskyld, jeg gør det alene”. Hvert hold i klassen valgte en aktuel Kaggle-konkurrence, der så interessant ud for dem, så vi arbejdede kollektivt på omkring 8 forskellige projekter, i stedet for at konkurrere mod hinanden, som i edX Analytics Edge-kurset. Jeg besluttede mig for How Much Did It Rain? II-konkurrencen; hvis du er interesseret, kan du se min projektbeskrivelse i min GitHub-repo.

Jeg giver dette kursus et C-. Der var gode oplysninger, og instruktøren var interessant, men valget af Weka forvirrede mig, og kursusorganisationen var lidt dårlig (de studerende blev ofte forvirret af forfaldsdatoer).

Summary

Samlet set giver jeg dette certifikatprogram en karakter på B-.

Jeg vil anbefale det til folk, der kan deltage personligt, til dem med gode tekniske/matematiske/statistiske færdigheder, som ikke har været udsat for Data Science, men som virkelig er nysgerrige og ønsker at lære, og til dem, der kan lide et meget velstruktureret læringsmiljø. Jeg vil også anbefale det, hvis du er interesseret i at udvide dit professionelle netværk af ligesindede personer (især dem i Seattle-området). Jeg har hørt, at folk på kurserne netværker og har hjulpet hinanden med at finde job. Måske er det sket i min kohorte(?), men det er svært at sige som online studerende.

Jeg anbefaler det ikke, hvis du har taget, eller er tryg ved at tage, MOOCs i Data Science og/eller Machine Learning (Coursera, Udacity, edX, osv.), eller måske er villig til at slæbe dig igennem Open Source Data Science Masters listen, eller har arbejdet i en Data Science kapacitet i længere tid. For mine penge og min tid var kurser på MOOC-siderne meget mere værdifulde. Forvent ikke at afslutte disse tre kurser og komme ud som Data Scientist på den anden side – dette kradser knap nok på overfladen (selvom det kunne være et godt sted at starte!).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.