19.1.2016

Joulukuussa suoritin kolmannen kolmesta kurssista Washingtonin yliopiston ammatillisen & täydennyskoulutuksen (PCE) datatieteen sertifikaattiohjelmassa. Kaikki tämän ohjelman kurssit olivat 10 viikon mittaisia, ja kerran viikossa pidettiin 3 tunnin luennot. Koska asun Denverissä, en voinut fyysisesti osallistua kokouksiin, jotka pidettiin UW:n kampuksella Seattlessa, joten kuuluin verkkokohorttiin. Tämä on arvosteluni ohjelmasta, ja toivottavasti siitä voi olla hyötyä muille, jotka harkitsevat ohjelmaa.

Miksi osallistuin sertifikaattiohjelmaan?

Muutoksen aika

Vuoden 2014 alussa päätin, että olin saanut tarpeekseni. Olin tehnyt dataan liittyvää työtä liittovaltion hallitukselle hieman yli kahdeksan vuotta, mutta olin valmis uuteen haasteeseen. Työ oli hyvää, mutta olin kyllästynyt murskaavaan byrokratiaan ja tunsin, että urani ei enää edennyt haluamaani suuntaan (joku päätti valitettavasti, että minulla oli hieman kykyjä johtamiseen, ja tunsin, että minua vedettiin mukaan), ja olin kyllästynyt käyttämään MATLABin vuoden 2006 versiota suurimman osan ”hauskasta” datatyöstäni tekemisessä.

Opiskelen MOOC-kursseja

Niinpä aloin vuonna 2014 tosissani opiskella avoimia verkkokursseja (MOOC). Tiesin, että rakastan data-analyysia ja ohjelmointia, ja olin siinä melko hyvä, joten aloin käydä kursseja Udacityn Data Science -linjalla (tämä oli ennen kuin heidän suosittuja Nanodegree-ohjelmiaan kehitettiin). Toukokuuhun mennessä olin löytänyt Courseran, ja kesäkuussa aloitin JHU:n Data Science -erikoistumiskoulutuksen (suoritin sen loppuun joulukuussa 2014). Aion tarkastella joitain näkökohtia näistä MOOCeista myöhemmin, mutta nyt mainitsen vain, että nämä kurssit muuttivat elämäni.

UW Certificate and Application

Kesällä 2014 sain tietää UW PCE:n Data Science -tutkinnosta. Vaikka kävin monia MOOCeja, en silti ollut varma, auttaisivatko ne oikeasti minua saamaan työpaikan. En saanut rekrytoijilta paljon osumia LinkedInissä, eivätkä muutamat hakemukset, jotka heitin yritysten seinille, saaneet yhtään puraisua. En ollut valmis Data Science -maisteriohjelman aikaan ja kustannuksiin, joten ajattelin, että yliopistollinen ammattitutkinto olisi toiseksi paras vaihtoehto ja ehkä auttaisi minua löytämään lisäkontakteja, joiden avulla voisin saada työpaikan.

Hain siis ohjelmaan. Koska hakemisesta on noin puolitoista vuotta, en muista monia yksityiskohtia hakuprosessista, mutta muistaakseni siellä oli 25 kysymyksen testi Data Science -tietämyksestä (muistaakseni jonkin verran SQL:ää ja tilastoja), minun piti toimittaa ansioluettelo, lyhyt kiinnostuksenosoitus ja noin 50 dollaria hakemusmaksuna. Se ei ollut liian stressaavaa.

Hyväksytty, mutta uusi työpaikka!

Hyväksyttiin ohjelmaan. Oli kuitenkin jonotuslista, joten pääsin aloittamaan vasta huhtikuussa 2015.

Huhtikuun koittaessa olin jo puhunut rekrytoijan kanssa ja kävin haastattelussa yrityksessä, jossa nyt työskentelen. He halusivat minun tulevan tekemään koneoppimista heille! Olin 4 viikkoa sertifikaattiohjelman ensimmäisellä kurssilla, kun hyväksyin uuden työpaikkani. Minulla oli siis pulma: olin saavuttanut tavoitteeni (uusi työpaikka yksityisellä sektorilla), mutta olin juuri aloittanut tämän ohjelman, jonka aloittamista olin odottanut 7 kuukautta (ja maksanut osallistumisestani yli 1100 dollaria, jota ei tarvitse palauttaa). Pitäisikö minun jatkaa? Joidenkin pohdintojen jälkeen annoin periksi ja päätin, että raha oli uponnut kustannus, joten voisin yhtä hyvin oppia jotain.

Kurssi nro 1 oli niin hyvä, että jatkoin jokaisen seuraavan kurssin maksamista ja osallistumista, huolimatta massiivisesta sisäisestä keskustelusta joka kerta (tarvitsenko tätä? pitäisikö minun käyttää aikani/rahani muualle?). Kaiken kaikkiaan nautin enimmäkseen ohjelman loppuosasta ja tunnen saavuttaneeni tavoitteeni; en kuitenkaan ole varma, oliko se paras sijoitus aikaani ja rahojani. Useimmissa MOOC-kursseissa opin enemmän ja nopeammin kuin tässä ohjelmassa (mieleen tulee James Altucherin Don’t Send Your Kids to College -kirjoitus). Mutta sain myös useita arvokkaita yhteyksiä luokkatovereideni kanssa, paljon enemmän yhteyksiä kuin mistään MOOCista.

Onko tämä ohjelma sinua varten?

Okei, riittää, kun kerron motiiveistani osallistua sertifikaattiohjelmaan. Tässä muutamia positiivisia ja negatiivisia puolia ohjelmasta, jotka, jos olet aloitteleva datatieteilijä ja mietit, kannattaisiko sinun kokeilla sertifikaattia, saattavat auttaa päätöksenteossa.

Mitä pidin ohjelmasta

  • Sertifikaatti luotettavalta oppilaitokselta, joka on johtava datatieteen ja koneoppimisen alalla.
  • Osallistu kursseille netissä tai henkilökohtaisesti (jos asut Seattlen alueella). Mukavaa, että he antavat sinulle mahdollisuuden valita ja että jopa verkko-opiskelijana voit osallistua ”livenä.”
  • Henkilökohtaista palautetta ohjaajilta kaikista tehtävistä (minulle se oli yleensä 2-3 riviä palautetta). En ole varma, onko tämä parempi vai huonompi kuin monissa MOOCeissa olevat automaattisesti tai vertaisarvioidut tehtävät.
  • Kurssit, joita opettavat teollisuudessa työskentelevät datatieteilijät. Kurssejani opettivat Prediction Softwaren, Zillow’n ja Microsoftin datatutkijat.
  • Mahdollisuus keskustella ja kysyä kysymyksiä opettajilta. Jopa verkossa on chat-toiminto, ja opetusavustaja välittää kysymykset ohjaajalle. On mukavaa saada reaaliaikaista palautetta ohjaajilta.
  • Kustannukset: Käytin kolmesta kurssista noin 3400 dollaria. Paljon kalliimpaa kuin MOOC, mutta paljon halvempaa kuin maisterin tutkinto.
  • Ylimääräistä oppimis- ja lukumateriaalia. Ohjaajat tekivät kaikki hyvää työtä löytääkseen mielenkiintoista luettavaa osana viikkotehtäviä.
  • Kontaktien luominen ja jatkuva kohortti. Ensimmäisellä kurssilla oli noin 45 opiskelijaa; noin puolet oli luokassa ja puolet verkossa. Opettajat perustivat LinkedIn-ryhmän, ja suurin osa meistä otti yhteyttä (ryhmä on suljettu, joten älä yritä löytää sitä ja liittyä siihen!). Kolmannelle kurssille mennessä ehkä 20 prosenttia opiskelijoista lopetti, mutta ne opiskelijat, jotka olivat aktiivisimpia ryhmässä, pysyivät mukana ja antoivat panoksensa. On ollut hauskaa seurata, kuinka luokkatoverini ovat saaneet uusia töitä analytiikan parissa viime kuukausien aikana, ja yhteyksien luominen heidän kanssaan on ollut arvokasta.
  • Melko helppoja tehtäviä. Tämä voi leikata molempiin suuntiin – jos tehtävät eivät olleet vaikeita, en oppinut paljon; mutta se tarkoittaa, että voin täydentää oppimistani muilla kokemuksilla. Käytin keskimäärin 3 tuntia tunnilla viikossa ja 2-3 tuntia kotitehtäviin.

Mitä en pitänyt ohjelmasta

  • Pakollinen läsnäolo luennoilla vähintään 8 luentoa 10:stä per kurssi. Läsnäolo otetaan huomioon. Kurssi kokoontuu klo 18.00 Tyynenmeren aikaa ja kestää 3 tuntia. Joten, koska olen tunnin etuajassa, minulle se oli klo 19.00-22.00. Kahtena ensimmäisenä kuukautena jouduin heräämään aamuviideltä töihin, joten luennoille osallistuminen niiden aikana saattoi tehdä seuraavasta päivästä unisen. On selvää, että mitä kauempana Seattlesta olet, sitä vaikeampaa on osallistua luennoille verkossa.
  • Luentojen seuraaminen reaaliajassa. Kun osallistun MOOCeihin, nopeutan videot yleensä 1,5x-2,0x reaaliaikaiseen nopeuteen, riippuen siitä, kuinka nopeasti puhuja puhuu. Tämä auttaa minua keskittymään paremmin. MOOCeissa voi myös kelata taaksepäin, jos jotain jää huomaamatta. Livekurssilla et tietenkään voi tehdä sitä ennen kuin luento on lähetetty (yleensä seuraavana päivänä), ja silloin avainhetken löytäminen ei ole triviaalia.
  • Luennoilla ei voi nähdä ohjaajaa. Muilla verkkokursseilla, joita olen käynyt, kamera on suunnattu ohjaajaan, joten voit nähdä hänet samalla kun katsot dioja. UW:n tekniikka ei jostain syystä näytä ohjaajaa, joten kuulet vain hänen äänensä ja katsot dioja. Tämä tekee keskittymisestä paljon vaikeampaa, jos olet verkko-opiskelija, ja laimentaa oppimista hieman, koska et näe ei-verbaalista viestintää.
  • Jatkuvuus luokkien välillä ei ole ihanteellinen. Kursseilla nro 2 ja 3 oli useita kertoja, kun ohjaajat kysyivät: ”Opitko tämän viime kurssin?”. Olisi hyvä, jos tarkempi opetussuunnitelma saataisiin naulattua ja ohjaajat välittäisivät tietoa toisilleen paremmin.
  • Weka for Machine Learning? Toisella kurssilla teimme tilastoja käyttäen R:ää. Ja sitten sen sijaan, että olisimme jatkaneet R:llä kolmannella kurssilla, ohjaaja opetti Machine Learningia käyttäen Wekaa. Waikaton yliopiston hyvät ihmiset tekivät hyvää työtä Weka-ohjelmiston kanssa, mutta käyttääkö kukaan teollisuudessa enää Wekaa? En näe sitä monissa työpaikkailmoituksissa. Onneksi ohjaaja tunsi R:n hyvin ja hyväksyi halutessamme tehtävät R:llä, joten suoritin tehtäväni sillä tavalla. Mutta hän opetti suuren osan kurssista käyttäen Wekaa, mikä on mielestäni suuri menetetty tilaisuus ja virhe.
  • Ei tarpeeksi syvyyttä. Okei, Data Science on siis hyvin laaja aihe, joka kasvaa koko ajan. UW ilmeisesti päätti tämän ohjelman osalta, että he pyrkivät pikemminkin laajuuteen kuin syvyyteen. Tämä on luultavasti hyvä päätös, koska 90 tunnin luentoaikaan mahtuu vain rajallinen määrä asioita, minkä jälkeen opiskelijat lähetetään oppimaan omatoimisesti, kun he ovat ainakin altistuneet uusille käsitteille. Halusin kuitenkin jatkuvasti mennä syvemmälle ja oppia lisää eri aiheista, joista puhuimme; sen sijaan siirryimme seuraavaan käsitteeseen dian tai kahden ajaksi.

Pikakatsaus yksittäisiin kursseihin

Kurssi 1: Johdatus datatieteeseen

Ensimmäinen kurssi oli peruskatsaus datatieteen maahan. Se on todella johdanto, eikä se edellytä juuri mitään aiempaa tietämystä Data Science -tieteestä. Tutustuimme perusdatan kulkuun projektin kautta, ja kävimme läpi Data Science -työkalujen alkeet (R, Python, SQL, MATLAB/Octave, sekä pieni johdatus Hadoopiin). Meillä oli muutama kotitehtävä R:llä, ja opimme harvat matriisit, ja meillä oli yksi tai kaksi SQL-kotitehtävää. Kurssi ei ole kovin haastava, varsinkaan jos on aiemmin tutustunut Data Scienceen, mutta luennot olivat hyviä ja lisälukemistosta oli apua. Annan tälle kurssille arvosanan B- – hyvä sisältö ja hyvä opettaja, mutta nopeus ja syvyys eivät olleet sitä, mitä toivoin maksaneeni. Melkein jätin ohjelman kesken tämän kurssin jälkeen, mutta kun tuli aika ilmoittautua ja luovuttaa luottokorttitietoni kurssille 2, tein sen kuitenkin.

Kurssi 2: Metodit data-analyysiin

Kurssin nimestä huolimatta tämä oli ensisijaisesti tilastotieteen ja data-analyysin kurssi. Mielestäni tämä oli paras kurssi kolmesta, ja opin aika paljon joistain tilastomenetelmistä, joita en tiennyt. Suorittamani kurssin opetti Zillow’n vanhempi datatutkija, sovelletun matematiikan tohtori, joka oli myös lahjakas opettaja. Valitettavasti näyttää siltä, että tulevilla kursseilla voi olla uusi opettaja – TBD tätä kirjoittaessani – joten toivottavasti he löytävät hyvän korvaajan.

Kaikkiin kotitehtäviin käytettiin R:ää. Tutustuimme jonkin verran web-skrappauksen tekemiseen R:llä (kyllä, voitte sanoa ”hyi!” – Python on paljon parempi web-skrappaukseen!), Monty Hall -simulaatioiden suorittamiseen, perusverkkograafien analyysiin, regressioanalyysiin ja autoregressiivisten muuttujien luomiseen muiden tilastotieteellisten konseptien lisäksi. Päätimme kurssin kurssiprojektiin, jossa meidän oli löydettävä omat tietomme, analysoitava ne ja kirjoitettava raportti. Loppuprojektini oli Denverin B-Cycle 2014 Ridershipin tutkiminen.

Annan tälle kurssille arvosanan A. Se oli mielestäni ajoittain melko haastava, ja kotitehtävät saivat minut ajattelemaan ja veivät muutaman tunnin kukin. Mielestäni tämä kurssi oli rahani ja aikani arvoinen.

Kurssi 3: Deriving Knowledge from Data at Scale

Kurssista 2 saatujen hyvien kokemusten jälkeen minulla ei ollut mitään ongelmaa ilmoittautua kolmannelle kurssille.

Tämä kurssi oli tavallaan, tavallaan, Machine Learning-kurssi.

Tämän kurssin opettajana toimi Boeingin pitkäaikainen tilastotieteilijä, joka työskentelee tällä hetkellä Microsoftin johtavana datatiedemiehenä. Hän vaikutti erittäin sympaattiselta kaverilta, joka vitsaili ja kertoi kansantajuisia tarinoita luokalle. Toivon, että olisin voinut olla luennoilla henkilökohtaisesti, enkä kuunnella verkossa, koska huomasin, että hän oli todella vuorovaikutuksessa luokan kanssa ja jakoi innostustaan (hänellä oli myös ikävä tapa eksyä pois mikrofonin luota puoleksi minuutiksi kerrallaan).

Olin kuitenkin melko pettynyt tähän kurssiin toisen kurssin jatkona. Tähän mennessä olimme viettäneet varmaan 3 kuukautta tekemällä töitä R:llä, ensimmäisellä ja toisella kurssilla yhteensä, joten olisi ollut järkevää opettaa koneoppimisen käsitteitä ja antaa kotitehtäviä R:llä. Sen sijaan, kuten mainitsin gripe-listassani, käytimme Wekaa. Toki Wekassa on mukavan näköinen graafinen käyttöliittymä, mutta en halunnut opetella uutta ohjelmistoa, jota en taatusti tule käyttämään tulevaisuudessa (anteeksi, mutta R-, Python- ja Spark-koneoppimispaketit ovat paljon hyödyllisempiä). Onneksi ohjaaja antoi meidän palauttaa kotitehtävät R:llä. Mutta turhauduin kurssista niin paljon, että viritin luennot, jotta saisin läsnäoloni, ja jätin sitten tietokoneen käyntiin, kun menin tekemään jotain muuta.

Kurssin loppuprojektina oli osallistua Kaggle-kilpailuun. Kilpailuun keskityttiin vain vähän – kyse oli enemmänkin prosessimme dokumentoinnista, datan tutkimisen ymmärtämisestä mallintamiseen ja tulosten kirjoittamiseen. Opettaja pyysi meitä muodostamaan parin. Tämä on toinen erittäin vaikea asia verkko-opiskelijana. Löysin aluksi pari kaveria, jotka muodostivat tiimin; olimme kuitenkin kaikki eri aikavyöhykkeillä, ja perhevelvollisuuksien vuoksi oli vaikeaa tavata iltaisin, joten sanoin lopulta: ”Sori, kaverit, menen yksin”. Jokainen kurssin tiimi valitsi itselleen mielenkiintoiselta tuntuneen ajankohtaisen Kaggle-kilpailun, joten työskentelimme yhdessä noin kahdeksan eri projektin parissa sen sijaan, että olisimme kilpailleet toisiamme vastaan, kuten edX Analytics Edge -kurssilla. Päädyin How Much Did It Rain? II-kilpailuun; jos olet kiinnostunut, voit nähdä projektikirjoitukseni GitHub-repossa.

Annan tälle kurssille arvosanan C-. Kurssilla oli hyvää tietoa, ja kouluttaja oli mielenkiintoinen, mutta Wekan valinta hämmensi mieltäni, ja kurssin organisointi oli hieman huono (opiskelijat olivat usein hämmentyneitä eräpäivistä).

Yhteenveto

Kokonaisuudessaan annan tälle sertifikaattiohjelmalle arvosanan B-.

Suosittelisin sitä henkilöille, jotka voivat osallistua henkilökohtaisesti, niille, joilla on hyvät tekniset/matemaattiset/tilastotaidot ja jotka eivät ole olleet tekemisissä Data Sciencen kanssa, mutta ovat todella uteliaita ja haluavat oppia, sekä niille, jotka pitävät hyvin strukturoidusta oppimisympäristöstä. Suosittelen osallistumista myös, jos olet kiinnostunut kasvattamaan ammatillista verkostoasi samanhenkisten henkilöiden kanssa (erityisesti Seattlen alueella). Olen kuullut, että kurssilaiset verkostoituvat ja ovat auttaneet toisiaan löytämään työpaikkoja. Ehkä näin tapahtui omassa kohortissani(?), mutta sitä on vaikea sanoa verkko-opiskelijana.

En suosittele sitä, jos olet suorittanut tai olet valmis suorittamaan datatieteen ja/tai koneoppimisen MOOC-kursseja (Coursera, Udacity, edX jne.), tai jos olet kenties valmis käymään läpi avoimen lähdekoodin datatieteen mestariluettelon, tai jos olet työskennellyt datatieteen parissa pidemmän aikaa. Minun rahani ja aikani puolesta MOOC-sivustojen kurssit olivat paljon arvokkaampia. Älä odota, että suoritat nämä kolme kurssia loppuun ja tulet datatieteilijänä ulos toiselta puolelta – tämä hädin tuskin raapaisee pintaa (vaikka se voikin olla hyvä paikka aloittaa!).

Vastaa

Sähköpostiosoitettasi ei julkaista.