19 Jan 2016
Decemberben elvégeztem a Washingtoni Egyetem Professional & Continuing Education’s (PCE) Certificate in Data Science programjának harmadik kurzusát. A program minden kurzusa 10 hetes volt, heti egyszer tartott 3 órás előadásokkal. Mivel Denverben élek, fizikailag nem tudtam részt venni a találkozókon, amelyeket az UW seattle-i campusán tartottak, így az online kohorsz része voltam. Ez az én értékelésem a programról, és remélhetőleg hasznos lehet mások számára is, akik fontolgatják a programot.
- Miért jelentkeztem a Certificate Programba?
- A változás ideje
- MOOC-okat veszek
- UW Certificate and Application
- Akcepted, but New Job!
- Ez a program neked való?
- Mi tetszett a programban
- Mi nem tetszett a programban
- Az egyes kurzusok gyors áttekintése
- 1. kurzus: Bevezetés az adattudományba
- 2. kurzus: Methods for Data Analysis
- 3. kurzus: Deriving Knowledge from Data at Scale
- Összefoglaló
Miért jelentkeztem a Certificate Programba?
A változás ideje
2014 elején úgy döntöttem, hogy elegem van. Kicsit több mint 8 éve végeztem adatokkal kapcsolatos munkát a szövetségi kormányzatnál, de készen álltam egy új kihívásra. A munka jó volt, de belefáradtam a nyomasztó bürokráciába, és úgy éreztem, hogy a karrierem már nem az általam kívánt irányba halad (valaki sajnos úgy döntött, hogy van egy kis adottságom a vezetéshez, és éreztem, hogy belerángatnak), és belefáradtam abba, hogy a MATLAB egy 2006-os kiadását használjam a “szórakoztató” adatmunkám nagy részének elvégzésére.
MOOC-okat veszek
Így 2014-ben komolyan elkezdtem tömeges nyílt online kurzusokat (MOOC) venni. Tudtam, hogy szeretem, és elég jól értek az adatelemzéshez és a programozáshoz, ezért elkezdtem az Udacity Data Science kurzusain részt venni (ez még a népszerű Nanodegree programjaik kifejlesztése előtt volt). Májusra felfedeztem a Coursera-t, és júniusban elkezdtem a JHU Data Science Specialization-t (ezt a specializációt 2014 decemberében fejeztem be). Tervezem, hogy egy későbbi időpontban áttekintem ezeknek a MOOC-oknak néhány aspektusát, de most csak annyit említek, hogy ezek a kurzusok megváltoztatták az életemet.
UW Certificate and Application
2014 nyarán értesültem az UW PCE Data Science tanúsítványáról. Annak ellenére, hogy sok MOOC-on vettem részt, még mindig nem voltam biztos benne, hogy valóban segítenek-e majd abban, hogy álláshoz jussak. A LinkedIn-en nem sok találatot kaptam a toborzóktól, és néhány pályázat, amit a cégek falára dobtam, nem harapott meg. Nem álltam készen egy adattudományi mesterképzés idő- és költségigényére, ezért úgy gondoltam, hogy egy egyetemi szakmai tanúsítvány lesz a következő legjobb dolog, és talán segíthet abban, hogy további kapcsolatokat találjak az álláskereséshez.
Ezért jelentkeztem a programra. Mivel körülbelül másfél éve volt, hogy jelentkeztem, nem sok konkrétumra emlékszem a jelentkezési folyamatról, de azt hiszem, volt egy 25 kérdésből álló teszt a Data Science ismeretekről (némi SQL és statisztika az, amire emlékszem), be kellett nyújtanom egy önéletrajzot, egy rövid érdeklődési nyilatkozatot, és körülbelül 50 dollárt jelentkezési díjként. Nem volt túl stresszes.
Akcepted, but New Job!
Felvettek a programba. Volt azonban várólista, így 2015 áprilisáig nem tudtam kezdeni.
Mire eljött az április, már tárgyaltam egy toborzóval, és volt egy interjúm a céggel, ahol most dolgozom. Azt akarták, hogy jöjjek hozzájuk gépi tanulással foglalkozni! Négy hétig tartottam a tanúsítványprogram első osztályát, amikor elfogadtam az új munkahelyemet. Szóval, dilemmába kerültem: elértem a célomat (új állás a magánszektorban), de épp csak elkezdtem ezt a programot, amelynek megkezdésére 7 hónapot vártam (és több mint 1100 dollár vissza nem térítendő összeget fizettem a részvételért). Folytassam tovább? Némi mérlegelés után beadtam a derekam, és úgy döntöttem, hogy a pénz már elmerült költség, így akár tanulhatok is valamit.
Az 1. tanfolyam elég jó volt ahhoz, hogy minden további tanfolyamot tovább fizettem és elvégeztem, annak ellenére, hogy minden alkalommal hatalmas belső vitákat folytattam (szükségem van erre? máshol kellene töltenem az időmet/pénzemet?). Összességében többnyire élveztem a program hátralévő részét, és úgy érzem, teljesítettem, hogy befejeztem; azonban nem vagyok benne biztos, hogy ez volt a legjobb befektetés az időm és a pénzem számára. A legtöbb MOOC-on többet és gyorsabban tanulok, mint ezen a programon (James Altucher Don’t Send Your Kids to College bejegyzése jut eszembe). De számos értékes kapcsolatra is szert tettem az osztálytársaimmal, sokkal több kapcsolatra, mint bármelyik MOOC-on.
Ez a program neked való?
Oké, elég a motivációmból, amiért részt vettem a tanúsítványprogramban. Íme néhány pozitívum és negatívum a programmal kapcsolatban, ami, ha Ön egy kezdő adattudós, és azon gondolkodik, hogy megpróbálja-e a tanúsítványt, segíthet a döntés meghozatalában.
Mi tetszett a programban
- Tanúsítvány egy megbízható intézménytől, amely vezető szerepet tölt be az adattudomány és a gépi tanulás területén.
- Online vagy személyesen (ha Seattle környékén él) részt vehet a kurzusokon. Szép, hogy megadják a választási lehetőséget, és hogy online hallgatóként is részt vehetsz “élőben”.
- Személyes visszajelzés az oktatóktól minden feladatra (nekem általában 2-3 sor visszajelzés volt). Nem biztos, hogy ez jobb vagy rosszabb, mint az automatikusan osztályozott vagy a társak által osztályozott feladatok sok MOOC-on.
- Az iparban dolgozó adattudósok által tartott kurzusok. Az én kurzusaimat a Prediction Software, a Zillow és a Microsoft adattudósai tanították.
- Lehetőség beszélgetni és kérdéseket feltenni az oktatóknak. Még online is van chat funkció, és a tanársegéd továbbítja a kérdéseket az oktatónak. Jó érzés valós idejű visszajelzést kapni az oktatóktól.
- A költségek: A három tanfolyamra körülbelül 3400 dollárt költöttem. Sokkal drágább, mint egy MOOC, de sokkal olcsóbb, mint egy mesterképzés.
- Extra tanulási és olvasási anyagok. Az oktatók mindannyian nagyszerű munkát végeztek, és a heti feladatok részeként érdekes olvasnivalókat találtak.
- Kapcsolatépítés, és folyamatos kohorsz. Az első kurzuson körülbelül 45 hallgató volt; körülbelül fele tanórai és fele online. Az oktatók létrehoztak egy LinkedIn-csoportot, és a legtöbben csatlakoztunk (a csoport zárt, tehát ne próbáld megtalálni és csatlakozni!). A harmadik kurzusra a hallgatók talán 20%-a lemorzsolódott, de azok a hallgatók, akik a legaktívabbak voltak a csoportban, bent maradtak és hozzájárultak. Jó volt nézni, ahogy az osztálytársaim az elmúlt hónapokban új munkát kaptak az analitikában, és értékes volt a velük való kapcsolatteremtés.
- Elég könnyű feladatok. Ez mindkét irányba vághat – ha a feladatok nem voltak nehezek, akkor nem sokat tanultam; de, ez azt jelenti, hogy más tapasztalatokkal egészíthetem ki a tanulást. Átlagosan heti 3 órát töltöttem órán, és 2-3 órát a házi feladatokkal.
Mi nem tetszett a programban
- Kötelező órán való részvétel, legalább 8 előadás a 10-ből egy kurzuson. Jelenléti íveket vesznek fel. Az óra csendes-óceáni idő szerint 18 órakor kezdődik és 3 órán át tart. Tehát, mivel egy órával előrébb vagyok, számomra ez 19:00-10:00 volt. Az első két hónapban reggel 5-kor kellett kelnem a munkám miatt, így az előadásokon való részvétel, amíg tartották őket, álmosabbá tehette a következő napot. Nyilvánvaló, hogy minél távolabb vagy Seattle-től, annál nehezebb lesz online részt venni az előadásokon.
- Előadások nézése valós időben. Amikor MOOC-okon veszek részt, általában felgyorsítom a videókat a valós sebesség 1,5x-2,0x sebességére, attól függően, hogy milyen gyorsan beszél az előadó. Így jobban tudok koncentrálni. A MOOC-oknál vissza is lehet tekerni, ha lemaradsz valamiről. Az élő kurzusnál ezt nyilvánvalóan nem teheted meg, amíg az előadás fel nem kerül (általában másnap), és akkor a kulcsmomentum megtalálása nem triviális.
- Nem látom az oktatót az előadásokon. Más online kurzusokon, amelyeken részt vettem, egy kamera van az oktatóra beállítva, így láthatod őket, miközben a diákat is nézegeted. Az UW technológiája valamiért nem mutatja az oktatót, így csak a hangját hallod és a diákat nézed. Ez sokkal nehezebbé teszi az összpontosítást, ha online hallgató vagy, és egy kicsit felhígítja a tanulást, mivel nem látod a nem verbális kommunikációt.
- Az órák közötti folytonosság kevésbé ideális. A 2. és 3. kurzusokon többször előfordult, hogy az oktatók megkérdezték: “Megtanultad ezt a legutóbbi kurzust?”. Jó lenne, ha egy fókuszáltabb tananyagot lehetne leszögezni, és az oktatók jobban átadnák egymásnak az információkat.
- Weka for Machine Learning? A második kurzuson statisztikát csináltunk az R segítségével, majd ahelyett, hogy a harmadik kurzuson az R-rel folytattuk volna, az oktató a Weka segítségével tanította a Machine Learninget. A Waikato Egyetem jó emberei jó munkát végeztek a Weka szoftverrel, de használja már valaki az iparban a Weka-t? Nem sok álláshirdetésnél látom. Szerencsére az oktató jól ismerte az R-t, és ha akartuk, R-ben fogadta el a feladatokat, így én így végeztem el a feladataimat. De a kurzus nagy részét Weka segítségével tanította, ami szerintem egy nagy kihagyott lehetőség és hiba.
- Nem elég mélység. Oké, tehát az adattudomány egy nagyon széleskörű tantárgy, ami folyamatosan bővül. Az UW láthatóan úgy döntött ennél a programnál, hogy inkább a szélességre mennek, mint a mélységre. Ez valószínűleg jó döntés, mert 90 órányi előadásba csak ennyi fér bele, aztán elküldöd a diákokat, hogy tanuljanak maguktól, miután legalább az új fogalmakkal megismerkedtek. De én folyton szerettem volna elmélyülni és többet megtudni a különböző témákról, amelyekről beszéltünk; ehelyett egy-két diára áttértünk a következő fogalomra.
Az egyes kurzusok gyors áttekintése
1. kurzus: Bevezetés az adattudományba
Az első kurzus az adattudomány földjének alapvető áttekintése volt. Valóban bevezető jellegű, és szinte semmilyen előismeretet nem feltételez az adattudomány területén. Egy projekten keresztül megismerkedtünk az alapvető adatáramlással, és átmentünk néhány alapozáson az adattudomány eszközeiről (R, Python, SQL, MATLAB/Octave, valamint egy kis bevezetés a Hadoopba). Volt néhány házi feladatunk R-ben, és tanultunk a ritka mátrixokról, és volt egy-két SQL házi feladatunk. A kurzus nem túl nagy kihívás, főleg, ha valaki korábban már foglalkozott Data Science-vel, de az előadások jók voltak, és az extra olvasmányok is hasznosak voltak. Adok ennek a kurzusnak egy négyest – jó tartalom és jó oktató, de a sebesség és a mélység nem volt az, amit reméltem, hogy fizettem. E kurzus után majdnem kiléptem a programból, de amikor eljött az ideje, hogy regisztráljak és átadjam a hitelkártyaadataimat a 2. kurzusra, mégis megtettem.
2. kurzus: Methods for Data Analysis
A kurzus neve ellenére ez elsősorban egy statisztika és adatfeldolgozás kurzus volt. Szerintem ez volt a legjobb kurzus a három közül, és elég sokat tanultam néhány olyan statisztikai módszerről, amit nem ismertem. A kurzus lefutását a Zillow egyik vezető adattudósa, egy alkalmazott matematikából doktorált, aki egyben tehetséges tanár is volt. Sajnos úgy néz ki, hogy a kurzus jövőbeli futásai új oktatót kaphatnak – TBD, amikor ezt írom -, így remélhetőleg találnak egy jó helyettest.
A házi feladatok mindegyike az R-t használta. Volt némi tapasztalatunk a web scraping R-rel (igen, itt lehet látni a “Fúj!” – a Python sokkal jobb a web scrapinghez!), Monty Hall szimulációk futtatása, alapvető hálózati grafikonelemzés, regresszió és autoregresszív változók létrehozása, egyéb statisztikai fogalmak mellett. A kurzust egy kurzusprojekttel fejeztük be, ahol saját adatokat kellett keresnünk, elemeznünk és jelentést írnunk. A záró projektem a Denver B-Cycle 2014 Ridership feltárása volt.
Ezt a kurzust ötösre értékelem. Néha elég nagy kihívásnak találtam, és a házi feladatok elgondolkodtattak, és egyenként néhány órát vettek igénybe. Úgy éreztem, hogy ez a kurzus megérte a pénzemet és az időmet.
3. kurzus: Deriving Knowledge from Data at Scale
A 2. kurzussal szerzett jó tapasztalatok után nem okozott gondot a harmadik kurzusra jelentkezni.
Ez a kurzus afféle, afféle Machine Learning kurzus volt.
Ezt a kurzust egy régóta a Boeingnél dolgozó statisztikus tanította, aki jelenleg Principal Data Scientistként dolgozik a Microsoftnál. Nagyon szimpatikus fickónak tűnt, viccelődött és népies történeteket mesélt az órán. Bárcsak személyesen is ott lehettem volna az előadásokon, ahelyett, hogy online hallgattam volna, mert láttam, hogy valóban interakcióba lépett az osztállyal, és megosztotta a lelkesedését (volt egy csúnya szokása is, hogy egyszerre fél percre elkalandozott a mikrofontól).
Mégis, mint a második kurzus folytatása, meglehetősen csalódott voltam ebben a kurzusban. Mostanra már valószínűleg 3 hónapot töltöttünk az R-ben végzett munkával, az első és a második kurzusra együttvéve, így lett volna értelme a gépi tanulás fogalmait R-ben tanítani és házi feladatokat kiosztani. Ehelyett, ahogy a gripe listámban említettem, a Weka-t használtuk. Persze, a Weka szép GUI-val rendelkezik, de nem akartam megtanulni egy új szoftvert, amit garantáltan nem fogok használni a jövőben (sajnálom, de az R, a Python és a Spark Machine Learning csomagok sokkal hasznosabbak lesznek). Szerencsére az oktató megengedte, hogy a házi feladatokat R-ben adjuk be. De annyira frusztrált lettem a kurzus miatt, hogy az előadásokra ráhangolódtam, hogy megszerezzem a jelenléti ívet, majd a számítógépemet futni hagytam, amíg valami mással foglalkoztam.
A kurzus záró projektje egy Kaggle versenyen való részvétel volt. A hangsúly csak egy kicsit volt a versenyen – inkább arról szólt, hogy dokumentáljuk a folyamatunkat, az adatok feltárásának megértésétől a modellezésen át az eredményeink megírásáig. Az oktató megkért minket, hogy alkossunk párokat. Ez egy másik nagyon nehéz dolog online hallgatóként. Kezdetben találtam néhány srácot, hogy csapatot alkossunk; azonban mindannyian különböző időzónákban voltunk, és a családi kötelezettségek miatt nehéz volt találkozni esténként, így végül azt mondtam, hogy “bocs srácok, egyedül csinálom”. Az osztály minden csapata kiválasztott egy aktuális Kaggle-versenyt, amely érdekesnek tűnt számukra, így közösen körülbelül 8 különböző projekten dolgoztunk, ahelyett, hogy egymás ellen versenyeztünk volna, mint az edX Analytics Edge kurzusán. Én a How Much Did It Rain? II versenyt választottam; ha érdekel, a GitHub repómban megtekintheted a projektem leírását.
Ezt a kurzust hármasra értékelem. Voltak jó információk, és az oktató érdekes volt, de a Weka választása megzavarta az agyamat, és a kurzus szervezése kissé gyenge volt (a hallgatók gyakran összezavarodtak a határidőkkel).
Összefoglaló
Összességében négyes osztályzatot adok erre a tanúsítványprogramra.
Azoknak ajánlanám, akik személyesen tudnak részt venni, azoknak, akik jó technikai/matematikai/statisztikai ismeretekkel rendelkeznek, akik még nem találkoztak a Data Science-vel, de nagyon kíváncsiak és szeretnének tanulni, és azoknak, akik szeretik a nagyon jól strukturált tanulási környezetet. Akkor is ajánlom, ha szeretnéd bővíteni a hasonlóan gondolkodó emberekből álló szakmai hálózatodat (különösen Seattle környékén). Úgy hallottam, hogy a tanfolyamokon részt vevők hálózatot építenek és segítettek egymásnak munkát találni. Talán ez történt az én kohorszomban(?), de nehéz megmondani, mint online hallgató.
Nem ajánlom, ha már részt vettél, vagy jól érzed magad az adattudományi és/vagy gépi tanulási MOOC-okon (Coursera, Udacity, edX, stb.), vagy esetleg hajlandó vagy végigcsinálni az Open Source Data Science Masters listát, vagy már hosszabb ideje dolgozol adattudományi területen. Az én pénzemért és időmért a MOOC-oldalak tanfolyamai sokkal értékesebbek voltak. Ne számítson arra, hogy ezt a három kurzust elvégezve Data Scientistként kerül ki a másik oldalról – ez alig karcolja a felszínt (bár jó kiindulópont lehet!).