19. ledna 2016
V prosinci jsem absolvoval třetí ze tří kurzů programu Professional & Continuing Education (PCE) na Washingtonské univerzitě v oblasti datové vědy. Všechny kurzy tohoto programu trvaly 10 týdnů a jejich tříhodinové přednášky se konaly jednou týdně. Protože žiji v Denveru, nemohl jsem se fyzicky účastnit setkání, která se konala v kampusu UW v Seattlu, takže jsem byl součástí online kohorty. Toto je moje recenze programu a doufám, že může být užitečná i pro ostatní, kteří o programu uvažují.
- Proč jsem vstoupil do certifikačního programu?
- Čas na změnu
- Taking MOOCs
- UW Certificate and Application
- Přijat, ale nová práce!“
- Je tento program pro vás?
- Co se mi na programu líbilo
- Co se mi na programu nelíbilo
- Rychlý přehled jednotlivých kurzů
- Kurz 1: Úvod do datové vědy
- Kurz 2: Metody analýzy dat
- Kurz 3: Odvozování znalostí z dat ve velkém měřítku
- Shrnutí
Proč jsem vstoupil do certifikačního programu?
Na začátku roku 2014 jsem se rozhodl, že už toho mám dost. Práci spojenou s daty jsem pro federální vládu vykonával něco přes 8 let, ale byl jsem připraven na novou výzvu. Práce to byla dobrá, ale byl jsem unavený z drtivé byrokracie a pocitu, že se moje kariéra už nevyvíjí směrem, kterým jsem si přál (někdo bohužel rozhodl, že mám trochu vlohy pro řízení, a já cítil, jak mě to táhne), a unavovalo mě používat k většině své „zábavné“ práce s daty verzi MATLABu z roku 2006.
Taking MOOCs
V roce 2014 jsem tedy začal vážně navštěvovat masivní otevřené online kurzy (MOOCs). Věděl jsem, že mě baví analýza dat a programování a že jsem v nich poměrně dobrý, a tak jsem začal navštěvovat kurzy v oblasti Data Science na Udacity (bylo to ještě před vznikem jejich populárních programů Nanodegree). V květnu jsem objevil Courseru a v červnu jsem začal studovat specializaci JHU Data Science (tuto specializaci jsem dokončil v prosinci 2014). Některé aspekty těchto MOOC plánuju zhodnotit později, ale zatím jen zmíním, že mi tyto kurzy změnily život.
UW Certificate and Application
V létě 2014 jsem se dozvěděl o certifikátu UW PCE Data Science. Přestože jsem absolvoval mnoho MOOC, stále jsem si nebyl jistý, zda mi skutečně pomohou kvalifikovat se pro práci. Na LinkedIn mi personalisté moc nechodili a několik žádostí, které jsem firmám hodil přes zeď, se neuchytilo. Nebyl jsem připraven na čas a náklady na magisterský program v oblasti datových věd, takže jsem si myslel, že univerzitní profesní certifikát bude další nejlepší věc a možná mi pomůže najít nějaké další kontakty, abych mohl navázat pracovní kontakt.
Přihlásil jsem se tedy do programu. Protože už je to asi rok a půl, co jsem se hlásil, nepamatuji si mnoho podrobností o přijímacím řízení, ale myslím, že tam byl test o 25 otázkách ze znalostí Data Science (pamatuji si nějaké SQL a statistiky), musel jsem předložit životopis, krátké prohlášení o zájmu a asi 50 dolarů jako poplatek za přihlášku. Nebylo to příliš stresující.
Přijat, ale nová práce!“
Do programu jsem byl přijat. Byl tam však pořadník, takže jsem mohl nastoupit až v dubnu 2015.
Než se duben přehoupl, jednal jsem s náborářem a absolvoval pohovor se společností, pro kterou nyní pracuji. Chtěli, abych pro ně šel dělat strojové učení! Když jsem přijal novou práci, byl jsem 4 týdny v první třídě certifikovaného programu. Takže jsem měl dilema: dosáhl jsem svého cíle (nová práce v soukromém sektoru), ale právě jsem začal tento program, na jehož zahájení jsem čekal 7 měsíců (a zaplatil za něj nevratných více než 1100 dolarů). Mám pokračovat? Po několika úvahách jsem podlehl a rozhodl se, že peníze jsou utopený náklad, takže bych se mohl něco naučit.
Kurz č. 1 byl natolik dobrý, že jsem pokračoval v placení a absolvování každého dalšího kurzu, a to i přes masivní vnitřní debatu pokaždé (potřebuji to? měl bych svůj čas/peníze utratit jinde?). Celkově se mi zbytek programu většinou líbil a cítím se úspěšný, že jsem ho dokončil; nejsem si však jistý, zda to byla nejlepší investice mého času a peněz. Na většině MOOC se naučím víc a rychleji než na tomto programu (napadá mě příspěvek Jamese Altuchera Neposílejte své děti na vysokou školu). Ale také jsem navázal několik cenných kontaktů se svými spolužáky, mnohem více kontaktů, než jsem získal z jakéhokoli MOOC.
Je tento program pro vás?
Ok, dost o mých motivacích pro absolvování certifikátového programu. Zde jsou některá má pozitiva a negativa programu, která by vám, pokud jste začínající datový vědec a přemýšlíte, zda byste měli certifikát zkusit, mohla pomoci při rozhodování.
Co se mi na programu líbilo
- Certifikát od důvěryhodné instituce, která je lídrem v oblasti datové vědy a strojového učení.
- Navštěvujte kurzy online nebo osobně (pokud žijete v oblasti Seattlu). Je hezké, že vám dávají na výběr a že i jako online student se můžete zúčastnit „naživo“.
- Osobní zpětná vazba od instruktorů ke všem úkolům (u mě to byly obvykle 2-3 řádky zpětné vazby). Nejsem si jistý, jestli je to lepší nebo horší než automaticky hodnocené nebo vzájemně hodnocené úkoly na mnoha MOOC.
- Kurzy vedou datoví vědci z průmyslu. Moje kurzy vedli datoví vědci ze společností Prediction Software, Zillow a Microsoft.
- Možnost mluvit s instruktory a klást jim otázky. I online je k dispozici funkce chatu a asistent výuky předává otázky instruktorovi. Je příjemné získat od instruktorů zpětnou vazbu v reálném čase.
- Náklady: Za tři kurzy jsem utratil asi 3400 dolarů. Mnohem dražší než MOOC, ale mnohem levnější než magisterské studium.
- Další studijní materiály a četba. Všichni instruktoři odvedli skvělou práci a našli zajímavé věci ke čtení v rámci týdenních úkolů.
- Navázání kontaktů a kontinuální kohorta. V prvním kurzu bylo asi 45 studentů; přibližně polovina byla ve třídě a polovina online. Instruktoři založili skupinu na LinkedIn a většina z nás se připojila (skupina je uzavřená, takže se ji nesnažte najít a připojit se k ní!). Možná 20 % studentů se do třetího kurzu vymylo, ale ti studenti, kteří byli ve skupině nejaktivnější, v ní zůstali a přispívali. Bylo zábavné sledovat, jak moji spolužáci v posledních měsících získali nová zaměstnání v oblasti analytiky, a navazování kontaktů s nimi bylo cenné.
- Poměrně snadné úkoly. Tohle se dá krájet oběma směry – pokud úkoly nebyly těžké, tak jsem se toho moc nenaučil; ale znamená to, že si mohu doplnit učení dalšími zkušenostmi. V průměru jsem strávil 3 hodiny týdně v hodinách a 2-3 hodiny nad domácími úkoly.
Co se mi na programu nelíbilo
- Povinná účast na hodinách alespoň 8 z 10 přednášek za kurz. Docházka je kontrolována. Výuka se koná v 18:00 pacifického času a trvá 3 hodiny. Takže vzhledem k tomu, že jsem o hodinu napřed, pro mě to bylo 19:00-22:00. První dva měsíce jsem musel vstávat v 5 hodin ráno do práce, takže účast na těchto přednáškách v době jejich konání mohla způsobit, že se mi druhý den bude chtít spát. Je zřejmé, že čím dále jste od Seattlu, tím obtížnější bude účastnit se přednášek online.
- Sledování přednášek v reálném čase. Když se účastním MOOC, obvykle videa zrychluji na 1,5 až 2,0x skutečnou rychlost, podle toho, jak rychle přednášející mluví. Pomáhá mi to lépe se soustředit. U MOOC můžete také přetáčet, pokud vám něco unikne. U živého kurzu to samozřejmě nemůžete udělat, dokud není přednáška zveřejněna (obvykle druhý den), a pak najít svůj klíčový moment není triviální.
- Na přednáškách není vidět na vyučujícího. V jiných online kurzech, které jsem absolvoval, je kamera natočená na instruktora, takže ho vidíte a zároveň si prohlížíte slajdy. Technologie UW z nějakého důvodu instruktora neukazuje, takže slyšíte jen jeho hlas a díváte se na slajdy. To značně ztěžuje soustředění, pokud jste online student, a trochu rozmělňuje výuku, protože nevidíte neverbální komunikaci.
- Návaznost mezi hodinami není ideální. V kurzech č. 2 a 3 se několikrát stalo, že se vyučující zeptali: „Učili jste se to v minulém kurzu?“. Bylo by dobré, kdyby se podařilo více přiblížit učební plán a vyučující si lépe předávali informace.
- Weka pro strojové učení? Ve druhém kurzu jsme dělali statistiku pomocí R. A pak, místo abychom pokračovali s R ve třetím kurzu, instruktor učil strojové učení pomocí Weka. Dobří lidé z University of Waikato odvedli se softwarem Weka dobrou práci, ale používá ještě někdo v průmyslu Weku? Na mnoha pracovních inzerátech ji nevidím. Naštěstí vyučující dobře znal R a přijímal úkoly v R, pokud jsme chtěli, takže jsem tak plnil své úkoly. Ale většinu kurzu učil pomocí Weka, což považuji za velkou promarněnou příležitost a chybu.
- Málo hluboké. Dobře, takže datová věda je velmi široký předmět, který se neustále rozrůstá. UW se zřejmě pro tento program rozhodla, že půjde spíše do šířky než do hloubky. To je pravděpodobně dobré rozhodnutí, protože do 90 hodin přednášek se toho vejde jen tolik, že pak pošlete studenty, aby se učili sami, s tím, že se alespoň seznámili s novými koncepty. Stále jsem však chtěl jít hlouběji a dozvědět se více o různých tématech, o kterých jsme mluvili; místo toho jsme se na jeden nebo dva slidy přesunuli k dalšímu konceptu.
Rychlý přehled jednotlivých kurzů
Kurz 1: Úvod do datové vědy
První kurz byl základním přehledem země datové vědy. Jedná se skutečně o úvod a nepředpokládá téměř žádné předchozí znalosti Data Science. Seznámili jsme se se základními datovými toky prostřednictvím projektu a prošli jsme několik základních informací o nástrojích Data Science (R, Python, SQL, MATLAB/Octave a také malý úvod do Hadoopu). Měli jsme několik domácích úkolů v R, učili jsme se o řídkých maticích a měli jsme jeden nebo dva domácí úkoly v SQL. Kurz není příliš náročný, zejména pokud jste se již dříve setkali s datovou vědou, ale přednášky byly dobré a dodatečná četba byla užitečná. Tomuto kurzu dávám dvojku – dobrý obsah a dobrý instruktor, ale rychlost a hloubka nebyly takové, jaké jsem doufal, že si zaplatím. Po tomto kurzu jsem se málem na program vykašlal, ale když přišel čas zaregistrovat se a odevzdat údaje o kreditní kartě na kurz 2, šel jsem do toho a udělal to.
Kurz 2: Metody analýzy dat
Přes název tohoto kurzu se jednalo především o kurz statistiky a práce s daty. Myslím, že to byl nejlepší kurz ze všech tří, a dozvěděl jsem se docela dost o některých statistických metodách, které jsem neznal. Můj běh kurzu vedl Senior Data Scientist ve společnosti Zillow, doktor aplikované matematiky, který byl zároveň talentovaným učitelem. Bohužel to vypadá, že budoucí běhy kurzu budou mít nového instruktora – v době, kdy toto píšu, je to TBD – tak doufejme, že se podaří najít dobrou náhradu.
Všechny domácí úkoly používaly R. Měli jsme možnost seznámit se s prováděním web scrapingu v R (ano, zde můžete vidět „Fuj!“ – Python je pro web scraping mnohem lepší!), spouštěním simulací Monty Hall, prováděním základní analýzy síťových grafů, regresí a vytvářením autoregresních proměnných, mimo jiné s koncepty statistiky. Kurz jsme zakončili projektem, v němž jsme museli najít vlastní data, analyzovat je a napsat zprávu. Mým závěrečným projektem bylo zkoumání počtu jízd Denver B-Cycle 2014.
Dávám tomuto kurzu jedničku. Občas mi připadal poměrně náročný a domácí úkoly mě nutily přemýšlet a každý zabral několik hodin. Měl jsem pocit, že tento kurz stojí za mé peníze a můj čas.
Kurz 3: Odvozování znalostí z dat ve velkém měřítku
Po dobré zkušenosti s kurzem 2 jsem neměl problém zapsat se na třetí kurz.
Tento kurz byl tak trochu, tak trochu, kurz strojového učení.
Tento kurz vedl dlouholetý statistik společnosti Boeing, který v současné době pracuje jako hlavní datový vědec pro společnost Microsoft. Působil jako velmi osobitý člověk, který pro třídu vyprávěl vtipy a lidové historky. Škoda, že jsem nemohl být na přednáškách osobně, místo toho, abych je poslouchal online, protože jsem mohl říct, že se třídou opravdu komunikuje a sdílí své nadšení (měl také nepříjemný zvyk odbíhat na půl minuty od mikrofonu).
Však mě tento kurz jako pokračování druhého kurzu spíše zklamal. Do této chvíle jsme strávili pravděpodobně 3 měsíce prací v R, za první a druhý kurz dohromady, takže by dávalo smysl učit koncepty strojového učení a zadávat domácí úkoly v R. Místo toho, jak jsem zmínil ve svém seznamu stížností, jsme používali Weku. Jistě, Weka má hezky vypadající grafické rozhraní, ale nechtěl jsem se učit nový software, který zaručeně v budoucnu nevyužiji (je mi líto, ale R, Python a balíčky Spark Machine Learning budou mnohem užitečnější). Naštěstí nám vyučující umožnil odevzdávat domácí práce v R. Z kurzu jsem ale byl tak frustrovaný, že jsem si naladil přednášky, abych měl docházku, a pak jsem nechal počítač běžet, zatímco jsem šel dělat něco jiného.
Závěrečným projektem tohoto kurzu byla účast v soutěži Kaggle. Na soutěž jsme se zaměřili jen trochu – šlo spíše o zdokumentování našeho postupu, od pochopení zkoumání dat, přes modelování až po sepsání našich výsledků. Instruktor nás požádal, abychom vytvořili dvojice. To je další velmi obtížná věc pro online studenty. Původně jsem si našel pár kluků, se kterými jsme vytvořili tým, nicméně každý z nás byl v jiném časovém pásmu a vzhledem k rodinným povinnostem bylo obtížné se sejít v noci, takže jsem nakonec řekl: „Sorry, kluci, jdu do toho sám.“ A tak jsem se rozhodl, že se sejdeme. Každý tým ve třídě si vybral aktuální soutěž Kaggle, která se mu zdála zajímavá, takže jsme společně pracovali asi na 8 různých projektech, místo abychom soutěžili mezi sebou, jako v kurzu edX Analytics Edge. Já jsem se rozhodl pro projekt How Much Did It Rain? II; v případě zájmu se můžete podívat na zápis mého projektu v mém repozitáři na GitHubu.
Tento kurz hodnotím trojkou. Byly v něm dobré informace a instruktor byl zajímavý, ale volba programu Weka mi vrtala hlavou a organizace kurzu byla trochu špatná (studenti byli často zmateni termíny odevzdání).
Shrnutí
Celkově dávám tomuto certifikačnímu programu známku B-.
Doporučil bych ho lidem, kteří se mohou zúčastnit osobně, lidem s dobrými technickými/matematickými/statistickými dovednostmi, kteří se s datovou vědou nesetkali, ale jsou opravdu zvědaví a chtějí se učit, a těm, kteří mají rádi velmi dobře strukturované studijní prostředí. Také bych ji doporučil, pokud máte zájem o rozšíření své profesní sítě podobně smýšlejících lidí (zejména v oblasti Seattlu). Slyšela jsem, že lidé v kurzech navazují kontakty a navzájem si pomáhají najít práci. Možná se to stalo v mé kohortě(?), ale jako online student to těžko poznáte.
Nedoporučuji, pokud jste absolvovali MOOC v oblasti datové vědy a/nebo strojového učení (Coursera, Udacity, edX atd.), nebo jste ochotni projít seznamem Open Source Data Science Masters, nebo pokud již delší dobu pracujete v oblasti datové vědy. Za mé peníze a můj čas byly kurzy na stránkách MOOC mnohem hodnotnější. Nečekejte, že dokončíte tyto tři kurzy a vyjdete z nich jako Data Scientist na druhé straně – tohle sotva poškrábe povrch (i když to může být dobrý začátek!).
.