Egy évvel ezelőtt kiestem Kanada egyik legjobb informatikai programjából. Elkezdtem létrehozni a saját adattudományi mesterképzésemet online források felhasználásával. Rájöttem, hogy az edX, a Coursera és az Udacity segítségével megtanulhatok mindent, amire szükségem van helyette. És gyorsabban, hatékonyabban és a költségek töredékéért tanulhatnék.
Már majdnem befejeztem. Sok adattudományhoz kapcsolódó tanfolyamot vettem fel, és még többnek a részeit hallgattam meg. Ismerem a lehetőségeket, és tudom, milyen készségekre van szükség az adatelemzői vagy adattudósi szerepre készülő tanulóknak. Néhány hónappal ezelőtt elkezdtem létrehozni egy áttekintésen alapuló útmutatót, amely az adattudományon belüli egyes témákhoz a legjobb tanfolyamokat ajánlja.
A sorozat első útmutatójában néhány kódolási tanfolyamot ajánlottam a kezdő adattudósok számára. Aztán következtek a statisztika és a valószínűségszámítás tanfolyamok.
Most pedig az adattudományba való bevezetés következik.
(Ne aggódj, ha nem vagy biztos benne, hogy egy adattudományba való bevezető tanfolyam mit tartalmaz. Hamarosan elmagyarázom.)
Ezzel az útmutatóval kapcsolatban több mint 10 órát töltöttem azzal, hogy megpróbáltam azonosítani minden online bevezető adattudományi tanfolyamot, amelyet 2017 januárjában kínáltak, a tantervekből és az értékelésekből kiemeltem a legfontosabb információkat, és összeállítottam az értékeléseiket. Ehhez a feladathoz nem máshoz fordultam, mint a nyílt forráskódú Class Central közösséghez és annak több ezer tanfolyam értékelését és véleményét tartalmazó adatbázisához.
A Class Central alapítója, Dhawal Shah 2011 óta jobban szemmel tartja az online tanfolyamokat, mint vitathatatlanul bárki más a világon. Dhawal személyesen segített összeállítani ezt a forráslistát.
Hogyan választottuk ki a figyelembe veendő tanfolyamokat
Minden tanfolyamnak három kritériumnak kell megfelelnie:
Meg kell tanítania az adattudomány folyamatát. Erről hamarosan bővebben.
Megrendelhetőnek kell lennie, vagy néhány havonta kell felajánlani.
Interaktív online kurzusnak kell lennie, tehát nem lehet könyv vagy csak olvasásra szánt oktatóanyag. Bár ezek is járható útjai a tanulásnak, ez az útmutató a tanfolyamokra összpontosít.
Úgy gondoljuk, hogy minden említésre méltó tanfolyamot lefedtünk, amely megfelel a fenti kritériumoknak. Mivel látszólag több száz tanfolyam van az Udemy-n, úgy döntöttünk, hogy csak a legjobban értékelt és legjobban minősítetteket vesszük figyelembe. Bár mindig van rá esély, hogy valamit kihagytunk. Ezért kérjük, ossza meg velünk a megjegyzés rovatban, ha kihagytunk egy jó tanfolyamot.
Hogyan értékeltük a tanfolyamokat
A Class Centralból és más véleményező oldalakról származó átlagos értékeléseket és az értékelések számát állítottuk össze, hogy kiszámítsuk az egyes tanfolyamok súlyozott átlagértékelését. Elolvastuk a szöveges értékeléseket, és ezeket a visszajelzéseket használtuk fel a numerikus értékelés kiegészítéseként.
Szubjektív tananyag-megítélést végeztünk két tényező alapján:
1. Az adattudományi folyamat lefedettsége. A kurzus átfésül vagy kihagy bizonyos témákat? Túlságosan részletesen tárgyal bizonyos témákat? Hogy ez a folyamat mivel jár, lásd a következő szakaszban.
2. Az általános adattudományi eszközök használata. A tanfolyam olyan népszerű programozási nyelveket használ, mint a Python és/vagy az R? Ezek nem szükségesek, de a legtöbb esetben hasznosak, ezért enyhe előnyben részesítjük ezeket a kurzusokat.
Mi az adattudomány folyamata?
Mi az adattudomány? Mit csinál egy adattudós? Ezek azok a típusú alapvető kérdések, amelyekre egy bevezető adattudományi kurzusnak választ kell adnia. A Harvard professzorok, Joe Blitzstein és Hanspeter Pfister alábbi infografikája egy tipikus adattudományi folyamatot vázol fel, amely segít megválaszolni ezeket a kérdéseket.
A bevezetés az adattudományba kurzus célja, hogy megismerjük az adattudományi folyamatot. Nem szeretnénk, ha túlságosan mélyrehatóan foglalkoznánk a folyamat egyes aspektusaival, ezért a cím “bevezetés” része.
Az ideális kurzus minden egyes aspektus esetében elmagyarázza a kulcsfogalmakat a folyamat keretein belül, bemutatja a gyakori eszközöket, és néhány (lehetőleg gyakorlatias) példát ad.
Csak bevezetést keresünk. Ez az útmutató ezért nem tartalmaz teljes szakirányokat vagy olyan programokat, mint a Johns Hopkins University’s Data Science Specialization on Coursera vagy az Udacity’s Data Analyst Nanodegree. Ezek a tanfolyam-összeállítások elkerülik e sorozat célját: megtalálni az egyes tantárgyakhoz tartozó legjobb egyedi tanfolyamokat, amelyekből egy adattudományi oktatás összeállítható. A cikksorozat utolsó három útmutatója részletesen foglalkozik majd az adattudományi folyamat minden egyes aspektusával.
Az alapfokú kódolási, statisztikai és valószínűségi tapasztalat szükséges
Az alább felsorolt tanfolyamok közül több is alapfokú programozási, statisztikai és valószínűségi tapasztalatot igényel. Ez a követelmény érthető, tekintettel arra, hogy az új tartalmak meglehetősen fejlettek, és hogy ezeknek a tárgyaknak gyakran több kurzus is foglalkozik.
Ez a tapasztalat megszerezhető az adattudományi karrierútmutató első két cikkében (programozás, statisztika) található ajánlásaink segítségével.
A mi választásunk a legjobb bevezető adattudományi kurzusra…
Adattudomány A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)
Kirill Eremenko Data Science A-Z™ című kurzusa az Udemy-n az adattudományi folyamatok lefedettségének szélessége és mélysége szempontjából egyértelmű győztes a több mint 20 minősített kurzus közül. A 3071 értékelés alapján 4,5 csillaggal súlyozott átlagértékeléssel rendelkezik, amivel a figyelembe vett tanfolyamok közül a legmagasabb értékeléssel és a legtöbb értékeléssel rendelkező tanfolyamok közé tartozik.
A teljes folyamatot felvázolja, és valós példákkal szolgál. A 21 órás tartalom megfelelő hosszúságú. Az értékelőknek tetszik az oktató előadásmódja és a tartalom szervezése. Az ár az Udemy-kedvezmények függvényében változik, amelyek gyakoriak, így akár már 10 dollárért is megvásárolhatja a hozzáférést.
Noha nem pipálja ki a “gyakori adattudományi eszközök használata” dobozunkat, a nem python/R eszközválasztékot (gretl, Tableau, Excel) hatékonyan használja a kontextusban. Eremenko a következőket említi a gretl választás magyarázatakor (a gretl egy statisztikai szoftvercsomag), bár ez az összes általa használt eszközre vonatkozik (kiemelés tőlem):
A gretl-ben ugyanolyan modellezést tudunk majd végezni, mint az R-ben és a Pythonban, de nem kell kódolnunk. Ez itt a nagy dolog. Lehet, hogy néhányan már nagyon jól ismerik az R-t, de lehet, hogy néhányan egyáltalán nem ismerik. A célom az, hogy megmutassam, hogyan lehet robusztus modellt építeni, és olyan keretrendszert adjak, amelyet bármelyik eszközben alkalmazhatsz. gretl segít elkerülni, hogy elakadjunk a kódolásban.
Egy neves kritikus a következőket jegyezte meg:
Kirill a legjobb tanár, akit az interneten találtam. Valós példákat használ, és elmagyarázza a gyakori problémákat, így mélyebben megérted a tananyagot. Sok betekintést nyújt abba is, hogy mit jelent adattudósnak lenni, az elégtelen adatokkal való munkától kezdve egészen a munkád C-kategóriás vezetőségnek való bemutatásáig. Nagyon ajánlom ezt a kurzust a kezdő diákoktól a középhaladó adatelemzőkig!
Egy nagyszerű Python-fókuszú bevezetés
Intro to Data Analysis (Udacity)
Az Udacity Intro to Data Analysis egy viszonylag új ajánlat, amely a Udacity népszerű Data Analyst Nanodegree-jének része. Az adattudományi folyamatot Python segítségével világosan és koherens módon fedi le, bár a modellezési aspektusban egy kicsit hiányzik. A becsült időbeosztás 36 óra (heti hat óra hat héten keresztül), bár tapasztalatom szerint rövidebb. Két vélemény alapján 5 csillagos súlyozott átlagértékeléssel rendelkezik. Ingyenes.
A videók jól elkészítettek, és az oktató (Caroline Buckey) világos és személyre szabott. Rengeteg programozási kvíz erősíti a videókon tanult fogalmakat. A hallgatók magabiztosan hagyják el a tanfolyamot az új és/vagy továbbfejlesztett NumPy és Pandas ismereteik birtokában (ezek népszerű Python könyvtárak). A záró projekt – amelyet a nanodiplomában osztályoznak és véleményeznek, de az ingyenes egyéni kurzusban nem – szépen kiegészítheti a portfóliót.