by David Venturi

Egy évvel ezelőtt kiestem Kanada egyik legjobb informatikai programjából. Elkezdtem létrehozni a saját adattudományi mesterképzésemet online források felhasználásával. Rájöttem, hogy az edX, a Coursera és az Udacity segítségével megtanulhatok mindent, amire szükségem van helyette. És gyorsabban, hatékonyabban és a költségek töredékéért tanulhatnék.

Már majdnem befejeztem. Sok adattudományhoz kapcsolódó tanfolyamot vettem fel, és még többnek a részeit hallgattam meg. Ismerem a lehetőségeket, és tudom, milyen készségekre van szükség az adatelemzői vagy adattudósi szerepre készülő tanulóknak. Néhány hónappal ezelőtt elkezdtem létrehozni egy áttekintésen alapuló útmutatót, amely az adattudományon belüli egyes témákhoz a legjobb tanfolyamokat ajánlja.

A sorozat első útmutatójában néhány kódolási tanfolyamot ajánlottam a kezdő adattudósok számára. Aztán következtek a statisztika és a valószínűségszámítás tanfolyamok.

Most pedig az adattudományba való bevezetés következik.

(Ne aggódj, ha nem vagy biztos benne, hogy egy adattudományba való bevezető tanfolyam mit tartalmaz. Hamarosan elmagyarázom.)

Ezzel az útmutatóval kapcsolatban több mint 10 órát töltöttem azzal, hogy megpróbáltam azonosítani minden online bevezető adattudományi tanfolyamot, amelyet 2017 januárjában kínáltak, a tantervekből és az értékelésekből kiemeltem a legfontosabb információkat, és összeállítottam az értékeléseiket. Ehhez a feladathoz nem máshoz fordultam, mint a nyílt forráskódú Class Central közösséghez és annak több ezer tanfolyam értékelését és véleményét tartalmazó adatbázisához.

A Class Central honlapja.

A Class Central alapítója, Dhawal Shah 2011 óta jobban szemmel tartja az online tanfolyamokat, mint vitathatatlanul bárki más a világon. Dhawal személyesen segített összeállítani ezt a forráslistát.

Hogyan választottuk ki a figyelembe veendő tanfolyamokat

Minden tanfolyamnak három kritériumnak kell megfelelnie:

  1. Meg kell tanítania az adattudomány folyamatát. Erről hamarosan bővebben.
  2. Megrendelhetőnek kell lennie, vagy néhány havonta kell felajánlani.
  3. Interaktív online kurzusnak kell lennie, tehát nem lehet könyv vagy csak olvasásra szánt oktatóanyag. Bár ezek is járható útjai a tanulásnak, ez az útmutató a tanfolyamokra összpontosít.

Úgy gondoljuk, hogy minden említésre méltó tanfolyamot lefedtünk, amely megfelel a fenti kritériumoknak. Mivel látszólag több száz tanfolyam van az Udemy-n, úgy döntöttünk, hogy csak a legjobban értékelt és legjobban minősítetteket vesszük figyelembe. Bár mindig van rá esély, hogy valamit kihagytunk. Ezért kérjük, ossza meg velünk a megjegyzés rovatban, ha kihagytunk egy jó tanfolyamot.

Hogyan értékeltük a tanfolyamokat

A Class Centralból és más véleményező oldalakról származó átlagos értékeléseket és az értékelések számát állítottuk össze, hogy kiszámítsuk az egyes tanfolyamok súlyozott átlagértékelését. Elolvastuk a szöveges értékeléseket, és ezeket a visszajelzéseket használtuk fel a numerikus értékelés kiegészítéseként.

Szubjektív tananyag-megítélést végeztünk két tényező alapján:

1. Az adattudományi folyamat lefedettsége. A kurzus átfésül vagy kihagy bizonyos témákat? Túlságosan részletesen tárgyal bizonyos témákat? Hogy ez a folyamat mivel jár, lásd a következő szakaszban.

2. Az általános adattudományi eszközök használata. A tanfolyam olyan népszerű programozási nyelveket használ, mint a Python és/vagy az R? Ezek nem szükségesek, de a legtöbb esetben hasznosak, ezért enyhe előnyben részesítjük ezeket a kurzusokat.

A Python és az R az adattudományban használt két legnépszerűbb programozási nyelv.

Mi az adattudomány folyamata?

Mi az adattudomány? Mit csinál egy adattudós? Ezek azok a típusú alapvető kérdések, amelyekre egy bevezető adattudományi kurzusnak választ kell adnia. A Harvard professzorok, Joe Blitzstein és Hanspeter Pfister alábbi infografikája egy tipikus adattudományi folyamatot vázol fel, amely segít megválaszolni ezeket a kérdéseket.

Vizualizáció az Opera Solutions-től.

A bevezetés az adattudományba kurzus célja, hogy megismerjük az adattudományi folyamatot. Nem szeretnénk, ha túlságosan mélyrehatóan foglalkoznánk a folyamat egyes aspektusaival, ezért a cím “bevezetés” része.

Az ideális kurzus minden egyes aspektus esetében elmagyarázza a kulcsfogalmakat a folyamat keretein belül, bemutatja a gyakori eszközöket, és néhány (lehetőleg gyakorlatias) példát ad.

Csak bevezetést keresünk. Ez az útmutató ezért nem tartalmaz teljes szakirányokat vagy olyan programokat, mint a Johns Hopkins University’s Data Science Specialization on Coursera vagy az Udacity’s Data Analyst Nanodegree. Ezek a tanfolyam-összeállítások elkerülik e sorozat célját: megtalálni az egyes tantárgyakhoz tartozó legjobb egyedi tanfolyamokat, amelyekből egy adattudományi oktatás összeállítható. A cikksorozat utolsó három útmutatója részletesen foglalkozik majd az adattudományi folyamat minden egyes aspektusával.

Az alapfokú kódolási, statisztikai és valószínűségi tapasztalat szükséges

Az alább felsorolt tanfolyamok közül több is alapfokú programozási, statisztikai és valószínűségi tapasztalatot igényel. Ez a követelmény érthető, tekintettel arra, hogy az új tartalmak meglehetősen fejlettek, és hogy ezeknek a tárgyaknak gyakran több kurzus is foglalkozik.

Ez a tapasztalat megszerezhető az adattudományi karrierútmutató első két cikkében (programozás, statisztika) található ajánlásaink segítségével.

A mi választásunk a legjobb bevezető adattudományi kurzusra…

  • Adattudomány A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)

Kirill Eremenko Data Science A-Z™ című kurzusa az Udemy-n az adattudományi folyamatok lefedettségének szélessége és mélysége szempontjából egyértelmű győztes a több mint 20 minősített kurzus közül. A 3071 értékelés alapján 4,5 csillaggal súlyozott átlagértékeléssel rendelkezik, amivel a figyelembe vett tanfolyamok közül a legmagasabb értékeléssel és a legtöbb értékeléssel rendelkező tanfolyamok közé tartozik.

A teljes folyamatot felvázolja, és valós példákkal szolgál. A 21 órás tartalom megfelelő hosszúságú. Az értékelőknek tetszik az oktató előadásmódja és a tartalom szervezése. Az ár az Udemy-kedvezmények függvényében változik, amelyek gyakoriak, így akár már 10 dollárért is megvásárolhatja a hozzáférést.

Noha nem pipálja ki a “gyakori adattudományi eszközök használata” dobozunkat, a nem python/R eszközválasztékot (gretl, Tableau, Excel) hatékonyan használja a kontextusban. Eremenko a következőket említi a gretl választás magyarázatakor (a gretl egy statisztikai szoftvercsomag), bár ez az összes általa használt eszközre vonatkozik (kiemelés tőlem):

A gretl-ben ugyanolyan modellezést tudunk majd végezni, mint az R-ben és a Pythonban, de nem kell kódolnunk. Ez itt a nagy dolog. Lehet, hogy néhányan már nagyon jól ismerik az R-t, de lehet, hogy néhányan egyáltalán nem ismerik. A célom az, hogy megmutassam, hogyan lehet robusztus modellt építeni, és olyan keretrendszert adjak, amelyet bármelyik eszközben alkalmazhatsz. gretl segít elkerülni, hogy elakadjunk a kódolásban.

Egy neves kritikus a következőket jegyezte meg:

Kirill a legjobb tanár, akit az interneten találtam. Valós példákat használ, és elmagyarázza a gyakori problémákat, így mélyebben megérted a tananyagot. Sok betekintést nyújt abba is, hogy mit jelent adattudósnak lenni, az elégtelen adatokkal való munkától kezdve egészen a munkád C-kategóriás vezetőségnek való bemutatásáig. Nagyon ajánlom ezt a kurzust a kezdő diákoktól a középhaladó adatelemzőkig!

Egy nagyszerű Python-fókuszú bevezetés

  • Intro to Data Analysis (Udacity)

Az Udacity Intro to Data Analysis egy viszonylag új ajánlat, amely a Udacity népszerű Data Analyst Nanodegree-jének része. Az adattudományi folyamatot Python segítségével világosan és koherens módon fedi le, bár a modellezési aspektusban egy kicsit hiányzik. A becsült időbeosztás 36 óra (heti hat óra hat héten keresztül), bár tapasztalatom szerint rövidebb. Két vélemény alapján 5 csillagos súlyozott átlagértékeléssel rendelkezik. Ingyenes.

A videók jól elkészítettek, és az oktató (Caroline Buckey) világos és személyre szabott. Rengeteg programozási kvíz erősíti a videókon tanult fogalmakat. A hallgatók magabiztosan hagyják el a tanfolyamot az új és/vagy továbbfejlesztett NumPy és Pandas ismereteik birtokában (ezek népszerű Python könyvtárak). A záró projekt – amelyet a nanodiplomában osztályoznak és véleményeznek, de az ingyenes egyéni kurzusban nem – szépen kiegészítheti a portfóliót.

Egy lenyűgöző ajánlat, amely nem tartalmaz véleményezési adatokat

  • Data Science Fundamentals (Big Data University)

Az IBM Big Data University által biztosított négy tanfolyamból álló sorozat, a Data Science Fundamentals. Tartalmazza az Adattudomány 101, az Adattudomány módszertana, az Adattudomány gyakorlati alkalmazása nyílt forráskódú eszközökkel és az R 101 című kurzusokat.

A teljes adattudományi folyamatot lefedi, és bemutatja a Pythont, az R-t és számos más nyílt forráskódú eszközt. A kurzusok óriási termelési értékkel rendelkeznek. Becslések szerint 13-18 óra ráfordítással jár, attól függően, hogy a végén részt vesz-e az “R 101” kurzuson, ami az útmutató céljaira nem szükséges. Sajnos nincsenek értékelési adatai a főbb értékelő oldalakon, amelyeket ehhez az elemzéshez használtunk, így egyelőre nem tudjuk ajánlani a fenti két lehetőséggel szemben. Ingyenes.

A konkurencia

Az első számú választásunk az 5 csillagból 4,5 súlyozott átlagértékelést kapott 3068 értékelés alapján. Nézzük a többi alternatívát, csökkenő értékelés szerint rendezve. Az alábbiakban több R-fókuszú tanfolyamot találsz, ha az adott nyelvbe való bevezetést tűzted ki célul.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Teljes folyamatlefedettség eszközsúlyos fókusszal (Python). Kevésbé folyamatközpontú és inkább egy nagyon részletes bevezetés a Pythonba. Csodálatos tanfolyam, bár nem ideális ennek az útmutatónak a terjedelméhez. Ez, akárcsak Jose alábbi R kurzusa, egyszerre szolgálhat bevezetésként a Python/R-be és bevezetésként az adattudományba. 21,5 órányi tartalom. 1644 értékelés alapján 4,7 csillaggal súlyozott átlagértékeléssel rendelkezik. A költségek az Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
  • Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Teljes folyamatlefedettség eszközsúlyos fókusszal (R). Kevésbé folyamatközpontú és inkább egy nagyon részletes bevezetés az R-be. Csodálatos tanfolyam, bár nem ideális ennek az útmutatónak a terjedelméhez. Ez, akárcsak Jose fenti Python kurzusa, egyszerre szolgálhat bevezetésként a Python/R-be és bevezetésként az adattudományba. 18 órányi tartalom. 847 értékelés alapján 4,6 csillaggal súlyozott átlagértékeléssel rendelkezik. A költségek az Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
Jose Portillának két adattudományi és gépi tanulási bootcampje van a Udemy-n: egy Pythonhoz és egy R-hez.
  • Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Részleges folyamatlefedettség. A statisztikára és a gépi tanulásra összpontosít. Tisztességes hosszúság (kilenc óra tartalom). Pythont használ. A 3,104 értékelés alapján 4,5 csillagos súlyozott átlagértékeléssel rendelkezik. A költségek az Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
  • Bevezetés az adattudományba (Data Hawk Tech/Udemy): Teljes folyamatlefedettség, bár korlátozott mélységű lefedettség. Elég rövid (három óra tartalom). Röviden kitér mind az R-re, mind a Pythonra. 62 értékelés alapján 4,4 csillagos súlyozott átlagértékeléssel rendelkezik. A költségek a Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
  • Alkalmazott adattudomány: An Introduction (Syracuse University/Open Education by Blackboard): Teljes folyamatlefedettség, bár nem egyenletesen elosztva. Erősen összpontosít az alapvető statisztikákra és az R-re. Túlságosan alkalmazott és nem eléggé folyamatközpontú ennek az útmutatónak a céljára. Az online tanfolyam tapasztalata széttagoltnak tűnik. 6 értékelés alapján 4,33 csillaggal súlyozott átlagértékeléssel rendelkezik. Ingyenes.
  • Introduction To Data Science (Nina Zumel & John Mount/Udemy): Csak részleges folyamatlefedettség, bár jó mélységű az adatelőkészítési és modellezési aspektusokban. Rendben van a hossza (hat óra tartalom). R-t használ. 101 értékelés alapján 4,3 csillagos súlyozott átlagértékeléssel rendelkezik. A költségek az Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
  • Applied Data Science with Python (V2 Maestros/Udemy): Teljes folyamatlefedettség, jó mélységű lefedettséggel a folyamat minden egyes aspektusára vonatkozóan. Tisztességes hosszúság (8,5 óra tartalom). Pythont használ. 92 értékelés alapján 4,3 csillagos súlyozott átlagértékeléssel rendelkezik. A költségek a Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
V2 Maestros “Alkalmazott adattudomány” tanfolyamának két változata van: egy Pythonra és egy R-re.
  • Adattudós szeretne lenni? (V2 Maestros/Udemy): Teljes folyamatlefedettség, bár korlátozott mélységű lefedettség. Elég rövid (3 óra tartalom). Korlátozott eszközlefedettség. A 790 értékelés alapján 4,3 csillagos súlyozott átlagértékeléssel rendelkezik. A költségek az Udemy-kedvezmények függvényében változnak, amelyek gyakoriak.
  • Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): A lefedettség szélessége nem egyértelmű. Azt állítja, hogy az adatok feltárására, felfedezésére és vizualizálására összpontosít. Igény szerint nem kínálják. 24 óra tartalom (heti három óra nyolc héten keresztül). 2 értékelés alapján 4 csillaggal súlyozott átlagértékeléssel rendelkezik. Ingyenes, fizetős tanúsítvánnyal elérhető.
  • Data Science Orientation (Microsoft/edX): Részleges folyamatlefedettség (hiányzik a modellezési szempont). Excel-t használ, aminek értelme van, mivel ez egy Microsoft márkájú tanfolyam. 12-24 óra tartalom (heti két-négy óra hat héten keresztül). 40 értékelés alapján 3,95 csillaggal súlyozott átlagértékeléssel rendelkezik. Ingyenes, az ellenőrzött tanúsítvány 25 dollárért kapható.
  • Data Science Essentials (Microsoft/edX): Teljes folyamatlefedettség, jó mélységű lefedettséggel az egyes szempontok tekintetében. Lefedi az R-t, a Pythont és az Azure ML-t (a Microsoft gépi tanulási platformja). Több 1 csillagos értékelés az eszközválasztásra (Azure ML) és az oktató gyenge előadásmódjára hivatkozva. 18-24 óra tartalom (heti három-négy óra hat héten keresztül). A 67 értékelés alapján 3,81 csillaggal súlyozott átlagértékeléssel rendelkezik. Ingyenes, az ellenőrzött tanúsítvány 49 dollárért kapható.
A fenti két kurzus a Microsoft Professional Program Certificate in Data Science on edX című programjából származik.
  • Applied Data Science with R (V2 Maestros/Udemy): A V2 Maestros fenti Python kurzusának R-es kísérője. Teljes folyamatlefedettség, jó mélységű lefedettséggel a folyamat egyes aspektusaihoz. Tisztességes hosszúság (11 óra tartalom). R-t használ. 212 értékelés alapján 3,8 csillaggal súlyozott átlagértékeléssel rendelkezik. A költségek az Udemy kedvezmények függvényében változnak, amelyek gyakoriak.
  • Intro to Data Science (Udacity): Részleges folyamatlefedettség, bár a tárgyalt témákhoz képest jó mélységű. Hiányzik a feltárási aspektus, bár az Udacitynek van egy nagyszerű, teljes kurzusa a feltáró adatelemzésről (EDA). Állítása szerint 48 órás (heti hat óra nyolc héten keresztül), de tapasztalatom szerint rövidebb. Egyes vélemények szerint hiányzik a haladó tartalom felépítése. Szervezetlennek tűnik. Pythont használ. Van egy 3.61 csillag súlyozott átlagértékelés 18 értékelés alapján. Ingyenes.
  • Introduction to Data Science in Python (University of Michigan/Coursera): Részleges folyamatlefedettség. Nincs modellezés és vizualizáció, bár az Applied Data Science with Python Specialization #2 és #3 kurzusai lefedik ezeket a szempontokat. Mindhárom kurzus elvégzése túlságosan mélyreható lenne ezen útmutatók céljaira. Pythont használ. Négy hétig tart. 15 értékelés alapján 3,6 csillaggal súlyozott átlagértékeléssel rendelkezik. Ingyenes és fizetős lehetőségek is elérhetőek.
A Michigani Egyetem a Courserán oktatja az Alkalmazott adattudomány Pythonnal specializációt.
  • Adatvezérelt döntéshozatal (PwC/Coursera): Részleges lefedettség (hiányzik a modellezés) üzleti fókusszal. Számos eszközt mutat be, többek között az R, Python, Excel, SAS és Tableau. Négy hétig tart. 2 értékelés alapján 3,5 csillagos súlyozott átlagértékelést kapott. Ingyenes és fizetős lehetőségek állnak rendelkezésre.
  • A Crash Course in Data Science (Johns Hopkins University/Coursera): Rendkívül rövid áttekintés a teljes folyamatról. Túl rövid e sorozat céljaira. Két óra hosszúságú. 19 értékelés alapján 3,4 csillagos súlyozott átlagértékeléssel rendelkezik. Ingyenes és fizetős lehetőségek is elérhetőek.
  • The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Rendkívül rövid áttekintés a teljes folyamatról. Inkább a Johns Hopkins Egyetem adattudományi specializációjának előkészítő kurzusa. Állítása szerint 4-16 órányi tartalmat tartalmaz (heti egy-négy óra négy héten keresztül), bár egy véleményező megjegyezte, hogy két óra alatt is elvégezhető. A 182 értékelés alapján 3,22 csillaggal súlyozott átlagértékeléssel rendelkezik. Ingyenes és fizetős lehetőségek állnak rendelkezésre.
  • Data Management and Visualization (Wesleyan University/Coursera): Részleges folyamatlefedettség (hiányzik a modellezés). Négy hét hosszúságú. Jó termelési érték. Pythont és SAS-t használ. 6 értékelés alapján 2,67 csillagos súlyozott átlagértékeléssel rendelkezik. Ingyenes és fizetős lehetőségek is elérhetőek.

A következő kurzusoknak 2017 januárjában nem volt értékelése.

  • CS109 Data Science (Harvard University): Teljes folyamatlefedettség nagy mélységben (valószínűleg túlságosan is mélyreható e sorozat céljaira). Teljes 12 hetes alapképzési kurzus. A kurzus navigációja nehézkes, mivel a kurzust nem online fogyasztásra tervezték. A tényleges Harvard előadások filmre vannak véve. A fenti adattudományi folyamat-infografika ebből a kurzusból származik. Pythont használ. Nincsenek felülvizsgálati adatok. Ingyenes.
A Harvard CS109 honlapjának kiemelt vizsga.
  • Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Részleges folyamatlefedettség (hiányoznak a modellezési és vizualizációs szempontok), az üzleti életre összpontosítva. Az adattudományi folyamatot “információ-cselekvés értékláncnak” álcázzák az előadásaikban. Négy hét hosszúságú. Számos eszközt ismertet, bár csak az SQL-t tárgyalja mélységében. Nincs áttekintés az adatokról. Ingyenes és fizetős lehetőségek is elérhetőek.
  • Bevezetés az adattudományba (Lynda): Teljes folyamatlefedettség, bár korlátozott mélységű lefedettség. Elég rövid (három órányi tartalom). Bevezeti mind az R-t, mind a Pythont. Nincs áttekintő adat. A költség a Lynda előfizetéstől függ.

Wrapping it Up

Ez a harmadik része egy hatrészes sorozatnak, amely a legjobb online tanfolyamokkal foglalkozik az adattudomány területén való elinduláshoz. Az első cikkben a programozással, a másodikban pedig a statisztikával és a valószínűségszámítással foglalkoztunk. A sorozat hátralévő részében más adattudományi alapkompetenciákkal foglalkozunk: az adatvizualizációval és a gépi tanulással.

Ha adattudományt akarsz tanulni, kezdd ezek közül a programozási tanfolyamok közül

Ha adattudományt akarsz tanulni, vegyél fel néhányat ezek közül a statisztikai tanfolyamok közül

A sorozat utolsó darabja ezeknek a cikkeknek az összefoglalása lesz, valamint a legjobb online tanfolyamok más kulcsfontosságú témákhoz, például az adatkezeléshez, az adatbázisokhoz és még a szoftverfejlesztéshez is.

Ha az adattudományi online tanfolyamok teljes listáját keresed, megtalálod őket a Class Central Adattudomány és Big Data témaoldalán.

Ha élvezted ezt az olvasmányt, nézd meg a Class Central más darabjait is:

Itt van 250 Ivy League kurzus, amit most ingyen elvégezhetsz online
250 MOOC a Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton és Yale egyetemektől.

Az 50 legjobb ingyenes online egyetemi kurzus az adatok szerint
Amikor 2011 novemberében elindítottam a Class Central-t, körülbelül 18 ingyenes online kurzus volt, és szinte mindegyik…

Ha van javaslatod olyan kurzusokra, amelyeket kihagytam, írd meg a válaszok között!

Ha hasznosnak találtad ezt a cikket, kattints a ? gombra, hogy többen lássák itt a Mediumon.

Ez a Class Centralon megjelent eredeti cikkem tömörített változata, amelyben további kurzusleírásokat, tananyagokat és több véleményt is közöltem.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.