od David Venturi

Před rokem jsem opustil jeden z nejlepších programů počítačové vědy v Kanadě. Začal jsem si vytvářet vlastní magisterský program datové vědy s využitím online zdrojů. Uvědomil jsem si, že místo toho se mohu vše potřebné naučit prostřednictvím edX, Coursera a Udacity. A mohl jsem se to naučit rychleji, efektivněji a za zlomek ceny.

Teď už jsem skoro hotový. Absolvoval jsem mnoho kurzů souvisejících s datovou vědou a auditoval části mnoha dalších. Vím, jaké jsou možnosti a jaké dovednosti potřebují studenti připravující se na pozici datového analytika nebo datového vědce. Před několika měsíci jsem začal vytvářet přehledového průvodce, který doporučuje nejlepší kurzy pro jednotlivé předměty v rámci datové vědy.

V prvním průvodci z této série jsem doporučil několik kurzů kódování pro začínající datové vědce. Pak to byly kurzy statistiky a pravděpodobnosti.

Teď k úvodům do datové vědy.

(Nebojte se, pokud si nejste jisti, co kurz úvodu do datové vědy obnáší. Brzy vám to vysvětlím.“

Pro tohoto průvodce jsem strávil více než 10 hodin tím, že jsem se snažil identifikovat všechny online kurzy úvodu do datové vědy nabízené k lednu 2017, vyextrahoval jsem klíčové informace z jejich sylabů a recenzí a sestavil jejich hodnocení. Pro tento úkol jsem se neobrátil na nikoho jiného než na open source komunitu Class Central a její databázi tisíců hodnocení a recenzí kurzů.

Hlavní stránka Class Central.

Od roku 2011 sleduje zakladatel Class Central Dhawal Shah online kurzy blíže než pravděpodobně kdokoli jiný na světě. Dhawal mi osobně pomohl sestavit tento seznam zdrojů.

Jak jsme vybírali kurzy, které připadají v úvahu

Každý kurz musí splňovat tři kritéria:

  1. Musí vyučovat proces datové vědy. O tom více brzy.
  2. Musí být na vyžádání nebo nabízen každých několik měsíců.
  3. Musí se jednat o interaktivní online kurz, takže žádné knihy nebo výukové programy pouze ke čtení. I když i to jsou schůdné způsoby učení, tento průvodce se zaměřuje na kurzy.

Myslíme si, že jsme pokryli všechny významné kurzy, které splňují výše uvedená kritéria. Vzhledem k tomu, že na Udemy existují zdánlivě stovky kurzů, rozhodli jsme se vzít v úvahu pouze ty nejrecenzovanější a nejlépe hodnocené. Vždy však existuje možnost, že jsme něco vynechali. Dejte nám proto prosím vědět v komentářích, pokud jsme nějaký dobrý kurz vynechali.

Jak jsme kurzy hodnotili

Zpracovali jsme průměrné hodnocení a počet recenzí z Class Central a dalších recenzních webů, abychom vypočítali vážený průměr hodnocení každého kurzu. Přečetli jsme si textové recenze a použili tuto zpětnou vazbu k doplnění číselného hodnocení.

Subjektivně jsme posuzovali učební plány na základě dvou faktorů:

1. Pokrytí procesu datové vědy. Překračuje kurz některá témata nebo je přeskakuje? Pokrývá některá témata příliš podrobně? Co tento proces obnáší, najdete v následující části.

2. Používání běžných nástrojů datové vědy. Je kurz vyučován s využitím populárních programovacích jazyků, jako je Python a/nebo R? Nejsou nezbytné, ale ve většině případů jsou užitečné, takže mírně upřednostňujeme tyto kurzy.

Python a R jsou dva nejoblíbenější programovací jazyky používané v datové vědě.

Jaký je proces datové vědy?

Co je datová věda? Co dělá datový vědec? To jsou typy základních otázek, na které by měl odpovědět kurz úvodu do datové vědy. Následující infografika od harvardských profesorů Joea Blitzsteina a Hanspetera Pfistera nastiňuje typický proces datové vědy, který nám pomůže tyto otázky zodpovědět.

Vizualizace od Opera Solutions.

Naším cílem v tomto úvodním kurzu do datové vědy je seznámit se s procesem datové vědy. Nechceme příliš hluboké pokrytí konkrétních aspektů procesu, proto je v názvu část „úvod do“.

Pro každý aspekt je ideální kurz, který vysvětlí klíčové pojmy v rámci procesu, představí běžné nástroje a poskytne několik příkladů (nejlépe praktických).

Hledáme pouze úvod. Tento průvodce proto nebude zahrnovat úplné specializace nebo programy, jako je například specializace Data Science Univerzity Johnse Hopkinse na portálu Coursera nebo nanostupeň Data Analyst společnosti Udacity. Tyto kompilace kurzů se vymykají účelu tohoto seriálu: najít nejlepší jednotlivé kurzy pro každý předmět, z nichž se skládá vzdělání v oblasti datové vědy. Poslední tři průvodci v této sérii článků se budou podrobně zabývat každým aspektem procesu datové vědy.

Potřebné základní zkušenosti s programováním, statistikou a pravděpodobností

Několik níže uvedených kurzů vyžaduje základní zkušenosti s programováním, statistikou a pravděpodobností. Tento požadavek je pochopitelný vzhledem k tomu, že nový obsah je poměrně pokročilý a že těmto předmětům je často věnováno několik kurzů.

Tyto zkušenosti lze získat díky našim doporučením v prvních dvou článcích (programování, statistika) v tomto Průvodci kariérou v datové vědě.

Náš výběr nejlepšího kurzu úvodu do datové vědy je…

  • Data Science A-Z™: (Kirill Eremenko/Udemy)

Kurz Data Science A-Z™ od Kirilla Eremenka na serveru Udemy je jasným vítězem z hlediska šíře a hloubky pokrytí procesu datové vědy z více než 20 kvalifikovaných kurzů. Má vážené průměrné hodnocení 4,5 hvězdičky na 3 071 recenzích, což jej řadí mezi nejlépe hodnocené a nejlépe hodnocené kurzy ze všech posuzovaných.

Popisuje celý proces a poskytuje příklady z reálného života. S 21 hodinami obsahu je jeho délka přiměřená. Recenzentům se líbí přednes instruktora a organizace obsahu. Cena se liší v závislosti na slevách Udemy, které jsou časté, takže si možná budete moci zakoupit přístup za pouhých 10 dolarů.

Ačkoli nezaškrtává naši kolonku „použití běžných nástrojů datové vědy“, vybrané nástroje mimo Python/R (gretl, Tableau, Excel) jsou v kontextu použity efektivně. Eremenko při vysvětlování volby gretlu (gretl je statistický softwarový balík) zmiňuje následující, i když to platí pro všechny nástroje, které používá (zvýraznění je moje):

V gretlu budeme moci provádět stejné modelování jako v R a Pythonu, ale nebudeme muset programovat. A o to tady jde především. Někteří z vás už možná znají R velmi dobře, ale někteří ho možná neznají vůbec. Mým cílem je ukázat vám, jak vytvořit robustní model, a dát vám rámec, který můžete použít v jakémkoli nástroji, který si vyberete. gretl nám pomůže vyhnout se tomu, abychom zabředli do kódování.

Jeden významný recenzent poznamenal následující:

Kirill je nejlepší učitel, kterého jsem našel na internetu. Používá příklady z reálného života a vysvětluje běžné problémy, takže hlouběji pochopíte učivo. Poskytuje také spoustu informací o tom, co znamená být datovým vědcem, od práce s nedostatečnými daty až po prezentaci své práce před vedením třídy C. Vřele doporučuji tento kurz pro začínající studenty až po středně pokročilé datové analytiky!

Skvělý úvod zaměřený na Python

  • Intro to Data Analysis (Udacity)

Udacity Intro to Data Analysis je relativně nová nabídka, která je součástí populárního nanostupně Data Analyst společnosti Udacity. Přehledně a uceleně pokrývá proces datové vědy s využitím jazyka Python, i když trochu postrádá aspekt modelování. Odhadovaný časový rozsah je 36 hodin (šest hodin týdně po dobu šesti týdnů), i když podle mých zkušeností je kratší. Má pětihvězdičkové vážené průměrné hodnocení ve dvou recenzích. Je zdarma.

Videa jsou dobře zpracovaná a instruktorka (Caroline Buckey) je srozumitelná a osobitá. Spousta programovacích kvízů vynucuje koncepty naučené ve videích. Studenti budou z kurzu odcházet s jistotou nových a/nebo zdokonalených dovedností v NumPy a Pandas (jedná se o populární knihovny Pythonu). Závěrečný projekt – který je hodnocen a přezkoumáván v rámci Nanodegree, ale ne v rámci bezplatného individuálního kurzu – může být pěkným doplňkem portfolia.

Působivá nabídka bez recenzních dat

  • Data Science Fundamentals (Big Data University)

Data Science Fundamentals je série čtyř kurzů poskytovaných společností IBM Big Data University. Zahrnuje kurzy s názvy Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools a R 101.

Pokrývá celý proces datové vědy a představuje Python, R a několik dalších open-source nástrojů. Kurzy mají obrovskou produkční hodnotu. Odhaduje se 13-18 hodin úsilí v závislosti na tom, zda na konci absolvujete kurz „R 101“, který pro účely této příručky není nutný. Bohužel nemá žádné údaje o recenzích na hlavních recenzních webech, které jsme použili pro tuto analýzu, takže jej zatím nemůžeme doporučit oproti dvěma výše uvedeným možnostem. Je zdarma.

Konkurence

Náš výběr č. 1 měl vážený průměr hodnocení 4,5 z 5 hvězdiček na základě 3068 recenzí. Podívejme se na další alternativy seřazené podle klesajícího hodnocení. Níže najdete několik kurzů zaměřených na jazyk R, pokud jste se rozhodli pro úvod do tohoto jazyka.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Kompletní pokrytí procesů s velkým zaměřením na nástroje (Python). Méně zaměřené na procesy a spíše velmi podrobný úvod do Pythonu. Úžasný kurz, i když pro rozsah tohoto průvodce není ideální. Stejně jako níže uvedený kurz R od Josého se může zdvojnásobit jako úvod do Pythonu/R i úvod do datové vědy. Obsah 21,5 hodiny. Má 4,7 hvězdiček váženého průměrného hodnocení přes 1 644 recenzí. Cena se liší v závislosti na slevách Udemy, které jsou časté.
  • Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Úplné pokrytí procesů se zaměřením na nástroje (R). Méně zaměřený na procesy a spíše velmi podrobný úvod do R. Úžasný kurz, i když není ideální pro rozsah tohoto průvodce. Stejně jako výše uvedený kurz Pythonu od Josého se může zdvojnásobit jako úvod do Pythonu/R i úvod do datové vědy. Obsahuje 18 hodin. Má 4,6hvězdičkové vážené průměrné hodnocení v 847 recenzích. Cena se liší v závislosti na slevách Udemy, které jsou časté.
Jose Portilla má na Udemy dva bootcampy pro datovou vědu a strojové učení: jeden pro Python a druhý pro R.
  • Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Částečné pokrytí procesu. Zaměřuje se na statistiku a strojové učení. Slušná délka (devět hodin obsahu). Používá Python. Má 4,5hvězdičkové vážené průměrné hodnocení na 3 104 recenzích. Cena se liší v závislosti na slevách Udemy, které jsou časté.
  • Introduction to Data Science (Data Hawk Tech/Udemy): Plné pokrytí procesů, i když omezená hloubka pokrytí. Poměrně krátké (tři hodiny obsahu). Stručně pokrývá R i Python. Má 4,4hvězdičkové vážené průměrné hodnocení na základě 62 recenzí. Cena se liší v závislosti na slevách Udemy, které jsou časté.
  • Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Plné pokrytí procesu, i když nerovnoměrně rozložené. Silně zaměřeno na základy statistiky a R. Příliš aplikované a málo procesně zaměřené pro účely této příručky. Zkušenost s online kurzem působí nesourodě. Má vážený průměr hodnocení 4,33 hvězdiček na základě 6 recenzí. Zdarma:
  • Úvod do datové vědy (Nina Zumel & John Mount/Udemy): Pouze částečné pokrytí procesů, i když dobrá hloubka v aspektech přípravy dat a modelování. Dobrá délka (šest hodin obsahu). Používá R. Má 4,3hvězdičkové vážené průměrné hodnocení na 101 recenzích. Cena se liší v závislosti na slevách Udemy, které jsou časté.
  • Applied Data Science with Python (V2 Maestros/Udemy): Úplné pokrytí procesu s dobrou hloubkou pokrytí pro každý aspekt procesu. Slušná délka (8,5 hodiny obsahu). Používá Python. Má 4,3hvězdičkové vážené průměrné hodnocení na základě 92 recenzí. Cena se liší v závislosti na slevách Udemy, které jsou časté.

V2 Maestros má dvě verze svého kurzu „Aplikovaná datová věda“: jednu pro Python a jednu pro R.
  • Chcete být datovým vědcem? (V2 Maestros/Udemy): Plné pokrytí procesů, i když omezená hloubka pokrytí. Poměrně krátký (3 hodiny obsahu). Omezené pokrytí nástrojů. Má 4,3hvězdičkové vážené průměrné hodnocení na základě 790 recenzí. Cena se liší v závislosti na slevách Udemy, které jsou časté.
  • Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Rozsah pokrytí nejasný. Tvrdí, že se zaměřuje na zkoumání, objevování a vizualizaci dat. Není nabízeno na vyžádání. Obsah 24 hodin (tři hodiny týdně po dobu osmi týdnů). Má čtyřhvězdičkové vážené průměrné hodnocení na základě 2 recenzí. Zdarma s možností získání placeného certifikátu.
  • Data Science Orientation (Microsoft/edX): Částečné pokrytí procesů (chybí aspekt modelování). Používá Excel, což dává smysl vzhledem k tomu, že jde o kurz pod značkou Microsoft. Obsah 12-24 hodin (dvě-čtyři hodiny týdně po dobu šesti týdnů). Má vážené průměrné hodnocení 3,95 hvězdičky na základě 40 recenzí. Zdarma s ověřeným certifikátem k dispozici za 25 USD.
  • Data Science Essentials (Microsoft/edX): Úplné pokrytí procesů s dobrou hloubkou pokrytí jednotlivých aspektů. Pokrývá R, Python a Azure ML (platforma pro strojové učení společnosti Microsoft). Několik jednohvězdičkových recenzí uvádějících volbu nástroje (Azure ML) a špatný výklad instruktora. Obsah 18-24 hodin (tři až čtyři hodiny týdně po dobu šesti týdnů). Má vážené průměrné hodnocení 3,81 hvězdičky v 67 recenzích. Zdarma s ověřeným certifikátem, který je k dispozici za 49 USD.
Výše uvedené dva kurzy jsou z profesionálního programu Microsoft Certificate in Data Science na edX.
  • Applied Data Science with R (V2 Maestros/Udemy): R jako doplněk k výše uvedenému kurzu Pythonu od V2 Maestros. Úplné pokrytí procesů s dobrou hloubkou pokrytí pro každý aspekt procesu. Slušná délka (11 hodin obsahu). Používá R. Má 3,8hvězdičkové vážené průměrné hodnocení na základě 212 recenzí. Cena se liší v závislosti na slevách Udemy, které jsou časté.
  • Intro to Data Science (Udacity): Částečné pokrytí procesů, i když dobrá hloubka pro probíraná témata. Chybí aspekt průzkumu, ačkoli Udacity má skvělý, plnohodnotný kurz o průzkumné analýze dat (EDA). Tvrdí, že má 48 hodin (šest hodin týdně po dobu osmi týdnů), ale podle mých zkušeností je kratší. Podle některých recenzí chybí příprava na pokročilý obsah. Působí neorganizovaně. Používá Python. Má 3.61 hvězdiček váženého průměrného hodnocení v 18 recenzích.
  • Úvod do datové vědy v jazyce Python (University of Michigan/Coursera): Částečné pokrytí procesu. Žádné modelování a vizualizace, ačkoli kurzy č. 2 a 3 v rámci specializace Applied Data Science with Python tyto aspekty pokrývají. Absolvování všech tří kurzů by bylo pro účely tohoto průvodce příliš do hloubky. Používá Python. Délka čtyři týdny. Má 3,6hvězdičkové vážené průměrné hodnocení v 15 recenzích. K dispozici jsou bezplatné i placené možnosti.

Michiganská univerzita vyučuje kurz Applied Data Science with Python Specialization na platformě Coursera.
  • Data-driven Decision Making (PwC/Coursera): Částečné pokrytí (chybí modelování) s obchodním zaměřením. Seznamuje s mnoha nástroji, včetně R, Pythonu, Excelu, SAS a Tableau. Délka čtyři týdny. Má 3,5hvězdičkové vážené průměrné hodnocení na základě 2 recenzí. K dispozici jsou bezplatné i placené možnosti.
  • A Crash Course in Data Science (Johns Hopkins University/Coursera): Extrémně stručný přehled celého procesu. Pro účely tohoto seriálu příliš stručný. Délka dvě hodiny. Má 3,4hvězdičkové vážené průměrné hodnocení na základě 19 recenzí. K dispozici jsou bezplatné i placené varianty.
  • The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Extrémně stručný přehled celého procesu. Spíše přípravný kurz pro specializaci Data Science na Johns Hopkins University. Tvrdí, že má 4-16 hodin obsahu (jedna-čtyři hodiny týdně po dobu čtyř týdnů), ačkoli jeden recenzent poznamenal, že jej lze absolvovat za dvě hodiny. Má 3,22 hvězdiček váženého průměrného hodnocení na 182 recenzích. K dispozici jsou bezplatné i placené možnosti.
  • Data Management and Visualization (Wesleyan University/Coursera): Částečné pokrytí procesu (chybí modelování). Délka čtyři týdny. Dobrá produkční hodnota. Používá Python a SAS. Má vážené průměrné hodnocení 2,67 hvězdiček na základě 6 recenzí. K dispozici jsou bezplatné i placené varianty.

Následující kurzy neměly k lednu 2017 žádné recenze.

  • CS109 Data Science (Harvard University): Plné pokrytí procesů do velké hloubky (pravděpodobně příliš do hloubky pro účely tohoto seriálu). Kompletní 12týdenní bakalářský kurz. Orientace v kurzu je obtížná, protože kurz není určen pro online konzumaci. Skutečné harvardské přednášky jsou natočeny. Výše uvedená infografika procesů datové vědy pochází z tohoto kurzu. Používá jazyk Python. Žádné přehledové údaje. Zdarma.
Zobrazení na domovské stránce Harvard CS109.
  • Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Částečné pokrytí procesů (chybí aspekty modelování a vizualizace) se zaměřením na podnikání. Proces datové vědy je v jejich přednáškách maskován jako „Information-Action Value chain“. Délka čtyři týdny. Popisuje několik nástrojů, do hloubky však pokrývá pouze SQL. Žádné přehledy dat. K dispozici jsou bezplatné i placené varianty.
  • Úvod do datové vědy (Lynda): Plné pokrytí procesů, i když omezená hloubka pokrytí. Poměrně krátký (tři hodiny obsahu). Představuje R i Python. Žádný přehled dat. Cena závisí na předplatném Lyndy.

Zabalení

Toto je třetí díl šestidílné série, která se zabývá nejlepšími online kurzy pro zahájení práce v oblasti datové vědy. V prvním článku jsme se zabývali programováním a ve druhém statistikou a pravděpodobností. Zbývající část seriálu se bude zabývat dalšími klíčovými kompetencemi datové vědy: vizualizací dat a strojovým učením.

Pokud se chcete naučit datovou vědu, začněte jedním z těchto kurzů programování

Pokud se chcete naučit datovou vědu, absolvujte několik těchto kurzů statistiky

Závěrečný díl bude shrnutím těchto článků a také nejlepších online kurzů pro další klíčová témata, jako je práce s daty, databáze a dokonce softwarové inženýrství.

Pokud hledáte kompletní seznam online kurzů datové vědy, najdete je na stránce Class Central věnované předmětům Data Science a Big Data.

Pokud se vám líbilo číst tento článek, podívejte se na další články Class Central:

Tady je 250 kurzů Ivy League, které můžete právě teď absolvovat online zdarma
250 MOOC od Brownu, Columbie, Cornellu, Dartmouthu, Harvardu, Pennu, Princetonu a Yalu.

Padesát nejlepších bezplatných online univerzitních kurzů podle údajů
Když jsem v listopadu 2011 spouštěl Class Central, existovalo asi 18 bezplatných online kurzů a téměř všechny…

Pokud máte návrhy na kurzy, které jsem vynechal, dejte mi vědět v odpovědích!

Pokud vám tento článek pomohl, klikněte na ?, aby ho zde na Médiu vidělo více lidí.

Jedná se o zkrácenou verzi mého původního článku publikovaného na Class Central, kde jsem uvedl další popisy kurzů, sylaby a několik recenzí.

Jedná se o zkrácenou verzi mého původního článku publikovaného na Class Central.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.