de David Venturi

În urmă cu un an, am renunțat la unul dintre cele mai bune programe de informatică din Canada. Am început să-mi creez propriul program de masterat în știința datelor folosind resurse online. Mi-am dat seama că, în schimb, puteam să învăț tot ce aveam nevoie prin edX, Coursera și Udacity. Și aș putea să învăț mai repede, mai eficient și pentru o fracțiune din costuri.

Acum aproape am terminat. Am urmat multe cursuri legate de știința datelor și am auditat porțiuni din multe altele. Cunosc opțiunile existente și știu ce abilități sunt necesare pentru cursanții care se pregătesc pentru un rol de analist de date sau cercetător de date. Cu câteva luni în urmă, am început să creez un ghid bazat pe recenzii care recomandă cele mai bune cursuri pentru fiecare subiect din cadrul științei datelor.

Pentru primul ghid din serie, am recomandat câteva cursuri de codificare pentru cercetătorul de date începător. Apoi au fost cursuri de statistică și probabilitate.

Acum trecem la introduceri în știința datelor.

(Nu vă faceți griji dacă nu sunteți sigur de ceea ce presupune un curs de introducere în știința datelor. Voi explica în scurt timp.)

Pentru acest ghid, am petrecut peste 10 ore încercând să identific fiecare curs online de introducere în știința datelor oferit în ianuarie 2017, extrăgând fragmente cheie de informații din programele și recenziile lor și compilând evaluările lor. Pentru această sarcină, m-am adresat nimănui altcuiva decât comunității open source Class Central și bazei sale de date cu mii de evaluări și recenzii ale cursurilor.

Pagina de pornire a Class Central.

Din 2011, fondatorul Class Central, Dhawal Shah, a urmărit mai îndeaproape cursurile online decât probabil oricine altcineva din lume. Dhawal m-a ajutat personal să asamblez această listă de resurse.

Cum am ales cursurile de luat în considerare

Care curs trebuie să îndeplinească trei criterii:

  1. Trebuie să predea procesul de știință a datelor. Mai multe despre asta în curând.
  2. Trebuie să fie la cerere sau oferit la câteva luni.
  3. Trebuie să fie un curs online interactiv, deci fără cărți sau tutoriale doar de citit. Deși acestea sunt modalități viabile de a învăța, acest ghid se concentrează pe cursuri.

Credem că am acoperit fiecare curs notabil care se încadrează în criteriile de mai sus. Deoarece există aparent sute de cursuri pe Udemy, am ales să le luăm în considerare doar pe cele mai recenzate și cele mai bine cotate. Totuși, există întotdeauna o șansă să ne fi scăpat ceva. Așa că vă rugăm să ne anunțați în secțiunea de comentarii dacă am omis un curs bun.

Cum am evaluat cursurile

Am compilat ratingul mediu și numărul de recenzii de la Class Central și de pe alte site-uri de recenzii pentru a calcula un rating mediu ponderat pentru fiecare curs. Am citit recenziile pe text și am folosit acest feedback pentru a suplimenta ratingurile numerice.

Am făcut aprecieri subiective ale cursurilor pe baza a doi factori:

1. Acoperirea procesului de știință a datelor. Cursul trece peste sau sare peste anumite subiecte? Acoperă anumite subiecte în prea multe detalii? A se vedea secțiunea următoare pentru ceea ce presupune acest proces.

2. Utilizarea instrumentelor comune de știință a datelor. Cursul este predat cu ajutorul unor limbaje de programare populare precum Python și/sau R? Acestea nu sunt necesare, dar sunt utile în majoritatea cazurilor, așa că se acordă o ușoară preferință acestor cursuri.

Python și R sunt cele mai populare două limbaje de programare folosite în știința datelor.

Ce este procesul științei datelor?

Ce este știința datelor? Ce face un cercetător de date? Acestea sunt tipurile de întrebări fundamentale la care un curs de introducere în știința datelor ar trebui să răspundă. Următorul infografic realizat de profesorii de la Harvard Joe Blitzstein și Hanspeter Pfister prezintă un proces tipic de știință a datelor, care ne va ajuta să răspundem la aceste întrebări.

Vizualizare de la Opera Solutions.

Obiectivul nostru cu acest curs de introducere în știința datelor este de a ne familiariza cu procesul de știință a datelor. Nu dorim o acoperire prea aprofundată a unor aspecte specifice ale procesului, de aici și partea de „introducere în” din titlu.

Pentru fiecare aspect, cursul ideal explică conceptele cheie în cadrul procesului, prezintă instrumente comune și oferă câteva exemple (de preferință practice).

Suntem în căutarea doar a unei introduceri. Prin urmare, acest ghid nu va include specializări complete sau programe precum specializarea Data Science de la Universitatea Johns Hopkins pe Coursera sau Nanodegree-ul Data Analyst de la Udacity. Aceste compilații de cursuri eludează scopul acestei serii: de a găsi cele mai bune cursuri individuale pentru fiecare subiect care să cuprindă o educație în domeniul științei datelor. Ultimele trei ghiduri din această serie de articole vor acoperi în detaliu fiecare aspect al procesului de știință a datelor.

Este necesară experiență de bază în programare, statistică și probabilitate

Câteva cursuri enumerate mai jos necesită experiență de bază în programare, statistică și probabilitate. Această cerință este de înțeles, având în vedere că noul conținut este rezonabil de avansat și că aceste subiecte au adesea mai multe cursuri dedicate lor.

Această experiență poate fi dobândită prin recomandările noastre din primele două articole (programare, statistică) din acest Ghid de carieră în știința datelor.

Alegerea noastră pentru cel mai bun curs de introducere în știința datelor este…

  • Data Science A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)

Cursul Data Science A-Z™ al lui Kirill Eremenko de pe Udemy este câștigătorul clar în ceea ce privește amploarea și profunzimea acoperirii procesului de știință a datelor dintre cele peste 20 de cursuri care s-au calificat. Acesta are un rating mediu ponderat de 4,5 stele pe 3.071 de recenzii, ceea ce îl plasează printre cele mai bine cotate și mai bine recenzate cursuri dintre cele luate în considerare.

Acesta prezintă procesul complet și oferă exemple din viața reală. La 21 de ore de conținut, este o durată bună. Recenzenții apreciază modul de predare al instructorului și organizarea conținutului. Prețul variază în funcție de reducerile Udemy, care sunt frecvente, astfel încât este posibil să puteți achiziționa accesul pentru doar 10 $.

Deși nu bifează căsuța noastră „utilizarea instrumentelor comune de știință a datelor”, opțiunile de instrumente non-Python/R (gretl, Tableau, Excel) sunt utilizate eficient în context. Eremenko menționează următoarele atunci când explică alegerea gretl (gretl este un pachet software statistic), deși se aplică tuturor instrumentelor pe care le folosește (sublinierea îmi aparține):

În gretl, vom putea face aceeași modelare la fel ca în R și Python, dar nu va trebui să codăm. Aceasta este marea problemă aici. Este posibil ca unii dintre voi să cunoască deja foarte bine R, dar alții să nu-l cunoască deloc. Scopul meu este să vă arăt cum să construiți un model robust și să vă ofer un cadru pe care îl puteți aplica în orice instrument pe care îl alegeți. gretl ne va ajuta să evităm să ne împotmolim în codificarea noastră.

Un recenzent important a remarcat următoarele:

Kirill este cel mai bun profesor pe care l-am găsit online. El folosește exemple din viața reală și explică probleme comune astfel încât să obțineți o înțelegere mai profundă a lucrării de curs. El oferă, de asemenea, o mulțime de perspective cu privire la ceea ce înseamnă să fii un om de știință de date, de la lucrul cu date insuficiente până la prezentarea muncii tale la managementul de clasă C. Recomand cu căldură acest curs pentru studenții începători până la analiștii de date intermediari!

O introducere excelentă axată pe Python

  • Intro to Data Analysis (Udacity)

Cursul Intro to Data Analysis de la Udacity este o ofertă relativ nouă care face parte din popularul Nanodegree Data Analyst al Udacity. Acoperă procesul de știință a datelor în mod clar și coerent folosind Python, deși îi lipsește un pic în ceea ce privește aspectul de modelare. Timpul estimat este de 36 de ore (șase ore pe săptămână pe parcursul a șase săptămâni), deși este mai scurt din experiența mea. Are un rating mediu ponderat de 5 stele pe două recenzii. Este gratuit.

VIDEO-urile sunt bine produse, iar instructorul (Caroline Buckey) este clar și plăcut. O mulțime de teste de programare întăresc conceptele învățate în videoclipuri. Studenții vor pleca de la curs încrezători în abilitățile lor noi și / sau îmbunătățite NumPy și Pandas (acestea sunt biblioteci Python populare). Proiectul final – care este evaluat și revizuit în Nanodegree, dar nu și în cursul individual gratuit – poate fi o adăugare frumoasă la un portofoliu.

O ofertă impresionantă, fără date de revizuire

  • Data Science Fundamentals (Big Data University)

Data Science Fundamentals este o serie de patru cursuri oferite de IBM’s Big Data University. Aceasta include cursuri intitulate Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools și R 101.

Cuprinde întregul proces de știință a datelor și introduce Python, R și alte câteva instrumente open-source. Cursurile au o valoare de producție extraordinară. Se estimează 13-18 ore de efort, în funcție de faptul dacă urmați cursul „R 101” de la final, care nu este necesar în scopul acestui ghid. Din păcate, nu are date de recenzii pe site-urile majore de recenzii pe care le-am folosit pentru această analiză, așa că nu îl putem recomanda încă față de cele două opțiuni de mai sus. Este gratuit.

Concurența

Alegerea noastră nr. 1 a avut un rating mediu ponderat de 4,5 din 5 stele pe 3.068 de recenzii. Să ne uităm la celelalte alternative, ordonate după rating descrescător. Mai jos veți găsi mai multe cursuri axate pe R, dacă sunteți hotărât să faceți o introducere în acest limbaj.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Acoperire completă a procesului cu un accent puternic pe instrumente (Python). Mai puțin axat pe procese și mai mult o introducere foarte detaliată în Python. Curs uimitor, deși nu este ideal pentru domeniul de aplicare al acestui ghid. Acesta, la fel ca și cursul de R al lui Jose de mai jos, se poate dubla atât ca introducere în Python/R, cât și ca introducere în știința datelor. 21,5 ore de conținut. Are o evaluare medie ponderată de 4,7 stele pe 1.644 de recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
  • Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Acoperire completă a procesului cu un accent puternic pe instrumente (R). Mai puțin axat pe procese și mai mult o introducere foarte detaliată în R. Curs uimitor, deși nu este ideal pentru domeniul de aplicare al acestui ghid. Acesta, la fel ca și cursul de Python al lui Jose de mai sus, poate fi folosit atât ca introducere în Python/R, cât și ca introducere în știința datelor. 18 ore de conținut. Are un rating mediu ponderat de 4,6 stele pe 847 de recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.

Jose Portilla are două Data Science and Machine Learning Bootcamps pe Udemy: unul pentru Python și unul pentru R.
  • Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Acoperire parțială a procesului. Se concentrează pe statistică și învățare automată. Lungime decentă (nouă ore de conținut). Folosește Python. Are un rating mediu ponderat de 4,5 stele pe 3.104 recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
  • Introducere în știința datelor (Data Hawk Tech/Udemy): Acoperire completă a proceselor, deși o profunzime limitată a acoperirii. Destul de scurt (trei ore de conținut). Acoperă pe scurt atât R, cât și Python. Are un rating mediu ponderat de 4,4 stele pe 62 de recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
  • Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Acoperire completă a procesului, deși nu este distribuită în mod egal. Se concentrează puternic pe statisticile de bază și pe R. Prea aplicat și nu suficient de concentrat pe procese pentru scopul acestui ghid. Experiența cursului online pare dezarticulată. Are o evaluare medie ponderată de 4,33 stele pe 6 recenzii. Gratuit.
  • Introducere în știința datelor (Nina Zumel & John Mount/Udemy): Acoperire doar parțială a proceselor, deși o bună profunzime în pregătirea datelor și aspectele de modelare. Lungime ok (șase ore de conținut). Folosește R. Are un rating mediu ponderat de 4,3 stele pe 101 recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
  • Applied Data Science with Python (V2 Maestros/Udemy): Acoperire completă a procesului, cu o bună profunzime a acoperirii pentru fiecare aspect al procesului. Lungime decentă (8,5 ore de conținut). Utilizează Python. Are un rating mediu ponderat de 4,3 stele pe 92 de recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
V2 Maestros are două versiuni ale cursului lor „Applied Data Science”: una pentru Python și una pentru R.
  • Vreți să fiți un cercetător de date? (V2 Maestros/Udemy): Acoperire completă a proceselor, deși o profunzime limitată a acoperirii. Destul de scurt (3 ore de conținut). Acoperire limitată a instrumentelor. Are un rating mediu ponderat de 4,3 stele pe 790 de recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
  • Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Amploarea acoperirii nu este clară. Pretinde că se concentrează pe explorarea, descoperirea și vizualizarea datelor. Nu este oferit la cerere. 24 de ore de conținut (trei ore pe săptămână pe parcursul a opt săptămâni). Are un rating mediu ponderat de 4 stele pe 2 recenzii. Gratuit, cu certificat plătit disponibil.
  • Data Science Orientation (Microsoft/edX): Acoperire parțială a proceselor (lipsește aspectul de modelare). Folosește Excel, ceea ce are sens, având în vedere că este un curs marca Microsoft. 12-24 de ore de conținut (două-patru ore pe săptămână pe parcursul a șase săptămâni). Are o evaluare medie ponderată de 3,95 stele pe 40 de recenzii. Gratuit, cu certificat verificat disponibil pentru 25 $.
  • Data Science Essentials (Microsoft/edX): Acoperire completă a procesului cu o bună profunzime a acoperirii pentru fiecare aspect. Acoperă R, Python și Azure ML (o platformă Microsoft de învățare automată). Mai multe recenzii de 1 stea care citează alegerea instrumentului (Azure ML) și livrarea slabă a instructorului. 18-24 de ore de conținut (trei-patru ore pe săptămână pe parcursul a șase săptămâni). Are un rating mediu ponderat de 3,81 stele pe 67 de recenzii. Gratuit cu certificat verificat disponibil pentru 49 $.

Cele două cursuri de mai sus sunt din programul profesional Microsoft Professional Program Certificate in Data Science pe edX.
  • Applied Data Science with R (V2 Maestros/Udemy): Însoțitorul în R al cursului de Python de la V2 Maestros de mai sus. Acoperire completă a procesului, cu o bună profunzime a acoperirii pentru fiecare aspect al procesului. Lungime decentă (11 ore de conținut). Folosește R. Are un rating mediu ponderat de 3,8 stele pe 212 recenzii. Costul variază în funcție de reducerile Udemy, care sunt frecvente.
  • Intro to Data Science (Udacity): Acoperire parțială a proceselor, deși o profunzime bună pentru subiectele abordate. Lipsește aspectul de explorare, deși Udacity are un curs excelent, complet, despre analiza exploratorie a datelor (EDA). Pretinde că are o durată de 48 de ore (șase ore pe săptămână pe parcursul a opt săptămâni), dar, din experiența mea, este mai scurt. Unele recenzii consideră că pregătirea pentru conținutul avansat lipsește. Se simte dezorganizat. Folosește Python. Are o valoare de 3.Evaluare medie ponderată de 61 de stele în 18 recenzii. Gratuit.
  • Introducere în știința datelor în Python (University of Michigan/Coursera): Acoperire parțială a procesului. Nu există modelare și vizualizare, deși cursurile #2 și #3 din cadrul specializării Applied Data Science with Python acoperă aceste aspecte. Urmarea tuturor celor trei cursuri ar fi prea profundă pentru scopul acestor ghiduri. Folosește Python. Are o durată de patru săptămâni. Are o evaluare medie ponderată de 3,6 stele pe 15 recenzii. Sunt disponibile opțiuni gratuite și plătite.
Universitatea din Michigan predă Știința aplicată a datelor cu specializare Python pe Coursera.
  • Data-driven Decision Making (PwC/Coursera): Acoperire parțială (lipsește modelarea) cu un accent pe afaceri. Prezintă multe instrumente, inclusiv R, Python, Excel, SAS și Tableau. Cu o durată de patru săptămâni. Are un rating mediu ponderat de 3,5 stele pe 2 recenzii. Sunt disponibile opțiuni gratuite și plătite.
  • A Crash Course in Data Science (Johns Hopkins University/Coursera): O prezentare extrem de scurtă a întregului proces. Prea scurtă pentru scopul acestei serii. Cu o durată de două ore. Are un rating mediu ponderat de 3,4 stele pe 19 recenzii. Sunt disponibile opțiuni gratuite și cu plată.
  • The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): O prezentare extrem de scurtă a întregului proces. Mai degrabă un curs de pregătire pentru specializarea Data Science a Universității Johns Hopkins. Pretinde că are 4-16 ore de conținut (una-patru ore pe săptămână, timp de patru săptămâni), deși un recenzent a remarcat că ar putea fi finalizat în două ore. Are un rating mediu ponderat de 3,22 stele pe 182 de recenzii. Sunt disponibile opțiuni gratuite și plătite.
  • Data Management and Visualization (Wesleyan University/Coursera): Acoperire parțială a procesului (lipsește modelarea). Durata de patru săptămâni. Valoare bună a producției. Utilizează Python și SAS. Are o evaluare medie ponderată de 2,67 stele pe 6 recenzii. Sunt disponibile opțiuni gratuite și plătite.

Cursurile următoare nu au avut recenzii în ianuarie 2017.

  • CS109 Data Science (Harvard University): Acoperire completă a proceselor în mare profunzime (probabil prea în profunzime pentru scopul acestei serii). Un curs de licență complet de 12 săptămâni. Navigarea în curs este dificilă, deoarece cursul nu este conceput pentru consumul online. Prelegerile reale de la Harvard sunt filmate. Infograficul procesului de știință a datelor de mai sus provine din acest curs. Utilizează Python. Nu există date de analiză. Gratuit.
Vizul prezentat pe pagina de pornire a Harvard CS109.
  • Introducere în analiza datelor pentru afaceri (University of Colorado Boulder/Coursera): Acoperire parțială a proceselor (lipsesc aspectele de modelare și vizualizare) cu accent pe afaceri. Procesul de știință a datelor este deghizat ca „Lanțul valoric informație-acțiune” în prelegerile lor. Cu o durată de patru săptămâni. Descrie mai multe instrumente, deși acoperă doar SQL în profunzime. Nu există date de revizuire. Sunt disponibile opțiuni gratuite și plătite.
  • Introducere în știința datelor (Lynda): Acoperire completă a proceselor, deși o profunzime limitată a acoperirii. Destul de scurt (trei ore de conținut). Prezintă atât R, cât și Python. Nu există date de revizuire. Costul depinde de abonamentul Lynda.

Încheiere

Aceasta este cea de-a treia parte a unei serii de șase piese care acoperă cele mai bune cursuri online pentru a vă lansa în domeniul științei datelor. Am acoperit programarea în primul articol și statistica și probabilitatea în cel de-al doilea articol. Restul seriei va acoperi alte competențe de bază ale științei datelor: vizualizarea datelor și învățarea automată.

Dacă vreți să învățați știința datelor, începeți cu unul dintre aceste cursuri de programare

Dacă vreți să învățați știința datelor, urmați câteva dintre aceste cursuri de statistică

Articolul final va fi un rezumat al acestor articole, plus cele mai bune cursuri online pentru alte subiecte cheie, cum ar fi gestionarea datelor, bazele de date și chiar ingineria software.

Dacă sunteți în căutarea unei liste complete de cursuri online de știința datelor, le puteți găsi pe pagina Class Central’s Data Science and Big Data subject page.

Dacă v-a făcut plăcere să citiți acest articol, consultați și alte articole ale Class Central:

Iată 250 de cursuri Ivy League pe care le puteți urma online chiar acum gratuit
250 de MOOC-uri de la Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton și Yale.

Cele mai bune 50 de cursuri universitare online gratuite, conform datelor
Când am lansat Class Central, în noiembrie 2011, existau în jur de 18 cursuri online gratuite, și aproape toate…

Dacă aveți sugestii de cursuri pe care le-am omis, anunțați-mă în răspunsuri!

Dacă ți s-a părut util, fă clic pe ? pentru ca mai multe persoane să îl vadă aici, pe Medium.

Aceasta este o versiune condensată a articolului meu original publicat pe Class Central, în care am inclus mai multe descrieri de cursuri, programe și mai multe recenzii.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.