door David Venturi
Een jaar geleden ben ik gestopt met een van de beste computerwetenschapsprogramma’s in Canada. Ik begon mijn eigen data science masteropleiding te creëren met behulp van online bronnen. Ik realiseerde me dat ik alles wat ik nodig had in plaats daarvan kon leren via edX, Coursera en Udacity. En ik kon het sneller, efficiënter en voor een fractie van de kosten leren.
Ik ben nu bijna klaar. Ik heb veel data science-gerelateerde cursussen gevolgd en delen van nog veel meer gecontroleerd. Ik weet welke opties er zijn en welke vaardigheden nodig zijn voor studenten die zich voorbereiden op een rol als data-analist of data-wetenschapper. Een paar maanden geleden ben ik begonnen met het maken van een review-gedreven gids die de beste cursussen aanbeveelt voor elk onderwerp binnen data science.
Voor de eerste gids in de reeks, raadde ik een paar coderingslessen aan voor de beginnende data scientist. Daarna waren het statistiek- en waarschijnlijkheidsklassen.
- Nu op inleidingen in data science.
- Hoe we cursussen hebben uitgekozen om te overwegen
- Hoe we cursussen hebben geëvalueerd
- Wat is het data science-proces?
- Basiscodering, statistieken en waarschijnlijkheidservaring vereist
- Onze keuze voor de beste intro tot data science cursus is…
- Een geweldige Python-gerichte introductie
- Een indrukwekkend aanbod zonder evaluatiegegevens
- De concurrentie
- Wrapping it Up
Nu op inleidingen in data science.
(Maak je geen zorgen als je niet zeker weet wat een intro tot data science-cursus inhoudt. Ik zal het binnenkort uitleggen.)
Voor deze gids heb ik 10+ uur besteed aan het identificeren van elke online intro tot data science-cursus die vanaf januari 2017 werd aangeboden, het extraheren van belangrijke stukjes informatie uit hun syllabi en beoordelingen, en het compileren van hun beoordelingen. Voor deze taak wendde ik me tot niemand minder dan de open source-gemeenschap Class Central en zijn database met duizenden cursusbeoordelingen en -recensies.
Sinds 2011 houdt Class Central-oprichter Dhawal Shah online cursussen beter in de gaten dan waarschijnlijk iemand anders in de wereld. Dhawal heeft me persoonlijk geholpen bij het samenstellen van deze lijst met bronnen.
Hoe we cursussen hebben uitgekozen om te overwegen
Elke cursus moet aan drie criteria voldoen:
- Het moet het data science-proces onderwijzen. Daarover binnenkort meer.
- Het moet on-demand zijn of om de paar maanden worden aangeboden.
- Het moet een interactieve online cursus zijn, dus geen boeken of alleen-lezen tutorials. Hoewel dit haalbare manieren zijn om te leren, richt deze gids zich op cursussen.
Wij geloven dat we elke opmerkelijke cursus hebben behandeld die aan de bovenstaande criteria voldoet. Omdat er schijnbaar honderden cursussen op Udemy zijn, hebben we ervoor gekozen om alleen de meest beoordeelde en hoogst beoordeelde cursussen te overwegen. Er is echter altijd een kans dat we iets gemist hebben. Dus laat het ons weten in het gedeelte met opmerkingen als we een goede cursus hebben weggelaten.
Hoe we cursussen hebben geëvalueerd
We hebben de gemiddelde beoordeling en het aantal beoordelingen van Class Central en andere beoordelingssites samengevoegd om een gewogen gemiddelde beoordeling voor elke cursus te berekenen. We lazen tekstrecensies en gebruikten deze feedback om de numerieke beoordelingen aan te vullen.
We maakten subjectieve syllabusbeoordelingen op basis van twee factoren:
1. Dekking van het data science-proces. Wordt er over bepaalde onderwerpen heen gestapt of worden er onderwerpen overgeslagen? Worden bepaalde onderwerpen te gedetailleerd behandeld? Zie de volgende paragraaf voor wat dit proces inhoudt.
2. Gebruik van veelgebruikte data science tools. Wordt de cursus gegeven met behulp van populaire programmeertalen zoals Python en/of R? Deze zijn niet noodzakelijk, maar in de meeste gevallen wel nuttig, dus een lichte voorkeur gaat uit naar deze cursussen.
Wat is het data science-proces?
Wat is data science? Wat doet een data scientist? Dit zijn het soort fundamentele vragen die een introcursus datawetenschap moet beantwoorden. De volgende infographic van Harvard-professoren Joe Blitzstein en Hanspeter Pfister schetst een typisch data science-proces, dat ons zal helpen deze vragen te beantwoorden.
Het doel van deze inleiding tot de cursus data science is om vertrouwd te raken met het data science-proces. We willen niet te diep ingaan op specifieke aspecten van het proces, vandaar het “intro tot”-gedeelte van de titel.
Voor elk aspect legt de ideale cursus de belangrijkste concepten binnen het kader van het proces uit, introduceert gemeenschappelijke tools, en geeft een paar voorbeelden (bij voorkeur hands-on).
We zijn alleen op zoek naar een inleiding. Deze gids zal daarom geen volledige specialisaties of programma’s bevatten zoals Johns Hopkins University’s Data Science Specialization op Coursera of Udacity’s Data Analyst Nanodegree. Deze compilaties van cursussen gaan voorbij aan het doel van deze serie: het vinden van de beste individuele cursussen voor elk onderwerp om een data science-opleiding samen te stellen. De laatste drie gidsen in deze reeks artikelen zullen elk aspect van het data science-proces in detail behandelen.
Basiscodering, statistieken en waarschijnlijkheidservaring vereist
Verschillende cursussen die hieronder worden vermeld, vereisen basisprogrammering, statistieken en waarschijnlijkheidservaring. Deze vereiste is begrijpelijk gezien het feit dat de nieuwe inhoud redelijk geavanceerd is, en dat aan deze onderwerpen vaak meerdere cursussen zijn gewijd.
Deze ervaring kan worden opgedaan door middel van onze aanbevelingen in de eerste twee artikelen (programmeren, statistiek) in deze Data Science Career Guide.
Onze keuze voor de beste intro tot data science cursus is…
- Data Science A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)
Kirill Eremenko’s Data Science A-Z™ op Udemy is de duidelijke winnaar in termen van breedte en diepte van de dekking van het data science-proces van de meer dan 20 cursussen die in aanmerking kwamen. Het heeft een 4,5-sterren gewogen gemiddelde beoordeling over 3.071 beoordelingen, waarmee het een van de hoogst beoordeelde en meest beoordeelde cursussen is van degenen die in aanmerking kwamen.
Het schetst het volledige proces en biedt voorbeelden uit het echte leven. Met 21 uur inhoud, het is een goede lengte. Recensenten houden van de instructeur levering en de organisatie van de inhoud. De prijs varieert afhankelijk van Udemy-kortingen, die vaak voorkomen, dus u kunt mogelijk toegang kopen voor zo weinig als $ 10.
Hoewel het niet onze “gebruik van gemeenschappelijke data science-tools” doos aanvinkt, worden de niet-Python / R-toolkeuzes (gretl, Tableau, Excel) effectief gebruikt in context. Eremenko vermeldt het volgende wanneer hij de keuze voor gretl uitlegt (gretl is een statistisch softwarepakket), hoewel het van toepassing is op alle tools die hij gebruikt (cursivering van mij):
In gretl zullen we dezelfde modellering kunnen doen als in R en Python, maar we zullen niet hoeven te coderen. Dat is het grote probleem hier. Sommigen onder jullie zullen R al heel goed kennen, maar anderen misschien helemaal niet. Mijn doel is om jullie te laten zien hoe je een robuust model bouwt en je een raamwerk te geven dat je kunt toepassen in elk gereedschap dat je kiest. gretl zal ons helpen te voorkomen dat we vastlopen in onze codering.
Een prominente recensent merkte het volgende op:
Kirill is de beste leraar die ik online heb gevonden. Hij gebruikt voorbeelden uit het echte leven en legt veel voorkomende problemen uit, zodat je een dieper begrip krijgt van het cursuswerk. Hij geeft ook veel inzicht in wat het betekent om een data scientist te zijn, van het werken met onvoldoende data tot het presenteren van je werk aan C-class management. Ik raad deze cursus ten zeerste aan voor beginnende studenten tot intermediaire data-analisten!
Een geweldige Python-gerichte introductie
- Intro to Data Analysis (Udacity)
Udacity’s Intro to Data Analysis is een relatief nieuw aanbod dat deel uitmaakt van Udacity’s populaire Data Analyst Nanodegree. Het behandelt het data science-proces duidelijk en samenhangend met behulp van Python, hoewel het een beetje mist in het modelleringsaspect. De geschatte tijdlijn is 36 uur (zes uur per week gedurende zes weken), hoewel het in mijn ervaring korter is. Het heeft een 5-sterren gewogen gemiddelde waardering over twee reviews. Het is gratis.
De video’s zijn goed geproduceerd en de instructeur (Caroline Buckey) is duidelijk en persoonlijk. Veel programmeerquizzen versterken de concepten die in de video’s worden geleerd. Studenten zullen de cursus verlaten met vertrouwen in hun nieuwe en/of verbeterde NumPy en Pandas vaardigheden (dit zijn populaire Python bibliotheken). Het eindproject – dat wordt beoordeeld en geëvalueerd in de nano-opleiding, maar niet in de gratis individuele cursus – kan een mooie aanvulling zijn op een portfolio.
Een indrukwekkend aanbod zonder evaluatiegegevens
- Data Science Fundamentals (Big Data University)
Data Science Fundamentals is een viercursussenreeks die wordt aangeboden door IBM’s Big Data University. Het omvat cursussen met de titels Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools, en R 101.
Het behandelt het volledige data science-proces en introduceert Python, R, en diverse andere open-source tools. De cursussen hebben een enorme productiewaarde. 13-18 uur inspanning wordt geschat, afhankelijk van of u de “R 101” -cursus aan het einde volgt, wat niet nodig is voor het doel van deze gids. Helaas heeft het geen review gegevens op de grote review sites die we voor deze analyse hebben gebruikt, dus we kunnen het nog niet aanraden boven de bovenstaande twee opties. Het is gratis.
De concurrentie
Onze nummer 1 keuze had een gewogen gemiddelde beoordeling van 4,5 van de 5 sterren over 3.068 beoordelingen. Laten we eens kijken naar de andere alternatieven, gesorteerd op afnemende beoordeling. Hieronder vindt u verschillende R-georiënteerde cursussen, als u op zoek bent naar een inleiding in die taal.
- Python voor Data Science en Machine Learning Bootcamp (Jose Portilla/Udemy): Volledige procesdekking met een tool-zware focus (Python). Minder proces-gedreven en meer van een zeer gedetailleerde intro tot Python. Geweldige cursus, maar niet ideaal voor het doel van deze gids. Het kan, net als Jose’s R cursus hieronder, zowel dienen als inleiding tot Python/R en als inleiding tot data science. 21,5 uur inhoud. Het heeft een 4,7-sterren gewogen gemiddelde beoordeling over 1.644 beoordelingen. Kosten variëren afhankelijk van Udemy kortingen, die frequent zijn.
- Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Volledige procesdekking met een tool-zware focus (R). Minder proces-gedreven en meer van een zeer gedetailleerde intro tot R. Geweldige cursus, hoewel niet ideaal voor het toepassingsgebied van deze gids. Het kan, net als Jose’s Python cursus hierboven, zowel dienen als inleiding tot Python/R en als inleiding tot data science. 18 uur inhoud. Het heeft een 4,6-sterren gewogen gemiddelde beoordeling over 847 beoordelingen. De kosten variëren afhankelijk van Udemy-kortingen, die vaak voorkomen.
- Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Gedeeltelijke procesdekking. Richt zich op statistiek en machine learning. Fatsoenlijke lengte (negen uur inhoud). Maakt gebruik van Python. Het heeft een 4,5-sterren gewogen gemiddelde beoordeling over 3.104 beoordelingen. Kosten variëren afhankelijk van Udemy-kortingen, die frequent zijn.
- Inleiding tot Data Science (Data Hawk Tech/Udemy): Volledige procesdekking, hoewel beperkte diepte van de dekking. Vrij kort (drie uur inhoud). Behandelt kort zowel R als Python. Het heeft een 4,4 sterren gewogen gemiddelde beoordeling over 62 beoordelingen. Kosten variëren afhankelijk van Udemy-kortingen, die frequent zijn.
- Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Volledige procesdekking, hoewel niet gelijkmatig verdeeld. Zwaar gericht op basisstatistieken en R. Te veel toegepast en te weinig procesgericht voor het doel van deze gids. Online cursuservaring voelt onsamenhangend aan. Het heeft een 4,33-sterren gewogen gemiddelde beoordeling over 6 beoordelingen. Gratis.
- Introduction To Data Science (Nina Zumel & John Mount/Udemy): Gedeeltelijke procesdekking slechts, hoewel goede diepte in de gegevensvoorbereiding en modelleringsaspecten. Okay lengte (zes uur inhoud). Gebruikt R. Het heeft een 4,3 sterren gewogen gemiddelde beoordeling over 101 beoordelingen. Kosten variëren afhankelijk van Udemy-kortingen, die vaak voorkomen.
- Toegepaste gegevenswetenschappen met Python (V2 Maestros/Udemy): Volledige procesdekking met een goede diepte van dekking voor elk aspect van het proces. Fatsoenlijke lengte (8,5 uur inhoud). Maakt gebruik van Python. Het heeft een 4,3 sterren gewogen gemiddelde beoordeling over 92 beoordelingen. De kosten variëren afhankelijk van Udemy-kortingen, die vaak voorkomen.
- Wil je een gegevenswetenschapper worden? (V2 Maestros/Udemy): Volledige procesdekking, hoewel beperkte diepte van de dekking. Vrij kort (3 uur inhoud). Beperkte dekking van hulpmiddelen. Het heeft een 4,3 sterren gewogen gemiddelde beoordeling over 790 beoordelingen. Kosten variëren afhankelijk van Udemy-kortingen, die frequent zijn.
- Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Breedte van de dekking onduidelijk. Beweert zich te richten op data-exploratie, -ontdekking en -visualisatie. Wordt niet op verzoek aangeboden. 24 uur inhoud (drie uur per week gedurende acht weken). Het heeft een 4 sterren gewogen gemiddelde beoordeling over 2 beoordelingen. Gratis met betaald certificaat beschikbaar.
- Data Science Orientation (Microsoft/edX): Gedeeltelijke procesdekking (mist modelleringsaspect). Gebruikt Excel, wat logisch is aangezien het een cursus van het merk Microsoft is. 12-24 uur inhoud (twee-vier uur per week gedurende zes weken). De cursus heeft een gemiddelde beoordeling van 3,95 sterren, verdeeld over 40 beoordelingen. Gratis met geverifieerd certificaat beschikbaar voor $25.
- Data Science Essentials (Microsoft/edX): Volledige procesdekking met een goede diepte van de dekking voor elk aspect. Behandelt R, Python, en Azure ML (een Microsoft machine learning platform). Verscheidene 1-sterrenrecensies met vermelding van de toolkeuze (Azure ML) en de slechte levering van de instructeur. 18-24 uur inhoud (drie tot vier uur per week gedurende zes weken). Het heeft een 3,81-sterren gewogen gemiddelde beoordeling over 67 beoordelingen. Gratis met geverifieerd certificaat beschikbaar voor $49.
- Applied Data Science with R (V2 Maestros/Udemy): De R metgezel van V2 Maestros ‘Python cursus hierboven. Volledige procesdekking met een goede diepte van de dekking voor elk aspect van het proces. Fatsoenlijke lengte (11 uur inhoud). Gebruikt R. Heeft een 3,8-sterren gewogen gemiddelde beoordeling over 212 beoordelingen. Kosten variëren afhankelijk van Udemy kortingen, die frequent zijn.
- Intro to Data Science (Udacity): Gedeeltelijke procesdekking, hoewel goede diepte voor de behandelde onderwerpen. Mist het exploratie-aspect, hoewel Udacity een geweldige, volledige cursus heeft over exploratieve data-analyse (EDA). Beweert 48 uur lang te zijn (zes uur per week gedurende acht weken), maar is in mijn ervaring korter. Sommige beoordelingen vinden dat de opbouw naar de geavanceerde inhoud ontbreekt. Voelt ongeorganiseerd aan. Gebruikt Python. Het heeft een 3.61-sterren gewogen gemiddelde waardering over 18 reviews. Gratis.
- Inleiding tot Data Science in Python (Universiteit van Michigan/Coursera): Gedeeltelijke procesdekking. Geen modellering en visualisatie, hoewel cursussen #2 en #3 in de Applied Data Science with Python Specialization deze aspecten behandelen. Alle drie de cursussen volgen zou te diepgaand zijn voor het doel van deze gids. Gebruikt Python. Vier weken in lengte. Het heeft een 3,6-sterren gewogen gemiddelde beoordeling over 15 beoordelingen. Gratis en betaalde opties beschikbaar.
- Data-driven Decision Making (PwC/Coursera): Gedeeltelijke dekking (mist modellering) met een zakelijke focus. Introduceert veel tools, waaronder R, Python, Excel, SAS en Tableau. De cursus duurt vier weken. Het heeft een 3,5-sterren gewogen gemiddelde beoordeling over 2 beoordelingen. Gratis en betaalde opties beschikbaar.
- A Crash Course in Data Science (Johns Hopkins University/Coursera): Een uiterst beknopt overzicht van het volledige proces. Te kort voor het doel van deze serie. Twee uur in lengte. Het heeft een 3,4 sterren gewogen gemiddelde beoordeling over 19 beoordelingen. Gratis en betaalde opties beschikbaar.
- The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Een uiterst beknopt overzicht van het volledige proces. Meer een opzetcursus voor Johns Hopkins University’s Data Science Specialization. Beweert 4-16 uur inhoud te hebben (één-vier uur per week gedurende vier weken), hoewel één recensent opmerkte dat het in twee uur afgerond zou kunnen worden. Het heeft een 3,22-sterren gewogen gemiddelde beoordeling over 182 beoordelingen. Gratis en betaalde opties beschikbaar.
- Gegevensbeheer en -visualisatie (Wesleyan University/Coursera): Gedeeltelijke procesdekking (mist modellering). Vier weken in lengte. Goede productie waarde. Gebruikt Python en SAS. Het heeft een 2,67-sterren gewogen gemiddelde waardering over 6 beoordelingen. Gratis en betaalde opties beschikbaar.
De volgende cursussen hadden geen reviews per januari 2017.
- CS109 Data Science (Harvard University): Volledige procesdekking in grote diepte (waarschijnlijk te diepgaand voor het doel van deze reeks). Een volledige 12 weken durende cursus voor studenten. Cursusnavigatie is moeilijk omdat de cursus niet ontworpen is voor online gebruik. De echte Harvard-lezingen worden gefilmd. De bovenstaande infografiek van het data science-proces is afkomstig van deze cursus. Gebruikt Python. Geen evaluatiegegevens. Gratis.
- Inleiding tot data analytics voor het bedrijfsleven (University of Colorado Boulder/Coursera): Gedeeltelijke procesdekking (mist modellerings- en visualisatieaspecten) met een focus op het bedrijfsleven. Het data science proces is vermomd als de “Informatie-Actie Waardeketen” in hun lezingen. Vier weken in lengte. Beschrijft verschillende tools, maar behandelt alleen SQL in enige diepte. Geen evaluatiegegevens. Gratis en betaalde opties beschikbaar.
- Introduction to Data Science (Lynda): Volledige procesdekking, hoewel beperkte diepte van de dekking. Vrij kort (drie uur inhoud). Introduceert zowel R als Python. Geen evaluatiegegevens. Kosten afhankelijk van Lynda-abonnement.
Wrapping it Up
Dit is de derde van een zesdelige serie die de beste online cursussen behandelt om jezelf te lanceren in het veld van data science. In het eerste artikel hebben we het over programmeren gehad en in het tweede over statistiek en kansberekening. De rest van de serie zal andere data science-kerncompetenties behandelen: datavisualisatie en machine learning.
Als je Data Science wilt leren, begin dan met een van deze programmeerlessen
Als je Data Science wilt leren, volg dan een paar van deze statistieklessen
Het laatste stuk zal een samenvatting zijn van die artikelen, plus de beste online cursussen voor andere belangrijke onderwerpen, zoals data wrangling, databases en zelfs software engineering.
Als u op zoek bent naar een volledige lijst van Data Science online cursussen, kunt u deze vinden op Class Central’s Data Science en Big Data-onderwerppagina.
Als je dit leuk vond om te lezen, bekijk dan enkele andere stukken van Class Central:
Hier zijn 250 Ivy League-cursussen die je nu gratis online kunt volgen
250 MOOC’s van Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton en Yale.
De 50 beste gratis online universitaire cursussen volgens gegevens
Toen ik in november 2011 met Class Central begon, waren er ongeveer 18 gratis online cursussen, en bijna alle…
Als je suggesties hebt voor cursussen die ik heb gemist, laat het me dan weten in de reacties!
Als u dit nuttig vond, klik dan op de ? zodat meer mensen het hier op Medium zullen zien.
Dit is een verkorte versie van mijn oorspronkelijke artikel dat op Class Central is gepubliceerd, waar ik nog meer cursusbeschrijvingen, syllabi en meerdere beoordelingen heb opgenomen.