av David Venturi

För ett år sedan hoppade jag av ett av de bästa datavetenskapsprogrammen i Kanada. Jag började skapa mitt eget masterprogram i datavetenskap med hjälp av resurser på nätet. Jag insåg att jag kunde lära mig allt jag behövde genom edX, Coursera och Udacity istället. Och jag kunde lära mig det snabbare, effektivare och för en bråkdel av kostnaden.

Jag är nästan klar nu. Jag har tagit många datavetenskapsrelaterade kurser och auditerat delar av många fler. Jag vet vilka alternativ som finns och vilka färdigheter som behövs för elever som förbereder sig för en roll som dataanalytiker eller datavetare. För några månader sedan började jag skapa en granskningsdriven guide som rekommenderar de bästa kurserna för varje ämne inom datavetenskap.

För den första guiden i serien rekommenderade jag några kodningskurser för nybörjare inom datavetenskap. Därefter var det statistik- och sannolikhetskurser.

Nu till introduktioner till datavetenskap.

(Oroa dig inte om du är osäker på vad en introduktionskurs till datavetenskap innebär. Jag kommer att förklara inom kort.)

För den här guiden har jag tillbringat mer än 10 timmar med att försöka identifiera varje onlinekurs för introduktion till datavetenskap som erbjöds i januari 2017, extrahera viktig information från deras kursplaner och recensioner och sammanställa deras betyg. För denna uppgift vände jag mig till ingen annan än open source-gemenskapen Class Central och dess databas med tusentals kursbetyg och recensioner.

Class Centrals hemsida.

Sedan 2011 har Class Centrals grundare Dhawal Shah hållit ett närmare öga på onlinekurser än vad nog någon annan i världen har gjort. Dhawal hjälpte mig personligen att sammanställa den här listan över resurser.

Hur vi valde ut de kurser vi skulle överväga

Varje kurs måste uppfylla tre kriterier:

  1. Den måste lära ut datavetenskapsprocessen. Mer om det snart.
  2. Den måste vara on-demand eller erbjudas med några månaders mellanrum.
  3. Den måste vara en interaktiv online-kurs, så inga böcker eller handledningar som endast kan läsas. Även om dessa är bra sätt att lära sig är den här guiden inriktad på kurser.

Vi tror att vi har täckt alla kända kurser som uppfyller kriterierna ovan. Eftersom det till synes finns hundratals kurser på Udemy valde vi att endast ta hänsyn till de mest recenserade och högst rankade kurserna. Det finns dock alltid en chans att vi missat något. Så låt oss veta i kommentarsfältet om vi glömde bort en bra kurs.

Hur vi utvärderade kurser

Vi sammanställde genomsnittligt betyg och antal recensioner från Class Central och andra recensionssajter för att beräkna ett vägt genomsnittligt betyg för varje kurs. Vi läste textrecensioner och använde denna feedback för att komplettera de numeriska betygen.

Vi gjorde subjektiva bedömningar av kursplaner utifrån två faktorer:

1. Täckning av datavetenskapsprocessen. Överstrålar eller hoppar kursen över vissa ämnen? Täcker den vissa ämnen för detaljerat? Se nästa avsnitt om vad denna process innebär.

2. Användning av vanliga datavetenskapliga verktyg. Används populära programmeringsspråk som Python och/eller R i kursen? Dessa är inte nödvändiga, men nyttiga i de flesta fall, så dessa kurser ges något företräde.

Python och R är de två mest populära programmeringsspråken som används inom datavetenskap.

Vad är datavetenskapsprocessen?

Vad är datavetenskap? Vad gör en datavetare? Detta är den typ av grundläggande frågor som en introduktionskurs i datavetenskap bör besvara. Följande infografik från Harvardprofessorerna Joe Blitzstein och Hanspeter Pfister beskriver en typisk datavetenskapsprocess, vilket kommer att hjälpa oss att besvara dessa frågor.

Visualisering från Opera Solutions.

Vårt mål med den här introduktionskursen i datavetenskap är att vi ska bli bekanta med datavetenskapsprocessen. Vi vill inte ha en alltför djupgående täckning av specifika aspekter av processen, därav ”intro till” i titeln.

För varje aspekt förklarar den idealiska kursen nyckelbegrepp inom ramen för processen, introducerar vanliga verktyg och ger några exempel (helst praktiska).

Vi letar bara efter en introduktion. Den här guiden kommer därför inte att inkludera fullständiga specialiseringar eller program som Johns Hopkins Universitys Data Science Specialization på Coursera eller Udacitys Data Analyst Nanodegree. Dessa sammanställningar av kurser undviker syftet med den här serien: att hitta de bästa enskilda kurserna för varje ämne som utgör en utbildning i datavetenskap. De tre sista guiderna i denna artikelserie kommer att täcka varje aspekt av datavetenskapsprocessen i detalj.

Grundläggande erfarenhet av kodning, statistik och sannolikhet krävs

Flera kurser som listas nedan kräver grundläggande erfarenhet av programmering, statistik och sannolikhet. Detta krav är förståeligt med tanke på att det nya innehållet är relativt avancerat och att dessa ämnen ofta har flera kurser som ägnas åt dem.

Denna erfarenhet kan förvärvas genom våra rekommendationer i de två första artiklarna (programmering, statistik) i denna karriärguide för datavetenskap.

Vårt val av den bästa introduktionskursen till datavetenskap är…

  • Data Science A-Z™: Kirill Eremenko/Udemy)

Kirill Eremenkos Data Science A-Z™ på Udemy är den klara vinnaren när det gäller bredd och djup i täckningen av datavetenskapsprocessen av de över 20 kurser som kvalificerade sig. Den har ett vägt genomsnittligt betyg på 4,5 stjärnor över 3 071 recensioner, vilket placerar den bland de högst betygsatta och mest recenserade kurserna av de som övervägdes.

Den beskriver hela processen och ger exempel från det verkliga livet. Med 21 timmars innehåll är det en bra längd. Recensenterna älskar instruktörens leverans och organiseringen av innehållet. Priset varierar beroende på Udemy-rabatter, som är frekventa, så du kanske kan köpa tillgång för så lite som 10 dollar.

Trots att den inte kryssar i vår ruta ”användning av vanliga datavetenskapliga verktyg” används de verktyg som inte är Python/R-verktyg (gretl, Tableau, Excel) på ett effektivt sätt i sammanhanget. Eremenko nämner följande när han förklarar valet av gretl (gretl är ett statistiskt programpaket), även om det gäller för alla de verktyg han använder (betoning av mig):

I gretl kommer vi att kunna göra samma modellering som i R och Python, men vi behöver inte koda. Det är det som är den stora grejen här. En del av er kanske redan känner till R mycket väl, men en del kanske inte känner till det alls. Mitt mål är att visa er hur man bygger en robust modell och ge er ett ramverk som ni kan tillämpa i vilket verktyg som helst. gretl kommer att hjälpa oss att undvika att fastna i vår kodning.

En framstående recensent noterade följande:

Kirill är den bästa läraren jag har hittat på nätet. Han använder exempel från verkliga livet och förklarar vanliga problem så att man får en djupare förståelse för kursarbetet. Han ger också en hel del insikt om vad det innebär att vara datavetare, från att arbeta med otillräckliga data hela vägen till att presentera sitt arbete för ledningen i C-klass. Jag rekommenderar starkt den här kursen för nybörjarstudenter till avancerade dataanalytiker!

En bra Python-fokuserad introduktion

  • Intro to Data Analysis (Udacity)

Udacitys Intro to Data Analysis är ett relativt nytt erbjudande som ingår i Udacitys populära dataanalytiker Nanodegree. Den täcker datavetenskapsprocessen på ett tydligt och sammanhängande sätt med hjälp av Python, även om den saknar lite i modelleringsaspekten. Den beräknade tidsåtgången är 36 timmar (sex timmar per vecka under sex veckor), även om den enligt min erfarenhet är kortare. Den har ett 5-stjärnigt vägt genomsnittligt betyg över två recensioner. Den är gratis.

Videorna är välproducerade och instruktören (Caroline Buckey) är tydlig och personlig. Massor av frågesporter om programmering förstärker de begrepp som lärs ut i videorna. Eleverna kommer att lämna kursen med självförtroende för sina nya och/eller förbättrade NumPy- och Pandas-kunskaper (detta är populära Pythonbibliotek). Slutprojektet – som betygsätts och granskas i Nanodegree men inte i den kostnadsfria individuella kursen – kan vara ett trevligt tillägg till en portfölj.

Ett imponerande erbjudande utan granskningsdata

  • Data Science Fundamentals (Big Data University)

Data Science Fundamentals är en serie på fyra kurser som tillhandahålls av IBM:s Big Data University. Den omfattar kurserna Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools och R 101.

Den täcker hela datavetenskapsprocessen och introducerar Python, R och flera andra verktyg med öppen källkod. Kurserna har ett enormt produktionsvärde. 13-18 timmars insats uppskattas, beroende på om du tar kursen ”R 101” i slutet, vilket inte är nödvändigt för syftet med den här guiden. Tyvärr har den inga recensionsdata på de stora recensionssajter som vi använde för den här analysen, så vi kan inte rekommendera den jämfört med de två ovanstående alternativen ännu. Det är gratis.

Konkurrensen

Vårt förstahandsval hade ett vägt genomsnittligt betyg på 4,5 av 5 stjärnor över 3 068 recensioner. Låt oss titta på de andra alternativen, sorterade efter fallande betyg. Nedan hittar du flera R-fokuserade kurser, om du är inställd på en introduktion i det språket.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Fullständig processtäckning med ett verktygstungt fokus (Python). Mindre processdriven och mer av en mycket detaljerad introduktion till Python. Fantastisk kurs, även om den inte är idealisk för omfattningen av den här guiden. Den, liksom Joses R-kurs nedan, kan fungera både som introduktion till Python/R och introduktion till datavetenskap. 21,5 timmars innehåll. Den har ett vägt genomsnittligt betyg på 4,7 stjärnor över 1 644 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
  • Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Fullständig processtäckning med ett verktygstungt fokus (R). Mindre processdriven och mer av en mycket detaljerad introduktion till R. Fantastisk kurs, även om den inte är idealisk för omfattningen av den här guiden. Den, liksom Joses Python-kurs ovan, kan fungera både som introduktion till Python/R och introduktion till datavetenskap. 18 timmars innehåll. Den har ett vägt genomsnittligt betyg på 4,6 stjärnor över 847 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
Jose Portilla har två Bootcamps för datavetenskap och maskininlärning på Udemy: ett för Python och ett för R.
  • Datavetenskap och maskininlärning med Python – Hands On! (Frank Kane/Udemy): Partiell processtäckning. Fokuserar på statistik och maskininlärning. Anständig längd (nio timmars innehåll). Använder Python. Den har ett vägt genomsnittligt betyg på 4,5 stjärnor över 3 104 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
  • Introduktion till datavetenskap (Data Hawk Tech/Udemy): Fullständig processtäckning, men begränsat djup i täckningen. Ganska kort (tre timmars innehåll). Täcker kortfattat både R och Python. Den har ett vägt genomsnittligt betyg på 4,4 stjärnor över 62 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
  • Tillämpad datavetenskap: An Introduction (Syracuse University/Open Education by Blackboard): Fullständig processtäckning, även om den inte är jämnt fördelad. Fokuserar starkt på grundläggande statistik och R. För tillämpad och inte tillräckligt processfokus för syftet med den här guiden. Upplevelsen av onlinekursen känns splittrad. Den har ett vägt genomsnittligt betyg på 4,33 stjärnor över 6 recensioner. Gratis.
  • Introduktion till datavetenskap (Nina Zumel & John Mount/Udemy): Endast partiell processtäckning, men bra djup i dataförberedelse- och modelleringsaspekterna. Okej längd (sex timmars innehåll). Använder R. Den har ett vägt genomsnittligt betyg på 4,3 stjärnor i 101 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
  • Applied Data Science with Python (V2 Maestros/Udemy): Det är en mycket bra lösning för varje aspekt av processen. Anständig längd (8,5 timmars innehåll). Använder Python. Den har ett vägt genomsnittligt betyg på 4,3 stjärnor över 92 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.

V2 Maestros har två versioner av sin kurs ”Applied Data Science”: en för Python och en för R.
  • Vill du bli en datavetare? (V2 Maestros/Udemy): Fullständig processtäckning, men begränsat djup i täckningen. Ganska kort (3 timmars innehåll). Begränsad verktygstäckning. Den har ett vägt genomsnittligt betyg på 4,3 stjärnor över 790 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
  • Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Bredden på täckningen är oklar. Påstår sig fokusera på utforskning, upptäckt och visualisering av data. Erbjuds inte på begäran. 24 timmars innehåll (tre timmar per vecka under åtta veckor). Den har ett 4-stjärnigt vägt genomsnittligt betyg över 2 recensioner. Gratis med betalt certifikat tillgängligt.
  • Data Science Orientation (Microsoft/edX): Delvis processtäckning (saknar modelleringsaspekt). Använder Excel, vilket är logiskt med tanke på att det är en Microsoft-märkt kurs. 12-24 timmars innehåll (två-fyra timmar per vecka under sex veckor). Den har ett vägt genomsnittligt betyg på 3,95 stjärnor i 40 recensioner. Gratis med verifierat certifikat tillgängligt för 25 dollar.
  • Data Science Essentials (Microsoft/edX): Fullständig processtäckning med god djupgående täckning för varje aspekt. Täcker R, Python och Azure ML (en plattform för maskininlärning från Microsoft). Flera 1-stjärniga recensioner med hänvisning till val av verktyg (Azure ML) och instruktörens dåliga leverans. 18-24 timmars innehåll (tre-fyra timmar per vecka under sex veckor). Kursen har ett vägt genomsnittligt betyg på 3,81 stjärnor i 67 recensioner. Gratis med verifierat certifikat tillgängligt för 49 dollar.
De två ovanstående kurserna är från Microsofts Professional Program Certificate in Data Science på edX.
  • Applied Data Science with R (V2 Maestros/Udemy): R-kompaniet till V2 Maestros Python-kurs ovan. Fullständig processtäckning med bra djupgående täckning för varje aspekt av processen. Anständig längd (11 timmars innehåll). Använder R. Den har ett vägt genomsnittligt betyg på 3,8 stjärnor i 212 recensioner. Kostnaden varierar beroende på Udemy-rabatter, som är frekventa.
  • Intro to Data Science (Udacity): Delvis processtäckning, men bra djup för de ämnen som behandlas. Saknar utforskningsaspekten, även om Udacity har en bra, fullständig kurs om explorativ dataanalys (EDA). Påstår sig vara 48 timmar lång (sex timmar per vecka under åtta veckor), men är kortare enligt min erfarenhet. Vissa recensioner anser att upplägget till det avancerade innehållet är bristfälligt. Känns oorganiserat. Använder Python. Den har en 3.61-stjärnigt vägt genomsnittligt betyg på 18 recensioner. Gratis.
  • Introduktion till datavetenskap i Python (University of Michigan/Coursera): Partiell processtäckning. Ingen modellering och visualisering, även om kurserna #2 och #3 i Applied Data Science with Python Specialization täcker dessa aspekter. Att ta alla tre kurserna skulle vara för djupgående för syftet med dessa guider. Använder Python. Fyra veckors längd. Den har ett vägt genomsnittligt betyg på 3,6 stjärnor över 15 recensioner. Gratis och betalda alternativ finns tillgängliga.

Universitetet i Michigan undervisar i Applied Data Science with Python Specialization på Coursera.
  • Data-driven Decision Making (PwC/Coursera): Partiell täckning (saknar modellering) med fokus på affärsverksamhet. Introduktion av många verktyg, inklusive R, Python, Excel, SAS och Tableau. Längd: fyra veckor. Den har ett vägt genomsnittligt betyg på 3,5 stjärnor i 2 recensioner. Gratis och betalda alternativ finns tillgängliga.
  • A Crash Course in Data Science (Johns Hopkins University/Coursera): En extremt kortfattad översikt över hela processen. För kortfattad för syftet med den här serien. Två timmars längd. Den har ett vägt genomsnittligt betyg på 3,4 stjärnor över 19 recensioner. Gratis och betalda alternativ finns tillgängliga.
  • The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): En extremt kortfattad översikt över hela processen. Mer av en förberedande kurs för Johns Hopkins University’s Data Science Specialization. Påstår sig ha 4-16 timmars innehåll (en fyra timmar per vecka under fyra veckor), även om en recensent noterade att den kan genomföras på två timmar. Den har ett vägt genomsnittligt betyg på 3,22 stjärnor över 182 recensioner. Gratis och betalda alternativ finns tillgängliga.
  • Data Management and Visualization (Wesleyan University/Coursera): Delvis processtäckning (saknar modellering). Fyra veckors längd. Bra produktionsvärde. Använder Python och SAS. Den har ett vägt genomsnittligt betyg på 2,67 stjärnor över 6 recensioner. Gratis och betalda alternativ finns tillgängliga.

Följande kurser hade inga recensioner i januari 2017.

  • CS109 Data Science (Harvard University): Full process täckning på stort djup (förmodligen för djupgående för syftet med den här serien). En fullständig grundkurs på 12 veckor. Kursnavigering är svår eftersom kursen inte är utformad för konsumtion online. De faktiska Harvard-föreläsningarna är filmade. Ovanstående infografik över datavetenskapsprocessen har sitt ursprung i denna kurs. Använder Python. Inga granskningsuppgifter. Gratis.
Den presenterade viz på Harvard CS109:s hemsida.
  • Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Delvis processtäckning (saknar modellering och visualiseringsaspekter) med fokus på företag. Datavetenskapsprocessen är förklädd till ”Information-Action Value chain” i deras föreläsningar. Fyra veckors längd. Beskriver flera verktyg, men täcker endast SQL på något djup. Inga granskningsdata. Gratis och betalda alternativ finns tillgängliga.
  • Introduction to Data Science (Lynda): Fullständig processtäckning, men begränsat djup i täckningen. Ganska kort (tre timmars innehåll). Introduktion till både R och Python. Inga granskningsdata. Kostnaden beror på Lynda-prenumeration.

Wrapping it Up

Detta är den tredje delen i en serie på sex stycken som behandlar de bästa onlinekurserna för att lansera dig själv inom datavetenskap. Vi behandlade programmering i den första artikeln och statistik och sannolikhet i den andra artikeln. Resten av serien kommer att täcka andra datavetenskapliga kärnkompetenser: datavisualisering och maskininlärning.

Om du vill lära dig datavetenskap, börja med en av de här programmeringskurserna

Om du vill lära dig datavetenskap, ta några av de här statistikkurserna

Det sista avsnittet kommer att vara en sammanfattning av de här artiklarna, plus de bästa online-kurserna för andra viktiga ämnen, till exempel datafrågor, databaser och till och med programvaruteknik.

Om du letar efter en fullständig lista över onlinekurser i datavetenskap kan du hitta dem på Class Centrals ämnessida för datavetenskap och big data.

Om du gillade att läsa det här kan du kolla in några av Class Centrals andra artiklar:

Här är 250 Ivy League-kurser som du kan ta online just nu gratis
250 MOOC:s från Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton och Yale.

De 50 bästa gratis universitetskurserna online enligt data
När jag lanserade Class Central i november 2011 fanns det runt 18 eller så gratis onlinekurser, och nästan alla…

Om du har förslag på kurser som jag missat, låt mig veta i svaren!

Om du tyckte att det här var till hjälp, klicka på ? så att fler kan se det här på Medium.

Det här är en komprimerad version av min ursprungliga artikel som publicerades på Class Central, där jag har inkluderat ytterligare kursbeskrivningar, kursplaner och flera recensioner.

Lämna ett svar

Din e-postadress kommer inte publiceras.