af David Venturi

For et år siden droppede jeg ud af et af de bedste datalogiuddannelser i Canada. Jeg begyndte at skabe mit eget masterprogram i datalogi ved hjælp af online ressourcer. Det gik op for mig, at jeg kunne lære alt det, jeg havde brug for, gennem edX, Coursera og Udacity i stedet. Og jeg kunne lære det hurtigere, mere effektivt og for en brøkdel af prisen.

Jeg er næsten færdig nu. Jeg har taget mange datalogi-relaterede kurser og auditeret dele af mange flere. Jeg kender mulighederne derude, og jeg ved, hvilke færdigheder der er nødvendige for elever, der forbereder sig på en rolle som dataanalytiker eller datavidenskabsmand. For et par måneder siden begyndte jeg at oprette en oversigtsdrevet guide, der anbefaler de bedste kurser for hvert emne inden for datavidenskab.

I den første guide i serien anbefalede jeg et par kodningskurser til den begyndende datavidenskabsmand. Derefter var det statistikker og sandsynlighedskurser.

Nu til introduktioner til datavidenskab.

(Bare rolig, hvis du er usikker på, hvad et introkursus til datavidenskab indebærer. Jeg vil forklare det om lidt.)

For denne guide brugte jeg 10+ timer på at forsøge at identificere alle online intro til datavidenskabskursus, der blev tilbudt i januar 2017, udtrække vigtige oplysninger fra deres undervisningsplaner og anmeldelser og kompilere deres vurderinger. Til denne opgave henvendte jeg mig til ingen anden end open source-fællesskabet Class Central og dets database med tusindvis af kursusvurderinger og anmeldelser.

Class Central’s hjemmeside.

Siden 2011 har Class Central-stifteren Dhawal Shah holdt et tættere øje med online-kurser end vel nok nogen anden i verden. Dhawal hjalp mig personligt med at samle denne liste over ressourcer.

Sådan valgte vi de kurser, vi skulle overveje

Hvert kursus skal opfylde tre kriterier:

  1. Det skal undervise i datalogiprocessen. Mere om det snart.
  2. Det skal være on-demand eller udbydes med få måneders mellemrum.
  3. Det skal være et interaktivt onlinekursus, så ingen bøger eller vejledninger, der kun er til at læse. Selv om disse er brugbare måder at lære på, fokuserer denne vejledning på kurser.

Vi mener, at vi har dækket alle bemærkelsesværdige kurser, der opfylder ovenstående kriterier. Da der tilsyneladende er hundredvis af kurser på Udemy, har vi valgt kun at tage hensyn til de mest anmeldte og højest vurderede kurser. Der er dog altid en chance for, at vi har overset noget. Så lad os vide i kommentarfeltet, hvis vi har udeladt et godt kursus.

Sådan har vi evalueret kurser

Vi har samlet den gennemsnitlige bedømmelse og antallet af anmeldelser fra Class Central og andre anmeldelsessider for at beregne en vægtet gennemsnitlig bedømmelse for hvert kursus. Vi læste tekstanmeldelser og brugte denne feedback til at supplere de numeriske bedømmelser.

Vi foretog subjektive bedømmelser af pensum baseret på to faktorer:

1. Dækning af datalogiprocessen. Overstreger eller springer kurset visse emner over eller springer over? Dækker det visse emner for detaljeret? Se næste afsnit om, hvad denne proces indebærer.

2. Anvendelse af almindelige datavidenskabsværktøjer. Undervises der i kurset ved hjælp af populære programmeringssprog som Python og/eller R? Disse er ikke nødvendige, men nyttige i de fleste tilfælde, så der gives en lille præference til disse kurser.

Python og R er de to mest populære programmeringssprog, der anvendes inden for datalogi.

Hvad er datalogiprocessen?

Hvad er datalogi? Hvad laver en datavidenskabsmand? Det er den type grundlæggende spørgsmål, som et introkursus i datavidenskab bør besvare. Følgende infografik fra Harvard-professorerne Joe Blitzstein og Hanspeter Pfister skitserer en typisk datavidenskabsproces, som vil hjælpe os med at besvare disse spørgsmål.

Visualisering fra Opera Solutions.

Vores mål med dette introduktionskursus i datavidenskab er at blive fortrolig med datavidenskabsprocessen. Vi ønsker ikke en alt for dybdegående dækning af specifikke aspekter af processen, deraf “intro til”-delen af titlen.

For hvert aspekt forklarer det ideelle kursus nøglebegreber inden for rammerne af processen, introducerer almindelige værktøjer og giver et par eksempler (helst hands-on).

Vi leder kun efter en introduktion. Denne guide vil derfor ikke omfatte fulde specialiseringer eller programmer som Johns Hopkins University’s Data Science Specialization på Coursera eller Udacity’s Data Analyst Nanodegree. Disse sammenstillinger af kurser unddrager sig formålet med denne serie: at finde de bedste individuelle kurser for hvert emne, der kan udgøre en data science-uddannelse. De sidste tre vejledninger i denne artikelserie vil dække hvert aspekt af data science-processen i detaljer.

Grundlæggende erfaring med kodning, statistik og sandsynlighed kræves

Flere af de kurser, der er anført nedenfor, kræver grundlæggende erfaring med programmering, statistik og sandsynlighed. Dette krav er forståeligt, da det nye indhold er rimeligt avanceret, og da disse emner ofte har flere kurser dedikeret til dem.

Denne erfaring kan erhverves gennem vores anbefalinger i de to første artikler (programmering, statistik) i denne Data Science Career Guide.

Vores valg til det bedste introkursus til datalogi er…

  • Data Science A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)

Kirill Eremenkos Data Science A-Z™ på Udemy er den klare vinder med hensyn til bredden og dybden af dækningen af data science-processen blandt de over 20 kurser, der kvalificerede sig. Det har en vægtet gennemsnitlig bedømmelse på 4,5 stjerner over 3.071 anmeldelser, hvilket placerer det blandt de højest bedømte og mest anmeldte kurser af dem, der blev overvejet.

Det skitserer hele processen og giver eksempler fra det virkelige liv. Med et indhold på 21 timer er det en god længde. Anmelderne er glade for instruktørens formidling og organiseringen af indholdet. Prisen varierer afhængigt af Udemy-rabatter, som er hyppige, så du kan måske købe adgang for så lidt som 10 $.

Selv om den ikke afkrydser vores “brug af almindelige datavidenskabsværktøjer” boks, bruges de ikke-Python/R-værktøjsvalg (gretl, Tableau, Excel) effektivt i kontekst. Eremenko nævner følgende, når han forklarer valget af gretl (gretl er en statistisk softwarepakke), selv om det gælder for alle de værktøjer, han bruger (min understregning):

I gretl vil vi kunne lave den samme modellering ligesom i R og Python, men vi behøver ikke at kode. Det er det, der er det store problem her. Nogle af jer kender måske allerede R meget godt, men nogle kender det måske slet ikke. Mit mål er at vise jer, hvordan I kan opbygge en robust model og give jer en ramme, som I kan anvende i et hvilket som helst værktøj, I vælger. gretl vil hjælpe os med at undgå at gå i stå i vores kodning.

En fremtrædende anmelder bemærkede følgende:

Kirill er den bedste lærer, jeg har fundet online. Han bruger eksempler fra det virkelige liv og forklarer almindelige problemer, så man får en dybere forståelse af kursusarbejdet. Han giver også en masse indsigt i, hvad det vil sige at være datavidenskabsmand fra arbejdet med utilstrækkelige data hele vejen til at præsentere dit arbejde for ledelsen på C-niveau. Jeg kan varmt anbefale dette kursus til begyndere til mellemliggende dataanalytikere!

En god Python-fokuseret introduktion

  • Intro to Data Analysis (Udacity)

Udacitys Intro to Data Analysis er et relativt nyt tilbud, der er en del af Udacitys populære Data Analyst Nanodegree. Den dækker datalogiprocessen klart og sammenhængende ved hjælp af Python, selv om den mangler en smule i modelleringsaspektet. Den estimerede tidslinje er 36 timer (seks timer om ugen over seks uger), selv om den efter min erfaring er kortere. Den har en 5-stjernet vægtet gennemsnitsvurdering over to anmeldelser. Det er gratis.

Videoerne er velproducerede, og instruktøren (Caroline Buckey) er tydelig og sympatisk. Masser af programmeringsquizzer håndhæver de begreber, der er lært i videoerne. De studerende vil forlade kurset med tillid til deres nye og/eller forbedrede NumPy- og Pandas-færdigheder (det er populære Python-biblioteker). Det endelige projekt – som bliver bedømt og gennemgået i Nanodegree, men ikke i det gratis individuelle kursus – kan være et godt supplement til en portefølje.

Et imponerende tilbud uden bedømmelsesdata

  • Data Science Fundamentals (Big Data University)

Data Science Fundamentals er en serie på fire kurser, der udbydes af IBM’s Big Data University. Den omfatter kurser med titlerne Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools og R 101.

Den dækker hele data science-processen og introducerer Python, R og flere andre open source-værktøjer. Kurserne har en enorm produktionsværdi. Der regnes med 13-18 timers indsats, afhængigt af om du tager “R 101”-kurset til sidst, hvilket ikke er nødvendigt i forbindelse med denne guide. Desværre har den ingen anmeldelsesdata på de store anmeldelsessider, som vi har brugt til denne analyse, så vi kan endnu ikke anbefale den frem for de to ovenstående muligheder. Det er gratis.

Konkurrencen

Vores #1 valg havde en vægtet gennemsnitlig bedømmelse på 4,5 ud af 5 stjerner over 3.068 anmeldelser. Lad os se på de andre alternativer, sorteret efter faldende bedømmelse. Nedenfor finder du flere R-fokuserede kurser, hvis du er indstillet på en introduktion i dette sprog.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Fuld procesdækning med et værktøjstungt fokus (Python). Mindre procesdrevet og mere af en meget detaljeret intro til Python. Fantastisk kursus, men ikke ideelt for omfanget af denne guide. Det kan, ligesom Jose’s R-kursus nedenfor, fungere både som introduktion til Python/R og introduktion til datalogi. 21,5 timers indhold. Det har en 4,7-stjernet vægtet gennemsnitsbedømmelse på 4,7 stjerner over 1.644 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Fuld procesdækning med et værktøjstungt fokus (R). Mindre procesdrevet og mere en meget detaljeret intro til R. Fantastisk kursus, men ikke ideelt for omfanget af denne guide. Det kan ligesom Jose’s Python-kursus ovenfor fungere både som introduktion til Python/R og introduktion til datalogi. 18 timers indhold. Det har en 4,6-stjernet vægtet gennemsnitlig bedømmelse over 847 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.

Jose Portilla har to Data Science and Machine Learning Bootcamps på Udemy: en for Python og en for R.
  • Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Delvis dækning af processer. Fokuserer på statistik og maskinlæring. Anstændig længde (ni timers indhold). Bruger Python. Den har en 4,5-stjernet vægtet gennemsnitsbedømmelse over 3.104 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Introduction to Data Science (Data Hawk Tech/Udemy): Fuld procesdækning, dog begrænset dybde af dækning. Ret kort (tre timers indhold). Dækker kortvarigt både R og Python. Den har en 4,4-stjernet vægtet gennemsnitsvurdering over 62 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Fuld procesdækning, men ikke jævnt fordelt. Stærkt fokuseret på grundlæggende statistik og R. For anvendt og ikke nok procesfokus til formålet med denne guide. Online kursusoplevelse føles usammenhængende. Den har en 4,33-stjernet vægtet gennemsnitsbedømmelse på 4,33 stjerner over 6 anmeldelser. Gratis.
  • Introduction To Data Science (Nina Zumel & John Mount/Udemy): Kun delvis procesdækning, men god dybde i datapræparation og modelleringsaspekter. Okay længde (seks timers indhold). Bruger R. Den har en 4,3-stjernet vægtet gennemsnitsvurdering over 101 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Applied Data Science with Python (V2 Maestros/Udemy): Fuld procesdækning med god dybde af dækning for hvert aspekt af processen. Anstændig længde (8,5 timers indhold). Bruger Python. Den har en 4,3-stjernet vægtet gennemsnitsvurdering på 4,3 stjerner over 92 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
V2 Maestros har to versioner af deres “Applied Data Science”-kursus: en til Python og en til R.
  • Vil du være datavidenskabsmand? (V2 Maestros/Udemy): Fuld procesdækning, dog begrænset dybde i dækningen. Ret kort (3 timers indhold). Begrænset værktøjsdækning. Den har en 4,3-stjernet vægtet gennemsnitsvurdering på 4,3 stjerner over 790 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatterne, som er hyppige.
  • Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Bredde af dækning uklar. Påstår at fokusere på dataudforskning, -opdagelse og -visualisering. Udbydes ikke på forespørgsel. 24 timers indhold (tre timer om ugen over otte uger). Den har en 4-stjernet vægtet gennemsnitsbedømmelse over 2 anmeldelser. Gratis med betalt certifikat tilgængeligt.
  • Data Science Orientation (Microsoft/edX): Delvis procesdækning (mangler modelleringsaspekt). Bruger Excel, hvilket giver mening, da det er et kursus med Microsoft-mærket. 12-24 timers indhold (to-fire timer om ugen over seks uger). Det har en vægtet gennemsnitlig bedømmelse på 3,95 stjerner i 40 anmeldelser. Gratis med verificeret certifikat til rådighed for $25.
  • Data Science Essentials (Microsoft/edX): Fuld procesdækning med god dybde af dækning for hvert aspekt. Dækker R, Python og Azure ML (en Microsoft machine learning platform). Flere 1-stjernede anmeldelser med henvisning til værktøjsvalg (Azure ML) og instruktørens dårlige formidling. 18-24 timers indhold (tre-fire timer om ugen over seks uger). Den har en vægtet gennemsnitlig bedømmelse på 3,81 stjerner i 67 anmeldelser. Gratis med verificeret certifikat til rådighed for $49.

De to ovenstående kurser er fra Microsofts Professional Program Certificate in Data Science på edX.
  • Applied Data Science with R (V2 Maestros/Udemy): R-kompagniet til V2 Maestros’ Python-kursus ovenfor. Fuld procesdækning med god dybde for hvert aspekt af processen. Anstændig længde (11 timers indhold). Bruger R. Det har en vægtet gennemsnitlig bedømmelse på 3,8 stjerner over 212 anmeldelser. Omkostningerne varierer afhængigt af Udemy-rabatter, som er hyppige.
  • Intro to Data Science (Udacity): Delvis procesdækning, men god dybde for de emner, der dækkes. Mangler udforskningsaspektet, selv om Udacity har et godt, komplet kursus om udforskende dataanalyse (EDA). Påstår at være 48 timer lang (seks timer om ugen over otte uger), men er kortere efter min erfaring. Nogle anmeldelser mener, at opsætningen til det avancerede indhold er mangelfuld. Føles uorganiseret. Bruger Python. Det har en 3.61-stjernet vægtet gennemsnitlig bedømmelse over 18 anmeldelser. Gratis.
  • Introduktion til datalogi i Python (University of Michigan/Coursera): Partial process coverage. Ingen modellering og vizualisering, selvom kurserne #2 og #3 i Applied Data Science with Python Specialization dækker disse aspekter. At tage alle tre kurser ville være for dybtgående i forhold til formålet med denne vejledning. Bruger Python. Fire uger i længden. Det har en vægtet gennemsnitlig bedømmelse på 3,6 stjerner over 15 anmeldelser. Der findes gratis og betalte muligheder.
University of Michigan underviser i Applied Data Science with Python Specialization på Coursera.
  • Data-driven Decision Making (PwC/Coursera): Delvis dækning (mangler modellering) med et forretningsfokus. Introducerer mange værktøjer, herunder R, Python, Excel, SAS og Tableau. Fire ugers varighed. Den har en vægtet gennemsnitlig bedømmelse på 3,5 stjerner over 2 anmeldelser. Der findes gratis og betalte muligheder.
  • A Crash Course in Data Science (Johns Hopkins University/Coursera): En ekstremt kort oversigt over den fulde proces. For kort i forhold til formålet med denne serie. To timer i længden. Den har en vægtet gennemsnitlig bedømmelse på 3,4 stjerner over 19 anmeldelser. Der findes gratis og betalte muligheder.
  • The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): En ekstremt kort oversigt over den fulde proces. Mere et opsætningskursus for Johns Hopkins University’s Data Science Specialization. Påstår at have 4-16 timers indhold (en-fire timer om ugen over fire uger), selvom en anmelder bemærkede, at det kunne gennemføres på to timer. Det har en 3,22-stjernet vægtet gennemsnitsbedømmelse over 182 anmeldelser. Der findes gratis og betalte muligheder.
  • Data Management and Visualization (Wesleyan University/Coursera): Delvis procesdækning (mangler modellering). Fire uger i længden. God produktionsværdi. Bruger Python og SAS. Den har en 2,67-stjernet vægtet gennemsnitsvurdering over 6 anmeldelser. Der findes gratis og betalte muligheder.

De følgende kurser havde ingen anmeldelser pr. januar 2017.

  • CS109 Data Science (Harvard University): Fuld procesdækning i stor dybde (sandsynligvis for dybdegående i forhold til formålet med denne serie). Et fuldt 12-ugers bachelor-kursus på 12 uger. Kursusnavigation er vanskelig, da kurset ikke er designet til online forbrug. De faktiske Harvard-forelæsninger er filmet. Ovenstående infografik om datavidenskabsprocessen stammer fra dette kursus. Bruger Python. Ingen evalueringsdata. Gratis.
Den fremhævede viz på Harvard CS109’s hjemmeside.
  • Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Delvis procesdækning (mangler modellerings- og visualiseringsaspekter) med fokus på erhvervslivet. Data science processen er forklædt som “Information-Action Value chain” i deres forelæsninger. Fire uger i længden. Beskriver flere værktøjer, men dækker dog kun SQL i nogen dybde. Ingen gennemgang af data. Der findes gratis og betalte muligheder.
  • Introduction to Data Science (Lynda): Fuld procesdækning, men begrænset dybde i dækningen. Ret kort (tre timers indhold). Introducerer både R og Python. Ingen gennemgang af data. Omkostningerne afhænger af Lynda-abonnementet.

Wrapping it Up

Dette er den tredje del af en serie i seks dele, der dækker de bedste onlinekurser til at starte dig selv i data science-området. Vi dækkede programmering i den første artikel og statistik og sandsynlighed i den anden artikel. Resten af serien vil dække andre datavidenskabelige kernekompetencer: datavisualisering og maskinlæring.

Hvis du vil lære datavidenskab, så start med et af disse programmeringskurser

Hvis du vil lære datavidenskab, så tag et par af disse statistikkurser

Den sidste del vil være et resumé af disse artikler plus de bedste onlinekurser for andre nøgleemner såsom data wrangling, databaser og endda software engineering.

Hvis du leder efter en komplet liste over online kurser i datalogi, kan du finde dem på Class Central’s Data Science and Big Data emne side.

Hvis du nød at læse dette, så tjek nogle af Class Central’s andre artikler:

Her er 250 Ivy League-kurser, som du kan tage online lige nu gratis
250 MOOC’er fra Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton og Yale.

De 50 bedste gratis online universitetskurser ifølge data
Da jeg lancerede Class Central tilbage i november 2011, var der omkring 18 eller så gratis online kurser, og næsten alle…

Hvis du har forslag til kurser, jeg har overset, så lad mig vide det i svarene!

Hvis du fandt dette nyttigt, så klik på ? så flere mennesker kan se det her på Medium.

Dette er en kondenseret version af min oprindelige artikel offentliggjort på Class Central, hvor jeg har inkluderet yderligere kursusbeskrivelser, undervisningsplaner og flere anmeldelser.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.