by David Venturi

Vuosi sitten jättäydyin pois yhdestä Kanadan parhaista tietojenkäsittelytieteen ohjelmista. Aloin luoda omaa datatieteen maisteriohjelmaani verkkoresursseja hyödyntäen. Tajusin, että voisin sen sijaan oppia kaiken tarvitsemani edX:n, Courseran ja Udacityn kautta. Ja voisin oppia sen nopeammin, tehokkaammin ja murto-osalla kustannuksista.

Olen nyt melkein valmis. Olen käynyt monia datatieteeseen liittyviä kursseja ja auditoinut osia monista muista. Tiedän, mitä vaihtoehtoja on tarjolla ja mitä taitoja data-analyytikon tai datatieteilijän tehtävään valmistautuvilta oppijoilta vaaditaan. Muutama kuukausi sitten aloin luoda arvostelupohjaista opasta, jossa suosittelen parhaita kursseja kuhunkin datatieteen alaan kuuluvaan aiheeseen.

Sarjan ensimmäisessä oppaassa suosittelin muutamia koodauskursseja aloittelevalle datatieteilijälle. Sitten vuorossa oli tilasto- ja todennäköisyyskursseja.

Nyt on vuorossa johdantokurssit datatieteeseen.

(Älä huoli, jos et ole varma siitä, mitä johdantokurssi datatieteeseen pitää sisällään. Selitän pian.)

Vietin tätä opasta varten yli 10 tuntia yrittäessäni tunnistaa jokaisen tammikuussa 2017 tarjotun datatieteen johdantokurssin, poimin keskeiset tiedot niiden opetussuunnitelmista ja arvosteluista sekä kokosin niiden arvosanat. Tätä tehtävää varten käännyin kenenkään muun kuin avoimen lähdekoodin Class Central -yhteisön ja sen tuhansia kurssiarvioita ja -arvosteluja sisältävän tietokannan puoleen.

Class Centralin etusivu.

Class Centralin perustaja Dhawal Shah on vuodesta 2011 lähtien pitänyt verkkokursseja tiiviimmin silmällä kuin luultavasti kukaan muu maailmassa. Dhawal auttoi minua henkilökohtaisesti kokoamaan tämän resurssiluettelon.

Miten valitsimme huomioon otettavat kurssit

Kunkin kurssin on täytettävä kolme kriteeriä:

  1. Sen on opetettava datatieteen prosessia. Siitä lisää pian.
  2. Sen on oltava tilauskurssi tai sitä on tarjottava muutaman kuukauden välein.
  3. Sen on oltava interaktiivinen verkkokurssi, ei siis mitään kirjoja tai pelkkiä lukuoppaita. Vaikka nämäkin ovat käyttökelpoisia tapoja oppia, tässä oppaassa keskitytään kursseihin.

Uskomme, että olemme käsitelleet kaikki merkittävät kurssit, jotka täyttävät edellä mainitut kriteerit. Koska Udemyssä on näennäisesti satoja kursseja, päätimme ottaa huomioon vain arvostelluimmat ja korkeimmin arvioidut kurssit. On kuitenkin aina mahdollista, että jotain jäi huomaamatta. Kerro meille siis kommenteissa, jos jätimme jonkin hyvän kurssin pois.

Miten arvioimme kursseja

Laskimme Class Centralista ja muilta arvostelusivustoilta saadun keskiarvoluokituksen ja arvostelujen lukumäärän laskeaksemme painotetun keskiarvoluokituksen jokaiselle kurssille. Luimme tekstiarvosteluja ja käytimme tätä palautetta täydentämään numeerisia arvosanoja.

Toimimme subjektiivisia opetussuunnitelmien arviointipäätöksiä kahden tekijän perusteella:

1. Datatieteen prosessin kattavuus. Haravoidaanko tai ohitetaanko kurssilla tiettyjä aiheita? Käsitelläänkö tiettyjä aiheita liian yksityiskohtaisesti? Katso seuraavasta osiosta, mitä tämä prosessi pitää sisällään.

2. Yleisten datatieteen työkalujen käyttö. Käytetäänkö kurssin opetuksessa suosittuja ohjelmointikieliä, kuten Pythonia ja/tai R:ää? Nämä eivät ole välttämättömiä, mutta hyödyllisiä useimmissa tapauksissa, joten näitä kursseja suositaan hieman.

Python ja R ovat kaksi suosituinta ohjelmointikieltä, joita käytetään datatieteessä.

Mikä on datatieteen prosessi?

Mitä datatiede on? Mitä datatieteilijä tekee? Tällaisiin peruskysymyksiin datatieteen johdantokurssin tulisi vastata. Seuraavassa Harvardin professoreiden Joe Blitzsteinin ja Hanspeter Pfisterin laatimassa infografiikassa hahmotellaan tyypillinen datatieteen prosessi, joka auttaa meitä vastaamaan näihin kysymyksiin.

Visualisointi Opera Solutionsilta.

Tämän datatieteen johdantokurssin tavoitteena on tutustua datatieteen prosessiin. Emme halua liian syvällistä katsausta prosessin tiettyihin osa-alueisiin, siksi otsikon ”intro to” -osuus.

Kunkin osa-alueen osalta ihanteellinen kurssi selittää keskeiset käsitteet prosessin puitteissa, esittelee yleisiä työkaluja ja tarjoaa muutamia esimerkkejä (mieluiten käytännönläheisesti).

Etsimme vain johdantoa. Tämä opas ei siis sisällä kokonaisia erikoistumiskursseja tai ohjelmia, kuten Johns Hopkinsin yliopiston Data Science Specialization on Coursera tai Udacityn Data Analyst Nanodegree. Nämä kurssikokoelmat karkaavat tämän sarjan tarkoituksen ohi: löytää kustakin oppiaineesta parhaat yksittäiset kurssit, jotka muodostavat datatieteen koulutuksen. Tämän artikkelisarjan kolmessa viimeisessä oppaassa käsitellään yksityiskohtaisesti datatieteen jokaista osa-aluetta.

Peruskokemusta koodauksesta, tilastoista ja todennäköisyyksistä vaaditaan

Monet alla luetellut kurssit edellyttävät kokemusta ohjelmoinnin, tilastojen ja todennäköisyyksien perustamisesta. Tämä vaatimus on ymmärrettävää, kun otetaan huomioon, että uusi sisältö on kohtuullisen edistynyttä ja että näille oppiaineille on usein omistettu useita kursseja.

Tämän kokemuksen voi hankkia suosituksiemme avulla, jotka on esitetty tämän datatieteen uraoppaan kahdessa ensimmäisessä artikkelissa (ohjelmointi, tilastotiede).

Valintamme parhaaksi tietojenkäsittelytieteiden johdantokurssiksi on…

  • Datatiede A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)

Kirill Eremenkon Data Science A-Z™ Udemyllä on selvä voittaja datatieteen prosessin kattavuuden laajuuden ja syvyyden suhteen yli 20:stä kelpuutetusta kurssista. Sen painotettu keskiarvo on 4,5 tähteä 3 071 arvostelun perusteella, mikä nostaa sen tarkastelluista kursseista korkeimmin arvioitujen ja arvostelluimpien joukkoon.

Kurssissa hahmotellaan koko prosessi ja annetaan esimerkkejä todellisesta elämästä. Sisältöä on 21 tuntia, ja se on sopivan pituinen. Arvostelijat pitävät kouluttajan esitystavasta ja sisällön organisoinnista. Hinta vaihtelee Udemyn alennusten mukaan, joita on usein, joten voit ehkä ostaa pääsyn jopa 10 dollarilla.

Vaikka se ei ruksita ”yleisten datatieteen työkalujen käyttö” -laatikkoamme, ei-Python/R-työkaluvaihtoehtoja (gretl, Tableau, Excel) käytetään tehokkaasti kontekstissa. Eremenko mainitsee seuraavan selittäessään gretl-valintaa (gretl on tilasto-ohjelmistopaketti), vaikka se pätee kaikkiin hänen käyttämiinsä työkaluihin (korostus minun):

Gretl:ssä pystymme tekemään samaa mallinnusta kuin R:ssä ja Pythonissa, mutta meidän ei tarvitse koodata. Se on tässä se iso juttu. Osa teistä ehkä tuntee R:n jo hyvin, mutta osa ei ehkä tunne sitä ollenkaan. Tavoitteeni on näyttää teille, miten rakentaa vankka malli, ja antaa teille kehys, jota voitte soveltaa missä tahansa valitsemassanne työkalussa. gretl auttaa meitä välttämään jumiutumista koodaamiseen.

Yksi merkittävä arvostelija totesi seuraavaa:

Kirill on paras opettaja, jonka olen löytänyt verkosta. Hän käyttää tosielämän esimerkkejä ja selittää yleisiä ongelmia niin, että saat syvemmän ymmärryksen kurssitöistä. Hän antaa myös paljon tietoa siitä, mitä datatieteilijänä toimiminen tarkoittaa riittämättömän datan kanssa työskentelystä aina työn esittämiseen C-luokan johdolle. Suosittelen tätä kurssia lämpimästi aloitteleville opiskelijoille ja keskitason data-analyytikoille!

Hyvä Python-painotteinen johdatus

  • Intro to Data Analysis (Udacity)

Udacityn Intro to Data Analysis -kurssi on verrattain uusi tarjonta, joka on osa Udacityn suosittua data-analyytikon nano-opintoja. Se kattaa datatieteen prosessin selkeästi ja johdonmukaisesti Pythonia käyttäen, joskin mallinnusaspektissa on hieman puutteita. Arvioitu aikataulu on 36 tuntia (kuusi tuntia viikossa kuuden viikon aikana), vaikka se on kokemukseni mukaan lyhyempi. Sillä on viiden tähden painotettu keskiarvo kahdesta arvostelusta. Se on ilmainen.

Videot ovat hyvin tuotettuja ja kouluttaja (Caroline Buckey) on selkeä ja sympaattinen. Paljon ohjelmointikisoja, jotka vahvistavat videoilla opittuja käsitteitä. Opiskelijat lähtevät kurssilta varmoina uusista ja/tai parannetuista NumPy- ja Pandas-taidoistaan (nämä ovat suosittuja Python-kirjastoja). Se sisältää kurssit nimeltään Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools ja R 101.

Se kattaa koko datatieteen prosessin ja esittelee Pythonin, R:n ja useita muita avoimen lähdekoodin työkaluja. Kursseilla on valtava tuotantoarvo. Arvioitu työmäärä on 13-18 tuntia riippuen siitä, otatko lopussa olevan ”R 101” -kurssin, joka ei ole tämän oppaan kannalta välttämätön. Valitettavasti sillä ei ole arvostelutietoja tärkeimmillä arvostelusivustoilla, joita käytimme tähän analyysiin, joten emme voi vielä suositella sitä kahden edellä mainitun vaihtoehdon sijaan. Se on ilmainen.

Kilpailija

Valintamme numero 1 sai painotetun keskiarvosanan 4,5 tähteä viidestä tähdestä 3068 arvostelun perusteella. Katsotaanpa muita vaihtoehtoja, jotka on lajiteltu laskevan arvosanan mukaan. Alta löydät useita R-painotteisia kursseja, jos olet asettunut tutustumaan kyseiseen kieleen.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Täysi prosessin kattavuus työkalupainotteisesti (Python). Vähemmän prosessipainotteinen ja enemmänkin hyvin yksityiskohtainen johdatus Pythoniin. Hämmästyttävä kurssi, joskaan ei ihanteellinen tämän oppaan laajuuden kannalta. Se, kuten Josen R-kurssi alla, voi toimia sekä johdantona Python/R:ään että johdantona datatieteeseen. Sisältöä 21,5 tuntia. Sillä on 4,7 tähden painotettu keskiarvo 1644 arvostelusta. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
  • Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Täydellinen prosessin kattavuus työkalupainotteisesti (R). Vähemmän prosessipainotteinen ja enemmänkin hyvin yksityiskohtainen intro R:ään. Hämmästyttävä kurssi, joskaan ei ihanteellinen tämän oppaan laajuuteen. Se, kuten edellä mainittu Josen Python-kurssi, voi toimia sekä johdantona Python/R:ään että johdantona datatieteeseen. Sisältöä 18 tuntia. Kurssilla on 4,6 tähden painotettu keskiarvo 847 arvostelun perusteella. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
Jose Portillalla on kaksi Data Science and Machine Learning Bootcampia Udemyllä: toinen Pythonille ja toinen R:lle.
  • Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Osittainen prosessin kattavuus. Keskittyy tilastoihin ja koneoppimiseen. Kunnollinen pituus (yhdeksän tuntia sisältöä). Käyttää Pythonia. Kurssi on saanut 4,5 tähden painotetun keskiarvon 3 104 arvostelusta. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
  • Introduction to Data Science (Data Hawk Tech/Udemy): Täysi prosessien kattavuus, joskin rajallinen kattavuuden syvyys. Melko lyhyt (kolme tuntia sisältöä). Käsittelee lyhyesti sekä R:ää että Pythonia. Sillä on 4,4 tähden painotettu keskiarvo 62 arvostelun perusteella. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
  • Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Täysi prosessin kattavuus, joskaan ei tasaisesti jakautuneena. Painottuu vahvasti perustilastoihin ja R:ään. Liian soveltava ja liian vähän prosessipainotteinen tämän oppaan tarkoitukseen. Verkkokurssikokemus tuntuu hajanaiselta. Arvosanojen painotettu keskiarvo on 4,33 tähteä 6 arvostelun perusteella. Ilmainen.
  • Introduction To Data Science (Nina Zumel & John Mount/Udemy): Vain osittainen prosessien kattavuus, joskin hyvää syvyyttä datan valmisteluun ja mallintamiseen liittyvissä asioissa. Ihan ok pituus (kuusi tuntia sisältöä). Käyttää R:ää. 101 arvostelun painotettu keskiarvo on 4,3 tähteä. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
  • Applied Data Science with Python (V2 Maestros/Udemy): Täydellinen prosessin kattavuus, jossa on hyvä kattavuuden syvyys jokaisella prosessin osa-alueella. Kunnollinen pituus (8,5 tuntia sisältöä). Käyttää Pythonia. Sillä on 4,3 tähden painotettu keskiarvo 92 arvostelun perusteella. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.

V2 Maestrosilla on kaksi versiota ”Sovellettu datatiede” -kurssistaan: toinen Pythonille ja toinen R:lle.
  • Haluatko datatieteilijäksi? (V2 Maestros/Udemy): Täysi prosessien kattavuus, joskin rajallinen kattavuuden syvyys. Melko lyhyt (3 tuntia sisältöä). Rajoitettu työkalujen kattavuus. Sillä on 4,3 tähden painotettu keskiarvo 790 arvostelun perusteella. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
  • Data to Insight: An Introduction to Data Analysis (University of Auckland/FutureLearn): Kattavuuden laajuus epäselvä. Väittää keskittyvänsä datan tutkimiseen, löytämiseen ja visualisointiin. Ei tarjota tilauksesta. 24 tuntia sisältöä (kolme tuntia viikossa kahdeksan viikon aikana). 4 tähden painotettu keskiarvo 2 arvostelun perusteella. Ilmainen, maksullinen sertifikaatti saatavilla.
  • Data Science Orientation (Microsoft/edX): Osittainen prosessien kattavuus (puuttuu mallinnusnäkökulma). Käyttää Exceliä, mikä on järkevää, koska kyseessä on Microsoft-brändätty kurssi. 12-24 tuntia sisältöä (kaksi-neljä tuntia viikossa kuuden viikon aikana). Kurssin painotettu keskiarvo on 3,95 tähteä 40 arvostelun perusteella. Ilmainen, ja todennettu sertifikaatti on saatavilla 25 dollarilla.
  • Data Science Essentials (Microsoft/edX): Täydellinen prosessin kattavuus ja hyvä kattavuuden syvyys jokaisella osa-alueella. Kattaa R:n, Pythonin ja Azure ML:n (Microsoftin koneoppimisalusta). Useita 1 tähden arvosteluja, joissa viitataan työkalun valintaan (Azure ML) ja kouluttajan huonoon esitystapaan. 18-24 tuntia sisältöä (kolme-neljä tuntia viikossa kuuden viikon aikana). Kurssin painotettu keskiarvo on 3,81 tähteä 67 arvostelun perusteella. Ilmainen ja todennettu sertifikaatti saatavilla 49 dollarilla.
Yllä olevat kaksi kurssia ovat Microsoftin Professional Program Certificate in Data Science -ohjelmasta edX:ssä.
  • Applied Data Science with R (V2 Maestros/Udemy): V2 Maestrosin yllä olevan Python-kurssin R-komponentti. Täydellinen prosessin kattavuus hyvällä syvällisyydellä jokaisen osa-alueen osalta. Kohtuullinen pituus (11 tuntia sisältöä). Käyttää R:ää. 212 arvostelun painotettu keskiarvo on 3,8 tähteä. Kustannukset vaihtelevat riippuen Udemyn alennuksista, joita on usein.
  • Intro to Data Science (Udacity): Osittainen prosessien kattavuus, joskin hyvä syvyys käsiteltyihin aiheisiin nähden. Puuttuu tutkimusnäkökulma, vaikka Udacityllä on loistava, täydellinen kurssi eksploratiivisesta data-analyysistä (EDA). Kurssin pituudeksi ilmoitetaan 48 tuntia (kuusi tuntia viikossa kahdeksan viikon aikana), mutta se on kokemukseni mukaan lyhyempi. Joidenkin arvostelujen mukaan edistyneen sisällön valmistelu on puutteellista. Tuntuu järjestäytymättömältä. Käyttää Pythonia. Siinä on 3.61 tähden painotettu keskiarvo 18 arvostelun perusteella. Ilmainen.
  • Introduction to Data Science in Python (University of Michigan/Coursera): Osittainen prosessin kattavuus. Ei mallintamista ja visualisointia, vaikka kurssit #2 ja #3 Applied Data Science with Python Specialization -kurssilla kattavat nämä näkökohdat. Kaikkien kolmen kurssin suorittaminen olisi liian syvällistä tämän oppaan tarkoitukseen. Käyttää Pythonia. Kesto neljä viikkoa. Kurssin painotettu keskiarvo on 3,6 tähteä 15 arvostelun perusteella. Ilmaisia ja maksullisia vaihtoehtoja saatavilla.

Michiganin yliopisto opettaa Applied Data Science with Python Specialization -kurssia Courserassa.
  • Data-driven Decision Making (PwC/Coursera): Osittainen kattavuus (puuttuu mallinnus) liiketoimintapainotteisesti. Esittelee monia työkaluja, kuten R, Python, Excel, SAS ja Tableau. Kesto neljä viikkoa. Kurssi on saanut 3,5 tähden painotetun keskiarvon 2 arvostelusta. Ilmaisia ja maksullisia vaihtoehtoja saatavilla.
  • A Crash Course in Data Science (Johns Hopkins University/Coursera): Erittäin lyhyt katsaus koko prosessiin. Liian lyhyt tämän sarjan tarkoitukseen. Kahden tunnin mittainen. Sillä on 3,4 tähden painotettu keskiarvo 19 arvostelun perusteella. Ilmaisia ja maksullisia vaihtoehtoja saatavilla.
  • The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Erittäin lyhyt katsaus koko prosessiin. Enemmänkin aloituskurssi Johns Hopkinsin yliopiston Data Science -erikoistumiskurssia varten. Väittää sisältävänsä 4-16 tuntia sisältöä (yksi-neljä tuntia viikossa neljän viikon aikana), vaikka yksi arvostelija totesi, että sen voi suorittaa kahdessa tunnissa. Kurssin 182 arvostelun painotettu keskiarvo on 3,22 tähteä. Ilmaisia ja maksullisia vaihtoehtoja saatavilla.
  • Data Management and Visualization (Wesleyan University/Coursera): Osittainen prosessin kattavuus (puuttuu mallintaminen). Neljän viikon pituinen. Hyvä tuotantoarvo. Käyttää Pythonia ja SASia. Sillä on 2,67 tähden painotettu keskiarvo 6 arvostelun perusteella. Ilmaisia ja maksullisia vaihtoehtoja saatavilla.

Seuraavilla kursseilla ei ollut arvosteluja tammikuussa 2017.

  • CS109 Data Science (Harvard University): Täydellinen prosessien kattavuus hyvin syvällisesti (luultavasti liian syvällisesti tämän sarjan tarkoitukseen). Täysi 12 viikon mittainen perustutkintokurssi. Kurssin navigointi on vaikeaa, koska kurssia ei ole suunniteltu verkkokäyttöön. Varsinaiset Harvardin luennot on kuvattu. Yllä oleva datatieteen prosessi-infografiikka on peräisin tältä kurssilta. Käyttää Pythonia. Ei arviointitietoja. Ilmainen.
Edustettu viz Harvard CS109:n kotisivulla.
  • Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Osittainen prosessien kattavuus (puuttuu mallinnus- ja visualisointiaspektit) keskittyen liiketoimintaan. Datatieteen prosessi naamioidaan heidän luennoillaan ”Information-Action Value chainiksi”. Kesto neljä viikkoa. Kuvaa useita työkaluja, mutta kattaa vain SQL:n syvällisesti. Ei tarkasteludataa. Ilmaisia ja maksullisia vaihtoehtoja saatavilla.
  • Introduction to Data Science (Lynda): Täysi prosessien kattavuus, joskin rajallinen syvyys. Melko lyhyt (kolme tuntia sisältöä). Esittelee sekä R:n että Pythonin. Ei tarkasteludataa. Kustannukset riippuvat Lynda-tilauksesta.

Wrapping it Up

Tämä on kolmas osa kuusiosaisesta sarjasta, joka käsittelee parhaita verkkokursseja, joiden avulla voit käynnistää itsesi datatieteen alalla. Käsittelimme ohjelmointia ensimmäisessä artikkelissa ja tilastoja ja todennäköisyyttä toisessa artikkelissa. Sarjan loppuosassa käsitellään muita datatieteen ydinosaamisalueita: datan visualisointia ja koneoppimista.

Jos haluat oppia datatiedettä, aloita jollakin näistä ohjelmointikursseista

Jos haluat oppia datatiedettä, käy muutama näistä tilastotieteen kursseista

Viimeisessä osassa tehdään yhteenveto näistä artikkeleista sekä parhaista verkkokursseista muihin tärkeimpiin aihealueisiin, kuten datan käsittelyyn, tietokantoihin ja jopa ohjelmistotekniikkaan.

Jos etsit täydellistä luetteloa Data Science -verkkokursseista, löydät ne Class Centralin Data Science and Big Data -aikasivulta.

Jos nautit tämän lukemisesta, tutustu Class Centralin muihin juttuihin:

Tässä on 250 Ivy Leaguen kurssia, jotka voit suorittaa verkossa juuri nyt ilmaiseksi
250 MOOCia Brownilta, Columbialta, Cornellilta, Dartmouthilta, Harvardilta, Penniltä, Princetonin yliopistolta ja Yalelta.

50 parasta ilmaista yliopistojen verkkokurssia datan mukaan
Kun käynnistin Class Centralin marraskuussa 2011, siellä oli noin 18 ilmaista verkkokurssia, ja melkein kaikki…

Jos sinulla on ehdotuksia kursseista, jotka jätin väliin, kerro minulle vastauksissa!

Jos tämä oli mielestäsi hyödyllinen, klikkaa ? jotta useammat ihmiset näkevät sen täällä Mediumissa.

Tämä on tiivistetty versio Class Centralissa julkaistusta alkuperäisestä artikkelistani, johon olen lisännyt lisää kurssikuvauksia, opetussuunnitelmia ja useita arvioita.

Vastaa

Sähköpostiosoitettasi ei julkaista.