di David Venturi
Un anno fa, ho abbandonato uno dei migliori programmi di informatica in Canada. Ho iniziato a creare il mio programma di master in scienza dei dati usando risorse online. Mi sono reso conto che potevo invece imparare tutto ciò di cui avevo bisogno attraverso edX, Coursera e Udacity. E potevo imparare più velocemente, in modo più efficiente e per una frazione del costo.
Ho quasi finito ora. Ho seguito molti corsi relativi alla scienza dei dati e ho seguito porzioni di molti altri. Conosco le opzioni là fuori, e quali competenze sono necessarie per gli studenti che si preparano per un ruolo di analista di dati o scienziato di dati. Alcuni mesi fa, ho iniziato a creare una guida guidata da recensioni che raccomanda i migliori corsi per ogni soggetto all’interno della scienza dei dati.
Per la prima guida della serie, ho consigliato alcuni corsi di codifica per lo scienziato dei dati principiante. Poi sono stati corsi di statistica e probabilità.
- Ora sulle introduzioni alla scienza dei dati.
- Come abbiamo scelto i corsi da considerare
- Come abbiamo valutato i corsi
- Qual è il processo della scienza dei dati? Cosa fa uno scienziato dei dati? Questi sono i tipi di domande fondamentali a cui un corso di introduzione alla scienza dei dati dovrebbe rispondere. La seguente infografica dei professori di Harvard Joe Blitzstein e Hanspeter Pfister delinea un tipico processo di scienza dei dati, che ci aiuterà a rispondere a queste domande. Visualizzazione da Opera Solutions.
- Esperienza di base di codifica, statistica e probabilità richiesta
- La nostra scelta per il miglior corso di introduzione alla scienza dei dati è…
- Un’ottima introduzione incentrata su Python
- Un’offerta impressionante senza dati di revisione
- La concorrenza
- Concludendo
Ora sulle introduzioni alla scienza dei dati.
(Non preoccupatevi se non siete sicuri di cosa comporta un corso di introduzione alla scienza dei dati. Per questa guida, ho passato più di 10 ore a cercare di identificare ogni corso online di introduzione alla scienza dei dati offerto a gennaio 2017, estraendo informazioni chiave dai loro programmi e recensioni, e compilando le loro valutazioni. Per questo compito, mi sono rivolto nientemeno che alla comunità open source Class Central e al suo database di migliaia di valutazioni e recensioni di corsi.
Dal 2011, il fondatore di Class Central, Dhawal Shah, ha tenuto d’occhio i corsi online più di chiunque altro nel mondo. Dhawal mi ha aiutato personalmente ad assemblare questa lista di risorse.
Come abbiamo scelto i corsi da considerare
Ogni corso deve soddisfare tre criteri:
- Deve insegnare il processo della scienza dei dati. Più su questo presto.
- Deve essere su richiesta o offerto ogni pochi mesi.
- Deve essere un corso online interattivo, quindi niente libri o tutorial di sola lettura. Anche se questi sono modi validi per imparare, questa guida si concentra sui corsi.
Crediamo di aver coperto ogni corso degno di nota che si adatta ai criteri di cui sopra. Dato che ci sono apparentemente centinaia di corsi su Udemy, abbiamo scelto di considerare solo quelli più recensiti e con i voti più alti. C’è sempre la possibilità che ci siamo persi qualcosa, però. Quindi fateci sapere nella sezione commenti se abbiamo lasciato fuori un buon corso.
Come abbiamo valutato i corsi
Abbiamo compilato la valutazione media e il numero di recensioni da Class Central e altri siti di recensioni per calcolare una valutazione media ponderata per ogni corso. Abbiamo letto le recensioni dei testi e usato questo feedback per integrare le valutazioni numeriche.
Abbiamo dato un giudizio soggettivo sul programma basato su due fattori:
1. Copertura del processo della scienza dei dati. Il corso sorvola o salta certi argomenti? Copre alcuni argomenti in modo troppo dettagliato? Vedere la prossima sezione per ciò che comporta questo processo.
2. Uso dei comuni strumenti di scienza dei dati. Il corso è tenuto utilizzando linguaggi di programmazione popolari come Python e/o R? Questi non sono necessari, ma utili nella maggior parte dei casi, quindi viene data una leggera preferenza a questi corsi.
Qual è il processo della scienza dei dati? Cosa fa uno scienziato dei dati? Questi sono i tipi di domande fondamentali a cui un corso di introduzione alla scienza dei dati dovrebbe rispondere. La seguente infografica dei professori di Harvard Joe Blitzstein e Hanspeter Pfister delinea un tipico processo di scienza dei dati, che ci aiuterà a rispondere a queste domande.
Il nostro obiettivo con questo corso di introduzione alla scienza dei dati è di familiarizzare con il processo di scienza dei dati. Non vogliamo una copertura troppo approfondita di aspetti specifici del processo, da qui la parte “introduttiva” del titolo.
Per ogni aspetto, il corso ideale spiega i concetti chiave nel quadro del processo, introduce gli strumenti comuni e fornisce alcuni esempi (preferibilmente pratici).
Stiamo cercando solo un’introduzione. Questa guida quindi non includerà specializzazioni complete o programmi come la specializzazione in Data Science della Johns Hopkins University su Coursera o il Nanodegree di Data Analyst di Udacity. Queste compilazioni di corsi eludono lo scopo di questa serie: trovare i migliori corsi individuali per ogni soggetto per comprendere una formazione in scienza dei dati. Le tre guide finali di questa serie di articoli copriranno ogni aspetto del processo della scienza dei dati in dettaglio.
Esperienza di base di codifica, statistica e probabilità richiesta
Diversi corsi elencati di seguito richiedono esperienza di base di programmazione, statistica e probabilità. Questo requisito è comprensibile dato che il nuovo contenuto è ragionevolmente avanzato, e che queste materie hanno spesso diversi corsi dedicati.
Questa esperienza può essere acquisita attraverso le nostre raccomandazioni nei primi due articoli (programmazione, statistica) in questa Guida alla carriera nella scienza dei dati.
La nostra scelta per il miglior corso di introduzione alla scienza dei dati è…
- Data Science A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)
Il Data Science A-Z™ di Kirill Eremenko su Udemy è il chiaro vincitore in termini di ampiezza e profondità di copertura del processo di scienza dei dati tra gli oltre 20 corsi qualificati. Ha una valutazione media ponderata di 4,5 stelle su 3.071 recensioni, che lo colloca tra i corsi più votati e più recensiti tra quelli considerati.
Definisce l’intero processo e fornisce esempi di vita reale. Con 21 ore di contenuto, è una buona lunghezza. I recensori amano la consegna dell’istruttore e l’organizzazione del contenuto. Il prezzo varia a seconda degli sconti Udemy, che sono frequenti, quindi potreste essere in grado di acquistare l’accesso per soli $10.
Anche se non controlla la nostra casella “uso dei comuni strumenti di scienza dei dati”, le scelte degli strumenti non Python/R (gretl, Tableau, Excel) sono usati efficacemente nel contesto. Eremenko menziona quanto segue quando spiega la scelta di gretl (gretl è un pacchetto software statistico), anche se si applica a tutti gli strumenti che usa (enfasi mia):
In gretl, saremo in grado di fare la stessa modellazione proprio come in R e Python ma non dovremo codificare. Questo è il problema principale. Alcuni di voi potrebbero già conoscere R molto bene, ma altri potrebbero non conoscerlo affatto. Il mio obiettivo è quello di mostrarvi come costruire un modello robusto e darvi una struttura che potete applicare in qualsiasi strumento che scegliete. gretl ci aiuterà ad evitare di impantanarci nella codifica.
Un recensore importante ha notato quanto segue:
Kirill è il miglior insegnante che ho trovato online. Usa esempi di vita reale e spiega i problemi comuni in modo da ottenere una comprensione più profonda del corso. Fornisce anche un sacco di informazioni su cosa significa essere uno scienziato dei dati, dal lavorare con dati insufficienti fino a presentare il proprio lavoro al management di classe C. Consiglio vivamente questo corso per studenti principianti e analisti di dati intermedi!
Un’ottima introduzione incentrata su Python
- Intro to Data Analysis (Udacity)
L’Intro to Data Analysis di Udacity è un’offerta relativamente nuova che fa parte del popolare Nanodegree Data Analyst di Udacity. Copre il processo della scienza dei dati in modo chiaro e coeso usando Python, anche se manca un po’ nell’aspetto della modellazione. Il tempo stimato è di 36 ore (sei ore a settimana per sei settimane), anche se nella mia esperienza è più breve. Ha una media ponderata di 5 stelle su due recensioni. È gratuito.
I video sono ben prodotti e l’istruttrice (Caroline Buckey) è chiara e personalizzabile. Molti quiz di programmazione rafforzano i concetti appresi nei video. Gli studenti lasceranno il corso sicuri delle loro nuove e/o migliorate abilità con NumPy e Pandas (queste sono librerie Python popolari). Il progetto finale – che è valutato e rivisto nel Nanodegree ma non nel corso individuale gratuito – può essere una bella aggiunta ad un portfolio.
Un’offerta impressionante senza dati di revisione
- Data Science Fundamentals (Big Data University)
Data Science Fundamentals è una serie di quattro corsi forniti dalla Big Data University di IBM. Include corsi intitolati Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools, e R 101.
Comprende l’intero processo della scienza dei dati e introduce Python, R, e diversi altri strumenti open-source. I corsi hanno un enorme valore di produzione. Si stimano 13-18 ore di sforzo, a seconda se si prende il corso “R 101” alla fine, che non è necessario per lo scopo di questa guida. Sfortunatamente, non ha dati di recensioni sui principali siti di recensioni che abbiamo usato per questa analisi, quindi non possiamo ancora raccomandarlo rispetto alle due opzioni precedenti. È gratuito.
La concorrenza
La nostra prima scelta ha una valutazione media ponderata di 4,5 su 5 stelle su 3.068 recensioni. Diamo un’occhiata alle altre alternative, ordinate per punteggio decrescente. Di seguito troverete diversi corsi incentrati su R, se siete fissati su un’introduzione in quel linguaggio.
- Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Copertura completa del processo con un focus sullo strumento (Python). Meno orientato al processo e più di un’introduzione molto dettagliata a Python. Incredibile corso, anche se non ideale per lo scopo di questa guida. Esso, come il corso R di Jose qui sotto, può raddoppiare sia come introduzione a Python/R che come introduzione alla scienza dei dati. 21,5 ore di contenuto. Ha una valutazione media ponderata di 4,7 stelle su 1.644 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Copertura completa del processo con un focus sullo strumento (R). Meno orientato al processo e più un’introduzione molto dettagliata a R. Corso incredibile, anche se non ideale per lo scopo di questa guida. Esso, come il corso di Python di Jose sopra, può raddoppiare sia come introduzione a Python/R che come introduzione alla scienza dei dati. 18 ore di contenuto. Ha una valutazione media ponderata di 4.6 stelle su 847 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Copertura parziale del processo. Si concentra su statistiche e apprendimento automatico. Lunghezza decente (nove ore di contenuto). Utilizza Python. Ha una valutazione media ponderata di 4,5 stelle su 3.104 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Introduzione alla scienza dei dati (Data Hawk Tech/Udemy): Copertura completa del processo, anche se la profondità della copertura è limitata. Abbastanza breve (tre ore di contenuto). Copre brevemente sia R che Python. Ha una valutazione media ponderata di 4.4 stelle su 62 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Copertura completa del processo, anche se non uniformemente diffusa. Si concentra pesantemente sulle statistiche di base e su R. Troppo applicato e non abbastanza concentrato sul processo per lo scopo di questa guida. L’esperienza del corso online sembra disgiunta. Ha una valutazione media ponderata di 4.33 stelle su 6 recensioni. Free.
- Introduction To Data Science (Nina Zumel & John Mount/Udemy): Copertura solo parziale dei processi, anche se buona profondità nella preparazione dei dati e negli aspetti di modellazione. Lunghezza adeguata (sei ore di contenuto). Utilizza R. Ha una valutazione media ponderata di 4,3 stelle su 101 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Applied Data Science with Python (V2 Maestros/Udemy): Copertura completa del processo con una buona profondità di copertura per ogni aspetto del processo. Lunghezza decente (8,5 ore di contenuto). Utilizza Python. Ha una valutazione media ponderata di 4.3 stelle su 92 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Vuoi essere un Data Scientist? (V2 Maestros/Udemy): Copertura completa del processo, anche se la profondità della copertura è limitata. Abbastanza breve (3 ore di contenuto). Copertura limitata degli strumenti. Ha una valutazione media ponderata di 4.3 stelle su 790 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Ampiezza della copertura non chiara. Afferma di concentrarsi sull’esplorazione, la scoperta e la visualizzazione dei dati. Non offerto su richiesta. 24 ore di contenuto (tre ore a settimana per otto settimane). Ha una valutazione media ponderata di 4 stelle su 2 recensioni. Gratuito con certificato a pagamento disponibile.
- Orientamento alla scienza dei dati (Microsoft/edX): Copertura parziale del processo (manca l’aspetto della modellazione). Utilizza Excel, il che ha senso dato che è un corso a marchio Microsoft. 12-24 ore di contenuto (due-quattro ore a settimana per sei settimane). Ha una valutazione media ponderata di 3,95 stelle su 40 recensioni. Gratuito con certificato verificato disponibile per $25.
- Data Science Essentials (Microsoft/edX): Copertura completa del processo con una buona profondità di copertura per ogni aspetto. Copre R, Python e Azure ML (una piattaforma di apprendimento automatico di Microsoft). Diverse recensioni a 1 stella che citano la scelta dello strumento (Azure ML) e la scarsa consegna dell’istruttore. 18-24 ore di contenuto (tre-quattro ore a settimana per sei settimane). Ha una valutazione media ponderata di 3,81 stelle su 67 recensioni. Gratuito con certificato verificato disponibile per $49.
- Applied Data Science with R (V2 Maestros/Udemy): Il compagno R del corso Python di V2 Maestros di cui sopra. Copertura completa del processo con una buona profondità di copertura per ogni aspetto del processo. Lunghezza decente (11 ore di contenuto). Utilizza R. Ha una valutazione media ponderata di 3.8 stelle su 212 recensioni. Il costo varia a seconda degli sconti Udemy, che sono frequenti.
- Intro to Data Science (Udacity): Copertura parziale del processo, anche se buona profondità per gli argomenti trattati. Manca l’aspetto dell’esplorazione, anche se Udacity ha un ottimo corso completo sull’analisi esplorativa dei dati (EDA). Afferma di essere di 48 ore di lunghezza (sei ore a settimana su otto settimane), ma è più breve nella mia esperienza. Alcune recensioni pensano che l’impostazione del contenuto avanzato sia carente. Sembra disorganizzato. Utilizza Python. Ha un 3.Valutazione media ponderata a 61 stelle su 18 recensioni. Free.
- Introduzione alla scienza dei dati in Python (University of Michigan/Coursera): Copertura parziale del processo. Nessuna modellazione e visualizzazione, anche se i corsi #2 e #3 nella Specializzazione Applied Data Science con Python coprono questi aspetti. Prendere tutti e tre i corsi sarebbe troppo approfondito per lo scopo di questa guida. Utilizza Python. Quattro settimane di durata. Ha una valutazione media ponderata di 3,6 stelle su 15 recensioni. Opzioni gratuite e a pagamento disponibili.
- Data-driven Decision Making (PwC/Coursera): Copertura parziale (manca la modellazione) con un focus sul business. Introduce molti strumenti, inclusi R, Python, Excel, SAS e Tableau. Quattro settimane di durata. Ha una valutazione media ponderata di 3,5 stelle su 2 recensioni. Opzioni gratuite e a pagamento disponibili.
- A Crash Course in Data Science (Johns Hopkins University/Coursera): Una panoramica estremamente breve del processo completo. Troppo breve per lo scopo di questa serie. Due ore di lunghezza. Ha una valutazione media ponderata di 3,4 stelle su 19 recensioni. Opzioni gratuite e a pagamento disponibili.
- The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Una panoramica estremamente breve del processo completo. Più che altro un corso di preparazione per la specializzazione in Data Science della Johns Hopkins University. Afferma di avere 4-16 ore di contenuto (una-quattro ore a settimana per quattro settimane), anche se un recensore ha notato che potrebbe essere completato in due ore. Ha una valutazione media ponderata di 3,22 stelle su 182 recensioni. Opzioni gratuite e a pagamento disponibili.
- Data Management and Visualization (Wesleyan University/Coursera): Copertura parziale del processo (manca la modellazione). Quattro settimane di durata. Buon valore di produzione. Utilizza Python e SAS. Ha una valutazione media ponderata di 2.67 stelle su 6 recensioni. Opzioni gratuite e a pagamento disponibili.
I seguenti corsi non avevano recensioni a gennaio 2017.
- CS109 Data Science (Harvard University): Copertura completa del processo in grande profondità (probabilmente troppo in profondità per lo scopo di questa serie). Un corso completo di 12 settimane per studenti universitari. La navigazione del corso è difficile poiché il corso non è progettato per il consumo online. Le effettive lezioni di Harvard sono filmate. L’infografica del processo di scienza dei dati di cui sopra proviene da questo corso. Utilizza Python. Nessun dato di revisione. Gratuito.
- Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Copertura parziale del processo (manca la modellazione e gli aspetti di visualizzazione) con un focus sul business. Il processo della scienza dei dati è mascherato come la “catena del valore informazione-azione” nelle loro lezioni. Quattro settimane di durata. Descrive diversi strumenti, anche se copre solo SQL in profondità. Nessuna revisione dei dati. Opzioni gratuite e a pagamento disponibili.
- Introduzione alla scienza dei dati (Lynda): Copertura completa del processo, anche se la profondità della copertura è limitata. Abbastanza breve (tre ore di contenuto). Introduce sia R che Python. Nessun dato di revisione. Il costo dipende dall’abbonamento a Lynda.
Concludendo
Questo è il terzo di una serie di sei pezzi che copre i migliori corsi online per lanciarsi nel campo della scienza dei dati. Abbiamo coperto la programmazione nel primo articolo e la statistica e la probabilità nel secondo articolo. Il resto della serie coprirà altre competenze fondamentali della scienza dei dati: la visualizzazione dei dati e l’apprendimento automatico.
Se vuoi imparare la scienza dei dati, inizia con uno di questi corsi di programmazione
Se vuoi imparare la scienza dei dati, prendi alcuni di questi corsi di statistica
L’ultimo pezzo sarà un riassunto di questi articoli, più i migliori corsi online per altri argomenti chiave come la gestione dei dati, i database e anche l’ingegneria del software.
Se stai cercando una lista completa dei corsi online di Data Science, puoi trovarli sulla pagina tematica Data Science e Big Data di Class Central.
Se ti è piaciuto leggere questo, dai un’occhiata ad altri pezzi di Class Central:
Qui ci sono 250 corsi dell’Ivy League che puoi seguire online gratis adesso
250 MOOC di Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton e Yale.
I 50 migliori corsi universitari online gratuiti secondo i dati
Quando ho lanciato Class Central nel novembre 2011, c’erano circa 18 corsi online gratuiti, e quasi tutti…
Se hai suggerimenti per corsi che ho dimenticato, fammi sapere nelle risposte!
Se hai trovato questo utile, clicca sul ? così più persone lo vedranno qui su Medium.
Questa è una versione condensata del mio articolo originale pubblicato su Class Central, dove ho incluso ulteriori descrizioni di corsi, sillabi, e recensioni multiple.