19 Jan 2016

A dicembre ho completato il terzo dei tre corsi del programma Professional & Continuing Education’s (PCE) Certificate in Data Science dell’Università di Washington. Tutti i corsi di questo programma erano di 10 settimane, con lezioni di 3 ore tenute una volta a settimana. Dato che vivo a Denver, non ho potuto partecipare fisicamente agli incontri, tenuti presso il campus UW di Seattle, quindi ho fatto parte della coorte online. Questa è la mia recensione del programma, e spero che possa essere utile ad altri che stanno considerando il programma.

Perché sono entrato nel programma di certificazione?

E’ ora di cambiare

All’inizio del 2014 ho deciso che ne avevo abbastanza. Ho fatto un lavoro legato ai dati per il governo federale per poco più di 8 anni, ma ero pronto per una nuova sfida. Il lavoro era buono, ma ero stanco della schiacciante burocrazia, e mi sentivo come se la mia carriera non stesse più progredendo nella direzione che desideravo (qualcuno purtroppo ha deciso che avevo un po’ di attitudine al management, e potevo sentirmi tirato dentro), ed ero stanco di usare una versione 2006 di MATLAB per fare gran parte del mio “divertente” lavoro sui dati.

Prendendo MOOCs

Così nel 2014 ho iniziato a prendere sul serio i Massive Open Online Courses (MOOCs). Sapevo di amare, e di essere abbastanza bravo, l’analisi dei dati e la programmazione, così ho iniziato a seguire i corsi nella traccia Data Science di Udacity (questo prima che i loro popolari programmi Nanodegree fossero sviluppati). A maggio, avevo scoperto Coursera, e a giugno ho iniziato la specializzazione in Data Science della JHU (ho finito quella specializzazione nel dicembre 2014). Ho intenzione di rivedere alcuni aspetti di questi MOOC in una data successiva, ma per ora mi limiterò a dire che questi corsi mi hanno cambiato la vita.

Certificato UW e applicazione

Nell’estate 2014, ho scoperto il certificato UW PCE Data Science. Anche se stavo prendendo molti MOOC, non ero ancora sicuro che mi avrebbero effettivamente aiutato a qualificarmi per un lavoro. Non stavo ricevendo molti riscontri dai reclutatori su LinkedIn, e alcune domande che ho gettato sui muri delle aziende non hanno avuto alcun morso. Non ero pronto per il tempo e le spese di un programma di master in Data Science, così ho pensato che un certificato professionale universitario sarebbe stata la cosa migliore, e forse mi avrebbe aiutato a trovare alcuni contatti aggiuntivi per creare una connessione lavorativa.

Così ho fatto domanda per il programma. Dato che è passato circa un anno e mezzo da quando ho fatto domanda, non ricordo molti dettagli sul processo di applicazione, ma credo che ci fosse un test di 25 domande sulla conoscenza della scienza dei dati (alcuni SQL e statistiche sono quello che ricordo), ho dovuto presentare un curriculum, una breve dichiarazione di interesse, e circa 50 dollari come tassa di iscrizione. Non è stato troppo stressante.

Accettato, ma nuovo lavoro!

Sono stato accettato nel programma. Tuttavia, c’era una lista d’attesa, quindi non ho potuto iniziare fino ad aprile 2015.

Quando aprile è arrivato, ero in trattative con un reclutatore e ho avuto un colloquio con la società per cui ora lavoro. Volevano che venissi a fare Machine Learning per loro! Ero a 4 settimane dalla prima lezione del programma di certificazione quando ho accettato il mio nuovo lavoro. Quindi, avevo un dilemma: avevo raggiunto il mio obiettivo (nuovo lavoro nel settore privato), ma avevo appena iniziato questo programma che avevo aspettato 7 mesi per iniziare (e pagato più di 1100 dollari non rimborsabili per frequentarlo). Dovrei continuare? Dopo alcune riflessioni, mi sono arreso e ho deciso che i soldi erano un costo sommerso, quindi potevo anche imparare qualcosa.

Il corso #1 era abbastanza buono che ho continuato a pagare e a seguire ogni corso successivo, nonostante il massiccio dibattito interno ogni volta (ne ho bisogno? dovrei spendere il mio tempo/denaro altrove?). Nel complesso, ho apprezzato il resto del programma e mi sento realizzato per aver finito; tuttavia, non sono sicuro che sia stato il miglior investimento del mio tempo e denaro. Imparo di più, e più velocemente, prendendo la maggior parte dei MOOC, di quanto ho fatto da questo programma (mi viene in mente il post di James Altucher Don’t Send Your Kids to College). Ma, ho anche fatto diverse connessioni di valore con i miei compagni di classe, molto più connessioni di quelle che ho fatto da qualsiasi MOOC.

Is This Program for You?

Ok, basta parlare delle mie motivazioni per prendere il programma di certificazione. Ecco alcuni dei miei lati positivi e negativi del programma, che, se sei uno scienziato di dati in erba e ti stai chiedendo se dovresti provare a prendere il certificato, potrebbero aiutarti a prendere una decisione.

Cosa mi è piaciuto del programma

  • Certificato da un’istituzione affidabile che è leader in Data Science e Machine Learning.
  • Segui i corsi online o di persona (se vivi nella zona di Seattle). Bello che ti diano la scelta, e che anche come studente online puoi frequentare “dal vivo”.
  • Feedback personale degli istruttori su tutti i compiti (per me erano di solito 2-3 righe di feedback). Non sono sicuro se questo sia meglio o peggio degli incarichi con valutazione automatica o tra pari su molti MOOC.
  • Corsi tenuti da scienziati di dati nell’industria. I miei corsi sono stati tenuti da scienziati di dati di Prediction Software, Zillow e Microsoft.
  • Opportunità di parlare e fare domande agli istruttori. Anche online, c’è una funzione di chat, e l’assistente didattico trasmette le domande all’istruttore. È bello avere un feedback in tempo reale dagli istruttori.
  • Il costo: ho speso circa $3400 per i tre corsi. Molto più costoso di un MOOC, ma molto più economico di un master.
  • Materiale extra di apprendimento e lettura. Gli istruttori hanno fatto tutti un ottimo lavoro nel trovare cose interessanti da leggere come parte dei compiti settimanali.
  • Creare contatti e una coorte continua. Nel primo corso, c’erano circa 45 studenti; circa la metà erano in classe e metà online. Gli istruttori hanno creato un gruppo LinkedIn, e la maggior parte di noi si è collegata (il gruppo è chiuso, quindi non cercate di trovarlo e di unirvi!) Forse il 20% degli studenti si è estinto al terzo corso, ma gli studenti che erano più attivi nel gruppo sono rimasti e hanno contribuito. E’ stato divertente vedere i miei compagni di classe ottenere nuovi lavori nel campo dell’analitica negli ultimi mesi, e creare connessioni con loro è stato prezioso.
  • Compiti abbastanza facili. Questo può tagliare in entrambi i sensi – se i compiti non erano difficili, allora non ho imparato molto; ma, significa che posso integrare il mio apprendimento con altre esperienze. In media, ho trascorso 3 ore in classe a settimana, e 2-3 ore sui compiti a casa.

Cosa non mi è piaciuto del programma

  • Frequenza obbligatoria alle lezioni almeno 8 delle 10 lezioni del corso. Le presenze vengono prese in considerazione. La classe si incontra alle 18:00 ora del Pacifico e dura 3 ore. Quindi, dato che sono un’ora avanti, per me era dalle 19 alle 22. Per i primi due mesi, ho dovuto svegliarmi alle 5 del mattino per lavoro, quindi assistere a queste lezioni mentre si tenevano poteva rendere il giorno dopo assonnato. Ovviamente, più lontano sei da Seattle, più difficile sarà seguire le lezioni online.
  • Guardare le lezioni in tempo reale. Quando seguo i MOOC, di solito velocizzo i video fino a 1,5x-2,0x la velocità reale, a seconda di quanto veloce parla l’oratore. Questo mi aiuta a concentrarmi meglio. Con i MOOC, si può anche riavvolgere se si perde qualcosa. Con il corso dal vivo, ovviamente non puoi farlo fino a quando la lezione viene pubblicata (di solito il giorno successivo), e poi trovare il tuo momento chiave non è banale.
  • Non si può vedere l’istruttore nelle lezioni. Altri corsi online che ho seguito hanno una telecamera puntata sull’istruttore, in modo da poterlo vedere mentre si guardano le slide. La tecnologia della UW, per qualche motivo, non mostra l’istruttore, quindi si sente solo la sua voce e si guardano le diapositive. Questo rende molto più difficile concentrarsi se sei uno studente online, e diluisce un po’ l’apprendimento, dato che non puoi vedere la comunicazione non verbale.
  • La continuità tra le classi non è ideale. Nei corsi #2 e #3, ci sono state diverse volte in cui gli istruttori hanno chiesto, “Hai imparato questo ultimo corso? Sarebbe bello se si potesse inchiodare un curriculum più mirato e se gli istruttori si passassero meglio le informazioni a vicenda.
  • Weka per l’apprendimento automatico? Nel secondo corso, abbiamo fatto statistica usando R. E poi, invece di continuare con R nel terzo corso, l’istruttore ha insegnato Machine Learning usando Weka. La brava gente dell’Università di Waikato ha fatto un buon lavoro con il software Weka, ma qualcuno nell’industria usa ancora Weka? Non lo vedo in molti annunci di lavoro. Fortunatamente, l’istruttore conosceva bene R, e accettava i compiti in R se volevamo, quindi è così che ho completato i miei compiti. Ma, ha insegnato gran parte del corso usando Weka, che penso sia una grande opportunità persa e un errore.
  • Non abbastanza profondità. Ok, quindi Data Science è una materia molto ampia, in continua crescita. UW apparentemente ha deciso per questo programma di puntare sull’ampiezza piuttosto che sulla profondità. Questa è probabilmente una buona decisione, perché c’è solo così tanto che si può inserire in 90 ore di lezione, poi si mandano gli studenti ad imparare da soli, essendo stati almeno esposti a nuovi concetti. Ma ho continuato a desiderare di andare più a fondo e imparare di più sui vari argomenti di cui abbiamo parlato; invece ci spostavamo al concetto successivo per una o due slide.

Rassegna veloce dei singoli corsi

Corso 1: Introduzione alla Scienza dei Dati

Il primo corso è stato un sondaggio di base del terreno della Scienza dei Dati. E’ veramente un’introduzione, e non presuppone quasi nessuna conoscenza precedente di Data Science. Abbiamo imparato a conoscere il flusso di dati di base attraverso un progetto, e siamo passati attraverso alcuni primer sugli strumenti di Data Science (R, Python, SQL, MATLAB/Octave, così come una piccola introduzione a Hadoop). Abbiamo avuto alcuni compiti a casa in R, e abbiamo imparato a conoscere le matrici sparse, e abbiamo avuto uno o due compiti in SQL. Il corso non è molto impegnativo, specialmente se avete avuto una precedente esposizione alla scienza dei dati, ma le lezioni erano buone e le letture extra erano utili. Do a questo corso un B- – buon contenuto e buon istruttore, ma la velocità e la profondità non erano quello che speravo di pagare. Ho quasi abbandonato il programma dopo questo corso, ma quando è arrivato il momento di registrarmi e consegnare i dati della mia carta di credito per il corso 2, sono andato avanti e l’ho fatto.

Corso 2: Metodi per l’analisi dei dati

Nonostante il nome di questo corso, questo era principalmente un corso di statistica e di gestione dei dati. Ho pensato che questo fosse il miglior corso dei tre, e ho imparato molto su alcuni metodi statistici che non conoscevo. Il mio corso è stato tenuto da un Senior Data Scientist di Zillow, un dottorando in matematica applicata che era anche un insegnante di talento. Sfortunatamente sembra che le future edizioni del corso potrebbero avere un nuovo istruttore – TBD mentre scrivo questo – quindi speriamo che possano trovare un buon sostituto.

Tutti i compiti a casa hanno usato R. Abbiamo avuto una certa esposizione a fare web scraping con R (sì, puoi vedere “Ew!” qui – Python è molto superiore per il web scraping!), eseguire simulazioni Monty Hall, fare analisi di base dei grafici di rete, regressione e creare variabili autoregressive, tra gli altri concetti statistici. Abbiamo finito il corso con un progetto di corso, dove abbiamo dovuto trovare i nostri dati, analizzarli e scrivere una relazione. Il mio progetto finale è stato l’esplorazione del Denver B-Cycle 2014 Ridership.

Ho dato una A a questo corso. L’ho trovato abbastanza impegnativo a volte, e i compiti a casa mi hanno fatto pensare e hanno richiesto alcune ore ciascuno. Penso che questo corso sia valso i miei soldi e il mio tempo.

Corso 3: Derivare la conoscenza dai dati su scala

Dopo una buona esperienza con il corso 2, non ho avuto problemi ad iscrivermi al terzo corso.

Questo corso era una specie di corso di Machine Learning.

Questo corso è stato tenuto da uno statistico di Boeing di lunga data che attualmente lavora come Principal Data Scientist per Microsoft. Sembrava un tipo molto personalizzabile, facendo battute e raccontando storie popolari per la classe. Avrei voluto essere presente alle lezioni di persona, invece di ascoltare online, perché potevo dire che stava davvero interagendo con la classe e condividendo il suo entusiasmo (aveva anche la brutta abitudine di allontanarsi dal microfono per mezzo minuto alla volta).

Tuttavia, sono rimasto piuttosto deluso da questo corso come seguito del secondo corso. A questo punto, abbiamo passato probabilmente 3 mesi a lavorare in R, per il primo e il secondo corso insieme, quindi avrebbe avuto senso insegnare i concetti di apprendimento automatico e assegnare compiti a casa in R. Invece, come ho menzionato nella mia lista di lamentele, abbiamo usato Weka. Certo, Weka ha una bella interfaccia grafica, ma non volevo imparare un nuovo software che garantisco non userò in futuro (mi dispiace, ma R, Python e i pacchetti Spark Machine Learning saranno molto più utili). Fortunatamente, l’istruttore ci ha permesso di consegnare i compiti in R. Ma sono diventato così frustrato dal corso che mi sono sintonizzato sulle lezioni, al fine di ottenere la mia frequenza, e poi ho lasciato il mio computer in funzione mentre andavo a fare qualcos’altro.

Il progetto finale per questo corso era di partecipare ad una competizione Kaggle. L’attenzione era solo un po’ sulla competizione – si trattava più che altro di documentare il nostro processo, dalla comprensione dell’esplorazione dei dati, alla modellazione, alla scrittura dei nostri risultati. L’istruttore ci ha chiesto di fare coppia. Questa è un’altra cosa molto difficile da fare come studente online. Inizialmente ho trovato un paio di ragazzi per formare una squadra; tuttavia, eravamo tutti in fusi orari diversi, e date le responsabilità familiari era difficile incontrarsi di notte, così alla fine ho detto “scusate ragazzi, vado da solo”. Ogni squadra della classe ha scelto una competizione Kaggle attuale che sembrava interessante per loro, così abbiamo lavorato collettivamente su circa 8 progetti diversi, invece di competere uno contro l’altro, come nel corso edX Analytics Edge. Ho scelto il concorso How Much Did It Rain? II; se siete interessati potete vedere il mio progetto nel mio repo GitHub.

Ho dato a questo corso un C-. C’erano buone informazioni, e l’istruttore era interessante, ma la scelta di Weka mi ha lasciato perplesso, e l’organizzazione del corso era un po’ scarsa (gli studenti erano spesso confusi dalle date di scadenza).

Sommario

In generale, do a questo programma di certificazione un voto di B-.

Lo consiglierei a chi può frequentare di persona, a chi ha buone competenze tecniche/matematiche/statistiche e non è stato esposto a Data Science, ma è davvero curioso e vuole imparare, e a chi ama un ambiente di apprendimento molto ben strutturato. Lo consiglio anche se siete interessati a far crescere la vostra rete professionale di persone che la pensano come voi (specialmente quelli della zona di Seattle). Ho sentito che le persone che frequentano i corsi si sono aiutate a vicenda a trovare lavoro. Forse è successo nella mia coorte(?), ma è difficile da dire come studente online.

Non lo consiglio se avete preso, o siete a vostro agio a prendere i MOOCs in Data Science e/o Machine Learning (Coursera, Udacity, edX, ecc.), o forse siete disposti ad impegnarvi nell’elenco Open Source Data Science Masters, o avete lavorato in una capacità di Data Science per un certo periodo di tempo. Per i miei soldi e il mio tempo, i corsi sui siti MOOC erano molto più preziosi. Non aspettatevi di finire questi tre corsi e uscire dall’altra parte come Data Scientist – questo graffia appena la superficie (anche se potrebbe essere un buon punto di partenza!).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.