19 ian 2016
În decembrie, am finalizat al treilea din cele trei cursuri din cadrul programului Professional & Continuing Education (PCE) Certificate in Data Science al Universității din Washington. Toate cursurile din acest program au avut o durată de 10 săptămâni, cu prelegeri de 3 ore ținute o dată pe săptămână. Întrucât locuiesc în Denver, nu am putut participa fizic la ședințe, ținute în campusul UW din Seattle, așa că am făcut parte din cohorta online. Aceasta este recenzia mea despre program și sper că poate fi utilă pentru alții care se gândesc la acest program.
- De ce am intrat în programul de certificare?
- Este timpul pentru o schimbare
- Făcând MOOC-uri
- Certificat și aplicație UW
- Acceptat, dar un nou loc de muncă!
- Este acest program pentru tine?
- Ce mi-a plăcut la program
- Ce nu mi-a plăcut la program
- Revizuirea rapidă a cursurilor individuale
- Curs 1: Introducere în știința datelor
- Curs 2: Metode de analiză a datelor
- Cursul 3: Deriving Knowledge from Data at Scale
- Summary
De ce am intrat în programul de certificare?
Este timpul pentru o schimbare
La începutul anului 2014 am decis că mă săturasem. Făcusem muncă legată de date pentru guvernul federal de puțin peste 8 ani, dar eram pregătit pentru o nouă provocare. Munca era bună, dar mă săturasem de birocrația zdrobitoare și de sentimentul că cariera mea nu mai progresa în direcția dorită (cineva a decis, din păcate, că am o mică aptitudine pentru management, iar eu mă simțeam atrasă) și mă săturasem să folosesc o versiune din 2006 a MATLAB pentru a face o mare parte din munca mea „distractivă” cu date.
Făcând MOOC-uri
Atunci, în 2014, am început să fac cursuri online deschise masive (MOOC-uri) în mod serios. Știam că îmi plăcea și mă pricepeam destul de bine la analiza și programarea datelor, așa că am început să urmez cursuri în cadrul track-ului Data Science la Udacity (acest lucru a fost înainte de dezvoltarea popularelor lor programe Nanodegree). Până în luna mai, am descoperit Coursera, iar în iunie am început specializarea JHU Data Science (am terminat această specializare în decembrie 2014). Intenționez să trec în revistă unele aspecte ale acestor MOOC-uri la o dată ulterioară, dar deocamdată voi menționa doar că aceste cursuri mi-au schimbat viața.
Certificat și aplicație UW
În vara anului 2014, am aflat despre certificatul UW PCE Data Science. Chiar dacă făceam multe MOOC-uri, încă nu eram sigur dacă acestea mă vor ajuta cu adevărat să mă calific pentru un loc de muncă. Nu primeam prea multe răspunsuri de la recrutori pe LinkedIn, iar câteva aplicații pe care le-am aruncat peste zidurile companiilor nu au avut niciun rezultat. Nu eram pregătit pentru timpul și cheltuielile unui program de masterat în știința datelor, așa că m-am gândit că un certificat profesional universitar ar fi cel mai bun lucru următor și poate că m-ar ajuta să găsesc niște contacte suplimentare pentru a face o conexiune pentru un loc de muncă.
Așa că am aplicat pentru acest program. Având în vedere că a trecut aproximativ un an și jumătate de când am aplicat, nu-mi amintesc multe detalii despre procesul de aplicare, dar cred că a existat un test de 25 de întrebări privind cunoștințele de Data Science (ceva SQL și statistici, din câte îmi amintesc), a trebuit să trimit un CV, o scurtă declarație de interes și aproximativ 50 de dolari ca taxă de aplicare. Nu a fost prea stresant.
Acceptat, dar un nou loc de muncă!
Am fost acceptat în program. Cu toate acestea, a existat o listă de așteptare, așa că nu am putut începe până în aprilie 2015.
Până în aprilie, am fost în discuții cu un recrutor și am avut un interviu cu compania pentru care lucrez acum. Au vrut să vin și să fac Machine Learning pentru ei! Eram la 4 săptămâni de la prima clasă din programul de certificare când am acceptat noul meu loc de muncă. Așadar, aveam o dilemă: îmi atinsesem obiectivul (un nou loc de muncă în sectorul privat), dar abia începusem acest program pentru care așteptasem 7 luni să încep (și pentru care plătisem o taxă nerambursabilă de peste 1100 de dolari). Ar trebui să continui? După câteva deliberări, am cedat și am decis că banii erau un cost irecuperabil, așa că aș putea la fel de bine să învăț ceva.
Cursul nr. 1 a fost suficient de bun încât am continuat să plătesc și să urmez fiecare curs următor, în ciuda unei dezbateri interne masive de fiecare dată (am nevoie de asta? ar trebui să-mi petrec timpul/bani în altă parte?). În general, m-am bucurat în mare parte de restul programului și mă simt împlinit pentru că l-am terminat; totuși, nu sunt sigur că a fost cea mai bună investiție de timp și bani. Învăț mai mult, și mai repede, urmând majoritatea MOOC-urilor, decât am învățat din acest program (îmi vine în minte postarea lui James Altucher „Don’t Send Your Kids to College”). Dar, am făcut, de asemenea, mai multe conexiuni valoroase cu colegii mei de clasă, mult mai multe conexiuni decât am făcut din orice MOOC.
Este acest program pentru tine?
Ok, destul despre motivațiile mele pentru a urma programul de certificare. Iată câteva dintre aspectele mele pozitive și negative ale programului, care, dacă sunteți un Data Scientist în devenire și vă întrebați dacă ar trebui să încercați să obțineți certificatul, s-ar putea să vă ajute să luați o decizie.
Ce mi-a plăcut la program
- Certificat de la o instituție de încredere care este lider în Data Science și Machine Learning.
- Participați la cursuri online sau în persoană (dacă locuiți în zona Seattle). Frumos că îți oferă posibilitatea de a alege și că, chiar și ca student online, poți participa „live.”
- Feedback personal din partea instructorilor pentru toate temele (pentru mine a fost de obicei 2-3 rânduri de feedback). Nu sunt sigur dacă acest lucru este mai bun sau mai rău decât temele cu evaluare automată sau evaluată de colegi pe multe MOOC-uri.
- Cursuri predate de Data Scientists din industrie. Cursurile mele au fost predate de oameni de știință de date de la Prediction Software, Zillow și Microsoft.
- Oportunitatea de a vorbi cu instructorii și de a le pune întrebări. Chiar și online, există o funcție de chat, iar asistentul didactic transmite întrebările către instructor. Este plăcut să primești feedback în timp real de la instructori.
- Costul: Am cheltuit în jur de 3400 de dolari pentru cele trei cursuri. Mult mai scump decât un MOOC, dar mult mai ieftin decât un masterat.
- Materiale suplimentare de învățare și lectură. Instructorii au făcut cu toții o treabă excelentă în a găsi lucruri interesante de citit ca parte a temelor săptămânale.
- Stabilirea de contacte și o cohortă continuă. La primul curs, au fost aproximativ 45 de studenți; aproximativ jumătate au fost în clasă și jumătate online. Instructorii au creat un grup LinkedIn, iar cei mai mulți dintre noi ne-am conectat (grupul este închis, așa că nu încercați să îl găsiți și să vă alăturați!). Poate că 20% dintre studenți au renunțat până la al treilea curs, dar acei studenți care au fost cei mai activi în grup au rămas și au contribuit. A fost amuzant să-i văd pe colegii mei de clasă obținând noi locuri de muncă în domeniul analizei în ultimele câteva luni, iar stabilirea de conexiuni cu ei a fost valoroasă.
- Teme destul de ușoare. Aceasta poate tăia în ambele sensuri – dacă temele nu au fost dificile, atunci nu am învățat prea mult; dar, înseamnă că îmi pot completa învățarea cu alte experiențe. În medie, am petrecut 3 ore în clasă pe săptămână și 2-3 ore cu temele pentru acasă.
Ce nu mi-a plăcut la program
- Prezența obligatorie la cursuri, cel puțin 8 din 10 prelegeri pe curs. Prezența este luată în considerare. Cursul se întâlnește la ora 18:00, ora Pacificului și durează 3 ore. Deci, având în vedere că sunt cu o oră înainte, pentru mine a fost 7PM-10PM. În primele două luni, a trebuit să mă trezesc la 5 dimineața pentru muncă, așa că participarea la aceste prelegeri în timp ce se țineau ar putea face ca ziua următoare să fie somnoroasă. Evident, cu cât sunteți mai departe de Seattle, cu atât mai dificil va fi să participați la prelegeri online.
- Urmărirea prelegerilor în timp real. Când particip la MOOC-uri, de obicei accelerez videoclipurile la o viteză de 1,5 până la 2,0 ori mai mare decât cea reală, în funcție de cât de repede vorbește vorbitorul. Acest lucru mă ajută să mă concentrez mai bine. În cazul MOOC-urilor, puteți, de asemenea, să derulați înapoi dacă pierdeți ceva. Cu cursul live, evident, nu poți face acest lucru până când prelegerea nu este postată (de obicei a doua zi), iar atunci găsirea momentului cheie nu este banală.
- Nu pot vedea instructorul în prelegeri. Alte cursuri online pe care le-am urmat au o cameră îndreptată spre instructor, astfel încât îl poți vedea în timp ce te uiți și la slide-uri. Tehnologia de la UW, din anumite motive, nu arată instructorul, așa că doar îi auzi vocea și te uiți la slide-uri. Acest lucru face mult mai greu să te concentrezi dacă ești un student online și diluează puțin învățarea, deoarece nu poți vedea comunicarea non-verbală.
- Continuitatea între cursuri mai puțin decât ideală. La cursurile nr. 2 și nr. 3, au existat mai multe momente în care instructorii au întrebat: „Ați învățat la cursul trecut?”. Ar fi bine dacă ar putea fi bătut în cuie un curriculum mai concentrat și dacă instructorii și-ar transmite mai bine informațiile între ei.
- Weka pentru Machine Learning? La al doilea curs, am făcut statistică folosind R. Și apoi, în loc să continuăm cu R la al treilea curs, instructorul a predat Machine Learning folosind Weka. Oamenii buni de la Universitatea din Waikato au făcut o treabă bună cu software-ul Weka, dar mai folosește cineva din industrie Weka? Nu-l văd la multe anunțuri de angajare. Din fericire, instructorul cunoștea bine R și accepta teme în R dacă doream, așa că așa mi-am completat temele. Dar, el a predat o mare parte din curs folosind Weka, ceea ce cred că este o oportunitate ratată majoră și o greșeală.
- Nu este suficient de profund. Bine, deci Știința datelor este un subiect foarte larg, care crește tot timpul. Se pare că UW a decis, pentru acest program, că va merge mai degrabă pe amploare decât pe profunzime. Aceasta este, probabil, o decizie bună, pentru că nu poți încadra prea multe în 90 de ore de curs, apoi îi trimiți pe studenți să învețe pe cont propriu, după ce au fost cel puțin expuși la noile concepte. Dar am tot vrut să aprofundez și să aflu mai multe despre diversele subiecte despre care am vorbit; în schimb, treceam la următorul concept pentru un slide sau două.
Revizuirea rapidă a cursurilor individuale
Curs 1: Introducere în știința datelor
Primul curs a fost un studiu de bază al terenului științei datelor. Este cu adevărat o introducere și nu presupune aproape niciun fel de cunoștințe anterioare despre Știința datelor. Am învățat despre fluxul de date de bază prin intermediul unui proiect și am trecut prin câteva prim-planuri privind instrumentele de Data Science (R, Python, SQL, MATLAB/Octave, precum și o mică introducere în Hadoop). Am avut câteva teme pentru acasă în R, am învățat despre matrici rare și am avut o temă SQL sau două. Cursul nu este foarte provocator, mai ales dacă ai avut o expunere anterioară la știința datelor, dar prelegerile au fost bune și lecturile suplimentare au fost utile. Dau acestui curs un B- – un conținut bun și un instructor bun, dar viteza și profunzimea nu au fost ceea ce am sperat că am plătit pentru. Aproape că am renunțat la program după acest curs, dar când a venit timpul să mă înregistrez și să predau informațiile cardului meu de credit pentru cursul 2, am mers mai departe și am făcut-o.
Curs 2: Metode de analiză a datelor
În ciuda numelui acestui curs, acesta a fost în primul rând un curs de statistică și de manipulare a datelor. Am considerat că a fost cel mai bun curs dintre cele trei și am învățat destul de multe despre unele metode de statistică pe care nu le cunoșteam. Cursul pe care l-am ținut a fost predat de un Senior Data Scientist la Zillow, un doctor în matematică aplicată care a fost, de asemenea, un profesor talentat. Din păcate, se pare că viitoarele desfășurări ale cursului ar putea avea un nou instructor – TBD în timp ce scriu aceste rânduri – așa că sperăm că vor găsi un înlocuitor bun.
Toate temele pentru acasă au folosit R. Am avut o oarecare expunere pentru a face web scraping cu R (da, puteți vedea „Ew!” aici – Python este mult superior pentru web scraping!), rulând simulări Monty Hall, făcând analize de bază ale graficelor de rețea, regresie și creând variabile autoregresive, printre alte concepte statistice. Am încheiat cursul cu un proiect de curs, în care a trebuit să ne găsim propriile date, să le analizăm și să scriem un raport. Proiectul meu final a fost explorarea numărului de participanți la Denver B-Cycle 2014.
Am acordat acestui curs un 10. Mi s-a părut destul de provocator uneori, iar temele m-au făcut să mă gândesc și au durat câteva ore fiecare. Am simțit că acest curs a meritat banii și timpul meu.
Cursul 3: Deriving Knowledge from Data at Scale
După o experiență bună cu cursul 2, nu am avut nicio problemă în a mă înscrie la cel de-al treilea curs.
Acest curs a fost un fel de, un fel de, curs de învățare a mașinilor.
Acest curs a fost predat de un statistician de lungă durată de la Boeing, care lucrează în prezent ca Principal Data Scientist pentru Microsoft. Părea un tip foarte amabil, care făcea glume și spunea povești populare pentru clasă. Mi-aș fi dorit să pot fi fost la cursuri în persoană, în loc să ascult online, pentru că puteam spune că interacționa cu adevărat cu clasa și își împărtășea entuziasmul (avea, de asemenea, un obicei neplăcut de a se îndepărta de microfon pentru o jumătate de minut la un moment dat).
Cu toate acestea, am fost destul de dezamăgit de acest curs ca o continuare a celui de-al doilea curs. Până acum, am petrecut probabil 3 luni lucrând în R, pentru primul și al doilea curs combinate, așa că ar fi avut sens să predăm concepte de învățare automată și să atribuim teme de casă în R. În schimb, așa cum am menționat în lista mea de nemulțumiri, am folosit Weka. Sigur, Weka are o interfață grafică arătoasă, dar nu am vrut să învăț un software nou pe care garantez că nu îl voi folosi în viitor (îmi pare rău, dar pachetele R, Python și Spark Machine Learning vor fi mult mai utile). Din fericire, instructorul ne-a permis să predăm temele în R. Dar am devenit atât de frustrat de curs încât m-am conectat la cursuri, pentru a-mi lua prezența, și apoi mi-am lăsat calculatorul pornit în timp ce mă duceam să fac altceva.
Proiectul final pentru acest curs a fost participarea la o competiție Kaggle. Accentul a fost pus doar puțin pe competiție – a fost mai mult pe documentarea procesului nostru, de la înțelegerea explorării datelor, la modelare, la scrierea rezultatelor noastre. Instructorul ne-a cerut să formăm perechi. Acesta este un alt lucru foarte dificil de făcut în calitate de student online. Inițial, am găsit câțiva băieți pentru a forma o echipă; cu toate acestea, ne aflam cu toții în fusuri orare diferite și, având în vedere responsabilitățile familiale, era dificil să ne întâlnim seara, așa că, în cele din urmă, am spus „îmi pare rău, băieți, mă descurc singur”. Fiecare echipă din clasă a ales o competiție Kaggle curentă care i s-a părut interesantă, așa că am lucrat împreună la aproximativ 8 proiecte diferite, în loc să concurăm unul împotriva celuilalt, ca la cursul edX Analytics Edge. Am optat pentru How Much Did It Rain? II; dacă sunteți interesați, puteți vedea scrierea proiectului meu în repo-ul meu de pe GitHub.
Am acordat acestui curs un C-. Au fost informații bune, iar instructorul a fost interesant, dar alegerea lui Weka m-a năucit, iar organizarea cursului a fost un pic cam slabă (studenții au fost adesea confuzi cu datele de predare).
Summary
În general, dau acestui program de certificare o notă de B-.
L-aș recomanda pentru persoanele care pot participa în persoană, pentru cei cu abilități bune de tehnologie/matematică/statistică care nu au fost expuși la Știința Datelor, dar sunt foarte curioși și doresc să învețe, și pentru cei cărora le place un mediu de învățare foarte bine structurat. De asemenea, l-aș recomanda dacă sunteți interesați să vă dezvoltați rețeaua profesională de persoane care gândesc la fel ca dumneavoastră (în special cei din zona Seattle). Am auzit că oamenii din cadrul cursurilor lucrează în rețea și s-au ajutat reciproc să își găsească locuri de muncă. Poate că asta s-a întâmplat în cohorta mea(?), dar este greu de spus ca student online.
Nu îl recomand dacă ați luat, sau vă simțiți confortabil să luați MOOC-uri în Știința datelor și / sau învățarea mașinilor (Coursera, Udacity, edX, etc.), sau poate că sunteți dispus să treceți prin lista de masterat Open Source Data Science, sau dacă ați lucrat într-o capacitate de știință a datelor pentru o perioadă de timp. Pentru banii și timpul meu, cursurile de pe site-urile MOOC au fost mult mai valoroase. Nu vă așteptați să terminați aceste trei cursuri și să ieșiți un Data Scientist pe partea cealaltă – acest lucru abia zgârie suprafața (deși ar putea fi un loc bun pentru a începe!).
.