19 Jan 2016

W grudniu ukończyłem trzeci z trzech kursów w ramach programu University of Washington’s Professional & Continuing Education’s (PCE) Certificate in Data Science. Wszystkie kursy w tym programie trwały 10 tygodni, a 3-godzinne wykłady odbywały się raz w tygodniu. Ponieważ mieszkam w Denver, nie mogłem fizycznie uczestniczyć w spotkaniach, które odbywały się w kampusie UW w Seattle, więc byłem częścią kohorty online. To jest moja recenzja programu i mam nadzieję, że może być przydatna dla innych, którzy rozważają ten program.

Why Did I Enter the Certificate Program?

Time for a Change

Na początku 2014 roku zdecydowałem, że mam dość. Wykonywałem pracę związaną z danymi dla rządu federalnego przez nieco ponad 8 lat, ale byłem gotowy na nowe wyzwanie. Praca była dobra, ale byłem zmęczony miażdżącą biurokracją i poczuciem, że moja kariera nie rozwija się już w pożądanym przeze mnie kierunku (ktoś niestety zdecydował, że mam trochę predyspozycji do zarządzania, a ja czułem, że zostaję w to wciągnięty), i byłem zmęczony używaniem wersji MATLABa z 2006 roku do wykonywania dużej części mojej „zabawnej” pracy związanej z danymi.

Podejmowanie MOOCs

Więc w 2014 roku zacząłem na poważnie podejmować Masowe Otwarte Kursy Online (MOOCs). Wiedziałem, że kocham i byłem dość dobry w analizie danych i programowaniu, więc zacząłem brać kursy w ścieżce Data Science na Udacity (to było zanim ich popularne programy Nanodegree zostały opracowane). Do maja odkryłem Coursera, a w czerwcu rozpocząłem specjalizację JHU Data Science (ukończyłem tę specjalizację w grudniu 2014 roku). Planuję przejrzeć niektóre aspekty tych MOOCs w późniejszym terminie, ale na razie po prostu wspomnę, że te kursy były zmieniające życie.

UW Certificate and Application

W lecie 2014 roku dowiedziałem się o certyfikacie UW PCE Data Science. Mimo że brałem wiele MOOCs, wciąż nie byłem pewien, czy faktycznie pomogą mi one zakwalifikować się do pracy. Nie dostawałem wielu trafień od rekruterów na LinkedIn, a kilka aplikacji, które rzuciłem przez ściany firm, nie dostało żadnych ukąszeń. Nie byłem gotowy na czas i koszty programu magisterskiego w Data Science, więc pomyślałem, że profesjonalny certyfikat uniwersytecki będzie kolejną najlepszą rzeczą, a może pomoże mi znaleźć dodatkowe kontakty, aby nawiązać połączenie z pracą.

Więc złożyłem wniosek o program. Ponieważ minęło około półtora roku, odkąd złożyłem wniosek, nie pamiętam wielu szczegółów dotyczących procesu aplikacji, ale wierzę, że był 25-pytaniowy test z wiedzy o Data Science (niektóre SQL i statystyki są tym, co pamiętam), musiałem złożyć CV, krótkie oświadczenie o zainteresowaniu i około 50 $ jako opłatę za aplikację. Nie było to zbyt stresujące.

Accepted, but New Job!

I was accepted into the program. Jednak była lista oczekujących, więc nie mogłem zacząć aż do kwietnia 2015.

Do czasu kwiecień toczył się wokół, byłem w rozmowach z rekruterem i miał wywiad z firmą, że teraz pracuję dla. Chcieli, żebym przyszedł i zrobił dla nich Machine Learning! Byłem 4 tygodnie w pierwszej klasie w programie certyfikacji, kiedy przyjąłem moją nową pracę. Miałem więc dylemat: osiągnąłem swój cel (nowa praca w sektorze prywatnym), ale właśnie rozpocząłem ten program, który czekał 7 miesięcy, aby rozpocząć (i zapłaciłem bezzwrotne $ 1100 + do udziału). Czy powinienem kontynuować? Po kilku rozważaniach, poddałem się i zdecydowałem, że pieniądze były utopionym kosztem, więc równie dobrze mogę się czegoś nauczyć.

Kurs # 1 był wystarczająco dobry, że nadal płacić za i podjąć każdy kolejny kurs, pomimo ogromnej wewnętrznej debaty za każdym razem (czy tego potrzebuję? powinienem spędzić mój czas / pieniądze gdzie indziej?). Ogólnie rzecz biorąc, głównie cieszyłem się pozostałą częścią programu i czuję się spełniony z powodu ukończenia; jednak nie jestem pewien, czy była to najlepsza inwestycja mojego czasu i pieniędzy. Uczę się więcej i szybciej, biorąc większość MOOCs, niż ja z tego programu (James Altucher’s Don’t Send Your Kids to College post przychodzi na myśl). Ale również nawiązałem kilka cennych znajomości z moimi kolegami z klasy, o wiele więcej znajomości niż z jakiegokolwiek MOOC.

Is This Program for You?

Ok, dość o moich motywacjach do wzięcia udziału w programie certyfikacyjnym. Oto niektóre z moich pozytywów i negatywów programu, które, jeśli jesteś początkującym Data Scientist i zastanawiasz się, czy powinieneś spróbować dla certyfikatu, może pomóc ci podjąć decyzję.

Co mi się podobało w programie

  • Certyfikat od zaufanej instytucji, która jest liderem w Data Science i Machine Learning.
  • Uczęszczaj na kursy online lub osobiście (jeśli mieszkasz w obszarze Seattle). Miło, że dają ci wybór, i że nawet jako student online możesz uczestniczyć „na żywo.”
  • Osobiste informacje zwrotne od instruktorów na wszystkich zadaniach (dla mnie to było zwykle 2-3 linie informacji zwrotnej). Nie jestem pewien, czy jest to lepsze czy gorsze niż automatycznie oceniane lub oceniane przez rówieśników zadania w wielu MOOCs.
  • Kursy prowadzone przez Data Scientists w przemyśle. Moje kursy były prowadzone przez Data Scientists w Prediction Software, Zillow i Microsoft.
  • Możliwość rozmowy i zadawania pytań instruktorom. Nawet online, jest funkcja czatu, a asystent nauczania przekazuje pytania do instruktora. Miło jest uzyskać informacje zwrotne w czasie rzeczywistym od instruktorów.
  • Koszt: Wydałem około 3400 dolarów za trzy kursy. Znacznie droższe niż MOOC, ale znacznie tańsze niż tytuł magistra.
  • Dodatkowe materiały do nauki i czytania. Wszyscy instruktorzy wykonali świetną robotę, znajdując interesujące rzeczy do przeczytania w ramach cotygodniowych zadań.
  • Nawiązywanie kontaktów i ciągła kohorta. Na pierwszym kursie było około 45 studentów; mniej więcej połowa z nich była w klasie, a połowa online. Instruktorzy założyli grupę na LinkedIn i większość z nas się do niej przyłączyła (grupa jest zamknięta, więc nie próbujcie jej znaleźć i do niej dołączyć!). Może 20% studentów wypisało się po trzecim kursie, ale ci studenci, którzy byli najbardziej aktywni w grupie, pozostali i wnieśli swój wkład. Fajnie było patrzeć, jak moi koledzy z klasy dostają nowe prace w analityce w ciągu ostatnich kilku miesięcy, a nawiązywanie z nimi kontaktów było cenne.
  • Dość łatwe zadania. To może działać w obie strony – jeśli zadania nie były trudne, to nie nauczyłem się wiele; ale oznacza to, że mogę uzupełnić moją naukę o inne doświadczenia. Średnio spędzałem 3 godziny w klasie tygodniowo i 2-3 godziny na zadaniach domowych.

Co mi się nie podobało w programie

  • Obowiązkowa obecność w klasie na co najmniej 8 z 10 wykładów na kursie. Frekwencja jest brana pod uwagę. Zajęcia odbywają się o 18:00 czasu pacyficznego i trwają 3 godziny. Więc, ponieważ jestem o godzinę do przodu, dla mnie to było 7PM-10PM. Przez pierwsze dwa miesiące musiałem budzić się o 5 rano do pracy, więc uczęszczanie na te wykłady w czasie ich trwania mogło sprawić, że następny dzień był senny. Oczywiście, im dalej od Seattle jesteś, tym trudniej będzie uczestniczyć w wykładach online.
  • Oglądanie wykładów w czasie rzeczywistym. Kiedy biorę udział w MOOCs, zwykle przyspieszam filmy do 1,5x do 2,0x rzeczywistej prędkości, w zależności od tego, jak szybko mówi mówca. To pomaga mi się lepiej skupić. W przypadku MOOCs możesz również przewijać, jeśli coś przeoczysz. Z kursem na żywo, oczywiście nie możesz tego zrobić dopóki wykład nie zostanie opublikowany (zazwyczaj następnego dnia), a wtedy znalezienie kluczowego momentu nie jest trywialne.
  • Nie można zobaczyć instruktora na wykładach. Inne kursy online, w których brałem udział, mają kamerę wyszkoloną na instruktora, więc możesz go widzieć, jednocześnie patrząc na slajdy. Technologia UW, z jakiegoś powodu, nie pokazuje instruktora, więc po prostu słyszysz jego głos i patrzysz na slajdy. To sprawia, że o wiele trudniej jest się skupić, jeśli jesteś studentem online, i rozcieńcza trochę naukę, ponieważ nie możesz zobaczyć komunikacji niewerbalnej.
  • Ciągłość między klasami mniej niż idealna. W kursach #2 i #3, było kilka razy, kiedy instruktorzy pytali: „Czy nauczyłeś się tego ostatniego kursu?”. Byłoby dobrze, gdyby bardziej ukierunkowany program nauczania mógł zostać przybity, a instruktorzy lepiej przekazywali sobie informacje.
  • Weka dla uczenia maszynowego? Na drugim kursie, zrobiliśmy statystyki używając R. A potem, zamiast kontynuować z R w trzecim kursie, instruktor uczył uczenia maszynowego używając Weka. Dobrzy ludzie na Uniwersytecie Waikato wykonali dobrą robotę z oprogramowaniem Weka, ale czy ktokolwiek w przemyśle używa już Weka? Nie widzę go w wielu ogłoszeniach o pracę. Na szczęście instruktor dobrze znał R i akceptował zadania w R, jeśli chcieliśmy, więc w ten sposób ukończyłem moje zadania. Ale nauczał większość kursu za pomocą Weka, co moim zdaniem jest główną straconą szansą i błędem.
  • Niewystarczająca głębia. Ok, więc Data Science to bardzo szeroki temat, który cały czas się rozwija. UW najwyraźniej zdecydował dla tego programu, że pójdą na szerokość, a nie głębokość. Jest to prawdopodobnie dobra decyzja, ponieważ jest tylko tyle, ile można zmieścić w 90 godzinach wykładów, a następnie wysyłasz studentów, aby uczyli się na własną rękę, będąc przynajmniej narażonym na nowe koncepcje. Ale ja ciągle chciałem zagłębiać się i uczyć się więcej o różnych tematach, o których mówiliśmy; zamiast tego przechodziliśmy do następnej koncepcji na slajd lub dwa.

Quick Review of Individual Courses

Course 1: Introduction to Data Science

Pierwszy kurs był podstawowym przeglądem ziemi Data Science. To naprawdę jest wprowadzenie i nie zakłada prawie żadnej wcześniejszej wiedzy na temat Data Science. Dowiedzieliśmy się o podstawowym przepływie danych poprzez projekt i przeszliśmy przez kilka elementarzy na temat narzędzi Data Science (R, Python, SQL, MATLAB/Octave, jak również małe wprowadzenie do Hadoop). Mieliśmy kilka zadań domowych w R, i dowiedzieliśmy się o macierzach rzadkich, i mieliśmy zadanie domowe SQL lub dwa. Kurs nie jest bardzo wymagający, szczególnie jeśli miałeś już wcześniej styczność z Data Science, ale wykłady były dobre, a dodatkowe lektury pomocne. Daję temu kursowi B- – dobra treść i dobry instruktor, ale szybkość i głębokość nie były tym, za co miałem nadzieję, że zapłaciłem. Prawie zrezygnowałem z programu po tym kursie, ale kiedy przyszedł czas na rejestrację i przekazanie informacji o mojej karcie kredytowej na Kurs 2, poszedłem naprzód i zrobiłem to.

Kurs 2: Metody analizy danych

Pomimo nazwy tego kursu, była to przede wszystkim statystyka i kurs posługiwania się danymi. Myślałem, że to był najlepszy kurs z trzech i nauczyłem się sporo o niektórych metodach statystyki, których nie znałem. Mój kurs był prowadzony przez Senior Data Scientist w Zillow, Applied Math PhD, który był również utalentowanym nauczycielem. Niestety wygląda na to, że przyszłe runningi kursu mogą mieć nowego instruktora – TBD jak to piszę – więc mam nadzieję, że mogą znaleźć dobre zastępstwo.

Wszystkie prace domowe używały R. Mieliśmy trochę ekspozycji na robienie web scrapingu z R (tak, możesz zobaczyć „Ew!” tutaj – Python jest o wiele lepszy do web scrapingu!), prowadzenie symulacji Monty Hall, robienie podstawowej analizy wykresów sieciowych, regresji i tworzenie zmiennych autoregresyjnych, wśród innych koncepcji statystycznych. Kurs zakończyliśmy projektem, w którym musieliśmy znaleźć własne dane, przeanalizować je i napisać raport. Mój ostateczny projekt był badaniem Denver B-Cycle 2014 Ridership.

Daję temu kursowi A. Znalazłem go jako dość trudne w czasach, a prace domowe zmusiły mnie do myślenia i zajęło kilka godzin każdy. Czułem, że ten kurs był wart moich pieniędzy i mojego czasu.

Kurs 3: Deriving Knowledge from Data at Scale

Po dobrym doświadczeniu z Kursem 2, nie miałem problemu z zapisaniem się na trzeci kurs.

Ten kurs był w pewnym sensie, w pewnym sensie, kursem Machine Learning.

Ten kurs był prowadzony przez długoletniego statystyka Boeinga, który obecnie pracuje jako Principal Data Scientist dla Microsoftu. Wydawał się bardzo sympatycznym facetem, żartował i opowiadał ludowe historie dla klasy. Chciałbym być na wykładach osobiście, zamiast słuchać online, ponieważ mogłem powiedzieć, że był naprawdę interakcji z klasą i dzielenie się swoim entuzjazmem (miał również paskudny zwyczaj wędrowania z dala od mikrofonu przez pół minuty na raz).

Jednakże, byłem raczej rozczarowany w tym kursie jako kontynuacja drugiego kursu. Do tej pory spędziliśmy prawdopodobnie 3 miesiące wykonując pracę w R, dla pierwszego i drugiego kursu łącznie, więc sensowne byłoby nauczanie koncepcji uczenia maszynowego i przydzielanie prac domowych w R. Zamiast tego, jak wspomniałem w mojej liście skarg, użyliśmy Weka. Jasne, Weka ma ładnie wyglądające GUI, ale nie chciałem uczyć się nowego oprogramowania, którego gwarantuję, że nie będę używał w przyszłości (przepraszam, ale pakiety R, Python i Spark Machine Learning będą o wiele bardziej przydatne). Na szczęście instruktor pozwolił nam zwrócić nasze prace domowe w R. Ale stałem się tak sfrustrowany z kursu, że dostroiłem się do wykładów, w celu uzyskania mojej obecności, a następnie pozostawił mój komputer uruchomiony, podczas gdy ja poszedłem zrobić coś innego.

Końcowy projekt dla tego kursu był udział w konkursie Kaggle. Skupiliśmy się tylko trochę na konkursie – chodziło bardziej o udokumentowanie naszego procesu, od zrozumienia eksploracji danych, przez modelowanie, po spisanie naszych wyników. Prowadzący poprosił nas o dobranie się w pary. Jest to kolejna bardzo trudna rzecz do zrobienia jako student online. Początkowo znalazłam kilku facetów, którzy stworzyliby zespół; jednak wszyscy byliśmy w różnych strefach czasowych, a biorąc pod uwagę obowiązki rodzinne, trudno było spotkać się w nocy, więc w końcu powiedziałam „sorry chłopaki, idę na to sama”. Każdy zespół w klasie wybrał bieżący konkurs Kaggle, który wyglądał dla nich interesująco, więc wspólnie pracowaliśmy nad około 8 różnymi projektami, zamiast konkurować ze sobą, jak w kursie edX Analytics Edge. Ja zdecydowałem się na konkurs How Much Did It Rain? II konkurs; jeśli jesteś zainteresowany, możesz zobaczyć mój projekt writeup w moim GitHub repo.

Daję temu kursowi C-. Były tam dobre informacje, a instruktor był interesujący, ale wybór Weka oszołomił mnie, a organizacja kursu była trochę słaba (studenci byli często zdezorientowani terminami).

Podsumowanie

Ogółem, daję temu programowi certyfikat na ocenę B-.

Polecałbym go dla osób, które mogą uczestniczyć w nim osobiście, dla tych z dobrymi umiejętnościami technicznymi/matematycznymi/statystycznymi, którzy nie byli narażeni na Data Science, ale są naprawdę ciekawi i chcą się uczyć, oraz dla tych, którzy lubią bardzo dobrze zorganizowane środowisko uczenia się. Polecam go również, jeśli jesteś zainteresowany rozwojem swojej profesjonalnej sieci podobnie myślących osób (szczególnie tych w obszarze Seattle). Słyszałam, że ludzie na kursach nawiązują kontakty i pomagają sobie nawzajem w znalezieniu pracy. Może tak się stało w mojej kohorcie(?), ale trudno powiedzieć, jak student online.

Nie polecam go, jeśli wziąłeś, lub są wygodne biorąc, MOOCs w Data Science i / lub Machine Learning (Coursera, Udacity, edX, itp), lub być może są chętni do slog przez Open Source Data Science Masters listy, lub zostały pracujących w Data Science zdolności przez dłuższy czas. Za moje pieniądze i mój czas, kursy na stronach MOOC były o wiele bardziej wartościowe. Nie oczekuj, że skończysz te trzy kursy i wyjdziesz jako Data Scientist po drugiej stronie – to ledwie zarysowuje powierzchnię (chociaż może być dobrym miejscem do rozpoczęcia!).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.