19 Jan 2016

Im Dezember habe ich den dritten von drei Kursen des Professional & Continuing Education’s (PCE) Certificate in Data Science Programms der University of Washington abgeschlossen. Alle Kurse in diesem Programm dauerten 10 Wochen, mit 3-stündigen Vorlesungen einmal pro Woche. Da ich in Denver wohne, konnte ich nicht an den Sitzungen teilnehmen, die auf dem UW-Campus in Seattle stattfanden, also war ich Teil der Online-Kohorte. Dies ist mein Bericht über das Programm, der hoffentlich auch für andere nützlich ist, die das Programm in Erwägung ziehen.

Warum habe ich an dem Zertifikatsprogramm teilgenommen?

Zeit für eine Veränderung

Anfang 2014 beschloss ich, dass ich genug hatte. Ich hatte etwas mehr als 8 Jahre lang für die Bundesregierung im Bereich Daten gearbeitet, aber ich war bereit für eine neue Herausforderung. Die Arbeit war gut, aber ich war der erdrückenden Bürokratie überdrüssig und hatte das Gefühl, dass sich meine Karriere nicht mehr in die von mir gewünschte Richtung entwickelte (leider entschied jemand, dass ich ein wenig für das Management geeignet war, und ich spürte, wie ich hineingezogen wurde), und ich war es leid, eine 2006er Version von MATLAB zu verwenden, um einen Großteil meiner „lustigen“ Datenarbeit zu erledigen.

Moocs belegen

So begann ich 2014 ernsthaft, Massive Open Online Courses (MOOCs) zu belegen. Ich wusste, dass ich Datenanalyse und Programmierung liebte und ziemlich gut darin war, also begann ich, Kurse im Bereich Data Science bei Udacity zu belegen (das war, bevor die beliebten Nanodegree-Programme entwickelt wurden). Im Mai entdeckte ich Coursera, und im Juni begann ich die JHU Data Science Specialization (die ich im Dezember 2014 abschloss). Ich habe vor, einige Aspekte dieser MOOCs zu einem späteren Zeitpunkt zu besprechen, aber im Moment möchte ich nur erwähnen, dass diese Kurse mein Leben verändert haben.

UW-Zertifikat und Bewerbung

Im Sommer 2014 erfuhr ich von dem UW PCE Data Science-Zertifikat. Obwohl ich viele MOOCs belegte, war ich mir immer noch nicht sicher, ob sie mir tatsächlich helfen würden, mich für einen Job zu qualifizieren. Ich erhielt nicht viele Treffer von Personalverantwortlichen auf LinkedIn, und auf einige Bewerbungen, die ich bei Unternehmen einreichte, reagierte niemand. Ich war nicht bereit, den Zeitaufwand und die Kosten für einen Masterstudiengang in Datenwissenschaft auf mich zu nehmen, also dachte ich, dass ein professionelles Universitätszertifikat das Nächstbeste wäre und mir vielleicht helfen würde, zusätzliche Kontakte zu knüpfen, um einen Job zu finden.

So bewarb ich mich für das Programm. Da es etwa anderthalb Jahre her ist, dass ich mich beworben habe, erinnere ich mich nicht mehr an viele Einzelheiten des Bewerbungsverfahrens, aber ich glaube, es gab einen Test mit 25 Fragen zu Data Science-Kenntnissen (ich erinnere mich an etwas SQL und Statistiken), ich musste einen Lebenslauf und eine kurze Interessenbekundung einreichen und etwa 50 Dollar als Bewerbungsgebühr bezahlen. Es war nicht zu stressig.

Akzeptiert, aber neuer Job!

Ich wurde in das Programm aufgenommen. Allerdings gab es eine Warteliste, sodass ich erst im April 2015 anfangen konnte.

Als der April kam, war ich in Gesprächen mit einem Personalvermittler und hatte ein Vorstellungsgespräch bei dem Unternehmen, für das ich jetzt arbeite. Sie wollten, dass ich für sie im Bereich Machine Learning arbeite! Als ich meinen neuen Job annahm, war ich gerade 4 Wochen in der ersten Klasse des Zertifikatsprogramms. Ich stand also vor einem Dilemma: Ich hatte mein Ziel erreicht (einen neuen Job in der Privatwirtschaft), aber ich hatte gerade erst mit diesem Programm begonnen, auf das ich 7 Monate gewartet hatte (und für dessen Teilnahme ich mehr als 1100 Dollar bezahlt hatte). Sollte ich weitermachen? Nach einigen Überlegungen gab ich nach und beschloss, dass das Geld bereits versenkt war, also konnte ich genauso gut etwas lernen.

Kurs Nr. 1 war so gut, dass ich jeden weiteren Kurs bezahlte und belegte, obwohl ich jedes Mal heftige innere Debatten führte (brauche ich das? sollte ich meine Zeit/ mein Geld anderweitig verwenden?). Insgesamt hat mir der Rest des Programms viel Spaß gemacht, und ich fühle mich erfüllt, weil ich es abgeschlossen habe; allerdings bin ich mir nicht sicher, ob es die beste Investition meiner Zeit und meines Geldes war. Bei den meisten MOOCs lerne ich mehr und schneller als bei diesem Programm (ich denke da an den Beitrag Don’t Send Your Kids to College von James Altucher). Aber ich habe auch einige wertvolle Kontakte zu meinen Mitschülern geknüpft, weit mehr Kontakte als bei jedem MOOC.

Ist dieses Programm etwas für Sie?

Ok, genug über meine Beweggründe für die Teilnahme am Zertifikatsprogramm. Wenn Sie ein angehender Data Scientist sind und sich fragen, ob Sie es mit dem Zertifikat versuchen sollten, könnte Ihnen das helfen, eine Entscheidung zu treffen.

Was mir an dem Programm gefallen hat

  • Zertifikat von einer vertrauenswürdigen Institution, die führend im Bereich Data Science und maschinelles Lernen ist.
  • Nehmen Sie online oder persönlich an den Kursen teil (wenn Sie in der Gegend von Seattle wohnen). Schön, dass man die Wahl hat und auch als Online-Student „live“ teilnehmen kann.
  • Persönliches Feedback von den Dozenten zu allen Aufgaben (bei mir waren es meist 2-3 Zeilen Feedback). Ich bin mir nicht sicher, ob dies besser oder schlechter ist als automatisch bewertete oder von anderen bewertete Aufgaben bei vielen MOOCs.
  • Kurse, die von Data Scientists aus der Industrie unterrichtet wurden. Meine Kurse wurden von Data Scientists bei Prediction Software, Zillow und Microsoft unterrichtet.
  • Möglichkeit, mit den Dozenten zu sprechen und ihnen Fragen zu stellen. Sogar online gibt es eine Chat-Funktion, und der Lehrassistent leitet die Fragen an den Dozenten weiter. Es ist schön, Echtzeit-Feedback von den Dozenten zu bekommen.
  • Die Kosten: Ich habe für die drei Kurse rund 3400 Dollar ausgegeben. Das ist viel teurer als ein MOOC, aber viel billiger als ein Master-Abschluss.
  • Zusätzliches Lern- und Lesematerial. Die Dozenten haben allesamt gute Arbeit geleistet, indem sie interessante Lektüre für die wöchentlichen Aufgaben gefunden haben.
  • Kontakte knüpfen und eine kontinuierliche Kohorte. Im ersten Kurs gab es etwa 45 Studenten, von denen etwa die Hälfte in der Klasse und die Hälfte online war. Die Dozenten richteten eine LinkedIn-Gruppe ein, und die meisten von uns knüpften Kontakte (die Gruppe ist geschlossen, also versuchen Sie nicht, sie zu finden und ihr beizutreten!). Etwa 20 % der Studenten haben sich nach dem dritten Kurs abgemeldet, aber die Studenten, die am aktivsten in der Gruppe waren, sind dabei geblieben und haben ihren Beitrag geleistet. Es hat Spaß gemacht, zu beobachten, wie meine Klassenkameraden in den letzten Monaten neue Jobs in der Analytik bekommen haben, und die Kontakte zu ihnen waren sehr wertvoll.
  • Ziemlich einfache Aufgaben. Das kann in beide Richtungen gehen – wenn die Aufgaben nicht schwer waren, dann habe ich nicht viel gelernt; aber es bedeutet, dass ich mein Lernen mit anderen Erfahrungen ergänzen kann. Im Durchschnitt habe ich 3 Stunden pro Woche im Unterricht verbracht und 2-3 Stunden mit Hausaufgaben.

Was mir am Programm nicht gefallen hat

  • Anwesenheitspflicht bei mindestens 8 von 10 Vorlesungen pro Kurs. Die Anwesenheit wird erfasst. Der Kurs findet um 18 Uhr pazifischer Zeit statt und dauert 3 Stunden. Da ich also eine Stunde früher dran bin, war das für mich 19.00 – 22.00 Uhr. In den ersten beiden Monaten musste ich um 5 Uhr morgens aufstehen, um zur Arbeit zu gehen, so dass die Teilnahme an den Vorlesungen, während sie stattfanden, zu einem müden nächsten Tag führen konnte. Je weiter man von Seattle entfernt ist, desto schwieriger wird es natürlich, die Vorlesungen online zu besuchen.
  • Vorlesungen in Echtzeit verfolgen. Wenn ich an MOOCs teilnehme, beschleunige ich die Videos normalerweise auf das 1,5- bis 2,0-fache der tatsächlichen Geschwindigkeit, je nachdem, wie schnell der Sprecher spricht. So kann ich mich besser konzentrieren. Bei MOOCs kann man auch zurückspulen, wenn man etwas verpasst. Bei einem Live-Kurs kann man das natürlich erst tun, wenn die Vorlesung veröffentlicht wird (normalerweise am nächsten Tag), und dann ist es nicht einfach, den entscheidenden Moment zu finden.
  • Man kann den Dozenten in den Vorlesungen nicht sehen. Bei anderen Online-Kursen, an denen ich teilgenommen habe, ist eine Kamera auf den Dozenten gerichtet, so dass man ihn sehen kann, während man sich gleichzeitig die Folien ansieht. Die Technologie der UW zeigt den Dozenten aus irgendeinem Grund nicht, so dass man nur seine Stimme hört und sich die Folien ansieht. Das macht es viel schwieriger, sich zu konzentrieren, wenn man ein Online-Student ist, und verwässert das Lernen ein wenig, da man die nonverbale Kommunikation nicht sehen kann.
  • Die Kontinuität zwischen den Kursen ist nicht ideal. In den Kursen #2 und #3 fragten die Dozenten mehrmals: „Haben Sie das im letzten Kurs gelernt?“ Es wäre gut, wenn ein fokussierterer Lehrplan festgelegt werden könnte und die Dozenten sich gegenseitig besser informieren würden.
  • Weka for Machine Learning? Im zweiten Kurs haben wir Statistik mit R gemacht. Und dann, anstatt im dritten Kurs mit R weiterzumachen, hat der Dozent Machine Learning mit Weka unterrichtet. Die guten Leute an der Universität von Waikato haben mit der Weka-Software gute Arbeit geleistet, aber benutzt irgendjemand in der Industrie Weka noch? In vielen Stellenausschreibungen sehe ich es nicht. Glücklicherweise kannte sich der Dozent gut mit R aus und akzeptierte Aufgaben in R, wenn wir das wollten, und so habe ich meine Aufgaben erledigt. Aber er hat einen Großteil des Kurses mit Weka unterrichtet, was ich für eine verpasste Chance und einen Fehler halte.
  • Nicht genug Tiefe. Okay, also Data Science ist ein sehr breites Thema, das ständig wächst. Die UW hat sich für dieses Programm offenbar entschieden, dass sie eher auf Breite als auf Tiefe setzen wollen. Das ist wahrscheinlich eine gute Entscheidung, denn in 90 Stunden Vorlesungszeit kann man nur eine bestimmte Menge unterbringen, und dann schickt man die Studenten los, um auf eigene Faust zu lernen, nachdem sie zumindest neue Konzepte kennengelernt haben. Aber ich wollte immer tiefer gehen und mehr über die verschiedenen Themen erfahren, über die wir sprachen; stattdessen gingen wir für ein oder zwei Folien zum nächsten Konzept über.

Kurzer Rückblick auf die einzelnen Kurse

Kurs 1: Einführung in die Datenwissenschaft

Der erste Kurs war ein grundlegender Überblick über das Gebiet der Datenwissenschaft. Es ist wirklich eine Einführung und setzt fast keine Vorkenntnisse in Data Science voraus. Anhand eines Projekts lernten wir den grundlegenden Datenfluss kennen und erhielten eine Einführung in die Werkzeuge der Datenwissenschaft (R, Python, SQL, MATLAB/Octave sowie eine kleine Einführung in Hadoop). Wir hatten ein paar Hausaufgaben in R, lernten etwas über spärliche Matrizen und hatten ein oder zwei SQL-Hausaufgaben. Der Kurs ist nicht sehr anspruchsvoll, vor allem, wenn man schon vorher mit Data Science zu tun hatte, aber die Vorlesungen waren gut und die zusätzliche Lektüre war hilfreich. Ich gebe diesem Kurs eine Zwei – guter Inhalt und guter Dozent, aber die Geschwindigkeit und Tiefe waren nicht das, wofür ich gehofft hatte, zu bezahlen. Ich wäre nach diesem Kurs fast aus dem Programm ausgestiegen, aber als es an der Zeit war, mich einzuschreiben und meine Kreditkarteninformationen für Kurs 2 zu übermitteln, habe ich es dann doch getan.

Kurs 2: Methoden der Datenanalyse

Trotz des Namens dieses Kurses war dies in erster Linie ein Kurs über Statistik und Datenverarbeitung. Meiner Meinung nach war dies der beste der drei Kurse, und ich habe einiges über einige Statistikmethoden gelernt, die ich nicht kannte. Der Kurs wurde von einem Senior Data Scientist bei Zillow unterrichtet, der über einen Doktortitel in Angewandter Mathematik verfügte und auch ein talentierter Lehrer war. Leider sieht es so aus, als ob der Kurs in Zukunft einen neuen Dozenten haben wird (TBD, während ich dies schreibe), also hoffen wir, dass sie einen guten Ersatz finden.

Alle Hausaufgaben wurden mit R gemacht. Wir hatten einige Erfahrungen mit Web-Scraping mit R (ja, man kann hier „Igitt!“ sehen – Python ist für Web-Scraping viel besser!), Monty-Hall-Simulationen, grundlegende Netzwerkgraphenanalyse, Regression und Erstellung autoregressiver Variablen, neben anderen Statistikkonzepten. Wir schlossen den Kurs mit einem Projekt ab, bei dem wir unsere eigenen Daten finden, sie analysieren und einen Bericht schreiben mussten. Mein Abschlussprojekt war die Untersuchung der Denver B-Cycle 2014 Ridership.

Ich gebe diesem Kurs eine Eins. Ich fand ihn manchmal ziemlich anspruchsvoll, und die Hausaufgaben haben mich zum Nachdenken gebracht und jeweils ein paar Stunden in Anspruch genommen. Ich hatte das Gefühl, dass dieser Kurs mein Geld und meine Zeit wert war.

Kurs 3: Deriving Knowledge from Data at Scale

Nach der guten Erfahrung mit Kurs 2 hatte ich kein Problem, mich für den dritten Kurs anzumelden.

Dieser Kurs war sozusagen der Kurs über maschinelles Lernen.

Dieser Kurs wurde von einem langjährigen Statistiker von Boeing unterrichtet, der derzeit als Principal Data Scientist für Microsoft arbeitet. Er schien ein sehr sympathischer Typ zu sein, der Witze machte und dem Kurs volkstümliche Geschichten erzählte. Ich wünschte, ich hätte persönlich bei den Vorlesungen dabei sein können, anstatt online zuzuhören, denn ich konnte sehen, dass er wirklich mit der Klasse interagierte und seinen Enthusiasmus teilte (er hatte auch die unangenehme Angewohnheit, sich jeweils für eine halbe Minute vom Mikrofon zu entfernen).

Allerdings war ich von diesem Kurs als Fortsetzung des zweiten Kurses eher enttäuscht. Inzwischen hatten wir wahrscheinlich drei Monate lang in R gearbeitet, für den ersten und zweiten Kurs zusammen, also hätte es Sinn gemacht, Konzepte des maschinellen Lernens zu lehren und Hausaufgaben in R zu machen. Stattdessen haben wir, wie ich in meiner Kritikliste erwähnt habe, Weka benutzt. Sicher, Weka hat eine hübsche Benutzeroberfläche, aber ich wollte keine neue Software erlernen, die ich in Zukunft garantiert nicht benutzen werde (sorry, aber R, Python und Spark Machine Learning Pakete werden viel nützlicher sein). Glücklicherweise erlaubte uns der Dozent, unsere Hausaufgaben in R einzureichen. Aber ich war so frustriert von dem Kurs, dass ich mich in die Vorlesungen einschaltete, um meine Anwesenheit zu bekommen, und dann meinen Computer laufen ließ, während ich etwas anderes tat.

Das Abschlussprojekt für diesen Kurs war die Teilnahme an einem Kaggle-Wettbewerb. Der Schwerpunkt lag nur ein wenig auf dem Wettbewerb – es ging mehr darum, unseren Prozess zu dokumentieren, vom Verstehen der Daten über die Modellierung bis hin zum Aufschreiben unserer Ergebnisse. Der Ausbilder bat uns, Paare zu bilden. Das ist eine weitere schwierige Aufgabe für einen Online-Studenten. Ursprünglich hatte ich ein paar Leute gefunden, die ein Team bilden wollten, aber wir befanden uns alle in unterschiedlichen Zeitzonen, und angesichts familiärer Verpflichtungen war es schwierig, uns abends zu treffen, so dass ich schließlich sagte: „Tut mir leid, Leute, ich mache es allein.“ Jedes Team in der Klasse wählte einen aktuellen Kaggle-Wettbewerb aus, der ihnen interessant erschien, so dass wir gemeinsam an etwa 8 verschiedenen Projekten arbeiteten, anstatt gegeneinander anzutreten, wie im edX-Kurs Analytics Edge. Ich entschied mich für den Wettbewerb How Much Did It Rain? II entschieden; bei Interesse können Sie meine Projektbeschreibung in meinem GitHub Repo sehen.

Ich gebe diesem Kurs eine C-. Es gab gute Informationen, und der Dozent war interessant, aber die Wahl von Weka hat mich verblüfft, und die Kursorganisation war ein bisschen schlecht (Studenten waren oft durch Fälligkeitsdaten verwirrt).

Zusammenfassung

Insgesamt gebe ich diesem Zertifikatsprogramm die Note B-.

Ich würde es für Leute empfehlen, die persönlich teilnehmen können, für diejenigen mit guten Technik-/Mathe-/Statistikkenntnissen, die noch nicht mit Data Science in Berührung gekommen sind, aber wirklich neugierig sind und lernen wollen, und für diejenigen, die eine sehr gut strukturierte Lernumgebung mögen. Ich würde es auch empfehlen, wenn Sie daran interessiert sind, Ihr berufliches Netzwerk von Gleichgesinnten zu erweitern (insbesondere in der Gegend von Seattle). Ich habe gehört, dass sich die Kursteilnehmer untereinander vernetzen und sich gegenseitig bei der Jobsuche helfen. Vielleicht ist das in meiner Kohorte passiert(?), aber als Online-Student ist es schwer zu sagen.

Ich empfehle es nicht, wenn Sie MOOCs in Data Science und/oder Machine Learning (Coursera, Udacity, edX usw.) belegt haben oder sich damit wohlfühlen, oder vielleicht bereit sind, sich durch die Open Source Data Science Masters-Liste zu quälen, oder schon längere Zeit in einer Data Science-Kapazität gearbeitet haben. Für mein Geld und meine Zeit waren die Kurse auf den MOOC-Sites viel wertvoller. Erwarten Sie nicht, dass Sie diese drei Kurse abschließen und auf der anderen Seite als Data Scientist herauskommen – dies kratzt kaum an der Oberfläche (obwohl es ein guter Startpunkt sein könnte!).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.