19 Jan 2016

12月に、ワシントン大学のプロフェッショナル & Continuing Education’s (PCE) Certificate in Data Scienceプログラム3コース中の3コースを完了しました。 このプログラムのコースはすべて10週間で、3時間の講義が週1回行われました。 私はデンバーに住んでいるので、シアトルのUWキャンパスで開催されるミーティングに物理的に参加することができず、オンラインコホートの一員となりました。 これは、このプログラムについての私のレビューであり、このプログラムを検討している他の人たちの参考になればと思います。

なぜサーティフィケートプログラムに参加したのか

変化の時

2014年の初めに、私はもうたくさんだと思うことにしました。 連邦政府で8年あまりデータ関連の仕事をしていましたが、新しいチャレンジの準備が整っていました。 仕事は良かったのですが、押し寄せる官僚主義に疲れ、自分のキャリアがもはや自分の望む方向に進んでいないように感じ (不幸にも誰かが、私にはマネジメントの適性が少しあると判断し、自分が引きずり込まれるのを感じました)、また、私の「楽しい」データ作業の多くを行うために MATLAB の 2006 リリースを使うことに疲れていました。 データ解析やプログラミングが好きで得意なことは知っていたので、Udacityのデータサイエンス・トラックのコースを受講し始めました(これは、人気のナノディグリー・プログラムが開発される前のことです)。 5月にはCourseraを見つけ、6月にはJHU Data Science Specializationを始めました(2014年12月にこのSpecializationを修了しました)。 後日、これらのMOOCのいくつかの側面をレビューする予定ですが、今はこれらのコースが人生を変えたということだけを述べておきます。

UW Certificate and Application

2014年夏、UW PCE Data Science certificateの存在を知りました。 MOOCをたくさん受講していたとはいえ、実際に資格取得に役立つのかどうか不安でした。 LinkedInでリクルーターからあまりヒットせず、企業の壁にぶつけたいくつかの応募書類もアタリがありませんでした。 データサイエンスの修士課程に時間と費用をかける準備ができていなかったので、大学の専門家認定が次善の策であり、仕事のコネクションを作るための追加コンタクトを見つけるのに役立つだろうと思いました。 応募から1年半ほど経っていたので、応募のプロセスについてあまり詳しく覚えていませんが、データサイエンスの知識について25問のテストがあり(SQLと統計がいくつか記憶にあります)、履歴書と短い志望動機書を提出し、応募料として50ドルほどを支払わなければならなかったと思います。

Accepted, but New Job!

私はプログラムに合格しました。 しかし、ウェイティングリストがあったので、2015年4月までスタートできませんでした。

4月になる頃には、リクルーターと話をし、今の会社で面接を受けました。 機械学習をやりに来てほしい!ということでした。 新しい仕事を引き受けたとき、私は修了証プログラムの最初のクラスが始まって4週間が経っていました。 目標(民間企業での新しい仕事)を達成したのに、7カ月も待って(しかも返金不可の1100ドル以上を支払って)このプログラムを始めたばかりで、ジレンマに陥ったのです。 このまま続けるべきか? 3615>

コース 1 は十分に良かったので、毎回社内で大議論(これは必要か、時間やお金を他に使うべきか)になりながらも、その後の各コースにお金を払い、受講を続けました。 全体として、私はプログラムの残りをほとんど楽しみ、終了することで達成感を得ました。しかし、私の時間とお金の最善の投資であったかどうかはわかりません。 私はこのプログラムから学んだことよりも、ほとんどのMOOCsを受講した方がより多く、より早く学ぶことができます(James AltucherのDon’t Send Your Kids to Collegeの投稿が思い浮かびます)。 しかし、クラスメイトとの貴重なつながりもいくつかできました。 このプログラムについて、私のポジティブな点とネガティブな点をいくつか紹介します。もしあなたがデータサイエンティストを目指していて、修了証書を取得すべきかどうか悩んでいるならば、決断する助けになるかもしれません。

  • オンラインの学生でも「ライブ」で受講できるのはありがたい。 これは、多くのMOOCsの自動採点や相互採点の課題より良いか悪いかはわかりません。
  • 産業界のデータサイエンティストが教えるコース。 私のコースは、Prediction Software、Zillow、およびMicrosoftのデータサイエンティストによって教えられていました。 オンラインでもチャット機能があり、ティーチングアシスタントが講師に質問を中継してくれます。 講師からリアルタイムでフィードバックがもらえるのは嬉しいですね。
  • 費用について:3つのコースで3400ドルほどかかりました。 また、このような場合、「震災復興支援活動」を実施し、被災地の復興に貢献することができます。 講師陣は皆、毎週の課題の一部として、興味深いものを見つけて読むという素晴らしい仕事をしてくれました。
  • 人脈作り、継続的なコーホート。 最初のコースでは、約45人の受講生がおり、約半数がクラス内、半数がオンラインでした。 講師がLinkedInのグループを立ち上げ、ほとんどの人がつながりました(グループは閉鎖されているので、探して参加しようとしないでください!)。 3回目の講座では20%くらいの学生が脱落しましたが、グループで最も活発に活動していた学生は、そのままグループに残り、貢献してくれました。 この数ヶ月でクラスメートがアナリティクスの新しい仕事に就くのを見るのは楽しかったし、彼らとのつながりを作ることは貴重なことでした。
  • 課題はかなり簡単です。 もし課題が難しくなければ、あまり学ばなかったということになりますが、他の経験で学びを補うことができるということです。 平均して、週に3時間授業に参加し、2~3時間宿題に費やしていました。 出席を取る。 授業は太平洋時間の午後6時に行われ、3時間です。 ということは、私は1時間先なので、私にとっては7PMから10PMまででした。 最初の2ヶ月は、仕事で朝5時に起きなければならなかったので、この講義を受けながらだと、翌日眠くなることもありました。 もちろん、シアトルから遠く離れれば離れるほど、オンラインでの受講は難しくなります。
  • リアルタイムで講義を見る MOOCを受講するときは、スピーカーの話すスピードにもよりますが、通常、ビデオを実際のスピードの1.5倍から2.0倍まで上げて見ています。 そうすることで、より集中力を高めることができます。 MOOCの場合、聞き逃したら巻き戻したりもできます。 ライブコースでは、講義が投稿される(通常は翌日)までは、明らかにそれができず、重要な瞬間を見つけるのは容易ではありません。
  • 講義で講師を見ることができない。 私が受講した他のオンラインコースでは、講師にカメラを向けているので、スライドを見ながら講師を見ることができます。 UWのテクノロジーは、なぜか講師を映さないので、講師の声を聞きながらスライドを見るだけです。 これは、オンライン学生であれば、集中するのがかなり難しく、非言語的なコミュニケーションを見ることができないので、学習効果が少し薄れます。
  • クラス間の継続性は理想的ではありません。 2番と3番のコースで、講師が “この前のコースは習いましたか?”と聞く場面が何度かあった。 もっと焦点を絞ったカリキュラムに釘を刺し、講師同士の情報の受け渡しがうまくいけば良いと思います。
  • Weka for Machine Learning? 2回目の講座でRを使った統計学をやり、3回目の講座でRを続けるのではなく、講師がWekaを使って機械学習を教えるというものでした。 ワイカト大学の優秀な人たちは、Wekaというソフトウェアをうまく使っていましたが、産業界でWekaを使っている人はもういないのでしょうか? 求人広告でもあまり見かけません。 幸い、講師がRをよく知っていて、希望すればRでの課題も受け付けてくれたので、それで課題を終わらせました。 しかし、彼はコースの多くをWekaを使って教えていたので、これは大きな機会損失であり、間違いだと思います。
  • 深さが足りません。 データサイエンスは非常に幅広いテーマで、常に成長しています。 UWは、このプログラムでは、深さよりも広さを追求することに決めたようです。 90時間の講義に収められることは限られていますし、学生を送り出せば、少なくとも新しい概念には触れて、自分で学ぶことができるからです。 しかし、私はもっと深く、私たちが話したさまざまなテーマについて学びたいと思い続けました。代わりに、1、2スライドで次のコンセプトに移るのです。 まさに入門編で、データサイエンスに関する予備知識はほとんどないことを前提としています。 プロジェクトを通じて基本的なデータの流れを学び、データサイエンスのツール(R、Python、SQL、MATLAB/Octave、そしてHadoopの入門)を紹介しました。 Rの宿題がいくつかあり、スパース行列について学び、SQLの宿題も1、2つありました。 このコースは、特にデータサイエンスに触れたことがある人であれば、それほど難しいものではありませんが、講義は良く、追加の読み物も役に立ちました。 このコースはB-です。良いコンテンツと良いインストラクターですが、スピードと深さは私がお金を払って期待したものではありませんでした。 このコースの後、私はほとんどプログラムをドロップアウトしましたが、コース2の登録とクレジットカード情報を渡す時になって、私は先にそれをしました。

    Course 2: Methods for Data Analysis

    このコース名にもかかわらず、これは主に統計とデータラングリングのコースだった。 3つのコースの中で一番良いコースだと思いましたし、知らなかった統計学の手法もあり、かなり勉強になりました。 私が担当したコースは、Zillowのシニアデータサイエンティストで、応用数学の博士号を持つ、才能ある講師が教えてくれました。 残念ながら、このコースの今後の開催では、講師が変わる可能性があるようです (これを書いている時点では未定)。 コースの最後にはコースプロジェクトがあり、自分たちでデータを探し、分析し、レポートを書くというものでした。 私の最終プロジェクトは、Denver B-Cycle 2014 Ridershipの調査でした。

    私はこのコースにAを付けます。 このコースはお金と時間の価値があると感じました。

    Course 3: Deriving Knowledge from Data at Scale

    コース2で良い経験をした後、私は問題なく第3コースにサインアップしました。

    このコースはなんというか、機械学習コースです。

    このコースは長年ボーイング統計学者で現在はMicrosoftの主任データ科学者として働いている人が教えています。 彼はとても人柄の良い人のようで、クラスのためにジョークを言ったり、庶民的な話をしたりしていました。 彼はクラスと本当に交流し、熱意を共有しているのがわかったので、オンラインで聞くのではなく、直接講義に参加できればよかったと思います (彼は一度に半分間、マイクから離れる嫌な癖もありました)。

    しかし、2番目のコースに続くこのコースにはかなり失望しました。 この時点で、1回目と2回目のコースを合わせて、おそらく3ヶ月はRで作業をしていたので、Rで機械学習のコンセプトを教え、宿題を出すのが理にかなっていたはずです。 確かにWekaはGUIが格好いいのですが、将来使わないことが確実な新しいソフトウェアを学びたくなかったのです(申し訳ありませんが、R、Python、Spark Machine Learningパッケージの方がずっと役に立ちます)。 幸い、講師は R で宿題を提出することを許可してくれましたが、私はこのコースに不満を感じ、出席を取るために、講義に同調し、他のことをしに行く間、コンピュータを起動したままにしました。

    このコースでの最終プロジェクトは、Kaggle コンペティションに参加することでした。 焦点はコンペティションにはほんの少ししかなく、データを探索する理解から、モデリング、そして結果を書き上げるまでのプロセスを文書化することの方が重要だったのです。 講師は、私たちにペアを組むようにと言いました。 これもオンラインの学生としては非常に難しいことです。 しかし、みんな時間帯が違うし、家庭の事情で夜に会うのは難しいので、結局「ごめん、私一人でやるわ」と言いました。 クラスの各チームは、自分たちにとって面白そうな現在のKaggleコンペティションを選んだので、edX Analytics Edgeコースのように互いに競争するのではなく、全体で約8種類のプロジェクトに取り組んだのです。 私が選んだのは、「How Much Did It Rain? もし興味があれば、私のプロジェクトの記事をGitHubのレポで見ることができます。

    このコースはC-です。 良い情報があり、講師も面白かったのですが、Weka の選択は私の頭を悩ませ、コース構成は少し貧弱でした(学生はしばしば期日で混乱しました)。

    Summary

    全体として、この認定プログラムに B- という評価を下します。

    直接参加できる人、技術/数学/統計のスキルが高く、データ サイエンスに触れたことがないが、本当に興味があり学びたい人、そして、非常によく構成された学習環境が好きな人にお勧めしたいです。 また、同じ志を持つ人たち(特にシアトル近郊の人たち)とのプロフェッショナルなネットワークを広げたいと考えている方にもおすすめです。 コースに参加している人たちがネットワークを作り、お互いに仕事を見つける手助けをしていると聞いたことがあります。 もしかしたら私のコーホートではそうだったのかもしれません(?3615>

    データサイエンスや機械学習の MOOC(Coursera、Udacity、edX など)を受講したことがある、あるいは受講しても構わない、あるいはオープンソースデータサイエンスマスターリストをじっくり読んでみたい、あるいは少しでも長くデータ科学の分野で働いている方にはお勧めしません。 私のお金と時間では、MOOCサイトのコースの方がずっと価値がありました。 この3つのコースを終えて、データサイエンティストになって帰ってこれるとは思っていないでください。

  • コメントを残す

    メールアドレスが公開されることはありません。