19 Jan 2016

Em dezembro, completei o terceiro de três cursos no programa Profissional da Universidade de Washington & Certificado de Educação Contínua (PCE) em Ciência de Dados. Todos os cursos deste programa tiveram a duração de 10 semanas, com palestras de 3 horas por semana. Como moro em Denver, não pude assistir fisicamente às reuniões, realizadas no campus da UW em Seattle, então fiz parte da coorte online. Esta é a minha revisão do programa, e espero que possa ser útil para outros que estão considerando o programa.

Por que entrei no programa de certificação?

Tempo para uma mudança

No início de 2014 eu decidi que já tinha tido o suficiente. Eu estava fazendo um trabalho relacionado a dados para o governo federal há pouco mais de 8 anos, mas eu estava pronto para um novo desafio. O trabalho era bom, mas eu estava cansado da burocracia esmagadora, e sentindo que minha carreira não estava mais progredindo na direção que eu desejava (alguém infelizmente decidiu que eu tinha um pouco de aptidão para a gestão, e eu podia me sentir sendo puxado para dentro), e estava cansado de usar um lançamento de 2006 do MATLAB para fazer muito do meu trabalho de dados “divertido”.

Taking MOOCs

Então em 2014 eu comecei a fazer Cursos Massivos Abertos Online (MOOCs) com seriedade. Eu sabia que adorava, e era bastante bom em análise de dados e programação, então comecei a fazer cursos na pista de Data Science na Udacity (isto foi antes de seus populares programas de Nanodegree serem desenvolvidos). Em maio, eu tinha descoberto o Coursera, e em junho comecei a especialização em Data Science da JHU (eu terminei essa especialização em dezembro de 2014). Eu planejo rever alguns aspectos desses MOOCs em uma data posterior, mas por enquanto vou apenas mencionar que esses cursos foram uma mudança de vida.

Certificado e Aplicação UW

No verão de 2014, eu descobri sobre o certificado UW PCE Data Science. Embora eu estivesse tomando muitos MOOCs, eu ainda não tinha certeza se eles realmente me ajudariam a me qualificar para um emprego. Eu não estava recebendo muitas visitas de recrutadores no LinkedIn, e algumas aplicações que eu joguei sobre as paredes das empresas não tiveram nenhuma mordida. Eu não estava pronto para o tempo e despesas de um programa de mestrado em Ciência de Dados, então pensei que um certificado profissional universitário seria a próxima melhor coisa, e talvez me ajudasse a encontrar alguns contatos adicionais para fazer uma conexão de trabalho.

Então eu me candidatei para o programa. Como já se passou cerca de um ano e meio desde que me candidatei, não me lembro de muitas especificidades sobre o processo de candidatura, mas acredito que houve um teste de 25 perguntas sobre conhecimento em Data Science (algumas SQL e estatísticas são o que me lembro), tive que enviar um currículo, uma breve declaração de interesse, e cerca de $50 como taxa de candidatura. Não foi muito estressante.

Aceito, mas Novo Emprego!

Fui aceito no programa. Contudo, havia uma lista de espera, por isso não pude começar até Abril de 2015.

Quando Abril rolou, eu estava em conversas com um recrutador e tive uma entrevista com a empresa para a qual agora trabalho. Eles queriam que eu viesse e fizesse Machine Learning para eles! Eu estava 4 semanas na primeira aula do programa de certificação quando aceitei o meu novo emprego. Então, eu tinha um dilema: eu tinha alcançado meu objetivo (novo emprego no setor privado), mas eu tinha acabado de começar este programa que eu tinha esperado 7 meses para começar (e pago mais de US$ 1100 não reembolsáveis para participar). Devo continuar? Após algumas deliberações, eu cedi, e decidi que o dinheiro era um custo afundado, então eu poderia muito bem aprender algo.

Curso #1 foi bom o suficiente para que eu continuasse a pagar e fazer cada curso subsequente, apesar do enorme debate interno cada vez (eu preciso disso? devo gastar meu tempo/money em outro lugar?). No geral, eu gostei muito do resto do programa e me sinto realizado para terminar; entretanto, não tenho certeza se foi o melhor investimento do meu tempo e dinheiro. Aprendi mais, e mais rapidamente, a tirar a maioria dos MOOCs do que com este programa (James Altucher’s Don’t Send Your Kids to College post vem-me à cabeça). Mas também fiz várias conexões valiosas com meus colegas de classe, muito mais conexões do que fiz com qualquer MOOC.

Is This Program for You?

Ok, chega de minhas motivações para fazer o programa de certificado. Aqui estão alguns dos meus pontos positivos e negativos para o programa, que, se você for um cientista de dados e estiver se perguntando se você deve tentar obter o certificado, pode ajudá-lo a tomar uma decisão.

O que eu gostava do programa

  • Certificado de uma instituição de confiança que é líder em Ciência de Dados e Aprendizagem de Máquinas.
  • Frequentar cursos online ou pessoalmente (se você mora na área de Seattle). É bom que eles lhe dêem a escolha, e que mesmo como um estudante online você possa assistir “ao vivo”.
  • Feedback pessoal dos instrutores em todas as tarefas (para mim foram normalmente 2-3 linhas de feedback). Não tenho certeza se isso é melhor ou pior do que trabalhos autograduados ou avaliados por colegas em muitos MOOCs.
  • Cursos ensinados por cientistas de dados na indústria. Meus cursos foram ministrados por Data Scientists na Prediction Software, Zillow e Microsoft.
  • Oportunidade de conversar e fazer perguntas aos instrutores. Mesmo online, há uma função de bate-papo, e o assistente de ensino retransmite perguntas para o instrutor. É bom receber feedback em tempo real dos instrutores.
  • O custo: gastei cerca de $3400 para os três cursos. Muito mais caro que um MOOC, mas muito mais barato que um mestrado.
  • Material extra de aprendizagem e leitura. Os instrutores fizeram um ótimo trabalho de encontrar coisas interessantes para ler como parte das tarefas semanais.
  • Fazendo contatos, e uma coorte contínua. No primeiro curso, havia cerca de 45 alunos; aproximadamente metade estavam em sala de aula e a outra metade online. Os instrutores montaram um grupo no LinkedIn, e a maioria de nós se conectou (o grupo está fechado, então não tente encontrar e se juntar a ele!). Talvez 20% dos alunos tenham saído do terceiro curso, mas os alunos que eram mais ativos no grupo ficaram e contribuíram. Tem sido divertido ver meus colegas de turma conseguirem novos trabalhos de análise nos últimos meses, e fazer as conexões com eles tem sido valioso.
  • Tarefas bastante fáceis. Este pode cortar para os dois lados – se as tarefas não foram difíceis, então eu não aprendi muito; mas, isso significa que posso complementar meu aprendizado com outras experiências. Em média, eu passava 3 horas em aula por semana, e 2-3 horas em trabalhos de casa.

What I Didn’t Like about the Program

  • Frequência obrigatória das aulas pelo menos 8 das 10 palestras por curso. A frequência é obrigatória. A turma se reúne às 18h (horário do Pacífico) e dura 3 horas. Então, como estou uma hora à frente, para mim isso foi das 19h às 22h. Durante os dois primeiros meses, tive que acordar às 5 da manhã para trabalhar, então assistir a essas palestras enquanto elas estavam sendo realizadas poderia fazer um sono no dia seguinte. Obviamente, quanto mais longe de Seattle você estiver, mais difícil será assistir às palestras online.
  • Assistir às palestras em tempo real. Quando faço MOOCs, normalmente acelero os vídeos até 1,5x a 2,0x a velocidade real, dependendo da rapidez com que o orador fala. Isso me ajuda a focar melhor. Com os MOOCs, você também pode rebobinar se você perder alguma coisa. Com o curso ao vivo, obviamente você não pode fazer isso até que a palestra seja postada (geralmente no dia seguinte), e então encontrar seu momento chave não é trivial.
  • Não posso ver o instrutor em palestras. Outros cursos online que eu fiz têm uma câmera treinada no instrutor, então você pode vê-los enquanto também olha os slides. A tecnologia da UW, por alguma razão, não mostra o instrutor, então você só ouve a voz deles e olha os slides. Isto torna muito mais difícil focar se você é um estudante online, e dilui um pouco o aprendizado, já que você não pode ver a comunicação não verbal.
  • Continuidade entre as aulas menos do que o ideal. Nos cursos #2 e #3, houve várias vezes quando os instrutores perguntaram: “Você aprendeu este último curso? Seria bom se um currículo mais focado pudesse ser pregado e os instrutores passassem informações uns aos outros melhor.
  • Weka for Machine Learning? No segundo curso, fizemos estatísticas usando R. E então, em vez de continuar com R no terceiro curso, o instrutor ensinou Aprendizagem Mecânica usando Weka. As boas pessoas da Universidade de Waikato fizeram um bom trabalho com o software Weka, mas alguém na indústria está mais usando Weka? Eu não vejo isso em muitos anúncios de emprego. Felizmente, o instrutor conhecia bem o R, e aceitava trabalhos em R se quiséssemos, então foi assim que eu completei meus trabalhos. Mas, ele ensinou muito do curso usando Weka, o que eu acho que é uma grande oportunidade perdida e um erro.
  • Não profundidade suficiente. Certo, então a Data Science é um assunto muito amplo, crescendo o tempo todo. UW aparentemente decidiu para este programa que eles iriam para a amplitude em vez de profundidade. Esta é provavelmente uma boa decisão, porque não há muito que você possa caber em 90 horas de aula, então você envia os alunos para aprenderem por conta própria, tendo sido pelo menos expostos a novos conceitos. Mas eu continuei querendo ir mais fundo e aprender mais sobre vários assuntos que falamos; em vez disso, passamos ao próximo conceito para um slide ou dois.

Revisão Rápida de Cursos Individuais

Curso 1: Introdução à Ciência dos Dados

O primeiro curso foi um levantamento básico da terra da Ciência dos Dados. É realmente uma introdução, e assume quase nenhum conhecimento prévio da Ciência dos Dados. Aprendemos sobre o fluxo de dados básicos através de um projeto, e passamos por alguns primers sobre ferramentas de Data Science (R, Python, SQL, MATLAB/Octave, assim como uma pequena introdução ao Hadoop). Tivemos alguns trabalhos de casa em R, e aprendemos sobre matrizes esparsas, e tivemos um ou dois trabalhos de casa em SQL. O curso não é muito desafiador, especialmente se você já teve alguma exposição prévia à Data Science, mas as palestras foram boas e as leituras extras foram úteis. Eu dou a este curso um B- – bom conteúdo e bom instrutor, mas a velocidade e profundidade não foram o que eu esperava ter pago. Quase desisti do programa depois deste curso, mas quando chegou a hora de me inscrever e entregar as informações do meu cartão de crédito para o Curso 2, fui em frente e o fiz.

Curso 2: Métodos para Análise de Dados

Apesar do nome deste curso, este foi principalmente um curso de estatística e de discussão de dados. Achei que este era o melhor curso dos três, e aprendi um pouco sobre alguns métodos de estatística que não conhecia. O meu curso foi ministrado por um Senior Data Scientist na Zillow, um Doutor em Matemática Aplicada que também era um professor talentoso. Infelizmente parece que futuras corridas do curso podem ter um novo instrutor – TBD enquanto escrevo isto – então espero que eles possam encontrar um bom substituto.

Todos os trabalhos de casa usados R. Tivemos alguma exposição a fazer raspagem da web com R (sim, você pode ver “Ew!” aqui – Python é muito superior para raspagem da web!), rodando simulações de Monty Hall, fazendo análise básica de gráficos de rede, regressão, e criando variáveis autoregressivas, entre outros conceitos estatísticos. Terminamos o curso com um projeto de curso, onde tivemos que encontrar nossos próprios dados, analisá-los, e escrever um relatório. Meu projeto final foi explorar Denver B-Cycle 2014 Ridership.

Deu-me um A. Eu achei este curso bastante desafiador às vezes, e o trabalho de casa me fez pensar e levou algumas horas cada um. Eu senti que este curso valeu meu dinheiro e meu tempo.

Curso 3: Derivando Conhecimento de Dados à Escala

Após uma boa experiência com o Curso 2, eu não tive problemas em me inscrever no terceiro curso.

Este curso foi mais ou menos o curso de Aprendizagem de Máquinas.

Este curso foi ministrado por um estaticista de longa data da Boeing que está atualmente trabalhando como um Cientista de Dados Principal para a Microsoft. Ele pareceu ser um cara muito pessoal, fazendo piadas e contando histórias folclóricas para a classe. Eu gostaria de ter estado pessoalmente nas palestras, em vez de ouvir online, porque eu podia dizer que ele estava realmente interagindo com a classe e compartilhando seu entusiasmo (ele também tinha o hábito desagradável de se afastar do microfone por meio minuto de cada vez).

No entanto, eu estava bastante desapontado com este curso como um seguimento do segundo curso. Por esta altura, já tínhamos passado provavelmente 3 meses a trabalhar em R, para o primeiro e segundo cursos combinados, por isso teria feito sentido ensinar conceitos de aprendizagem de máquinas e atribuir trabalhos de casa em R. Em vez disso, como mencionei na minha lista de reclamações, usámos o Weka. Claro, o Weka tem uma interface gráfica bonita, mas eu não queria aprender um software novo que eu garanto que não usarei no futuro (desculpe, mas os pacotes R, Python e Spark Machine Learning serão muito mais úteis). Felizmente, o instrutor nos permitiu entregar nossos trabalhos de casa em R. Mas fiquei tão frustrado com o curso que me sintonizei nas palestras, a fim de conseguir minha presença, e depois deixei meu computador funcionando enquanto fui fazer outra coisa.

O projeto final deste curso foi participar de uma competição de Kaggle. O foco era apenas um pouco sobre a competição – era mais sobre a documentação do nosso processo, desde a compreensão da exploração dos dados, passando pela modelagem, até a redação dos nossos resultados. O instrutor nos pediu para fazer um par. Isto é outra coisa muito difícil de se fazer como estudante online. Inicialmente encontrei alguns rapazes para formar uma equipa; no entanto, estávamos todos em fusos horários diferentes, e dadas as responsabilidades familiares era difícil encontrarmo-nos à noite, por isso acabei por dizer “desculpem rapazes, vou sozinho”. Cada equipa da turma escolheu uma competição Kaggle actual que lhes pareceu interessante, por isso trabalhámos colectivamente em cerca de 8 projectos diferentes, em vez de competir um contra o outro, como no curso edX Analytics Edge. Eu me acomodei com o “How Much It Rain? II; se estiver interessado você pode ver meu projeto escrito no meu repo.GitHub.

Eu dou a este curso um C-. Havia boas informações, e o instrutor era interessante, mas a escolha do Weka me atrapalhou, e a organização do curso foi um pouco pobre (os alunos estavam muitas vezes confusos com as datas devidas).

Sumário

Overtudo, eu dou a este programa de certificado uma nota de B-.

Eu o recomendaria para pessoas que podem assistir pessoalmente, para aqueles com boas habilidades em tecnologia/matéria/estatística que não foram expostos à Data Science, mas são realmente curiosos e querem aprender, e para aqueles que gostam de um ambiente de aprendizagem muito bem estruturado. Eu também o recomendaria se você estiver interessado em aumentar sua rede profissional de indivíduos com os mesmos interesses (especialmente aqueles na área de Seattle). Ouvi dizer que as pessoas da rede de cursos e têm ajudado umas às outras a encontrar emprego. Talvez isso tenha acontecido na minha coorte(?), mas é difícil dizer como um estudante online.

Não recomendo se você tomou, ou se está confortável tomando, MOOCs em Data Science e/ou Machine Learning (Coursera, Udacity, edX, etc), ou talvez esteja disposto a percorrer a lista de Mestres em Ciência de Dados de Código Aberto, ou tem trabalhado na capacidade de Ciência de Dados por qualquer período de tempo. Pelo meu dinheiro e pelo meu tempo, os cursos nos sites do MOOC foram muito mais valiosos. Não espere terminar esses três cursos e sair um Data Scientist do outro lado – isso mal arranha a superfície (embora possa ser um bom lugar para começar!).

Deixe uma resposta

O seu endereço de email não será publicado.