por David Venturi
A um ano atrás, eu desisti de um dos melhores programas de ciência da computação no Canadá. Comecei a criar o meu próprio programa de mestrado em ciências de dados usando recursos online. Percebi que podia aprender tudo o que precisava através do edX, Coursera, e Udacity. E eu pude aprender mais rápido, mais eficiente e por uma fração do custo.
Eu estou quase terminando agora. Eu já fiz muitos cursos relacionados à ciência dos dados e auditei porções de muitos mais. Conheço as opções lá fora, e que habilidades são necessárias para os alunos se prepararem para um papel de analista de dados ou cientista de dados. Há alguns meses, comecei a criar um guia orientado por revisões que recomenda os melhores cursos para cada disciplina dentro da ciência de dados.
Para o primeiro guia da série, recomendei algumas aulas de codificação para o cientista de dados iniciante. Depois foram as classes de estatística e probabilidade.
- Agora nas introduções ao data science.
- Como escolhemos os cursos a considerar
- Como avaliamos os cursos
- Qual é o processo de ciência de dados?
- Codificação básica, estatísticas e experiência de probabilidade requerida
- A nossa escolha para a melhor introdução ao curso de ciência de dados é…
- Uma grande introdução focada em Python
- Uma oferta impressionante sem dados de revisão
- A competição
- Brapar para cima
Agora nas introduções ao data science.
(Não se preocupe se você não tiver certeza do que um curso de introdução ao data science implica. Vou explicar em breve.)
Para este guia, passei mais de 10 horas tentando identificar cada curso de introdução a ciência de dados oferecido online a partir de janeiro de 2017, extraindo informações chave de seus programas e revisões, e compilando suas avaliações. Para esta tarefa, recorri a ninguém menos que a comunidade de código aberto Class Central e seu banco de dados de milhares de avaliações e revisões de cursos.
Desde 2011, o fundador da Class Central, Dhawal Shah, manteve-se mais atento aos cursos online do que qualquer outra pessoa no mundo. Dhawal pessoalmente me ajudou a montar esta lista de recursos.
Como escolhemos os cursos a considerar
Cada curso deve se encaixar em três critérios:
- Deve ensinar o processo de ciência de dados. Mais sobre isso em breve.
- Deve ser sob demanda ou oferecido a cada poucos meses.
- Deve ser um curso online interativo, portanto, sem livros ou tutoriais somente de leitura. Embora estas sejam formas viáveis de aprender, este guia se concentra nos cursos.
Acreditamos que cobrimos todos os cursos notáveis que se encaixam nos critérios acima. Como aparentemente existem centenas de cursos sobre Udemy, nós escolhemos considerar apenas os mais revisados e os mais bem avaliados. Mas há sempre a possibilidade de termos perdido alguma coisa. Portanto, por favor nos informe na seção de comentários se deixamos um bom curso de fora.
Como avaliamos os cursos
Compilamos a avaliação média e o número de revisões do Class Central e de outros sites de revisão para calcular uma avaliação média ponderada para cada curso. Lemos revisões de texto e usamos esse feedback para complementar as avaliações numéricas.
Fizemos chamadas de julgamento subjetivo do programa com base em dois fatores:
1. Cobertura do processo de ciência dos dados. O curso pincela ou salta certos assuntos? Cobre certos assuntos com demasiados detalhes? Veja a próxima seção para o que este processo implica.
2. Uso de ferramentas comuns de ciência de dados. O curso é ensinado usando linguagens de programação populares como Python e/ou R? Estas não são necessárias, mas úteis na maioria dos casos é dada uma ligeira preferência a estes cursos.
Qual é o processo de ciência de dados?
O que é ciência de dados? O que faz um cientista de dados? Estes são os tipos de perguntas fundamentais que um curso de introdução à ciência dos dados deve responder. O seguinte infográfico dos professores de Harvard Joe Blitzstein e Hanspeter Pfister delineia um processo típico de ciência de dados, que nos ajudará a responder estas perguntas.
>
O nosso objectivo com esta introdução ao curso de ciência de dados é familiarizar-se com o processo de ciência de dados. Não queremos uma cobertura muito profunda de aspectos específicos do processo, daí a parte “introdução a” do título.
Para cada aspecto, o curso ideal explica conceitos-chave dentro da estrutura do processo, introduz ferramentas comuns e fornece alguns exemplos (de preferência práticos).
Estamos apenas à procura de uma introdução. Este guia, portanto, não incluirá especializações completas ou programas como a Especialização em Ciência de Dados sobre Coursera da Universidade Johns Hopkins ou o Nanodegree do Analista de Dados da Udacity. Estas compilações de cursos iludem o propósito desta série: encontrar os melhores cursos individuais para cada disciplina a fim de compor uma educação em ciências de dados. Os três guias finais desta série de artigos cobrirão cada aspecto do processo de ciência de dados em detalhes.
Codificação básica, estatísticas e experiência de probabilidade requerida
Cursos transversais listados abaixo requerem programação básica, estatística e experiência de probabilidade. Este requisito é compreensível dado que o novo conteúdo é razoavelmente avançado, e que estes assuntos frequentemente têm vários cursos dedicados a eles.
Esta experiência pode ser adquirida através das nossas recomendações nos dois primeiros artigos (programação, estatística) neste Data Science Career Guide.
A nossa escolha para a melhor introdução ao curso de ciência de dados é…
- Data Science A-Z™: Exercícios de Ciência de Dados da Vida Real Incluídos (Kirill Eremenko/Udemy)
Kirill Eremenko’s Data Science A-Z™ em Udemy é o vencedor claro em termos de amplitude e profundidade de cobertura do processo de ciência de dados dos mais de 20 cursos que se qualificaram. Tem uma classificação média ponderada de 4,5 estrelas sobre 3.071 revisões, o que o coloca entre os cursos mais avaliados e mais revisados dos considerados.
Descreve o processo completo e fornece exemplos da vida real. Com 21 horas de conteúdo, é uma boa duração. Os revisores adoram a entrega do instrutor e a organização do conteúdo. O preço varia dependendo dos descontos Udemy, que são frequentes, então você pode ser capaz de comprar acesso por apenas $10.
Embora não marque nossa caixa “uso de ferramentas comuns de ciência de dados”, as escolhas de ferramentas não-Python/R (gretl, Tableau, Excel) são usadas efetivamente no contexto. Eremenko menciona o seguinte ao explicar a escolha gretl (gretl é um pacote de software estatístico), embora se aplique a todas as ferramentas que ele usa (ênfase minha):
No gretl, poderemos fazer a mesma modelagem como no R e no Python, mas não teremos que codificar. Esse é o grande problema aqui. Alguns de vocês podem já conhecer R muito bem, mas outros podem não conhecer de todo. O meu objectivo é mostrar-vos como construir um modelo robusto e dar-vos um framework que possam aplicar em qualquer ferramenta que escolham. gretl vai ajudar-nos a evitar ficar atolados na nossa codificação.
Um revisor proeminente notou o seguinte:
Kirill é o melhor professor que já encontrei online. Ele usa exemplos da vida real e explica problemas comuns para que você tenha uma compreensão mais profunda do trabalho do curso. Ele também fornece uma grande visão sobre o que significa ser um cientista de dados, desde trabalhar com dados insuficientes até apresentar o seu trabalho à gerência da classe C. Eu recomendo altamente este curso para estudantes iniciantes a analistas de dados intermediários!
Uma grande introdução focada em Python
- Introdução à Análise de Dados (Udacity)
>
A Introdução à Análise de Dados da Udacity é uma oferta relativamente nova que faz parte do popular Nanodegree do Analista de Dados da Udacity. Ela cobre o processo de ciência de dados de forma clara e coesa usando Python, embora lhe falte um pouco no aspecto de modelagem. A linha temporal estimada é de 36 horas (seis horas por semana durante seis semanas), embora seja mais curta na minha experiência. Tem uma classificação média ponderada de 5 estrelas em duas revisões. É gratuito.
Os vídeos são bem produzidos e a instrutora (Caroline Buckey) é clara e personalizável. Muitos quizzes de programação reforçam os conceitos aprendidos nos vídeos. Os alunos deixarão o curso confiantes nas suas novas e/ou melhoradas habilidades de NumPy e Pandas (estas são bibliotecas populares de Python). O projeto final – que é classificado e revisado no Nanodegree mas não no curso individual gratuito – pode ser uma boa adição a um portfólio.
Uma oferta impressionante sem dados de revisão
- Data Science Fundamentals (Big Data Science University)
Data Science Fundamentals é uma série de quatro cursos fornecida pela Big Data University da IBM. Inclui cursos intitulados Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools, e R 101.
Cobre todo o processo de ciência de dados e introduz Python, R, e várias outras ferramentas open-source. Os cursos têm um tremendo valor de produção. São estimadas 13-18 horas de esforço, dependendo se você fizer o curso “R 101” no final, o que não é necessário para o propósito deste guia. Infelizmente, não tem dados de revisão nos principais sites de revisão que usamos para esta análise, por isso ainda não podemos recomendá-lo sobre as duas opções acima. É gratuito.
A competição
A nossa escolha #1 teve uma média ponderada de 4,5 de 5 estrelas sobre 3.068 revisões. Vamos olhar para as outras alternativas, ordenadas por classificação decrescente. Abaixo você encontrará vários cursos focados em R, se você estiver definido em uma introdução nessa língua.
- Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Cobertura completa do processo com foco em ferramentas pesadas (Python). Menos processo conduzido e mais uma introdução muito detalhada ao Python. Curso surpreendente, embora não ideal para o escopo deste guia. Ele, como o curso R do José abaixo, pode dobrar tanto como intros para Python/R como intros para a ciência dos dados. 21,5 horas de conteúdo. Tem uma classificação média ponderada de 4,7 estrelas sobre 1.644 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Cobertura total do processo com um foco pesado de ferramentas (R). Menos orientado para processos e mais uma introdução muito detalhada ao curso R. Incrível, embora não ideal para o escopo deste guia. Ele, como o curso de Jose Python acima, pode dobrar como intros para Python/R e intros para a ciência de dados. 18 horas de conteúdo. Tem uma classificação média ponderada de 4,6 estrelas sobre 847 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Data Science e Machine Learning with Python – Hands On! (Frank Kane/Udemy): Cobertura parcial do processo. Enfoca a estatística e a aprendizagem de máquinas. Duração decente (nove horas de conteúdo). Utiliza Python. Tem uma classificação média ponderada de 4,5 estrelas sobre 3.104 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Introduction to Data Science (Data Hawk Tech/Udemy): Cobertura total do processo, apesar da profundidade limitada da cobertura. Bastante curta (três horas de conteúdo). Cobre brevemente tanto R como Python. Tem uma classificação média ponderada de 4,4 estrelas sobre 62 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Applied Data Science: Uma Introdução (Syracuse University/Open Education by Blackboard): Cobertura total do processo, embora não uniformemente distribuída. Foca fortemente em estatísticas básicas e R. Demasiado aplicado e não suficientemente focado no processo para o propósito deste guia. A experiência do curso online parece desajustada. Tem uma classificação média ponderada de 4,33 estrelas em 6 revisões. Grátis.
- Introdução à Ciência dos Dados (Nina Zumel & John Mount/Udemy): Apenas cobertura parcial do processo, embora com boa profundidade na preparação dos dados e nos aspectos de modelagem. Duração adequada (seis horas de conteúdo). Usa R. Tem uma classificação média ponderada de 4,3 estrelas sobre 101 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Applied Data Science with Python (V2 Maestros/Udemy): Cobertura total do processo com boa profundidade de cobertura para cada aspecto do processo. Duração decente (8,5 horas de conteúdo). Utiliza Python. Tem uma classificação média ponderada de 4,3 estrelas sobre 92 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Quer ser um cientista de dados? (V2 Maestros/Udemy): Cobertura total do processo, embora com profundidade de cobertura limitada. Bastante curta (3 horas de conteúdo). Cobertura limitada da ferramenta. Tem uma classificação média ponderada de 4,3 estrelas sobre 790 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): Amplitude de cobertura pouco clara. Reclamações para focar na exploração, descoberta e visualização de dados. Não oferecido sob demanda. 24 horas de conteúdo (três horas por semana durante oito semanas). Tem uma classificação média ponderada de 4 estrelas em 2 revisões. Grátis com certificado pago disponível.
- Data Science Orientation (Microsoft/edX): Cobertura parcial do processo (falta o aspecto de modelagem). Utiliza o Excel, o que faz sentido já que é um curso com a marca Microsoft. 12-24 horas de conteúdo (duas a quatro horas por semana durante seis semanas). Tem uma classificação média ponderada de 3,95 estrelas em 40 revisões. Grátis com Certificado Verificado disponível por $25.
- Data Science Essentials (Microsoft/edX): Cobertura total do processo com boa profundidade de cobertura para cada aspecto. Cobre R, Python, e Azure ML (uma plataforma de aprendizagem da máquina Microsoft). Várias revisões 1 estrela citando a escolha da ferramenta (Azure ML) e a má entrega do instrutor. 18-24 horas de conteúdo (três a quatro horas por semana durante seis semanas). Tem uma classificação média ponderada de 3,81 estrelas em 67 revisões. Grátis com Certificado Verificado disponível por $49.
- Ciência de Dados Aplicada com R (V2 Maestros/Udemy): O R companheiro do curso de Python do V2 Maestros acima. Cobertura completa do processo com boa profundidade de cobertura para cada aspecto do processo. Duração decente (11 horas de conteúdo). Usa R. Tem uma classificação média ponderada de 3,8 estrelas em 212 revisões. O custo varia dependendo dos descontos Udemy, que são frequentes.
- Intro to Data Science (Udacity): Cobertura parcial do processo, embora com boa profundidade para os tópicos abordados. Falta o aspecto exploratório, embora a Udacity tenha um grande curso completo de análise de dados exploratórios (EDA). Reivindica ter 48 horas de duração (seis horas por semana em oito semanas), mas é mais curto na minha experiência. Algumas críticas acham que falta a configuração para o conteúdo avançado. Sente-se desorganizado. Utiliza o Python. Tem um 3.Média ponderada de 61 estrelas em 18 revisões. Grátis.
- Introdução à ciência dos dados em Python (Universidade de Michigan/Coursera): Cobertura parcial do processo. Sem modelagem e vizualização, embora os cursos #2 e #3 na Applied Data Science com especialização em Python cubram estes aspectos. Tomar os três cursos seria muito profundo para o propósito destes guias. Utiliza o Python. Quatro semanas de duração. Tem uma classificação média ponderada de 3,6 estrelas em 15 revisões. Opções grátis e pagas disponíveis.
- Tomada de Decisão Orientada por Dados (PwC/Coursera): Cobertura parcial (falta modelagem) com foco no negócio. Introduz muitas ferramentas, incluindo R, Python, Excel, SAS, e Tableau. Quatro semanas de duração. Tem uma classificação média ponderada de 3,5 estrelas em 2 revisões. Opções gratuitas e pagas disponíveis.
- A Crash Course in Data Science (Johns Hopkins University/Coursera): Uma visão geral extremamente breve de todo o processo. Demasiado breve para o propósito desta série. Duas horas de duração. Tem uma classificação média ponderada de 3,4 estrelas em 19 revisões. Opções gratuitas e pagas disponíveis.
- The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Uma visão geral extremamente breve de todo o processo. Mais de um curso de preparação para a Especialização em Ciência de Dados da Universidade Johns Hopkins. Afirma ter 4-16 horas de conteúdo (uma-quatro horas por semana durante quatro semanas), embora um revisor tenha notado que poderia ser concluído em duas horas. Tem uma classificação média ponderada de 3,22 estrelas sobre 182 revisões. Opções gratuitas e pagas disponíveis.
- Data Management and Visualization (Wesleyan University/Coursera): Cobertura parcial do processo (falta de modelagem). Quatro semanas de duração. Bom valor de produção. Utiliza Python e SAS. Tem uma classificação média ponderada de 2,67 estrelas em 6 revisões. Opções livres e pagas disponíveis.
Os seguintes cursos não tiveram revisões em janeiro de 2017.
- CS109 Data Science (Universidade de Harvard): Cobertura total do processo em grande profundidade (provavelmente em profundidade demais para o propósito desta série). Um curso de graduação completo de 12 semanas. A navegação do curso é difícil, uma vez que o curso não foi concebido para consumo online. As palestras reais de Harvard são filmadas. O processo infográfico do processo de ciência de dados acima descrito tem origem neste curso. Utiliza o Python. Sem dados de revisão. Grátis.
- Introdução à Análise de Dados para Negócios (University of Colorado Boulder/Coursera): Cobertura parcial do processo (falta aspectos de modelagem e visualização) com foco nos negócios. O processo de ciência dos dados é disfarçado como a “Cadeia de Valor da Informação-Ação” em suas palestras. Quatro semanas de duração. Descreve várias ferramentas, embora apenas abranja SQL em qualquer profundidade. Sem dados de revisão. Opções livres e pagas disponíveis.
- Introdução à ciência dos dados (Lynda): Cobertura total do processo, embora com profundidade de cobertura limitada. Bastante curta (três horas de conteúdo). Introduz tanto R como Python. Sem dados de revisão. O custo depende da subscrição do Lynda.
Brapar para cima
Este é o terceiro de uma série de seis peças que cobre os melhores cursos online para se lançar no campo da ciência dos dados. Cobrimos programação no primeiro artigo e estatísticas e probabilidade no segundo artigo. O resto da série cobrirá outras competências centrais da ciência dos dados: visualização de dados e aprendizagem de máquinas.
Se você quiser aprender Ciência dos Dados, comece com uma dessas aulas de programação
Se você quiser aprender Ciência dos Dados, faça algumas dessas aulas de estatística
A peça final será um resumo desses artigos, mais os melhores cursos online para outros tópicos-chave, tais como discussão de dados, bases de dados e até mesmo engenharia de software.
Se você estiver procurando por uma lista completa de cursos online de Ciência de Dados, você pode encontrá-los na página de Ciência de Dados e Grandes Dados da Class Central.
Se gostou de ler isto, veja algumas das outras peças da Class Central:
Aqui estão 250 cursos da Ivy League que você pode fazer online agora mesmo de graça
250 MOOCs de Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton, e Yale.
Os 50 melhores cursos universitários online gratuitos de acordo com os dados
Quando eu lancei a Class Central em Novembro de 2011, havia cerca de 18 cursos online gratuitos, e quase todos…
Se você tiver sugestões de cursos que eu perdi, me avise nas respostas!
Se você achou isso útil, clique no ? para que mais pessoas o vejam aqui no Médio.
Esta é uma versão condensada do meu artigo original publicado na Class Central, onde incluí mais descrições de cursos, currículo e várias revisões.