por David Venturi
Hace un año, abandoné uno de los mejores programas de ciencias de la computación en Canadá. Empecé a crear mi propio programa de maestría en ciencia de datos utilizando recursos en línea. Me di cuenta de que podía aprender todo lo que necesitaba a través de edX, Coursera y Udacity en su lugar. Y podría aprenderlo más rápido, más eficiente y por una fracción del costo.
Ya casi terminé. He tomado muchos cursos relacionados con la ciencia de los datos y he auditado partes de muchos más. Conozco las opciones que hay, y qué habilidades son necesarias para los estudiantes que se preparan para un papel de analista de datos o científico de datos. Hace unos meses, empecé a crear una guía de revisión que recomienda los mejores cursos para cada tema dentro de la ciencia de datos.
Para la primera guía de la serie, recomendé algunas clases de codificación para el científico de datos principiante. Luego fueron las clases de estadística y probabilidad.
- Ahora, las introducciones a la ciencia de datos.
- Cómo elegimos los cursos a considerar
- Cómo hemos evaluado los cursos
- ¿Cuál es el proceso de la ciencia de datos?
- Se requiere experiencia básica en codificación, estadística y probabilidad
- Nuestra elección para el mejor curso de introducción a la ciencia de datos es…
- Una gran introducción centrada en Python
- Una oferta impresionante sin datos de revisión
- La competencia
- Envolviéndolo
Ahora, las introducciones a la ciencia de datos.
(No te preocupes si no estás seguro de lo que implica un curso de introducción a la ciencia de datos. Para esta guía, pasé más de 10 horas tratando de identificar todos los cursos de introducción a la ciencia de datos que se ofrecían en enero de 2017, extrayendo información clave de sus programas y reseñas, y compilando sus calificaciones. Para esta tarea, recurrí nada menos que a la comunidad de código abierto Class Central y a su base de datos de miles de calificaciones y reseñas de cursos.
Desde 2011, el fundador de Class Central, Dhawal Shah, ha vigilado más de cerca los cursos en línea que posiblemente nadie más en el mundo. Dhawal me ayudó personalmente a reunir esta lista de recursos.
Cómo elegimos los cursos a considerar
Cada curso debe cumplir tres criterios:
- Debe enseñar el proceso de la ciencia de los datos. Más sobre esto pronto.
- Debe ser bajo demanda u ofrecido cada pocos meses.
- Debe ser un curso interactivo en línea, así que no hay libros o tutoriales de sólo lectura. Aunque estas son formas viables de aprender, esta guía se centra en los cursos.
Creemos que hemos cubierto todos los cursos notables que se ajustan a los criterios anteriores. Dado que aparentemente hay cientos de cursos en Udemy, hemos optado por considerar sólo los más revisados y mejor valorados. Sin embargo, siempre existe la posibilidad de que nos hayamos dejado algo. Así que, por favor, haznos saber en la sección de comentarios si nos hemos dejado algún buen curso.
Cómo hemos evaluado los cursos
Hemos recopilado la calificación media y el número de reseñas de Class Central y otros sitios de reseñas para calcular una calificación media ponderada para cada curso. Leímos las reseñas de los textos y utilizamos esta retroalimentación para complementar las calificaciones numéricas.
Hicimos juicios subjetivos del programa de estudios basados en dos factores:
1. La cobertura del proceso de la ciencia de los datos. ¿El curso pasa por encima de ciertos temas o los omite? ¿Cubre ciertos temas con demasiado detalle? Consulte la siguiente sección para saber qué implica este proceso.
2. Uso de herramientas comunes de ciencia de datos. ¿El curso se imparte utilizando lenguajes de programación populares como Python y/o R? No son necesarios, pero sí útiles en la mayoría de los casos, por lo que se da una ligera preferencia a estos cursos.
¿Cuál es el proceso de la ciencia de datos?
¿Qué es la ciencia de datos? Qué hace un científico de datos? Estos son los tipos de preguntas fundamentales que un curso de introducción a la ciencia de datos debe responder. La siguiente infografía de los profesores de Harvard Joe Blitzstein y Hanspeter Pfister esboza un proceso típico de ciencia de datos, que nos ayudará a responder a estas preguntas.
Nuestro objetivo con este curso de introducción a la ciencia de datos es familiarizarnos con el proceso de ciencia de datos. No queremos una cobertura demasiado profunda de aspectos específicos del proceso, de ahí la parte de «introducción a» del título.
Para cada aspecto, el curso ideal explica los conceptos clave dentro del marco del proceso, introduce herramientas comunes y proporciona algunos ejemplos (preferiblemente prácticos).
Sólo buscamos una introducción. Por lo tanto, esta guía no incluirá especializaciones completas o programas como la Especialización en Ciencia de Datos de la Universidad Johns Hopkins en Coursera o el Nanodegree de Analista de Datos de Udacity. Estas recopilaciones de cursos eluden el propósito de esta serie: encontrar los mejores cursos individuales de cada materia para conformar una educación en ciencia de datos. Las tres guías finales de esta serie de artículos cubrirán cada aspecto del proceso de la ciencia de datos en detalle.
Se requiere experiencia básica en codificación, estadística y probabilidad
Varios de los cursos enumerados a continuación requieren experiencia básica en programación, estadística y probabilidad. Este requisito es comprensible dado que el nuevo contenido es razonablemente avanzado, y que estas materias suelen tener varios cursos dedicados a ellas.
Esta experiencia puede adquirirse a través de nuestras recomendaciones en los dos primeros artículos (programación, estadística) de esta Guía de carreras de ciencia de datos.
Nuestra elección para el mejor curso de introducción a la ciencia de datos es…
- Data Science A-Z™: Ejercicios de ciencia de datos de la vida real incluidos (Kirill Eremenko/Udemy)
El curso Data Science A-Z™ de Kirill Eremenko en Udemy es el claro ganador en términos de amplitud y profundidad de la cobertura del proceso de ciencia de datos de los más de 20 cursos calificados. Tiene una calificación media ponderada de 4,5 estrellas en 3.071 comentarios, lo que lo sitúa entre los cursos mejor valorados y más revisados de los considerados.
Describe el proceso completo y proporciona ejemplos de la vida real. Con 21 horas de contenido, es una buena duración. Los revisores aman la entrega del instructor y la organización del contenido. El precio varía en función de los descuentos de Udemy, que son frecuentes, por lo que se puede comprar el acceso por tan sólo 10 dólares.
Aunque no marca nuestra casilla de «uso de herramientas comunes de ciencia de datos», las opciones de herramientas que no son de Python/R (gretl, Tableau, Excel) se utilizan eficazmente en el contexto. Eremenko menciona lo siguiente al explicar la elección de gretl (gretl es un paquete de software estadístico), aunque se aplica a todas las herramientas que utiliza (el énfasis es mío):
En gretl, podremos hacer el mismo modelado que en R y Python pero no tendremos que codificar. Ese es el gran problema aquí. Puede que algunos de vosotros ya conozcáis R muy bien, pero otros puede que no lo conozcáis en absoluto. Mi objetivo es mostrarles cómo construir un modelo robusto y darles un marco de trabajo que puedan aplicar en cualquier herramienta que elijan. gretl nos ayudará a evitar empantanarnos en nuestra codificación.
Un destacado revisor señaló lo siguiente:
Kirill es el mejor profesor que he encontrado en línea. Utiliza ejemplos de la vida real y explica los problemas más comunes para que se entienda mejor el trabajo del curso. También proporciona una gran cantidad de información en cuanto a lo que significa ser un científico de datos de trabajar con datos insuficientes todo el camino a la presentación de su trabajo a la gestión de clase C. Recomiendo encarecidamente este curso para los estudiantes principiantes a los analistas de datos intermedios!
Una gran introducción centrada en Python
- Introducción al Análisis de Datos (Udacity)
La Introducción al Análisis de Datos de Udacity es una oferta relativamente nueva que forma parte del popular Nanodegree de Analista de Datos de Udacity. Cubre el proceso de ciencia de datos de forma clara y cohesionada utilizando Python, aunque le falta un poco en el aspecto de modelado. El tiempo estimado es de 36 horas (seis horas por semana durante seis semanas), aunque en mi experiencia es más corto. Tiene una calificación media ponderada de 5 estrellas en dos reseñas. Es gratuito.
Los vídeos están bien producidos y la instructora (Caroline Buckey) es clara y agradable. Muchas pruebas de programación refuerzan los conceptos aprendidos en los vídeos. Los estudiantes saldrán del curso con confianza en sus nuevas y/o mejoradas habilidades en NumPy y Pandas (estas son librerías populares de Python). El proyecto final -que se califica y revisa en el Nanodegree pero no en el curso individual gratuito- puede ser un buen complemento para un portafolio.
Una oferta impresionante sin datos de revisión
- Fundamentos de la Ciencia de los Datos (Big Data University)
Fundamentos de la Ciencia de los Datos es una serie de cuatro cursos proporcionados por la Big Data University de IBM. Incluye cursos titulados Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools y R 101.
Cubre el proceso completo de la ciencia de datos e introduce Python, R y varias otras herramientas de código abierto. Los cursos tienen un enorme valor de producción. Se estiman entre 13 y 18 horas de esfuerzo, dependiendo de si se toma el curso «R 101» al final, que no es necesario para el propósito de esta guía. Lamentablemente, no tiene datos de reseñas en los principales sitios de reseñas que utilizamos para este análisis, por lo que aún no podemos recomendarlo sobre las dos opciones anteriores. Es gratis.
La competencia
Nuestra elección número 1 tuvo una calificación media ponderada de 4,5 sobre 5 estrellas en 3.068 opiniones. Veamos las demás alternativas, ordenadas por puntuación descendente. A continuación encontrarás varios cursos centrados en R, si estás decidido a introducirte en ese lenguaje.
- Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Cobertura completa de los procesos con un enfoque centrado en la herramienta (Python). Menos orientado a procesos y más a una introducción muy detallada a Python. Curso increíble, aunque no es ideal para el alcance de esta guía. Al igual que el curso de R de José, puede servir como introducción a Python/R e introducción a la ciencia de datos. 21,5 horas de contenido. Tiene una calificación media ponderada de 4,7 estrellas en 1.644 comentarios. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Cobertura completa de los procesos con un enfoque de herramientas (R). Menos orientado a procesos y más a una introducción muy detallada a R. Curso increíble, aunque no es ideal para el alcance de esta guía. Al igual que el curso de Python de José, puede servir como introducción a Python/R y a la ciencia de datos. 18 horas de contenido. Tiene una calificación media ponderada de 4,6 estrellas en 847 comentarios. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Ciencia de Datos y Aprendizaje Automático con Python – ¡Manos a la obra! (Frank Kane/Udemy): Cobertura parcial del proceso. Se centra en la estadística y el aprendizaje automático. Duración decente (nueve horas de contenido). Utiliza Python. Tiene una calificación media ponderada de 4,5 estrellas en 3.104 opiniones. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Introducción a la ciencia de datos (Data Hawk Tech/Udemy): Cobertura completa del proceso, aunque con una profundidad limitada. Bastante corto (tres horas de contenido). Cubre brevemente tanto R como Python. Tiene una calificación media ponderada de 4,4 estrellas en 62 opiniones. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Cobertura completa del proceso, aunque no es uniforme. Se centra mucho en la estadística básica y en R. Demasiado aplicado y poco centrado en los procesos para el propósito de esta guía. La experiencia del curso en línea se siente desarticulada. Tiene una calificación media ponderada de 4,33 estrellas en 6 opiniones. Gratis.
- Introducción a la ciencia de los datos (Nina Zumel & John Mount/Udemy): Cobertura parcial de procesos solamente, aunque buena profundidad en los aspectos de preparación y modelado de datos. Duración aceptable (seis horas de contenido). Utiliza R. Tiene una calificación media ponderada de 4,3 estrellas en 101 opiniones. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Applied Data Science with Python (V2 Maestros/Udemy): Cobertura completa del proceso con buena profundidad de cobertura para cada aspecto del proceso. Duración decente (8,5 horas de contenido). Utiliza Python. Tiene una calificación media ponderada de 4,3 estrellas en 92 opiniones. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- ¿Quieres ser un científico de datos? (V2 Maestros/Udemy): Cobertura completa de los procesos, aunque con una profundidad limitada. Bastante corto (3 horas de contenido). Cobertura limitada de herramientas. Tiene una calificación media ponderada de 4,3 estrellas en 790 opiniones. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Data to Insight: an Introduction to Data Analysis (University of Auckland/FutureLearn): La amplitud de la cobertura no está clara. Dice centrarse en la exploración, el descubrimiento y la visualización de datos. No se ofrece bajo demanda. 24 horas de contenido (tres horas por semana durante ocho semanas). Tiene una calificación media ponderada de 4 estrellas en 2 opiniones. Gratuito con certificado de pago disponible.
- Orientación en Ciencia de Datos (Microsoft/edX): Cobertura parcial de procesos (carece de aspecto de modelado). Utiliza Excel, lo que tiene sentido dado que es un curso de la marca Microsoft. 12-24 horas de contenido (dos-cuatro horas por semana durante seis semanas). Tiene una calificación media ponderada de 3,95 estrellas en 40 opiniones. Gratis con certificado verificado disponible por 25 dólares.
- Data Science Essentials (Microsoft/edX): Cobertura completa de procesos con buena profundidad de cobertura para cada aspecto. Cubre R, Python y Azure ML (una plataforma de aprendizaje automático de Microsoft). Varias críticas de 1 estrella citando la elección de la herramienta (Azure ML) y la pobre entrega del instructor. 18-24 horas de contenido (tres-cuatro horas por semana durante seis semanas). Tiene una calificación media ponderada de 3,81 estrellas en 67 opiniones. Gratis con certificado verificado disponible por 49 dólares.
- Ciencia de Datos Aplicada con R (V2 Maestros/Udemy): El compañero de R para el curso de Python de V2 Maestros anterior. Cobertura completa del proceso con buena profundidad de cobertura para cada aspecto del proceso. Duración decente (11 horas de contenido). Utiliza R. Tiene una calificación media ponderada de 3,8 estrellas en 212 comentarios. El coste varía en función de los descuentos de Udemy, que son frecuentes.
- Intro to Data Science (Udacity): Cobertura parcial del proceso, aunque buena profundidad para los temas cubiertos. Falta el aspecto de exploración, aunque Udacity tiene un gran curso completo sobre análisis exploratorio de datos (EDA). Dice tener 48 horas de duración (seis horas por semana durante ocho semanas), pero es más corto en mi experiencia. Algunos comentarios opinan que falta la preparación del contenido avanzado. Parece desorganizado. Utiliza Python. Tiene un 3.Valoración media ponderada de 61 estrellas a lo largo de 18 reseñas. Gratis.
- Introducción a la ciencia de datos en Python (Universidad de Michigan/Coursera): Cobertura parcial de procesos. No hay modelado y vizualización, aunque los cursos #2 y #3 de la Especialización en Ciencia de Datos Aplicada con Python cubren estos aspectos. Tomar los tres cursos sería demasiado profundo para el propósito de estas guías. Utiliza Python. Tiene una duración de cuatro semanas. Tiene una calificación media ponderada de 3,6 estrellas en 15 opiniones. Hay opciones gratuitas y de pago.
- Toma de decisiones basada en datos (PwC/Coursera): Cobertura parcial (carece de modelado) con un enfoque empresarial. Introduce muchas herramientas, incluyendo R, Python, Excel, SAS y Tableau. Cuatro semanas de duración. Tiene una calificación media ponderada de 3,5 estrellas en 2 opiniones. Hay opciones gratuitas y de pago.
- A Crash Course in Data Science (Johns Hopkins University/Coursera): Una visión extremadamente breve del proceso completo. Demasiado breve para el propósito de esta serie. Dos horas de duración. Tiene una calificación media ponderada de 3,4 estrellas en 19 opiniones. Hay opciones gratuitas y de pago.
- The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Una visión extremadamente breve del proceso completo. Es más bien un curso de preparación para la especialización en ciencia de datos de la Universidad Johns Hopkins. Afirma tener entre 4 y 16 horas de contenido (una-cuatro horas por semana durante cuatro semanas), aunque un revisor señaló que podría completarse en dos horas. Tiene una calificación media ponderada de 3,22 estrellas en 182 opiniones. Hay opciones gratuitas y de pago.
- Gestión y visualización de datos (Wesleyan University/Coursera): Cobertura parcial del proceso (carece de modelado). Cuatro semanas de duración. Buen valor de producción. Utiliza Python y SAS. Tiene una calificación media ponderada de 2,67 estrellas en 6 opiniones. Opciones gratuitas y de pago disponibles.
Los siguientes cursos no tenían reseñas en enero de 2017.
- CS109 Data Science (Harvard University): Cobertura completa de procesos en gran profundidad (probablemente demasiado en profundidad para el propósito de esta serie). Un curso completo de pregrado de 12 semanas. La navegación por el curso es difícil, ya que no está diseñado para el consumo en línea. Las conferencias reales de Harvard están filmadas. La infografía del proceso de la ciencia de los datos que aparece arriba procede de este curso. Utiliza Python. No hay datos de revisión. Gratuito.
- Introducción a la analítica de datos para los negocios (Universidad de Colorado Boulder/Coursera): Cobertura parcial del proceso (carece de aspectos de modelado y visualización) con un enfoque en los negocios. El proceso de ciencia de datos se disfraza de «cadena de valor información-acción» en sus clases. Cuatro semanas de duración. Describe varias herramientas, aunque sólo cubre SQL en profundidad. No hay datos de revisión. Opciones gratuitas y de pago disponibles.
- Introducción a la ciencia de los datos (Lynda): Cobertura completa de los procesos, aunque con una profundidad limitada. Bastante corto (tres horas de contenido). Introduce tanto R como Python. No hay datos de revisión. El coste depende de la suscripción a Lynda.
Envolviéndolo
Este es el tercero de una serie de seis artículos que cubre los mejores cursos online para lanzarse al campo de la ciencia de los datos. En el primer artículo cubrimos la programación y en el segundo la estadística y la probabilidad. El resto de la serie cubrirá otras competencias básicas de la ciencia de datos: la visualización de datos y el aprendizaje automático.
Si quieres aprender ciencia de datos, comienza con una de estas clases de programación
Si quieres aprender ciencia de datos, toma algunas de estas clases de estadística
La pieza final será un resumen de esos artículos, además de los mejores cursos en línea para otros temas clave, como el manejo de datos, las bases de datos e incluso la ingeniería de software.
Si buscas una lista completa de cursos online de Ciencia de Datos, puedes encontrarlos en la página de la asignatura de Ciencia de Datos y Big Data de Class Central.
Si te ha gustado leer esto, echa un vistazo a otros artículos de Class Central:
Aquí tienes 250 cursos de la Ivy League que puedes hacer online ahora mismo de forma gratuita
250 MOOCs de Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton y Yale.
Los 50 mejores cursos universitarios online gratuitos según los datos
Cuando lancé Class Central allá por noviembre de 2011, había unos 18 cursos online gratuitos, y casi todos…
Si tienes sugerencias de cursos que me he dejado, ¡házmelo saber en las respuestas!
Si te ha resultado útil, haz clic en el icono para que más gente lo vea aquí en Medium.
Esta es una versión condensada de mi artículo original publicado en Class Central, donde he incluido más descripciones de cursos, programas de estudios y múltiples reseñas.