19 Ene 2016

En diciembre, completé el tercero de los tres cursos del programa de Certificado en Ciencia de Datos de la Educación Profesional & (PCE) de la Universidad de Washington. Todos los cursos de este programa tenían una duración de 10 semanas, con clases de 3 horas una vez a la semana. Como vivo en Denver, no pude asistir físicamente a las reuniones, celebradas en el campus de la UW en Seattle, así que formé parte de la cohorte en línea. Esta es mi reseña del programa, y espero que pueda ser útil para otros que estén considerando el programa.

¿Por qué entré en el programa de certificación?

Es hora de un cambio

A principios de 2014 decidí que había tenido suficiente. Había estado haciendo un trabajo relacionado con los datos para el gobierno federal durante un poco más de 8 años, pero estaba listo para un nuevo desafío. El trabajo era bueno, pero estaba cansado de la aplastante burocracia, y de sentir que mi carrera ya no progresaba en la dirección que yo deseaba (alguien, por desgracia, decidió que yo tenía un poco de aptitud para la gestión, y yo podía sentirme arrastrado), y estaba cansado de usar una versión de MATLAB de 2006 para hacer gran parte de mi trabajo de datos «divertido».

Tomando MOOCs

Así que en 2014 empecé a tomar cursos masivos abiertos en línea (MOOCs) en serio. Sabía que me encantaba, y era bastante bueno, el análisis de datos y la programación, así que empecé a tomar cursos en la pista de Ciencia de Datos en Udacity (esto fue antes de que se desarrollaran sus populares programas Nanodegree). Para mayo, había descubierto Coursera, y en junio comencé la especialización en Ciencia de Datos de la JHU (terminé esa especialización en diciembre de 2014). Planeo revisar algunos aspectos de estos MOOCs en una fecha posterior, pero por ahora solo mencionaré que estos cursos me cambiaron la vida.

Certificado y aplicación de la UW

En el verano de 2014, descubrí el certificado de Ciencia de Datos de la UW PCE. Aunque estaba tomando muchos MOOCs, todavía no estaba seguro de si realmente me ayudarían a calificar para un trabajo. No estaba recibiendo muchas visitas de los reclutadores en LinkedIn, y algunas aplicaciones que arrojé sobre las paredes de las empresas no obtuvieron ninguna mordida. No estaba listo para el tiempo y el gasto de un programa de maestría en Ciencia de Datos, así que pensé que un certificado profesional universitario sería lo mejor, y tal vez me ayudaría a encontrar algunos contactos adicionales para hacer una conexión de trabajo.

Así que solicité el programa. Como ha pasado un año y medio desde que lo solicité, no recuerdo muchos detalles del proceso de solicitud, pero creo que había un test de 25 preguntas sobre conocimientos de Ciencia de Datos (algo de SQL y estadísticas es lo que recuerdo), tenía que presentar un currículum, una breve declaración de interés, y unos 50 dólares como tasa de solicitud. No fue demasiado estresante.

¡Aceptado, pero nuevo trabajo!

Me aceptaron en el programa. Sin embargo, había una lista de espera, así que no pude empezar hasta abril de 2015.

Para cuando llegó abril, estaba en conversaciones con un reclutador y tuve una entrevista con la empresa para la que ahora trabajo. ¡Querían que fuera a hacer Machine Learning para ellos! Llevaba 4 semanas en la primera clase del programa de certificación cuando acepté mi nuevo trabajo. Así que tenía un dilema: había alcanzado mi objetivo (un nuevo trabajo en el sector privado), pero acababa de empezar este programa para el que había esperado 7 meses (y había pagado más de 1.100 dólares no reembolsables para asistir). ¿Debía continuar? Después de algunas deliberaciones, cedí, y decidí que el dinero era un costo hundido, así que bien podría aprender algo.

El curso # 1 fue lo suficientemente bueno que continué pagando y tomando cada curso posterior, a pesar del debate interno masivo cada vez (¿necesito esto? ¿debería gastar mi tiempo/dinero en otra parte?). En general, disfruté del resto del programa y me siento realizada por haberlo terminado; sin embargo, no estoy segura de que haya sido la mejor inversión de mi tiempo y dinero. Aprendí más, y más rápido, tomando la mayoría de los MOOCs, que con este programa (me viene a la mente el post de James Altucher Don’t Send Your Kids to College). Pero, también hice varias conexiones valiosas con mis compañeros de clase, mucho más conexiones que hice de cualquier MOOC.

¿Es este programa para usted?

Ok, suficiente sobre mis motivaciones para tomar el programa de certificado. Aquí están algunos de mis aspectos positivos y negativos para el programa, que, si usted es un científico de datos en ciernes y se pregunta si debe tratar de obtener el certificado, podría ayudarle a tomar una decisión.

Lo que me gustó del programa

  • Certificado de una institución de confianza que es un líder en Ciencia de Datos y Aprendizaje Automático.
  • Asistir a cursos en línea o en persona (si usted vive en el área de Seattle). Es bueno que te den la opción de elegir, y que incluso como estudiante en línea puedas asistir «en vivo».
  • Retroalimentación personal de los instructores en todas las tareas (para mí fueron generalmente 2-3 líneas de retroalimentación). No estoy seguro de si esto es mejor o peor que las tareas autocalificadas o calificadas por los compañeros en muchos MOOCs.
  • Cursos impartidos por Científicos de Datos en la industria. Mis cursos fueron impartidos por científicos de datos de Prediction Software, Zillow y Microsoft.
  • Oportunidad de hablar y hacer preguntas a los instructores. Incluso en línea, hay una función de chat, y el asistente de enseñanza transmite las preguntas al instructor. Es agradable recibir información en tiempo real de los instructores.
  • El coste: me gasté unos 3400 dólares por los tres cursos. Mucho más caro que un MOOC, pero mucho más barato que una maestría.
  • Materiales extra de aprendizaje y lectura. Todos los instructores hicieron un gran trabajo de encontrar cosas interesantes para leer como parte de las tareas semanales.
  • Hacer contactos, y una cohorte continua. En el primer curso, había unos 45 estudiantes; aproximadamente la mitad eran presenciales y la otra mitad online. Los instructores crearon un grupo de LinkedIn, y la mayoría nos conectamos (el grupo está cerrado, así que no intentes encontrarlo y unirte a él). Tal vez el 20% de los alumnos se borraron en el tercer curso, pero los que fueron más activos en el grupo se quedaron y contribuyeron. Ha sido divertido ver a mis compañeros de clase conseguir nuevos puestos de trabajo en la analítica en los últimos meses, y hacer las conexiones con ellos ha sido valioso.
  • Asignaciones bastante fáciles. Esto puede ser un punto de inflexión: si las tareas no eran difíciles, entonces no aprendí mucho; pero significa que puedo complementar mi aprendizaje con otras experiencias. En promedio, pasé 3 horas en clase a la semana, y 2-3 horas en las tareas.

Lo que no me gustó del programa

  • Asistencia obligatoria a clase al menos 8 de 10 conferencias por curso. Se toma la asistencia. La clase se reúne a las 6PM hora del Pacífico y dura 3 horas. Así que, como tengo una hora de adelanto, para mí eso era de 7PM a 10PM. Durante los dos primeros meses, tuve que levantarme a las 5 de la mañana para trabajar, así que asistir a estas clases mientras se impartían podía hacer que el día siguiente fuera somnoliento. Obviamente, cuanto más lejos de Seattle estés, más difícil será asistir a las conferencias en línea.
  • Ver las conferencias en tiempo real. Cuando hago MOOCs, suelo acelerar los vídeos a 1,5x o 2,0x la velocidad real, dependiendo de lo rápido que hable el ponente. Esto me ayuda a concentrarme mejor. Con los MOOC, también puedes rebobinar si te pierdes algo. Con el curso en vivo, obviamente no puedes hacer eso hasta que se publica la conferencia (normalmente al día siguiente), y entonces encontrar tu momento clave no es trivial.
  • No se puede ver al instructor en las conferencias. Otros cursos en línea que he tomado tienen una cámara enfocada en el instructor, por lo que puedes verlos mientras también miras las diapositivas. La tecnología de la UW, por alguna razón, no muestra al instructor, por lo que sólo oyes su voz y miras las diapositivas. Esto hace que sea mucho más difícil concentrarse si usted es un estudiante en línea, y diluye el aprendizaje un poco, ya que no se puede ver la comunicación no verbal.
  • La continuidad entre las clases menos que ideal. En los cursos #2 y #3, hubo varias veces que los instructores preguntaron: «¿Aprendiste este último curso?». Sería bueno si se pudiera clavar un plan de estudios más centrado y los instructores se pasaran mejor la información entre ellos.
  • ¿Weka para el aprendizaje automático? En el segundo curso, hicimos estadística usando R. Y luego, en lugar de continuar con R en el tercer curso, el instructor enseñó Machine Learning usando Weka. La buena gente de la Universidad de Waikato hizo un buen trabajo con el software Weka, pero ¿hay alguien en la industria que utilice Weka? No lo veo en muchas ofertas de trabajo. Afortunadamente, el instructor conocía bien R, y aceptaba tareas en R si queríamos, así que así es como completé mis tareas. Pero, enseñó gran parte del curso usando Weka, lo que creo que es una gran oportunidad perdida y un error.
  • No hay suficiente profundidad. De acuerdo, la Ciencia de los Datos es un tema muy amplio, que crece todo el tiempo. La UW aparentemente decidió para este programa que irían por la amplitud en lugar de la profundidad. Esta es probablemente una buena decisión, porque no hay mucho que se pueda incluir en 90 horas de clase, entonces envías a los estudiantes a aprender por su cuenta, habiendo sido al menos expuestos a nuevos conceptos. Pero yo seguía queriendo profundizar y aprender más sobre los distintos temas de los que hablábamos; en lugar de eso, pasábamos al siguiente concepto durante una o dos diapositivas.

Revisión rápida de los cursos individuales

Curso 1: Introducción a la ciencia de los datos

El primer curso era un estudio básico del terreno de la ciencia de los datos. Realmente es una introducción, y no asume casi ningún conocimiento previo de la Ciencia de Datos. Aprendimos sobre el flujo de datos básico a través de un proyecto, y pasamos por algunas cartillas sobre herramientas de Data Science (R, Python, SQL, MATLAB/Octave, así como una pequeña introducción a Hadoop). Tuvimos algunas tareas en R, y aprendimos sobre matrices dispersas, y tuvimos una o dos tareas de SQL. El curso no es muy desafiante, especialmente si has tenido alguna exposición previa a la Ciencia de Datos, pero las conferencias fueron buenas y las lecturas adicionales fueron útiles. Le doy a este curso una B- – buen contenido y buen instructor, pero la velocidad y la profundidad no eran lo que esperaba que pagara. Estuve a punto de abandonar el programa después de este curso, pero cuando llegó el momento de registrarme y entregar la información de mi tarjeta de crédito para el Curso 2, seguí adelante y lo hice.

Curso 2: Métodos para el análisis de datos

A pesar del nombre de este curso, este fue principalmente un curso de estadística y manejo de datos. Me pareció el mejor curso de los tres, y aprendí bastante sobre algunos métodos estadísticos que no conocía. Mi curso fue impartido por un científico de datos senior de Zillow, un doctor en matemáticas aplicadas que también era un profesor con talento. Desafortunadamente, parece que las futuras ediciones del curso tendrán un nuevo instructor – TBD mientras escribo esto – así que espero que puedan encontrar un buen reemplazo.

Todos los trabajos en casa utilizaron R. Tuvimos una cierta exposición a hacer el raspado de la web con R (sí, puedes ver «¡Ew!» aquí – ¡Python es muy superior para el raspado de la web!), ejecutando simulaciones de Monty Hall, haciendo un análisis básico de gráficos de red, regresión, y creando variables autorregresivas, entre otros conceptos estadísticos. Terminamos el curso con un proyecto de curso, en el que teníamos que encontrar nuestros propios datos, analizarlos y escribir un informe. Mi proyecto final fue la exploración de Denver B-Cycle 2014 Ridership.

Le doy a este curso una A. Me pareció que era bastante desafiante a veces, y los trabajos en casa me hizo pensar y tomó un par de horas cada uno. Sentí que este curso valía mi dinero y mi tiempo.

Curso 3: Deriving Knowledge from Data at Scale

Después de una buena experiencia con el Curso 2, no tuve ningún problema en apuntarme al tercer curso.

Este curso era algo así como el curso de Aprendizaje Automático.

Este curso fue impartido por un estadístico de Boeing de larga data que actualmente trabaja como Científico Principal de Datos para Microsoft. Parecía un tipo muy agradable, haciendo chistes y contando historias campechanas para la clase. Me gustaría haber estado en las conferencias en persona, en lugar de escuchar en línea, porque me di cuenta de que estaba realmente interactuando con la clase y compartir su entusiasmo (también tenía un hábito desagradable de alejarse del micrófono durante medio minuto a la vez).

Sin embargo, yo estaba bastante decepcionado en este curso como un seguimiento del segundo curso. A estas alturas, habíamos pasado probablemente 3 meses haciendo trabajo en R, para el primer y segundo curso combinados, por lo que habría tenido sentido enseñar conceptos de aprendizaje automático y asignar tareas en R. En cambio, como mencioné en mi lista de quejas, usamos Weka. Claro, Weka tiene una interfaz gráfica de usuario agradable, pero no quería aprender un nuevo software que garantizo que no voy a utilizar en el futuro (lo siento, pero los paquetes de R, Python y Spark Machine Learning serán mucho más útiles). Afortunadamente, el instructor nos permitió entregar nuestros trabajos en casa en R. Pero me frustré tanto con el curso que sintonicé las conferencias, para conseguir mi asistencia, y luego dejé mi computadora funcionando mientras iba a hacer otra cosa.

El proyecto final de este curso fue participar en una competencia de Kaggle. El enfoque era sólo un poco en la competencia – era más acerca de la documentación de nuestro proceso, desde la comprensión de la exploración de los datos, a la modelización, a escribir nuestros resultados. El instructor nos pidió que formáramos parejas. Esto es otra cosa muy difícil de hacer como estudiante en línea. Al principio encontré a un par de chicos para formar un equipo; sin embargo, todos estábamos en zonas horarias diferentes, y dadas las responsabilidades familiares era difícil quedar por la noche, así que al final dije «lo siento chicos, voy a hacerlo solo». Cada equipo de la clase eligió una competición actual de Kaggle que les parecía interesante, así que trabajamos colectivamente en unos 8 proyectos diferentes, en lugar de competir entre nosotros, como en el curso edX Analytics Edge. Me decidí por el concurso ¿Cuánto ha llovido? II; si está interesado, puede ver la descripción de mi proyecto en mi repositorio de GitHub.

Le doy a este curso una C-. Había buena información, y el instructor era interesante, pero la elección de Weka me dejó perplejo, y la organización del curso era un poco pobre (los estudiantes se confundían a menudo con las fechas de entrega).

Resumen

En general, le doy a este programa de certificación una calificación de B-.

Lo recomendaría para personas que puedan asistir en persona, para aquellos con buenos conocimientos de tecnología/matemáticas/estadística que no hayan estado expuestos a la Ciencia de Datos, pero que tengan mucha curiosidad y quieran aprender, y para aquellos que les guste un entorno de aprendizaje muy bien estructurado. También lo recomendaría si estás interesado en hacer crecer tu red profesional de individuos con ideas afines (especialmente aquellos en el área de Seattle). He oído que la gente de los cursos se relaciona y se ayuda mutuamente a encontrar trabajo. Puede que eso ocurriera en mi cohorte(?)), pero es difícil de decir como un estudiante en línea.

No lo recomiendo si usted ha tomado, o se siente cómodo tomando, MOOCs en Ciencia de Datos y / o Aprendizaje Automático (Coursera, Udacity, edX, etc), o tal vez están dispuestos a trabajar a través de la lista de Maestros de Ciencia de Datos de Código Abierto, o han estado trabajando en una capacidad de Ciencia de Datos por cualquier tiempo. Para mi dinero y mi tiempo, los cursos en los sitios MOOC fueron mucho más valiosos. No esperes terminar estos tres cursos y salir como un científico de datos en el otro lado – esto apenas araña la superficie (¡aunque podría ser un buen lugar para empezar!).

Deja una respuesta

Tu dirección de correo electrónico no será publicada.