by David Venturi
Rok temu porzuciłem jeden z najlepszych programów informatycznych w Kanadzie. Zacząłem tworzyć swój własny program studiów magisterskich w zakresie nauki o danych, korzystając z zasobów internetowych. Zdałem sobie sprawę, że mogę nauczyć się wszystkiego, czego potrzebuję przez edX, Coursera i Udacity zamiast tego. I mogłem nauczyć się tego szybciej, bardziej efektywnie i za ułamek kosztów.
Jestem prawie skończony teraz. Wziąłem wiele kursów związanych z nauką o danych i przesłuchałem części wielu innych. Wiem, jakie są dostępne opcje i jakie umiejętności są potrzebne uczniom przygotowującym się do roli analityka danych lub naukowca danych. Kilka miesięcy temu, zacząłem tworzyć przewodnik, który poleca najlepsze kursy dla każdego tematu w ramach nauki o danych.
Dla pierwszego przewodnika w serii, poleciłem kilka klas kodowania dla początkującego naukowca danych. Następnie były to zajęcia ze statystyki i prawdopodobieństwa.
- Teraz wprowadzenie do nauki o danych.
- Jak wybraliśmy kursy do rozważenia
- Jak oceniliśmy kursy
- Jaki jest proces nauki o danych?
- Podstawowe kodowanie, statystyki i prawdopodobieństwo wymagane
- Nasz wybór dla najlepszego kursu wprowadzającego do nauki o danych jest…
- Wspaniałe wprowadzenie skoncentrowane na Pythonie
- Imponująca oferta bez danych do recenzji
- Konkurencja
- Wrapping it Up
Teraz wprowadzenie do nauki o danych.
(Nie martw się, jeśli nie jesteś pewien, co obejmuje kurs wprowadzający do nauki o danych. Zaraz to wyjaśnię.)
Dla tego przewodnika, spędziłem 10+ godzin próbując zidentyfikować każdy kurs online wprowadzający do nauki o danych oferowany od stycznia 2017, wydobywając kluczowe bity informacji z ich sylabusów i recenzji, oraz kompilując ich oceny. W tym celu zwróciłem się do nikogo innego jak do społeczności open source Class Central i jej bazy danych z tysiącami ocen i recenzji kursów.
Od 2011 roku założyciel Class Central, Dhawal Shah, ma baczniejsze oko na kursy online niż prawdopodobnie ktokolwiek inny na świecie. Dhawal osobiście pomógł mi zmontować tę listę zasobów.
Jak wybraliśmy kursy do rozważenia
Każdy kurs musi spełniać trzy kryteria:
- Musi uczyć procesu nauki o danych. Więcej na ten temat wkrótce.
- Musi być na żądanie lub oferowany co kilka miesięcy.
- Musi być interaktywnym kursem online, więc żadnych książek ani samouczków tylko do czytania. Chociaż są to realne sposoby nauki, ten przewodnik koncentruje się na kursach.
Wierzymy, że pokryliśmy każdy godny uwagi kurs, który pasuje do powyższych kryteriów. Ponieważ istnieją pozornie setki kursów na Udemy, zdecydowaliśmy się rozważyć najbardziej recenzowane i najwyżej oceniane tylko te. Zawsze jest szansa, że coś przegapiliśmy, choć. Więc proszę daj nam znać w sekcji komentarzy, jeśli opuściliśmy dobry kurs.
Jak oceniliśmy kursy
Połączyliśmy średnią ocenę i liczbę recenzji z Class Central i innych stron z recenzjami, aby obliczyć średnią ważoną ocenę dla każdego kursu. Przeczytaliśmy recenzje tekstów i wykorzystaliśmy tę informację zwrotną do uzupełnienia ocen liczbowych.
Wykonaliśmy subiektywne oceny sylabusów w oparciu o dwa czynniki:
1. Objęcie procesu nauki o danych. Czy kurs omija lub pomija pewne tematy? Czy obejmuje pewne tematy zbyt szczegółowo? Zobacz następną sekcję, aby dowiedzieć się, co ten proces pociąga za sobą.
2. Użycie wspólnych narzędzi nauki o danych. Czy kurs jest prowadzony przy użyciu popularnych języków programowania, takich jak Python i/lub R? Nie są one konieczne, ale pomocne w większości przypadków, więc te kursy są lekko preferowane.
Jaki jest proces nauki o danych?
Co to jest nauka o danych? Czym zajmuje się data scientist? Są to rodzaje podstawowych pytań, na które powinien odpowiedzieć kurs wprowadzający do nauki o danych. Poniższa infografika autorstwa profesorów Harvardu Joe Blitzsteina i Hanspetera Pfistera przedstawia typowy proces nauki o danych, który pomoże nam odpowiedzieć na te pytania.
Naszym celem w tym kursie wprowadzającym do nauki o danych jest zapoznanie się z procesem nauki o danych. Nie chcemy zbyt dogłębnego omówienia konkretnych aspektów procesu, stąd część tytułu zatytułowana „wprowadzenie do”.
Dla każdego aspektu, idealny kurs wyjaśnia kluczowe pojęcia w ramach procesu, wprowadza wspólne narzędzia i dostarcza kilka przykładów (najlepiej praktycznych).
Szukamy jedynie wprowadzenia. Ten przewodnik nie będzie więc zawierał pełnych specjalizacji lub programów, takich jak Johns Hopkins University’s Data Science Specialization na Coursera lub Udacity’s Data Analyst Nanodegree. Te kompilacje kursów wymykają się celowi tej serii: znalezieniu najlepszych indywidualnych kursów dla każdego tematu, które składają się na edukację w zakresie nauki o danych. Ostatnie trzy przewodniki w tej serii artykułów obejmą każdy aspekt procesu nauki o danych w szczegółach.
Podstawowe kodowanie, statystyki i prawdopodobieństwo wymagane
Kilka kursów wymienionych poniżej wymaga podstawowego programowania, statystyk i doświadczenia w zakresie prawdopodobieństwa. Ten wymóg jest zrozumiały, biorąc pod uwagę, że nowe treści są dość zaawansowane, a te tematy często mają kilka kursów poświęconych im.
To doświadczenie można zdobyć poprzez nasze zalecenia w pierwszych dwóch artykułach (programowanie, statystyki) w tym Data Science Career Guide.
Nasz wybór dla najlepszego kursu wprowadzającego do nauki o danych jest…
- Data Science A-Z™: Real-Life Data Science Exercises Included (Kirill Eremenko/Udemy)
Kirill Eremenko’s Data Science A-Z™ na Udemy jest wyraźnym zwycięzcą pod względem szerokości i głębokości pokrycia procesu nauki o danych z 20+ kursów, które się zakwalifikowały. Ma 4,5-gwiazdkową średnią ważoną ocenę ponad 3 071 recenzji, co plasuje go wśród najwyżej ocenianych i najczęściej recenzowanych kursów spośród tych, które zostały wzięte pod uwagę.
Określa on cały proces i dostarcza przykłady z życia wzięte. Przy 21 godzinach treści, jest to dobra długość. Recenzenci kochają instruktora dostawy i organizacji treści. Cena waha się w zależności od zniżek Udemy, które są częste, więc może być w stanie kupić dostęp do tak mało jak $10.
Chociaż to nie sprawdzić nasze „wykorzystanie wspólnych narzędzi nauki danych” pole, nie-Python/R wyborów narzędzi (gretl, Tableau, Excel) są wykorzystywane skutecznie w kontekście. Eremenko wspomina o tym, kiedy wyjaśnia wybór gretl (gretl jest pakietem oprogramowania statystycznego), choć odnosi się to do wszystkich narzędzi, których używa (podkreślenie moje):
W gretl, będziemy w stanie zrobić to samo modelowanie, tak jak w R i Pythonie, ale nie będziemy musieli kodować. To jest właśnie najważniejsze. Niektórzy z was mogą już znać R bardzo dobrze, ale niektórzy mogą go w ogóle nie znać. Moim celem jest pokazanie wam, jak zbudować solidny model i dać wam ramy, które możecie zastosować w dowolnym narzędziu, które wybierzecie. gretl pomoże nam uniknąć ugrzęźnięcia w naszym kodowaniu.
Jeden z wybitnych recenzentów zauważył, co następuje:
Kirill jest najlepszym nauczycielem, jakiego znalazłem w sieci. Używa prawdziwych przykładów z życia i wyjaśnia wspólne problemy tak, że dostajesz głębsze zrozumienie pracy kursowej. On również zapewnia wiele wgląd w to, co to znaczy być naukowcem danych z pracy z niewystarczających danych aż do prezentowania swojej pracy do C-klasy zarządzania. Gorąco polecam ten kurs dla początkujących studentów do średnio zaawansowanych analityków danych!
Wspaniałe wprowadzenie skoncentrowane na Pythonie
- Intro to Data Analysis (Udacity)
Udacity’s Intro to Data Analysis to stosunkowo nowa oferta, która jest częścią popularnego Nanodegree Data Analyst Udacity. Obejmuje on proces nauki o danych w sposób jasny i spójny przy użyciu Pythona, choć brakuje mu nieco w aspekcie modelowania. Szacowany czas trwania to 36 godzin (sześć godzin tygodniowo przez sześć tygodni), choć z mojego doświadczenia wynika, że jest on krótszy. Ma 5-gwiazdkową średnią ważoną ocenę w dwóch recenzjach. It is free.
The filmy są dobrze wyprodukowane i instruktor (Caroline Buckey) jest jasne i spersonalizowane. Mnóstwo quizów programistycznych egzekwuje koncepcje poznane w filmach. Studenci opuszczą kurs pewni swoich nowych i/lub ulepszonych umiejętności w zakresie NumPy i Pandas (są to popularne biblioteki Pythona). Końcowy projekt – który jest oceniany i recenzowany w ramach Nanodegree, ale nie w darmowym kursie indywidualnym – może być miłym dodatkiem do portfolio.
Imponująca oferta bez danych do recenzji
- Data Science Fundamentals (Big Data University)
Data Science Fundamentals to seria czterech kursów oferowanych przez IBM’s Big Data University. Obejmuje kursy zatytułowane Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools oraz R 101.
Obejmuje pełny proces nauki o danych i wprowadza Python, R oraz kilka innych narzędzi open-source. Kursy te mają ogromną wartość produkcyjną. Szacuje się 13-18 godzin wysiłku, w zależności od tego, czy weźmiesz kurs „R 101” na końcu, co nie jest konieczne dla celów tego przewodnika. Niestety, nie ma danych o recenzjach na głównych stronach z recenzjami, które wykorzystaliśmy do tej analizy, więc nie możemy go polecić w stosunku do dwóch powyższych opcji jeszcze. Jest darmowy.
Konkurencja
Nasz wybór #1 miał średnią ważoną ocenę 4,5 na 5 gwiazdek w 3,068 recenzjach. Spójrzmy na inne alternatywy, posortowane według malejącej oceny. Poniżej znajdziesz kilka kursów skupionych na R, jeśli jesteś nastawiony na wprowadzenie w tym języku.
- Python for Data Science and Machine Learning Bootcamp (Jose Portilla/Udemy): Pełne pokrycie procesu z dużym naciskiem na narzędzie (Python). Mniej oparty na procesach, a bardziej na bardzo szczegółowym wprowadzeniu do Pythona. Niesamowity kurs, choć nie jest idealny dla zakresu tego przewodnika. Podobnie jak kurs Jose’s R poniżej, może być podwójnie wykorzystywany jako wprowadzenie do Pythona/R i wprowadzenie do nauki o danych. 21,5 godziny treści. Ma 4,7-gwiazdkowy średnia ważona ocena ponad 1,644 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Data Science and Machine Learning Bootcamp with R (Jose Portilla/Udemy): Pełne pokrycie procesu z dużym naciskiem na narzędzia (R). Mniej oparty na procesach, a bardziej na bardzo szczegółowym wprowadzeniu do R. Niesamowity kurs, choć nie jest idealny dla zakresu tego przewodnika. Podobnie jak kurs Pythona Jose, może być podwójnie wykorzystywany jako wprowadzenie do Pythona/R i wprowadzenie do nauki o danych. 18 godzin treści. Ma 4,6-gwiazdkowy średnia ważona ocena ponad 847 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Data Science and Machine Learning with Python – Hands On! (Frank Kane/Udemy): Częściowe pokrycie procesu. Skupia się na statystyce i uczeniu maszynowym. Przyzwoita długość (dziewięć godzin treści). Używa Pythona. Ma 4,5-gwiazdkową średnią ważoną ocenę ponad 3,104 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Wprowadzenie do Data Science (Data Hawk Tech/Udemy): Pełne pokrycie procesu, choć ograniczona głębokość pokrycia. Dość krótki (trzy godziny treści). Krótko obejmuje zarówno R, jak i Pythona. Ma 4,4-gwiazdkowy średnia ważona ocena ponad 62 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Applied Data Science: An Introduction (Syracuse University/Open Education by Blackboard): Pełne pokrycie procesu, choć nie równomiernie rozłożone. Mocno koncentruje się na podstawowych statystykach i R. Zbyt stosowane, a nie wystarczająco skoncentrowane na procesach dla celów tego przewodnika. Doświadczenie kursu online jest chaotyczne. Ma 4,33-gwiazdkową średnią ważoną ocenę z 6 recenzji. Free.
- Introduction To Data Science (Nina Zumel & John Mount/Udemy): Tylko częściowe pokrycie procesu, choć dobra głębia w przygotowaniu danych i aspektach modelowania. Dobra długość (sześć godzin treści). Używa R. Ma 4,3-gwiazdkowy średnia ważona ocena ponad 101 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Applied Data Science with Python (V2 Maestros/Udemy): Pełne pokrycie procesu z dobrą głębokością pokrycia dla każdego aspektu procesu. Przyzwoita długość (8,5 godziny treści). Używa Pythona. Ma 4,3-gwiazdkową średnią ważoną ocenę z 92 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Chcesz być Data Scientist? (V2 Maestros/Udemy): Pełne pokrycie procesu, choć ograniczona głębokość pokrycia. Dość krótki (3 godziny treści). Ograniczony zakres narzędzi. Ma 4,3-gwiazdkową średnią ważoną ocenę ponad 790 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Data to Insight: wprowadzenie do analizy danych (University of Auckland/FutureLearn): Zakres pokrycia niejasny. Twierdzi, że koncentruje się na eksploracji danych, odkrywania i wizualizacji. Nie jest oferowany na żądanie. 24 godziny treści (trzy godziny tygodniowo przez osiem tygodni). Posiada 4-gwiazdkową średnią ważoną ocenę z 2 recenzji. Darmowy z dostępnym płatnym certyfikatem.
- Data Science Orientation (Microsoft/edX): Częściowe pokrycie procesu (brak aspektu modelowania). Używa programu Excel, co ma sens, biorąc pod uwagę, że jest to kurs pod marką Microsoft. 12-24 godziny treści (dwie-cztery godziny tygodniowo przez sześć tygodni). Posiada 3,95-gwiazdkową średnią ważoną ocenę z 40 recenzji. Darmowy z certyfikatem dostępnym za $25.
- Data Science Essentials (Microsoft/edX): Pełne pokrycie procesu z dobrą głębokością pokrycia dla każdego aspektu. Obejmuje R, Python i Azure ML (platforma Microsoft do uczenia maszynowego). Kilka 1-gwiazdkowe recenzje powołując się na wybór narzędzia (Azure ML) i instruktora słabe dostawy. 18-24 godzin treści (trzy-cztery godziny tygodniowo w ciągu sześciu tygodni). Ma 3,81-gwiazdkową średnią ważoną ocenę z 67 recenzji. Darmowy z potwierdzonym certyfikatem dostępnym za 49 USD.
- Applied Data Science with R (V2 Maestros/Udemy): Towarzysz R do V2 Maestros „Python kurs powyżej. Pełne pokrycie procesu z dobrą głębokość pokrycia dla każdego aspektu procesu. Przyzwoita długość (11 godzin treści). Używa R. Ma 3,8-gwiazdkowy średnia ważona ocena ponad 212 recenzji. Koszt waha się w zależności od zniżek Udemy, które są częste.
- Intro to Data Science (Udacity): Częściowe pokrycie procesu, choć dobra głębokość dla tematów objętych. Brakuje aspektu eksploracji, chociaż Udacity ma świetny, pełny kurs na eksploracyjną analizę danych (EDA). Twierdzi, że ma 48 godzin długości (sześć godzin tygodniowo w ciągu ośmiu tygodni), ale z mojego doświadczenia wynika, że jest krótszy. Niektórzy recenzenci uważają, że brakuje wstępu do zaawansowanych treści. Sprawia wrażenie niezorganizowanego. Używa Pythona. Ma 3.61-gwiazdkowa średnia ważona ocena na podstawie 18 recenzji. Free.
- Introduction to Data Science in Python (University of Michigan/Coursera): Częściowe pokrycie procesu. Brak modelowania i wizualizacji, chociaż kursy # 2 i # 3 w Applied Data Science with Python Specialization obejmują te aspekty. Podjęcie wszystkich trzech kursów byłoby zbyt dogłębne dla celów tego przewodnika. Używa Pythona. Cztery tygodnie długości. Posiada 3,6-gwiazdkową średnią ważoną ocenę z 15 recenzji. Dostępne opcje darmowe i płatne.
- Data-driven Decision Making (PwC/Coursera): Częściowe pokrycie (brak modelowania) z naciskiem na biznes. Wprowadza wiele narzędzi, w tym R, Python, Excel, SAS i Tableau. Cztery tygodnie długości. Ma 3,5-gwiazdkową średnią ważoną ocenę z 2 recenzji. Dostępne opcje darmowe i płatne.
- A Crash Course in Data Science (Johns Hopkins University/Coursera): Niezwykle krótki przegląd pełnego procesu. Zbyt krótki dla celów tej serii. Dwie godziny długości. Ma 3,4-gwiazdkową średnią ważoną ocenę z 19 recenzji. Dostępne opcje darmowe i płatne.
- The Data Scientist’s Toolbox (Johns Hopkins University/Coursera): Niezwykle krótki przegląd pełnego procesu. Bardziej kurs przygotowawczy do specjalizacji Data Science na Uniwersytecie Johnsa Hopkinsa. Twierdzi, że ma 4-16 godzin treści (jedna-cztery godziny tygodniowo w ciągu czterech tygodni), choć jeden recenzent zauważył, że można go ukończyć w dwie godziny. Posiada 3,22-gwiazdkową średnią ważoną ocenę w 182 recenzjach. Dostępne opcje darmowe i płatne.
- Zarządzanie danymi i wizualizacja (Wesleyan University/Coursera): Częściowe pokrycie procesu (brak modelowania). Cztery tygodnie długości. Dobra wartość produkcji. Używa Pythona i SAS. Ma 2,67-gwiazdkową średnią ważoną ocenę z 6 recenzji. Dostępne opcje bezpłatne i płatne.
Następujące kursy nie miały recenzji w styczniu 2017 r.
- CS109 Data Science (Uniwersytet Harvarda): Pełne pokrycie procesu w wielkiej głębi (prawdopodobnie zbyt głęboko dla celów tej serii). Pełny 12-tygodniowy kurs licencjacki. Nawigacja po kursie jest trudna, ponieważ kurs nie jest przeznaczony do konsumpcji online. Rzeczywiste wykłady Harvard są filmowane. Powyższa infografika procesu nauki o danych pochodzi z tego kursu. Używa Pythona. Brak danych przeglądowych. Darmowy.
- Introduction to Data Analytics for Business (University of Colorado Boulder/Coursera): Częściowe pokrycie procesu (brakuje aspektów modelowania i wizualizacji) z naciskiem na biznes. Proces nauki o danych jest ukryty jako „Łańcuch wartości informacji i działań” w ich wykładach. Cztery tygodnie długości. Opisuje kilka narzędzi, ale tylko obejmuje SQL w głębi. Brak danych przeglądowych. Dostępne opcje darmowe i płatne.
- Wprowadzenie do nauki o danych (Lynda): Pełne pokrycie procesu, choć ograniczona głębokość pokrycia. Dość krótki (trzy godziny treści). Wprowadza zarówno R jak i Python. Brak danych przeglądowych. Koszt zależy od subskrypcji Lynda.
Wrapping it Up
Jest to trzecia część sześcioczęściowej serii, która obejmuje najlepsze kursy online umożliwiające rozpoczęcie pracy w dziedzinie nauki o danych. Objęliśmy programowanie w pierwszym artykule i statystyki i prawdopodobieństwa w drugim artykule. Pozostała część serii obejmie inne podstawowe kompetencje Data Science: wizualizację danych i uczenie maszynowe.
Jeśli chcesz się nauczyć Data Science, zacznij od jednej z tych klas programowania
Jeśli chcesz się nauczyć Data Science, weź kilka z tych klas statystyki
Ostatni kawałek będzie podsumowaniem tych artykułów, plus najlepsze kursy online dla innych kluczowych tematów, takich jak zarządzanie danymi, bazy danych, a nawet inżynieria oprogramowania.
Jeśli szukasz pełnej listy kursów online Data Science, możesz je znaleźć na stronie przedmiotu Class Central’s Data Science and Big Data.
Jeśli podobało Ci się czytanie tego, sprawdź niektóre z innych kawałków Class Central:
Oto 250 kursów Ivy League, które możesz wziąć teraz online za darmo
250 MOOCs z Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton i Yale.
50 najlepszych darmowych kursów uniwersyteckich online według danych
Gdy uruchomiłem Class Central w listopadzie 2011, było około 18 lub tak darmowych kursów online, i prawie wszystkie…
Jeśli masz sugestie dotyczące kursów, które przegapiłem, daj mi znać w odpowiedziach!
Jeśli uznałeś to za pomocne, kliknij ? aby więcej osób zobaczyło to tutaj na Medium.
Jest to skondensowana wersja mojego oryginalnego artykułu opublikowanego na Class Central, gdzie zawarłem dalsze opisy kursów, sylabusy i liczne recenzje.