如果你不确定数据科学课程入门涵盖什么,这篇文章将向你介绍。
为了制作这份指南,我花了10多个小时设法识别了截至于2017年1月所有的数据科学的线上入门课程,从它们的大纲和评价中提取关键信息,并为它们编制评级。除了开源的Class Central 社区和它数以千计的课程评分及评论的数据库,我没有借助其他任何帮助。
Class Central的主页
自2011年以来,Class Central的创始人Dhawal Shah无疑比世界上的任何其他人都关注在线课程。他亲自帮我列出了这份资源清单。
如何挑选入围课程
每门课程必须满足三个标准:
- 它必须教授数据科学过程(data science process),稍后会做出解释。
- 它必须随需应变或每几个月就推陈出新。
- 它必须是互动的在线课程,而不是书本或只能阅读的教材。虽然学习有很多种方式,但是这份指南主要专注于课程。
我们确信这个指南已经涵盖了满足以上三个标准的所有重要课程。Udemy上有上百种课程,因此我们只选择那些评论最多和评分最高的课程。然而,我们仍然有可能百密一疏。所以如果我们漏掉了哪个不错的课程,请在评论区里告知。
我们如何评估课程
我们汇总从Class Central和其他评论网站得来的平均评级和评论数量,来计算每门课程的加权平均评分。同时我们阅读文本评论,并将其作为数据评分的补充。
我们基于以下两点对教学大纲进行主观判断:
- 数据科学过程的覆盖面。课程是否将某个主题简略带过或干脆跳过不说?是否对某个主题又倾注了太多的细节?在下个章节可以看到这些过程的具体内容。
- 通用数据科学工具的使用。课程是不是使用Python和/或R语言等主流编程语言?虽然这些并不是必须的,但多数时候有益,因此我更偏爱这类课程。
Python和R语言是数据科学领域最主流的两种编程语言
数据科学过程(data science process)是什么?
数据科学是什么?数据科学家做些什么?这是数据科学入门课程需要回答的基本问题。下面这张来自哈佛大学教授Joe Blitzstein和Hanspeter Pfister的示意图,概述了典型的数据科学过程,可以帮助我们回答这些问题。
可视化来自于Opera Solutions
我们对于数据科学入门课程的目标是熟悉数据科学过程,并不想对过程的某个方面涉入过深,这也是为什么标题使用了“入门”字眼的原因。
对于每一方面,理想的课程都会在过程的框架内解释关键概念,介绍常用工具,并提供一些案例(动手操作会更好)。
我们只搜集入门课程,因此这份指南并不包括像约翰霍普金斯大学在Coursera的Data Science Specialization或是Udacity上的Data Analyst Nanodegree这样的专项课程或项目。这些课程的汇编与这份指南的目的相悖:为数据科学教育寻求每个方面最好的单独课程。本系列文章的最后三份指南,将详细介绍数据科学过程中的每个方面。
基本的编程、统计和概率背景是必须的
下面列出来的一些课程需要基础的编程、统计和概率背景。这个要求很容易理解,因为新的内容为进阶阶段,而且这些主题经常要用到这些背景知识。
这些背景知识可以在这份我们推荐的数据科学就业指南的前两章(编程,统计)中获得。
我们认为最好的数据科学入门课程是——
- 数据科学从A到Z:现实生活中的数据科学(含练习)(Kirill Eremenko/Udemy)
在我们评估的20多门数据科学课程中,Kirill Eremenko在Udemy上的“数据科学从A到Z”不管从广度还是深度上来说都是当之无愧的赢家。它拥有3071条评论,4.5星的加权平均评分,是评分最高、评论最多的入围课程。
它概述了完整的数据科学过程,并提供了真实案例。视频内容为21小时,长度刚好。评论者们喜欢导师的讲解方式和内容组织方式。价格经常会跟着Udemy的优惠而变化,因此你也有可能以10美金的低价购买到该课程。
虽然它并不满足我们“使用通用数据科学工具”的评估原则,但是非Python/R工具的应用(gretl, Tableau, Excel)也都算恰如其分。Eremenko在解释他为什么用gretl(一种统计软件包)时说了以下这段话,这个解释也适用于他所使用的其他工具(敲黑板划重点!):
使用gretl,我们可以像在R和Python中一样建模,但却不必编程。这很重要。你们中的一些人可能已经很熟悉R语言,但还有一些人可能不。而我的目标是向你们展示如何建立稳定的模型,并且给你一个可以应用于任何工具的框架。gretl能够帮助我们避免于纠结编程。
一个著名的评论者是这样写的:
Kirill是我在线上发现的最好的老师。他通过生活中的案例向你解释一些常见问题,这样你就能对课程作业有更深的理解。他还提供了很多关于作为一个数据科学家意味着什么的洞见,从如何处理不充分的数据到向高级管理层汇报工作等。我强烈建议初级和中级数据分析师们学习这门课程。
“数据科学从A到Z”预览视频
专注于Python的精品入门课程
- 数据分析入门(Udacity)
Udacity的数据分析入门(Intro to Data Analysis)是门新上线的课程,是受欢迎的Data Analyst Nanodegree系列中的一部分。虽然在建模方面有所欠缺,它仍然清晰地涵盖了使用Python的数据科学过程。预估课程时间是36个小时(跨度六周,每周六小时),尽管以我个人经验看会更短。它仅有1个5星好评(译者安:现在有两个),并且免费。
该课程的视频制作精良,导师(CarolineBuckey)思维清晰、风度翩翩,有大量的编程小测验可以强化人们在视频中学到的概念和知识。课程完成后,学生们会为他们新学和/或提高的NumPy和 Pandas(这两个都是流行的Python库)技能感到自信。最后的作业(在这个单独的免费课程中没有,但是会在Nanodegree中得到评分和评估)是一个很好的额外补充。
Udacity导师Caroline Buckey
概述了数据分析过程(也叫数据科学过程)
一门很不错却没有评价数据的课程
- 数据科学基础(大数据大学Big Data University)
数据科学基础是由IBM的大数据大学(Big Data University)提供的有四门课的系列课程。这四门课分别是数据科学101、数据科学方法论、使用开源工具开始学习数据科学,以及R语言 101。
它涵盖了整个数据科学过程,并介绍了Python、R以及其他开源工具。课程的实用价值惊人。估计需要13-18小时学习时间,具体取决于你是否参加最后一门“R 101”。当然,从这份指南的目的来说,这门课也不是必须。不幸的是,我们用于这次分析的主要评论网站上竟然一个评价都没有,因此我们无法基于评论做出评价,不过这个课程是免费的。
来自大数据大学(Big Data University)
数据科学101课程(数据科学基础系列课程)
第一模块的视频
第一名是加权评分4.5星评论超过3068条的课程。下面我们按评分降序排列来看看其他值得一学的课程。如果你对R语言感兴趣,你还能在下面找到重点教授R语言的课程。
- Python数据科学与机器学习训练营(Jose Portilla/Udemy):着重于介绍工具使用(Python),课程覆盖了数据科学的全过程,较少关注流程本身,更关注对Python的细节介绍。虽然并不完全符合本文的讨论范围,但依然是很赞的课程。和下面介绍的Jose的R课程一样,该课程同时介绍了Python/R和数据科学。该课程包含21.5小时的学习内容,1644条评价,综合评分4.7。课程价格取决于Udemy的打折力度,经常变化。
- R语言数据科学与机器学习训练营 (Jose Portilla/Udemy):着重于工具使用(R),课程覆盖了数据科学的全过程。较少关注流程本身,更关注对R的细节介绍。虽然并不完全符合本文的讨论范围,但依然是很赞的课程。和上面介绍的Python课程一样,该课程同时介绍了Python/R和数据科学。该课程包含18小时的学习内容,847条评价,综合评分4.6。课程价格取决于Udemy的打折力度,经常变化。
Jose Portilla在Udemy上
设置了两个分别使用Python
和R的数据科学与机器学习的训练营
- Python数据科学和机器学习(实战)(Frank Kane/Udemy):仅涵盖部分知识点。专注于统计学和机器学习,长短适宜(约9个小时),语言为Pyhton。该课程拥有3104条评论,综合评分4.5。课程价格取决于Udemy的打折力度,经常变化。
- 数据科学入门(Data Hawk Tech/Udemy):课程覆盖了数据科学的全过程,但深度有限,相当简短(仅3个小时),包含简单的R和Python介绍。该课程有62条评论,综合评分4.4。课程价格取决于Udemy的打折力度,经常变化。
- 数据科学应用入门(雪城大学/Open Education by Blackboard):课程覆盖了数据科学的全过程,但不够均衡。该课程重点关注基础统计学和R语言,特别注重应用不够关注数据科学的过程,与本指南的宗旨不符。在线课程体验不够连贯。该课程有6条评论,综合得分4.33,免费。
- 数据科学入门(Nina Zumel & John Mount/Udemy):仅涵盖部分知识点,但在数据清洗和建模方面讲解深度到位。课程长度适中(6小时),使用的是R语言。该课程有101条评论,综合得分4.3分。课程价格取决于Udemy的打折力度,经常变化。
- 使用Python的数据科学应用(V2 Maestros/Udemy):课程覆盖了数据科学的全过程,并且课程设置的每个方面都有相当的深度。长短适宜(8.5小时),使用的语言为Python。该课程有92条评论,综合评分4.3分。课程价格取决于Udemy的打折力度,经常变化。
V2 Maestros的数据科学应用课程
有两个版本,一个使用Python,一个使用R。
- 想成为数据科学家?(V2 Maestros/Udemy):课程覆盖了数据科学的全过程,但是课程深度有限。课程时间很短(3小时),涉及的工具有限。该课程获得790条评论,综合评分4.3分。课程价格取决于Udemy的打折力度,经常变化。
- 洞见数据:数据分析入门(奥克兰大学/FutureLearn):暂不清楚课程覆盖广度。该课程宣称专注于数据探索、发现和可视化。不按需提供课程内容,课程内容为24小时(每周3个小时,总共8周)。该课程累计获得2条评论,综合评分4分。课程免费,可付费获得认证证书。
- 数据科学入门培训(Microsoft/edX):仅覆盖部分知识点(缺少数据建模部分)。使用的是Excel,鉴于这是微软认证的课程,也可以理解。课程包含12-24小时的内容(每周2-4小时,总共6周)。该课程获得40条评论,综合评分3.95。课程免费,可付25美元获得认证证书。
- 数据科学基础 (微软/edX):课程覆盖了数据科学的全过程,并且每个部分都有相当的深度。课程涵盖了R、Python以及Azure ML(微软的机器学习平台)。有很多1星评价给到该课程使用的糟糕的工具(Azure ML))以及导师差劲儿的授课能力。该课程获得67条评论,综合评分3.81分。课程免费,但想要认证证书需要支付49美元。
上面两个课程来自于微软的
在edX上的“数据科学专业认证”
- 使用R语言的应用数据科学 (V2 Maestros/Udemy):与之前V2 Maestros的Python课程类似。课程覆盖了数据科学的全过程,并且有相当的课程深度。课程长度适宜(11小时),使用的语言为R语言。该课程有212条评论,综合得分3.8。课程价格取决于Udemy的打折力度,经常变化。
- 数据科学入门(Udacity):仅覆盖部分知识点,虽然覆盖的课程具有相当的深度。该课程缺少数据探索部分,尽管Udacity在探索性数据分析(EDA)方面提供一个高质量的完整课程。该课程要求48小时的学习时长(每周6小时,总计8周),但以我的经验来说实际会比48小时短。有评论认为课程缺乏高级内容。感觉讲述比较零散,使用的语言为Python。该课程有18个评论,综合得分3.61。课程免费。
- 使用Python的数据科学入门(密歇根大学/Coursera):仅涉及部分知识点。缺少建模和可视化部分,尽管在课程“专注Python的应用数据科学”的#2和#3部分覆盖了这两部分内容,但是学习所有三门课程对于本文来说过于深入了。使用的语言是Python。课程时长为4周。该课程有15条评论,综合得分3.6分。包含免费和付费选项。
密歇根大学在Coursera上教授
“专注Python的应用数据科学”
- 数据驱动决策 (普华永道/Coursera):仅涉及与商业有关的部分知识(缺少建模部分)。介绍了多种工具,包括R、Python、Excel、SAS以及Tableau。课程时长4周,获得2条评论,综合得分3.5分。包含免费和付费选项。
- 数据科学速成(约翰霍普金斯大学/Coursera):对数据科学全过程的一个非常简明的概括。但对本指南来说太过于简明了。课程时长2个小时。该课程得到19个评论,综合评分3.4分。包含免费和付费选项。
- 数据科学家的工具箱(约翰霍普金斯大学/Coursera):对数据科学全过程的一个非常简明的概括。可看作是针对Johns Hopkins大学数据科学专业的基础课程。宣称的课程时长为4-16小时(每周1-4小时,总共4周),但有评论提到该课程2小时即可完成。该课程获得182个评论,综合评分3.22分。包含免费和付费选项。
- 数据管理与可视化(卫斯理大学/Coursera):仅涉及部分知识(不包含建模)。课程时长4周,高价值产出。使用Python和SAS。该课程有6条评论,综合得分2.67分。包含免费和付费选项。
下列课程截至2017年1月没有任何评论。
- CS109 数据科学(哈佛大学):课程覆盖了数据科学的全过程并有不错的课程深度(对于本指南来说可能有点过于深奥了)。该课程是完整的12周本科生课程。课程方向很难,因为起并不是针对在线教学而设计的。这是哈佛大学课程的实际录像。以下数据科学流程信息图就来源于该课程。使用的是Python,没有评论数据,课程免费。
图片来源于Harvard CS109的首页
- 商业数据分析入门 (科罗拉多大学博尔德分校/Coursera):仅涉及部分知识点(缺少建模和可视化部分),重点关注商业。在他们的课程中,数据科学过程被称为“信息-行动价值链”(“Information-Action Value chain”)。课程时长为4周。课程讲述了不少工具,但仅深度覆盖了SQL。没有评论数据,包含免费和付费选项。
- 数据科学入门(Lynda):课程覆盖了数据科学的全过程,但是深度有限。时长很短(3小时)。课程介绍了R和Python。没有评论数据。具体课程费用由Lynda决定。
评论0