博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据科学家要掌握的第一门编程语言是什么?
阅读量:2088 次
发布时间:2019-04-29

本文共 1722 字,大约阅读时间需要 5 分钟。

全文共
1682字,预计学习时长
3分钟

 

 

如果你试图在数据科学领域有所突破,又没有足够的闲暇时间,应该先学习哪种语言才能最大限度地扩展你的工作机会?

 

数据科学的三大编程语言

 

我们观察了2019年4月22日到2019年5月5日之间在LinkedIn上发布的四个英语国家(澳大利亚,加拿大,英国和美国)的100个数据科学招聘广告。这些被精心挑选的招聘广告极具代表性:雇主类型,行业,规模和工作水平,以及单纯的管理者都没有被考虑。

可以根据数据科学招聘广告被提及的比例来确定数据科学的排名前10的编程语言。如下图所示:

 

 

从中可以看出,到目前为止,Python、R和SQL是数据科学最需要的三种语言。毫无意外。

 

然而,如果进一步分析并考虑不同工作级别对每种语言的需求层次,一切将变得十分有趣。

 

在提取的100个数据科学招聘广告中,有15个是入门级角色(定义为“初级”,“研究生”,“实习”或标题中的类似角色); 44人担任中级职务; 41人担任高级职务(在职称中定义为“高级”,“主管”,“领导”或类似职位)。

 

下面的图表显示,随着工作资历的渐长,能否使用Python或R编程变得更加重要。而能够在SQL中编程的能力变得不那么重要了。

 

 

这表明,从长远来看,你学习R或Python要比SQL好得多。

 

但为什么会这样呢?为什么对于资深数据科学家而言,在SQL中编程的能力显得并不重要?

 

SQL,R和Python之间的主要区别

 

R和Python都是通用编程语言,附加软件包允许用户执行数据科学的大部分技术要求,包括统计分析和机器学习。

 

随着工作水平的提高,能够执行机器学习和统计分析变得越来越重要,因此了解执行这些任务所需的语言也变得更加重要。

 

另一方面,SQL是专门用于查询和操作关联数据库中数据的数据库语言。

 

雇主通常会要求SQL技能,因为他们将数据保存在关系数据库中,并希望自己的数据科学家能够了解并访问它们。然而,一旦获取了给定任务所需的数据,那么SQL的角色几乎就结束了。

 

虽然各级数据科学家都应该能够提取和为自己的数据争论,但随着工作年资的增加,这些技能变得(相对)不那么重要。在一个足够大的组织中,高级数据科学家甚至可能有更多的初级数据科学家为他们提取和准备数据,由此他们可以更专注于让任务价值最大化,例如模型开发。

 

因此,R和Python可以看作是数据科学的两种真正的语言,而SQL只是提供支持(除此之外,还有多个专门为Python和R编写的数据包,允许用户在这两种语言中运行SQL)。

 

R还是Python?

 

如果你计划从事数据科学行业,最理想的情况应该是同时学习Python、R和SQL三种语言。

 

学习这三种方法不仅可以让你未来可期还有和其他数据科学家互动的机会,此外还能充分利用每种语言的不同优势,选择适合工作的最佳语言。

 

但是,如果你希望转行到数据科学,并希望尽快进入作为一个数据科学工作者的角色,那么最好掌握一种语言并学习如何使用它来卓有成效地执行各种任务,而不是学习如何在多种语言中执行一组较小的任务(或同一组任务,这不太好)。

 

此外,支持大多数编程语言的原则(例如函数,for和while循环,if / else语句和变量类型)或多或少都是通用的,所以一旦掌握了一种语言,你会发现在之后掌握第二种(或第三种)语言会轻巧许多。

 

在前半部分的讨论基础之上,如果必须选择一种语言,那么雇主的需求表明Python是更建议也更可行的方式。

 

然而,在选择数据科学的编程语言时,雇主的需求并不是唯一需要考虑的因素。在做出最终决定之前,问自己一些问题包括:

• 其他人使用何种编程语言?

• 此语言有何用途?

• 未来呢?

• 你最喜欢哪种编程语言?

• 专有语言怎么样?

 

 

留言 点赞 关注

我们一起分享AI学习与发展的干货

 

编译组:黄雪娇、何孟琛

相关链接:

https://towardsdatascience.com/which-programming-language-should-data-scientists-learn-first-aac4d3fd3038

如需转载,请后台留言,遵守转载规范

 

长按识别二维码可添加关注

读芯君爱你

你可能感兴趣的文章