9

2021年成为数据科学家最需要学习的7项技能

 3 years ago
source link: http://news.51cto.com/art/202101/638589.htm
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

介绍

虽然这篇文章可能更多的是轶事,但我觉得这篇文章分享了一个有价值的观点。我特别不是指从搜集来的招聘信息中获取的数据,因为从我的经验来看,职位描述和实际工作之间似乎有很大的脱节。

ZBnmEja.png!mobile

您可能会注意到,这七个技能中的任何一个都与机器学习或深度学习无关,这不是一个错误。当前,对在建模前和建模后阶段使用的技能有更高的要求。因此,最受推荐的七种学习技能实际上与数据分析师,软件工程师和数据工程师的技能重叠。

我写了一篇文章,专门介绍了为什么不应该首先学习机器学习的原因-您可以在下面查看:

SQL

SQL是数据世界中的通用语言。无论你是数据科学家、数据工程师还是数据分析师,你都需要了解SQL。

SQL用于从数据库中提取数据,处理数据和创建数据管道。本质上,这对于数据生命周期中几乎每个预分析/预建模阶段都很重要。

开发强大的SQL技能将使您能够将分析,可视化和建模提高到一个新的水平,因为您将能够以高级方式提取和操作数据。 而且,对于使用PB级数据的公司而言,编写高效且可扩展的查询变得越来越重要。

数据可视化

如果您认为创建数据可视化和讲故事特定于数据分析师的角色,那么请往下看。

数据可视化只是指以视觉方式呈现的数据-它可以采用图表的形式,但也可以采用非常规的方式进行呈现。

数据叙事使数据可视化更上一层楼-数据叙事是指"如何"传达见解。 可以把它想像成一本图画书。 一本好的图画书具有良好的视觉效果,但也具有将视觉效果联系起来的引人入胜且功能强大的叙述。

开发数据可视化和讲故事的技能至关重要,因为您始终以数据科学家的身份出售自己的想法和模型。 与其他不懂技术的人交流时,这一点尤其重要。

Python

从我的交流来看,Python似乎是学习首选编程语言。这并不意味着如果你使用R,你就不能成为一名数据科学家,但这只是意味着你将在一种不同于大多数人使用的语言中工作。

学习Python语法很容易,但您应该能够编写高效的脚本,并利用Python提供的大量库和包。Python编程是一个应用程序的构建块,如操作数据,构建机器学习模型,编写DAG文件等等…

PANDAS

可以说,用Python中最重要的库是Pandas,它是一个用于数据处理和分析的程序包。 作为数据科学家,无论您要清理数据,浏览数据还是处理数据,您都将一直使用此软件包。

Pandas之所以成为如此流行的软件包,不仅因为它具有功能性,而且因为DataFrames已成为机器学习模型的标准数据结构。

Git /版本控制

Git是技术社区中使用的主要版本控制系统。

如果那没有意义,请考虑以下示例。 在高中或大学中,如果您不得不写一篇论文,则在进行过程中可能会保存不同版本的论文。 例如:

Final Essay 
└Essay_v1 
└Essay_v2 
└Essay_final 
└Essay_finalfinal 
└Essay_OFFICIALFINAL 

Git是一个功能相同的工具,只是它是分布式系统。 这意味着文件(或存储库)既存储在本地也存储在中央服务器中。

Git非常重要,其原因有以下几个:

  • 它允许您还原到旧版本的代码
  • 它使您可以与其他数位数据科学家和程序员并行工作
  • 即使您正在开发一个完全不同的项目,它也可以使您使用与其他代码库相同的代码库

Docker

Docker是一个容器化平台,可让您部署和运行应用程序,例如机器学习模型。

数据科学家不仅知道如何构建模型,而且也知道如何部署模型,这一点变得越来越重要。 实际上,许多职位招聘现在需要在模型部署方面有一定经验。

学习如何部署模型如此重要的原因是,在将模型与与其关联的流程/产品进行实际集成之前,它不会产生任何商业价值。

Airflow

Airflow是一种工作流程管理工具,可让您自动化…良好的工作流程。 更具体地说,Airflow允许您为数据管道和机器学习管道创建自动化的工作流。

Airflow功能强大,因为它使您可以将要用于进一步分析或建模的表格进行生产化,并且它也是可用于部署机器学习模型的工具。

谢谢阅读!

我希望这有助于指导您的学习,并为您提供新年的方向。 有很多东西要学习,所以我肯定会选择一些听起来最有趣的技能,然后再去学习。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK