35

​2020年,四步突破数据科学

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI2NjkyNDQ3Mw%3D%3D&%3Bmid=2247492457&%3Bidx=1&%3Bsn=fefa455a7965e7ed82f85caec2ebb87c
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

EjyQZvZ.jpg!web

全文共 2357 字,预计学习时长 7 分钟

a2Yz2qf.jpg!web

来源:Pexels

这没什么问题,但你很可能列出一张事无巨细、耗时费力、近乎难以实现的目标清单,让你应接不暇,而且很有可能失去动力,因为 实在是有太多任务了

如果打算今年进入数据科学领域,这是个很棒的决定。 该领域广受认可,而且好找工作,工资也不错,就连管理部门也慢慢意识到数据科学是不可或缺的。

不过在开始之前,请允许我说些打击的话(有必要说): 用一年的时间去学数据科学的所有内容是不够的。

别误会,一年的时间足够你找到第一份工作,但不可能一步登天,从零成为数据科学团队的领头人(如果做到了,请在评论区分享你的故事)。

说了这么多,来探索必备技能以及满足你上手操作的技能。

1.数据库?

我们分析的数据很可能出自某个数据库,这是不同于书籍或课程的典型情况——不会获得格式正确的CSV文件。 通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。

如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难度东西。 在这种情况下,SQL的任务很大程度上依靠的是结合几组表格,在上面进行分析。

这个过程要花的时间取决于使用方式以及先验知识,但新手在这里花的时间不会超过一个月。

2.现在来谈谈数据科学 

IRRruyQ.jpg!web

来源:Pexels

如果按照上面的每一步来,还没有先验知识,此时可能是2020年的8月或9月。 时间已经过去很多了,但你已经具备寻求第一份工作的所有先决条件。

不是所有都要刚刚好。

要找一份数据科学的工作,目前也只提了先决条件。 后面这两个月,建议对一些基础的数据分析和可视化库有所了解,如:

l  Numpy

l  Pandas

l  Matplotlib

l  Scipy

l  Statsmodels

这是在你不懂的情况下(如果不知道为何需要这些知识的话学起来会感到无聊)。

不要走马观花式看课程,到网站上下载数据集然后完整地分析。 再到网上看其他人对于同一数据集是如何处理的,看自己怎么改进。

同样,在这两个月时间内,应该熟悉一些机器学习的算法,如:

l  线性回归(Linear Regression)

l  逻辑回归(Logistic Regression)

l  分类与回归树(Classification and Regression Trees)

l  KNN(k-NearestNeighbor,K最近邻分类算法)

l  朴素贝叶斯分类(Naive Bayes)

l  SVM(Support Vector Machine,支持向量机)

也许实际操作中不会用到这些,但它们是日后学习更多高级算法XGBoost和神经网络(Neural networks)的基础。 有了分析数据库,记得不要只顾着跟教程,而要自己完成高质量的任务。 如果你喜欢,尝试用Numpy从零开始运用算法,不过并不强制大家。

3. 编程呢?

QJVJbuN.jpg!web

来源:Pexels

没错,数据科学离不开编程技能。 如果找到一份工作,但不会写代码,你很可能知道自己该做什么却不知从何下手,也有可能会经历SOCPS(一种不知道怎么写代码就从Stack Overfow网站上复制粘贴的综合症),甚至不看问题和答案。

在网上搜索更好的解决方案是可以的,但应该知道怎么自己写出一套基本方案。

之前从没写过的话,可以从小入手,读读有关Python或R的书籍及其在数据科学中的角色,先有个全面的了解,再深入学习语法。 不用担心要记所有的内容,能确保在遇到困难时该朝哪个方向看就行。

要是已经读过相关书籍或上过讲编程的课也了解语法,就是不知道怎么解决问题,那就花些时间学学算法和数据结构。 同时看一些常规的编码问题采访,这些会让你“文思泉涌”。

对自己的编程技能很满意对吗? 那可太棒了! 现在腾点时间给分析库——Numpy和Pandas库。

每个人在编码上花的时间也不同。 新手小白和仅需了解库的知识的人就不一样。 可以说完全不懂的人3-4个月的时间足矣,如果是只需学习库的知识的人,大概1个月的时间就可以。

4.提高数学技能

你一定听说过数据科学首先要求优秀的数学能力。 要了解的数学知识因工作岗位而异,至于入门需要掌握多少,笔者给出的回答是: 没你想得多。

且听我一一叙述。 初学者会试图掌握任何相关领域的知识,比如说计算、线性代数、概率计算或统计学,但必须见好就收。

可别误会了,倘若你有的是时间,那就成为上述领域的专家,否则就不要浪费时间。 作为刚步入该领域的初级数据科学家,不仅要了解数学知识,更多是在直观层面。 要知道特定的场合进行什么操作,这就是直觉发挥作用的时刻,但无需花太多时间着手解决复杂的数学问题。

只要悟性强,明白怎么编码,就足够了。 找到工作后你将有大把的时间钻研数学,所以没必要提前学所有的东西。

如果没有高数基础,不建议花2-3个月的时间提升数学技能。

iIBNJjb.jpg!web

来源:Pexels

接下来呢?

2020年剩下几个月的时间里,创建个GitHub账户(a),放上最好的分析报告或机器学习算法,提供给潜在的雇主看。 同时准备一份漂亮的简历和求职信。

倘若真的喜欢,发表一篇有关学习历程的博客。 网上的呈现只会在职业发展中对你有帮助,前提是别发无用的信息,但我相信你的判断力。

就是这样了,赶紧给理想的公司投简历吧。

UZbAzej.jpg!web

推荐阅读专题

mMby2iU.jpg!web

iYjIniQ.jpg!web

IjUZ322.jpg!web

jmyiMne.jpg!web

Nbqmy26.jpg!web

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组: 孙梦琪、蔡思齐

相关链接:

https://towardsdatascience.com/4-steps-to-break-into-data-science-in-2020-4750418c726c

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

2ABbUry.gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK