数据科学家的武器库中有哪些相关技能?随着每天都有新技术的出现,人们如何挑选必需品?
与此讨论密切相关的一些想法:
知道SQL和使用MySQL之类的数据库,PostgreSQL在NoSql和非关系数据库出现之前是很好的.MongoDB,CouchDB等越来越受欢迎,可以处理网络规模的数据.
知道像R这样的统计工具足以进行分析,但是要创建应用程序,可能需要将Java,Python和其他类似工具添加到列表中.
数据现在以文本,网址,多媒体的形式出现,仅举几例,并且有与其操作相关的不同范例.
那么集群计算,并行计算,云,Amazon EC2,Hadoop呢?
OLS回归现在有人工神经网络,随机森林和其他相对奇特的机器学习/数据挖掘算法.对于公司
思考?
引用哈德利博士论文的介绍:
首先,你在表单中的数据,您可以用...第二个工作,你绘制的数据得到什么时...三去的感觉,你的图形和模型之间重复建设的简要总结定量数据......最后,您回顾一下您所做的工作,并考虑将来需要做哪些更好的工具
步骤1几乎肯定涉及数据调整,并且可能涉及数据库访问或网络抓取.了解创建数据的人员也很有用.(我在'网络'下提出这个问题.)
第2步意味着可视化/绘图技巧.
第3步意味着统计或建模技能.由于这是一个愚蠢的广泛类别,委托给建模者的能力也是一项有用的技能.
最后一步主要是关于内省和管理型技能等软技能.
问题中也提到了软件技能,我同意它们非常方便. Software Carpentry拥有您应具备的所有基本软件技能的良好列表.
只是为其他人提出一些想法来阐述:
在一些可笑的高级抽象中,所有数据工作都涉及以下步骤:
数据采集
数据存储/检索
数据处理/合成/建模
结果报告
故事讲述
数据科学家至少应该在这些领域中至少掌握一些技能.但根据专业,可能会在有限的范围内花费更多的时间.
JD很棒,而且对于这些想法更深入一点,请阅读Michael Driscoll的精彩帖子The Data Sexy of Data Geeks:
技巧#1:统计学(学习)
技能#2:数据捣乱(苦难)
技巧#3:可视化(讲故事)
在数据集中,问题通过一个很好的维恩图以一般方式解决:
JD点头:故事讲述.虽然他确实忘记了其他重要的故事:为什么你在这里使用<插入花式技术>的故事.能够回答这个问题是你可以发展的最重要的技能.
其余的只是锤子.不要误会我的意思,像R这样的东西很棒.R是一整包锤子,但重要的是知道如何使用你的锤子以及诸如此类的东西来制造有用的东西.