数据科学家:神话 & 超能力持有者,数据科学家神话


       一个打破神话的季节,正在降临。
       我将坦诚地揭穿人们关于数据科学家所持有的惯有看法。在下文中,我将一个一个展示这些观点,犹如将一个又一个的玻璃瓶子摔碎在墙壁上一样。
       关于数据科学家的神话主要是这些:

       神话#1: 数据科学家们本身就是一种神秘生物,就像独角兽一样神秘叵测。

       数据科学家实际上是非常真实的。从人们开始进行多元统计分析、时间序列分析和运用其他核心分析方法时,他们就已经存在了。在某种程度上,如果你建立模型,并使用各种分析工具来找寻那些不显著的数据模型,那么你或许也是一位数据科学家了。

       神话#2: 数据科学家门只是一群稀有的“精英”理论家。

       实际上,数据科学家们只是那些在勤奋工作的白领们的一种。每天,他们洁净的指甲因为大量地移动来自世界各地的原始数据而污迹斑驳,这些数据需要倾倒到分析沙漏中,清洗和筛选,最终才能找到可能存在的模型。当新的数据出现时,又会再次被倒入到沙箱中,循环之前的过程。这是一项极其细致、繁重的工作,他们并不是只坐在扶手椅上思考的数据哲学家。

       神话#3: 数据科学家是某种新时尚,很快就会消失。

    “数据科学家”这个包罗万象的名称,已经存在许多年了,各种先进的分析工具——统计分析、数据挖掘、预测建模以及更久远的分析工具都可以归入其中。在过去的几年中,分析专家们越来越倾向于使用“数据科学家”这个名称来指代引入了新规则的不同学科的融合,例如行为分析、情感分析和图标分析——在这个数字渠道与传媒盛行的时代中,“数据科学家”便顺理成章地成为了炙手可热的宠儿。而数字科学家们的工作日程也随之日趋增多,与之相关的专业论坛和学术课程在过去几年中正以不可否认的速度增长着。目前的招聘趋势也再次证明了这一点。这不是时尚而已。

       神话#4: 数据科学家都是未任职的统计学博士或粒子物理学家。

       当然,许多数据科学家第一次进行数据分析、建模还是在大学中。但很多人之后又运用这些知识去继续学习了实质性的学科,例如,工商管理、经济学、金融和工程学。您在工作领域所遇到的大多数数据科学家实际上是业务领域的专家,而不是对数学痴迷的“宽克”或者对算法狂热的的“行家”。他们只是对统计建模十分精通。

       神话#5: 数据科学家只是长期的商业智能(BI )专家,雇主给他们一个漂亮的称号来代替加薪。

       当然,许多长期的BI高级用户在某种程度上就是数据科学家,他们是业务领域的专家,工作涉及了多变量分析、预测、假设建模和仿真。那些希望更深入地进入到细分、决策树分析、倾向建模、预测分析和其他数据科学技术的人也在重新塑造自己。但是绝大多数传统的BI专家们,它们主要是专注于历史的,描述性分析,他们也从来没有掩饰自己不属于数据专家。尽管如此,许多人知道如果不跟上与大数据科学相关的Hadoop,预测建模和图标分析的话,它们很容易被行业淘汰。

       神话#6: 数据科学家从任何意义上来说都不是科学家。

       每一个真正的科学家也一定是数据科学家的一种,虽然不是所有宣称自己是数据科学家的人真的名副其实。真正的科学家必须要观测数据。如果没有精细的筛选、选择、构建、分类、分析,最终呈现数据的能力,科学家将不能把对于事实本质的调查联通起来,正如批评家所说,没有深入到数据中心的科学家不能有效地捍卫他所发现的东西。统计管理是真正的科学的基石,同样,实验控制是许多学科的标志;如果数据科学家在探索诸如人们购买习惯这样的问题,运用了统计管理和实验控制来证明了他们的发现,那么他们已经是平凡而简单的数据科学家了。

       神话#7数据科学家需要花哨的,昂贵的,复杂程度令人咂舌的统计学工具才能完成他们的工作。

       这绝对不是事实。从根本上来说,数据科学家的工作是去寻找隐藏的模式。他们通过友好用户可视化工具,通过自助的搜素式BI工具, 通过交互式数据开采工具,以及其他一些不需要深入掌握统计分析的就可运用的方式来完成自己的研究。在市场上,价格划算的探索性工具BI有许多的供应商,例如IBM Cognos. 全球业务分析超级用户可以从一个植入在普通电子表格中的应用程序的模型特性中得出非凡的见解。

      神话#8数据科学家仅仅是把大量数据扔入到Hadoop集群中,然后再利用Pig and MapReduce的分布式计算,最终,令人大呼过瘾的见解就会宛如喷泉般得涌出。

       欧,兄弟!数据科学家将会第一个告诉你,Hadoop只是一个用于深入探索的平台。Hadoop的能力其实与企业数据仓库、传统的数据挖掘平台以及其他的数据库内分析平台别无二样。这些可不是是什么通灵牌——大数据的精灵会开口与我们这些凡人说话呢。Hadoop和其他数据平台只是一个用于分析的工作平台,数据科学家可以借助它来进行深度的数据调查。

      (注:本文由OCCS软件云工厂编译,转载请注明出处。)


谁是大数据科学家?麻烦告诉我

这个近乎令人费解的数据量来源主要包括:应用、社会媒体网站、YouTube及其他视频网站、网络搜索引擎、交易数据以及机器对机器交易,其中机器对机器(M2M)交易产生的数据量占比与日俱增。诸如此类的数据于是得名“大数据”,大数据使得一些机构通过对其进行分析,了解发展趋势并帮助自身改善服务、推出新产品、解决老问题和提高生产率。 而问题是公司现在真的有必要花高价聘请大数据分析员,或请数据专家分析大数据吗?大数据分析软件的发展真的足够先进吗? 负责IBM澳大利亚和新西兰战略转型的领导人格雷汉姆·基特尔表示,大数据爆发后需要分析人员,其中数据专家至关重要,因为数据专家能给出解析数据所需要的正确指引。解析数据不仅仅是将大数据从传统数据仓储中调出来那么简单。 据Forrester调研公司估计,得到有效应用的数据不足总量的百分之五,究其原因主要是因为缺乏培训和技能。 “传统的数据建模师(具备营销技能)都有资格成为数据科学家,”基特尔先生说。 麦肯锡全球研究院预计,到2018年仅美国国内对有数据分析专长的工作人员需求量将增加19万,对精通数据的经理需求量增加150万。目前在相关领域和像Kaggle这样的公司工作的已有成千上万的数据科学家和统计学家,但对这类人才仍有更多需求。 就连澳大利亚SAS分析软件公司的首席分析人员伊万·斯塔布也预计全球范围内将出现数据学家的用人荒。他说:“软件可以进行信息处理,但是还要依赖那些懂得如何应用数学学科才能的数据学家来解析数据。 他认为一位优秀的数据学家能给公司带来巨大优势,帮助公司制胜对手。他说道:“数据学家对从数据进行推测十分感兴趣。优秀的数据学家的成就是长久的,并且他愿意进行各种各样的常是。一般他们都是跨学科通才,比如在数学和语言学上都有所研究。语言学对社交媒体而言十分重要,因为社交媒体会设定词组捕捉,以自动分析用语频率。而且,数据学家对于自己所在领域的业务知识非常丰富。 他还说,有这样两个人可以在一起扮演数据学家的角色,一个具有业务知识,另一个懂建模知识。 戴尔软件信息管理研发部执行董事盖伊·哈里森给自己儿子选择的职业方向就是数据学家。哈里森先生说:“应该再多培养一些数据学家。” “如今,对数据学家的培训缺乏一定的信仰,但是我坚信未来的商业就是建立在数据的基础之上。各行各业中,算法和数据都可以起到决定性作用” “现在行业内对于数据学家的需求不大,但是未来情况会有所改变,”高级IT招聘的总经理达伦·泰勒表示,他曾在二十世纪90年代在联邦银行从事数据开采工作。 他又补充说:“对数据仓储分析员和商业情报分析员的用人需求一直很大。但从我来看,随着公司的系统变得越来越复杂,而且包含获得的外源非结构化信息,我认为对数据学家的需求将会很大。” 你会不会建议身边的年轻人成为一名数据学家?
 

怎成为一名数据科学家?

你好!
刚好在关注这个领域。转一个知乎上对我帮助很大的答案。
数据科学家所需硬件技能
(1) 计算机科学
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
零基础学习 Hadoop 该如何下手?
想从事大数据、海量数据处理相关的工作,如何自学打基础?
(2) 数学、统计、数据挖掘等
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大,但是学习曲线较为陡峭,个人建议从python入手,拥有丰富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。
如何系统地学习数据挖掘?
做数据分析不得不看的书有哪些?
怎么学习用R语言进行数据挖掘?
(3) 数据可视化(Visualization)
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
有哪些值得推荐的数据可视化工具?
(4) 跨界为王
麦肯锡认为未来需要更多的“translators”,能够在IT技术,数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。”translators“可以驱动整个数据分析战略的设计和执行,同时连接的IT ,数据分析和业务部门的团队。如果缺少“translators“,即使拥有高端的数据分析策略和工具方法也是于事无补的。
The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
天才的”translators“非常罕见。但是大家可以各敬其职(三个臭皮匠臭死诸葛亮),数据战略家可以使用IT知识和经验来制定商业决策,数据科学家可以结合对专业知识的深入理解使用IT技术开发复杂的模型和算法,分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点......余下全文>>
 

相关内容

    暂无相关文章