Cloudra公司CCP:DS——认证数据专家


原文:http://vision.cloudera.com/24195/。


译文:

每天我都能看到大数据如何改变我们生活的文章。数据科学家们正在生物医药领域找寻新的方法治愈癌症,帮助银行与欺诈做斗争,警察打击与毒品有关的犯罪,以及明星球员间的斗争。

看上去我需要的是一个象Hadoop的分析平台和一大堆数据,然后可操作的见解就会扑过来,对吗?嗯,不完全是。虽然Hadoop把困难的事情变容易了、把不可能的事情变得可能,但是我们仍然得弄清楚我们要寻找什么,一旦我们知道了答案还必须理解那意味着什么。体积、速度和大数据的多样性让聚焦于某一点变得困难,而我们的洞察力因为无法忽略细节而变得更困难。

寻找有意义的模式并把它们转换成可操作的见解,需要大量的计算机、先进的软件,专家们使用这些工具告诉我们这些信息的意义。这就是数据的科学。

 

数据科学的定义

与其他科学家一样,数据科学家先提出假设,然后做实验,并根据结果断定假设是否成立。但在大数据领域,过程并没有这么简单。

首先,要在一大堆数据集中积累足够支持假设的数据。

第二,数据科学更多的是分析而不是实验,这意味着数据在第一步已经整理完毕。控制实验是不可能的。相反,数据科学家必须通过仔细的建模,以逆向工程的实验方法。

第三,数据科学家证明一个假说并从数据中发现有用的模式后,真正的工作才开始。

挑战在于把这种模式变成一种数据产品,可以用于分析新数据或执行正在进行的预测分析。

一个有抱负的数据专家必须具备极高要求并具有多种技能:统计,编程,机器学习和多种技术(如Hadoop,R,可视化工具)。此外,最好的数据专家不尽相同,他们通过各自领域内的(如生命科学,行为学,气象学)应用软件技巧、讲故事、好奇心、机制、持久性和心理素质等,为他们所服务的公司创造价值。数据专家的要求如此之高,这就是为什么麦肯锡全球研究院、哈佛商业评论和Gartner集团断定在未来几年的同类项目人才缺口达几十万的原因。


造成数据专家供应失衡的更复杂的原因在于无法对通过专业验证对数据专家的能力进行评估。少数大学开设了高级分析和数据科学专业,它要求数据人员花费大量的时间和资源以获得完整的学术背景。但这不足以验证他们具备数据分析领域的能力和经验。


现在尚无国际性的数据科学研究所,负责招聘的经理们大多数都没有数据科学经验,而一份简历或面试根本证明不了什么。这个人才缺口和人才不能被验证的对立问题只会变得更加严重,因为小企业也开始积累大数据并寻找该领域的人才。


解决方案的一部分是由实际的数据专家建立了一个正式的数据科学课程。Cloudera提供了一个极好的为期三天的数据科学课程,教授基础知识,并训练学员在数据科学明星Jeff Hammerbacher 和 Josh Wills的视角下建立自己的推荐系统。该解决方案的另一个组成部分是公共数据科学比赛,通过竞赛让参与者积累经验并在现实的环境中证明自己的能力。


塑造行业的挑战

对一份起薪30万美元/年的工作而言,接受多少教育和实践才够呢?一个正式的行业认证将是最有价值的,它能给企业一个已知的尺度来衡量从业人员。


在Cloudera,我们借鉴我们的行业领导地位和现实世界的经验,通过早期的语料库来填补这一空白。我们近期推出了一个由两部分组成的Cloudera认证专家:数据专家(Cloudera Certified Professional: Data Scientist CCP:DS)的程序,它由数据科学要点考试和每年2次的数据科学挑战组成,从而帮助候选人证明他们的能力以及帮助雇主识别精英、发现高水平的数据专家。顺利通过认证的参与者将会是世界上最称职(和非常性感)的数据专家


除了认证,CCP:DS还包含了一个60道数据科学题库(帮助参与者自我评估)和一个免费的数据科学挑战套装。该套装提供一个实时数据集、教程和详细的解释手册,解释手册的作用是为了得到真实世界数据问题的正确结果,需要集中在分类、集群和网络分析的协调过滤。


目前的数学挑战今天开始(注:2014年3月31日),直到6月30日。它由Cloudra的数据科学总监SeanOwen设计,挑战要求应试者通过一个巨大的匿名医疗数据库找出医疗保险索赔可能产生的错误和异常。成功的参与者应该建立一个科学数据模型回答一系列问题,包括:

l 哪些医疗程序的成本有最高的相对方差?

l 平均索赔金额最高的哪三个供应商的程序数量最多?

l 从数量和程序类型来看,哪三个供应商和地区是与别人最不一样的?

l 审查1万名可能出现错误或异常的病人,描述这些病人的特征。       


相关内容