大数据时代的机器学习,数据时代机器学习


本文参考CCF YOCSEF的“大数据时代的机器学习报告会”的相关内容。


张长水:大数据时代的机器学习 VS 传统机器学习

从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:

  • 数据量大导致计算困难
  • 分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。
大数据时代给机器学习带来新的机遇:
  • 在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
  • 大数据使样本空间原本“空旷”的区域出现样本,这也为提升分类器性能提供潜在基础。


于剑:从认知角度看待大数据 该报告从认知角度分析数据与知识的联系。目前机器学习的知识主要是概念,传统的小数据很难反映领域的复杂知识,大数据提供了学习复杂知识的机会。在大数据时代,未来的机器学习可以超越概念学习,进入复杂知识学习时代。

李沐:深度学习在统计机器学习领域的应用 深度学习在图像,视频领域已经取得很大的进展。但是在自然语言处理方面,还有很多的问题需要解决。包括如何用深度学习的方法处理:
  • 双词语对齐
  • 层次化机器翻译解码
  • 主题建模
  • 提升机器翻译质量
  • ...
当前该领域的一些进展:
  • 自动编码机和Recursive自动编码机用于实现从单词和短语到实空间的映射
  • 上下文相关的DNN-HMM模型能够自动发现双语语料中短语和单词的相似性,从而实现词语对齐
  • Recursive Recurrent Neural Network (R2NN)能将不同信息集成起来,建立树结构的翻译候选集

 徐盈辉:大规模机器学习在阿里电子商务中的应用 当前,阿里数据平台事业部的服务器上,积攒下超过100PB的多元异构数据。电子商务环境下的机器学习课题包括:
  • 点击率预估
  • 转换率预估
  • 个性化搜索
  • 个性化推荐
  • 商品自动聚类
  • 销量预测

李沐:大规模分布式机器学习系统及其应用 该报告主要介绍由百度,Google以及CMU合作建立的开源计算平台---参数服务器(Parameter Server)。该项目产生的背景是由于工业领域产生的数据已达到千亿样本,百亿特征。这导致对于复杂的非线性多分类任务,模型参数的计算量是非常巨大的。这就需要通过分布式系统来解决这个问题。需要探索在不同机器上分配计算负荷、共享内存计算模型、并行化学习策略以及降低通讯开销的策略和方法。
PS:人物介绍 张长水:清华大学教授 于剑:北京交通大学教授 李沐:微软亚洲研究院研究员,百度深度学习研究院少帅学者 徐盈辉:淘宝搜索算法高级研发专家


云计算,大数据,数据挖掘,机器学习,模式识别这些概念之间的关系是怎的?

给你解释一下这些术语:
云计算:就是个炒得很热的商业概念,其实说白了就是将计算任务转移到服务器端,用户只需要个显示器就行了,不过服务器的计算资源可以转包。当然,要想大规模商业化,这里还有些问题,特别是隐私保护问题。

大数据:说白了就是数据太多了。如今几兆的数据在20年前也是大数据。但如今所说的大数据特殊在哪呢?如今的问题是数据实在是太多了,这已经超过了传统计算机的处理能力(区别与量子计算机),所以对于大数据我们不得不用一些折衷的办法(比如数据挖掘),就是说没必要所有数据都需要精确管理,实际上有效数据很有限,用数据挖掘的方法把这些有限的知识提取出来就行了。·此外,数据抽样,数据压缩也是解决大数据问题的一些策略。

数据挖掘:从数据中提取潜在知识,这些知识可以描述或者预测数据的特性。有代表性的数据挖掘任务包括关联规则分析、数据分类、数据聚类等,这些你在任一本数据挖掘教材都可以了解。下面我说说和大数据的区别:数据挖掘只是大数据处理的一个方法。马云所说的大数据,或者如今商业领域所说的大数据,实际上指的就是数据挖掘,其实真正所谓大数据,或者Science杂志中提到的大数据,或者奥巴马提出的大数据发展战略,我的理解是,这些都远远大于数据挖掘的范畴,当然数据挖掘是其中很重要的一个方法。真正目的是如何将大数据进行有效管理。

机器学习:这个词很虚,泛指了一大类计算机算法。重点是学习这个词,如果想让计算机有效学习,目前绝大多数方法都采用了迭代的方法。所以在科研界,只要是采用了这种迭代并不断逼近的策略,一般都可以归到机器学习的范畴。此外,所谓学习,肯定要知道学什么,这就是所谓训练集,从训练集数据中计算机要学到其中的某个一般规律,然后用一些别的数据(即测试集)来看看学得好不好,之后才能用于实际应用。所以,选取合适的训练集也是个学问。

模式识别:意思就是模式的识别。模式多种多样,可以是语言,可以是图像,可以是事物一些有意义的模块,这些都算。所以总体来说,模式识别这个词我是觉得有点虚,倒是具体的人脸图像识别、声音识别等,这些倒是挺实在的。也许是我不太了解吧。

另外说说你的其他问题。

传统分析方法不包括数据挖掘。对于数据分析这块我不是很了解,不过可以肯定的是,传统分析都有一定的分析方向,比如我就想知道这两个商品的关联情况,那我查查数据库就行了。数据挖掘虽说有些历史,不过也挺时髦的,它是自动将那些关联程度大的商品告诉你,这期间不需要用户指定数据分析的具体对象。

如果想应对大数据时代,数据挖掘这门课是少不了的。此外对数据库,特别是并行数据库、分布式数据库,最好了解点。至于机器学习和模式识别,这些总的来说和数据挖掘关系不太大,除了一些特殊的领域外。

总之,概念挺热,但大数据还很不成熟,无论从研究上还是商业化上。我目前在作大数据背景下的算法研究,说实话,目前基本没有拓展性非常强的算法,所以未来大数据的发展方向,我也挺迷茫。

PS:将数据挖掘应用于商业,最最重要的就是如何确定挖掘角度,这需要你对具体应用的领域知识非常了解,需要你有非常敏锐的眼光。至于数据挖掘的具体算法,这些就交给我们专门搞研究的吧!(对算法的理解也很重要,这可以把算法拓展到你的应用领域)
 

大数据时代我们准备什

通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来新的发现,大数据时代正在向我们走来。“谁拥有了大数据,谁就占有了制高点。就政府而言,大数据必将成为宏观调控、国家治理、社会管理的信息基础”。
一如往常,11月宏观经济数据一出来,即引来各方专家解读。略有不同的是,来自统计业内的动向显示,包括CPI在内的统计数据正面临一场变革。这场变革是大数据时代的一种必然。
国家统计局刚刚与11家涉足大数据的领军企业签署关于大数据的战略合作协议,共同探讨如何在政府统计上应用大数据。
什么是大数据?大数据在哪儿?有什么用?怎么用?与政府部门有什么关系?现在提大数据是不是有些哗众取宠、“危言耸听”?
举两个例子。在甲型H1N1流感爆发前几周,谷歌公司通过观察5000万条美国人最频繁检索的词条数据,发现“哪些是治疗咳嗽和发热的药物”这一主题的检索频率大增,进而准确预测了流感的发生及传播范围。美国地铁警察跟踪地铁抢劫案发生的时间和地点,分析原因和规律,制作出预测图表,使地铁抢劫案大为下降。除了商界的成功案例,大数据在政府管理上的非凡“身手”正在显现。
通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来新的发现,大数据时代正在向我们走来。
与不少发达国家已把大数据的开发应用提高到国家战略高度相比,我国的大数据管理还处萌芽状态。重定性、轻定量,重观点、轻数据的思维惯性,使得我们在数据收集、使用和管理上不太灵敏。比如,雾霾污染物的比例各是多少?城市机动车饱和量是多少?缺乏精确数据都让相关决策难以精准发力。
大数据不是“唬人”的标签,没必要对其夸大其词,也不能充耳不闻、敬而远之。
今年全国两会就有人大代表提出,可以通过分析春节期间移动用户漫游情况,掌握人口的流动规模与迁徙规律,为交通管理、铁路运输、公共安全管理等提供决策参考。这是挖掘大数据价值的现实建议。
大数据的能量往往超出我们的想象。在房地产价格统计上,银行的贷款信息及住建部门的网签数据能让房价数据更真实可靠;在就业领域,搜索引擎大数据可以帮助监测预警失业率和劳动力市场供求状况;道路上拍摄的交通影像数据可以帮助推算公路运输的货运量,等等。这些不是异想天开,它们一旦落地,将大大提高政府管理的精细化,提高决策的科学性。在医疗健康、食品卫生、地质灾害、社会舆情、信息安全、国土安全等领域,大数据的分析研究可以有效实现对于重大安全、危机、风险的防范和预警,大大提升国家治理水平。
“谁拥有了大数据,谁就占有了制高点。就政府而言,大数据必将成为宏观调控、国家治理、社会管理的信息基础”——国家统计局局长马建堂的话可谓高屋建瓴。
跟上新技术发展的脚步,从国家层面通盘考虑我国大数据发展的战略,在立法层面规范用户隐私保护、政府信息收集及发布、公共数据的开放等——我们做好准备了吗?
千万不可低估互联网等新技术的能量。运用这些技术,国家治理的能力与效率将大为提高。正可谓“用智慧的分析洞察,构建智慧的地球”。
 

相关内容