大数据时代的机器学习，数据时代机器学习

文章由LinuxBoy分享于2019-03-27 05:03:10热评（5）

大数据时代的机器学习，数据时代机器学习

本文参考CCF YOCSEF的“大数据时代的机器学习报告会”的相关内容。

张长水：大数据时代的机器学习 VS 传统机器学习

从机器学习角度看，“大数据”指的是数据量大，数据本身不够精确，数据混杂，数据自然产生。机器学习对大数据的处理的两个挑战：

数据量大导致计算困难
分布在不同服务器上的数据存在一定联系，这些数据基本上不满足“独立同分布”假设，传统的模型和算法很难适应。

大数据时代给机器学习带来新的机遇：

在某些应用条件下，高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
大数据使样本空间原本“空旷”的区域出现样本，这也为提升分类器性能提供潜在基础。

于剑：从认知角度看待大数据 该报告从认知角度分析数据与知识的联系。目前机器学习的知识主要是概念，传统的小数据很难反映领域的复杂知识，大数据提供了学习复杂知识的机会。在大数据时代，未来的机器学习可以超越概念学习，进入复杂知识学习时代。

李沐：深度学习在统计机器学习领域的应用 深度学习在图像，视频领域已经取得很大的进展。但是在自然语言处理方面，还有很多的问题需要解决。包括如何用深度学习的方法处理：

双词语对齐
层次化机器翻译解码
主题建模
提升机器翻译质量
...

当前该领域的一些进展：

自动编码机和Recursive自动编码机用于实现从单词和短语到实空间的映射
上下文相关的DNN-HMM模型能够自动发现双语语料中短语和单词的相似性，从而实现词语对齐
Recursive Recurrent Neural Network (R2NN)能将不同信息集成起来，建立树结构的翻译候选集

徐盈辉：大规模机器学习在阿里电子商务中的应用 当前，阿里数据平台事业部的服务器上，积攒下超过100PB的多元异构数据。电子商务环境下的机器学习课题包括：

点击率预估
转换率预估
个性化搜索
个性化推荐
商品自动聚类
销量预测

李沐：大规模分布式机器学习系统及其应用 该报告主要介绍由百度，Google以及CMU合作建立的开源计算平台---参数服务器（Parameter Server）。该项目产生的背景是由于工业领域产生的数据已达到千亿样本，百亿特征。这导致对于复杂的非线性多分类任务，模型参数的计算量是非常巨大的。这就需要通过分布式系统来解决这个问题。需要探索在不同机器上分配计算负荷、共享内存计算模型、并行化学习策略以及降低通讯开销的策略和方法。
PS:人物介绍张长水：清华大学教授于剑：北京交通大学教授李沐：微软亚洲研究院研究员，百度深度学习研究院少帅学者徐盈辉：淘宝搜索算法高级研发专家

云计算，大数据，数据挖掘，机器学习，模式识别这些概念之间的关系是怎的？

给你解释一下这些术语：
云计算：就是个炒得很热的商业概念，其实说白了就是将计算任务转移到服务器端，用户只需要个显示器就行了，不过服务器的计算资源可以转包。当然，要想大规模商业化，这里还有些问题，特别是隐私保护问题。

大数据：说白了就是数据太多了。如今几兆的数据在20年前也是大数据。但如今所说的大数据特殊在哪呢？如今的问题是数据实在是太多了，这已经超过了传统计算机的处理能力（区别与量子计算机），所以对于大数据我们不得不用一些折衷的办法（比如数据挖掘），就是说没必要所有数据都需要精确管理，实际上有效数据很有限，用数据挖掘的方法把这些有限的知识提取出来就行了。·此外，数据抽样，数据压缩也是解决大数据问题的一些策略。

数据挖掘：从数据中提取潜在知识，这些知识可以描述或者预测数据的特性。有代表性的数据挖掘任务包括关联规则分析、数据分类、数据聚类等，这些你在任一本数据挖掘教材都可以了解。下面我说说和大数据的区别：数据挖掘只是大数据处理的一个方法。马云所说的大数据，或者如今商业领域所说的大数据，实际上指的就是数据挖掘，其实真正所谓大数据，或者Science杂志中提到的大数据，或者奥巴马提出的大数据发展战略，我的理解是，这些都远远大于数据挖掘的范畴，当然数据挖掘是其中很重要的一个方法。真正目的是如何将大数据进行有效管理。

机器学习：这个词很虚，泛指了一大类计算机算法。重点是学习这个词，如果想让计算机有效学习，目前绝大多数方法都采用了迭代的方法。所以在科研界，只要是采用了这种迭代并不断逼近的策略，一般都可以归到机器学习的范畴。此外，所谓学习，肯定要知道学什么，这就是所谓训练集，从训练集数据中计算机要学到其中的某个一般规律，然后用一些别的数据（即测试集）来看看学得好不好，之后才能用于实际应用。所以，选取合适的训练集也是个学问。

模式识别：意思就是模式的识别。模式多种多样，可以是语言，可以是图像，可以是事物一些有意义的模块，这些都算。所以总体来说，模式识别这个词我是觉得有点虚，倒是具体的人脸图像识别、声音识别等，这些倒是挺实在的。也许是我不太了解吧。

另外说说你的其他问题。

传统分析方法不包括数据挖掘。对于数据分析这块我不是很了解，不过可以肯定的是，传统分析都有一定的分析方向，比如我就想知道这两个商品的关联情况，那我查查数据库就行了。数据挖掘虽说有些历史，不过也挺时髦的，它是自动将那些关联程度大的商品告诉你，这期间不需要用户指定数据分析的具体对象。

如果想应对大数据时代，数据挖掘这门课是少不了的。此外对数据库，特别是并行数据库、分布式数据库，最好了解点。至于机器学习和模式识别，这些总的来说和数据挖掘关系不太大，除了一些特殊的领域外。

总之，概念挺热，但大数据还很不成熟，无论从研究上还是商业化上。我目前在作大数据背景下的算法研究，说实话，目前基本没有拓展性非常强的算法，所以未来大数据的发展方向，我也挺迷茫。

PS：将数据挖掘应用于商业，最最重要的就是如何确定挖掘角度，这需要你对具体应用的领域知识非常了解，需要你有非常敏锐的眼光。至于数据挖掘的具体算法，这些就交给我们专门搞研究的吧！（对算法的理解也很重要，这可以把算法拓展到你的应用领域）

大数据时代我们准备什

通过对海量数据的交换、整合和分析，发现新的知识，创造新的价值，带来新的发现，大数据时代正在向我们走来。“谁拥有了大数据，谁就占有了制高点。就政府而言，大数据必将成为宏观调控、国家治理、社会管理的信息基础”。
一如往常，11月宏观经济数据一出来，即引来各方专家解读。略有不同的是，来自统计业内的动向显示，包括CPI在内的统计数据正面临一场变革。这场变革是大数据时代的一种必然。
国家统计局刚刚与11家涉足大数据的领军企业签署关于大数据的战略合作协议，共同探讨如何在政府统计上应用大数据。
什么是大数据？大数据在哪儿？有什么用？怎么用？与政府部门有什么关系？现在提大数据是不是有些哗众取宠、“危言耸听”？
举两个例子。在甲型H1N1流感爆发前几周，谷歌公司通过观察5000万条美国人最频繁检索的词条数据，发现“哪些是治疗咳嗽和发热的药物”这一主题的检索频率大增，进而准确预测了流感的发生及传播范围。美国地铁警察跟踪地铁抢劫案发生的时间和地点，分析原因和规律，制作出预测图表，使地铁抢劫案大为下降。除了商界的成功案例，大数据在政府管理上的非凡“身手”正在显现。
通过对海量数据的交换、整合和分析，发现新的知识，创造新的价值，带来新的发现，大数据时代正在向我们走来。
与不少发达国家已把大数据的开发应用提高到国家战略高度相比，我国的大数据管理还处萌芽状态。重定性、轻定量，重观点、轻数据的思维惯性，使得我们在数据收集、使用和管理上不太灵敏。比如，雾霾污染物的比例各是多少？城市机动车饱和量是多少？缺乏精确数据都让相关决策难以精准发力。
大数据不是“唬人”的标签，没必要对其夸大其词，也不能充耳不闻、敬而远之。
今年全国两会就有人大代表提出，可以通过分析春节期间移动用户漫游情况，掌握人口的流动规模与迁徙规律，为交通管理、铁路运输、公共安全管理等提供决策参考。这是挖掘大数据价值的现实建议。
大数据的能量往往超出我们的想象。在房地产价格统计上，银行的贷款信息及住建部门的网签数据能让房价数据更真实可靠；在就业领域，搜索引擎大数据可以帮助监测预警失业率和劳动力市场供求状况；道路上拍摄的交通影像数据可以帮助推算公路运输的货运量，等等。这些不是异想天开，它们一旦落地，将大大提高政府管理的精细化，提高决策的科学性。在医疗健康、食品卫生、地质灾害、社会舆情、信息安全、国土安全等领域，大数据的分析研究可以有效实现对于重大安全、危机、风险的防范和预警，大大提升国家治理水平。
“谁拥有了大数据，谁就占有了制高点。就政府而言，大数据必将成为宏观调控、国家治理、社会管理的信息基础”——国家统计局局长马建堂的话可谓高屋建瓴。
跟上新技术发展的脚步，从国家层面通盘考虑我国大数据发展的战略，在立法层面规范用户隐私保护、政府信息收集及发布、公共数据的开放等——我们做好准备了吗？
千万不可低估互联网等新技术的能量。运用这些技术，国家治理的能力与效率将大为提高。正可谓“用智慧的分析洞察，构建智慧的地球”。

推荐文章：

大数据时代的机器学习，数据时代机器学习