亚洲大数据峰会(香港站)总结


1. 演讲内容

Ø   香格里拉酒店大数据应用介绍

副总裁Siv Forlie分析了香格里拉为什么需要对客户产生的数据进行分析的原因,酒店业竞争很激烈,客户希望能在香格里拉体验到最好的服务,这样就需要实时的分析报告,能够告知服务生该顾客的喜好、日程安排,提供更为完整的服务体系。

 

Ø   数据挖掘核心

来自QlinkView的Gray Jackson向大家展现了该公司如何针对客户的需求对海量数据进行快速处理,生成统计数据报表。他阐述了数据挖掘的核心,即根据客户的需求动态生成数据挖掘的算法模式,而不是由IT公司自行确定挖掘算法规则。

来自MasterCard的信息官Manu Panda也提出了类似的需求,对于非IT公司,他们希望的是个性化、动态化、快速反应的软件平台,最好支出还要尽可能得少,但是最看重的还是报表所能反映出的价值,目前该公司高管已经能够看到海量的报表,根本无法做出正确的判断,所以需要根据客户的需求来平衡大数据应用产生的各种数据反馈。

来自Datawatch的Karl Mouantri给我们展示了在海量数据环境下结合实时加入的新数据快速生成报表,我个人感觉它的技术背后是KDB内存数据库,因为如果不是数据全部读入内存数据库,高昂的I/O开销会毁了它的用户体验。该报表返回时间可以控制在10秒以内。会后与他聊了视频检索的可能性,他邀请我们深入探讨。

 

Ø   机器学习、深度学习

来自华为诺亚方舟实验室的杨强教授认为智能化是计算机科学发展的必然趋势,让我们计算机越来越智能,这个过程当中我们必然希望有一个非常强有力的手段,到目前为止,人工智能其他领域研究,我们发现最有力的手段可能还是要基于数据,通过机器学习这样的办法才能够使得我们的机器更加智能化。他介绍了华为在机器学习的新动向,怎么样通过跟人机交互能够获得更多数据,这个包括日志数据挖掘、重包,还有热门的人机协同计算。

他和我们分享了几个故事:

贝尔实验室:1925年,当时AT&T总裁华特·基佛德(Walter Gifford)收购了西方电子(Western Electric)公司的研究部门,成立了一个叫做“贝尔电话实验室公司”的独立实体。贝尔实验室的工作可以大致分为三个类别:基础研究,系统工程和应用开发。在基础研究方面主要从事电信技术的基础理论研究,包括数学、物理学、材料科学、行为科学和计算机编程理论。1947年,贝尔实验室发明晶体管。克劳德·香农于1948年发表论文《通讯的数学原理》,奠定了现代通信理论的基础。1964年阿诺·彭齐亚斯和罗伯特·威尔逊发现宇宙微波背景辐射,并因此获得1978年诺贝尔物理学奖。贝尔实验室也是UNIX操作系统和C语言的发源地。

IBM研究院:IBM公司的一個(研究)部門,是一個研究與先進發展的組織,過去許多知名的科技發展也都出自此部門,例如DES(Data Encryption Standard)加密演算、經典的電腦程式語言:FORTRAN(Formula Translation System)、本華·曼德博(Benoît B. Mandelbrot)的報告書中發表了分形(Fractal)、磁性碟片儲存(硬碟)、用單一個電晶體即可記憶一個比特的動態RAM(Dynamic Random Access Memory,DRAM)、精簡指令集電腦(RISC)架構、以及關聯式資料庫等。IBM Research在物理科學上也有所貢獻,包括掃描隧道顯微鏡(簡稱:STM)以及高溫超導等,此兩項成就都獲得了諾貝爾獎。IBM研究部门是世界上拥有最先进技术和最完善设备的研究机构之一,在六个国家的八个实验室拥有大约 3000 名研究人员,其中包括 5 位诺贝尔奖获得者,6 位美国国家技术学院的博士,5 位美国国家科学院院士,5 位计算机学会图林奖获得者,以及其他荣誉的获得者。

施乐帕洛阿尔托研究中心:多现代计算机技术的诞生地,他们的创造性的研发成果包括:个人电脑、激光打印机、鼠标、以太网;图形用户界面、 Smalltalk、页面描述语言Interpress(PostScript的先驱)、图标和下拉菜单、所见即所得文本编辑器、语音压缩技术等。

 

Ø   高性能数据处理

来自Merrill Lynch银行的Li Hui向我们介绍了投资银行如何应对大数据量实时需求的冲击。他认为大数据从来就不是什么新鲜的名词,他其实早就存在,只不过是IT技术没有跟上节奏,现在随着亚马逊EC2和Hadoop技术的成熟,越来越多的公司可以做基于大数据的分析,无论是实时的还是非实时的需求,那么美林银行在实时数据分析系统中采用的是Hadoop架构,抛弃了原有的JMS处理方式,通过Apache Spark来将实时数据接入到实时流处理机制当中,通过KDB+数据库将所有数据读入到内存数据库中,减少磁盘I/O,快速生成交易员所期望的报表。

银行是最愿意为未来支付费用的,安防行业如果能跳出固定安防领域的思维体系,能够提供客户全方位的业务支撑需求,那么未来的发展会更有前景。

 

2. 未来大数据技术发展趋势

Ø   基于开源的Hadoop做基于大数据的应用或解决方案,不做二次开发

这类型的公司目前有很多,例如前面提到的ThoughtWorks,利用公开的Hadoop技术可以较为快速地帮助客户做出大数据解决方案,这类型的公司需要等待技术成熟,如果技术尚在研究阶段,则无法以此来提出解决方案。目前较为多的解决方案是协助客户将基于关系型数据库的应用架构迁移到分布式架构。

Ø   对Hadoop框架内某一样技术做深入研究并二次开发、由于实际需求自己结合Hadoop开发一样技术

这里有两个方面可以谈,前者是做二次开发,例如Cloudera和HortonWorks,它们都是基于开源的Apache Hadoop来构建属于自己的一套Hadoop产品,并且都对个人、小企业免费,赢利点在于Hadoop技术的培训、技术支持等等,目前这两家公司都对绝大多数的Hadoop技术予以支持,在实时框架上有些分歧,Cloudera支持传统MapReduce方式的Spark Stream,HortonWorks支持完全面向实时流的Storm Stream,如果采用Spark Stream,则速度瓶颈将会是主要需要解决的问题,可以采用内存式数据库将数据完全读入进来后做计算,但是目前市面上最强的内存式数据库KDB+费用太贵,只有少数银行在使用。

后者是由于业务发展的需求,在已发布的Hadoop技术中找不到合适的技术,不得不自己开发或者收购小公司开发出来的技术,例如Twitter Storm Stream,它最初由BackType公司开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析。实时数据处理的应用场景很广泛,如上篇文章介绍S4时所说的个性化搜索广告的会话特征分析。而Yahoo当初创建S4项目的直接业务需求就是为了在搜索引擎的‘cost-per-click’广告中,能根据当前情景上下文(用户偏好,地理位置,已发生的查询和点击等)来估计用户点击的可能性并实时做出调整。这种高可拓展性,能处理高频数据和大规模数据的实时流计算解决方案将被应用于实时搜索,高频交易和社交网络上。而流计算并不是最近的热点,金融机构的交易系统正是一个典型的流计算处理系统,它对系统的实时性和一致性有很高要求。

twitter列举了storm的三大作用领域:

1) 信息流处理(StreamProcessing)

      Storm可以用来实时处理新数据和更新数据库,兼具容错性和可扩展性。

2) 连续计算(ContinuousComputation)

Storm可以进行连续查询并把结果即时反馈给客户,比如将Twitter上的热门话题发送到客户端。

3) 分布式远程过程调用(DistributedRPC)

Storm可以用来并行处理密集查询,Storm的拓扑结构(后文会介绍)是一个等待调用信息的分布函数,当它收到一条调用信息后,会对查询进行计算,并返回查询结果。

Ø   建立云平台管理

这里有两个方向可以谈,一是租用亚马逊EC2和S3这样的云基础架构服务,二是自己搭建云平台。

        i.     前者是目前美国大多数中小型企业采用的方法,租用EC2和S3的基础服务,不需要考虑数据中心的成本因素,按实际使用量来付费,表明上看来节约了大量的成本,另外是可以帮助企业在指定时间内完成任务,克服了大多数非IT专业公司存在的技术人才、资源缺乏的缺点,例如纽约时报只花了8个小时就将过去几十年的文档资料收归在云平台,并且数据完整,纽约时报自带的IT人员只需要基于云服务之上做具体应用即可。这个方法的缺点是这是表面上节约,有报道指出并不划算,每年的费用依然很高,并且数据被亚马逊绑架了。

       ii.     后者是类似于OpenStack这样的项目,OpenStack是一个云平台管理的项目,它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作。OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目。它的社区拥有超过130家企业及1350位开发者,这些机构与个人都将OpenStack作为基础设施即服务(简称IaaS)资源的通用前端。OpenStack项目的首要任务是简化云的部署过程并为其带来良好的可扩展性。

OpenStack 是由 Rackspace 和 NASA 共同开发的云计算平台,帮助服务商和企业内部实现类似于 Amazon EC2 和 S3 的云基础架构服务(Infrastructure as a Service,IaaS)。OpenStack 包含两个主要模块:Nova 和 Swift,前者是 NASA 开发的虚拟服务器部署和业务计算模块;后者是 Rackspace开发的分布式云存储模块,两者可以一起用,也可以分开单独用。Rackspace以OpenStack为基础的私有云业务每年7亿美元,增长率超过了20%。

Ø   开发大数据处理及展现平台软件

本次会议中遇到了来自QlinkView、DataWatch、tableau等等公司的技术、业务代表,他们的软件大同小异,这里以DataWatch为例。

DataWatch是一家致力于提供虚拟化数据挖掘的软件,它针对海量数据量、数据形式和快速数据传输等等实际需求建立了这一套称为下一代实时数据分析软件。该软件对于无论结构化还是非结构化的数据,亦或者半结构化的数据都能够提供快速的处理,根据客户的需求生成报表,报表支持用户个性化实时需求调整,生成的报表包括几乎所有主流格式,如PDF。

例如下面这些图就是用户通过拖拉选择项,实时选择需要生成的报表样式,一般情况下10秒内即可生成报表。

相关内容