在HDInsight中的Hadoop介绍,hdinsighthadoop


在HDInsight中的Hadoop介绍


概览

Azure的HDInsight是,部署和规定的Apache™Hadoop®集群在云中,提供用于管理,分析和大数据报告软件框架中的服务。

大数据

数据被描述为“大数据”,以表明它被收集在以往升级卷,以越来越高的速度,并为一个扩大各种非结构化格式和可变语义语境。大数据的收集并不对企业自身提供的价值。

对于大数据在可操作智能或洞察力的形式提供价值,不仅要正确的问题问及相关的问题,数据收集,数据必须可以访问,清洗,分析,然后在一个有用的方式呈现,常与从

建立透视和上下文中现在被称为混搭各种其他来源的数据相结合。

Apache的的Hadoop

Apache的Hadoop是一个软件框架,有利于大数据管理和分析。 Apache的的Hadoop核心提供可靠的数据存储与Hadoop分布式文件系统(HDFS),以及简单的MapReduce编程模

型来处理和分析,并行地存储在该分布式系统中的数据。 HDFS采用数据复制解决部署这种高度分布式系统时出现的硬件故障问题。

MapReduce和YARN

为了简化从各种渠道分析非结构化数据的复杂性,MapReduce编程模型提供了一个核心的抽象承销封闭的map和reduce操作。 MapReduce编程模型视图所有的计算工作过的数

据集组成的键 - 值对的。因此,输入和输出文件必须包含数据集仅由键 - 值对。从这个约束主要外带是MapReduce的作业,作为结果,可组合的。

其他的Hadoop相关的项目,如Pig和Hive是建立在HDFS之上的MapReduce框架。的项目,如这些是用来提供一种更简单的方式来管理集群不是直接与MapReduce程序工作。

Pig

,例如,您可以编写利用程序语言称为Pig拉丁被编译到集群上的MapReduce程序的程序。它也提供了流畅的控制来管理数据流。配置单元是一个数据仓库的基础设施,它提

供对存储在一个簇,然后可以使用在一个说明性语言称为HiveQL类似SQL语句查询中的文件数据的表的抽象。

HDInsight

Azure的HDInsight使Apache的的Hadoop可作为云计算的服务。这使得HDFS/ MapReduce的软件架构和相关项目,如Pig,Hive,和Oozie更简单,更具可扩展性可用,经济高

效的环境。

第二头节点已被添加到部署HDInsight以增加服务的可用性的Hadoop集群。 Hadoop集群的标准实现方式典型地具有一个单一的头节点。 HDInsight删除与另外一个次级

headnode的这个单点故障。切换到新的HA集群配置不改变集群的价格,除非客户提供集群,超大头节点。

一个由HDInsight推出的主要效率是如何管理和存储数据。 HDInsight使用的Azure Blob存储作为默认的文件系统。二进制大对象存储和HDFS是被优化的,分别用于数据的

存储,并在该数据计算不同的文件系统。
•Azure Blob存储提供了一个高度可扩展和可用,成本低,长期来看,以及数据共享存储选项是使用HDInsight进行处理。
•在HDFS部署HDInsight Hadoop的集群上的数据运行的MapReduce计算任务进行了优化。

HDInsight群集部署在Azure的计算节点上执行的MapReduce任务,并能完成这些任务已经完成了由用户所丢弃的。保持在HDFS的簇中的数据的计算被完成之后将是一个昂贵

的方式来存储这些数据。 BLOB存储是一个强大的,通用的Azure存储解决方案。因此,在BLOB存储中存储数据能够用于计算集群被安全地删除,而不会丢失用户数据。但是

,BLOB存储不仅仅是一个低成本的解决方案:它提供了一个功能全面的HDFS文件系统接口,通过使整套组件的Hadoop的生态系统进行操作(默认情况下)提供了一个无缝的

体验,客户直接在数据它管理。

HDInsight使用Azure的PowerShell配置,运行和后处理Hadoop作业。 HDInsight还提供了可用于从SQL Azure的数据库中的数据导入到HDFS或将数据导出到HDFS从一个SQL

Azure的数据库Sqoop连接器。

HDInsight也创造了可用的YARN。这是一个新的,通用的,分布式的,应用程序管理的框架,它取代了传统的Apache 的HadoopMapReduce框架在Hadoop集群处理数据。它有

效地作为Hadoop的操作系统,并且采用的Hadoop从单次使用的数据平台进行批处理到一个多用的平台,使批量,互动,在线和流处理。根据标准,如能保证,公平,服务水

平协议这一新的管理框架,提高了可扩展性和联网使用。

微软功率查询为Excel可以导入从Azure的HDInsight或任何HDFS到Excel中的数据。这种附加增强通过简化数据发现,并获得了广泛的数据源在Excel中自我服务的BI体验。

除了电源查询,微软蜂巢ODBC驱动程序可集成的商业智能(BI)工具,如Excel,SQL Server分析服务和报表服务,便利和简化终端到终端的数据分析。

轮廓

本主题介绍了HDInsight支持的Hadoop生态系统,主要使用场景HDInsight,以及进一步的资源指南。它包含以下几个部分:
•在HDInsight中的Hadoop的生态系统:HDInsight提供Pig,Hive,Sqoop,Oozie,和Ambari的实现,并支持其他的BI工具,如Excel,SQL Server分析服务和报表服务的集成与

BLOB存储/ HDFS,它可以使用MapReduce框架电源查询或微软HiveODBC驱动程序。本节介绍这些方案中的Hadoop生态系统的设计工作处理。

•大数据场景HDInsight:本节讨论的问题:什么类型的工作是HDInsight适当的技术?

•为HDInsight资源:本节说明在哪里可以找到相关的资源以获取更多信息。

关于AzureHadoop的生态系统

介绍

HDInsight提供落实处理大数据微软基于云计算的解决方案的框架。该联合的生态系统管理和分析大数据量,利用MapReduce编程模型的并行处理能力。可与HDInsight使用

了Apache兼容的Hadoop技术是逐项在本节简要介绍。

HDInsight提供Hive和Pig的实现集成数据处理和仓储能力。微软的大数据解决方案,集成了微软的BI工具,如SQL Server分析服务,报表服务的PowerPivot和Excel。这使

您能够存储和管理的HDInsight中的BLOB存储的数据进行简单的BI。

其他的Apache兼容的技术和姐姐的技术是Hadoop的生态系统的一部分,已建成的Hadoop集群,也可以下载上运行使用与HDInsight。这些措施包括开源技术,如Sqoop它与关

系数据存储整合HDFS。

Pig

Pig是在Hadoop集群处理大数据的高层次平台。Pig由数据流语言,称为Pig拉丁,对大型数据集和运行从一个控制台程序的执行环境支持编写查询。猪八戒拉丁程序包括数

据集中改造系列在幕后转换,以一个MapReduce的系列节目。Pig拉丁抽象提供了更丰富的数据结构比的MapReduce和Hadoop的执行对关系数据库管理系统(RDBMS)有什么

SQL执行。Pig拉丁是完全可扩展的。用户定义函数(UDF),用Java编写的,Python和Ruby,C#或JavaScript,可以称得上组成分析时,以自定义每个处理路径的阶段。有

关更多信息,请参阅欢迎Apache的Pig!

Hive

Hive是一个分布式数据仓库管理存储在HDFS中的数据。它是Hadoop的查询引擎。Hive是分析师具有较强的SQL技能提供了一个类似SQL的接口和关系数据模型。Hive采用了一

种名为HiveQL语言; SQL方言。Hive,像Pig,是MapReduce和之上的抽象运行时,Hive查询转换成一系列的MapReduce作业。场景Hive更接近在概念上那些RDBMS,因此适用

于更多的结构化数据的使用。对于非结构化数据,Pig是更好的选择。有关更多信息,请参阅欢迎到ApacheHive!

Sqoop

Sqoop是工具,传送Hadoop和关系数据库这样的SQL或其他结构化数据存储之间的大容量数据,尽可能高效。使用Sqoop从外部结构化数据存储的数据导入到HDFS或相关系统

,如Hive。 Sqoop也可以从的Hadoop提取数据,并将所提取的数据输出到外部的关系型数据库,企业数据仓库,或任何其它结构化数据存储类型。有关更多信息,请参见

Apache Sqoop网站。

Oozie

阿帕奇Oozie是管理Hadoop作业工作流程/协作系统。它集成了的Hadoop堆栈并且支持Hadoop作业的MapReduce的Apache,Apache的Pig,Apache的Hive和Apache Sqoop。它也

可以被用来调度特定于系统的工作,如Java程序或外壳脚本。

Ambari

Apache的Ambari可以配置,管理和监控的Apache Hadoop集群。它包括一个直观的集合的操作符的工具和一组健壮隐藏Hadoop的复杂的API,简化了集群的操作。有关API的

详细信息,请参阅Ambari API参考。 HDInsight目前只支持Ambari监控功能。 Ambari API1.0版本是由HDInsight群集版本2.1和3.0的支持。有关Ambari的更多信息,请查看Apache Ambari网站。

微软的Avro库

微软的Avro库实现对Microsoft.NET环境中Apache的 Avro的数据序列化系统。Apache的的Avro提供了串行化的紧凑的二进制数据交换格式。它使用JSON来定义承销语言的互

操作性语言无关的架构。连载于一种语言的数据可以读取另一个。目前,C,C ++,C#,Java,PHP和Python和Ruby的支持。详细信息的格式可以在Apache的Avro规范中找

到。需要注意的是微软阿夫罗库的当前版本不支持远程过程调用(RPC)的本说明书的一部分。

Apache的阿夫罗序列化格式被广泛用于AzureHDInsight和其他Apache的 的Hadoop环境。阿夫罗提供了一种方便的方式来表示一个的HadoopMapReduce工作中的复杂数据结构

。的阿夫罗文件的格式已经被设计为支持分布式MapReduce编程模型。键功能,使分布是该文件是在一个可以寻求在一个文件中的任何点,并开始从一个特定块读意义上的“

分裂型”。有关更多信息,请参见微软的Avro库序列化的数据。

商业智能工具和连接器

熟悉商业智能(BI)工具 - 如Excel,PowerPivot的,SQL Server分析服务和报表服务 - 检索,分析和报告整合了HDInsight使用两种电源查询加载项或微软HiveODBC驱动

程序的数据。
•微软功率查询Excel可以从Microsoft下载中心下载。

•微软HiveODBC驱动程序可以从这个网站下载进行下载。

•有关信息分析服务,请参阅SQL Server2012分析服务。

•有关信息报表服务,请参阅SQL Server2012报表。

大数据场景HDInsight

一示范性方案提供了一个用例HDInsight是一个特设的分析,在批处理形式,在整个非结构化数据集存储在Azure节点,它们不需要频繁更新。

这些条件适用于各种各样的商业,科学和治理活动。这些措施可能包括,例如,监控供应链,零售,金融可疑的交易模式,需求模式的公用事业和服务,空气和环境传感器

在大都市地区的数组,或者犯罪模式的水质。

HDInsight(和的Hadoop技术,一般的)是处理大量记录或存档数据,不需要频繁更新一次,它是写的最合适的,那就是经常阅读,一般做一个全面的分析。这种情况下是

互补的更适当地通过一个关系数据库,需要较少量的数据(千兆字节,而不是PB的)处理的数据,和必须被不断地更新或查询的完整数据集内的特定数据点。 RDBMS与按照

固定的模式组织和存储结构化数据是最好的。 MapReduce的可以很好地处理非结构化数据,没有预定义的模式,因为它是能够解释当它正在处理该数据。

接下来的步骤:HDInsight资源

微软:HDInsight
•HDInsight文档:针对AzureHDInsight文档页面的链接,文章,视频和更多的资源。

•HDInsight发行说明:在最新的版本中的注意事项。

•开始使用AzureHDInsight:一个教程,提供了一个快速入门使用HDInsight。

•运行HDInsight例子:如何在运行附带HDInsight样品的教程。

•大数据和Azure:大数据方案的探索,你可以用Azure建什么。

•AzureHDInsight SDK:参考文档的HDinsight SDK。


微软:Windows和SQL数据库
•Azure主页:场景,免费试用注册后,你需要开始构建应用程序的开发工具和文档。

•SQL Azure数据库:MSDN文档SQL数据库。

•管理门户的SQL数据库:一个轻量级的,易于使用的数据库管理工具,用于在云中管理SQL数据库。

•Adventure Works的SQL数据库:SQL数据库示例数据库下载页面。


微软:商务智能
•连接Excel来HDInsight与Power查询:了解如何将Excel连接到存储您的HDInsight群集使用Microsoft电力查询Excel中相关的数据的Azure存储账户。

•连接Excel来HDInsight与微软HiveODBC驱动程序:了解如何从AzureHDInsight导入数据与MicrosoftHiveODBC驱动程序。

•微软BI的PowerPivot:下载并获取了强大的数据混搭和探索工具的信息。

•SQL Server 2012中的分析服务:下载SQL Server2012的评估版本和学习如何建立全面的企业级分析解决方案,提供可操作的见解。

•SQL Server 2012的报表:下载SQL Server2012的评估版本和了解如何创建全面的,高度可扩展的解决方案,实现实时决策在整个企业。


Apache的的Hadoop:
•Apache的的Hadoop:了解更多关于Apache 的Hadoop软件库,一个框架,允许大型数据集整个计算机集群的分布式处理。

•HDFS:了解更多有关Hadoop分布式文件系统(HDFS),使用的Hadoop应用的主存储系统的架构和设计。

•MapReduce:了解更多关于编程框架用于编写的Hadoop应用程序,快速处理海量数据并行的大型集群计算节点。

本文翻译自Microsoft Azure官网:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-introduction/

相关内容