在HDInsight中的Hadoop介绍，hdinsighthadoop

文章由LinuxBoy分享于2019-03-27 06:03:12热评（365）

在HDInsight中的Hadoop介绍，hdinsighthadoop

在HDInsight中的Hadoop介绍

概览

Azure的HDInsight是，部署和规定的Apache™Hadoop®集群在云中，提供用于管理，分析和大数据报告软件框架中的服务。

大数据

数据被描述为“大数据”，以表明它被收集在以往升级卷，以越来越高的速度，并为一个扩大各种非结构化格式和可变语义语境。大数据的收集并不对企业自身提供的价值。

对于大数据在可操作智能或洞察力的形式提供价值，不仅要正确的问题问及相关的问题，数据收集，数据必须可以访问，清洗，分析，然后在一个有用的方式呈现，常与从

建立透视和上下文中现在被称为混搭各种其他来源的数据相结合。

Apache的的Hadoop

Apache的Hadoop是一个软件框架，有利于大数据管理和分析。 Apache的的Hadoop核心提供可靠的数据存储与Hadoop分布式文件系统（HDFS），以及简单的MapReduce编程模

型来处理和分析，并行地存储在该分布式系统中的数据。 HDFS采用数据复制解决部署这种高度分布式系统时出现的硬件故障问题。

MapReduce和YARN

为了简化从各种渠道分析非结构化数据的复杂性，MapReduce编程模型提供了一个核心的抽象承销封闭的map和reduce操作。 MapReduce编程模型视图所有的计算工作过的数

据集组成的键 - 值对的。因此，输入和输出文件必须包含数据集仅由键 - 值对。从这个约束主要外带是MapReduce的作业，作为结果，可组合的。

其他的Hadoop相关的项目，如Pig和Hive是建立在HDFS之上的MapReduce框架。的项目，如这些是用来提供一种更简单的方式来管理集群不是直接与MapReduce程序工作。

Pig

，例如，您可以编写利用程序语言称为Pig拉丁被编译到集群上的MapReduce程序的程序。它也提供了流畅的控制来管理数据流。配置单元是一个数据仓库的基础设施，它提

供对存储在一个簇，然后可以使用在一个说明性语言称为HiveQL类似SQL语句查询中的文件数据的表的抽象。

HDInsight

Azure的HDInsight使Apache的的Hadoop可作为云计算的服务。这使得HDFS/ MapReduce的软件架构和相关项目，如Pig，Hive，和Oozie更简单，更具可扩展性可用，经济高

效的环境。

第二头节点已被添加到部署HDInsight以增加服务的可用性的Hadoop集群。 Hadoop集群的标准实现方式典型地具有一个单一的头节点。 HDInsight删除与另外一个次级

headnode的这个单点故障。切换到新的HA集群配置不改变集群的价格，除非客户提供集群，超大头节点。

一个由HDInsight推出的主要效率是如何管理和存储数据。 HDInsight使用的Azure Blob存储作为默认的文件系统。二进制大对象存储和HDFS是被优化的，分别用于数据的

存储，并在该数据计算不同的文件系统。
•Azure Blob存储提供了一个高度可扩展和可用，成本低，长期来看，以及数据共享存储选项是使用HDInsight进行处理。
•在HDFS部署HDInsight Hadoop的集群上的数据运行的MapReduce计算任务进行了优化。

HDInsight群集部署在Azure的计算节点上执行的MapReduce任务，并能完成这些任务已经完成了由用户所丢弃的。保持在HDFS的簇中的数据的计算被完成之后将是一个昂贵

的方式来存储这些数据。 BLOB存储是一个强大的，通用的Azure存储解决方案。因此，在BLOB存储中存储数据能够用于计算集群被安全地删除，而不会丢失用户数据。但是

，BLOB存储不仅仅是一个低成本的解决方案：它提供了一个功能全面的HDFS文件系统接口，通过使整套组件的Hadoop的生态系统进行操作（默认情况下）提供了一个无缝的

体验，客户直接在数据它管理。

HDInsight使用Azure的PowerShell配置，运行和后处理Hadoop作业。 HDInsight还提供了可用于从SQL Azure的数据库中的数据导入到HDFS或将数据导出到HDFS从一个SQL

Azure的数据库Sqoop连接器。

HDInsight也创造了可用的YARN。这是一个新的，通用的，分布式的，应用程序管理的框架，它取代了传统的Apache 的HadoopMapReduce框架在Hadoop集群处理数据。它有

效地作为Hadoop的操作系统，并且采用的Hadoop从单次使用的数据平台进行批处理到一个多用的平台，使批量，互动，在线和流处理。根据标准，如能保证，公平，服务水

平协议这一新的管理框架，提高了可扩展性和联网使用。

微软功率查询为Excel可以导入从Azure的HDInsight或任何HDFS到Excel中的数据。这种附加增强通过简化数据发现，并获得了广泛的数据源在Excel中自我服务的BI体验。

除了电源查询，微软蜂巢ODBC驱动程序可集成的商业智能（BI）工具，如Excel，SQL Server分析服务和报表服务，便利和简化终端到终端的数据分析。

轮廓

本主题介绍了HDInsight支持的Hadoop生态系统，主要使用场景HDInsight，以及进一步的资源指南。它包含以下几个部分：
•在HDInsight中的Hadoop的生态系统：HDInsight提供Pig，Hive，Sqoop，Oozie，和Ambari的实现，并支持其他的BI工具，如Excel，SQL Server分析服务和报表服务的集成与

BLOB存储/ HDFS，它可以使用MapReduce框架电源查询或微软HiveODBC驱动程序。本节介绍这些方案中的Hadoop生态系统的设计工作处理。

•大数据场景HDInsight：本节讨论的问题：什么类型的工作是HDInsight适当的技术？

•为HDInsight资源：本节说明在哪里可以找到相关的资源以获取更多信息。

关于AzureHadoop的生态系统

介绍

HDInsight提供落实处理大数据微软基于云计算的解决方案的框架。该联合的生态系统管理和分析大数据量，利用MapReduce编程模型的并行处理能力。可与HDInsight使用

了Apache兼容的Hadoop技术是逐项在本节简要介绍。

HDInsight提供Hive和Pig的实现集成数据处理和仓储能力。微软的大数据解决方案，集成了微软的BI工具，如SQL Server分析服务，报表服务的PowerPivot和Excel。这使

您能够存储和管理的HDInsight中的BLOB存储的数据进行简单的BI。

其他的Apache兼容的技术和姐姐的技术是Hadoop的生态系统的一部分，已建成的Hadoop集群，也可以下载上运行使用与HDInsight。这些措施包括开源技术，如Sqoop它与关

系数据存储整合HDFS。

Pig

Pig是在Hadoop集群处理大数据的高层次平台。Pig由数据流语言，称为Pig拉丁，对大型数据集和运行从一个控制台程序的执行环境支持编写查询。猪八戒拉丁程序包括数

据集中改造系列在幕后转换，以一个MapReduce的系列节目。Pig拉丁抽象提供了更丰富的数据结构比的MapReduce和Hadoop的执行对关系数据库管理系统（RDBMS）有什么

SQL执行。Pig拉丁是完全可扩展的。用户定义函数（UDF），用Java编写的，Python和Ruby，C＃或JavaScript，可以称得上组成分析时，以自定义每个处理路径的阶段。有

关更多信息，请参阅欢迎Apache的Pig！

Hive

Hive是一个分布式数据仓库管理存储在HDFS中的数据。它是Hadoop的查询引擎。Hive是分析师具有较强的SQL技能提供了一个类似SQL的接口和关系数据模型。Hive采用了一

种名为HiveQL语言; SQL方言。Hive，像Pig，是MapReduce和之上的抽象运行时，Hive查询转换成一系列的MapReduce作业。场景Hive更接近在概念上那些RDBMS，因此适用

于更多的结构化数据的使用。对于非结构化数据，Pig是更好的选择。有关更多信息，请参阅欢迎到ApacheHive！

Sqoop

Sqoop是工具，传送Hadoop和关系数据库这样的SQL或其他结构化数据存储之间的大容量数据，尽可能高效。使用Sqoop从外部结构化数据存储的数据导入到HDFS或相关系统

，如Hive。 Sqoop也可以从的Hadoop提取数据，并将所提取的数据输出到外部的关系型数据库，企业数据仓库，或任何其它结构化数据存储类型。有关更多信息，请参见

Apache Sqoop网站。

Oozie

阿帕奇Oozie是管理Hadoop作业工作流程/协作系统。它集成了的Hadoop堆栈并且支持Hadoop作业的MapReduce的Apache，Apache的Pig，Apache的Hive和Apache Sqoop。它也

可以被用来调度特定于系统的工作，如Java程序或外壳脚本。

Ambari

Apache的Ambari可以配置，管理和监控的Apache Hadoop集群。它包括一个直观的集合的操作符的工具和一组健壮隐藏Hadoop的复杂的API，简化了集群的操作。有关API的

详细信息，请参阅Ambari API参考。 HDInsight目前只支持Ambari监控功能。 Ambari API1.0版本是由HDInsight群集版本2.1和3.0的支持。有关Ambari的更多信息，请查看Apache Ambari网站。

微软的Avro库

微软的Avro库实现对Microsoft.NET环境中Apache的 Avro的数据序列化系统。Apache的的Avro提供了串行化的紧凑的二进制数据交换格式。它使用JSON来定义承销语言的互

操作性语言无关的架构。连载于一种语言的数据可以读取另一个。目前，C，C ++，C＃，Java，PHP和Python和Ruby的支持。详细信息的格式可以在Apache的Avro规范中找

到。需要注意的是微软阿夫罗库的当前版本不支持远程过程调用（RPC）的本说明书的一部分。

Apache的阿夫罗序列化格式被广泛用于AzureHDInsight和其他Apache的的Hadoop环境。阿夫罗提供了一种方便的方式来表示一个的HadoopMapReduce工作中的复杂数据结构

。的阿夫罗文件的格式已经被设计为支持分布式MapReduce编程模型。键功能，使分布是该文件是在一个可以寻求在一个文件中的任何点，并开始从一个特定块读意义上的“

分裂型”。有关更多信息，请参见微软的Avro库序列化的数据。

商业智能工具和连接器

熟悉商业智能（BI）工具 - 如Excel，PowerPivot的，SQL Server分析服务和报表服务 - 检索，分析和报告整合了HDInsight使用两种电源查询加载项或微软HiveODBC驱动

程序的数据。
•微软功率查询Excel可以从Microsoft下载中心下载。

•微软HiveODBC驱动程序可以从这个网站下载进行下载。

•有关信息分析服务，请参阅SQL Server2012分析服务。

•有关信息报表服务，请参阅SQL Server2012报表。

大数据场景HDInsight

一示范性方案提供了一个用例HDInsight是一个特设的分析，在批处理形式，在整个非结构化数据集存储在Azure节点，它们不需要频繁更新。

这些条件适用于各种各样的商业，科学和治理活动。这些措施可能包括，例如，监控供应链，零售，金融可疑的交易模式，需求模式的公用事业和服务，空气和环境传感器

在大都市地区的数组，或者犯罪模式的水质。

HDInsight（和的Hadoop技术，一般的）是处理大量记录或存档数据，不需要频繁更新一次，它是写的最合适的，那就是经常阅读，一般做一个全面的分析。这种情况下是

互补的更适当地通过一个关系数据库，需要较少量的数据（千兆字节，而不是PB的）处理的数据，和必须被不断地更新或查询的完整数据集内的特定数据点。 RDBMS与按照

固定的模式组织和存储结构化数据是最好的。 MapReduce的可以很好地处理非结构化数据，没有预定义的模式，因为它是能够解释当它正在处理该数据。

接下来的步骤：HDInsight资源

微软：HDInsight
•HDInsight文档：针对AzureHDInsight文档页面的链接，文章，视频和更多的资源。

•HDInsight发行说明：在最新的版本中的注意事项。

•开始使用AzureHDInsight：一个教程，提供了一个快速入门使用HDInsight。

•运行HDInsight例子：如何在运行附带HDInsight样品的教程。

•大数据和Azure：大数据方案的探索，你可以用Azure建什么。

•AzureHDInsight SDK：参考文档的HDinsight SDK。

微软：Windows和SQL数据库
•Azure主页：场景，免费试用注册后，你需要开始构建应用程序的开发工具和文档。

•SQL Azure数据库：MSDN文档SQL数据库。

•管理门户的SQL数据库：一个轻量级的，易于使用的数据库管理工具，用于在云中管理SQL数据库。

•Adventure Works的SQL数据库：SQL数据库示例数据库下载页面。

微软：商务智能
•连接Excel来HDInsight与Power查询：了解如何将Excel连接到存储您的HDInsight群集使用Microsoft电力查询Excel中相关的数据的Azure存储账户。

•连接Excel来HDInsight与微软HiveODBC驱动程序：了解如何从AzureHDInsight导入数据与MicrosoftHiveODBC驱动程序。

•微软BI的PowerPivot：下载并获取了强大的数据混搭和探索工具的信息。

•SQL Server 2012中的分析服务：下载SQL Server2012的评估版本和学习如何建立全面的企业级分析解决方案，提供可操作的见解。

•SQL Server 2012的报表：下载SQL Server2012的评估版本和了解如何创建全面的，高度可扩展的解决方案，实现实时决策在整个企业。

Apache的的Hadoop：
•Apache的的Hadoop：了解更多关于Apache 的Hadoop软件库，一个框架，允许大型数据集整个计算机集群的分布式处理。

•HDFS：了解更多有关Hadoop分布式文件系统（HDFS），使用的Hadoop应用的主存储系统的架构和设计。

•MapReduce：了解更多关于编程框架用于编写的Hadoop应用程序，快速处理海量数据并行的大型集群计算节点。

本文翻译自Microsoft Azure官网：http://azure.microsoft.com/en-us/documentation/articles/hdinsight-introduction/

推荐文章：

在HDInsight中的Hadoop介绍，hdinsighthadoop