在HDInsight中开始使用Hadoop与Hive来分析移动手机使用,hdinsighthadoop


在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。然后,你将分析结果在Microsoft Excel中。

注意:
如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache Hadoop,MapReduce,HDFS和Hive。要了解HDInsight如何使Hadoop的在Azure中,看HDInsight

Hadoop的介绍。

在与Azure中HDInsight全面上市的同时,微软还提供了HDInsight仿真器Azure中,以前称为Microsoft HDInsight开发者预览版。该仿真器的开发目标方案,并只支持单节

点部署。对于使用HDInsight模拟器,请参阅开始使用HDInsight模拟器。


注意:
有关如何提供一个HBase的集群的说明,请参见HDInsight提供HBase的集群。看到什么是Hadoop和HBase的区别?要明白相比其他来说你为什么会选择这个。

 

这个教程怎么做到的?

假设你有一个大的非结构化数据集,并想要运行的查询就可以提取一些有意义的信息。这正是我们要做到在本教程中。下面是我们如何做到这一点:


您还可以观看本教程的演示视频:http://www.youtube.com/embed/v=Y4aNjnoeaHA?list=PLDrz-Fkcb9WWdY-Yp6D4fTC1ll_3lU-QS

先决条件:

 

开始之前本教程中,您必须具备以下条件:
•一个Azure订阅。有关获取订阅的详细信息,请参阅购买选择权,会员优惠或免费试用。
•计算机与Office2013专业增强版,Office 365的Pro Plus中时,Excel2013单机版或Office2010专业增强版。

预计时间完成:30分钟

在本教程
•创建一个Azure存储帐户
•提供一个HDInsight集群
•从门户网站运行样本
•运行HIVE工作
•下一步

 

创建Azure存储帐户

HDInsight使用Azure中Blob存储来存储数据。这就是所谓的WASB或Azure存储 - 的Blob。 WASB是HDFS的在Azure Blob存储Microsoft的实现。欲了解更多信息,请参阅使用

Azure中Blob存储与HDInsight。

当你提供一个HDInsight群集,则指定Azure存储账户。从该帐户的具体的Blob存储容器被指定为默认文件系统,就像在HDFS。该HDInsight群集是默认配置的,在同一个数

据中心作为指定的存储帐户。

除了这个存储账号,你可以添加额外的存储帐户,当你自定义配置HDInsight群集。这个额外的存储帐户可以是从同一Azure订阅或不同Azure中订阅。有关说明,请参阅使

用自定义选项提供HDInsight集群。

为了简化本教程中,只有默认的blob容器和默认的存储帐户的使用。在实践中,数据文件通常存储在一个指定的存储帐户。

要创建一个Azure存储帐户


1.Sign到Azure管理门户。
2。点击左下角,点数据服务,指向存储新建,然后单击快速创建。


3。输入网址,位置和复制,然后单击创建存储帐户。不支持的亲和性基团。你会看到列表存储在新的存储帐户。
注意:
快速创建选项,以提供一个HDInsight群集,就像我们在本教程中使用的,不会要求一个位置,同时置备集群。相反,它由缺省共同定位在集群中的同一个数据中心的存储

账户。因此,请确保您的支持群集的位置,这是创建存储账户:东亚,东南亚,北欧,西欧,美东,美西,北环美,南环美。
4。等到新的存储帐户的状态更改为联机。
5。从列表中选择新的存储帐户,然后从页面底部的管理访问密钥。
6。记下存储帐户的名称和主访问密钥(或次访问键。任一按键工作)。在后面的教程中,您将需要他们。
欲了解更多信息,请参阅如何创建一个存储帐户和使用Azure中 Blob存储与HDInsight。

提供的HDInsight群集


当你提供一个HDInsight群集时,提供Azure计算资源,包含Hadoop和相关应用。在本节中,你提供一个HDInsight群集的版本3.1,这是基于Hadoop的2.4版本。您还可以创

建Hadoop集群使用Azure中门户网站,HDInsight PowerShell命令,或HDInsight.NET SDK的其他版本。有关说明,请参阅使用自定义选项提供HDInsight集群。有关不同

HDInsight版本和他们的SLA信息,请参阅HDInsight组件版本页面。
注意:
本文中的步骤创建一个使用基本配置设置的HDInsight群集。对于其他群集的配置设置,如使用Azure中虚拟网络或metastore为Hive和Oozie的信息,请参阅提供一个

HDInsight群集。


为了提供一个HDInsight集群


1。登录到Azure管理门户。
2。点击左侧HDInsight列出群集在您的帐户的状态。在下面的截图中,有没有现成的HDInsight集群。

 


3.Click新的左下侧,点击数据服务,单击HDInsight,然后单击Hadoop的。

 

 

 


4.输入或选择以下值:

 

 

Name名称Value值
Cluster Name集群名称Name of the cluster 集群的名称
Cluster Size集群大小

Number of data nodes you want to deploy. The default value is 4. But the option to use 1 or 2 data nodes is also available from the drop-down. Any number of cluster nodes can be specified by using the Custom Create option. Pricing details on the billing rates for various cluster sizes are available. Click the ? symbol just above the dropdown box and follow the link on the pop up.

你想要的数据节点数量进行部署。默认值是4,但使用1个或2个数据节点选项也可下拉任何数量的群集节点可以通过使用自定义创建选项来指定。不同的簇大小结算利率定价细节点击只是符号下拉框上方,并按照弹出的链接。

Password密码

The password for the admin account. The cluster user name "admin" is specified when you are not using the Custom Create option. Note that this is NOT the Windows Administrator account for the VMs on which the clusters are provisioned. The account name can be changed by using the Custom Create wizard.

密码为admin帐户。当您不使用自定义创建选项的集群用户名“admin”指定。请注意,这不是群集配置的虚拟机的Windows管理员帐户帐户名可以通过使用自定义创建向导来改变。

Storage Account存储账号

Select the storage account you created from the dropdown box.
Once a storage account is chosen, it cannot be changed. If the storage account is removed, the cluster will no longer be available for use. The HDInsight cluster is co-located in the same datacenter as the storage account.

选择从下拉框中创建的存储帐户
 一旦一个存储帐户被选择,不能被改变如果存储帐户被移除时,群集将不再可用。HDInsight群集共同位于同一数据中心存储账户

保持群集名称的副本。以后在教程中你会需要它

 5.Click创建HDInsight群集。当配置完成后,状态列显示了运行。
注意:
以上步骤创建集群HDInsight群集的版本3.1。要创建其他集群的版本,使用的管理门户自定义create方法,还是使用Azure中的PowerShell。关于什么是每个群集的版本之

间的不同的信息,看看有什么新的HDInsight所提供的集群版本?有关使用自定义的信息来创建选项,请参阅使用自定义选项提供HDInsight集群。

 

 从门户网站运行简单实例


一个成功设置HDInsight集群提供了一个查询控制台直接从门户网站上运行的示例您可以使用样本来学习如何使用HDInsight通过一些基本的情况下行走工作这些样品具有所有必需的组件,如数据来分析查询中的数据运行。

要运行示例Azure管理门户中,单击运行该示例然后单击查询控制台页面底部群集名称从打开的网页中,单击入门画廊选项卡,然后样本类别中,单击运行该示例按照网页上的说明完成示例为了更多地了解每个样品呢,下面请单击链接

Sample示例What does it do?它做了什么?

Sensor data analysis

传感器数据分析

Learn how to use HDInsight to process historical data produced by heating, ventilation, and air conditioning (HVAC) systems to identify systems that are not able to reliably maintain a set temperature

学习如何使用HDInsight处理由加热,通风和空调(HVAC系统中产生的,以确定系统的历史数据不能够可靠地维持在设定温度

Website log analysis

网站日志分析

Learn how to use HDInsight to analyze website log files to get insight into the frequency of visits to the website in a day from external websites, and a summary of website errors that the users experience


学习如何使用HDInsight分析网站日志文件可了解从外部网站每天访问该网站次数以及网站错误的摘要,该用户的经验


请从门户HIVE查询

现在,你有一个配置的HDInsight集群,下一步是运行Hive作业查询Hivehivesampletable附带HDInsight集群该表包含关于移动设备制造商,平台和模型数据我们查询该表特定制造商来获取用于移动设备的数据。

若要从集群中仪表板上的Hive工作
1.SignAzure管理门户
2.Click HDINSIGHT从左侧窗格中将看到创建群集的列表包括你刚才上一节中创建的
运行Hive作业,然后单击查询CONSOLE页面底部3.Click群集名称
4
不同的浏览器选项卡上打开一个网页进入Hadoop的用户帐户和密码默认的用户名是admin;密码是同时置备集群是你进入仪表盘是这样的:

顶部的几个标签。默认选项卡Hive编辑器而其他选项卡作业历史记录和文件浏览器使用仪表板您可以提交Hive查询查询Hadoop的作业日志和浏览WASB文件。


注意:

注意,在Web页的URL<集群名称>.azurehdinsight.net因此而不是从管理门户打开仪表盘,还可以打开使用该URL的Web浏览器仪表板。

5.OnHive编辑器选项卡中,查询名称,输入HTC20查询名称职务

6.In查询窗格中输入以下查询

 

SELECT * FROM hivesampletable
    WHERE devicemake LIKE "HTC%"
    LIMIT 20;


 

 

7.单击提交。这需要一些时间来找回结果在屏幕的刷新间隔为30秒。您也可以点击刷新来刷新屏幕

一旦完成,该屏幕是这样的:

8.点击屏幕上的查询名称,查看输出作业开始时间UTC以后你会需要它

该页面还显示了作业输出作业日志您也可以下载输出文件_stdout和日志文件(_stderr的选项。


注意:

Hive编辑器选项卡中列出了完成或只要你留在该选项卡上运行的作业的作业会话表如果您离开页面表没有列出任何工作作业历史记录选项卡中保存的所有作业已完成或正在运行的列表


浏览到该输出文件
1.从群集面板单击文件浏览器顶部
2.Click您的存储帐户名称单击容器名称是相同的群集名称)然后单击用户
3
单击管理,然后单击它有最后修改时间工作后,一点点开始时间刚才记下的GUID记下此GUID您将需要在接下来的一节。

连接到Microsoft商业智能工具


您可以使用电源的查询加载项以Microsoft Excel中HDInsight导入作业输出到Excel中,在Microsoft商业智能BI)工具,可以用来进一步分析结果

您必须具有的Excel2010或2013安装来完成这部分教程

 

下载Microsoft电力查询为Excel


从Microsoft下载微软功率查询为Microsoft Excel中心下载并安装它。

 

导入HDInsight数据


1.  打开Excel,并创建一个新的空白工作簿
2单击Power查询菜单上,单击自其他来源然后单击来自Azure中HDInsight

3请输入您的集群相关的Azure中Blob存储帐户的帐户名称,然后单击确定。这是在本教程前面创建的存储帐户

4输入在Azure Blob存储帐户的帐户密钥,然后单击保存。

5在右侧导航窗格中双击BLOB存储容器名称默认情况下,容器名称相同的名称群集名称

6在名称列中找到标准输出验证GUID在相应的文件夹路径匹配刚才记下的GUID一场比赛表明,输出数据对应于您提交的作业。点击stdout上的左侧二进制

7单击关闭负载左上角Hive作业输出导入到Excel中。

接下来的步骤


在本教程中你已经学会了如何提供HDInsight群集,在其上运行一个MapReduce工作并且将结果导入到Excel中,他们可以进一步加工,并使用BI工具图形化显示。要了解更多信息请参阅以下文章
 

开始使用HDInsight模拟器
•使用Azure中 Blob存储HDInsight
•管理HDInsight使用PowerShell
•上传数据HDInsight
•使用的MapReduceHDInsight
•使用HiveHDInsight
•使用PigHDInsight
•使用了OozieHDInsight
•为HDInsight C#Hadoop的流媒体程序
•为HDInsight Java的MapReduce程序

本文翻译自Microsoft Azure官网:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started/

-->-->

相关内容