在Hadoop监控页面如何查看Hive的完整SQL,hadoop监控hivesql


如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。


此时可以点开一个application,点击Tracking URL: ApplicationMaster

进入到MapReduce Job job_1409xxxx,Job页面

点击左侧的Configuration

这里有此Job对应的所有参数,在 右上角的搜索框中输入string,

其中key为 hive.query.string对应的value值就是完整的hive SQL语。

如图



之前并没有好好看过Hadoop监控页面,现在发现这里其实也是值得研究的。


问 hadoop +hive ,怎通过hive的sql实现分页查询(分批查询)

简单的办法是按小时分区,之后一次取一小时
 

Hadoop实现了云计算中的什构件,又有什构件是没有实现的,用Hadoop可以搭建一个完整的云计算平台?

hadoop主要实现了两部分,一是分布式存储系统,也就是HDFS,可以让你把东西存储到多台机器上,而你却感觉在使用一台机器一样,二是分布式计算框架MapReduce(第二代为YARN),也可以让你很简单的编写出并行运行的代码。
因为hadoop之前的大多数离线计算是基本sql的,所以会sql的比会编程的多,所以facebook在mapreduce的基础上包装了一层框架,可以用sql的形式在hadoop上进行离线计算,框架会把sql转化成mapreduce任务去执行,这个框架叫hive。
hive默认分析的是hdfs上的文件,所以特点的太慢,可以考虑使用基于hdfs的一种分布式nosql数据库,叫hbase,让hive分析hbase里的数据,会快点。另外hive还有很多替代品
 

相关内容