在Hadoop监控页面如何查看Hive的完整SQL,hadoop监控hivesql
在Hadoop监控页面如何查看Hive的完整SQL,hadoop监控hivesql
如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。
此时可以点开一个application,点击Tracking URL: ApplicationMaster
进入到MapReduce Job job_1409xxxx,Job页面
点击左侧的Configuration
这里有此Job对应的所有参数,在 右上角的搜索框中输入string,
其中key为 hive.query.string对应的value值就是完整的hive SQL语。
如图
之前并没有好好看过Hadoop监控页面,现在发现这里其实也是值得研究的。
简单的办法是按小时分区,之后一次取一小时
hadoop主要实现了两部分,一是分布式存储系统,也就是HDFS,可以让你把东西存储到多台机器上,而你却感觉在使用一台机器一样,二是分布式计算框架MapReduce(第二代为YARN),也可以让你很简单的编写出并行运行的代码。
因为hadoop之前的大多数离线计算是基本sql的,所以会sql的比会编程的多,所以facebook在mapreduce的基础上包装了一层框架,可以用sql的形式在hadoop上进行离线计算,框架会把sql转化成mapreduce任务去执行,这个框架叫hive。
hive默认分析的是hdfs上的文件,所以特点的太慢,可以考虑使用基于hdfs的一种分布式nosql数据库,叫hbase,让hive分析hbase里的数据,会快点。另外hive还有很多替代品
评论暂时关闭