Llama－impala on yarn的中间协调服务，llama-impalayarn

文章由LinuxBoy分享于2019-03-27 10:03:50热评（253）

Llama－impala on yarn的中间协调服务，llama-impalayarn

本文基于CDH发行版下的Hadoop Yarn和Impala

早期的Impala版本中，为了使用Impala，我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务，并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后，Impala开始支持Impala-on-yarn模式，通过一个叫做Llama(Long-Lived Application Master)的中间协调Yarn和Impala，向Hadoop Yarn资源管理器申请计算资源。

1、Llama介绍

Llama(Long-LivedApplicationMaster)是位于ClouderaImpala和HadoopYARN之间，用于协调资源管理的服务系统。在一个Hadoop集群中，Impala可以通过Llama预约、使用以及释放资源分配，以减少执行Impala查询时过多的资源管理用度。只有在Impala中启用资源管理，集群中的Llama服务才真正运作。
默认情况下，YARN根据MapReduce工作的需要按位分配资源，而Impala则需要所有资源在同一时间可用，以保证查询的中间结果能够在不同节点间交换，而不需要拖延查询时间来等待新的资源分配，Llama就是为了在每个Impala查询开始执行前就可保证其需要的资源都可用而出现。
若一个查询执行完毕，Llama会将资源进行缓存，确保在执行Impala子查询时可以使用。这种缓存机制避免了每个查询执行前都需要进行新的资源请求。同时，如果YARN需要该资源用于其他工作，Llama就会将这部分资源还给YARN。
需要注意的是：Llama仅支持YARN，不能与MRv1结合使用，同时，Llama也是通过YARN的配置文件与Hadoop进行协作的。

2、控制计算资源预估

我们提交SQL到Impala后，有时会错误的预估该次查询可能消耗的计算资源，Impala支持用户设置默认的内存和CPU资源申请大小，SQL运行过程中，一旦资源开始紧缺时，Impala会通过Llama向Yarn申请更多的资源来扩展（expanding）当前的预留资源，一旦查询作业完成，Llama通常会将资源还给Yarn。用户可以在启动使用impalad进程时加上-rm_always_use_defaults参数（必选）以及-rm_default_memory=size and -rm_default_cpu_cores（可选），Cloudera官方建议使用Impala-on-yarn时加上这些启动参数，可以让查询资源动态扩展。

3、验证计算资源预估和实际使用

为了使用户能够方便的验证查询语句所使用的集群资源大小，使用EXPLAIN语句可以查询相关内存预估的信息，以及使用到virtual core的大小。使用EXPLAIN并不会真正提交查询

4、资源限制的原理

CPU限制是通过Linux CGroups机制，Yarn在各个节点启动符合CGroups形式的Container进程

内存限制是通过限制Impala的查询内存，一旦查询请求被授权，Impala会在执行前设置内存上限

推荐文章：

Llama－impala on yarn的中间协调服务，llama-impalayarn