hive regex insert join group cli，hiveregex

文章由LinuxBoy分享于2019-03-27 05:03:14热评（352）

hive regex insert join group cli，hiveregex

1.insert
Insert时，from子句既可以放在select子句后，也可以放在insert子句前，下面两句是等价的
hive> FROM invites a INSERT OVERWRITE TABLE eventsSELECT a.bar, count(*) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECTa.bar, count(*) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
2.导出文件到本地
INSERTOVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
一个源可以同时插入到多个目标表或目标文件，多目标insert可以用一句话来完成
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.*WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key,src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3PARTITION(ds='2014-08-22', hr='12') SELECT src.key WHERE src.key >= 200 andsrc.key < 300
INSERT OVERWRITE LOCAL DIRECTORY'/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;
运行一个脚本(两种方式)
HIVE_HOME/bin/hive-f /home/my/hive-script.sql
HIVE_HOME/bin/hive-i /home/my/hive-init.sql
3.hive CLI
hive>set i=32;
hive> set i;
hive> select a.* from xiaojun a;
hive> !ls;
hive> dfs -ls;
eg:
hive> set$i='121.61.99.14.128160791368.5';
hive> selectcount(*) from c02_clickstat_fatdt1 where cookie_id=$i;
4.REGEX Column
SELECT 语句可以使用正则表达式做列选择，下面的语句查询除了 ds 和 hr 之外的所有列：SELECT `(ds|hr)?+.+` FROM sales

5.Sort By 语法：
Sort顺序将根据列类型而定。如果数字类型的列，则排序顺序也以数字顺序。如果字符串类型的列，则排序顺序将按字典顺序。
colOrder: ( ASC | DESC )
sortBy: SORT BY colName colOrder? (',' colName colOrder?)*
query: SELECT expression (',' expression)* FROM src sortBy
6.group by
高级特性：
聚合可进一步分为多个表，甚至发送到Hadoop的DFS的文件（可以进行操作，然后使用HDFS的utilitites）。例如我们可以根据性别划分，需要找到独特的页面浏览量按年龄划分。如下面的例子：
FROM pv_users
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender, count(DISTINCT pv_users.userid)
GROUP BY pv_users.gender
INSERT OVERWRITE DIRECTORY '/user/facebook/tmp/pv_age_sum'
SELECT pv_users.age, count(DISTINCT pv_users.userid)
GROUP BY pv_users.age;

hive.map.aggr可以控制怎么进行汇总。默认为为true，配置单元会做的第一级聚合直接在MAP上的任务。这通常提供更好的效率，但可能需要更多的内存来运行成功。
set hive.map.aggr=true;
SELECT COUNT(*) FROM table2;
PS:在要特定的场合使用可能会加效率。不过我试了一下，比直接使用False慢很多。
1.Join
Hive 只支持等值连接（equality joins）、外连接（outer joins）和（left/right joins）。Hive 不支持所有非等值的连接，因为非等值连接非常难转化到 map/reduce 任务。另外，Hive 支持多于 2 个表的连接。
例如：
SELECT a.* FROMa JOIN b ON (a.id = b.id)
SELECT a.* FROMa JOIN b
ON (a.id =b.id AND a.department = b.department)
是正确的，然而:
SELECT a.* FROMa JOIN b ON (a.id b.id)
是错误的。
a.可以 join 多于 2 个表。
例如
SELECT a.val,b.val, c.val FROM a JOIN b
ON (a.key =b.key1) JOIN c ON (c.key = b.key2)
如果join中多个表的 join key 是同一个，则 join 会被转化为单个 map/reduce 任务，例如：
SELECT a.val,b.val, c.val FROM a JOIN b
ON (a.key =b.key1) JOIN c
ON (c.key =b.key1)
被转化为单个 map/reduce 任务，因为 join 中只使用了 b.key1 作为 join key。
SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key =b.key1)
JOIN c ON (c.key= b.key2)
而这一 join 被转化为 2 个map/reduce 任务。因为 b.key1 用于第一次join 条件，而 b.key2 用于第二次 join。
b.join 时，每次 map/reduce 任务的逻辑：
reducer 会缓存 join 序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。例如：
SELECT a.val,b.val, c.val FROM a
JOIN b ON(a.key = b.key1) JOIN c ON (c.key = b.key1)
所有表都使用同一个 join key（使用 1 次map/reduce 任务计算）。Reduce 端会缓存 a 表和 b 表的记录，然后每次取得一个 c 表的记录就计算一次 join 结果，类似的还有：
SELECT a.val,b.val, c.val FROM a
JOIN b ON(a.key = b.key1) JOIN c ON (c.key = b.key2)
这里用了 2 次 map/reduce 任务。第一次缓存 a 表，用 b 表序列化；第二次缓存第一次 map/reduce 任务的结果，然后用 c 表序列化。
c.LEFT，RIGHT 和 FULLOUTER 关键字用于处理 join 中空记录的情况。
例如：
SELECT a.val,b.val FROM a LEFT OUTER
JOIN b ON(a.key=b.key)
对应所有 a 表中的记录都有一条记录输出。输出的结果应该是 a.val, b.val，当 a.key=b.key 时，而当 b.key 中找不到等值的 a.key 记录时也会输出 a.val, NULL。“FROM a LEFT OUTER JOIN b”这句一定要写在同一行——意思是 a 表在 b 表的左边，所以 a 表中的所有记录都被保留了；“aRIGHT OUTER JOIN b”会保留所有 b 表的记录。OUTER JOIN 语义应该是遵循标准 SQL spec的。
Join 发生在 WHERE 子句之前。如果你想限制 join 的输出，应该在 WHERE 子句中写过滤条件——或是在 join 子句中写。这里面一个容易混淆的问题是表分区的情况：
SELECT a.val,b.val FROM a
LEFT OUTER JOINb ON (a.key=b.key)
WHEREa.ds='2014-08-22' AND b.ds='2014-08-022'
会 join a 表到 b 表（OUTERJOIN），列出 a.val 和 b.val 的记录。WHERE 从句中可以使用其他列作为过滤条件。但是，如前所述，如果 b 表中找不到对应 a 表的记录，b 表的所有列都会列出NULL，包括 ds 列。也就是说，join 会过滤 b 表中不能找到匹配a 表 join key 的所有记录。这样的话，LEFTOUTER 就使得查询结果与 WHERE 子句无关了。解决的办法是在 OUTER JOIN 时使用以下语法：
SELECT a.val,b.val FROM a LEFT OUTER JOIN b
ON (a.key=b.keyAND
b.ds='2014-08-22' AND
a.ds='2014-08-22')
这一查询的结果是预先在 join 阶段过滤过的，所以不会存在上述问题。这一逻辑也可以应用于 RIGHT 和 FULL 类型的 join 中。
Join 是不能交换位置的。无论是 LEFT 还是 RIGHT join，都是左连接的。
SELECT a.val1,a.val2, b.val, c.val
FROM a
JOIN b ON (a.key= b.key)
LEFT OUTER JOINc ON (a.key = c.key)
先 join a 表到 b 表，丢弃掉所有join key 中不匹配的记录，然后用这一中间结果和 c 表做 join。这一表述有一个不太明显的问题，就是当一个 key 在 a 表和 c 表都存在，但是 b 表中不存在的时候：整个记录在第一次 join，即 a JOIN b 的时候都被丢掉了（包括a.val1，a.val2和a.key），然后我们再和 c 表 join 的时候，如果c.key 与 a.key 或 b.key 相等，就会得到这样的结果：NULL, NULL, NULL, c.val。

推荐文章：

hive regex insert join group cli，hiveregex

hive regex insert join group cli，hiveregex

最新云计算教程

Linux头条

hive regex insert join group cli，hiveregex

hive regex insert join group cli，hiveregex

相关内容

最新云计算教程

Linux头条