Oracle中的in和exists区别


SQL查询语句中,经常会很多人对inexists的查询效率进行疑惑,很多人都认为exists查询速度要比in快,其实这个说话不绝对,existsin都有它们适合的场合,不然在SQL查询标准中,也不会一直不遗余力的进行支持。

先说in,通常情况下我们即认为是先将in子句里面的内容查询出来,然后对In的查询结果进行合并,再根据查询结果对主SQL进行一个个的查询,即相当于以下转换。
  select * from T1 where x in (select y from T2);  
  可以转换成如下  
  select * from T1,(select distinct y from T2) T2  
  where T1.x=T2.y;

再说existsexists即先从主SQL中找到每一条合适的记录,然后将结果放到子SQL中与之匹配,即  
  select * from T1 where exists (select NULL from T2 where T2.y=T1.x);  
  可以转换成
  for cursor1 in (select * from T1)  
  loop  
  if (exists (select NULL from T2 where T2.y=cursor1.x))  
  then  
  返回记录;  
  end if;  
end loop;

 

这样子,即我们很容易会认为在子SQL数据量比较大的时候,exists效率会高于in,而只有在in的结果集非常小的时候,in的效率才能比exists好, 这样是否就正确了呢?通过对很多的SQL进行分析,会发现这个准则也不绝对,特别是10g11g之后的数据库,inexist很多时候效果都差不多,这又是为什么呢?

再深入分析,Oracle优化器规则中有三种分析规则,以前主要是基于规则的优化器,即通过预先定义一系列的优先级顺序,比如唯一索引优先于普通索引,又或者是等于索引优先于大于索引,这样即按规则的优先顺序去执行SQL,所以我们就有了在子句结果集很小的时候,in查询速度会快于exists,反之则exists速度会更快的结论,在oracle 9i中,默认提供是基于选择的优化器,即当有分析数据时,采用基于成本的优化方式,没有则仍采用基于规则的查询方式,这样优化模式下基本等同于基于规则或者基于成本。在10g之后的版本,默认都是以基于成本的方式进行,这时候,oracle会先找出可能的执行方式,然后计算出每个执行计划的成本,再选择以较低成本的方式进行计算,这样子在对inexists的分析中,这两种写法会相互转换,那个统计的成本信息低则会选择那种方式。当然由于oracle的成本信息并不是全量统计得出来的结果,也会有一定的误差,再统计信息是需要人工(或定时)去执行统计的,如果操作大量数据后,没有进行统计,偏差也会很大。

这样子的分析是否准确了呢?inexists又是不是只有这两种查询方式呢?在基于成本的优化方式中,又如何对inexists进行优化?SQL的优化又是否与具体数据有关?

阅读延伸:关于Oracle中in和exists的区别:

相关内容

    暂无相关文章