差集sql
1. 求问:mysql如何查询两个字段数不同的表中数据不一致的记录
查询两张表数据不一致的记录,可以用求差集(非交集)的办法来解决。
SQL语言求"差集"的办法相对于求"交集"的办法要少很多,一般可用not exists(非存在子句)或 左(右)连接后所产生空字段值来筛选两表的差集。
下面举个例子供参考
选出a表中与b表中id不一致的记录
selecta.*fromawherenotexists(
select1frombwhereb.id=c.id);
说明:上述语句只比对id一个字段,我们可以根据需要比对多个字段。not exists在比对字段有可利用的索引时,其运行效率是非常高,但是如果没有索引的情况下运行在大数据表时,其运行效率极差,这时应避免使用它,这时我们可改用左(右)连接来求差集。
下面是用左连接来求差集的例子:
selecta.*fromaleftjoinbona.id=b.idwhereb.idisnull;
用左(右)连接来求差集,由于需要实施两表连接会导致笛卡尔效应其输出集的记录行可能会增多,若果不是一对一或一对多,我们应该将多对多的情况处理成多对一后才进行连接,否则输出的记录集可能不正确。
求差集的两种方法,有索引可利用时,not exists的效率要高于left join,反之left join效率更好。
2. 如何在access中用SQL语句求差集
推荐使用outer join
比如有2个表 table1和Table2
都有两个字段content
查询内容在table1但不在table2中的数据的语句是
select table1.*
from table1 left outer join table2
on table1.content=table2.content
where table2.content is null
反过来查询在table2不在table1中,则语句为
select table2.*
from table1 right outer join table2
on table1.content=table2.content
where table1.content is null
3. 关于sql查询b表中存在,a表中不存在的数据
这实际上是求非交集(差集)问题,sql语句求差集相对于求交集的办法要少得多。
求差集方法中,使用not in关键字进行筛选在逻辑上最容易理解,很多人都会想到利用到它,数据量不大时还行,但是它有个重大缺陷,那就是在碰到大数据表的情况下其运行效率极低,有没有可被利用的索引效率都一样极差。我曾在利用大数据表的测试中,发现not in 语句常常要花费数小时才能返回结果,最夸张的例子耗时竟然超过一天!在返回结果前数据查询会处在"假死"状态,让人感觉是返回了空集似的,其实不是那样的,只是数据库引擎尚未完成运算而已。
在有可被利用的索引情况下,我们可以利用非存在not exists子句来筛选出两表之间的差集,其运行效率是非常高的。以题主的语句为例可改写如下:
原来使用not in筛选差集,大数据表效率极差:
SELECT ipdz FROM ipdz_b WHERE ipdz not in(select ipdz_d from zj_b);
而使用not exists筛选差集,大数据表有索引可利用时返回结果酒快多了:
select b.ipdz from ipdz_b b where not exists(
select 1 from zj_b a where a.ipdz_d=b.ipdz);
请留意不要踩not exists的坑!尽管它在有可被利用的索引时运行效率极高,但是如果没可利用的索引它会跟not in一样在遇到大数据表时, 运行运行效率也很糟!
在没有索引可被利用的情况下,建议利用左(右)联接出现的null值来求出差集,但是需要留意并小心处理因两表连接所导致的记录行变多问题。
下面是以题主的表结构为例的sql语句写法,其返回结果集的速度还是很不错的:
left join 筛选差集:
select b.ipdz from ipdz_b b left join zj_b a on
a.ipdz_d=b.ipdz where a.ipdz_d is null;
这里假设a表的ipdz_d是唯一的,如果非唯一需调整如下
select b.ipdz from ipdz_b b left join (
select distinct ipzd_d from zj_b) a on
a.ipdz_d=b.ipdz where a.ipdz_d is null;
总结:
小数据量not in随便用,此方法逻辑简单,语句易于编写;
大数据量在有可利用的索引情况下,建议首选 not exists(因为效率最高);
大数据量时,有没有可被利用的索引not in都要避免使用。而not exists 在没索引可利用时也应避免使用,此时建议使用左left join或右连接返回差集会有比较好的表现。
后两种方法在逻辑上不太好理解,还要处理因连接导致的记录行变多问题,语句编写相对麻烦。
4. SQL 语句 两张表中的差集
我这么理解的你看是不是这个意思。
两表数据也都是一样的,主要看剩下的那200条
select * from tab1 where id not in (select id from tab2)
5. sql 查询取差集,需要根据两个字段来确定行
你给的例子太特殊了,可以看成是不同的数字的差,也可以看成是求和后的差。
第一种,同意1楼,用EXCEPT最简洁了
SELECT a, b from a except select a, b from b
第二种按照和来算
SELECT t1.a, SUM(t1.b) - SUM(t2.b)
FROM a t1
LEFT JOIN b t2
ON t1.a = t2. a
GROUP BY t1.a
最好可以对sum(t2.b)做一个null判断,oracle里面就是
SELECT t1.a, NVL(SUM(t1.b), 0) - NVL(SUM(t2.b), 0)
FROM a t1
LEFT JOIN b t2
ON t1.a = t2. a
GROUP BY t1.a
其他sql方言要对null判断作适当转换,类似
SELECT t1.a,
CASE WHEN SUM(t1.b) IS NULL THEN 0 ELSE SUM(t1.b) END
- CASE WHEN SUM(t2.b) IS NULL THEN 0 ELSE SUM(t2.b) END -
FROM a t1
LEFT JOIN b t2
ON t1.a = t2. a
GROUP BY t1.a
6. SQL集合运算:差集、交集、并集
原
SQL集合运算:差集、交集、并集
2011年03月30日 15:41:00
阅读数:15446
1、差集( except )
select a from t_a
except
select a from t_b
-- 也可写作:
select a from t_a where a not in (select a from t_b)
-- 多个字段时:
select a,b from t_a
except
select a,b from t_b
-- 多字段的查集也可写成:
select a,b from t_a where (a,b) not in (select a,b from t_b)
2、交集( intersect )
select a from t_a
intersect
select a from t_b
-- 也可写作:
select a from t_a where a in (select a from t_b)
3、并集( union )
select a from t_a
union distinct
select a from t_b
7. sql数据库中把两个表中的差集数据插入到第3个表,怎么写
insert into table_3 (column_1,column_2,column_3) select column_1,column_2,column_3 from table_1 minus select column_1,column_2,column_3 from table_2;
要点就是保持字段一致。
8. sql结果集相减
SELECT * FROM ET_CHARGE_PILE_DATA_INFO where data_status='normal'
MINUS
SELECT * FROM ET_CHARGE_PILE_DATA_INFO where charge_pile_info_id in (
select id from ET_CHARGE_PILE_INFO where CHARGE_STATION_INFO_id in(
select id from ET_CHARGE_STATION_INFO where operator_id in (
select id from ET_OPERATOR))) and data_status='normal'
前提是两条SQL查询出来的字段一模一样,则可以用 “MINUS”连接相减,得出差集
9. 求多个表交集的SQL语句是什么呀
使用 EXISTS 和 NOT EXISTS 查找交集与差集
使用 EXISTS 和 NOT EXISTS 引入的子查询可用于两种集合原理的操作:交集与差集。两个集合的交集包含同时属于两个原集合的所有元素。差集包含只属于两个集合中的第一个集合的元素。
city 列中 authors 和 publishers 的交集是作者和出版商共同居住的城市的集合。
USE pubs
SELECT DISTINCT city
FROM authors
WHERE EXISTS
(SELECT *
FROM publishers
WHERE authors.city = publishers.city)
下面是结果集:
city
--------
Berkeley
(1 row(s) affected)
当然,该查询可以写成一个简单的联接。
USE pubs
SELECT DISTINCT authors.city
FROM authors INNER JOIN publishers
ON authors.city = publishers.city
city 列中 authors 和 publishers 的差集是作者所居住的、但没有出版商居住的所有城市的集合,也就是除 Berkeley 以外的所有城市。
USE pubs
SELECT DISTINCT city
FROM authors
WHERE NOT EXISTS
(SELECT *
FROM publishers
WHERE authors.city = publishers.city)
该查询也可以写成:
USE pubs
SELECT DISTINCT city
FROM authors
WHERE city NOT IN
(SELECT city
FROM publishers)