mysql去重怎么解决 去重 mysql

mysql中去重 用group by优化distinct 用法

在使用 MySQL 时,有时需要查询出某个字段不重复的记录,这时可以使用mysql提供的distinct这个关键字来过滤重复的记录,但是实际中我们往往用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段,例如有如下表user:

创新互联长期为上1000家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为宁陵企业提供专业的成都网站设计、网站制作,宁陵网站改版等技术服务。拥有10余年丰富建站经验和众多成功案例,为您定制开发。

用distinct来返回不重复的用户名:select distinct name from user;,结果为:

这样只把不重复的用户名查询出来了,但是用户的id,并没有被查询出来:select distinct name,id from user;,这样的结果为:

distinct name,id 这样的mysql 会认为要过滤掉name和id两个字段都重复的记录,如果sql这样写:select id,distinct name from user,这样mysql会报错,因为distinct必须放在要查询字段的开头。

所以一般distinct用来查询不重复记录的条数。

如果要查询不重复的记录,有时候可以用group by :

select id,name from user group by name;

MySQL_select distinct无法实现只对单列去重,并显示多列结果的解决方法

可以看到表中的value字段有重复,如果想筛选去重,使用select distinct语句如下:

得到结果会是

| value

| a

| b

| c

| e

| f

筛选去重是实现了,可是只有选中的value列显示了出来,如果我想知道对应的id呢?

尝试一下把id字段加入sql语句,如下:

得到结果:

| value | id

| a | 1

| b | 2

| c | 3

| c | 4

| e | 5

| f | 5

更换一下sql语句中id和value的顺序,如下:

得到结果:

| id |value

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | e

| 5 | f

好像看明白它的作用结果了,只有id和value两个字段同时重复时,select distinct语句才会把它列入“去重”清单

所以能看到id为3和4的value虽然都是4,但由于select语句中写了id字段,它也默认会对id字段起效。

而且如果sql语句中把DISTINCT放到只想起效的字段前,那也是不行的....比如sql语句改为:

会提示sql报错。

那到底怎么样能得到我想要的只对value字段内容去重,显示结果又能保留其他字段内容呢....

找到的解决方法是使用group by函数,sql语句如下:

得到结果:

| min(id) |value

| 1 | a

| 2 | b

| 3 | c

| 5 | e

| 5 | f

完成目标了✔!

如果把sql语句中的min()换成max()呢?

得到结果:

| min(id) |value

| 1 | a

| 2 | b

| 4 | c

| 5 | e

| 5 | f

也完成目标了✔!

同时比对两次sql运行结果可以发现,

第一次使用min(id)时,由于重复结果存在两条而id最小的为为3,符合min(id)的筛选条件,所以结果中把id等于4的重复记录删除了。

第二次使用max(id)时结果中,也就把id等于3的重复记录删除了

可以推论到假如还存在一条id=5,value=c的记录,使用max(id)时得到的结果里就会是5 c这条了。

再来尝试一下,如果min()和max()用在value字段里呢:

得到结果:

| id |min(value)

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | e

得到结果:

| id |min(value)

| 1 | a

| 2 | b

| 3 | c

| 4 | c

| 5 | f

再仔细想想,这种需求也只出现在不是那么care显示结果中,非去重目标字段的内容时才能使用,如果需要指定这些字段的值,可能筛选条件就不是min()和max()那么简单了....

以上。

怎么删除重复的Mysql数据?

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考。

第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表

1 create table tmp3 as select min(id) as col1 from data_content_152 group by SFZHM;

第二步:创建新表RES

1234 CREATE TABLE `res` (`id` int(11),`sfz` char(20)) ENGINE=MyISAM;

第三步:把TMP3表ID对应到data_content_152里需要提取的数据添加到RES表的SFZ字段

1 INSERT INTO res (sfz) SELECT sfzhm FROM data_content_152,tmp3 where data_content_152.id=tmp3.col1

至此,就在MYSQL里实现了,给数据表data_content_152完全删除重复数据,把去重复后的数据导入到RES表。


新闻标题:mysql去重怎么解决 去重 mysql
网页链接:http://azwzsj.com/article/doojgoh.html