MySQL 大批量插入,如何過濾掉重復數(shù)據(jù)?
點擊上方“程序員大白”,選擇“星標”公眾號
重磅干貨,第一時間送達
文章轉(zhuǎn)載:程序員老鬼
線上庫有6個表存在重復數(shù)據(jù),其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數(shù)據(jù)庫,查出來重復數(shù)據(jù),循環(huán)刪除。
CREATE TABLE `animal` (`id` int(11) NOT NULL AUTO_INCREMENT,`name` varchar(20) DEFAULT NULL,`age` int(11) DEFAULT NULL,PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');
目標:我們要去掉name相同的數(shù)據(jù)
先看看哪些數(shù)據(jù)重復了
SELECT name,count( 1 )FROMstudentGROUP BYNAMEHAVINGcount( 1 ) > 1;
輸出:
name count(1) cat 2 dog 2
name為cat和dog的數(shù)據(jù)重復了,每個重復的數(shù)據(jù)有兩條;
Select * From 表 Where 重復字段 In (Select 重復字段 From 表 Group By 重復字段 Having Count(1)>1)
刪除全部重復數(shù)據(jù),一條不留
直接刪除會報錯
DELETEFROMstudentWHERENAME IN (SELECT NAMEFROMstudentGROUP BYNAMEHAVINGcount( 1 ) > 1)
報錯:
1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s
原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作
解決辦法:把要更新的幾列數(shù)據(jù)查詢出來做為一個第三方表,然后篩選更新。
DELETEFROMstudentWHERENAME IN (SELECTt.NAMEFROM( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)
刪除表中刪除重復數(shù)據(jù),僅保留一條
在刪除之前,我們可以先查一下,我們要刪除的重復數(shù)據(jù)是啥樣的
SELECT*FROMstudentWHEREid NOT IN (SELECTt.idFROM( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t)
開始刪除重復數(shù)據(jù),僅留一條
很簡單,剛才的select換成delete即可
DELETEFROMstudentWHEREid NOT IN (SELECTt.idFROM( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t)
推薦閱讀
關于程序員大白
程序員大白是一群哈工大,東北大學,西湖大學和上海交通大學的碩士博士運營維護的號,大家樂于分享高質(zhì)量文章,喜歡總結(jié)知識,歡迎關注[程序員大白],大家一起學習進步!
評論
圖片
表情


