MySQL 大批量插入,如何過濾掉重復數(shù)據(jù)?

在公司加班到八點,此為背景。
加班原因是上線,解決線上數(shù)據(jù)庫存在重復數(shù)據(jù)的問題,發(fā)現(xiàn)了程序的bug,很好解決,有點問題的是,修正線上的重復數(shù)據(jù)。
線上庫有6個表存在重復數(shù)據(jù),其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數(shù)據(jù)庫,查出來重復數(shù)據(jù),循環(huán)刪除。
emmmm,但是這個效率嘛,實在是太低了,1秒一條,重復數(shù)據(jù)大約2萬+,預估時間大約在8個小時左右。。。
盲目依靠前人的東西,而不去自己思考是有問題的!總?cè)ハ胫霸趺纯梢裕F(xiàn)在怎么不行了,這也是有問題的!我發(fā)現(xiàn),最近確實狀態(tài)不太對,失去了探索和求知的欲望,今天算是一個警醒,頗有迷途知返的感覺。
言歸正傳,下面詳細介紹去重步驟。
CREATE TABLE `animal` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(20) DEFAULT NULL,
`age` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');
目標:我們要去掉name相同的數(shù)據(jù)。
先看看哪些數(shù)據(jù)重復了
SELECT name,count( 1 )
FROM
student
GROUP BY
NAME
HAVING
count( 1 ) > 1;
輸出:
namecount(1)cat2dog2
name為cat和dog的數(shù)據(jù)重復了,每個重復的數(shù)據(jù)有兩條;
Select * From 表 Where 重復字段 In (Select 重復字段 From 表 Group By 重復字段 Having Count(1)>1)
刪除全部重復數(shù)據(jù),一條不留
直接刪除會報錯
DELETE
FROM
student
WHERE
NAME IN (
SELECT NAME
FROM
student
GROUP BY
NAME
HAVING
count( 1 ) > 1)
報錯:
1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s
原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作
解決辦法:把要更新的幾列數(shù)據(jù)查詢出來做為一個第三方表,然后篩選更新。
DELETE
FROM
student
WHERE
NAME IN (
SELECT
t.NAME
FROM
( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)
刪除表中刪除重復數(shù)據(jù),僅保留一條
在刪除之前,我們可以先查一下,我們要刪除的重復數(shù)據(jù)是啥樣的
SELECT
*
FROM
student
WHERE
id NOT IN (
SELECT
t.id
FROM
( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t
)
啥意思呢,就是先通過name分組,查出id最小的數(shù)據(jù),這些數(shù)據(jù)就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要刪除的重復數(shù)據(jù)。另外,關注Java知音公眾號,回復“后端面試”,送你一份面試題寶典!
開始刪除重復數(shù)據(jù),僅留一條
很簡單,剛才的select換成delete即可
DELETE
FROM
student
WHERE
id NOT IN (
SELECT
t.id
FROM
( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t
)
90萬+的表執(zhí)行起來超級快。
All done ????????~
推薦閱讀:
入門: 最全的零基礎學Python的問題 | 零基礎學了8個月的Python | 實戰(zhàn)項目 |學Python就是這條捷徑
干貨:爬取豆瓣短評,電影《后來的我們》 | 38年NBA最佳球員分析 | 從萬眾期待到口碑撲街!唐探3令人失望 | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個海量小姐姐素描圖 |碟中諜這么火,我用機器學習做個迷你推薦系統(tǒng)電影
趣味:彈球游戲 | 九宮格 | 漂亮的花 | 兩百行Python《天天酷跑》游戲!
AI: 會做詩的機器人 | 給圖片上色 | 預測收入 | 碟中諜這么火,我用機器學習做個迷你推薦系統(tǒng)電影
小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!| 再見PDF提取收費! | 用90行代碼打造最強PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r機票提示器! |60行代碼做了一個語音壁紙切換器天天看小姐姐!|
年度爆款文案
點閱讀原文,領AI全套資料!


