<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          MySQL 大批量插入,如何快速過(guò)濾掉重復(fù)數(shù)據(jù)?

          共 3755字,需瀏覽 8分鐘

           ·

          2021-07-21 19:59


          相關(guān)閱讀

          300本計(jì)算機(jī)編程的經(jīng)典書(shū)籍下載

          AI全套:Python3+TensorFlow打造人臉識(shí)別智能小程序

          最新人工智能資料-Google工程師親授 Tensorflow-入門(mén)到進(jìn)階

          Java架構(gòu)全階段七期完整

          黑馬頭條項(xiàng)目 - Java Springboot2.0(視頻、資料、代碼和講義)14天完整版

          Spring核心編程思想

          來(lái)源:telami.cn/2019/mysql-removes-duplicate
          -data-and-keeping-only-one/
          線上庫(kù)有6個(gè)表存在重復(fù)數(shù)據(jù),其中2個(gè)表比較大,一個(gè)96萬(wàn)+、一個(gè)30萬(wàn)+,因?yàn)橹疤幚磉^(guò)相同的問(wèn)題,就直接拿來(lái)了上次的Python去重腳本,腳本很簡(jiǎn)單,就是連接數(shù)據(jù)庫(kù),查出來(lái)重復(fù)數(shù)據(jù),循環(huán)刪除。

          emmmm,但是這個(gè)效率嘛,實(shí)在是太低了,1秒一條,重復(fù)數(shù)據(jù)大約2萬(wàn)+,預(yù)估時(shí)間大約在8個(gè)小時(shí)左右。。。

          盲目依靠前人的東西,而不去自己思考是有問(wèn)題的!總?cè)ハ胫霸趺纯梢裕F(xiàn)在怎么不行了,這也是有問(wèn)題的!我發(fā)現(xiàn),最近確實(shí)狀態(tài)不太對(duì),失去了探索和求知的欲望,今天算是一個(gè)警醒,頗有迷途知返的感覺(jué)。

          言歸正傳,下面詳細(xì)介紹去重步驟。

          CREATE TABLE `animal` (
            `id` int(11NOT NULL AUTO_INCREMENT,
            `name` varchar(20DEFAULT NULL,
            `age` int(11DEFAULT NULL,
            PRIMARY KEY (`id`)
          ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


          INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('1''cat''12');
          INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('2''dog''13');
          INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('3''camel''25');
          INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('4''cat''32');
          INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('5''dog''42');

          目標(biāo):我們要去掉name相同的數(shù)據(jù)。

          先看看哪些數(shù)據(jù)重復(fù)了

          SELECT name,count1 ) 
          FROM
           student 
          GROUP BY
          NAME 
          HAVING
           count1 ) > 1;

          輸出:

          name count(1) cat 2 dog 2

          name為cat和dog的數(shù)據(jù)重復(fù)了,每個(gè)重復(fù)的數(shù)據(jù)有兩條;

          Select * From 表 Where 重復(fù)字段 In (Select 重復(fù)字段 From 表 Group By 重復(fù)字段 Having Count(1)>1)

          刪除全部重復(fù)數(shù)據(jù),一條不留

          直接刪除會(huì)報(bào)錯(cuò)

          DELETE 
          FROM
           student 
          WHERE
           NAME IN (
           SELECT NAME 
           FROM
            student 
           GROUP BY
           NAME 
          HAVING
           count1 ) > 1)

          報(bào)錯(cuò):

          1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s

          原因是:更新這個(gè)表的同時(shí)又查詢了這個(gè)表,查詢這個(gè)表的同時(shí)又去更新了這個(gè)表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作

          解決辦法:把要更新的幾列數(shù)據(jù)查詢出來(lái)做為一個(gè)第三方表,然后篩選更新。

          DELETE 
          FROM
           student 
          WHERE
           NAME IN (
           SELECT
            t.NAME 
          FROM
           ( SELECT NAME FROM student GROUP BY NAME HAVING count1 ) > 1 ) t)

          刪除表中刪除重復(fù)數(shù)據(jù),僅保留一條

          在刪除之前,我們可以先查一下,我們要?jiǎng)h除的重復(fù)數(shù)據(jù)是啥樣的

          SELECT
           * 
          FROM
           student 
          WHERE
           id NOT IN (
           SELECT
            t.id 
           FROM
           ( SELECT MINid ) AS id FROM student GROUP BY `name` ) t 
           )

          啥意思呢,就是先通過(guò)name分組,查出id最小的數(shù)據(jù),這些數(shù)據(jù)就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要?jiǎng)h除的重復(fù)數(shù)據(jù)。

          開(kāi)始刪除重復(fù)數(shù)據(jù),僅留一條

          很簡(jiǎn)單,剛才的select換成delete即可

          DELETE 
          FROM
           student 
          WHERE
           id NOT IN (
           SELECT
            t.id 
           FROM
           ( SELECT MINid ) AS id FROM student GROUP BY `name` ) t 
           )

          90萬(wàn)+的表執(zhí)行起來(lái)超級(jí)快。

          All done ????????~

          看完本文有收獲?請(qǐng)轉(zhuǎn)發(fā)分享給更多人


          往期資源:


          Flutter 移動(dòng)應(yīng)用開(kāi)發(fā)實(shí)戰(zhàn) 視頻(開(kāi)發(fā)你自己的抖音APP)
          Java面試進(jìn)階訓(xùn)練營(yíng) 第2季(分布式篇)
          Java高級(jí) - 分布式系統(tǒng)開(kāi)發(fā)技術(shù)視頻


          瀏覽 53
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧洲一级黄色A片 | 亚洲中文字幕免费在线 | 久操视频在线播放 | 国产性爱在线观看 | 国产又黄又硬又无遮挡网站 |