一條 SQL 引發(fā)的事故,美女同事被開除了!
前言
事故發(fā)生的經(jīng)過。
由于數(shù)據(jù)數(shù)據(jù)庫中order_today數(shù)據(jù)量過大,當(dāng)時好像有700W了并且每天在以30W的速度增加。所以上司命令xxx將order_today內(nèi)的部分數(shù)據(jù)遷移到order_record中,并將order_today中的數(shù)據(jù)刪除。這樣來降低order_today表中的數(shù)據(jù)量。
由于考慮到會占用數(shù)據(jù)庫I/O,為了不影響業(yè)務(wù),計劃是9:00以后開始遷移,但是xxx在8:00的時候,嘗試遷移了少部分數(shù)據(jù)(1000條),覺得沒啥問題,就開始考慮大批量遷移。


然后xxx就慌了,立即停止了遷移。
本以為停止遷移就就可以恢復(fù)了,但是并沒有。后面發(fā)生的你們可以腦補一下。
事故還原
在本地建立一個精簡版的數(shù)據(jù)庫,并生成了100w的數(shù)據(jù)。模擬線上發(fā)生的情況。
建立表結(jié)構(gòu)
訂單表
CREATE TABLE `order_today` (`id` varchar(32) NOT NULL COMMENT '主鍵',`merchant_id` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '商戶編號',`amount` decimal(15,2) NOT NULL COMMENT '訂單金額',`pay_success_time` datetime NOT NULL COMMENT '支付成功時間',`order_status` varchar(10) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT '支付狀態(tài) S:支付成功、F:訂單支付失敗',`remark` varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '備注',`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng)建時間',`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改時間 -- 修改時自動更新',PRIMARY KEY (`id`) USING BTREE,KEY `idx_merchant_id` (`merchant_id`) USING BTREE COMMENT '商戶編號') ENGINE=InnoDB DEFAULT CHARSET=utf8;
訂單記錄表
CREATE TABLE order_record like order_today;今日訂單表數(shù)據(jù)

模擬遷移
INSERT INTO order_record SELECT*FROMorder_todayWHEREpay_success_time < '2020-03-08 00:00:00';
在navicat中運行遷移的sql,同時開另個一個窗口插入數(shù)據(jù),模擬下單。



從上面可以發(fā)現(xiàn)一開始能正常插入,但是后面突然就卡住了,并且耗費了23s才成功,然后才能繼續(xù)插入。這個時候已經(jīng)遷移成功了,所以能正常插入了。
出現(xiàn)的原因
在默認的事務(wù)隔離級別下:insert into order_record select * from order_today 加鎖規(guī)則是:order_record表鎖,order_today逐步鎖(掃描一個鎖一個)。

通過觀察遷移sql的執(zhí)行情況你會發(fā)現(xiàn)order_today是全表掃描,也就意味著在執(zhí)行insert into select from 語句時,mysql會從上到下掃描order_today內(nèi)的記錄并且加鎖,這樣一來不就和直接鎖表是一樣了。
這也就可以解釋,為什么一開始只有少量用戶出現(xiàn)支付失敗,后續(xù)大量用戶出現(xiàn)支付失敗,初始化訂單失敗等情況,因為一開始只鎖定了少部分數(shù)據(jù),沒有被鎖定的數(shù)據(jù)還是可以正常被修改為正常狀態(tài)。由于鎖定的數(shù)據(jù)越來越多,就導(dǎo)致出現(xiàn)了大量支付失敗。最后全部鎖住,導(dǎo)致無法插入訂單,而出現(xiàn)初始化訂單失敗。
解決方案
最終的sql
INSERT INTO order_record SELECT*FROMorder_today FORCE INDEX (idx_pay_suc_time)WHEREpay_success_time <= '2020-03-08 00:00:00';
執(zhí)行過程

總結(jié)
使用insert into tablA select * from tableB語句時,一定要確保tableB后面的where,order或者其他條件,都需要有對應(yīng)的索引,來避免出現(xiàn)tableB全部記錄被鎖定的情況。
參考
https://blog.csdn.net/asdfsadfasdfsa/article/details/83030011
作者:不一樣的科技宅 來源:juejin.im/post/5e670f0151882549274a65ef
