刪庫后我選擇了自救。。。
在知乎看到這么個(gè)問題「不小心刪庫是一種怎樣的體驗(yàn)?」

不知道大家干過刪庫的事情嗎?
還別說,這事小林還真干過,不過我不是刪數(shù)據(jù)庫這么簡單,而是直接 rm -fr /*,更糟心的是在公司的服務(wù)器做的。
別問為什么我有權(quán)限執(zhí)行,因?yàn)檫@個(gè)臺服務(wù)器歸我管的,我都是直接 root 權(quán)限登錄的。
當(dāng)時(shí)是寫了個(gè) Bug,導(dǎo)致誤執(zhí)行了這條命令,我這年紀(jì)輕輕的身子瞬間被嚇的一身冷汗!
不過,這件事是去年的事情,然后最近看到群里有小伙伴也誤執(zhí)行了刪庫命令,翻了我刪庫的文章,找到了恢復(fù)的思路。
雖然這篇文章去年發(fā)過,但是當(dāng)時(shí)關(guān)注的人少看的人不多,所以今天再分享給大家。
我來跟大家復(fù)盤下,當(dāng)時(shí)的事件經(jīng)過,挺有意思的。
事件開始
去年臨近五一節(jié),想到有 5 天假期,我就開始飄了。寫個(gè)簡單的 Bash 腳本都不上心了,寫完連檢查都不檢查,直接拖到到實(shí)體服務(wù)器跑。
結(jié)果一跑起來,發(fā)生不對勁,怎么一個(gè)簡單腳本跑了 10 秒還沒結(jié)束,于是立馬直接 ctrl + c 一頓操作停掉了運(yùn)行中腳本。
接著,習(xí)慣性的輸入了 ls,結(jié)果 what?找不到 ls 命令?

瞬間背后一涼,慌慌張張打開了腳本。
發(fā)現(xiàn)問題了,小林我寫了個(gè)巨蠢的 Bug,間接執(zhí)行了 rm -fr /* ,這不意味著我刪庫了?

這臺是公司內(nèi)部使用的授權(quán)服務(wù)器呀,被小林這么一整,公司歷史的授權(quán)記錄和其他重要信息不就丟了?
心里慌的一批的小林,跟我的朋友們說了這件事,朋友建議我先第一時(shí)間上報(bào)給 leader,不要把刪庫的事情瞞著。
于是,小林就向 leader 說了我刪庫事情,本以為會被痛批一頓。
結(jié)果 leader 笑著說:“沒事,你先看看重要的文件還在不在。不過你這么一整,我突然想起編譯服務(wù)器半年沒備份,我先備份一下我的編譯服務(wù)器,防止哪天也被你們刪庫了?!?/p>
我:“????”
吃瓜的小伙伴,是不是覺得小林要刪庫跑路了?
哈哈哈,小林沒跑路,反而是恢復(fù)了回來,所以接下來說說小林是如何「從刪庫到恢復(fù)」的。
初探案發(fā)現(xiàn)場
來看看小林寫的垃圾代碼,是如何引發(fā)這次的刪庫。

既然發(fā)生了 rm -fr /* 的現(xiàn)象,那必然 new_lic_dir 這個(gè)變量是空的。
所以導(dǎo)致執(zhí)行 rm -fr $new_lic_dir/* 這條語句的時(shí)候,變成了 rm -fr /* 刪庫語句。很好,兇器找到了。
那為什么
new_lic_dir會是空的呢?
細(xì)心的小伙伴肯定察覺出來了,是因?yàn)榻o new_lic_dir 變量賦值的時(shí)使用了反引號。

沒錯(cuò),就是反引號的原因。
反引號在 Linux Shell 命令行中有特殊的含義:反引號間的內(nèi)容,會被 Shell 先執(zhí)行。其輸出被放入主命令后,主命令再被執(zhí)行。
也就是說, new_lic_dir 的值是 ${lic_path}/new_license 這條命令執(zhí)行的結(jié)果,問題這哪是命令啊,所以肯定返回空值給 new_lic_dir 變量。
小林寫的那么溫柔的代碼,竟然變成了窮兇極惡的刪庫代碼。

這下原因是找到了,反引號應(yīng)該改成雙引號才對。
小林你真菜呀,那么簡單的賦值命令都寫錯(cuò)。
哈哈哈,確實(shí)菜,都說了嘛,當(dāng)時(shí)快五一了,小林是飄著寫這份代碼的。
所以習(xí)慣性開啟程序員內(nèi)容的第一大武功:crtl+c 和 crtl+v。
把第一條賦值 lic_path=`pwd` 語句,復(fù)制粘貼了,然后只改了變量名,沒注意反引號要修改成雙引號,所以造成了刪庫的悲劇。
保留案發(fā)現(xiàn)場
既然發(fā)生了刪庫的事情,千萬不要重啟服務(wù)器,也不要關(guān)閉 ssh 連接的會話,而是要保留案發(fā)現(xiàn)場,接著查查還剩什么。
小林,這不是吹大炮嘛?
ls都沒了,還怎么查?
還好這次是比較幸運(yùn),因?yàn)樵趫?zhí)行腳本的時(shí)候,第一時(shí)間發(fā)現(xiàn)不對勁,立馬掐斷了還在運(yùn)行的腳本,所以并非 Linux 所有文件都被刪除了。
只要我掐的快,rm -fr /* 就干不死我。
雖然 ls 被刪了,但所幸發(fā)現(xiàn) cd 命令還能用。
只要 cd 用的好,它也能用出的 ls 效果。很簡單,只需 cd + Tab 鍵就會自動出現(xiàn)指定目錄下的所有文件。

有了 cd + Tab 鍵,我們就可以查看每個(gè)目錄下的文件,于是就可以一步一步來確認(rèn)哪些系統(tǒng)文件被刪了。
通過一番的確認(rèn)和對比后,發(fā)現(xiàn)主要被刪除的有四個(gè)目錄分別是
/bin、/boot、/dev這三個(gè)目錄整個(gè)都被刪除了/lib目錄里的動態(tài)庫部分被刪除
來復(fù)習(xí)下上面這四個(gè)目錄主要是存放了什么:
/bin存放常用系統(tǒng)命令,ls、cp、rm、chmod等常用命令都在此目錄;/boot系統(tǒng)啟動目錄,保存與系統(tǒng)啟動相關(guān)的文件,如內(nèi)核文件和啟動引導(dǎo)程序;/dev設(shè)備文件保存位置;/lib存放程序所需的動態(tài)庫和靜態(tài)庫文件;
/boot 都被刪除了,還好小林沒有重啟服務(wù)器,要是重啟了服務(wù)器,就完?duì)僮恿?,系統(tǒng)肯定起不來了。
cd 命令是在 /sbin 目錄下,/sbin 還健全,所以 cd 是可以正常使用。
所幸重要的數(shù)據(jù)庫信息和文件都還沒刪除,所以小林首要的目標(biāo)是要恢復(fù) /bin、/boot、/dev、/lib 這四個(gè)目錄。
還原文件
由于 /bin 目錄 和 /lib 部分動態(tài)文件被刪除,常用的傳遞文件的方式是無法使用的,如 ftp、scp、mount 等。
小林摸索了很久,竟然發(fā)現(xiàn) wget 可以使用,wget 命令是在 /usr/bin 目錄,所幸 /usr/bin 還健全。
于是,用了取巧的方法,先另一臺正常的服務(wù)器,把 /bin 目錄放到了 Web 服務(wù)器的 Web 目錄,接著通過 wget 進(jìn)行下載。

有戲,看到了成功的曙光。
但是新的問題就來了,我下載過來的命令文件,是沒有執(zhí)行權(quán)限的。

而 chmod 命令是在 /bin 目錄的,它同樣也被刪除了,無法使用它來給予文件權(quán)限。
還在,在網(wǎng)上搜到了一個(gè)偉大命令 perl,可以通過它來給予文件權(quán)限:
perl -e "chmod 777, 'ls'"
真是個(gè)神奇的命令。
好了,這下賦值權(quán)限問題也解決了,成功在望了。
wget 是無法直接把 /bin 目錄下載下來的,只能下載一個(gè)文件。
但是小林我不可能一個(gè)一個(gè)去下載來進(jìn)行恢復(fù),這得要何年何月才能完成。。。
小林就想到了一個(gè)方法:
先通過
wget的方式下載tar命令,并通過perl給予tar命令權(quán)限接著把另一臺服務(wù)器把
/bin目錄打包成壓縮文件,然后通過wget下載bin目錄的壓縮包文件最后通過
tar命令把bin壓縮包解壓出來
/bin 就這樣恢復(fù)回來啦,剩余的其他目錄 也是通過同樣的操作恢復(fù)了回來。
小林的笑容漸漸恢復(fù)了回來,哈哈哈哈哈哈哈哈哈哈哈哈

遇到 rm -fr /* 刪庫事件發(fā)生,一定要沉住氣,穩(wěn)住心態(tài)
本次刪庫事件,之所以小林能幸運(yùn)的恢復(fù)回來,有非常關(guān)鍵兩點(diǎn):
小林發(fā)現(xiàn)腳本執(zhí)行不正常,果斷立馬的掐斷它,沒有造成重要的數(shù)據(jù)庫信息被刪除,如果掐斷的時(shí)候再晚一點(diǎn),可能就真沒了。
小林發(fā)現(xiàn)常用命令無法使用的時(shí)候,沒有重啟服務(wù)器,不然服務(wù)器就起不來了,也沒有關(guān)閉 ssh 會話,不然無法在重新連接 ssh 會話了,也就無法進(jìn)行操作了。
如果以上兩點(diǎn)都沒做好,服務(wù)器恢復(fù)的難度就加大了很多,更嚴(yán)重的是五一節(jié)就沒的過了。

預(yù)防誤執(zhí)行 rm -fr /*
既然 rm -fr /* 是殘忍的兇器,那么預(yù)防它是很有必要的,接下來跟大家討論討論預(yù)防它的幾種方案。
方案一:rm -rf 刪除目錄時(shí)要判斷目錄
#!/bin/bash
work_path=`pwd`
#如果目錄不為空,才執(zhí)行刪除操作
if [ ${work_path} != "" ];then
rm -fr ${work_path}/*
fi
在執(zhí)行刪除目錄操作前,先判斷要刪除的目錄是否為空,不為空才執(zhí)行刪除操作。
方案二:Shell 腳本指定 set -u
執(zhí)行腳本的時(shí)候,如果遇到不存在的變量,Bash 默認(rèn)忽略它。
#!/bin/bash
echo $a
echo hello
上面代碼中,$a 是一個(gè)不存在的變量,執(zhí)行結(jié)果如下。
$ bash test.sh
hello
可以發(fā)現(xiàn),echo $a 輸出了一個(gè)空行,Bash 忽略了不存在的 $a,然后繼續(xù)執(zhí)行 echo hello。
最好是遇到變量不存在,腳本應(yīng)該報(bào)錯(cuò),而不是一聲不響地往下執(zhí)行。
set -u 就用來改變這種行為,在腳本加上它,遇到不存在的變量就會報(bào)錯(cuò),并停止執(zhí)行。
#!/bin/bash
set -u
rm -fr $a/*
echo hello
運(yùn)行結(jié)果如下:
$ bash test.sh
test.sh: line 4: a: unbound variable
可以看到,因?yàn)?nbsp;a 是未定義變量,腳本報(bào)錯(cuò)了,并且不再執(zhí)行后面的語句。
方案三:safe-rm 替換 rm
safe-rm 是一個(gè)開源軟件工具,這名字聽起來就很安全嘛,所以它是用來替代不太安全的 rm。
它可以在 /etc/safe-rm.conf 中配置路徑黑名單,定義哪些不能被 safe-rm 刪除。
我們可以將 safe-rm 更名為 rm,假設(shè)定義了 /etc/ 無能被刪除,那么刪除 /etc 時(shí)就會報(bào)錯(cuò):
$ rm -rf /etc/
safe-rm: skipping /etc/
方案四:建立回收站機(jī)制
Windows 是有回收站的,即使誤刪了,也可以在回收站恢復(fù)。
所以,我們也可以在 Linux 實(shí)現(xiàn)回收站的機(jī)制。
實(shí)現(xiàn)思路:
刪除文件時(shí),它并不真正執(zhí)行刪除操作,而是將文件移動到一個(gè)特定目錄,可以設(shè)置定時(shí)清楚回收站,或者在回收站里面的文件大小達(dá)到一定容量時(shí)(或者用時(shí)間做判斷)執(zhí)行刪除操作以騰出空間。
可以寫個(gè) Shell 腳本替換 rm 命令,或者在需要刪除文件的時(shí)候使用 mv 命令將文件移動到回收站。
① 創(chuàng)建回收站目錄
mkdir /home/.trash
② 編寫 remove.sh 腳本,內(nèi)容如下

③ 修改 ~/.bashrc, 用我們自建的 remove.sh 替代 rm 命令
alias rm="sh /home/remove.sh"
④ 設(shè)置 crontab,定期清空垃圾箱,如每天 0 點(diǎn)清空垃圾箱:
0 0 * * * rm -rf /home/.trash/*
⑤ 最后,執(zhí)行以下命令,使之生效
source ~/.bashrc
方案五:根文件掛載成只讀
在 /etc/fstab 文件,把 / 文件系統(tǒng)掛載成只讀的方式。

其中 remount,ro,就表示只讀的方式掛載。
只讀的方式掛載后,進(jìn)行刪除操作是無法成功的:

事后反思
涉及到 rm -fr 命令的代碼,要留個(gè)心眼,要反復(fù)檢查,要做好預(yù)防誤執(zhí)行 rm -fr /*,并在測試機(jī)驗(yàn)證完后,再拖到實(shí)體機(jī)上跑,千萬不可大意。
就算的發(fā)生了 rm -fr /*,要第一時(shí)間停掉它,并且要做到三不要:
不要慌,不要心跳爆炸(穩(wěn)住穩(wěn)?。?/span>
不要隱瞞刪庫事件(不丟人)
不要重啟服務(wù)器或斷開 ssh 會話(保留現(xiàn)場)
只要立馬掐斷 rm -fr /* ,它是干不死我們的。
利用當(dāng)下環(huán)境剩有的命令,冷靜分析,是有機(jī)會恢復(fù)的。
經(jīng)過這個(gè)事情后,小林收獲了一個(gè) title:「一個(gè)刪過庫沒跑路的男人」
酷吧!大家千萬不要向我學(xué)習(xí)哦
你好,我是公子龍,畢業(yè)于中科院,前大型計(jì)算機(jī)競賽冠軍,現(xiàn)算法工程師,拿過九家大廠的 offer 。
北漂七年,從小白到計(jì)算機(jī)競賽冠軍,讀研時(shí)通過實(shí)習(xí)和比賽收入 50 萬,點(diǎn)擊藍(lán)字查看我的編程之路。

