你了解Python的 垃圾回收 機(jī)制嗎?

作者 |?豆豆
來源 | Python技術(shù)
一、引用計(jì)數(shù)引用計(jì)數(shù)也是一種最直觀,最簡單的垃圾收集技術(shù)。在 Python 中,大多數(shù)對象的生命周期都是通過對象的引用計(jì)數(shù)來管理的。其原理非常簡單,我們?yōu)槊總€(gè)對象維護(hù)一個(gè) ref 的字段用來記錄對象被引用的次數(shù),每當(dāng)對象被創(chuàng)建或者被引用時(shí)將該對象的引用次數(shù)加一,當(dāng)對象的引用被銷毀時(shí)該對象的引用次數(shù)減一,當(dāng)對象的引用次數(shù)減到零時(shí)說明程序中已經(jīng)沒有任何對象持有該對象的引用,換言之就是在以后的程序運(yùn)行中不會再次使用到該對象了,那么其所占用的空間也就可以被釋放了了。我們來看看下面的例子。
函數(shù) print_memory_info 用來獲取程序占用的內(nèi)存空間大小,在 foo 函數(shù)中創(chuàng)建一個(gè)包含一百萬個(gè)整數(shù)的列表。從打印結(jié)果我們可以看出,創(chuàng)建完列表之后程序耗用的內(nèi)存空間上升到了 55 MB。而當(dāng)函數(shù) foo 調(diào)用完畢之后內(nèi)存消耗又恢復(fù)正常。這是因?yàn)槲覀冊诤瘮?shù) foo 中創(chuàng)建的 list 變量是局部變量,其作用域是當(dāng)前函數(shù)內(nèi)部,一旦函數(shù)執(zhí)行完畢,局部變量的引用會被自動銷毀,即其引用次數(shù)會變?yōu)榱悖加玫膬?nèi)存空間也會被回收。為了驗(yàn)證我們的想法,我們對函數(shù) foo 稍加改造。代碼如下:import osimport psutil# 打印當(dāng)前程序占用的內(nèi)存大小def print_memory_info(name):pid = os.getpid()p = psutil.Process(pid)info = p.memory_full_info()MB = 1024 * 1024memory = info.uss / MBprint('%s used %d MB' % (name, memory))# 測試函數(shù)def foo():print_memory_info("foo start")length = 1000 * 1000list = [i for i in range(length)]print_memory_info("foo end")foo()print_memory_info("main end")### 輸出結(jié)果foo start used 6 MBfoo end used 55 MBmain end used 10 MB
稍加改造之后,即使 foo 函數(shù)調(diào)用結(jié)束其所消耗的內(nèi)存也未被釋放。主要是因?yàn)槲覀儗⒑瘮?shù) foo 內(nèi)部產(chǎn)生的列表返回并在主程序中接收之后,這樣就會導(dǎo)致該列表的引用依然存在,該對象后續(xù)仍有可能被使用到,垃圾回收便不會回收該對象。那么,什么時(shí)候?qū)ο蟮囊么螖?shù)才會增加呢。下面四種情況都會導(dǎo)致對象引用次數(shù)加一。def foo():print_memory_info("foo start")length = 1000 * 1000list = [i for i in range(length)]print_memory_info("foo end")return list### 輸出結(jié)果foo start used 6 MBfoo end used 55 MBmain end used 55 MB
- 對象被創(chuàng)建(num=2)
- 對象被引用(count=num)
- 對象作為參數(shù)傳遞到函數(shù)內(nèi)部
- 對象作為一個(gè)元素添加到容器中
- 對象的別名被顯式銷毀(del num)
- 對象的別名被賦予新的對象(num=30)
- 對象離開它的作用域(函數(shù)局部變量)
- 從容器中刪除對象,或者容器被銷毀
我們看到,在函數(shù) foo 內(nèi)部生成了兩個(gè)列表 list_a 和 list_b,然后將兩個(gè)列表分別添加到另外一個(gè)中。由結(jié)果可以看出,即使 foo 函數(shù)結(jié)束之后其所占用的內(nèi)存空間依然未被釋放。這是因?yàn)閷τ?list_a 和 list_b 來說雖然沒有被任何外部對象引用,但因?yàn)槎咧g交叉引用,以至于每個(gè)對象的引用計(jì)數(shù)都不為零,這也就造成了其所占用的空間永遠(yuǎn)不會被回收的尷尬局面。這個(gè)缺點(diǎn)是致命的。為了解決交叉引用的問題,Python 引入了標(biāo)記清除算法和分代回收算法。def foo():print_memory_info("foo start")length = 1000 * 1000list_a = [i for i in range(length)]list_b = [i for i in range(length)]list_a.append(list_b)list_b.append(list_a)print_memory_info("foo end")return list### 輸出結(jié)果foo start used 6 MBfoo end used 93 MBmain end used 93 MB
二、標(biāo)記清除顯然,可以包含其他對象引用的容器對象都有可能產(chǎn)生交叉引用問題,而標(biāo)記清除算法就是為了解決交叉引用的問題的。標(biāo)記清除算法是一種基于對象可達(dá)性分析的回收算法,該算法分為兩個(gè)步驟,分別是標(biāo)記和清除。標(biāo)記階段,將所有活動對象進(jìn)行標(biāo)記,清除階段將所有未進(jìn)行標(biāo)記的對象進(jìn)行回收即可。那么現(xiàn)在的問題變?yōu)榱?GC 是如何判定哪些是活動對象的?事實(shí)上 GC 會從根結(jié)點(diǎn)出發(fā),與根結(jié)點(diǎn)直接相連或者間接相連的對象我們將其標(biāo)記為活動對象(該對象可達(dá)),之后進(jìn)行回收階段,將未標(biāo)記的對象(不可達(dá)對象)進(jìn)行清除。前面所說的根結(jié)點(diǎn)可以是全局變量,也可以是調(diào)用棧。標(biāo)記清除算法主要用來處理一些容器對象,雖說該方法完全可以做到不誤殺不遺漏,但 GC 時(shí)必須掃描整個(gè)堆內(nèi)存,即使只有少量的非可達(dá)對象需要回收也需要掃描全部對象。這是一種巨大的性能浪費(fèi)。
三、分代回收由于標(biāo)記清除算法需要掃描整個(gè)堆的所有對象導(dǎo)致其性能有所損耗,而且當(dāng)可以回收的對象越少時(shí)性能損耗越高。因此 Python 引入了分代回收算法,將系統(tǒng)中存活時(shí)間不同的對象劃分到不同的內(nèi)存區(qū)域,共三代,分別是 0 代,1 代 和 2 代。新生成的對象是 0 代,經(jīng)過一次垃圾回收之后,還存活的對象將會升級到 1 代,以此類推,2 代中的對象是存活最久的對象。那么什么時(shí)候觸發(fā)進(jìn)行垃圾回收算法呢。事實(shí)上隨著程序的運(yùn)行會不斷的創(chuàng)建新的對象,同時(shí)也會因?yàn)橐糜?jì)數(shù)為零而銷毀大部分對象,Python 會保持對這些對象的跟蹤,由于交叉引用的存在,以及程序中使用了長時(shí)間存活的對象,這就造成了新生成的對象的數(shù)量會大于被回收的對象數(shù)量,一旦二者之間的差值達(dá)到某個(gè)閾值就會啟動垃圾回收機(jī)制,使用標(biāo)記清除算法將死亡對象進(jìn)行清除,同時(shí)將存活對象移動到 1 代。以此類推,當(dāng)二者的差值再次達(dá)到閾值時(shí)又觸發(fā)垃圾回收機(jī)制,將存活對象移動到 2 代。這樣通過對不同代的閾值做不同的設(shè)置,就可以做到在不同代使用不同的時(shí)間間隔進(jìn)行垃圾回收,以追求性能最大。事實(shí)上,所有的程序都有一個(gè)相似的現(xiàn)象,那就是大部分的對象生存周期都是相當(dāng)短的,只有少量對象生命周期比較長,甚至?xí)qv內(nèi)存,從程序開始運(yùn)行持續(xù)到程序結(jié)束。而通過分代回收算法,做到了針對不同的區(qū)域采取不同的回收頻率,節(jié)約了大量的計(jì)算從而提高 Python 的性能。除了上面所說的差值達(dá)到一定閾值會觸發(fā)垃圾回收之外,我們還可以顯示的調(diào)用 gc.collect() 來觸發(fā)垃圾回收,最后當(dāng)程序退出時(shí)也會進(jìn)行垃圾回收。
四、
總結(jié)本文介紹了 Python 的垃圾回收機(jī)制,垃圾回收是 Python 自帶的功能,并不需要程序員去手動管理內(nèi)存。其中引用計(jì)數(shù)法是最簡單直接的,但是需要維護(hù)一個(gè)字段且針對交叉引用無能為力。標(biāo)記清除算法主要是為了解決引用計(jì)數(shù)的交叉引用問題,該算法的缺點(diǎn)就是需要掃描整個(gè)堆的所有對象,有點(diǎn)浪費(fèi)性能。而分代回收算法的引入則完美解決了標(biāo)記清除算法需要掃描整個(gè)堆對象的性能浪費(fèi)問題。該算法也是建立在標(biāo)記清除基礎(chǔ)之上的。最后我們可以通過 gc.collect() 手動觸發(fā) GC 的操作。題外話,如果你看過 JVM 的垃圾回收算法之后會發(fā)現(xiàn) Python 的垃圾回收算法與其是如出一轍的,事實(shí)再次證明,程序語言設(shè)計(jì)時(shí)是會相互參考的。代碼地址
示例代碼:https://github.com/JustDoPython/python-100-day/tree/master/day-111
評論
圖片
表情
