一文讀懂 Linux 內(nèi)存分配全過(guò)程
在《你真的理解內(nèi)存分配》一文中,我們介紹了 malloc 申請(qǐng)內(nèi)存的原理,但其在內(nèi)核怎么實(shí)現(xiàn)的呢?所以,本文主要分析在 Linux 內(nèi)核中對(duì)堆內(nèi)存分配的實(shí)現(xiàn)過(guò)程。
本文使用 Linux 2.6.32 版本代碼
內(nèi)存分區(qū)對(duì)象
在《你真的理解內(nèi)存分配》一文中介紹過(guò),Linux 會(huì)把進(jìn)程虛擬內(nèi)存空間劃分為多個(gè)分區(qū),在 Linux 內(nèi)核中使用 vm_area_struct 對(duì)象來(lái)表示,其定義如下:
1struct vm_area_struct {
2 struct mm_struct *vm_mm; // 分區(qū)所屬的內(nèi)存管理對(duì)象
3
4 unsigned long vm_start; // 分區(qū)的開始地址
5 unsigned long vm_end; // 分區(qū)的結(jié)束地址
6
7 struct vm_area_struct *vm_next; // 通過(guò)這個(gè)指針把進(jìn)程所有的內(nèi)存分區(qū)連接成一個(gè)鏈表
8 ...
9 struct rb_node vm_rb; // 紅黑樹的節(jié)點(diǎn), 用于保存到內(nèi)存分區(qū)紅黑樹中
10 ...
11};
我們對(duì) vm_area_struct 對(duì)象進(jìn)行了簡(jiǎn)化,只保留了本文需要的字段。
內(nèi)核就是使用 vm_area_struct 對(duì)象來(lái)記錄一個(gè)內(nèi)存分區(qū)(如 代碼段、數(shù)據(jù)段 和 堆空間 等),下面介紹一下 vm_area_struct 對(duì)象各個(gè)字段的作用:
vm_mm:指定了當(dāng)前內(nèi)存分區(qū)所屬的內(nèi)存管理對(duì)象。vm_start:內(nèi)存分區(qū)的開始地址。vm_end:內(nèi)存分區(qū)的結(jié)束地址。vm_next:通過(guò)這個(gè)指針把進(jìn)程中所有的內(nèi)存分區(qū)連接成一個(gè)鏈表。vm_rb:另外,為了快速查找內(nèi)存分區(qū),內(nèi)核還把進(jìn)程的所有內(nèi)存分區(qū)保存到一棵紅黑樹中。vm_rb就是紅黑樹的節(jié)點(diǎn),用于把內(nèi)存分區(qū)保存到紅黑樹中。
假如進(jìn)程 A 現(xiàn)在有 4 個(gè)內(nèi)存分區(qū),它們的范圍如下:
代碼段:00400000 ~ 00401000數(shù)據(jù)段:00600000 ~ 00601000堆空間:00983000 ~ 009a4000棧空間:7f37ce866000 ~ 7f3fce867000
那么這 4 個(gè)內(nèi)存分區(qū)在內(nèi)核中的結(jié)構(gòu)如 圖1 所示:

在 圖1 中,我們可以看到有個(gè) mm_struct 的對(duì)象,此對(duì)象每個(gè)進(jìn)程都持有一個(gè),是進(jìn)程虛擬內(nèi)存空間和物理內(nèi)存空間的管理對(duì)象。我們簡(jiǎn)單介紹一下這個(gè)對(duì)象,其定義如下:
1struct mm_struct {
2 struct vm_area_struct *mmap; // 指向由進(jìn)程內(nèi)存分區(qū)連接成的鏈表
3 struct rb_root mm_rb; // 內(nèi)核使用紅黑樹保存進(jìn)程的所有內(nèi)存分區(qū), 這個(gè)是紅黑樹的根節(jié)點(diǎn)
4 unsigned long start_brk, brk; // 堆空間的開始地址和結(jié)束地址
5 ...
6};
我們來(lái)介紹下 mm_struct 對(duì)象各個(gè)字段的作用:
mmap:指向由進(jìn)程所有內(nèi)存分區(qū)連接成的鏈表。mm_rb:內(nèi)核為了加快查找內(nèi)存分區(qū)的速度,使用了紅黑樹保存所有內(nèi)存分區(qū),這個(gè)就是紅黑樹的根節(jié)點(diǎn)。start_brk:堆空間的開始內(nèi)存地址。brk:堆空間的頂部?jī)?nèi)存地址。
我們來(lái)回顧一下進(jìn)程虛擬內(nèi)存空間的布局圖,如 圖2 所示:

start_brk 和 brk 字段用來(lái)記錄堆空間的范圍, 如 圖2 所示。一般來(lái)說(shuō),start_brk 是不會(huì)變的,而 brk 會(huì)隨著分配內(nèi)存和釋放內(nèi)存而變化。
虛擬內(nèi)存分配
在《你真的理解內(nèi)存分配》一文中說(shuō)過(guò),調(diào)用 malloc 申請(qǐng)內(nèi)存時(shí),最終會(huì)調(diào)用 brk 系統(tǒng)調(diào)用來(lái)從堆空間中分配內(nèi)存。我們來(lái)分析一下 brk 系統(tǒng)調(diào)用的實(shí)現(xiàn):
1unsigned long sys_brk(unsigned long brk)
2{
3 unsigned long rlim, retval;
4 unsigned long newbrk, oldbrk;
5 struct mm_struct *mm = current->mm;
6 ...
7 down_write(&mm->mmap_sem); // 對(duì)內(nèi)存管理對(duì)象進(jìn)行上鎖
8 ...
9 // 判斷堆空間的大小是否超出限制, 如果超出限制, 就不進(jìn)行處理
10 rlim = current->signal->rlim[RLIMIT_DATA].rlim_cur;
11 if (rlim < RLIM_INFINITY
12 && (brk - mm->start_brk) + (mm->end_data - mm->start_data) > rlim)
13 goto out;
14
15 newbrk = PAGE_ALIGN(brk); // 新的brk值
16 oldbrk = PAGE_ALIGN(mm->brk); // 舊的brk值
17 if (oldbrk == newbrk) // 如果新舊的位置都一樣, 就不需要進(jìn)行處理
18 goto set_brk;
19 ...
20 // 調(diào)用 do_brk 函數(shù)進(jìn)行下一步處理
21 if (do_brk(oldbrk, newbrk-oldbrk) != oldbrk)
22 goto out;
23
24set_brk:
25 mm->brk = brk; // 設(shè)置堆空間的頂部位置(brk指針)
26out:
27 retval = mm->brk;
28 up_write(&mm->mmap_sem);
29 return retval;
30}
總結(jié)上面的代碼,主要有以下幾個(gè)步驟:
1、判斷堆空間的大小是否超出限制,如果超出限制,就不作任何處理,直接返回舊的
brk值。2、如果新的
brk值跟舊的brk值一致,那么也不用作任何處理。3、如果新的
brk值發(fā)生變化,那么就調(diào)用do_brk函數(shù)進(jìn)行下一步處理。4、設(shè)置進(jìn)程的
brk指針(堆空間頂部)為新的brk的值。
我們看到第 3 步調(diào)用了 do_brk 函數(shù)來(lái)處理,do_brk 函數(shù)的實(shí)現(xiàn)有點(diǎn)小復(fù)雜,所以這里介紹一下大概處理流程:
通過(guò)堆空間的起始地址
start_brk從進(jìn)程內(nèi)存分區(qū)紅黑樹中找到其對(duì)應(yīng)的內(nèi)存分區(qū)對(duì)象(也就是vm_area_struct)。把堆空間的內(nèi)存分區(qū)對(duì)象的
vm_end字段設(shè)置為新的brk值。
至此,brk 系統(tǒng)調(diào)用的工作就完成了(上面沒(méi)有分析釋放內(nèi)存的情況),總結(jié)來(lái)說(shuō),brk 系統(tǒng)調(diào)用的工作主要有兩部分:
把進(jìn)程的
brk指針設(shè)置為新的brk值。把堆空間的內(nèi)存分區(qū)對(duì)象的
vm_end字段設(shè)置為新的brk值。
物理內(nèi)存分配
從上面的分析知道,brk 系統(tǒng)調(diào)用申請(qǐng)的是 虛擬內(nèi)存,但存儲(chǔ)數(shù)據(jù)只能使用 物理內(nèi)存。所以,虛擬內(nèi)存必須映射到物理內(nèi)存才能被使用。
那么什么時(shí)候才進(jìn)行內(nèi)存映射呢?
在《你真的理解內(nèi)存分配》一文中介紹過(guò),當(dāng)對(duì)沒(méi)有映射的虛擬內(nèi)存地址進(jìn)行讀寫操作時(shí),CPU 將會(huì)觸發(fā) 缺頁(yè)異常。內(nèi)核接收到 缺頁(yè)異常 后, 會(huì)調(diào)用 do_page_fault 函數(shù)進(jìn)行修復(fù)。
我們來(lái)分析一下 do_page_fault 函數(shù)的實(shí)現(xiàn)(精簡(jiǎn)后):
1void do_page_fault(struct pt_regs *regs, unsigned long error_code)
2{
3 struct vm_area_struct *vma;
4 struct task_struct *tsk;
5 unsigned long address;
6 struct mm_struct *mm;
7 int write;
8 int fault;
9
10 tsk = current;
11 mm = tsk->mm;
12
13 address = read_cr2(); // 獲取導(dǎo)致頁(yè)缺失異常的虛擬內(nèi)存地址
14 ...
15 vma = find_vma(mm, address); // 通過(guò)虛擬內(nèi)存地址從進(jìn)程內(nèi)存分區(qū)中查找對(duì)應(yīng)的內(nèi)存分區(qū)對(duì)象
16 ...
17 if (likely(vma->vm_start <= address)) // 如果找到內(nèi)存分區(qū)對(duì)象
18 goto good_area;
19 ...
20
21good_area:
22 write = error_code & PF_WRITE;
23 ...
24 // 調(diào)用 handle_mm_fault 函數(shù)對(duì)虛擬內(nèi)存地址進(jìn)行映射操作
25 fault = handle_mm_fault(mm, vma, address, write ? FAULT_FLAG_WRITE : 0);
26 ...
27}
do_page_fault 函數(shù)主要完成以下操作:
獲取導(dǎo)致頁(yè)缺失異常的虛擬內(nèi)存地址,保存到
address變量中。調(diào)用
find_vma函數(shù)從進(jìn)程內(nèi)存分區(qū)中查找異常的虛擬內(nèi)存地址對(duì)應(yīng)的內(nèi)存分區(qū)對(duì)象。如果找到內(nèi)存分區(qū)對(duì)象,那么調(diào)用
handle_mm_fault函數(shù)對(duì)虛擬內(nèi)存地址進(jìn)行映射操作。
從上面的分析可知,對(duì)虛擬內(nèi)存進(jìn)行映射操作是通過(guò) handle_mm_fault 函數(shù)完成的,而 handle_mm_fault 函數(shù)的主要工作就是完成對(duì)進(jìn)程 頁(yè)表 的填充。
我們通過(guò) 圖3 來(lái)理解內(nèi)存映射的原理,可以參考文章《一文讀懂 HugePages的原理》:

下面我們來(lái)分析一下 handle_mm_fault 的實(shí)現(xiàn),代碼如下:
1int handle_mm_fault(struct mm_struct *mm, struct vm_area_struct *vma,
2 unsigned long address, unsigned int flags)
3{
4 pgd_t *pgd; // 頁(yè)全局目錄項(xiàng)
5 pud_t *pud; // 頁(yè)上級(jí)目錄項(xiàng)
6 pmd_t *pmd; // 頁(yè)中間目錄項(xiàng)
7 pte_t *pte; // 頁(yè)表項(xiàng)
8 ...
9 pgd = pgd_offset(mm, address); // 獲取虛擬內(nèi)存地址對(duì)應(yīng)的頁(yè)全局目錄項(xiàng)
10 pud = pud_alloc(mm, pgd, address); // 獲取虛擬內(nèi)存地址對(duì)應(yīng)的頁(yè)上級(jí)目錄項(xiàng)
11 ...
12 pmd = pmd_alloc(mm, pud, address); // 獲取虛擬內(nèi)存地址對(duì)應(yīng)的頁(yè)中間目錄項(xiàng)
13 ...
14 pte = pte_alloc_map(mm, pmd, address); // 獲取虛擬內(nèi)存地址對(duì)應(yīng)的頁(yè)表項(xiàng)
15 ...
16 // 對(duì)頁(yè)表項(xiàng)進(jìn)行映射
17 return handle_pte_fault(mm, vma, address, pte, pmd, flags);
18}
handle_mm_fault 函數(shù)主要對(duì)每一級(jí)的頁(yè)表進(jìn)行映射(對(duì)照 圖3 就容易理解),最終調(diào)用 handle_pte_fault 函數(shù)對(duì) 頁(yè)表項(xiàng) 進(jìn)行映射。
我們繼續(xù)來(lái)分析 handle_pte_fault 函數(shù)的實(shí)現(xiàn),代碼如下:
1static inline int
2handle_pte_fault(struct mm_struct *mm, struct vm_area_struct *vma,
3 unsigned long address, pte_t *pte, pmd_t *pmd,
4 unsigned int flags)
5{
6 pte_t entry;
7
8 entry = *pte;
9
10 if (!pte_present(entry)) { // 還沒(méi)有映射到物理內(nèi)存
11 if (pte_none(entry)) {
12 ...
13 // 調(diào)用 do_anonymous_page 函數(shù)進(jìn)行匿名頁(yè)映射(堆空間就是使用匿名頁(yè))
14 return do_anonymous_page(mm, vma, address, pte, pmd, flags);
15 }
16 ...
17 }
18 ...
19}
上面代碼簡(jiǎn)化了很多與本文無(wú)關(guān)的邏輯。從上面代碼可以看出,handle_pte_fault 函數(shù)最終會(huì)調(diào)用 do_anonymous_page 來(lái)完成內(nèi)存映射操作,我們接著來(lái)分析下 do_anonymous_page 函數(shù)的實(shí)現(xiàn):
1static int
2do_anonymous_page(struct mm_struct *mm, struct vm_area_struct *vma,
3 unsigned long address, pte_t *page_table, pmd_t *pmd,
4 unsigned int flags)
5{
6 struct page *page;
7 spinlock_t *ptl;
8 pte_t entry;
9
10 if (!(flags & FAULT_FLAG_WRITE)) { // 如果是讀操作導(dǎo)致的異常
11 // 使用 `零頁(yè)` 進(jìn)行映射
12 entry = pte_mkspecial(pfn_pte(my_zero_pfn(address), vma->vm_page_prot));
13 ...
14 goto setpte;
15 }
16 ...
17 // 如果是寫操作導(dǎo)致的異常
18 // 申請(qǐng)一塊新的物理內(nèi)存頁(yè)
19 page = alloc_zeroed_user_highpage_movable(vma, address);
20 ...
21 // 根據(jù)物理內(nèi)存頁(yè)的地址生成映射關(guān)系
22 entry = mk_pte(page, vma->vm_page_prot);
23 if (vma->vm_flags & VM_WRITE)
24 entry = pte_mkwrite(pte_mkdirty(entry));
25 ...
26setpte:
27 set_pte_at(mm, address, page_table, entry); // 設(shè)置頁(yè)表項(xiàng)為新的映射關(guān)系
28 ...
29 return 0;
30}
do_anonymous_page 函數(shù)的實(shí)現(xiàn)比較有趣,它會(huì)根據(jù) 缺頁(yè)異常 是由讀操作還是寫操作導(dǎo)致的,分為兩個(gè)不同的處理邏輯,如下:
如果是讀操作導(dǎo)致的,那么將會(huì)使用
零頁(yè)進(jìn)行映射(零頁(yè)是 Linux 內(nèi)核中一個(gè)比較特殊的內(nèi)存頁(yè),所有讀操作引起的缺頁(yè)異常都會(huì)指向此頁(yè),從而可以減少物理內(nèi)存的消耗),并且設(shè)置其為只讀(因?yàn)?零頁(yè)是不能進(jìn)行寫操作)。如果下次對(duì)此頁(yè)進(jìn)行寫操作,將會(huì)觸發(fā)寫操作的缺頁(yè)異常,從而進(jìn)入下面步驟。如果是寫操作導(dǎo)致的,就申請(qǐng)一塊新的物理內(nèi)存頁(yè),然后根據(jù)物理內(nèi)存頁(yè)的地址生成映射關(guān)系,再對(duì)頁(yè)表項(xiàng)進(jìn)行填充(映射)。
總結(jié)
本文主要介紹了 Linux 內(nèi)存分配的整個(gè)過(guò)程,當(dāng)然只是介紹從堆空間分配的內(nèi)存的過(guò)程。Linux 分配內(nèi)存的方式還有很多,比如 mmap、HugePages 等,有興趣的可以查閱相關(guān)的資料和書籍。
如果有問(wèn)題,可以加我微信一起探討:JaydenSongLie。
