深入理解 Linux 內存子系統
星標/置頂 公眾號??,硬核文章第一時間送達!

導語
linux 內存是后臺開發(fā)人員,需要深入了解的計算機資源。合理的使用內存,有助于提升機器的性能和穩(wěn)定性。本文主要介紹 linux 內存組織結構和頁面布局,內存碎片產生原因和優(yōu)化算法,linux 內核幾種內存管理的方法,內存使用場景以及內存使用的那些坑。從內存的原理和結構,到內存的算法優(yōu)化,再到使用場景,去探尋內存管理的機制和奧秘。
一、走進 linux 內存
1、內存是什么?

1) 內存又稱主存,是 CPU 能直接尋址的存儲空間,由半導體器件制成;
2) 內存的特點是存取速率快,斷電一般不保存數據,非持久化設備;
2、內存的作用
1) 暫時存放 cpu 的運算數據
2) 硬盤等外部存儲器交換的數據
3) 保障 cpu 計算的穩(wěn)定性和高性能

二、 linux 內存地址空間
1、linux 內存地址空間 Linux 內存管理全貌

2、內存地址——用戶態(tài)&內核態(tài)
用戶態(tài):Ring3 運行于用戶態(tài)的代碼則要受到處理器的諸多
內核態(tài):Ring0 在處理器的存儲保護中,核心態(tài)
用戶態(tài)切換到內核態(tài)的 3 種方式:系統調用、異常、外設中斷
區(qū)別:每個進程都有完全屬于自己的,獨立的,不被干擾的內存空間;用戶態(tài)的程序就不能隨意操作內核地址空間,具有一定的安全保護作用;內核態(tài)線程共享內核地址空間;

3、內存地址——MMU 地址轉換
MMU 是一種硬件電路,它包含兩個部件,一個是分段部件,一個是分頁部件 分段機制把一個邏輯地址轉換為線性地址 分頁機制把一個線性地址轉換為物理地址

4、內存地址——分段機制
1) 段選擇符
為了方便快速檢索段選擇符,處理器提供了 6 個分段寄存器來緩存段選擇符,它們是:cs,ss,ds,es,fs 和 gs
段的基地址(Base Address):在線性地址空間中段的起始地址
段的界限(Limit):在虛擬地址空間中,段內可以使用的最大偏移量
2) 分段實現
邏輯地址的段寄存器中的值提供段描述符,然后從段描述符中得到段基址和段界限,然后加上邏輯地址的偏移量,就得到了線性地址

5、內存地址——分頁機制(32 位)
分頁機制是在分段機制之后進行的,它進一步將線性地址轉換為物理地址 10 位頁目錄,10 位頁表項, 12 位頁偏移地址 單頁的大小為 4KB

6、用戶態(tài)地址空間

text:代碼段可執(zhí)行代碼、字符串字面值、只讀變量
data:數據段,映射程序中已經初始化的全局變量
bss:存放程序中未初始化的全局變量
heap:運行時的堆,在程序運行中使用 malloc 申請的內存區(qū)域
mmap:共享庫及匿名文件的映射區(qū)域
stack:用戶進程棧
7、內核態(tài)地址空間

直接映射區(qū):線性空間中從 3G 開始最大 896M 的區(qū)間,為直接內存映射區(qū)
動態(tài)內存映射區(qū):該區(qū)域由內核函數 vmalloc 來分配
永久內存映射區(qū):該區(qū)域可訪問高端內存
固定映射區(qū):該區(qū)域和 4G 的頂端只有 4k 的隔離帶,其每個地址項都服務于特定的用途,如:ACPI_BASE 等
8、進程內存空間
用戶進程通常情況只能訪問用戶空間的虛擬地址,不能訪問內核空間虛擬地址 內核空間是由內核負責映射,不會跟著進程變化;內核空間地址有自己對應的頁表,用戶進程各自有不同額頁表

三、 Linux 內存分配算法
內存管理算法——對討厭自己管理內存的人來說是天賜的禮物

Linux 內存管理框架
1、內存碎片
1) 基本原理
產生原因:內存分配較小,并且分配的這些小的內存生存周期又較長,反復申請后將產生內存碎片的出現
優(yōu)點:提高分配速度,便于內存管理,防止內存泄露
缺點:大量的內存碎片會使系統緩慢,內存使用率低,浪費大
2) 如何避免內存碎片
少用動態(tài)內存分配的函數(盡量使用??臻g)
分配內存和釋放的內存盡量在同一個函數中
盡量一次性申請較大的內存,而不要反復申請小內存
盡可能申請大塊的 2 的指數冪大小的內存空間
外部碎片避免——伙伴系統算法
內部碎片避免——slab 算法
自己進行內存管理工作,設計內存池
2、伙伴系統算法——組織結構
1) 概念
為內核提供了一種用于分配一組連續(xù)的頁而建立的一種高效的分配策略,并有效的解決了外碎片問題
分配的內存區(qū)是以頁框為基本單位
2) 外部碎片
外部碎片指的是還沒有被分配出去(不屬于任何進程),但由于太小了無法分配給申請內存空間的新進程的內存空閑區(qū)域3) 組織結構 把所有的空閑頁分組為 11 個塊鏈表,每個塊鏈表分別包含大小為 1,2,4,8,16,32,64,128,256,512 和 1024 個連續(xù)頁框的頁塊。最大可以申請 1024 個連續(xù)頁,對應 4MB 大小的連續(xù)內存

3、伙伴系統算法——申請和回收
1) 申請算法
申請 2^i 個頁塊存儲空間,如果 2^i 對應的塊鏈表有空閑頁塊,則分配給應用
如果沒有空閑頁塊,則查找 2^(i 1) 對應的塊鏈表是否有空閑頁塊,如果有,則分配 2^i 塊鏈表節(jié)點給應用,另外 2^i 塊鏈表節(jié)點插入到 2^i 對應的塊鏈表中
如果 2^(i 1) 塊鏈表中沒有空閑頁塊,則重復步驟 2,直到找到有空閑頁塊的塊鏈表
如果仍然沒有,則返回內存分配失敗
2) 回收算法
釋放 2^i 個頁塊存儲空間,查找 2^i 個頁塊對應的塊鏈表,是否有與其物理地址是連續(xù)的頁塊,如果沒有,則無需合并

如果有,則合并成 2^(i 1)的頁塊,以此類推,繼續(xù)查找下一級塊鏈接,直到不能合并為止

3) 條件
兩個塊具有相同的大小 它們的物理地址是連續(xù)的 頁塊大小相同
4、如何分配 4M 以上內存?
1) 為何限制大塊內存分配
分配的內存越大, 失敗的可能性越大 大塊內存使用場景少
2) 內核中獲取 4M 以上大內存的方法
修改 MAX_ORDER, 重新編譯內核
內核啟動選型傳遞"mem="參數, 如"mem=80M,預留部分內存;然后通過
request_mem_region 和 ioremap_nocache 將預留的內存映射到模塊中。需要修改內核啟動參數, 無需重新編譯內核. 但這種方法不支持 x86 架構, 只支持 ARM, PowerPC 等非 x86 架構
在 start_kernel 中 mem_init 函數之前調用 alloc_boot_mem 函數預分配大塊內存, 需要重新編譯內核
vmalloc 函數,內核代碼使用它來分配在虛擬內存中連續(xù)但在物理內存中不一定連續(xù)的內存
5、伙伴系統——反碎片機制
1) 不可移動頁
這些頁在內存中有固定的位置,不能夠移動,也不可回收
內核代碼段,數據段,內核 kmalloc() 出來的內存,內核線程占用的內存等
2) 可回收頁
這些頁不能移動,但可以刪除。內核在回收頁占據了太多的內存時或者內存短缺時進行頁面回收3) 可移動頁
這些頁可以任意移動,用戶空間應用程序使用的頁都屬于該類別。它們是通過頁表映射的
當它們移動到新的位置,頁表項也會相應的更新
6、slab 算法——基本原理
1) 基本概念
Linux 所使用的 slab 分配器的基礎是 Jeff Bonwick 為 SunOS 操作系統首次引入的一種算法
它的基本思想是將內核中經常使用的對象放到高速緩存中,并且由系統保持為初始的可利用狀態(tài)。比如進程描述符,內核中會頻繁對此數據進行申請和釋放
2) 內部碎片
已經被分配出去的的內存空間大于請求所需的內存空間3) 基本目標
減少伙伴算法在分配小塊連續(xù)內存時所產生的內部碎片
將頻繁使用的對象緩存起來,減少分配、初始化和釋放對象的時間開銷
通過著色技術調整對象以更好的使用硬件高速緩存
7、slab 分配器的結構
由于對象是從 slab 中分配和釋放的,因此單個 slab 可以在 slab 列表之間進行移動 slabs_empty 列表中的 slab 是進行回收(reaping)的主要備選對象 slab 還支持通用對象的初始化,從而避免了為同一目而對一個對象重復進行初始化

詳細參考:

8、slab 高速緩存
1) 普通高速緩存
slab 分配器所提供的小塊連續(xù)內存的分配是通過通用高速緩存實現的
通用高速緩存所提供的對象具有幾何分布的大小,范圍為 32 到 131072 字節(jié)。
內核中提供了 kmalloc() 和 kfree() 兩個接口分別進行內存的申請和釋放
2) 專用高速緩存
內核為專用高速緩存的申請和釋放提供了一套完整的接口,根據所傳入的參數為具體的對象分配 slab 緩存
kmem_cache_create() 用于對一個指定的對象創(chuàng)建高速緩存。它從 cache_cache 普通高速緩存中為新的專有緩存分配一個高速緩存描述符,并把這個描述符插入到高速緩存描述符形成的 cache_chain 鏈表中
kmem_cache_alloc() 在其參數所指定的高速緩存中分配一個 slab。相反, kmem_cache_free() 在其參數所指定的高速緩存中釋放一個 slab
9、內核態(tài)內存池
1) 基本原理
先申請分配一定數量的、大小相等(一般情況下) 的內存塊留作備用
當有新的內存需求時,就從內存池中分出一部分內存塊,若內存塊不夠再繼續(xù)申請新的內存
這樣做的一個顯著優(yōu)點是盡量避免了內存碎片,使得內存分配效率得到提升
2) 內核 API
mempool_create 創(chuàng)建內存池對象 mempool_alloc 分配函數獲得該對象 mempool_free 釋放一個對象 mempool_destroy 銷毀內存池

10、用戶態(tài)內存池
1) C++ 實例

11、DMA 內存
1) 什么是 DMA
直接內存訪問是一種硬件機制,它允許外圍設備和主內存之間直接傳輸它們的 I/O 數據,而不需要系統處理器的參與2) DMA 控制器的功能
能向 CPU 發(fā)出系統保持(HOLD)信號,提出總線接管請求
當 CPU 發(fā)出允許接管信號后,負責對總線的控制,進入 DMA 方式
能對存儲器尋址及能修改地址指針,實現對內存的讀寫操作
能決定本次 DMA 傳送的字節(jié)數,判斷 DMA 傳送是否結束
發(fā)出 DMA 結束信號,使 CPU 恢復正常工作狀態(tài)
2) DMA 信號
DREQ:DMA 請求信號。是外設向 DMA 控制器提出要求,DMA 操作的申請信號 DACK:DMA 響應信號。是 DMA 控制器向提出 DMA 請求的外設表示已收到請求和正進行處理的信號 HRQ:DMA 控制器向 CPU 發(fā)出的信號,要求接管總線的請求信號。 HLDA:CPU 向 DMA 控制器發(fā)出的信號,允許接管總線的應答信號:

四、 內存使用場景
out of memory 的時代過去了嗎?no,內存再充足也不可任性使用。
1、內存的使用場景
page 管理
slab(kmalloc、內存池)
用戶態(tài)內存使用(malloc、relloc 文件映射、共享內存)
程序的內存 map(棧、堆、code、data)
內核和用戶態(tài)的數據傳遞(copy_from_user、copy_to_user)
內存映射(硬件寄存器、保留內存)
DMA 內存
2、用戶態(tài)內存分配函數
alloca 是向棧申請內存,因此無需釋放
malloc 所分配的內存空間未被初始化,使用 malloc() 函數的程序開始時(內存空間還沒有被重新分配) 能正常運行,但經過一段時間后(內存空間已被重新分配) 可能會出現問題
calloc 會將所分配的內存空間中的每一位都初始化為零
realloc 擴展現有內存空間大小
a) 如果當前連續(xù)內存塊足夠 realloc 的話,只是將 p 所指向的空間擴大,并返回 p 的指針地址。這個時候 q 和 p 指向的地址是一樣的
b) 如果當前連續(xù)內存塊不夠長度,再找一個足夠長的地方,分配一塊新的內存,q,并將 p 指向的內容 copy 到 q,返回 q。并將 p 所指向的內存空間刪除
mmap 將一個文件或者其它對象映射進內存,多進程可訪問
3、內核態(tài)內存分配函數
get_free_pages直接對頁框進行操作,適用于分配較大量的連續(xù)物理內存 kmem_cache_alloc基于 slab 機制實現,適合需要頻繁申請釋放相同大小內存塊,kmalloc基于kmem_cache_alloc實現128KB最常見的分配方式,需要小于頁框大小的內存時可以使用 vmalloc建立非連續(xù)物理內存到虛擬地址的映射物理不連續(xù),適合需要大內存,但是對地址連續(xù)性沒有要求的場合 dma_alloc_coherent基于_alloc_pages 實現4MB適用于 DMA 操作ioremap實現已知物理地址到虛擬地址的映射,適用于物理地址已知的場合,如設備驅動alloc_bootmem在啟動 kernel 時,預留一段內存,內核看不見小于物理內存大小,內存管理要求較高
4、malloc 申請內存
調用malloc函數時,它沿 free_chuck_list 連接表尋找一個大到足以滿足用戶請求所需要的內存塊

free_chuck_list 連接表的主要工作是維護一個空閑的堆空間緩沖區(qū)鏈表 如果空間緩沖區(qū)鏈表沒有找到對應的節(jié)點,需要通過系統調用 sys_brk 延伸進程的??臻g

5、缺頁異常
通過 get_free_pages 申請一個或多個物理頁面,換算 addr 在進程 pdg 映射中所在的 pte 地址,將 addr 對應的 pte 設置為物理頁面的首地址 系統調用:Brk—申請內存小于等于 128kb,do_map—申請內存大于 128kb

6、用戶進程訪問內存分析
用戶態(tài)進程獨占虛擬地址空間,兩個進程的虛擬地址可相同 在訪問用戶態(tài)虛擬地址空間時,如果沒有映射物理地址,通過系統調用發(fā)出缺頁異常 缺頁異常陷入內核,分配物理地址空間,與用戶態(tài)虛擬地址建立映射

7、共享內存
1) 原理
它允許多個不相關的進程去訪問同一部分邏輯內存 兩個運行中的進程之間傳輸數據,共享內存將是一種效率極高的解決方案 兩個運行中的進程共享數據,是進程間通信的高效方法,可有效減少數據拷貝的次數

2) shm 接口
shmget 創(chuàng)建共享內存 shmat 啟動對該共享內存的訪問,并把共享內存連接到當前進程的地址空間 shmdt 將共享內存從當前進程中分離
五、 內存使用那些坑
1、C 內存泄露
在類的構造函數和析構函數中沒有匹配地調用 new 和 delete 函數

沒有正確地清除嵌套的對象指針
沒有將基類的析構函數定義為虛函數
當基類的指針指向子類對象時,如果基類的析構函數不是 virtual,那么子類的析構函數將不會被調用,子類的資源沒有得到正確釋放,因此造成內存泄露
缺少拷貝構造函數,按值傳遞會調用(拷貝)構造函數,引用傳遞不會調用
指向對象的指針數組不等同于對象數組,數組中存放的是指向對象的指針,不僅要釋放每個對象的空間,還要釋放每個指針的空間
缺少重載賦值運算符,也是逐個成員拷貝的方式復制對象,如果這個類的大小是可變的,那么結果就是造成內存泄露
2、C 野指針
指針變量沒有初始化
指針被 free 或 delete 后,沒有設置為 NULL
指針操作超越了變量的作用范圍,比如返回指向棧內存的指針就是野指針
訪問空指針(需要做空判斷)
sizeof 無法獲取數組的大小
試圖修改常量,如:char p="1234";p='1'
3、C 資源訪問沖突
多線程共享變量沒有用 valotile 修飾
多線程訪問全局變量未加鎖
全局變量僅對單進程有效
多進程寫共享內存數據,未做同步處理
mmap 內存映射,多進程不安全
4、STL 迭代器失效
被刪除的迭代器失效
添加元素(insert/push_back 等)、刪除元素導致順序容器迭代器失效
錯誤示例:刪除當前迭代器,迭代器會失效

正確示例:迭代器 erase 時,需保存下一個迭代器

5、C++ 11 智能指針
auto_ptr 替換為 unique_ptr

使用make_shared 初始化一個 shared_ptr

weak_ptr 智能指針助手
(1)原理分析:

(2)數據結構:

(3)使用方法:
lock() 獲取所管理的對象的強引用指針 expired() 檢測所管理的對象是否已經釋放 get() 訪問智能指針對象
6、C++ 11 更小更快更安全
std::atomic 原子數據類型 多線程安全 std::array 定長數組開銷比 array 小和 std::vector 不同的是 array 的長度是固定的,不能動態(tài)拓展 std::vector vector 瘦身 shrink_to_fit():將 capacity 減少為于 size() 相同的大小 std::forward_list是單鏈表(std::list 是雙鏈表),只需要順序遍歷的場合,forward_list 能更加節(jié)省內存,插入和刪除的性能高于 list。 std::unordered_map、std::unordered_set用 hash 實現的無序的容器,插入、刪除和查找的時間復雜度都是 O(1),在不關注容器內元素順序的場合,使用 unordered 的容器能獲得更高的性能
六、 如何查看內存
系統中內存使用情況:/proc/meminfo
$cat /proc/meminfoMemTotal:
8052444 kB #所有內存(RAM)大小,減去一些預留空間和內核的大小。
MemFree: 2754588 kB #完全沒有用到的物理內存,lowFree+highFree
MemAvailable: 3934252 kB #在不使用交換空間的情況下,啟動一個新的應用最大可用內存的大小,計算方式:MemFree+Active(file)+Inactive(file)-(watermark+min(watermark,Active(file)+Inactive(file)/2))
Buffers: 137128 kB #塊設備所占用的緩存頁,包括:直接讀寫塊設備以及文件系統元數據(metadata),比如superblock使用的緩存頁。
Cached: 1948128 kB #表示普通文件數據所占用的緩存頁。
SwapCached: 0 kB #swap cache中包含的是被確定要swapping換頁,但是尚未寫入物理交換區(qū)的匿名內存頁。那些匿名內存頁,比如用戶進程malloc申請的內存頁是沒有關聯任何文件的,如果發(fā)生swapping換頁,這類內存會被寫入到交換區(qū)。
Active: 3650920 kB #active包含active anon和active file
Inactive: 1343420 kB #inactive包含inactive anon和inactive file
Active(anon): 2913304 kB #anonymous pages(匿名頁),用戶進程的內存頁分為兩種:與文件關聯的內存頁(比如程序文件,數據文件對應的內存頁)和與內存無關的內存頁(比如進程的堆棧,用malloc申請的內存),前者稱為file pages或mapped pages,后者稱為匿名頁。
Inactive(anon): 727808 kB #見上
Active(file): 737616 kB #見上
Inactive(file): 615612 kB #見上
SwapTotal: 8265724 kB #可用的swap空間的總的大小(swap分區(qū)在物理內存不夠的情況下,把硬盤空間的一部分釋放出來,以供當前程序使用)
SwapFree: 8265724 kB #當前剩余的swap的大小
Dirty: 104 kB #需要寫入磁盤的內存去的大小
Writeback: 0 kB #正在被寫回的內存區(qū)的大小
AnonPages: 2909332 kB #未映射頁的內存的大小
Mapped: 815524 kB #設備和文件等映射的大小
Shmem: 732032 kB #共享內存大小
Slab: 153096 kB #內核數據結構slab的大小
SReclaimable: 99684 kB #可回收的slab的大小
SUnreclaim: 53412 kB #不可回收的slab的大小
KernelStack: 14288 kB
PageTables: 62192 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
WritebackTmp: 0 kB
CommitLimit: 12291944 kB
Committed_AS: 11398920 kB
VmallocTotal: 34359738367 kB
VmallocUsed: 0 kB
VmallocChunk: 0 kB
HardwareCorrupted: 0 kB
AnonHugePages: 1380352 kB
CmaTotal: 0 kB
CmaFree: 0 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
HugePages_Surp: 0
Hugepagesize: 2048 kB
DirectMap4k: 201472 kB
DirectMap2M: 5967872 kB
DirectMap1G: 3145728 kB
查詢內存總使用率:free

查詢進程 cpu 和內存使用占比:top

虛擬內存統計:vmstat

進程消耗內存占比和排序:ps aux –sort -rss

查看伙伴系統信息
當前系統的buddy狀態(tài)可以通過
cat /proc/buddyinfo命令查看
cat /proc/buddyinfo
Node 0, zone DMA 23 15 4 5 2 3 3 2 3 1 0
Node 0, zone Normal 149 100 52 33 23 5 32 8 12 2 59
Node 0, zone HighMem 11 21 23 49 29 15 8 16 12 2 142
查看slab信息
可以通過 cat /proc/slabinfo 命令查看
cat /proc/slabinfo
slabinfo - version: 2.1
# name <active_objs> <num_objs> <objsize> <objperslab> <pagesperslab> : tunables <limit> <batchcount> <sharedfactor> : slabdata <active_slabs> <num_slabs> <sharedavail>
bridge_fdb_cache 0 0 64 59 1 : tunables 120 60 0 : slabdata 0 0 0
nf_conntrack_expect 0 0 240 16 1 : tunables 120 60 0 : slabdata 0 0 0
nf_conntrack_ffffffff81f6f600 0 0 304 13 1 : tunables 54 27 0 : slabdata 0 0 0
iser_descriptors 0 0 128 30 1 : tunables 120 60 0 : slabdata 0 0 0
ib_mad 0 0 448 8 1 : tunables 54 27 0 : slabdata 0 0 0
fib6_nodes 22 59 64 59 1 : tunables 120 60 0 : slabdata 1 1 0
ip6_dst_cache 13 24 320 12 1 : tunables 54 27 0 : slabdata 2 2 0
ndisc_cache 1 10 384 10 1 : tunables 54 27 0 : slabdata 1 1 0
ip6_mrt_cache 0 0 128 30 1 : tunables 120 60 0 : slabdata 0 0 0
釋放系統內存緩存
可以通過 /proc/sys/vm/drop_caches來釋放
#To free pagecache, use
echo 1 > /proc/sys/vm/drop_caches
#To free dentries and inodes, use
echo 2 > /proc/sys/vm/drop_caches
#To free pagecache, dentries and inodes, use
echo 3 >/proc/sys/vm/drop_cache鏈接 | https://cloud.tencent.com/developer/article/10056




關注公眾號「高效程序員」??,一起優(yōu)秀!
