MySQL的零拷貝技術(shù)

先需要了解Buffer 與 cache 的區(qū)別
Bbuffer 與 Cache 非常類(lèi)似,因?yàn)樗鼈兌加糜诖鎯?chǔ)數(shù)據(jù)數(shù)據(jù),被應(yīng)用層讀取字節(jié)數(shù)據(jù)。在很多場(chǎng)合它們有著相同的概念:
首先從翻譯上,Buffer應(yīng)該翻譯為“緩沖”,Cache應(yīng)該翻譯為“緩存”,兩個(gè)完全不是一個(gè)東西。
在硬件這一層看,Buffer應(yīng)該為內(nèi)存,Cache為CPU集成的告訴緩存。
Buffer為了讓不同速度的設(shè)備能夠同步,建立的一個(gè)緩沖區(qū)域,寫(xiě)進(jìn)Buffer的數(shù)據(jù)是為了從中拿出寫(xiě)入其他設(shè)備。
Cache是為了提高讀取速度,將經(jīng)常或馬上需要的數(shù)據(jù)預(yù)讀到緩存中,寫(xiě)進(jìn)Cache的數(shù)據(jù)是為了其他設(shè)備從中去讀取。
從軟件這一層來(lái)說(shuō),Buffer是塊設(shè)備的緩沖,Cache是文件系統(tǒng)的緩存。以L(fǎng)inux為例,
Buffer(Buffer Cache)以塊形式緩沖了塊設(shè)備的操作,定時(shí)或手動(dòng)的同步到硬盤(pán),它是為了緩沖寫(xiě)操作然后一次性將很多改動(dòng)寫(xiě)入硬盤(pán),避免頻繁寫(xiě)硬盤(pán),提高寫(xiě)入效率。
Cache(Page Cache)以頁(yè)面形式緩存了文件系統(tǒng)的文件,給需要使用的程序讀取,它是為了給讀操作提供緩沖,避免頻繁讀硬盤(pán),提高讀取效率。
總而言之,Buffer里面的東西是為了寫(xiě)到別處去,Cache里面的東西是為了給別處讀。
Buffer 與 Cache 的用途有所不一定:
Buffer 的主要目的是在不同應(yīng)用、線(xiàn)程、進(jìn)程之間共享字節(jié)數(shù)據(jù),例如為了讓不同速度的設(shè)備能夠進(jìn)行數(shù)據(jù)同步,就會(huì)使用共享 Buffer;
Cache 的主要目的是提高字節(jié)數(shù)據(jù)的讀取/寫(xiě)入速度,例如根據(jù)時(shí)間局部性、地址局部性操作系統(tǒng)提供 page cache 機(jī)制;
當(dāng)然,在很多場(chǎng)合下 Buffer 與 Cache 有著相同的語(yǔ)義,因此我們可以認(rèn)為緩沖區(qū)既用于提高讀寫(xiě)速度,又用于數(shù)據(jù)共享與同步。
2. MySQL 緩沖區(qū)設(shè)計(jì)
MySQL 的緩沖區(qū)設(shè)計(jì)如下圖所示:
Figure1.MySQL 的緩沖區(qū)設(shè)計(jì)
如上圖所示,MySQL 在不同層次使用了與緩存機(jī)制不同的配套技術(shù)。其中有:
應(yīng)用層:
Redo Log Buffer:對(duì)寫(xiě)操作進(jìn)行緩存,用于實(shí)現(xiàn) MySQL InnoDB 的事務(wù)性;
InnoDB Buffer Pool:用于對(duì) MySQL table 的數(shù)據(jù)進(jìn)行緩存。讀內(nèi)存而不是磁盤(pán),通過(guò)減少磁盤(pán)讀操的方式提高讀操作性能;寫(xiě)內(nèi)存而不是磁盤(pán),通過(guò)減少磁盤(pán)寫(xiě)操的方式提高寫(xiě)操作性能;
操作系統(tǒng)的 VFS(Virtual file system,虛擬文件系統(tǒng))層:
Page Cache:操作系統(tǒng)通過(guò)緩存以及預(yù)讀機(jī)制對(duì)文件系統(tǒng)中的 block 基于 page 進(jìn)行緩存管理;
Direct Buffer:當(dāng)使用 Direct I/O 提供的相關(guān) API 時(shí),操作系統(tǒng)不再提供基于 Page Cache 機(jī)制的緩存,而是直接使用 Direct Buffer;
磁盤(pán)的 Disk Buffer:磁盤(pán)也可以提供磁盤(pán)緩存,通常在 MySQL 中會(huì)關(guān)閉磁盤(pán)緩存,我們僅僅需要了解有 Disk Buffer 這一概念即可。
3. Write Through/Back 與 Direct I/O
Write Through 與 Write Back 指的是在使用內(nèi)存空間作為緩存的應(yīng)用在處理寫(xiě)操作時(shí)是否直接落盤(pán):
Write Through:寫(xiě)操作"穿過(guò)"緩存區(qū)直接落盤(pán),這種策略能夠確保數(shù)據(jù)不會(huì)因?yàn)殄礄C(jī)而丟失內(nèi)存緩沖區(qū)的數(shù)據(jù);
Write Back:一次寫(xiě)操作僅僅更新了內(nèi)存緩存區(qū)中的數(shù)據(jù),數(shù)據(jù)落盤(pán)通常通過(guò)間隔一個(gè)時(shí)間進(jìn)行落盤(pán)一次;
MySQL 為此提供了一些參數(shù)來(lái)控制 Page Cache 數(shù)據(jù)落盤(pán)的具體行為,例如:
(1)innodb_flush_log_at_trx_commit
innodb_flush_log_at_trx_commit 參數(shù)用于控制基于 Page Cache 的 Redo Log Buffer 的數(shù)據(jù)落盤(pán)機(jī)制[2]。此參數(shù)用于控制以下兩個(gè)特性之間的平衡:
嚴(yán)格的事務(wù)管理機(jī)制;
事務(wù)提交 commit 操作執(zhí)行時(shí)的高性能;
innodb_flush_log_at_trx_commit 有三個(gè)可選配置值:
1(默認(rèn)值):每次事務(wù)提交時(shí)都日志必須刷新到磁盤(pán)上,提供了最可靠的事務(wù)性保證;
0:日志每間隔 1 秒刷新到磁盤(pán)上,這意味著在緩存中還沒(méi)有來(lái)得及刷新到磁盤(pán)上的數(shù)據(jù)在宕機(jī)時(shí)會(huì)丟失;
2:日志在事務(wù)提交后以及每間隔 1 秒刷新到磁盤(pán)上,這意味著在緩存中還沒(méi)有來(lái)得及刷新到磁盤(pán)上的數(shù)據(jù)在宕機(jī)時(shí)會(huì)丟失;
注意事項(xiàng):配置 0 與 2 并不能保證 100% 每間隔一秒刷新到磁盤(pán)一次,這是因?yàn)?DDL 的修改以及 InnoDB 活動(dòng)可能會(huì)導(dǎo)致日志刷新更頻繁。另一方面,由于事務(wù)調(diào)度問(wèn)題,刷新頻率甚至?xí)档汀?/p>
刷新頻率默認(rèn)為 1 s,由參數(shù)
innodb_flush_log_at_timeout進(jìn)行配置。
(2)innodb_flush_method
innodb_flush_method 參數(shù)同時(shí)控制 redo log buffer 和 innodb buffer pool 緩沖區(qū)刷新策略,其中:
log files:redo log buffer 是 log files 在內(nèi)存中的緩存區(qū), log files 是磁盤(pán)上的 Redo Log 文件;
data files:innodb buffer pool 是 data files 在內(nèi)存中的緩存區(qū),data files 是磁盤(pán)上的數(shù)據(jù)文件(B+tree);
innodb_flush_method 參數(shù)目前有 6 種可選配置值[3]:
fdatasync;
O_DSYNC
O_DIRECT
O_DIRECT_NO_FSYNC
littlesync
nosync
這里只討論 Unix-like 操作系統(tǒng),而不討論 Windows 系統(tǒng)。
其中,littlesync 與 nosync 僅僅用于內(nèi)部性能測(cè)試,并不建議使用。
fdatasync,即取值 0,這是默認(rèn)配置值。對(duì) log files 以及 data files 都采用 fsync 的方式進(jìn)行同步;
O_DSYNC,即取值 1。對(duì) log files 使用 O_SYNC 打開(kāi)與刷新日志文件,使用 fsync 來(lái)刷新 data files 中的數(shù)據(jù);
O_DIRECT,即取值 4。利用 Direct I/O 的方式打開(kāi) data file,并且每次寫(xiě)操作都通過(guò)執(zhí)行 fsync 系統(tǒng)調(diào)用的方式落盤(pán);
O_DIRECT_NO_FSYNC,即取值 5。利用 Direct I/O 的方式打開(kāi) data files,但是每次寫(xiě)操作并不會(huì)調(diào)用 fsync 系統(tǒng)調(diào)用進(jìn)行落盤(pán);
補(bǔ)充說(shuō)明:以 O_SYNC 方式打開(kāi)文件意味著文件的每一次寫(xiě)操作都直接導(dǎo)致將數(shù)據(jù)本身以及元數(shù)據(jù)刷新到磁盤(pán)上。
為什么有 O_DIRECT 與 O_DIRECT_NO_FSYNC 配置的區(qū)別?
首先,我們需要理解更新操作落盤(pán)分為兩個(gè)具體的子步驟:①文件數(shù)據(jù)更新落盤(pán)②文件元數(shù)據(jù)更新落盤(pán)。O_DIRECT 的在部分操作系統(tǒng)中會(huì)導(dǎo)致文件元數(shù)據(jù)不落盤(pán),除非主動(dòng)調(diào)用 fsync,為此,MySQL 提供了 O_DIRECT 以及 O_DIRECT_NO_FSYNC 這兩個(gè)配置[5]。
如果你確定在自己的操作系統(tǒng)上,即使不進(jìn)行 fsync 調(diào)用,也能夠確保文件元數(shù)據(jù)落盤(pán),那么請(qǐng)使用 O_DIRECT_NO_FSYNC 配置,這對(duì) MySQL 性能略有幫助。否則,請(qǐng)使用 O_DIRECT,不然文件元數(shù)據(jù)的丟失可能會(huì)導(dǎo)致 MySQL 運(yùn)行錯(cuò)誤。
4. MySQL 日志的刷新策略
MySQL 日志刷新策略通過(guò) sync_binlog 參數(shù)進(jìn)行配置,其有 3 個(gè)可選配置:
sync_binlog=0:MySQL 應(yīng)用將完全不負(fù)責(zé)日志同步到磁盤(pán),將緩存中的日志數(shù)據(jù)刷新到磁盤(pán)全權(quán)交給操作系統(tǒng)來(lái)完成;
sync_binlog=1:MySQL 應(yīng)用在事務(wù)提交前將緩存區(qū)的日志刷新到磁盤(pán);
sync_binlog=N:當(dāng) N 不為 0 與 1 時(shí),MySQL 在收集到 N 個(gè)日志提交后,才會(huì)將緩存區(qū)的日志同步到磁盤(pán)。
事實(shí)上,這個(gè)參數(shù)也用于控制日志是通過(guò) Write Through 還是 Write Back 策略刷新到磁盤(pán)上。
注意事項(xiàng):使用 Page Cache 機(jī)制的數(shù)據(jù)刷盤(pán)機(jī)制,即使基于同步策略,即每次寫(xiě)操作都要求數(shù)據(jù)直接落盤(pán),但在數(shù)據(jù)落盤(pán)之前,數(shù)據(jù)總是先要寫(xiě)于 Page Cache 中,再將 Page Cache 中的具體 Page 刷新到磁盤(pán)上。
5. MySQL 的典型配置
innodb_flush_log_at_trx_commit 參數(shù)配置為 1:Redo Log 走 Page Cache,并且每次寫(xiě)操作的日志在事務(wù)提交前都通過(guò) fsync 刷新到磁盤(pán);
innodb_flush_method 參數(shù)配置為 O_DIRECT:InnoDB Buffer Pool 走 Direct I/O,并且每次寫(xiě)操作導(dǎo)致的文件數(shù)據(jù)(包括文件元數(shù)據(jù))都通過(guò) fsync 系統(tǒng)調(diào)用刷新到磁盤(pán);
寫(xiě)一條 redo log 涉及到的步驟有:
日志寫(xiě)入 Redo Log buffer;
日志寫(xiě)入 Page Cache;
通過(guò)系統(tǒng)調(diào)用 fsync 將 Page Cache 中的臟頁(yè)刷新到磁盤(pán);
日志提交;
修改表的一行記錄涉及到的步驟有:
更新后的數(shù)據(jù)寫(xiě)于 InnoDB Buffer Pool;
定時(shí)進(jìn)行如下邏輯(異步進(jìn)行):
InnoDB Buffer Pool 臟數(shù)據(jù)進(jìn)行刷新,通過(guò)文件的 write 方法進(jìn)行;
文件的 write 方法直接導(dǎo)致數(shù)據(jù)寫(xiě)于磁盤(pán)上;
定時(shí)進(jìn)行文件的 fysnc 調(diào)用,確保文件元數(shù)據(jù)寫(xiě)于磁盤(pán)上;
REFERENCE
[1]Buffer與Cache
[2]MySQL :: MySQL 8.0 Reference Manual :: 15.14 InnoDB Startup Options and System Variables
[3]MySQL 8.0 innodb_flush_method
[4]MySQL :: MySQL 8.0 Reference Manual :: 17.1.6.4 Binary Logging Options and Variables
[5] Why MYSQL still use fsync() to flush the data when the option is O_DIRECT?
鏈接:https://spongecaptain.cool/post/mysql/zerocopyofmysql
(版權(quán)歸原作者所有,侵刪)
10T 技術(shù)資源大放送!包括但不限于:Linux、虛擬化、容器、云計(jì)算、網(wǎng)絡(luò)、Python、Go 等。在開(kāi)源Linux公眾號(hào)內(nèi)回復(fù)「10T」,即可免費(fèi)獲取!
推薦閱讀:
shell編程100例(附PDF下載)
IPv6技術(shù)白皮書(shū)(附PDF下載)
Linux主流發(fā)行版本配置IP總結(jié)(Ubuntu、CentOS、Redhat、Suse)
批量安裝Windows系統(tǒng)
無(wú)人值守批量安裝服務(wù)器
運(yùn)維必備的《網(wǎng)絡(luò)端口大全》,看這一份就夠了。
收藏:服務(wù)器和存儲(chǔ)知識(shí)入門(mén)
什么叫SSH?原理詳解,看這一篇就夠了!
Nginx面試40問(wèn)(收藏吃灰)
20 個(gè) Linux 服務(wù)器性能調(diào)優(yōu)技巧
超詳細(xì)!一文帶你了解LVS四層負(fù)載均衡企業(yè)級(jí)實(shí)踐!
收藏 | Linux系統(tǒng)日志位置及包含的日志內(nèi)容介紹
100 道 Linux 常見(jiàn)面試題,建議收藏,慢慢讀~
服務(wù)器12種基本故障+排查方法
IT運(yùn)維管理常用工具大全,讓你成為真正的高手
什么是QoS?
有收獲,點(diǎn)個(gè)在看


