靈魂拷問(wèn):你寫(xiě)的SQL一般有幾個(gè)join ??
互聯(lián)網(wǎng)架構(gòu)師后臺(tái)回復(fù) 2T 有特別禮包
面試官:有操作過(guò)Linux嗎?
我:有的呀
面試官:那你說(shuō)一下用free命令都可以看到啥信息
我:那,如下圖所示 可以看到內(nèi)存以及緩存的使用情況

面試官:那你知道怎么清理已使用的緩存嗎(buff/cache)
我:em… 不知道
面試官:sync; echo 3 > /proc/sys/vm/drop_caches就可以清理buff/cache了,你說(shuō)說(shuō)我在線上執(zhí)行這條命令做好不好?

我:(送分題,內(nèi)心大喜) 好處大大的有,清理出緩存我們就有更多可用的內(nèi)存空間, 就跟pc上面xx衛(wèi)士的小火箭一樣,點(diǎn)一下,就釋放出好多的內(nèi)存
面試官:em…., 回去等通知吧,搜索公眾號(hào)互聯(lián)網(wǎng)架構(gòu)師回復(fù)“2T”,送你一份驚喜禮包。
再談SQL Join
回顧
SQL中的join可以根據(jù)某些條件把指定的表給結(jié)合起來(lái)并將數(shù)據(jù)返回給客戶端
join的方式有




搜索公眾號(hào)互聯(lián)網(wǎng)架構(gòu)師回復(fù)“2T”,送你一份驚喜禮包。
緩沖區(qū)
我: 在執(zhí)行join語(yǔ)句的時(shí)候必然要有一個(gè)比較的過(guò)程
面試官: 是的

如圖所示join_buffer_size的大小將會(huì)影響我們join語(yǔ)句的執(zhí)行性能
面試官: 除此之外呢?
一個(gè)大前提
我:任何項(xiàng)目終究要上線,不可避免的要產(chǎn)生數(shù)據(jù),數(shù)據(jù)的規(guī)模又不可能太小
面試官: 是這樣的
我:大部分?jǐn)?shù)據(jù)庫(kù)中的數(shù)據(jù)最終要保存到硬盤(pán)上,并且以文件的形式進(jìn)行存儲(chǔ)。
以MySQL的InnoDB引擎為例
InnoDB以頁(yè)(page)為基本的IO單位,每個(gè)頁(yè)的大小為16KB InnoDB會(huì)為每個(gè)表創(chuàng)建用于存儲(chǔ)數(shù)據(jù)的.ibd文件


我:這意味著我們有多少表要連接就需要讀多少個(gè)文件,雖然可以利用索引,但還是免不了頻繁的移動(dòng)硬盤(pán)的磁頭,搜索公眾號(hào)互聯(lián)網(wǎng)架構(gòu)師回復(fù)“2T”,送你一份驚喜禮包。
面試官:也就是說(shuō)頻繁的移動(dòng)磁頭會(huì)影響性能對(duì)吧
我:是的,現(xiàn)在的開(kāi)源框架不都喜歡說(shuō)自己通過(guò)順序讀寫(xiě)大大的提升了性能嗎,比如hbase、kafka
面試官:說(shuō)的沒(méi)錯(cuò),那你認(rèn)為L(zhǎng)inux有對(duì)此做出優(yōu)化嗎?提示,你可以再執(zhí)行一次free命令看一下
我:奇怪緩存怎么占用了1.2G多


面試官:你有沒(méi)有想過(guò)
buff/cache 里面存的是什么? 為什么buff/cache 占了那么多內(nèi)存,可用內(nèi)存即availlable還有1.1G? 為什么你可以通過(guò)兩條命令來(lái)清理buff/cache占用的內(nèi)存,而想要釋放used只能通過(guò)結(jié)束進(jìn)程來(lái)實(shí)現(xiàn)?

我:這么隨便就釋放了buff/cache所占用的內(nèi)存,說(shuō)明它就不重要, 清除它不會(huì)對(duì)系統(tǒng)的運(yùn)行造成影響
我:難道是?想起來(lái)《CSAPP》(深入理解計(jì)算機(jī)系統(tǒng))里面說(shuō)過(guò)一句話
存儲(chǔ)器層次結(jié)構(gòu)的本質(zhì)是,每一層存儲(chǔ)設(shè)備都是較低一層設(shè)備的緩存

通俗來(lái)說(shuō),就是說(shuō)Linux會(huì)把內(nèi)存當(dāng)作是硬盤(pán)的高速緩存
面試官:現(xiàn)在知道那道送分題應(yīng)該怎么回答了吧
我:我….

Join算法
面試官:再給你個(gè)機(jī)會(huì),如果讓你來(lái)實(shí)現(xiàn)Join算法你會(huì)怎么做?
我:無(wú)索引的話,嵌套循環(huán)就完事了嗷。有索引的話,則可以利用索引來(lái)提升性能.
面試官:說(shuō)回join_buffer 你認(rèn)為join_buffer里面存儲(chǔ)的是什么?
我:這個(gè)就比較簡(jiǎn)單了,直接讀取兩個(gè)表的索引樹(shù)進(jìn)行比較就完事了嗷,我這邊介紹一下無(wú)索引的處理方式

嵌套循環(huán),每次只讀取表中的一行數(shù)據(jù),也就是說(shuō)如果outerTable有10萬(wàn)行數(shù)據(jù), innerTable有100行數(shù)據(jù),需要讀取10000000次(假設(shè)這兩個(gè)表的文件沒(méi)有被操作系統(tǒng)給緩存到內(nèi)存, 我們稱之為冷數(shù)據(jù)表),搜索公眾號(hào)互聯(lián)網(wǎng)架構(gòu)師回復(fù)“2T”,送你一份驚喜禮包。
當(dāng)然現(xiàn)在沒(méi)啥數(shù)據(jù)庫(kù)引擎使用這種算法(太慢了)

Block 塊,也就是說(shuō)每次都會(huì)取一塊數(shù)據(jù)到內(nèi)存以減少I/O的開(kāi)銷
當(dāng)沒(méi)有索引可以使用的時(shí)候,MySQL InnoDB 就會(huì)使用這種算法
考慮以下兩個(gè)表 t_a 和t_b


總結(jié)
上學(xué)時(shí),數(shù)據(jù)庫(kù)老師最喜歡考數(shù)據(jù)庫(kù)范式,直到上班才學(xué)會(huì)一切以性能為準(zhǔn),能冗余就冗余,實(shí)在冗余不了的就join如果join真的影響到性能。試著調(diào)大你的join_buffer_size, 或者換固態(tài)硬盤(pán)。
參考資料
《深入理解計(jì)算機(jī)系統(tǒng)》- 第6章 存儲(chǔ)器層次結(jié)構(gòu)
《Experiments and fun with the Linux disk cache》作者通過(guò)幾個(gè)例子來(lái)說(shuō)明硬盤(pán)緩存對(duì)程序執(zhí)行性能的影響
《Linux ate my ram》 Free參數(shù)的解釋
How to clear the buffer/pagecache (disk cache) under Linux 文章開(kāi)頭送分題命令的解釋
MySQL 是怎樣運(yùn)行的:從根兒上理解 MySQL
Block bested loop 來(lái)自MariaDB官方文檔解釋了Block-Nested-Loop算法的實(shí)現(xiàn)
正文結(jié)束
1.心態(tài)崩了!稅前2萬(wàn)4,到手1萬(wàn)4,年終獎(jiǎng)扣稅方式1月1日起施行~
2.深圳一普通中學(xué)老師工資單曝光,秒殺程序員,網(wǎng)友:敢問(wèn)是哪個(gè)學(xué)校畢業(yè)的?
3.從零開(kāi)始搭建創(chuàng)業(yè)公司后臺(tái)技術(shù)棧
5.清華大學(xué):2021 元宇宙研究報(bào)告!
6.為什么國(guó)內(nèi) 996 干不過(guò)國(guó)外的 955呢?

