SQL 查詢總是先執(zhí)行SELECT語句嗎?你們都錯了!
點擊上方SQL數(shù)據(jù)庫開發(fā),關注獲取SQL視頻教程
SQL專欄
SQL數(shù)據(jù)庫基礎知識匯總SQL數(shù)據(jù)庫高級知識匯總作者丨Julia Evans? ?譯者丨無明? ?
infoq.cn/article/Oke8hgilga3PTZ3gWvbg
很多 SQL 查詢都是以 SELECT 開始的。不過,最近我跟別人解釋什么是窗口函數(shù),我在網(wǎng)上搜索”是否可以對窗口函數(shù)返回的結果進行過濾“這個問題,得出的結論是”窗口函數(shù)必須在 WHERE 和 GROUP BY 之后,所以不能”。
于是我又想到了另一個問題:SQL 查詢的執(zhí)行順序是怎樣的?
好像這個問題應該很好回答,畢竟自己已經(jīng)寫了上萬個 SQL 查詢了,有一些還很復雜。但事實是,我仍然很難確切地說出它的順序是怎樣的。
SQL 查詢的執(zhí)行順序
于是我研究了一下,發(fā)現(xiàn)順序大概是這樣的。SELECT 并不是最先執(zhí)行的,而是在第五個。
這張圖回答了以下這些問題
這張圖與 SQL 查詢的語義有關,讓你知道一個查詢會返回什么,并回答了以下這些問題:- 可以在 GRROUP BY 之后使用 WHERE 嗎?(不行,WHERE 是在 GROUP BY 之前!)
- 可以對窗口函數(shù)返回的結果進行過濾嗎?(不行,窗口函數(shù)是 SELECT 語句里,而 SELECT 是在 WHERE 和 GROUP BY 之后)
- 可以基于 GROUP BY 里的東西進行 ORDER BY 嗎?(可以,ORDER BY 基本上是在最后執(zhí)行的,所以可以基于任何東西進行 ORDER BY)
- LIMIT 是在什么時候執(zhí)行?(在最后?。?/span>
- 如果你想要知道一個查詢語句是否合法,或者想要知道一個查詢語句會返回什么,可以參考這張圖;
- 在涉及查詢性能或者與索引有關的東西時,這張圖就不適用了。
混合因素:列別名
有很多 SQL 實現(xiàn)允許你使用這樣的語法:SELECT?CONCAT(first_name,?'?',?last_name)?AS?full_name,?count(*)
FROM?table
GROUP?BY?full_name
從這個語句來看,好像 GROUP BY 是在 SELECT 之后執(zhí)行的,因為它引用了 SELECT 中的一個別名。但實際上不一定要這樣,數(shù)據(jù)庫引擎可以把查詢重寫成這樣:
SELECT?CONCAT(first_name,?'?',?last_name)?AS?full_name,?count(*)
FROM?table
GROUP?BY?CONCAT(first_name,?'?',?last_name)
這樣 GROUP BY 仍然先執(zhí)行。
數(shù)據(jù)庫引擎還會做一系列檢查,確保 SELECT 和 GROUP BY 中的東西是有效的,所以會在生成執(zhí)行計劃之前對查詢做一次整體檢查。
數(shù)據(jù)庫可能不按照這個順序執(zhí)行查詢(優(yōu)化)
在實際當中,數(shù)據(jù)庫不一定會按照 JOIN、WHERE、GROUP BY 的順序來執(zhí)行查詢,因為它們會進行一系列優(yōu)化,把執(zhí)行順序打亂,從而讓查詢執(zhí)行得更快,只要不改變查詢結果。
這個查詢說明了為什么需要以不同的順序執(zhí)行查詢:
SELECT?*?FROM
owners?LEFT?JOIN?cats?ON?owners.id?=?cats.owner
WHERE?cats.name?=?'mr?darcy'
如果只需要找出名字叫“mr darcy”的貓,那就沒必要對兩張表的所有數(shù)據(jù)執(zhí)行左連接,在連接之前先進行過濾,這樣查詢會快得多,而且對于這個查詢來說,先執(zhí)行過濾并不會改變查詢結果。
數(shù)據(jù)庫引擎還會做出其他很多優(yōu)化,按照不同的順序執(zhí)行查詢,不過我并不是這方面的專家,所以這里就不多說了。
LINQ 的查詢以 FROM 開頭
LINQ(C#和 VB.NET 中的查詢語法)是按照 FROM…WHERE…SELECT 的順序來的。這里有一個 LINQ 查詢例子:
var?teenAgerStudent?=?from?s?in?studentList
??????????????????????where?s.Age?>?12?&&?s.Age?20
??????????????????????select?s;
pandas 中的查詢也基本上是這樣的,不過你不一定要按照這個順序。我通常會像下面這樣寫 pandas 代碼:
df?=?thing1.join(thing2)??????#?JOIN
df?=?df[df.created_at?>?1000]?#?WHERE
df?=?df.groupby('something',?num_yes?=?('yes',?'sum'))?#?GROUP?BY
df?=?df[df.num_yes?>?2]???????#?HAVING,?對?GROUP?BY?結果進行過濾
df?=?df[['num_yes',?'something1',?'something']]?#?SELECT,?選擇要顯示的列
df.sort_values('sometthing',?ascending=True)[:30]?#?ORDER?BY?和?LIMIT
df[:30]
這樣寫并不是因為 pandas 規(guī)定了這些規(guī)則,而是按照 JOIN/WHERE/GROUP BY/HAVING 這樣的順序來寫代碼會更有意義些。不過我經(jīng)常會先寫 WHERE 來改進性能,而且我想大多數(shù)數(shù)據(jù)庫引擎也會這么做。——End——
后臺回復關鍵字:1024,獲取一份精心整理的技術干貨
后臺回復關鍵字:進群,帶你進入高手如云的交流群。
推薦閱讀
- 一個天才程序員的黑幫大佬人生
- 我是培訓機構出身的程序員,不敢告訴任何人
- 危險!在國內(nèi),自己私下使用VPN是否違法?
- 如何寫出讓同事無法維護的代碼?
- 精心整理了一套Oracle日常巡檢腳本,速速收藏!
