通俗理解貝葉斯優(yōu)化
選自Medium
作者:Andre Ye
機器之心編譯
編輯:Panda
貝葉斯優(yōu)化是機器學習超參數(shù)優(yōu)化的常用技術之一,本文不會使用艱深的數(shù)學論證,而是通過簡單的術語帶你領略貝葉斯優(yōu)化之美。
計算成本高。理想情況下,只要我們查詢函數(shù)的次數(shù)足夠多,我們就能在實質上將它復現(xiàn)出來,但在實際情況下,輸入的采樣很有限,優(yōu)化方法必須在這種情況下也能有效工作。
導數(shù)未知。在深度學習以及其它一些機器學習算法中,梯度下降及其變體方法依然是最常用的方法,這當然是有原因的。知道了導數(shù),能讓優(yōu)化器獲得一定的方向感——我們沒有這種方向感。
我們需要找到全局最小值,這個任務即使對于梯度下降這種復雜精細的方法來說也很困難。我們的模型有時需要某種機制來避免被困于局部最小值。




利用的目標是采樣代理模型能很好地預測目標函數(shù)的地方。這會用到已知的有潛力的位置。但是,如果我們已經(jīng)充分探索了某個特定的區(qū)域,再繼續(xù)利用已知信息也收益不大了。
探索的目標是采樣不確定度較高的位置。這能確??臻g中不留下未探索的主要區(qū)域——全局最小值可能就藏在此處。
初始化一個高斯過程「代理函數(shù)」先驗分布。
選擇幾個數(shù)據(jù)點 x 使得獲取函數(shù) a(x) 在當前先驗分布上的結果是最大的。
在目標成本函數(shù) c(x) 中評估數(shù)據(jù)點 x 并獲取其結果 y。
使用新數(shù)據(jù)更新高斯過程先驗分布,得到一個后驗分布(這將作為下一步的先驗分布)。
重復第 2-5 步并多次迭代。
解讀當前的高斯過程分布(成本很低),找到全局最小值。
代理優(yōu)化是使用一個代理函數(shù)或近似函數(shù)來通過采樣估計目標函數(shù)。
貝葉斯優(yōu)化是通過將代理函數(shù)表示成概率分布而將代理優(yōu)化放入一個概率框架中,然后再使用新信息更新這個分布。
獲取函數(shù)則是用于基于已知的先驗,評估利用空間中的某個特定點得到「好」結果的概率。其關鍵在于探索與利用的平衡。
貝葉斯優(yōu)化的主要使用場景是目標函數(shù)評估成本高的任務,比如超參數(shù)調節(jié)。有一些用于該任務的軟件庫,比如 HyperOpt。
往期精彩:
【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf

