爆火后反轉(zhuǎn)?「一夜干掉MLP」的KAN:其實我也是MLP
共 6753字,需瀏覽 14分鐘
·
2024-05-07 22:06
KAN 作者:我想傳達的信息不是「KAN 很棒」,而是「嘗試批判性地思考當前的架構,并尋求從根本上不同的替代方案,這些方案可以完成有趣、有用的事情。」
def f(x):if x < 0:return -2*xif x < 1:return -0.5*xreturn 2*x - 2.5X = torch.linspace(-2, 2, 100)plt.plot(X, [f(x) for x in X])plt.grid()
plt.plot(X, -2*X + torch.relu(X)*1.5 + torch.relu(X-1)*2.5)plt.grid()
k = 3 # Grid sizeinp_size = 5out_size = 7batch_size = 10X = torch.randn(batch_size, inp_size) # Our inputlinear = nn.Linear(inp_size*k, out_size) # Weightsrepeated = X.unsqueeze(1).repeat(1,k,1)shifts = torch.linspace(-1, 1, k).reshape(1,k,1)shifted = repeated + shiftsintermediate = torch.cat([shifted[:,:1,:], torch.relu(shifted[:,1:,:])], dim=1).flatten(1)outputs = linear(intermediate)
Expand + shift + ReLU
Linear
-
Expand + shift + ReLU (第 1 層從這里開始) -
Linear -
Expand + shift + ReLU (第 2 層從這里開始) -
Linear -
Expand + shift + ReLU (第 3 層從這里開始) -
Linear
-
Linear (第 1 層從這里開始) -
Expand + shift + ReLU -
Linear (第 2 層從這里開始) -
Expand + shift + ReLU
-
Linear (第 2 層從這里開始) -
Expand + shift + ReLU
-
KAN 的擴展速度比 MLP 更快。KAN 比參數(shù)較少的 MLP 具有更好的準確性。 -
KAN 可以直觀地可視化。KAN 提供了 MLP 無法提供的可解釋性和交互性。我們可以使用 KAN 潛在地發(fā)現(xiàn)新的科學定律。
作為該論文的作者之一,我想說幾句。KAN 受到的關注令人驚嘆,而這種討論正是將新技術推向極限、找出哪些可行或不可行所需要的。
我想我應該分享一些關于動機的背景資料。我們實現(xiàn) KAN 的主要想法源于我們正在尋找可解釋的人工智能模型,這種模型可以「學習」物理學家發(fā)現(xiàn)自然規(guī)律的洞察力。因此,正如其他人所意識到的那樣,我們完全專注于這一目標,因為傳統(tǒng)的黑箱模型無法提供對科學基礎發(fā)現(xiàn)至關重要的見解。然后,我們通過與物理學和數(shù)學相關的例子表明,KAN 在可解釋性方面大大優(yōu)于傳統(tǒng)方法。我們當然希望,KAN 的實用性將遠遠超出我們最初的動機。
最近我被問到的最常見的問題是 KAN 是否會成為下一代 LLM。我對此沒有很清楚的判斷。
KAN 專為關心高精度和可解釋性的應用程序而設計。我們確實關心 LLM 的可解釋性,但可解釋性對于 LLM 和科學來說可能意味著截然不同的事情。我們關心 LLM 的高精度嗎?縮放定律似乎意味著如此,但可能精度不太高。此外,對于 LLM 和科學來說,準確性也可能意味著不同的事情。
我歡迎人們批評 KAN,實踐是檢驗真理的唯一標準。很多事情我們事先并不知道,直到它們經(jīng)過真正的嘗試并被證明是成功還是失敗。盡管我愿意看到 KAN 的成功,但我同樣對 KAN 的失敗感到好奇。
KAN 和 MLP 不能相互替代,它們在某些情況下各有優(yōu)勢,在某些情況下各有局限性。我會對包含兩者的理論框架感興趣,甚至可以提出新的替代方案(物理學家喜歡統(tǒng)一理論,抱歉)。
評論
圖片
表情
