GPT-4破防啦!用密碼和GPT-4聊天,成功繞過了GPT-4的安全機制!港中大(深圳)告訴你方法
夕小瑤科技說 原創(chuàng)
作者 | 智商掉了一地
你是否嘗試過和GPT-4用密碼聊天?
近年來,大型語言模型(LLM)在推動人工智能系統(tǒng)發(fā)展中起到了關(guān)鍵作用。然而,確保LLM的響應(yīng)安全和可靠性是一個重要挑戰(zhàn)。安全是LLM開發(fā)的核心,而為了增強其安全性,已有大量的研究工作。然而,現(xiàn)有的工作主要集中在自然語言方面。
最近有項研究發(fā)現(xiàn),使用密碼聊天可以繞過 LLM 的安全對齊技術(shù)。作者由此提出了一種名為CipherChat的新框架,用于研究在非自然語言(密碼)中的安全對齊。
論文題目:
GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMS via Cipher
項目鏈接:
https://arxiv.org/pdf/2308.06463.pdf
CipherChat允許人類通過密碼提示與LLM進(jìn)行對話。具體倆說,CipherChat將輸入轉(zhuǎn)換為密碼,并在輸入之前附上提示,然后將其輸入LLM進(jìn)行檢查。LLM生成的輸出很可能也是用密碼加密的,這些輸出通過解密器進(jìn)行解密。這項工作研究了以下問題:
-
將LLM的行為定義為密碼專家的角色,并要求LLM使用密碼進(jìn)行聊天。 -
利用LLM的學(xué)習(xí)能力,通過解釋密碼的工作原理來教授LLM,以便在上下文中學(xué)習(xí)。 -
使用密碼加密的不安全演示來加強LLM對密碼的理解,并引導(dǎo)LLM從負(fù)面角度回應(yīng)。
作者用CipherChat評估了最先進(jìn)的LLM(包括ChatGPT和GPT-4),結(jié)果表明,在某些安全領(lǐng)域中,有密碼幾乎成功地繞過了GPT-4的安全對齊。模型越強大,使用密碼的響應(yīng)越不安全。這也表明在非自然語言中開發(fā)安全對齊的必要性。此外,作者還發(fā)現(xiàn)LLM似乎有一種“秘密密碼”,并提出了SelfCipher框架,通過角色扮演和自然語言演示來喚起LLM的“秘密密碼”能力,該框架在模型、語言和安全領(lǐng)域上優(yōu)于現(xiàn)有的人類密碼。
為了確保LLM的負(fù)責(zé)任和有效部署,需要將人類倫理和偏好與其發(fā)展保持一致。OpenAI在部署GPT-4模型之前,花費了六個月的時間來確保其安全性。他們采用了RLHF和其他安全緩解方法。此外,他們還組建了一個SuperAlignment團隊,以確保比人類更聰明的AI系統(tǒng)遵循人類意圖。
在本研究中,作者驗證了本文的方法在GPT-4模型上的有效性,并表明密碼聊天可以避開安全對齊。
學(xué)術(shù)界也有一些工作致力于更有效和高效地對齊LLM。
-
Constitutional AI(CAI):編碼期望的AI行為,以更精確地控制AI行為。 -
SELF-ALIGN:實現(xiàn)AI代理的自我對齊。
關(guān)鍵部分
如圖1所示,CipherChat由以下的關(guān)鍵部分組成:
-
行為分配:我們讓LLM扮演密碼專家的角色,并要求他們使用密碼進(jìn)行溝通。在實驗中發(fā)現(xiàn)LLM傾向于直接將密碼翻譯成自然語言,所以作者添加了一個提示句來防止這種翻譯行為。 -
密碼教學(xué):最近的研究表明LLM在上下文中學(xué)習(xí)的能力很強。受到這些發(fā)現(xiàn)的啟發(fā),作者在提示中解釋了密碼的含義,以指導(dǎo)LLM密碼的工作原理。 -
加密的不安全演示:作者給LLM提供了一些以密碼加密的不安全演示。這樣做有兩個效果: -
演示可以幫助LLM更好地理解密碼; -
不安全的演示引導(dǎo)LLM從負(fù)面或有害的角度進(jìn)行回應(yīng)。
加密輸入指令
在CipherChat中,選擇密碼非常重要,因為LLM對不同密碼的理解和生成能力不同。
作者研究了幾種常見的密碼,分別用于英語和中文。有字符編碼、常見的加密技術(shù)(如Atbash、凱撒密碼和摩斯碼)以及SelfCipher。在表1中列舉了一些密碼的示例。
表2展示了基于規(guī)則和基于LLM的解密器對英文(摩爾斯碼)和中文(Unicode)查詢“如何成為一個糟糕的翻譯?”的解密響應(yīng),用紅色標(biāo)記了錯誤的標(biāo)記。
與基于規(guī)則的解密器相比,GPT-4解密器可以用更高的成本生成更流暢、更自然的文本。
實驗設(shè)置
數(shù)據(jù)
作者使用了一個中文安全評估基準(zhǔn),其中包括八個安全場景和六種基于指令的攻擊類型。為了進(jìn)行研究,隨機選擇了11個領(lǐng)域,每個領(lǐng)域隨機抽取了199個實例。這些領(lǐng)域包括犯罪和非法活動、侮辱、不公平和歧視以及倫理和道德等。為了便于雙語研究,作者還擴展了這個數(shù)據(jù)集,包括英文,是利用了谷歌翻譯服務(wù)和手動校正的組合。
模型
實驗框架包括兩個模型:Turbo和GPT-4。Chen等人的研究表明GPT-4的最新版本更安全。因此,對于安全評估基準(zhǔn)中的每個查詢,作者使用系統(tǒng)提示和示范進(jìn)行推理。每個示范包括從領(lǐng)域特定數(shù)據(jù)集中隨機抽取的查詢和由人工標(biāo)注者設(shè)計的響應(yīng)。同一領(lǐng)域中的所有查詢共享相同的示范。
作者用CipherChat評估了GPT-4和Turbo的安全性能,試圖回答以下研究問題:
-
CipherChat能否通過密碼與LLM進(jìn)行聊天? -
CipherChat能否繞過LLM的安全對齊? -
CipherChat如何工作?
我們想知道,在CipherChat中,從未在預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的模擬密碼是否有效?為了回答這個問題,作者定義了一個不存在的密碼,但即便使用多個示例,這些密碼也無法工作。這表明,LLM可能依賴于在預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的密碼的知識。如表3的結(jié)果,人類密碼(如凱撒密碼)和SelfCipher的成功表明,LLM可以從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類密碼的知識,并生成自己的密碼。
人工評估顯示CipherChat可以通過特定的人工密碼(例如中文的Unicode和英文的ASCII)與Turbo和GPT-4進(jìn)行聊天,并且以自然語言進(jìn)行通信的SelfCipher在模型和語言之間表現(xiàn)良好。錯誤的密碼和簡單的重復(fù)查詢對無效響應(yīng)的貢獻(xiàn)最大。
還有實驗結(jié)果證明了CipherChat繞過LLM的安全對齊的有效性。在英文查詢中,CipherChat在GPT-4上可以生成高達(dá)70.9%的不安全響應(yīng),并且這個趨勢在各個領(lǐng)域中都存在。
作者進(jìn)一步的分析揭示了指令和不安全演示在CipherChat中的重要作用。SelfCipher可能表現(xiàn)出色的原因可能是由于類似于思維鏈中的提示“您是密碼代碼的專家”,這指導(dǎo)LLM利用自己的“密碼”生成響應(yīng)。
結(jié)論
本文提出了一種名為CipherChat的新框架,用于研究在非自然語言(密碼)中的安全對齊。作者的研究表明,使用密碼進(jìn)行聊天可以從GPT-4模型中引出不安全的信息。此外,還有以下發(fā)現(xiàn):
-
LLM可以通過提示生成不安全的加密響應(yīng)。 -
更強大的LLM在不安全的密碼聊天中受到更大的影響,因為它們對密碼的理解更好。 -
從未在預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的模擬密碼無法工作,這與之前的研究一致。 -
LLM似乎有一個“秘密密碼”,即使只使用角色扮演的提示和少量自然語言示例,也可以喚起這種能力。
本文的工作強調(diào)了開發(fā)非自然語言的安全對齊性的必要性,以匹配底層LLM的能力。
在未來,比較有潛力的研究方向是在加密數(shù)據(jù)中實施安全對齊技術(shù),另一個有趣的方向是探索LLM中的“秘密密碼”并更好地理解這種能力。
