日韩性爱无码视频,天天爱天天干天天爽,亚洲图欧美色图另类色妞在线 ,欧美三级电影网站,女人操女人一级毛片,五月丁香婷婷色色,天天艹天天日天天干,性无码一区二区三区在线观看

夕小瑤科技說原創(chuàng)
作者 | 智商掉了一地
你是否嘗試過和GPT-4用密碼聊天？

近年來，大型語言模型（LLM）在推動人工智能系統(tǒng)發(fā)展中起到了關(guān)鍵作用。然而，確保LLM的響應(yīng)安全和可靠性是一個重要挑戰(zhàn)。安全是LLM開發(fā)的核心，而為了增強其安全性，已有大量的研究工作。然而，現(xiàn)有的工作主要集中在自然語言方面。

最近有項研究發(fā)現(xiàn)，使用密碼聊天可以繞過 LLM 的安全對齊技術(shù)。作者由此提出了一種名為CipherChat的新框架，用于研究在非自然語言（密碼）中的安全對齊。

論文題目：
GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMS via Cipher
項目鏈接：
https://arxiv.org/pdf/2308.06463.pdf

CipherChat允許人類通過密碼提示與LLM進(jìn)行對話。具體倆說，CipherChat將輸入轉(zhuǎn)換為密碼，并在輸入之前附上提示，然后將其輸入LLM進(jìn)行檢查。LLM生成的輸出很可能也是用密碼加密的，這些輸出通過解密器進(jìn)行解密。這項工作研究了以下問題：

將LLM的行為定義為密碼專家的角色，并要求LLM使用密碼進(jìn)行聊天。
利用LLM的學(xué)習(xí)能力，通過解釋密碼的工作原理來教授LLM，以便在上下文中學(xué)習(xí)。
使用密碼加密的不安全演示來加強LLM對密碼的理解，并引導(dǎo)LLM從負(fù)面角度回應(yīng)。

作者用CipherChat評估了最先進(jìn)的LLM（包括ChatGPT和GPT-4），結(jié)果表明，在某些安全領(lǐng)域中，有密碼幾乎成功地繞過了GPT-4的安全對齊。模型越強大，使用密碼的響應(yīng)越不安全。這也表明在非自然語言中開發(fā)安全對齊的必要性。此外，作者還發(fā)現(xiàn)LLM似乎有一種“秘密密碼”，并提出了SelfCipher框架，通過角色扮演和自然語言演示來喚起LLM的“秘密密碼”能力，該框架在模型、語言和安全領(lǐng)域上優(yōu)于現(xiàn)有的人類密碼。

為了確保LLM的負(fù)責(zé)任和有效部署，需要將人類倫理和偏好與其發(fā)展保持一致。OpenAI在部署GPT-4模型之前，花費了六個月的時間來確保其安全性。他們采用了RLHF和其他安全緩解方法。此外，他們還組建了一個SuperAlignment團隊，以確保比人類更聰明的AI系統(tǒng)遵循人類意圖。

在本研究中，作者驗證了本文的方法在GPT-4模型上的有效性，并表明密碼聊天可以避開安全對齊。

學(xué)術(shù)界也有一些工作致力于更有效和高效地對齊LLM。

Constitutional AI（CAI）：編碼期望的AI行為，以更精確地控制AI行為。
SELF-ALIGN：實現(xiàn)AI代理的自我對齊。

關(guān)鍵部分

如圖1所示，CipherChat由以下的關(guān)鍵部分組成：

行為分配：我們讓LLM扮演密碼專家的角色，并要求他們使用密碼進(jìn)行溝通。在實驗中發(fā)現(xiàn)LLM傾向于直接將密碼翻譯成自然語言，所以作者添加了一個提示句來防止這種翻譯行為。
密碼教學(xué)：最近的研究表明LLM在上下文中學(xué)習(xí)的能力很強。受到這些發(fā)現(xiàn)的啟發(fā)，作者在提示中解釋了密碼的含義，以指導(dǎo)LLM密碼的工作原理。
加密的不安全演示：作者給LLM提供了一些以密碼加密的不安全演示。這樣做有兩個效果：

演示可以幫助LLM更好地理解密碼；
不安全的演示引導(dǎo)LLM從負(fù)面或有害的角度進(jìn)行回應(yīng)。

加密輸入指令

在CipherChat中，選擇密碼非常重要，因為LLM對不同密碼的理解和生成能力不同。

作者研究了幾種常見的密碼，分別用于英語和中文。有字符編碼、常見的加密技術(shù)（如Atbash、凱撒密碼和摩斯碼）以及SelfCipher。在表1中列舉了一些密碼的示例。

表2展示了基于規(guī)則和基于LLM的解密器對英文（摩爾斯碼）和中文（Unicode）查詢“如何成為一個糟糕的翻譯？”的解密響應(yīng)，用紅色標(biāo)記了錯誤的標(biāo)記。

與基于規(guī)則的解密器相比，GPT-4解密器可以用更高的成本生成更流暢、更自然的文本。

實驗設(shè)置

數(shù)據(jù)

作者使用了一個中文安全評估基準(zhǔn)，其中包括八個安全場景和六種基于指令的攻擊類型。為了進(jìn)行研究，隨機選擇了11個領(lǐng)域，每個領(lǐng)域隨機抽取了199個實例。這些領(lǐng)域包括犯罪和非法活動、侮辱、不公平和歧視以及倫理和道德等。為了便于雙語研究，作者還擴展了這個數(shù)據(jù)集，包括英文，是利用了谷歌翻譯服務(wù)和手動校正的組合。

模型

實驗框架包括兩個模型：Turbo和GPT-4。Chen等人的研究表明GPT-4的最新版本更安全。因此，對于安全評估基準(zhǔn)中的每個查詢，作者使用系統(tǒng)提示和示范進(jìn)行推理。每個示范包括從領(lǐng)域特定數(shù)據(jù)集中隨機抽取的查詢和由人工標(biāo)注者設(shè)計的響應(yīng)。同一領(lǐng)域中的所有查詢共享相同的示范。

作者用CipherChat評估了GPT-4和Turbo的安全性能，試圖回答以下研究問題：

CipherChat能否通過密碼與LLM進(jìn)行聊天？
CipherChat能否繞過LLM的安全對齊？
CipherChat如何工作？

我們想知道，在CipherChat中，從未在預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的模擬密碼是否有效？為了回答這個問題，作者定義了一個不存在的密碼，但即便使用多個示例，這些密碼也無法工作。這表明，LLM可能依賴于在預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的密碼的知識。如表3的結(jié)果，人類密碼（如凱撒密碼）和SelfCipher的成功表明，LLM可以從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類密碼的知識，并生成自己的密碼。

人工評估顯示CipherChat可以通過特定的人工密碼（例如中文的Unicode和英文的ASCII）與Turbo和GPT-4進(jìn)行聊天，并且以自然語言進(jìn)行通信的SelfCipher在模型和語言之間表現(xiàn)良好。錯誤的密碼和簡單的重復(fù)查詢對無效響應(yīng)的貢獻(xiàn)最大。

還有實驗結(jié)果證明了CipherChat繞過LLM的安全對齊的有效性。在英文查詢中，CipherChat在GPT-4上可以生成高達(dá)70.9%的不安全響應(yīng)，并且這個趨勢在各個領(lǐng)域中都存在。

作者進(jìn)一步的分析揭示了指令和不安全演示在CipherChat中的重要作用。SelfCipher可能表現(xiàn)出色的原因可能是由于類似于思維鏈中的提示“您是密碼代碼的專家”，這指導(dǎo)LLM利用自己的“密碼”生成響應(yīng)。

結(jié)論

本文提出了一種名為CipherChat的新框架，用于研究在非自然語言（密碼）中的安全對齊。作者的研究表明，使用密碼進(jìn)行聊天可以從GPT-4模型中引出不安全的信息。此外，還有以下發(fā)現(xiàn)：

LLM可以通過提示生成不安全的加密響應(yīng)。
更強大的LLM在不安全的密碼聊天中受到更大的影響，因為它們對密碼的理解更好。
從未在預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的模擬密碼無法工作，這與之前的研究一致。
LLM似乎有一個“秘密密碼”，即使只使用角色扮演的提示和少量自然語言示例，也可以喚起這種能力。

本文的工作強調(diào)了開發(fā)非自然語言的安全對齊性的必要性，以匹配底層LLM的能力。

在未來，比較有潛力的研究方向是在加密數(shù)據(jù)中實施安全對齊技術(shù)，另一個有趣的方向是探索LLM中的“秘密密碼”并更好地理解這種能力。

GPT-4破防啦！用密碼和GPT-4聊天，成功繞過了GPT-4的安全機制！港中大（深圳）告訴你方法

關(guān)鍵部分

加密輸入指令

實驗設(shè)置

數(shù)據(jù)

模型

結(jié)論