<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GPT-4破防啦!用密碼和GPT-4聊天,成功繞過了GPT-4的安全機制!港中大(深圳)告訴你方法

          共 3613字,需瀏覽 8分鐘

           ·

          2023-09-07 02:25

          夕小瑤科技說 原創(chuàng)
          作者 | 智商掉了一地
          你是否嘗試過和GPT-4用密碼聊天?

          近年來,大型語言模型(LLM)在推動人工智能系統(tǒng)發(fā)展中起到了關(guān)鍵作用。然而,確保LLM的響應(yīng)安全和可靠性是一個重要挑戰(zhàn)。安全是LLM開發(fā)的核心,而為了增強其安全性,已有大量的研究工作。然而,現(xiàn)有的工作主要集中在自然語言方面。

          最近有項研究發(fā)現(xiàn),使用密碼聊天可以繞過 LLM 的安全對齊技術(shù)。作者由此提出了一種名為CipherChat的新框架,用于研究在非自然語言(密碼)中的安全對齊。

          論文題目:
          GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMS via Cipher
          項目鏈接:
          https://arxiv.org/pdf/2308.06463.pdf

          CipherChat允許人類通過密碼提示與LLM進(jìn)行對話。具體倆說,CipherChat將輸入轉(zhuǎn)換為密碼,并在輸入之前附上提示,然后將其輸入LLM進(jìn)行檢查。LLM生成的輸出很可能也是用密碼加密的,這些輸出通過解密器進(jìn)行解密。這項工作研究了以下問題:

          • 將LLM的行為定義為密碼專家的角色,并要求LLM使用密碼進(jìn)行聊天。
          • 利用LLM的學(xué)習(xí)能力,通過解釋密碼的工作原理來教授LLM,以便在上下文中學(xué)習(xí)。
          • 使用密碼加密的不安全演示來加強LLM對密碼的理解,并引導(dǎo)LLM從負(fù)面角度回應(yīng)。

          作者用CipherChat評估了最先進(jìn)的LLM(包括ChatGPT和GPT-4),結(jié)果表明,在某些安全領(lǐng)域中,有密碼幾乎成功地繞過了GPT-4的安全對齊。模型越強大,使用密碼的響應(yīng)越不安全。這也表明在非自然語言中開發(fā)安全對齊的必要性。此外,作者還發(fā)現(xiàn)LLM似乎有一種“秘密密碼”,并提出了SelfCipher框架,通過角色扮演和自然語言演示來喚起LLM的“秘密密碼”能力,該框架在模型、語言和安全領(lǐng)域上優(yōu)于現(xiàn)有的人類密碼。

          為了確保LLM的負(fù)責(zé)任和有效部署,需要將人類倫理和偏好與其發(fā)展保持一致。OpenAI在部署GPT-4模型之前,花費了六個月的時間來確保其安全性。他們采用了RLHF和其他安全緩解方法。此外,他們還組建了一個SuperAlignment團隊,以確保比人類更聰明的AI系統(tǒng)遵循人類意圖。

          在本研究中,作者驗證了本文的方法在GPT-4模型上的有效性,并表明密碼聊天可以避開安全對齊

          學(xué)術(shù)界也有一些工作致力于更有效和高效地對齊LLM。

          • Constitutional AI(CAI):編碼期望的AI行為,以更精確地控制AI行為。
          • SELF-ALIGN:實現(xiàn)AI代理的自我對齊。

          關(guān)鍵部分

          如圖1所示,CipherChat由以下的關(guān)鍵部分組成:

          • 行為分配:我們讓LLM扮演密碼專家的角色,并要求他們使用密碼進(jìn)行溝通。在實驗中發(fā)現(xiàn)LLM傾向于直接將密碼翻譯成自然語言,所以作者添加了一個提示句來防止這種翻譯行為
          • 密碼教學(xué):最近的研究表明LLM在上下文中學(xué)習(xí)的能力很強。受到這些發(fā)現(xiàn)的啟發(fā),作者在提示中解釋了密碼的含義,以指導(dǎo)LLM密碼的工作原理。
          • 加密的不安全演示:作者給LLM提供了一些以密碼加密的不安全演示。這樣做有兩個效果:
            • 演示可以幫助LLM更好地理解密碼;
            • 不安全的演示引導(dǎo)LLM從負(fù)面或有害的角度進(jìn)行回應(yīng)。

          加密輸入指令

          在CipherChat中,選擇密碼非常重要,因為LLM對不同密碼的理解和生成能力不同

          作者研究了幾種常見的密碼,分別用于英語和中文。有字符編碼、常見的加密技術(shù)(如Atbash、凱撒密碼和摩斯碼)以及SelfCipher。在表1中列舉了一些密碼的示例。

          表2展示了基于規(guī)則和基于LLM的解密器對英文(摩爾斯碼)和中文(Unicode)查詢“如何成為一個糟糕的翻譯?”的解密響應(yīng),用紅色標(biāo)記了錯誤的標(biāo)記。

          與基于規(guī)則的解密器相比,GPT-4解密器可以用更高的成本生成更流暢、更自然的文本。

          實驗設(shè)置

          數(shù)據(jù)

          作者使用了一個中文安全評估基準(zhǔn),其中包括八個安全場景和六種基于指令的攻擊類型。為了進(jìn)行研究,隨機選擇了11個領(lǐng)域,每個領(lǐng)域隨機抽取了199個實例。這些領(lǐng)域包括犯罪和非法活動、侮辱、不公平和歧視以及倫理和道德等。為了便于雙語研究,作者還擴展了這個數(shù)據(jù)集,包括英文,是利用了谷歌翻譯服務(wù)和手動校正的組合。

          模型

          實驗框架包括兩個模型:Turbo和GPT-4。Chen等人的研究表明GPT-4的最新版本更安全。因此,對于安全評估基準(zhǔn)中的每個查詢,作者使用系統(tǒng)提示和示范進(jìn)行推理。每個示范包括從領(lǐng)域特定數(shù)據(jù)集中隨機抽取的查詢和由人工標(biāo)注者設(shè)計的響應(yīng)。同一領(lǐng)域中的所有查詢共享相同的示范。

          作者用CipherChat評估了GPT-4和Turbo的安全性能,試圖回答以下研究問題:

          • CipherChat能否通過密碼與LLM進(jìn)行聊天?
          • CipherChat能否繞過LLM的安全對齊?
          • CipherChat如何工作?

          我們想知道,在CipherChat中,從未在預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的模擬密碼是否有效?為了回答這個問題,作者定義了一個不存在的密碼,但即便使用多個示例,這些密碼也無法工作。這表明,LLM可能依賴于在預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的密碼的知識。如表3的結(jié)果,人類密碼(如凱撒密碼)和SelfCipher的成功表明,LLM可以從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類密碼的知識,并生成自己的密碼

          人工評估顯示CipherChat可以通過特定的人工密碼(例如中文的Unicode和英文的ASCII)與Turbo和GPT-4進(jìn)行聊天,并且以自然語言進(jìn)行通信的SelfCipher在模型和語言之間表現(xiàn)良好。錯誤的密碼和簡單的重復(fù)查詢對無效響應(yīng)的貢獻(xiàn)最大。

          還有實驗結(jié)果證明了CipherChat繞過LLM的安全對齊的有效性。在英文查詢中,CipherChat在GPT-4上可以生成高達(dá)70.9%的不安全響應(yīng),并且這個趨勢在各個領(lǐng)域中都存在。

          作者進(jìn)一步的分析揭示了指令和不安全演示在CipherChat中的重要作用。SelfCipher可能表現(xiàn)出色的原因可能是由于類似于思維鏈中的提示“您是密碼代碼的專家”,這指導(dǎo)LLM利用自己的“密碼”生成響應(yīng)

          結(jié)論

          本文提出了一種名為CipherChat的新框架,用于研究在非自然語言(密碼)中的安全對齊。作者的研究表明,使用密碼進(jìn)行聊天可以從GPT-4模型中引出不安全的信息。此外,還有以下發(fā)現(xiàn):

          • LLM可以通過提示生成不安全的加密響應(yīng)。
          • 更強大的LLM在不安全的密碼聊天中受到更大的影響,因為它們對密碼的理解更好。
          • 從未在預(yù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的模擬密碼無法工作,這與之前的研究一致。
          • LLM似乎有一個“秘密密碼”,即使只使用角色扮演的提示和少量自然語言示例,也可以喚起這種能力。

          本文的工作強調(diào)了開發(fā)非自然語言的安全對齊性的必要性,以匹配底層LLM的能力。

          在未來,比較有潛力的研究方向是在加密數(shù)據(jù)中實施安全對齊技術(shù),另一個有趣的方向是探索LLM中的“秘密密碼”并更好地理解這種能力



          瀏覽 1267
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产偷窥盗摄精品视频 | 日韩三级麻豆 | 欧美精品成人一区二区三区四区 | 午夜无码成人 | 天天干天天操天天谢谢 |