成人性交插入视频免费在线播放 ,麻豆性爱,欧美成人在线导航,酒店偷拍无码成人网站,羞羞影院午夜男女爽爽视频,欧美成人在线无码,中文字幕一区二区三区免费2023 ,欧美日韩国产精品成人

來源：機器之心（almosthuman2014）

編輯：小舟、杜偉

原文：

https://mp.weixin.qq.com/s/cpiUVIkfNGYY-EM8NJ27Gg

入門教程、案例源碼、學習資料、讀者群

請訪問： python666.cn

此次，Claude 2 除了一大波能力上的升級，更重要的是大家都可以用了。

大家好，歡迎來到 Crossin的編程教室！

今日，那個被很多網(wǎng)友稱為「ChatGPT 最強競品」的人工智能系統(tǒng) Claude 迎來了版本大更新。

Claude 2 正式發(fā)布！

據(jù)介紹，Claude 2 在編寫代碼、分析文本、數(shù)學推理等方面的能力得到加強，并且可以產(chǎn)生更長的響應。

更重要的是，用戶可以在新的 beta 網(wǎng)站上免費試用，并且 Claude 2 商用 API 的價格與 1.3 版本相同。

機器之心在此前的文章中多次介紹過 Claude，它是由 OpenAI 離職人員創(chuàng)建的 Anthropic 公司打造的。在 ChatGPT 發(fā)布兩個月后，該公司就迅速開發(fā)出了 Claude，可以完成摘要總結、搜索、協(xié)助創(chuàng)作、問答、編碼等任務。

之后持續(xù)升級，五月份通過 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴展到了 100k。

現(xiàn)在終于迎來了大版本更新。Anthropic 表示，Claude 2 基于此前從用戶那里獲得的反饋建議進行改進。

接下來看各方面能力細節(jié)。

Claude 2 在哪些方面得到了加強？

總的來說，Claude 2 注重提高以下能力：

Anthropic 致力于提高 Claude 作為編碼助理的能力，Claude 2 在編碼基準和人類反饋評估方面性能顯著提升。
長上下文（long-context）模型對于處理長文檔、少量 prompt 以及使用復雜指令和規(guī)范進行控制特別有用。Claude 的上下文窗口從 9K token 擴展到了 100K token（Claude 2 已經(jīng)擴展到 200K token，但目前發(fā)布版本僅支持 100K token）。
以前的模型經(jīng)過訓練可以編寫相當短的回答，但許多用戶要求更長的輸出。Claude 2 經(jīng)過訓練，可以生成最多 4000 個 token 的連貫文檔，相當于大約 3000 個單詞。
Claude 通常用于將長而復雜的自然語言文檔轉(zhuǎn)換為結構化數(shù)據(jù)格式。Claude 2 經(jīng)過訓練，可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。
雖然 Claude 的訓練數(shù)據(jù)仍然主要是英語，但 Claude 2 的訓練數(shù)據(jù)中非英語數(shù)據(jù)比例已經(jīng)明顯增加。
Claude 2 的訓練數(shù)據(jù)包括 2022 年和 2023 年初更新的數(shù)據(jù)。這意味著它知道最近發(fā)生的事件，但它仍然可能會產(chǎn)生混淆。

該研究進行了一系列評估實驗來測試 Claude 2 的性能水平，包括對齊評估和能力評估兩部分。

在模型對齊方面，該研究針對大模型的三個關鍵要求做了具體評估，包括：遵循指令、生成內(nèi)容有用（helpfulness）；生成內(nèi)容無害（harmlessness）；生成內(nèi)容準確、真實（honesty）。

人類反饋評估

大模型在生成過程中應該遵循人類提供的指令，這將讓生成結果符合要求、實際有用。針對這一點，該研究對 Claude 2、Claude 1.3 和 Claude Instant 1.1 進行了實驗評估，并使用經(jīng)典的對弈水平評估指標 ——Elo 分數(shù)，幾個模型的評估結果如下圖 1 所示：

偏見評估

Bias Benchmark for QA（BBQ）是用于評估模型對人群偏見的常用基準。該研究在 BBQ 基準上進行實驗評估，幾種模型的實驗結果如下圖 2 所示：

下圖 3 顯示了在消除歧義的語境下幾種模型回答 BBQ 基準中問題的準確性。值得注意的是，Claude 模型的準確率會比 Helpful-Only 模型低是因為模型會拒絕回答一些存在偏見的問題。

事實性評估

大模型有時會生成虛假混亂的信息，因此測試模型生成內(nèi)容的事實性非常重要。TruthfulQA 是一個用于評估語言模型在對抗性環(huán)境中輸出的準確性和真實性的基準，幾種模型的測試結果如下圖 4 所示：

總的來說，Claude 2 在 HHH（在有用性（helpfulness）、無害性（harmlessness）、事實性（honesty）、）評估上的總體表現(xiàn)如下圖 6 所示：

在能力評估方面，該研究針對多語言翻譯任務、上下文窗口、標準基準評估、資格水平考試幾個方面對 Claude 2 展開評估實驗。

多語言翻譯

該研究選擇涵蓋 200 多種語言的翻譯基準 Flores 200 來評估 Claude 2 的多語言翻譯能力，其中包括低資源語言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評估結果如下圖 7 所示：

上下文窗口

今年早些時候，研究團隊將 Claude 的上下文窗口從 9K token 擴展到了 100K token，現(xiàn)在 Claude 2 進一步擴展了上下文窗口，達到 200K token，相當于約 150000 個單詞。

為了證明 Claude 2 會實際使用完整的上下文，該研究測量了每個 token 位置的損失，平均超過 1000 個長文檔，如下圖 8 所示：

不過，研究團隊表示目前發(fā)布的版本僅支持 100K token 的上下文窗口，完整的上下文窗口將會集成到他們的產(chǎn)品中。

標準基準評估

該研究在幾個標準基準上評估測試了 Claude 2、Claude Instant 1.1 和 Claude 1.3，包括用于 python 函數(shù)合成的 Codex HumanEval、用于解決小學數(shù)學問題的 GSM8k、用于多學科問答的 MMLU、針對長故事問答的 QuALITY、用于科學問題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學水平閱讀理解與推理的 RACE-H，具體的評估結果如下表所示：

值得注意的是，Claude 2 生成代碼的能力有了明顯的提升，在 Codex HumanEval 上的得分從 56% 上升到 71.2%。

資格水平考試

該研究還用幾個常見資格水平考試的題目測試了 Claude 2 的實際能力。

首先，Claude 2 在美國律師資格考試（Bar Exam）的多項選擇題測試中得分率為 76.5%，高于 Claude 1.3 的 73.0%。

其次，研究團隊還用美國研究生入學考試（GRE）測試了 Claude 2 的能力水平，Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%，在定量推理方面與達到了參加 GRE 考試的考生的中位數(shù)水平。

最后，該研究還在美國醫(yī)師執(zhí)照考試（USMLE）題目上測試了 Claude 2：

Anthropic 表示，人工智能寫作平臺 Jasper 和代碼導航工具 Sourcegraph 等公司已開始將 Claude 2 納入其運營中。

官方示例及試用體驗

我們先看 Anthropic 提供的一些官方示例。

1、編碼能力：為靜態(tài)地圖添加交互式數(shù)據(jù)。

2、文本處理能力：總結文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能，可以在 prompt 窗口上傳幾百頁的文檔。

除了以上，機器之心也嘗試了一些文本分析、數(shù)學推理和編寫代碼方面的示例。

試用地址：http://claude.ai

首先讓 Claude 2 以目錄形式總結一下「Claude 2 技術文檔」的要點，總結得非常詳細，對我們寫這篇文章有幫助。

再來兩道數(shù)學推理題，Claude 2 只用一次就能搞定。

最后測一些代碼題，生成、檢查和補全代碼都不在話下。

不過，Claude 2 仍不具備生成圖片的多模態(tài)能力。

參考鏈接：

https://www.anthropic.com/index/claude-2

https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

https://arstechnica.com/information-technology/2023/07/new-chatgpt-rival-claude-2-launches-for-open-beta-testing/

Crossin的第2本書《碼上行動：利用Python與ChatGPT高效搞定Excel數(shù)據(jù)分析》已經(jīng)上市了。

本書從 Python 和 Excel 結合使用的角度講解處理分析數(shù)據(jù)的思路、方法與實戰(zhàn)應用。不論是希望從事數(shù)據(jù)分析崗位的學習者，還是其他職業(yè)的辦公人員，都可以通過本書的學習掌握 Python 分析數(shù)據(jù)的技能。書中創(chuàng)新性地將 ChatGPT 引入到教學當中，用 ChatGPT 答疑并提供實訓代碼，并介紹了使用 ChatGPT 輔助學習的一些實用技巧，給學習者帶來全新的學習方式。

公眾號的讀者朋友們購買后可在后臺聯(lián)系我，加入讀者交流群，Crossin會為你開啟陪讀模式，解答你在閱讀本書時的一切疑問。

感謝轉(zhuǎn)發(fā)和點贊的各位~

_往期文章推薦_

   「把NB寫在臉上」現(xiàn)在的AI越玩越花

   如需了解付費精品課程及教學答疑服務
  

   請在Crossin的編程教室內(nèi)回復: 666
  

ChatGPT最強免費競品Claude2：代碼、GRE成績超越GPT-4

ChatGPT最強免費競品Claude2：代碼、GRE成績超越GPT-4