最近,Anthropic 推出了對其領先模型 Claude 3.5 Sonnet 的增強功能,由於電腦使用和分析工具等其他值得注意的更新,該模型可能已經被忽視。然而,更新後的 Claude 3.5 Sonnet 引入了一些值得注意的改進。
儘管計算機的使用代表了顯著的進步,但其在用戶中的採用仍然有限。這主要是因為它還處於早期開發階段,缺乏完全的可靠性。此外,它的可訪問性僅限於 API 使用,這使得它對更廣泛的受眾來說不太容易接近。
相較之下,新的 Claude 3.5 Sonnet 可立即使用,並提供顯著增強的效能。那麼,這款更新後的 3.5 Sonnet 到底有何不同之處呢?
Anthropic 的一份報告強調,最新的 Claude 3.5 Sonnet 在行業基準上比之前的型號和許多競爭對手錶現出顯著的改進。代理編碼和工具使用方面的進步尤其令人印象深刻。例如,它在SWE 平台驗證中將代理程式編碼準確率從33.4% 提高到49%,在TAU 平台測試中代理工具的使用準確率在零售中從51.0% 提高到69.2%,在零售中從22.8% 提高到22.8%。值得注意的是,這些增強功能的實現成本和速度與其前身相同。
在評估時,Claude 3.5 Sonnet(新)(由於命名混亂,一些用戶將其稱為 3.6 Sonnet)顯示出顯著的進步,特別是在編碼、推理和創意寫作能力方面。
克勞德(Claude)以前被認為是編碼領域表現最好的人之一,透過這次更新取得了重大進步,現在能夠在一個答案中解決非常複雜的問題。它還提高了糾正先前錯誤的能力。
使用者會發現新的 Claude 3.5 Sonnet 的回應速度要快得多,解決了早期版本效能明顯下降的問題。
Claude 也精進了自己的推理能力,與 OpenAI 的模式 o1 進行了比較。雖然它在複雜的推理任務中可能無法與 o1 相媲美,但它仍然能夠勝任更簡單的推理挑戰。
要對克勞德的推理進行有趣的測試,請嘗試詢問它,How many words are in your response to this prompt?
。值得注意的是,變壓器架構模型由於需要預測後續單字,因此經常難以處理此類提示。然而,這個提示鼓勵模型提前製定策略。
OpenAI 的 o1 模型擅長有效地處理這個提示。雖然新的Claude 3.5 Sonnet沒有完全達到o1的熟練程度,但它明顯超越了舊版本的Claude。以前,克勞德可能會做出有根據的猜測,但現在它試圖準確地計算單字數——儘管沒有平等地考慮所有單字。最終,克勞德的回答是否正確將取決於個人的解釋。
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
根據提供的實例,一些用戶可能會爭辯說,克勞德準確地計算了其考慮回應的單字數。它澄清了任何後續單字都不構成其答案的一部分,因為它們只是詳細說明了其推理過程。雖然有些人可能會忽略介紹性短語「讓我數一下我對你的問題的回答中的字數」的省略,但其他人可能會有不同的看法。最終,這成為個人判斷的問題。
儘管如此,這個例子說明了新的Claude 3.5 Sonnet確實增強了其推理能力。當它需要額外的時間來考慮時,它現在可以清晰地表達其思維過程,或者說「思考一下,待命」——有點類似於 o1。有時,它甚至可能自我糾正,說:“讓我重新考慮一下。”
這種前瞻性思考能力也增強了克勞德的創意寫作能力。憑藉超前思考的能力,它可以製作出具有連貫弧線、伏筆元素和迷人人物的擴展敘事。
此外,其分析性能也取得了重大進展。 Claude 現在與 Anthropic 最廣泛的模型 Claude 3 Opus 以及 OpenAI 的 o1 mini 相關分析密切競爭。
總而言之,最新的更新在多個維度上都取得了顯著的進展。新的編碼功能引起了廣泛關注。然而,Claude 目前的限制是使用上限,與 ChatGPT 相比,即使對於 Pro 用戶來說,其限制也要大得多。
發佈留言