Anthropic 發表 Claude 3.5 Sonnet：令人印象深刻的全新 AI 模型

最近，Anthropic 推出了對其領先模型 Claude 3.5 Sonnet 的增強功能，由於電腦使用和分析工具等其他值得注意的更新，該模型可能已經被忽視。然而，更新後的 Claude 3.5 Sonnet 引入了一些值得注意的改進。

儘管計算機的使用代表了顯著的進步，但其在用戶中的採用仍然有限。這主要是因為它還處於早期開發階段，缺乏完全的可靠性。此外，它的可訪問性僅限於 API 使用，這使得它對更廣泛的受眾來說不太容易接近。

相較之下，新的 Claude 3.5 Sonnet 可立即使用，並提供顯著增強的效能。那麼，這款更新後的 3.5 Sonnet 到底有何不同之處呢？

Anthropic 的一份報告強調，最新的 Claude 3.5 Sonnet 在行業基準上比之前的型號和許多競爭對手錶現出顯著的改進。代理編碼和工具使用方面的進步尤其令人印象深刻。例如，它在SWE 平台驗證中將代理程式編碼準確率從33.4% 提高到49%，在TAU 平台測試中代理工具的使用準確率在零售中從51.0% 提高到69.2%，在零售中從22.8% 提高到22.8%。值得注意的是，這些增強功能的實現成本和速度與其前身相同。

在評估時，Claude 3.5 Sonnet（新）（由於命名混亂，一些用戶將其稱為 3.6 Sonnet）顯示出顯著的進步，特別是在編碼、推理和創意寫作能力方面。

克勞德（Claude）以前被認為是編碼領域表現最好的人之一，透過這次更新取得了重大進步，現在能夠在一個答案中解決非常複雜的問題。它還提高了糾正先前錯誤的能力。

使用者會發現新的 Claude 3.5 Sonnet 的回應速度要快得多，解決了早期版本效能明顯下降的問題。

Claude 也精進了自己的推理能力，與 OpenAI 的模式 o1 進行了比較。雖然它在複雜的推理任務中可能無法與 o1 相媲美，但它仍然能夠勝任更簡單的推理挑戰。

要對克勞德的推理進行有趣的測試，請嘗試詢問它，How many words are in your response to this prompt?。值得注意的是，變壓器架構模型由於需要預測後續單字，因此經常難以處理此類提示。然而，這個提示鼓勵模型提前製定策略。

OpenAI 的 o1 模型擅長有效地處理這個提示。雖然新的Claude 3.5 Sonnet沒有完全達到o1的熟練程度，但它明顯超越了舊版本的Claude。以前，克勞德可能會做出有根據的猜測，但現在它試圖準確地計算單字數——儘管沒有平等地考慮所有單字。最終，克勞德的回答是否正確將取決於個人的解釋。

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.