最近,我嘗試了 Claude 的新 3.5 Sonnet 模型,這是 Anthropic 迄今為止最強大的 AI 模型,該公司聲稱該模型可以超越 OpenAI 的 ChatGPT 等競爭對手。這是一個大膽的主張,Anthropic 用一些令人印象深刻的基準來支持這個主張。
新模型還具有視覺功能,可讓您向其提供圖像和文件並從中提取資訊。它可以更快地更好地理解幽默等情緒。所有這些元素使 Claude 3.5 成為新的 GPT-40 支援的 ChatGPT 的主要競爭對手,後者也是一個多模態 AI 模型。
與 Sonnet 一樣,ChatGPT-40 除了基於文字的輸入之外,還可以使用基於視覺的輸入來提供回應。它同樣擅長解決問題並且具有類似的對話能力。由於這兩款新型號在功能和性能方面非常接近,因此每個人都關心的問題是,兩者中哪一個更好?為了回答這個問題,我決定詳細比較這兩種模型。
從文件中提取訊息
AI工具通常用於從PDF文件等文件中提取信息,然後進行總結;因此,我決定先檢查這兩個模型中哪一個可以更有效地做到這一點。為此,我準備了一份關於屋頂廣場的 PDF 文檔,並將其上傳到 ChatGPT 和 Claude。
然後,我給他們一個提示,summarize this document and provide me with the most important points discussed in it.
這就是我的發現。新的 Claude 模型比 ChatGPT 快得多,並且在我提交請求後立即開始產生回應。它也更嚴格地遵循提示,在編號清單中列出要點。如果您時間有限並且只想瀏覽一下文件包含的內容,那麼這就是您所需要的。
然而,儘管比 Claude 慢,但我更喜歡 ChatGPT 在這種情況下的反應。它不僅列出了文件中最重要的要點,而且將它們分為不同的部分,例如定義和重要性、計算等。
如果您需要查找有關文件中討論的主題的某個方面的具體信息,ChatGPT 的處理方式似乎更有用。您不需要瀏覽所有要點,只需查看所需的部分即可。資訊以更容易瀏覽和消化的方式提供。
測試視覺能力
由於 Claude 3.5 和 ChatGPT-40 的主要亮點之一是它們能夠使用視覺輸入並基於此提供信息,因此我決定接下來測試這一點,要求它們在轉錄後遵循手寫指令。我要求人工智慧模型寫一首類似伊索寓言《螞蟻與蟋蟀》的短詩。
雖然我沒有以書面形式指定,但我希望輸出受到這首詩的啟發,但具有不同的角色。克勞德首先讓我確認了我手寫的請求,然後繼續進行。結果非常好,非常接近原詩,但人物相同。人工智慧聊天機器人也問我是否想要採取不同的方法或在寫完這首詩後對這首詩進行任何修改。
ChatGPT 沒有要求我確認我的請求,而是立即完成它。它寫的詩也很令人印象深刻,用蜜蜂和蝴蝶取代了原作中的螞蟻和蟋蟀,這是克勞德沒有做到的。我還發現 ChatGPT 的版本更有詩意。
因此,在轉錄中,結果略有不同,但兩者都可以很好地破譯和理解手寫和印刷文本,即使圖像不是很清晰。這些強大的視覺功能也意味著您可以使用這些工具從圖形和圖表中收集信息,使它們適合數學任務。
描述圖像:由於這兩種模型都可以從圖像中提取信息,所以我也必須嘗試一下。我向 Claude 和 ChatGPT 提供了一張熱帶島嶼的圖片,並要求他們描述它。正如你所看到的,克勞德對圖像進行了生動的描述,將前景和背景中的每個元素描述得非常清楚,甚至是那些我自己沒有註意到的元素。
克勞德選擇的短語和詞語來描述圖像也感覺更有影響力,公正地對待圖像。它很好地描述了顏色、光線並傳達了圖像產生的寧靜和安寧的整體感覺。
ChatGPT 的結果更為複雜,它可以描述圖像,但不如 Claude 的好。 OpenAI 的模型容易出錯,添加了不存在的元素,這表明它仍然會產生幻覺。而且,最初,它一直嘗試根據圖像的標題而不是所描繪的內容來描述圖像,經過多次嘗試終於正確。
即便如此,我從中得到的描述也無法與克勞德的反應相提並論。這是相當令人驚訝的,因為 GPT-40 的視覺能力是 OpenAI 在發佈時展示的最大亮點之一。
產生和編輯內容
接下來,我嘗試看看哪種模型在內容生成方面表現得更好。為了清楚了解它們的表現,我決定產生需要真實事實和數據的內容,以及依賴人工智慧模型創造力的虛構內容。
首先,我請 Claude 和 ChatGPT 為我提供一篇關於不同 Android 皮膚的詳細文章,因為這是很多人都想了解的東西,但又是一個非常主觀的話題,每個人都有自己的喜好。我使用了提示Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
鑑於我們在智慧型手機上花費了多少時間,我想了解模型的準確性以及它們可以提供有關每種皮膚的多少資訊。
和往常一樣,克勞德的反應速度更快。它提供了一個概述,解釋了 Android 皮膚是什麼,這很好,但隨後只是在項目符號列表中列出了不同的皮膚及其提供的功能。請記住,即使我在提示中特別指出了“詳細文章”,模型也提供了此結果。
相比之下,ChatGPT 為文章創建了一個更令人印象深刻的標題,並包含了簡短的介紹。接下來,它在自己的部分中解釋了每種皮膚,將每種皮膚分為概述、主要功能、優點和缺點。
這不僅提供了更全面的信息,而且可以讓您準確地了解不同皮膚之間的比較。最後為文章畫上了一個圓滿的句點。雖然ChatGPT提到的皮膚數量比Claude列出的要少,但這裡質量比數量更重要。
雖然 ChatGPT 在這種情況下確實比 Claude 表現更好,但正如我在先前的測試中發現的那樣,後者也可以產生良好的內容。這可能取決於主題或您提示的措辭方式。這就是為什麼我給了兩個模型另一個提示,這次使用提示,Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
它也為我提供了一個機會來看看模型如何理解和傳達幽默。
這一次,結果非常接近,兩個模型都創造了真正有趣的故事。這兩個故事都有共同的元素,例如諷刺和肢體喜劇。在小說中,個人喜好是一個強大的因素,總的來說,我發現克勞德的作品稍微好一些,尤其是它透過文字來產生幽默的方式。
但正如我之前提到的,ChatGPT 的故事讀起來也很有趣,而且比 Claude 的故事稍長。它的結局也更加健康。因此,Claude 和 ChatGPT 都能夠根據我的提示產生良好的虛構內容,同時包含幽默元素。
編輯內容:生成內容只是過程的一部分。要真正了解人工智慧模型在內容方面的能力,您還需要測試其內容編輯功能,這就是我接下來要做的。為此,我向 Claude 和 ChatGPT 提供了一篇有關社交商務的文本,並給了他們提示:Can you expand this article while also proofreading and improving it?
在改進文章時,克勞德從介紹開始,然後寫了社交商務的演變,最後接著寫了其他部分,根據自己認為合適的情況擴展了每個部分。該模型還使用了編號列表和項目符號點,以提高可讀性。
ChatGPT 的回應與先前的回應類似,它將內容分成具有不同副標題的各個部分。它沒有使用任何列表,而是以段落的形式保留資訊。至於改變和改進,我注意到Claude對文章的修改比ChatGPT更大幅度,但最終的結果也好得多。最終,我發現 Sonnet 的編輯功能更強大,更適合我的工作流程。
編碼能力
如果不考慮人工智慧模型的編碼能力,它們的比較就不完整。雖然 Claude 是專門為幫助程式設計師快速、輕鬆地編寫更好的程式碼而開發的,但在編碼方面,由 GPT-40 驅動的新 ChatGPT 也不容小覷。
為了測試他們的程式碼生成能力,我要求 Claude 和 ChatGPT 都Generate code for a simple game that can help beginners learn programming.
用 Python 編寫程式碼,但 Claude 更快地完成了程式碼生成,正如預期的那樣。它在螢幕右側顯示整個程式碼,同時在左側解釋函數和變數等元素。
我最喜歡 Claude 回复的一點是,它還包含一個按鈕,可讓您立即轉到代碼,以便您可以輕鬆查看。此外,聊天機器人還告訴我運行程式碼所需的要求,並附有說明。至於程式碼本身,它非常容易理解,並且在我測試時運行得很好。
根據 ChatGPT 的回應,它還能夠按照我的要求產生一個簡單但實用的程式碼。在程式碼下方,聊天機器人提供了運行遊戲所需的步驟以及程式碼所涵蓋的概念,使初學者易於理解。總的來說,在這種情況下,兩個模型的結果非常相似,儘管 Claude 解釋了更多元素,並且有一個選項,您可以透過該選項要求它詳細解釋程式碼的任何部分。
數學能力
最後,我給了 Claude 和 ChatGPT 一道數學題讓他們解答,看看他們做得如何,以及哪一個比較快。這個問題涉及代數方程,但並不是特別具有挑戰性。兩個模型都先解釋第一步要做什麼,儘管它們的方法不同。克勞德繼續擴展這個方程,並最終告訴我,解決這個問題完全需要使用圖形計算器或計算機代數系統。
也就是說,它確實說明了該問題的潛在解決方案的數量。相比之下,ChatGPT 完整地解決了問題,並為我提供了所有可能的解決方案。這表明就數學能力而言,ChatGPT-4o 領先於 Sonnet。
最終裁決 – Claude Sonnet 3.5 或 ChatGPT-4o:誰贏了?
在 Claude 3.5 和 ChatGPT-4o 之間進行選擇並不容易,但最終,只有一個可以成為贏家,對我來說,這必須是新的 Sonnet 模型。它不僅比 ChatGPT 更快,而且提供更準確的答案。我特別喜歡它能夠很好地描述圖像並採取與圖像相關的操作。
在我使用它的過程中,克勞德也沒有產生幻覺,這也是它的優點,而且它的反應總體上更接近我的指示。儘管在我想要詳細內容的情況下它沒有達到我預期的效果,但使用它來獲取我想要的資訊通常更容易並且需要更少的努力。
透過嘗試 Claude 3.5 Sonnet 和 ChatGPT-40,我發現兩者都是非常好的 AI 模型,而且效能非常接近。雖然 Sonnet 可以更好地執行某些任務,但 ChatGPT 在其他任務中可以提供更好的結果。您應該了解,確定哪一個更好將取決於您的個人用例。
此外,這兩種免費模型的功能都受到限制。因此,如果您想定期使用任一人工智慧,我建議您付費訂閱以獲得最佳結果。
發佈留言