ChatGPT 進階語音模式回顧:有趣且令人印象深刻,但尚未成為真正的遊戲規則改變者

ChatGPT 進階語音模式回顧:有趣且令人印象深刻,但尚未成為真正的遊戲規則改變者

5月,OpenAI高級語音模式的示範吸引了觀眾,掀起了一陣熱潮。然而,當得知該功能要到今年晚些時候才會推出時,最初的興奮很快就變成了失望。

幾個月後,OpenAI 向 ChatGPT 的所有用戶(包括免費和付費訂閱者)推出了高級語音模式。隨著該技術現在已得到更廣泛的應用,是時候評估其性能並看看它是否滿足最初展示時設定的高期望了。

評估能力和局限性

用戶明顯感到失望,他們期望高級語音模式能夠反映早期演示中顯示的令人印象深刻的功能。多模態、網路連線和檔案上傳功能等關鍵功能明顯缺失。儘管推出了 ChatGPT 搜索,但語音模式仍然缺乏即時網路存取和更新。

此外,無法繼續先前基於文字的互動的語音對話限制了其實用性。這一缺點與演示期間強調的有前途的功能形成鮮明對比,促使用戶希望獲得尚未實現的功能。

對話流程的增強

儘管有其局限性,高級語音模式仍比其前身顯示出顯著的改進。對話感覺更加自然,用戶可以打斷,而無需等待人工智慧“思考”,從而創造更具吸引力的體驗。

雖然有些人猜測新語音模式的後端進程,但我的經驗表明,說話和接收回應之間的延遲很小。這種即時性培養了一種類似人類對話的對話感。

印地語、旁遮普語、英語和法語等語言之間的切換能力也值得稱讚。然而,它有時很難區分印地語和旁遮普語,語音模式可以受益於語言學習的即時轉錄功能。

多樣化且引人入勝的語音選項

ChatGPT 的語音選擇增強了使用者體驗。目前,它提供以下聲音:

  • Arbor (M) – 隨和且多才多藝
  • Vale (F) – 聰明又好奇
  • 微風 (M) – 活潑而認真
  • Sol (F) – 精明且輕鬆
  • 楓 (F) – 開朗、坦誠
  • Cove (M) – 沉著而直接
  • Ember (M) – 自信與樂觀
  • 杜松 (F) – 開放、樂觀
  • 雲杉 (M) – 冷靜與肯定

與 Gemini Live 和 Copilot 等缺乏類似對話流暢性的競爭對手提供的互動相比,這些聲音的活潑本質使得互動更加愉快。

挑戰與限制

雖然語音模式可以有效地傳達講故事的情感細微差別,但由於過於嚴格的限製而存在不足。在早期的演示中,用戶體驗了更廣泛的功能,包括唱歌的能力,該功能已被刪除,以避免潛在的版權侵犯。

不幸的是,這些限制有損於整體體驗。使用者可能會遇到合理要求遭到拒絕的情況,例如為表演練習產生對話,從而產生挫折感。高級語音模式偶爾可以透過一些提示來滿足一些創造性的要求,但經常感覺不一致會妨礙其可用性。

記憶能力和情境意識

高級語音模式的一個顯著特徵是它能夠回憶訊息。然而,它不允許在現有的帶有文字或圖像的聊天中進行語音對話的後續操作,這是一個很大的限制。

相較之下,Gemini Live 支援持續對話,無論先前的聊天環境為何,這凸顯了 OpenAI 可能需要改進才能有效競爭的領域。

快速反應時間

雖然快速反應可以增強對話的動態性,但有時也會擾亂對話的流程。人工智慧往往會將停頓誤解為邀請做出回應,進而導致中斷,從而打亂用戶的思維。

允許使用者發出更長暫停訊號的功能(類似於「保持」按鈕)將大大增強這些互動的自然度。

偶爾出現小故障

大多數與進階語音模式的互動都很順利,但使用者偶爾可能會遇到小故障,例如短暫的靜態或意外的語音變化。雖然這些問題通常都很小,但它們偶爾會破壞用戶體驗。

成本和可訪問性考慮因素

高級語音模式可透過免費的 ChatGPT 計劃訪問,每月約 15 分鐘,但完全訪問需要訂閱。這與 Copilot 和 Gemini Live 等競爭對手形成鮮明對比,後者免費向用戶提供語音功能。

訂閱費加上缺乏其他型號中的網路存取等功能,引發了人們對該服務價值的質疑,特別是對於只對語音功能感興趣的用戶而言。

最終評估

雖然高級語音模式無可否認地擁有令人印象深刻的技術進步,但它目前還未能實現演示中承諾的一切。它的實際應用是有限的,並且沒有顯著的增強,它更像是一種新穎的東西,而不是必要的工具。

對於已經訂閱 ChatGPT 以獲得 Canvas、搜尋或推理模型等功能的人來說,高級語音模式可以作為一個令人愉悅的附加功能。然而,它本身可能不足以證明訂閱的合理性。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *