如果您熱切地等待 OpenAI 針對 ChatGPT 的最新 Spring 更新,並希望該公司發布 GPT-5,那麼您會在這方面感到失望。但 OpenAI 發布的產品足以彌補這一點。
該公司最近推出了最新的旗艦型號——GPT-4o——它是人類創新的傑作。 GPT-4o 中的“o”代表“omni”,這是對 ChatGPT 最新無所不在功能的適當認可。雖然與 GPT-4 模型相比,智慧和推理部分沒有太大改進,但新模型在速度和多模態方面有大幅改進。
這是什麼意思? GPT-4o 改進了文字、語音和視覺方面的功能。它可以更好地理解和討論圖像。但這次更新最令人興奮的部分是它能夠透過音訊和視訊與您即時對話,引領我們進入人機互動的未來。我們大多數人只是想像與人工智慧進行這種科幻式的互動。但它就在這裡,而且令人興奮。
OpenAI 技術長 Mira Murati 與兩位研究負責人一起展示了 GPT-40 的新功能。
語音模型具有令人難以置信的個性和音調,能夠讓你(暫時)忘記你正在與人工智慧互動。真是令人興奮得可怕。反應更加自然,它甚至會像人類一樣大笑並假裝臉紅。
該演示還強調了 ChatGPT 在明確詢問時可以表現出的情感範圍:在敘述故事時,ChatGPT 吸收了更多情感和戲劇性的聲音,切換到機器人聲音,甚至像音樂劇一樣唱歌,它做到了一切無縫。
許多用戶表示,這個聲音讓他們想起了電影《她》中史嘉蕾喬韓森的人工智慧,但值得注意的是,這與 ChatGPT 過去的聲音是一樣的。所有的差異都來自於語氣的變化和一些恰到好處的笑聲。
當你將它與查看和響應螢幕內容的能力結合起來時,這真是令人興奮。憑藉其新的視覺功能,ChatGPT 不僅可以理解線性方程式等內容,而且在解釋周圍環境以及使用相機顯示的人臉上的情緒方面做得非常出色。現在,您甚至可以玩石頭剪刀布的遊戲,要求 ChatGPT 擔任裁判,或者通過要求 ChatGPT 批評您的著裝來進一步準備面試,而且它不會掩蓋您做出的任何錯誤選擇。
總體而言,效果非常顯著,幾乎讓您相信您正在透過視訊與真人互動(也就是說,如果對方始終關閉相機)。
https://www.youtube.com/watch?v=DQacCB9tDaw
語音模型總體上也比目前可用的模型更好。對話更像是自然對話,您可以在中間打斷它,它可以理解和區分多種聲音和背景噪音以及語音的語氣。
在技術層面上,因為 GPT-4o 可以在本地完成所有事情,所以到目前為止需要三種不同的模型:轉錄、智慧和文字轉語音。這些改進為使用者帶來了更身臨其境的協作體驗,而不是先前模型的延遲。
雖然 GPT-4o 的存取權限已經開始免費向 Web 應用程式中的 Plus 用戶推出,但新的 GPT-4o 語音模式將在未來幾週內僅向 ChatGPT Plus 用戶推出 alpha 版。新的 macOS ChatGPT 應用程式也已發布,從 ChatGPT Plus 用戶開始迭代推出存取權限。
雖然演示相當令人印象深刻,但我們必須等待模型最終發佈時,看看現實世界的應用程式是否會如此順利。
發佈留言