谷歌推出 Gemini Live，這是該公司對 ChatGPT 高級語音模式的回應

Google的 Made by Google 活動正式結束，該公司推出了旗艦 Pixel 系列智慧型手機的最新產品陣容。過去幾週，關於這一事件的謠言工廠一直在努力傳播，許多謠言終於變成了現實。此外，正如預期的那樣，該活動還多次（實際上是相當多）提到了人工智慧。

在人工智慧方面，一項重要的公告是 Gemini Live 的推出。谷歌在今年早些時候的 I/O 大會上宣布了 Gemini Live。它終於以英語向 Android 上的 Gemini Advanced 訂閱者推出，並將很快推出更多語言和 iOS（透過 Google 應用程式）。

透過 Gemini Live，Gemini 現在能夠進行更自然的雙向對話。您也可以在回答過程中打斷它，就像在任何自然對話中一樣。您可以進入 Android 上的 Gemini 應用程式與聊天機器人對話。

這類似於 ChatGPT 應用程式中的高級語音模式體驗，該應用程式現在正在向 ChatGPT Plus 用戶提供有限的 alpha 版本。透過啟動更廣泛的部署，Google首次在發佈時間表上領先於 OpenAI。

Gemini Live 還可以免持使用，因此您可以在背景甚至在手機鎖定時與 Gemini 通話。您也可以中途留下對話，稍後再回覆。

Google正在推出 10 種新聲音的 Gemini Live，讓你與人工智慧的對話會讓你感覺更真實；您可以選擇與您產生共鳴的聲音和語氣。

值得注意的是，Gemini Live 無法模擬應用程式中可用的 10 種聲音之外的任何其他聲音，這可能是為了避免版權問題。 ChatGPT-4o 遵循相同的政策。 Gemini Live 有一個地方與 ChatGPT-4o 的語音模式不同。前者無法從你的語氣中理解你的情緒，而 OpenAI 演示了他們的聊天機器人可以做到這一點。

此外，Google 在 I/O 大會上演示的 Gemini Live 的一項功能在發佈時不會提供。是的，我們正在談論多模式輸入。如果您不知道那是什麼，不用擔心。回顧一下：透過多模式輸入，Gemini Live 可以即時從手機相機獲取輸入（照片和影片），並回答任何問題或幫助您識別您指向的物體。例如，您可以將其指向某些 DJ 設備並要求其識別某個部分的名稱，或者您可以將其指向螢幕並詢問代碼的某個部分的作用。

但多式聯運功能目前被推遲，Google僅表示將於今年稍後推出，但沒有透露具體細節。有趣的是，ChatGPT-4o 的高級語音模式也應該具有類似的功能，但它們也沒有在有限的 alpha 版本中推出。

值得注意的是，Gemini Live 是 Google 在實現 Project Astra 的道路上邁出的一步。

與聊天機器人交談有時比輸入內容更方便，尤其是當您想要集思廣益時。透過 Gemini Live，對話可以更加無縫。或者，如果谷歌製造活動的現場演示有任何跡象的話，那就足夠無縫了。（聊天機器人顯然在現場演示期間產生了幻覺，並且在測試“中間中斷 Gemini”功能時出現了一些摩擦）。讓我們看看它在現實世界中的表現如何，嗯？從今天開始，準備好在未來幾週內在 Pixel、三星或其他 Android 裝置上測試 Gemini Live。