Google DeepMind 的這款新 V2A 工具可能是人工智慧生成電影的最後一塊拼圖

Google DeepMind 的這款新 V2A 工具可能是人工智慧生成電影的最後一塊拼圖

當第一個人工智慧生成的影片發佈時,沒有人能想到影片生成的人工智慧工具會在如此短的時間內走得這麼遠。然而,今天我們有無數的平台可以讓用戶生成高品質、極其詳細的視頻,例如 Synthesia 和 Luma AI 的 Dream Machine。儘管如此,仍然存在一些阻礙這些工具成為主流的挑戰。

其中最大的一個可能是音訊生成過程。雖然大多數視頻生成平台都可以製作出高品質的視頻,但它們大多是沒有任何音頻的無聲視頻。即使有音頻,通常也是單獨添加的,達不到用戶的期望。

例如,如果您訪問 Luma AI 的 Dream Machine 頁面,您可以看到一些非常令人印象深刻的視頻,但伴隨它們的聲音非常普通且質量低下。但隨著Google新的視訊轉音訊(V2A)技術的出現,這種情況可能會改變。

這有望為大眾帶來高品質的視訊音訊生成,這意味著它最終可能允許您製作具有適當音軌和音訊的人工智慧生成的電影,超越目前正在製作的所有人工智慧生成的影片。

AI 產生的音訊

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Google DeepMind 的視訊轉音訊研究是什麼?

Google DeepMind 開發的視訊轉音訊 (V2A) 技術旨在為人工智慧生成的視訊創建配樂。該技術透過將自然語言提示與視訊像素結合,為影片中發生的任何動作產生聲音,從而可以同時產生視訊和音訊。

該技術可以與用於生成視訊的人工智慧模型(例如 Veo)配合使用,並可以幫助創建逼真的對話和聲音效果以及與視訊相匹配的戲劇性配樂。更重要的是,新的V2A技術不僅限於使用AI生成的視頻,還可以用於為傳統方式製作的視頻生成配樂。因此,您可以將其用於無聲電影、檔案資料等。

V2A技術允許用戶為影片生成無限的配樂,甚至可以使用正負提示來指導聲音生成過程,輕鬆獲得所需的聲音。這也提供了更大的靈活性,因此您可以嘗試各種輸出並找到最適合特定影片的輸出。

水母在水下脈動的音訊樣本。來源:Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

V2A技術如何運作?

據谷歌稱,該公司嘗試了基於擴散和自回歸的技術,發現前者最適合聲音製作。它產生高度逼真的聲音,並透過將視訊編碼為壓縮格式來工作。

之後,依靠自然語言提示和視頻,使用擴散模型從視頻中分離出隨機噪音。這些提示有助於產生與影片完美同步的逼真音訊。接下來是解碼音頻,然後將其轉換為音頻波形並與視頻合併。

谷歌的 DeepMind 提供了更多資訊來訓練人工智慧,因此用戶可以引導音訊生成過程達到所需的聲音,並允許平台產生更高品質的音訊。這些資訊包括口語對話記錄和帶有人工智慧生成註釋的詳細聲音描述。

經過這些資訊的訓練,V2A 技術可以將不同的視覺場景與特定的音訊事件相關聯。

V2A 技術的工作原理。來源:Google

即將發生什麼事?

DeepMind 的 V2A 技術的性能比其他 V2A 解決方案要好得多,因為它並不總是需要文字提示並且可以理解視訊像素。聲音輸出也不需要手動與視訊對齊。然而,該技術仍然存在一定的局限性,而谷歌希望透過進一步的研究來克服這些局限性。

例如,產生的音訊的品質取決於用作輸入的視訊的品質。如果影片中存在失真或偽影,人工智慧模型將無法理解這些內容,因為它們未包含在其訓練中,最終導致音訊品質下降。

此外,對於包含人類語音的視頻,該公司正在努力改進唇形同步。 V2A 技術嘗試使用輸入的文字記錄產生語音,然後將其與影片中角色的嘴唇動作對齊。然而,如果影片不依賴文字記錄,則音訊和嘴唇動作之間就會出現不匹配。

憑藉更好的音訊生成功能,人工智慧模型將能夠產生不僅看起來令人印象深刻而且聽起來也很棒的影片。谷歌還將其 V2A 技術與 SynthID 集成,後者為所有使用人工智慧生成的內容添加浮水印。這有助於防止其被濫用,確保完全安全。

此外,該公司表示,在向公眾發布之前,將對其V2A技術進行嚴格測試。到目前為止,從谷歌展示和承諾的未來來看,這項技術正在成為人工智慧視訊音訊產生的重大進步。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *