Gate News 訊息,4 月 17 日——Google 於 4 月 15 日揭曉 Gemini 3.1 Flash TTS,這是一款先進的文字轉語音模型,強化了情感表達與控制功能。新模型將透過開發者 API、企業 Vertex AI,以及協作工具逐步推出。
模型的核心能力包括基於自然語言的音訊標籤,以便針對速度、語調與情感進行微調,並提供「Director Mode」用於指定場景與角色定位,以生成更細緻的語音輸出。多說話人功能可讓對話同時生成,使對話流程更自然,適用於播客、音訊內容與 AI 助理。模型支援超過 70 種語言與方言,反映不同地區的口音與表達方式,以在全球範圍提供在地化的語音體驗。
Google 強調效能與成本效率,透過 Flash 架構在盲測的人類評估基準上取得高分,同時降低運算成本——該架構旨在支援大規模的企業採用。生成的音訊包含 SynthID 水印,用於辨識由 AI 生成的內容並打擊錯誤資訊。
此舉反映語音介面競爭的加劇。OpenAI 正將即時語音功能與對話式 AI 結合,以實現類人互動;而 Meta 則擴大投資 AI 角色,並以語音為基礎的社交體驗來推動。產業觀察人士指出,儘管高水準的表演與創意工作或許仍將以人類主導為主,但重複性且規模化的製作市場,可能會在配音、廣告與有聲讀物等領域逐步導入 AI。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
World 與 Zoom、DocuSign、Tinder 及其他平台擴大身分驗證整合
World 是一家由 Sam Altman 共同創辦的公司,宣布與 Zoom、Tinder 等平台推出新的整合,強化其 World ID 驗證系統。升級後的協議讓應用程式能使用分級身分檢查,全球共有 17.9 百萬名用戶。
GateNews2小時前
NVIDIA發表全球首款為量子AI打造的「 Ising 模型」
NVIDIA 發表開源模型「NVIDIA Ising」,專為量子人工智慧設計,解決量子處理器的校準與糾錯挑戰。利用視覺語言技術,縮短校準時間至數小時,並提升糾錯解碼速度與精度。模型已對接多個研究機構,並開放下載,推進量子運算市場的應用。
鏈新聞abmedia3小時前
AI 自動販賣機代理人「Valerie」使用 OpenClaw 在舊金山運行自動販賣機
AI 代理「Valerie」現在在 OpenClaw 上運行一台舊金山自動販賣機,測試人們會信任帶有定價、行銷以及現實世界現金的程式到什麼程度。
摘要
AI 代理「Valerie」使用 OpenClaw 架構在舊金山運行一台實體自動販賣機,設定價格,命名
Cryptonews 4小時前
DeepSeek 在首輪外部融資中以超過 $10 Billion 的估值募集資金
Gate News 訊息,4 月 17 日——根據 The Information 報導,AI 公司 DeepSeek 正在進行自創立以來的首次外部融資輪,目標估值超過 $10 billion。
GateNews4小時前
Earth VC 在 $139M 融資回合中支持量子 AI 新創 Sygaldry
Earth Venture Capital 投資了量子 AI 新創 Sygaldry Technologies,助力總融資達 $139 百萬。Sygaldry 開發用於高效 AI 工作負載的混合式伺服器,聯合創辦人包括 Chad Rigetti,曾任 Rigetti Computing。
GateNews6小時前
中國將強化人工智慧、數位經濟與區塊鏈的立法框架
中國計劃透過完善其網路法律體系來滿足網際網路發展需求,重點聚焦人工智慧、數位經濟及其他科技領域的立法。預計到 2025 年 12 月,將有超過 180 項法律出台,然而目前的法規仍落後於公眾的期待。
GateNews7小時前