Google 发布 Gemini 3.1 Flash TTS:增强情感表达与多说话人能力

Gate News 消息,4 月 17 日——Google 于 4 月 15 日公布 Gemini 3.1 Flash TTS,这是一款先进的文本转语音模型,具备增强的情感表达与控制特性。新模型将通过开发者 API、企业 Vertex AI 以及协作工具逐步推出。

该模型的核心能力包括基于自然语言的音频标签,用于加快微调速度、控制语调与情感;另配备“导演模式”,可用于指定场景与角色身份,以生成更细腻的语音输出。多说话人功能可实现同时生成对话内容,使对话流程更自然,适用于播客、有声内容以及 AI 助手。该模型支持 70 多种语言和方言,体现了地区口音与表达方式,为全球本地化语音体验提供支持。

Google 强调性能与成本效率,在盲测的人类评估基准上取得了高分,同时通过其 Flash 架构降低了计算成本——该架构面向大规模企业采用进行了设计。生成的音频包含 SynthID 水印,用于识别 AI 生成内容并打击不实信息。

此举体现了语音交互领域竞争的进一步加剧。OpenAI 正将实时语音能力与对话式 AI 结合,以实现类似人类的交互,而 Meta 则在具有语音驱动的社交体验方面扩大对 AI 角色的投入。行业观察者指出,尽管高水平的表演和创意工作目前仍可能由人类主导,但重复性与大规模生产市场可能会在配音、广告和有声读物等领域逐步迎来 AI 采用。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Earth VC在$139M 融资轮中支持量子AI初创公司Sygaldry

Earth Venture Capital投资了量子AI初创公司Sygaldry Technologies,为总融资额$139 百万美元作出贡献。Sygaldry开发用于高效AI工作负载的混合服务器,由Chad Rigetti共同创立;此前他来自Rigetti Computing。

GateNews36 分钟前

中国将加强人工智能、数字经济和区块链的立法框架

中国计划完善其网络法治体系,以满足互联网发展的需求,重点关注人工智能、数字经济以及其他科技领域的立法。预计到2025年12月,将出台180多部法律,但目前的规章制度仍未达到公众预期。

GateNews1小时前

Intchains Group 跫露已质押 8,040 ETH,推动 AI 驱动的运营转型加速

Intchains Group 报告了累计质押 8,040 ETH,所采用的策略包括 FalconX 平台以及其自有 Goldshell Stake。该公司还通过 AI 自动化来强化运营,以提升效率和决策能力。

GateNews2小时前

威刚、周杰伦赚翻?GD 经纪公司密会迪拜王室,讨论 IPO、AI 与机器人

韩国娱乐科技公司 Galaxy Corporation 近期进军中东市场,成立迪拜法人“Galaxy ME”,并与阿联酋王室成员会晤,探索 AI 与内容整合。公司已选定证券商进行 IPO,去年营收达3000亿韩元,并吸引周杰伦及威刚等投资。该布局旨在推动中东娱乐生态系统的发展,强调其全球化战略的重要性。

鏈新聞abmedia3小时前

中国团队 EvoMap 怒控爆红 Hermes Agent 抄袭:自进化体系存在高度相似性

中国团队 EvoMap 指控 Nous Research 的 Hermes Agent 抄袭其 Evolver/GEP 架构,认为两者在多个关键模块上存在高度相似性。EvoMap 指出,Hermes 的设计未引用或致谢其先前公开的内容,争议引发社群广泛关注,部分中国网友声援 EvoMap,并批评 Hermes 的抄袭行为。尽管 Nous 研究团队尚未针对指控逐条反驳,但事件已迅速在 AI 舆论中扩散。

鏈新聞abmedia3小时前

OpenAI 早期投资人青睐!脑机新创 Sabi 最快年底出货「思考就能写字」的帽子

硅谷新创 Sabi 宣布正在开发一款无需侵入性手术的可穿戴脑机接口,用户只需“思考”就能将文字输入到屏幕上,预计 2026 年底推出。该装置将配备高达十万颗微型传感器,有助于精确解读脑部活动,Sabi 也强调数据的隐私保护。

鏈新聞abmedia4小时前
评论
0/400
暂无评论