A Google lança o Gemini 3.1 Flash TTS com expressão emocional melhorada e capacidades de múltiplos locutores

Mensagem da Gate News, 17 de abril — A Google revelou o Gemini 3.1 Flash TTS, um modelo avançado de texto-para-voz com funcionalidades de expressão emocional e controlo melhoradas, a 15 de abril. O novo modelo será lançado progressivamente através de APIs para programadores, do Vertex AI empresarial e de ferramentas de colaboração.

As principais capacidades do modelo incluem etiquetas de áudio baseadas em linguagem natural para afinar a velocidade, a entoação e a emoção, além de um “Director Mode” para especificar cenas e papéis de personagens e gerar saídas vocais mais subtis. Uma funcionalidade de múltiplos locutores permite a geração simultânea de diálogos, possibilitando fluxos de conversa mais naturais adequados para podcasts, conteúdos áudio e assistentes de IA. O modelo suporta mais de 70 línguas e dialetos, refletindo acentos e expressões regionais para experiências de voz localizadas em todo o mundo.

A Google sublinhou o desempenho e a eficiência de custos, obtendo pontuações elevadas em benchmarks de avaliação humana às cegas, ao mesmo tempo que reduz os custos computacionais com a sua arquitetura Flash — concebida para adoção empresarial em grande escala. O áudio gerado inclui marcações de watermark SynthID para identificar conteúdos gerados por IA e combater a desinformação.

A medida reflete a intensificação da concorrência em interfaces de voz. A OpenAI está a combinar funcionalidades de voz em tempo real com IA conversacional para interações mais semelhantes às humanas, enquanto a Meta está a alargar investimentos em personagens de IA com experiências sociais baseadas em voz. Observadores da indústria referem que, embora a atuação de alto nível e o trabalho criativo possam continuar, por agora, a ser impulsionados por humanos, os mercados de produção repetitiva e em grande escala poderão assistir a uma adoção gradual da IA na dobragem, na publicidade e nos setores de audiolivros.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Adata, o Jay Chou a ganhar muito? A empresa de gestão GD reúne-se em segredo com a família real de Dubai para discutir IPO, IA e robôs

A empresa sul-coreana de tecnologia de entretenimento Galaxy Corporation tem vindo a avançar recentemente para o mercado do Médio Oriente, tendo criado a entidade legal em Dubai “Galaxy ME” e reunido com membros da família real dos Emirados Árabes Unidos para explorar a integração de IA e conteúdos. A empresa já selecionou uma corretora para realizar o IPO; no ano passado, a sua receita atingiu 300 mil milhões de won sul-coreano, tendo também atraído investimentos de Jay Chou e da ADATA. Esta estratégia visa impulsionar o desenvolvimento do ecossistema de entretenimento no Médio Oriente, sublinhando a importância da sua estratégia de internacionalização.

ChainNewsAbmedia22m atrás

Equipa chinesa EvoMap enfurece com a polémica de plágio da Hermes Agent que explodiu em popularidade: existe uma elevada semelhança no sistema de autoevolução

A equipa chinesa EvoMap acusa o agente Hermes da Nous Research de ter copiado a sua arquitetura Evolver/GEP, afirmando que ambos apresentam uma elevada semelhança em vários módulos-chave. A EvoMap refere que o design do Hermes não cita nem dá crédito ao seu conteúdo publicado anteriormente; a polémica suscitou grande atenção por parte da comunidade, com alguns utilizadores chineses a apoiar a EvoMap e a criticar a conduta de plágio do Hermes. Embora a equipa da Nous Research ainda não tenha refutado as acusações ponto por ponto, o caso espalhou-se rapidamente no panorama da opinião pública sobre IA.

ChainNewsAbmedia44m atrás

Apoiantes iniciais da OpenAI preferem! A nova empresa de interface cérebro-computador Sabi vai enviar o mais rapidamente até ao final do ano o «barrete» que permite escrever com o pensamento

A start-up da Califórnia (Vale do Silício) Sabi anunciou que está a desenvolver uma interface cérebro-computador (BCI) vestível, que não requer cirurgia invasiva. Os utilizadores precisam apenas de “pensar” para introduzirem texto no ecrã, estando prevista a sua disponibilização até ao final de 2026. O dispositivo será equipado com até 100.000 sensores microscópicos, o que ajudará a interpretar com precisão a actividade cerebral; a Sabi também sublinha a protecção da privacidade dos dados.

ChainNewsAbmedia52m atrás

Os dados revelam que “Claude fica menos inteligente” não é um mito urbano; o modelo de IA é instável, constituindo um risco empresarial

O artigo aborda o fenómeno de instabilidade do desempenho de LLMs (modelos de linguagem de grande escala) nas aplicações das empresas de IA, chamando-lhe «diminuição de capacidades», e apresenta exemplos para ilustrar o seu impacto real nos fluxos de trabalho das empresas. Os dados mostram que a maioria dos modelos principais se encontra num estado de degradação, afectando a produtividade e a estabilidade das empresas; estas precisam de começar a dar prioridade à estabilidade dos modelos como um novo padrão, caso contrário enfrentarão riscos para a infra-estrutura.

ChainNewsAbmedia1h atrás

A OpenAI Actualiza o Codex para um Agente de IA que Controla o Ambiente de Trabalho, Automatizando os Fluxos de Trabalho de Desenvolvimento

O Codex melhorado da OpenAI evolui de um assistente de programação para um agente autónomo para ambientes de ambiente de trabalho, capaz de gerir aplicações, automatizar fluxos de trabalho e integrar-se com mais de 100 aplicações. Esta mudança melhora a continuidade das tarefas e a automatização dos fluxos de trabalho, reflectindo um cenário competitivo nas ferramentas de programação por IA.

GateNews1h atrás

A Google integra a pesquisa com IA no Chrome, permitindo uma navegação web conversacional

A Google está a reforçar o Chrome com uma pesquisa alimentada por IA, permitindo a navegação por conversa e respostas conscientes do contexto. A nova funcionalidade inclui também a integração com vários separadores, melhorando a experiência do utilizador para diversas tarefas ao consolidar separadores abertos e disponibilizar informação adaptada.

GateNews1h atrás
Comentar
0/400
Nenhum comentário