Mensagem do Gate News, 17 de abril — O Google revelou o Gemini 3.1 Flash TTS, um modelo avançado de texto para fala com recursos de expressão emocional e controle aprimorados, em 15 de abril. O novo modelo será disponibilizado gradualmente por meio de APIs para desenvolvedores, Vertex AI corporativo e ferramentas de colaboração.
As principais capacidades do modelo incluem tags de áudio baseadas em linguagem natural para ajustar a velocidade, a entonação e a emoção, além de um “Director Mode” para especificar cenas e papéis de personagens e gerar saídas de voz mais nuances. Um recurso de múltiplos locutores permite gerar diálogos simultâneos, possibilitando fluxos de conversa mais naturais, adequados para podcasts, conteúdos de áudio e assistentes de IA. O modelo suporta mais de 70 idiomas e dialetos, refletindo sotaques e expressões regionais para experiências de voz localizadas globalmente.
O Google destacou desempenho e eficiência de custos, alcançando altas pontuações em benchmarks de avaliação humana cega, enquanto reduzia custos computacionais com sua arquitetura Flash — projetada para adoção empresarial em larga escala. O áudio gerado inclui marca d’água SynthID para identificar conteúdo gerado por IA e combater a desinformação.
A iniciativa reflete a intensificação da concorrência em interfaces de voz. A OpenAI está combinando recursos de voz em tempo real com IA conversacional para interações semelhantes às humanas, enquanto a Meta está expandindo investimentos em personagens de IA com experiências sociais baseadas em voz. Observadores da indústria apontam que, embora atuação em alto nível e trabalhos criativos possam continuar sendo impulsionados por humanos por enquanto, mercados de produção repetitiva e em larga escala podem ver uma adoção gradual de IA em dublagem, publicidade e setores de audiobooks.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Adata, Jay Chou ganhou muito? A agência de gerenciamento do GD se reúne secretamente com a realeza de Dubai para discutir IPO, IA e robôs
A empresa sul-coreana de tecnologia de entretenimento Galaxy Corporation entrou recentemente no mercado do Oriente Médio, estabelecendo a entidade em Dubai “Galaxy ME” e se reunindo com membros da família real dos Emirados Árabes Unidos para explorar a integração de IA e conteúdo. A empresa já selecionou uma corretora para realizar seu IPO; no ano passado, sua receita foi de 300 bilhões de won sul-coreano, e ela atraiu investimentos de Jay Chou e da ADATA, entre outros. Esse plano tem como objetivo impulsionar o desenvolvimento do ecossistema de entretenimento no Oriente Médio, destacando a importância de sua estratégia de globalização.
ChainNewsAbmedia28m atrás
Equipe chinesa EvoMap acusa: agentes da Hermes viralizaram furiosamente por copiar conteúdo: no sistema de autoevolução existe uma semelhança muito alta
A equipe chinesa EvoMap acusa o Hermes Agent da Nous Research de copiar sua arquitetura Evolver/GEP, alegando que ambos têm alta semelhança em vários módulos-chave. A EvoMap afirma que o projeto do Hermes não cita nem agradece o conteúdo previamente publicado por ela; a controvérsia gerou ampla atenção da comunidade, parte dos internautas chineses apoiou a EvoMap e criticou as ações de plágio do Hermes. Embora a equipe de pesquisa da Nous ainda não tenha refutado as acusações ponto a ponto, o caso se espalhou rapidamente no discurso sobre IA.
ChainNewsAbmedia49m atrás
Apoiado por primeiros investidores da OpenAI! Novo empreendimento de interface cérebro-computador, a Sabi, promete enviar até o fim do ano um gorro com recurso “pensar e escrever”
A startup de Silicon Valley, Sabi, anunciou que está desenvolvendo uma interface cérebro-computador vestível que não exige cirurgia invasiva; os usuários só precisam “pensar” para inserir texto na tela, com previsão de lançamento no fim de 2026. O dispositivo contará com até 100.000 sensores microscópicos, o que ajudará a interpretar com precisão a atividade cerebral, e a Sabi também enfatiza a proteção da privacidade dos dados.
ChainNewsAbmedia57m atrás
Dados revelam que “Claude perdeu capacidade” não é apenas um boato, e que modelos de IA instáveis representam risco empresarial
O artigo discute o fenômeno de instabilidade do desempenho de LLMs (modelos de linguagem de grande porte) em aplicações de empresas de IA, chamando-o de “queda de inteligência”, e apresenta exemplos para explicar seus impactos reais nos fluxos de trabalho corporativos. Os dados mostram que a maioria dos modelos de maior destaque está em um estado de rebaixamento, afetando a produtividade e a estabilidade das empresas. As empresas precisam começar a dar prioridade à estabilidade dos modelos como um novo padrão; caso contrário, enfrentarão riscos de infraestrutura.
ChainNewsAbmedia1h atrás
OpenAI Atualiza Codex para um Agente de IA que Controla o Desktop, Automatizando Fluxos de Trabalho de Desenvolvimento
O Codex aprimorado da OpenAI evolui de um assistente de programação para um agente autônomo para ambientes de desktop, capaz de gerenciar aplicativos, automatizar fluxos de trabalho e se integrar a mais de 100 apps. Essa mudança aprimora a continuidade das tarefas e a automação do fluxo de trabalho, refletindo um cenário competitivo nas ferramentas de codificação com IA.
GateNews1h atrás
Google integra busca com IA ao Chrome, permitindo navegação web conversacional
O Google está aprimorando o Chrome com uma busca em IA, permitindo navegação conversacional e respostas com consciência de contexto. A nova funcionalidade também traz integração com várias guias, melhorando a experiência do usuário em diversas tarefas ao consolidar as guias abertas e fornecer informações personalizadas.
GateNews1h atrás