Сообщение Gate News, 17 апреля — Google представила Gemini 3.1 Flash TTS, усовершенствованную модель преобразования текста в речь с расширенными функциями выражения эмоций и контроля, 15 апреля. Новая модель будет поэтапно внедряться через API для разработчиков, корпоративную платформу Vertex AI и инструменты для совместной работы.
Ключевые возможности модели включают аудиотеги на основе естественного языка для тонкой настройки скорости, интонации и эмоций, а также «Director Mode» для указания сцен и ролей персонажей, чтобы генерировать более нюансированную голосовую подачу. Функция нескольких спикеров позволяет одновременно генерировать диалоги, обеспечивая более естественные сценарии общения, подходящие для подкастов, аудиоконтента и ИИ‑ассистентов. Модель поддерживает более 70 языков и диалектов, отражая региональные акценты и выражения для локализованного голосового опыта по всему миру.
Google подчеркнула производительность и эффективность по стоимости, добившись высоких результатов на бенчмарках слепой оценки людьми, одновременно снижая вычислительные затраты благодаря архитектуре Flash — она предназначена для масштабного корпоративного внедрения. Сгенерированное аудио включает водяной знак SynthID, чтобы идентифицировать контент, сгенерированный ИИ, и бороться с дезинформацией.
Этот шаг отражает усиливающуюся конкуренцию в голосовых интерфейсах. OpenAI объединяет функции реального времени для голоса с разговорным ИИ для взаимодействий, похожих на человеческие, а Meta расширяет инвестиции в ИИ‑персонажей с голосовыми социальными сценариями. Наблюдатели отрасли отмечают, что хотя высокоуровневое актерское мастерство и креативная работа, вероятно, пока останутся в основном ориентированными на людей, повторяющиеся и массовые рынки производства могут постепенно перейти к использованию ИИ в дубляже, рекламе и сегменте аудиокниг.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
ADATA, Джей Чоу заработали кучу денег? Агентство GD тайно встречалось с королевской семьей Дубая, обсуждали IPO, ИИ и роботов
Корейская компания развлекательных технологий Galaxy Corporation в последнее время выходит на рынки Ближнего Востока, создав дубайскую компанию «Galaxy ME», и встретилась с представителями королевской семьи ОАЭ, чтобы изучить интеграцию AI и контента. Компания уже выбрала андеррайтеров для IPO; в прошлом году выручка составила 300 млрд корейских вон, и это привлекло инвестиции со стороны Джей Чоу и ADATA, среди других. Такая стратегия направлена на развитие развлекательной экосистемы на Ближнем Востоке и подчеркивает важность ее глобализационной стратегии.
ChainNewsAbmedia25м назад
Китайская команда EvoMap в ярости: резкий рост Hermes Agent и плагиат — в системе самоэволюции есть высокая степень сходства
Команда из Китая EvoMap обвиняет Hermes Agent компании Nous Research в плагиате их архитектуры Evolver/GEP, считая, что обе системы имеют высокую степень сходства по нескольким ключевым модулям. EvoMap указывает, что дизайн Hermes не ссылается и не выражает признательность за ранее опубликованные ими материалы; спор вызвал широкий общественный интерес в сообществе. Часть китайских пользователей поддержала EvoMap и раскритиковала действия Hermes по копированию. Хотя команда Nous Research еще не опровергла обвинения по пунктам, событие быстро распространилось в дискуссиях об ИИ.
ChainNewsAbmedia46м назад
Любимчик ранних инвесторов OpenAI! Новый мозговой стартап Sabi планирует отгрузки самое позднее к концу этого года — «шапка с надетыми мозгами», которая позволяет писать словами, просто думая
Стартап из Силиконовой долины Sabi объявил о разработке носимого мозг-компьютер интерфейса, не требующего инвазивного хирургического вмешательства. Пользователю достаточно «думать», чтобы вводить текст на экране; запуск ожидается к концу 2026 года. Устройство будет оснащено до ста тысячами микродатчиков, что поможет точно интерпретировать активность мозга, а Sabi также подчеркивает защиту конфиденциальности данных.
ChainNewsAbmedia54м назад
Данные раскрывают, что «Claude деградирует в плане интеллекта» — это не городской миф; нестабильность AI-моделей представляет риск для бизнеса
Статья рассматривает явление нестабильного поведения LLM (крупных языковых моделей) в прикладном использовании в AI-компаниях, называемое «утрата рассудительности», и приводит примеры того, как это реально влияет на рабочие процессы предприятий. Данные показывают, что большинство основных моделей находятся в состоянии деградации, что влияет на производительность и устойчивость компаний. Компании необходимо начать уделять устойчивости моделей внимание как новому стандарту, иначе они столкнутся с рисками для инфраструктуры.
ChainNewsAbmedia1ч назад
OpenAI обновляет Codex до ИИ-агента, который управляет рабочим столом и автоматизирует процессы разработки
Обновлённый Codex от OpenAI развивается от инструмента для написания кода до автономного агента для настольных сред: он способен управлять приложениями, автоматизировать рабочие процессы и интегрироваться более чем с 100 приложениями. Такой сдвиг повышает непрерывность задач и автоматизацию рабочих процессов, отражая конкурентный ландшафт в инструментах ИИ для написания кода.
GateNews1ч назад
Google интегрирует ИИ-поиск в Chrome, обеспечивая веб-серфинг в режиме диалога
Google улучшает Chrome с помощью поиска с ИИ, позволяя вести веб-серфинг в формате разговора и получать контекстно-осведомленные ответы. Новая функциональность также включает интеграцию с несколькими вкладками, улучшая пользовательский опыт для различных задач за счет объединения открытых вкладок и предоставления подобранной информации.
GateNews1ч назад