Google запускає Gemini 3.1 Flash TTS із покращеним емоційним вираженням і багатоголосими можливостями

Повідомлення Gate News, 17 квітня — Google представила Gemini 3.1 Flash TTS, вдосконалену модель тексту в мовлення з розширеними функціями емоційного вираження та керування, 15 квітня. Нову модель буде поступово впроваджено через API для розробників, корпоративний Vertex AI та інструменти для співпраці.

Ключові можливості моделі включають аудіотеги на основі природної мови для точного налаштування швидкості, інтонації та емоції, а також “Director Mode” для вказання сцен і ролей персонажів, щоб генерувати більш нюансовані голосові результати. Багатоголосий режим дає змогу одночасно генерувати діалоги, дозволяючи природніші сценарії розмов, що підходять для подкастів, аудіоконтенту та ШІ-асистентів. Модель підтримує понад 70 мов і діалектів, відображаючи регіональні акценти та вирази для локалізованого голосового досвіду в усьому світі.

Google наголосила на продуктивності та економічній ефективності: досягнено високих показників на сліпих бенчмарках людської оцінки, водночас зменшено обчислювальні витрати завдяки архітектурі Flash — розробленій для масштабованого корпоративного впровадження. Згенерований аудіоконтент містить водяний знак SynthID для ідентифікації контенту, створеного ШІ, та боротьби з дезінформацією.

Цей крок відображає загострення конкуренції в голосових інтерфейсах. OpenAI поєднує функції голосу в реальному часі з розмовним ШІ для взаємодії, схожої на людську, тоді як Meta розширює інвестиції в ШІ-персонажів із соціальним досвідом на основі голосу. Аналітики галузі зазначають, що хоча високорівнева акторська майстерність і творча робота можуть і надалі залишатися керованими людьми, ринки повторюваного та великомасштабного виробництва можуть поступово переходити до використання ШІ в дубляжі, рекламі та сегменті аудіокниг.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

World розширює інтеграції для верифікації ідентичності із Zoom, DocuSign, Tinder та іншими

World, компанія, співзасновником якої є Сем Альтман, оголосила про нові інтеграції з такими платформами, як Zoom і Tinder, посилюючи свою систему верифікації World ID. Оновлений протокол дозволяє застосункам використовувати багаторівневі перевірки ідентичності, якими вже користуються 17,9 млн користувачів у всьому світі.

GateNews52хв. тому

NVIDIA представила першу у світі «Ізингову модель», створену для квантового ШІ

NVIDIA представила відкриту модель «NVIDIA Ising», розроблену спеціально для квантового штучного інтелекту, щоб вирішити виклики калібрування та виправлення помилок квантових процесорів. Використовуючи візуально-мовні технології, модель скорочує час калібрування до кількох годин і підвищує швидкість та точність виправлення помилок під час декодування. Модель вже інтегрована з кількома науково-дослідними установами та доступна для завантаження, що сприяє впровадженню застосувань на ринку квантових обчислень.

ChainNewsAbmedia2год тому

AI-вендинг-агент «Валері» керує вендинговим автоматом у Сан-Франциско за допомогою OpenClaw

AI-агент «Valerie» тепер керує вендинговим автоматом у Сан-Франциско на OpenClaw, тестуючи, наскільки далеко люди підуть у довірі до коду з ціноутворенням, маркетингом і реальною готівкою. Підсумок AI-агент «Valerie» запускає фізичний вендинговий автомат у Сан-Франциско, використовуючи фреймворк OpenClaw, встановлюючи ціни, даючи назви

Cryptonews3год тому

DeepSeek залучає кошти за оцінкою понад $10 мільярд у своєму першому зовнішньому раунді фінансування

Повідомлення Gate News, 17 квітня — За даними The Information, AI-компанія DeepSeek проводить свій перший зовнішній раунд фінансування з моменту заснування, із запланованою оцінкою понад $10 мільярд.

GateNews3год тому

Earth VC підтримує стартап у сфері квантового ШІ Sygaldry у раунді на $139M фінансування

Earth Venture Capital інвестувала в Sygaldry Technologies, стартап у сфері квантового ШІ, зробивши внесок у загальне фінансування $139 млн. Sygaldry розробляє гібридні сервери для ефективних ШІ-навантажень, співзасновником яких є Чед Рігетті, раніше з Rigetti Computing.

GateNews5год тому

Китай посилюватиме законодавчу базу для ШІ, цифрової економіки та блокчейну

Китай планує посилити свою систему мережевого законодавства для задоволення потреб розвитку інтернету, зосередившись на законодавстві для ШІ, цифрової економіки та інших технологічних секторів. До грудня 2025 року, як очікується, ухвалять понад 180 законів, хоча чинні нормативні акти досі відстають від суспільних очікувань.

GateNews5год тому
Прокоментувати
0/400
Немає коментарів