Vision Banana от Google: унифицированная модель зрения превосходит специализированные модели в сегментации и 3D-геометрии

Сообщение Gate News, 23 апреля — исследователи Google, включая Хэ Кайминга и Се Сайнина, опубликовали работу, представляющую Vision Banana — универсальную модель понимания изображений, созданную с помощью легкой инструкции по дообучению для уточнения на компании Nano Banana Pro (Gemini 3 Pro Image) модель генерации изображений. Ключевое нововведение унифицирует выходы всех задач компьютерного зрения в виде RGB-изображений, позволяя выполнять сегментацию, оценку глубины и предсказание нормалей поверхности посредством генерации изображений без специализированных архитектур или функций потерь.

В семантической сегментации Vision Banana превзошла специализированную модель SAM 3 на 4,7 процентного пункта на Cityscapes; в сегментации по референсному выражению она обошла SAM 3 Agent. Однако в инстанс-сегментации она уступила SAM 3. Для 3D-задач метрическая оценка глубины достигла 0,929 средней точности на четырех стандартных наборах данных, превзойдя Depth Anything V3 с 0,918, используя только синтетические данные без реальной информации о глубине или параметров камеры на этапе инференса. Оценка нормалей поверхности достигла уровня лучших на сегодняшний день результатов на трех внутренних бенчмарках.

Дообучение включало минимальный объем данных по задачам зрения, смешанный с исходным обучением генерации изображений, сохраняя способность модели к генерации — производительность совпала с оригинальной Nano Banana Pro в тестах качества генерации. В работе предлагается, что предварительное обучение генерации изображений в зрении параллельно предварительному обучению генерации текста в языке: модели учатся внутренним представлениям, необходимым для понимания изображений, во время генерации, а инструкционное дообучение лишь высвобождает эту возможность.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Samsung SDS расширяет партнерство с Google Cloud, чтобы обслуживать регулируемые отрасли с помощью ИИ и услуг безопасности

Сообщение Gate News, 23 апреля — Samsung SDS расширила партнерство с Google Cloud, чтобы предоставлять услуги ИИ, облачных вычислений и безопасности для регулируемых отраслей, включая государственный сектор и финансовые услуги. Компании развернут Google Distributed Cloud для клиентов, которым требуется

GateNews17м назад

Sullivan & Cromwell приносит извинения за галлюцинации ИИ в судебном документе с 40 ошибочными ссылками

Сообщение Gate News, 23 апреля — Sullivan & Cromwell, крупная юридическая фирма с Уолл-стрит, принесла извинения федеральному судье после подачи судебного документа, содержащего примерно 40 неверных ссылок и другие ошибки, вызванные галлюцинациями ИИ. Эндрю Дитдерич, со-руководитель команды глобальной реструктуризации фирмы,

GateNews33м назад

Tencent представляет и открывает исходный код превью Hunyuan Hy3 с параметрами 295B

Сообщение Gate News, 23 апреля — Tencent представила и открыла исходный код превью Hunyuan Hy3, гибридную языковую модель с сочетанием механизма mixture-of-experts, объединяющую быстрое и медленное мышление. Модель включает 295 миллиардов общих параметров и 21 миллиард активных параметров, поддерживая максимальную длину контекста 256K

GateNews47м назад

Южная Корея и Вьетнам подписали 70+ MOUs по AI, энергетике и инфраструктуре данных

Сообщение Gate News, 23 апреля — Южная Корея и Вьетнам подписали более 70 меморандумов о взаимопонимании (MOUs) во время государственного визита президента Ли Джэ Мён в Ханой 23 апреля, охватив AI, энергетику, инфраструктуру и телекоммуникации. Деловой форум, в котором приняли участие более 500 руководителей, обсудил экосистемы AI и энергетической отрасли, при этом были представлены крупные корейские конгломераты, включая Samsung, SK, LG и Hyundai.

GateNews48м назад

Коллективное загрязнение движка для ответов ИИ: 56% в правильных ответах Gemini 3 не имеют подтвержденных источников

В этом тексте говорится, что при запросе к AI-движку для ответов он осуществляет немедленное цитирование веб-страниц; если источник является сгенерированным AI или в нем отсутствуют доказательства, это загрязняет результаты. Эффект достигается без необходимости дальнейшего обучения и называется загрязнением при извлечении (retrieval contamination). Хотя Gemini3 имеет высокую точность, 56% ответов не содержат проверяемых источников; кейсы вроде Lily Ray, Grokipedia показывают, что AI легко обмануть вымышленным контентом. Вывод заключается в том, что слой цитирования и надежные авторы оказываются разъединены, формируется самоподдерживающийся цикл загрязнения; пользователям все равно нужно возвращаться к исходным источникам и не считать ответ точкой окончательной проверки фактов.

ChainNewsAbmedia56м назад

Anthropic сообщает суду: развернутые в Пентагоне ИИ-модели не имеют «kill switch»

Сообщение Gate News, 23 апреля — Anthropic подала в Апелляционный суд США по округу Колумбия заявление, в котором говорится, что после того, как ее ИИ-модели будут развернуты в средах Пентагона, у компании нет ни видимости, ни технических средств, чтобы контролировать или отключать эти модели, и не существует никакого «kill switch»

GateNews58м назад
комментарий
0/400
Нет комментариев