Message de Gate News, 23 avril — Des chercheurs de Google, dont He Kaiming et Xie Saining, ont publié un article présentant Vision Banana, un modèle polyvalent de compréhension visuelle créé grâce à un réglage fin par instruction léger du modèle de génération d’images Nano Banana Pro (Gemini 3 Pro Image) de l’entreprise. L’innovation clé unifie les sorties de toutes les tâches de vision sous forme d’images RGB, permettant la segmentation, l’estimation de profondeur et la prédiction des normales de surface via la génération d’images, sans architectures ou fonctions de perte spécifiques aux tâches.

En segmentation sémantique, Vision Banana a surpassé le modèle spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; en segmentation par expressions de référence, il a dépassé SAM 3 Agent. En revanche, il a pris du retard sur SAM 3 en segmentation d’instances. Pour les tâches 3D, l’estimation de profondeur métrique a atteint 0,929 de précision moyenne sur quatre ensembles de données standards, dépassant les 0,918 de Depth Anything V3, en n’utilisant que des données synthétiques sans informations de profondeur réelles ni paramètres de caméra lors de l’inférence. L’estimation des normales de surface a obtenu des résultats à l’état de l’art sur trois bancs d’essai en intérieur.

Le réglage fin a impliqué une quantité minimale de données de tâches visuelles mélangées à l’entraînement initial de génération d’images, préservant les capacités de génération du modèle — les performances étaient conformes au Nano Banana Pro original lors de tests de qualité de génération. L’article propose que le préentraînement à la génération d’images en vision soit analogue au préentraînement de la génération de texte en langage : les modèles apprennent les représentations internes nécessaires à la compréhension d’images pendant la génération, et le réglage fin par instruction ne fait que libérer cette capacité.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Samsung SDS étend son partenariat avec Google Cloud pour servir les secteurs réglementés grâce à des services d’IA et de sécurité

Actualités de l’industrie de l’IA

Message de Gate News, 23 avril — Samsung SDS a étendu son partenariat avec Google Cloud pour fournir des services d’IA, d’informatique en nuage et de sécurité aux secteurs réglementés, notamment le gouvernement et les services financiers. Les entreprises déploieront Google Distributed Cloud pour les clients nécessitant une localisation des données

GateNewsIl y a 17m

Sullivan & Cromwell s’excuse pour des hallucinations d’IA dans un acte de procédure comportant 40 citations erronées

Actualités de l’industrie de l’IA

Message de Gate News, 23 avril — Sullivan & Cromwell, un important cabinet d’avocats de Wall Street, s’est excusé auprès d’un juge fédéral après avoir soumis un acte de procédure contenant environ 40 citations incorrectes et d’autres erreurs dues à des hallucinations de l’IA. Andrew Dietderich, co-directeur du pôle de restructuration mondiale du cabinet,

GateNewsIl y a 33m

Tencent publie et open-sourçe un aperçu de Hunyuan Hy3 avec 295B de paramètres

Actualités de l’industrie de l’IA

Message des actualités Gate, 23 avril — Tencent a dévoilé et a open-sourcé l’aperçu de Hunyuan Hy3, un modèle de langage hybride de type mixture-of-experts avec fusion de la pensée rapide et lente. Le modèle comprend 295 milliards de paramètres au total avec 21 milliards de paramètres actifs, prenant en charge une longueur maximale de contexte de 256K

GateNewsIl y a 47m

La Corée du Sud et le Vietnam signent 70+ MOUs sur l’IA, l’énergie et les infrastructures de données

Actualités de l’industrie de l’IA

Message d’actualités Gate, 23 avril — La Corée du Sud et le Vietnam ont signé plus de 70 mémorandums d’entente (MOUs) lors de la visite d’État à Hanoi du président Lee Jae Myung le 23 avril, portant sur l’IA, l’énergie, les infrastructures et les télécommunications. Un forum d’affaires auquel ont assisté plus de 500 dirigeants a discuté de l’écosystème de l’IA et de l’industrie de l’énergie, avec de grands conglomérats coréens, notamment Samsung, SK, LG et Hyundai, représentés. A

GateNewsIl y a 48m

Moteur de réponses à base d’IA : contamination collective : 56 % des bonnes réponses de Gemini 3 n’ont aucun support de source

Actualités de l’industrie de l’IA

Ce texte indique que, lors des requêtes de l’AI pour un moteur de réponses, des pages web sont citées en temps réel ; si la source est générée par une IA ou manque de preuves, elle pollue les résultats. Il n’est pas nécessaire de réentraîner pour que cela fonctionne, et cela s’appelle la contamination par récupération (retrieval contamination). Bien que Gemini3 ait une bonne précision, 56% des réponses manquent de sources vérifiables ; des cas comme Lily Ray, Grokipedia, etc. montrent que l’IA est facilement trompée par des contenus inventés. La conclusion est que la couche de citation se détache des auteurs fiables, créant une boucle de contamination auto-renforcée ; les utilisateurs doivent néanmoins remonter à la source originale, et ne doivent pas considérer la réponse comme un point final de vérification des faits.

ChainNewsAbmediaIl y a 56m

Anthropic indique à la cour que les modèles d’IA du Pentagone déployés n’ont pas de "kill switch"

Actualités de l’industrie de l’IA

Message de Gate News, 23 avril — Anthropic a déposé un acte auprès de la Cour d’appel des États-Unis pour le circuit du district de Columbia, indiquant que, une fois ses modèles d’IA déployés dans des environnements du Pentagone, l’entreprise n’a ni visibilité ni moyens techniques pour contrôler ou mettre à l’arrêt les modèles, et qu’il n’existe pas de "kill switch"

GateNewsIl y a 58m

Commentaire

0/400

Aucun commentaire