بوابة الأخبار، 23 أبريل — نشر باحثون من Google، من بينهم He Kaiming وXie Saining، ورقة بحثية تقدم Vision Banana، نموذج عام لفهم الرؤية تم إنشاؤه عبر ضبط تعليمي خفيف لتعليمات نموذج (Gemini 3 Pro Image) image generation model Nano Banana Pro من الشركة. تتمثل الابتكار الرئيسي في توحيد مخرجات جميع مهام الرؤية كصور RGB، ما يتيح إجراء التقطيع وتقدير العمق والتنبؤ بالاتجاهات السطحية عبر توليد الصور دون الحاجة إلى بنى أو دوال خسارة خاصة بكل مهمة.

في التقطيع الدلالي، تفوق Vision Banana على النموذج المتخصص SAM 3 بنسبة 4.7 نقطة مئوية على Cityscapes؛ وفي تجزئة تعبيرات الإحالة، تفوق على SAM 3 Agent. ومع ذلك، تراجع عن SAM 3 في تجزئة الحالات. بالنسبة لمهام ثلاثية الأبعاد، حقق تقدير العمق بمقياس متوسط دقة 0.929 عبر أربعة مجموعات بيانات معيارية، متجاوزًا 0.918 لدى Depth Anything V3، باستخدام بيانات صناعية فقط دون معلومات عمق حقيقية أو معلمات كاميرا أثناء الاستدلال. حقق تقدير الاتجاهات السطحية نتائج على مستوى الأفضل في ثلاثة اختبارات داخلية.

اشتمل الضبط الدقيق على بيانات مهام رؤية قليلة يتم مزجها في تدريب توليد الصور الأصلي، مع الحفاظ على قدرات التوليد لدى النموذج—كانت الأداء مطابقًا لـ Nano Banana Pro الأصلي في اختبارات جودة التوليد. تقترح الورقة أن ما قبل تدريب توليد الصور في مجال الرؤية يتوازي مع ما قبل تدريب توليد النص في اللغة: تتعلم النماذج التمثيلات الداخلية اللازمة لفهم الصور أثناء التوليد، فيما يقتصر الضبط التعليمي للتعليمات على إطلاق هذه القدرة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

DeepSeek开源TileKernels：面向大模型训练与推理的GPU内核库

تقدم المشاريع أخبار صناعة AI

Gate 新闻消息，4月23日——DeepSeek已在MIT许可证下开源TileKernels，这是一套用TileLang编写的GPU内核库，面向大语言模型的训练与推理。TileLang是tile-ai团队开发的一种领域专用语言，用于在Python中表达高性能GPU内核

GateNewsمنذ 6 د

Samsung SDS توسّع شراكتها مع Google Cloud لخدمة القطاعات المُنظَّمة بالذكاء الاصطناعي وخدمات الأمن

أخبار صناعة AI

خبر بوابة، 23 أبريل — وسّعت Samsung SDS شراكتها مع Google Cloud لتقديم خدمات الذكاء الاصطناعي والحوسبة السحابية والأمن إلى قطاعات منظَّمة تشمل الحكومة والخدمات المالية. ستقوم الشركتان بنشر Google Distributed Cloud للعملاء الذين يحتاجون إلى توطين البيانات

GateNewsمنذ 30 د

苏利文·克伦威尔因法院文件中的 AI 幻觉与 40 条错误引用而道歉

أخبار صناعة AI

Gate News 消息，4 月 23 日——苏利文·克伦威尔（Sullivan & Cromwell）作为华尔街一家大型律所，因提交了一份包含约 40 条错误引用及其他由 AI 幻觉导致的错误的法院文件而向一名联邦法官道歉。该律所全球重组团队的联合负责人 Andrew Dietderich

GateNewsمنذ 46 د

Tencent تطلق وتتيح كود معاينة Hunyuan Hy3 مفتوحًا مع 295B معلمة

أخبار صناعة AI

بوابة الأخبار، 23 أبريل — كشفت شركة Tencent النقاب عن معاينة Hunyuan Hy3 وأتاحت كودها مفتوحًا، وهي نموذج لغوي هجين يجمع بين خبراء متعددين مع دمج التفكير السريع والبطيء. يتألف النموذج من 295 مليار معلمة إجماليّة و21 مليار معلمة فعّالة، ويدعم طول سياق أقصى يبلغ 256K

GateNewsمنذ 1 س

كوريا الجنوبية وفيتنام توقعان 70+ مذكرة تفاهم حول الذكاء الاصطناعي والطاقة والبنية التحتية للبيانات

أخبار صناعة AI

بوابة الأخبار، 23 أبريل — وقّعت كوريا الجنوبية وفيتنام أكثر من 70 مذكرة تفاهم (MOUs) خلال الزيارة الرسمية التي قام بها الرئيس لي جاي ميونغ إلى هانوي في 23 أبريل، لتغطي مجالات الذكاء الاصطناعي والطاقة والبنية التحتية والاتصالات. ناقش منتدى أعمال حضره أكثر من 500 مدير تنفيذي موضوع الذكاء الاصطناعي و

GateNewsمنذ 1 س

محرك الإجابة بالذكاء الاصطناعي يلوث جماعيًا: 56% من الإجابات الصحيحة في Gemini 3 لا تستند إلى مصادر

أخبار صناعة AI

يشير هذا النص إلى أن محرك الإجابة بالذكاء الاصطناعي يقوم عند الاستعلام بإدراج صفحات الويب في الوقت الحقيقي، فإذا كانت المصادر ناتجة عن الذكاء الاصطناعي أو تفتقر إلى الأدلة، فإن ذلك يلوّث النتائج، ويمكن أن يَنفَع دون الحاجة إلى إعادة تدريب، ويُسمّى ذلك التلوّث بالاسترجاع (retrieval contamination). على الرغم من أن Gemini3 دقته عالية، إلا أن 56% من الإجابات تفتقر إلى مصادر يمكن التحقق منها؛ وتُظهر أمثلة مثل Lily Ray وGrokipedia أن الذكاء الاصطناعي يمكن بسهولة أن يُخدَع بالمحتوى الذي يتم إنشاؤه ذاتيًا. تتمثل الخلاصة في أن طبقة الاقتباس وفقدان الارتباط بالمؤلفين الموثوقين يؤديان إلى دورة تلوّث مُعزِّزة ذاتيًا، ولا يزال يتعين على المستخدمين الرجوع إلى المصدر الأصلي، وألا يجعلوا الإجابة تُعدّ نقطة التحقق النهائية باعتبارها حقيقة.

ChainNewsAbmediaمنذ 1 س

تعليق

0/400

لا توجد تعليقات