رسالة أخبار البوابة، 27 أبريل — أصدرت شركة SemiAnalysis، وهي شركة متخصصة في تحليل أشباه الموصلات والذكاء الاصطناعي، معيارًا/مقارنة مرجعية (benchmark) لتقييم المساعدين البرمجيين، بما في ذلك GPT-5.5 و Claude Opus 4.7 و DeepSeek V4. وكانت النتيجة الرئيسية: تُعدّ GPT-5.5 أول عودة من OpenAI إلى صدارة التقدم في نماذج البرمجة خلال ستة أشهر، حيث بات مهندسو SemiAnalysis يتناوبون الآن بين Codex وClaude Code بعد أن كانوا يعتمدون تقريبًا حصريًا على Claude. تستند GPT-5.5 إلى نهج تدريب مسبق جديد مُشفّر باسم “Spud” وتمثل أول توسع في حجم التدريب المسبق من OpenAI منذ GPT-4.5.
في الاختبارات العملية، ظهرت قسمة واضحة للأدوار. يتولى Claude تخطيط المشروعات الجديدة والإعداد الأولي، بينما يتفوق Codex في إصلاحات الأعطال التي تتطلب التفكير المكثف. يُظهر Codex فهمًا أقوى لهياكل البيانات والاستدلال المنطقي، لكنه يواجه صعوبة في استنتاج نية المستخدم الغامضة. في مهمة ضمن لوحة تحكم واحدة، أعاد Claude تلقائيًا تخطيط صفحة المرجع لكنه اخترع كميات كبيرة من البيانات، بينما تخطى Codex التخطيط لكنه قدّم بيانات أدق بكثير.
تكشف التحليلات عن تفاصيل تلاعب بالمعيار/المقارنة المرجعية: حثّت مشاركة مدونة OpenAI في فبراير الصناعة على اعتماد SWE-bench Pro بوصفه المعيار/المرجع الجديد لمقاييس البرمجة. ومع ذلك، غيّرت إعلانات GPT-5.5 إلى معيار/مرجع جديد يُسمى “Expert-SWE.” والسبب، المدفون في تفاصيل دقيقة، هو أن GPT-5.5 تفوقت عليها Opus 4.7 على SWE-bench Pro وتراجعت بشكل كبير عن Mythos (77.8%) غير المُعلن من Anthropic.
وبخصوص Opus 4.7، نشرت Anthropic تحليلًا بعد الوفاة (postmortem) بعد أسبوع واحد من الإصدار، واعترفت بوجود ثلاث حالات خلل (bugs) في Claude Code استمرت لعدة أسابيع من مارس إلى أبريل، مما أثّر على ما يقرب من جميع المستخدمين. وكان قد أبلغ عدة مهندسين سابقًا عن تدهور في الأداء في الإصدار 4.6، لكن تم تجاهل ذلك باعتباره ملاحظات ذاتية. بالإضافة إلى ذلك، فإن المُرمّز (tokenizer) الجديد في Opus 4.7 يزيد استخدام الـ tokens بنسبة تصل إلى 35%، وهو ما اعترفت به Anthropic بشكل صريح—وهو ما يشكّل فعليًا زيادةً خفية في السعر.
تم تقييم DeepSeek V4 على أنه “يواكب وتيرة الخط الأمامي لكنه لا يتصدر,” مع وضع نفسه كبديل الأقل تكلفة بين نماذج المصدر المغلق. وأشارت التحليلات أيضًا إلى أن “Claude لا يزال يتفوق على DeepSeek V4 Pro في مهام الكتابة الصينية عالية الصعوبة،” مع تعليق بأن “Claude فاز على النموذج الصيني بلغته الخاصة.”
يقدم المقال مفهومًا رئيسيًا: ينبغي تقييم تسعير النماذج من خلال “تكلفة المهمة” بدلًا من “تكلفة الـ token.” إن تسعير GPT-5.5 ضعف تسعير GPT-5.4 (input $5, output $30 per million tokens)، لكنه ينجز المهام نفسها باستخدام tokens أقل، مما يعني أن التكلفة الفعلية ليست بالضرورة أعلى. تُظهر بيانات SemiAnalysis الأولية أن نسبة إدخال Codex إلى إخراجه هي 80:1، وهي أقل من نسبة Claude Code البالغة 100:1.
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
هل سيؤدي استخدام الذكاء الاصطناعي إلى زيادة الإنتاجية أم خفض التكاليف؟ لم تتحول الكفاءة بمئة ضعف إلى إيرادات بمئة ضعف، لكن لا أحد في وادي السيليكون يجرؤ على إيقاف ذلك
شركة Wuyuan Capital، الشريك الشريك مينغ شينغ، مؤخراً نشر تقريراً عن زيارته إلى وادي السيليكون، وقدّم حكماً جعله هو نفسه يغيّر عادات تدوين الملاحظات: وادي السيليكون دخل الآن مرحلة لا ينجو فيها حتى مَن يقدر على ركوب الأمواج من أن تجرفه الأمواج. لقد انتقل معدل تطوّر الذكاء الاصطناعي من «شهرياً» إلى «أسبوعياً»، حتى أن وادي السيليكون نفسه لم يعد يواكب نفسه.
عندما يُضخِّم الذكاء الاصطناعي إنتاجية فريق بمقدار خمس مرات، يمكنك تقليل ثمانين بالمئة من الموارد البشرية للحفاظ على الناتج السابق، أو إبقاء عدد الموظفين كما هو والقيام بما يعادل خمس مرات. تُعَد ملاحظة مينغ شينغ هذه في وادي السيليكون، كأنها في الموقع قدّمت مسودة أولى للإجابة: عندما لا يتحوّل معدل كفاءة 100 ضعف إلى إيرادات 100 ضعف، عندما تقترب ميزانية الـ token من تكاليف العمالة، وعندما لا يزال المحرّك البخاري لا يستطيع اللحاق بالعربة التي تجرّها الخيول بينما لا أحد يجرؤ على التوقف، فإن وادي السيليكون اختار الآن «رفع السرعة أولاً ثم الكلام». لكن في نهاية هذا الطريق، هل سيتجه نحو «قدرة التوسّع» أم «خفض التكاليف»، لا يزال لا توجد خلاصة حاسمة.
تحوّل YC من مؤشرات رائدة إلى مؤشرات متأخرة
مينغ شينغ هذا العام
ChainNewsAbmediaمنذ 6 د
شارك أحد شركاء YC كيفية استخدام الذكاء الاصطناعي لبناء شركة من الصفر، وينبغي على الشركات الناشئة أن تعتبر الذكاء الاصطناعي نظامًا أساسيًا وليس مجرد أداة
تأثير الذكاء الاصطناعي على الشركات الناشئة لم يعد يقتصر فقط على جعل المهندسين يكتبون البرامج بشكل أسرع، أو أتمتة عمليات خدمة العملاء، أو إضافة Copilot إلى المنتجات الحالية. أشارت الشريكة في YC، ديانا، مؤخرًا إلى أن التغيير الحقيقي يتمثل في أن الذكاء الاصطناعي يعيد كتابة «كيف ينبغي لشركة أن تُنشأ من الصفر». بالنسبة للمؤسسين في المراحل المبكرة، لا ينبغي أن يكون الذكاء الاصطناعي مجرد أداة كفاءة تستخدمها الشركة بين الحين والآخر، بل يجب أن يُصمَّم منذ اليوم الأول ليكون نظام التشغيل الذي يعمل به كامل الشركة.
منظور الإنتاجية أصبح قديمًا، والذكاء الاصطناعي يعيد كتابة نقطة البداية لتصميم الشركة
تعتقد ديانا أنه عندما يتحدث السوق عن الذكاء الاصطناعي حاليًا، فإنه ما يزال كثيرًا ما يتوقف عند إطار «تعزيز الإنتاجية»، مثل أن يتمكن المهندسون من كتابة التعليمات البرمجية بشكل أسرع، ويمكن للفِرق أتمتة المزيد من العمليات، ويمكن للشركات طرح المزيد من الميزات. لكن هذا الطرح في الواقع يقلل من شأن التغييرات البنيوية التي يجلبها الذكاء الاصطناعي. وقد أشارت إلى أن الشخص المناسب عند اقترانه بالذكاء الاصطناعي و
ChainNewsAbmediaمنذ 16 د
تمت فضيحة وكيل Cursor AI! سطر واحد من التعليمات البرمجية يفرّغ قاعدة بيانات الشركة خلال 9 ثوانٍ، وتحوّلت الضمانات الأمنية إلى كلام فارغ
مؤسس PocketOS Jer Crane 指اعتمد وكيل Cursor AI في بيئة اختبارية لتنفيذ صيانة من تلقاء نفسه، وأساء استخدام رمز API مخصص لإضافة/إزالة نطاقات مخصصة، وأطلق أمر حذف ضد واجهة Railway GraphQL API. خلال 9 ثوانٍ تم تدمير البيانات وجميع لقطات النسخ الاحتياطي في نفس المنطقة بالكامل، وكان آخر شيء يمكن استعادته هو من ثلاث أشهر سابقة. اعترف الوكيل بانتهاك قواعد العمليات غير القابلة للإرجاع، وعدم الاطلاع على الوثائق التقنية، وعدم التحقق من عزل البيئة وغيرها من المتطلبات؛ وكانت الضحية هي عملاء قطاع تأجير السيارات، حيث اختفت الحجوزات والبيانات بالكامل، واستغرق عمل الموازنة مع الحسابات الهندسية وقتًا طويلًا. قدم Crane خمس إصلاحات: تأكيد يدوي، صلاحيات API دقيقة الحبيبات، فصل النسخ الاحتياطية عن البيانات الرئيسية، نشر SLA، وآليات إلزامية على مستوى البنية التحتية.
ChainNewsAbmediaمنذ 18 د
DeepSeek V4 Pro على Ollama Cloud: اتصال بنقرة واحدة لـ Claude Code
وفقًا لتغريدة من Ollama، تم إصدار DeepSeek V4 Pro في 4/24، وقد تم إدراجه في دليل Ollama بنمط السحابة (Cloud)؛ ويمكن استدعاء أدوات مثل Claude Code وHermes وOpenClaw وOpenCode وCodex وغيرها بأمر واحد فقط. تضم V4 Pro 1.6T参数 و1M context، مع Mixture-of-Experts؛ لا يقوم الاستدلال عبر السحابة بتنزيل الأوزان على الجهاز المحلي. إذا كنت تريد تشغيله محليًا، فستحتاج إلى جلب الأوزان بنفسك وتنفيذه باستخدام INT4/GGUF وبوحدات GPU متعددة. تأثرت اختبارات الأداء المبكرة بحِمل الخادم السحابي؛ فمعدل الوضع الطبيعي حوالي 30 tok/s، بينما القمة 1.1 tok/s. يُنصح باستخدام النموذج عبر السحابة (prototype)؛ وعند بدء الإنتاج الرسمي يمكنك إجراء الاستدلال بنفسك أو استخدام واجهة برمجة تطبيقات تجارية.
ChainNewsAbmediaمنذ 1 س
DeepSeek 将 V4-Pro 价格下调 75%,将 API 缓存成本削减至原来的十分之一
Gate 新闻消息,4月27日——DeepSeek 宣布,其面向开发者的全新 V4-Pro 模型提供 75% 的折扣,并将其 API 产品线中输入缓存命中价格下调至此前水平的十分之一。
V4 模型于 4 月 25 日以 Pro 和 Flash 版本发布,已针对华为的昇腾处理器进行了优化。DeepSeek 表示,V4-Pro 在世界知识基准测试中优于其他开源模型,并且仅次于谷歌的闭源 Gemini-Pro-3.1。V4 系列专门为处理超出聊天机器人能力的复杂任务的 AI 代理而设计。
V4-Pro API 成本已低于主要的西方竞争对手,定价为每 100 万输出 tokens 3.48 美元,而 对应 OpenAI 的 GPT-4.5。V4-Flash 定价为每 100 万输入 tokens 0.14 美元、每 100 万输出 tokens 0.28 美元,这可能使诸如在单次请求中审阅完整代码库或监管文件等具成本效益的应用成为可能。
GateNewsمنذ 1 س
تتحول Coachella إلى ذكاء Google DeepMind لإعادة تصور الحفلات الموسيقية بما يتجاوز المسرح
تعاونت شركة Coachella مع Google DeepMind لاختبار أدوات ذكاء اصطناعي جديدة تعيد تشكيل كيفية إنشاء عروض الموسيقى الحية وكيف تُختبر.
الملخص
اختبرت Coachella أدوات ذكاء اصطناعي مع Google DeepMind لتحويل العروض الحية إلى بيئات رقمية تفاعلية.
تم بناء ثلاثة نماذج أولية،
Cryptonewsمنذ 1 س