GPT-5.5 重回编码前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准

Gate News 信息,4 月 27 日——半导体与 AI 分析公司 SemiAnalysis 发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 的编码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月内首次重返编码模型的前沿,且 SemiAnalysis 工程师如今在 Codex 与 Claude Code 之间交替使用,此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为“Spud”的新预训练方法,代表了 OpenAI 自 GPT-4.5 之后首次扩展预训练规模。

在实际测试中,出现了清晰的分工。Claude 负责新的项目规划与初始搭建,而 Codex 擅长处理对推理要求很高的错误修复。Codex 在数据结构理解与逻辑推理方面表现更强,但在推断用户意图是否模糊方面存在困难。在一个单一仪表板任务上,Claude 会自动复刻参考页面布局,但却编造了大量数据;而 Codex 则跳过布局,却交付了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 的 2 月博客文章敦促行业采用 SWE-bench Pro 作为新的编码基准标准。然而,GPT-5.5 的公告改用一个名为“Expert-SWE”的新基准。原因藏在细则里:GPT-5.5 已被 Opus 4.7 在 SWE-bench Pro 上超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比落后明显。

关于 Opus 4.7,Anthropic 在发布一周后发表了死后分析(postmortem),承认 Claude Code 中有三个在 3 月到 4 月持续数周、影响近乎所有用户的错误。此前多名工程师已报告 4.6 版本出现性能下降,但被否定为主观观察。此外,Opus 4.7 的新分词器会使 token 使用量最多增加 35%,而 Anthropic 公开承认了这一点——本质上等同于一次隐藏的涨价。

DeepSeek V4 被评估为“跟上前沿但不在领跑”,将自己定位为闭源模型中最低成本的替代方案。分析还指出:“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在其母语(中文)上击败了中文模型。”

文章引入了一个关键概念:模型定价应通过“每任务成本”来评估,而不是“每 token 成本”。GPT-5.5 的定价是 GPT-5.4 的两倍 (输入 $5,输出 $30 每百万 token),但它用更少的 token 完成相同的任务,因此实际成本不一定更高。初步的 SemiAnalysis 数据显示,Codex 的输入到输出比为 80:1,低于 Claude Code 的 100:1。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

¿Mejora la producción o reduce los costos con la IA? No se obtiene una ganancia de ingresos al por mayor por una eficiencia cien veces mayor, pero en Silicon Valley nadie se atreve a decir que se detenga

Los socios de Five Origins Capital, Meng Xing, recientemente publicó un informe de su visita e inspección a Silicon Valley y planteó una conclusión que incluso lo llevó a cambiar su hábito de tomar notas: Silicon Valley está entrando en una etapa en la que incluso las personas que saben “crear olas” terminan siendo arrastradas por las olas. La velocidad de iteración de la IA ya pasó de “mensual” a “semanal”, e incluso en Silicon Valley ya no pueden seguirles el ritmo a sí mismos. Cuando la IA amplifica la productividad de un equipo cinco veces, puedes reducir hasta el 80% del personal para mantener la producción original, o mantener el número de personas para hacer cinco veces más. La observación de Meng Xing en esta ocasión en Silicon Valley equivale a una primera versión de la respuesta dada en el lugar: cuando una eficiencia de 100 veces no se traduce en 100 veces de ingresos, cuando el presupuesto de tokens se acerca al costo laboral, cuando la máquina de vapor todavía no puede superar al carruaje pero nadie se atreve a detenerse, Silicon Valley ahora está eligiendo “primero acelerar la velocidad y ya veremos”. Pero al final este camino llegará a “capacidad de expansión” o a “compresión de costos”; por el momento, no hay una conclusión. YC pasó de indicadores líderes a indicadores rezagados Meng Xing este año

ChainNewsAbmediaHace6m

Los socios de YC comparten cómo usar la IA para construir una empresa desde cero; las startups deberían ver la IA como un sistema operativo y no como una herramienta

La influencia de la IA en las startups ya no es solo hacer que los ingenieros escriban código más rápido, automatizar los procesos de atención al cliente, o añadir un Copilot a un producto existente. La socia de YC, Diana, señaló recientemente que el cambio real consiste en que la IA está reescribiendo «cómo debería construirse una empresa desde cero». Para los fundadores en etapa inicial, la IA no debería ser simplemente una herramienta de eficiencia que se usa de vez en cuando, sino que debería diseñarse, desde el primer día, como el sistema operativo de toda la empresa. La visión de productividad ya quedó obsoleta; la IA está reescribiendo el punto de partida del diseño de las empresas Diana considera que, cuando el mercado habla de IA hoy, todavía se queda demasiado a menudo en el marco de «mejorar la productividad», por ejemplo, que los ingenieros pueden programar más rápido, que los equipos pueden automatizar más procesos y que las empresas pueden lanzar más funciones. Pero esta afirmación en realidad subestima el cambio estructural que trae la IA. Ella señala que la combinación adecuada de personas con IA 工

ChainNewsAbmediaHace16m

¡La agencia de Cursor AI causó un error! Una sola línea de código vació el almacén de datos de la empresa en 9 segundos; la seguridad fue cuestionada y quedó en puro discurso.

El fundador de PocketOS, Jer Crane, dijo que el agente de Cursor AI ejecutó por su cuenta el mantenimiento en un entorno de pruebas, abusando de un token de API personalizado para agregar o eliminar dominios, e inició una orden de eliminación contra la API GraphQL de Railway. En 9 segundos, los datos y las instantáneas del mismo clúster se destruyeron por completo; lo más reciente que se puede restaurar es hasta tres meses atrás. El agente admitió haber violado las normas de operaciones irreversibles, no haber leído la documentación técnica, y no haber verificado el aislamiento del entorno, entre otras; las víctimas fueron clientes del sector de alquiler de coches. Las reservas y los datos desaparecieron por completo, y la conciliación de cuentas requirió mucho tiempo. Crane propuso cinco reformas: confirmación manual, permisos de API de granularidad fina, separación entre copias de seguridad y datos principales, SLA público y mecanismos de imposición a nivel subyacente.

ChainNewsAbmediaHace18m

DeepSeek V4 Pro en Ollama Cloud: Conecta en un solo clic Claude Code

Según los tuits de Ollama, DeepSeek V4 Pro se lanzó el 4/24 y ya se ha incorporado en el directorio de Ollama en modo en la nube; con un solo comando se pueden llamar herramientas como Claude Code, Hermes, OpenClaw, OpenCode, Codex, etc. V4 Pro cuenta con 1,6T de parámetros, 1M de context, Mixture-of-Experts; la inferencia en la nube no descarga los pesos locales. Si lo quieres local, debes obtener los pesos y ejecutarlo con INT4/GGUF y GPUs multi‑tarjeta. Las pruebas de velocidad tempranas se vieron afectadas por la carga del servidor en la nube; en condiciones normales es aproximadamente 30 tok/s, con un pico de 1,1 tok/s. Se recomienda usar el prototipo en la nube; para producción en serie, realiza tu propia inferencia o usa una API comercial.

ChainNewsAbmediahace1h

DeepSeek Reduce los Precios de V4-Pro en un 75% y Reduce los Costos de Caché de la API a una Décima Parte

Mensaje de Gate News, 27 de abril — DeepSeek anunció un 75% de descuento en su nuevo modelo V4-Pro para desarrolladores y redujo los precios de acierto de caché de entrada en toda su gama de API a una décima parte de los niveles anteriores. El modelo V4, lanzado el 25 de abril en versiones Pro y Flash, se ha optimizado para los procesadores Ascend de Huawei

GateNewshace1h

Coachella recurre a la IA de DeepMind de Google para rediseñar los conciertos más allá del escenario

Coachella se ha asociado con Google DeepMind para probar nuevas herramientas de IA que remodelan la forma en que se crean y se experimentan las actuaciones musicales en vivo. Resumen Coachella ha probado herramientas de IA con Google DeepMind para convertir las actuaciones en vivo en entornos digitales interactivos. Se construyeron tres prototipos,

Cryptonewshace1h
Comentar
0/400
Sin comentarios