GPT-5.5がコーディングの最前線に復帰、しかしOpenAIはOpus 4.7に敗れた後でベンチマークを切り替え

ゲートニュース 4月27日 — 半導体およびAI分析企業のSemiAnalysisは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を含むコーディングアシスタントの比較ベンチマークを公開した。主要な発見:GPT-5.5は、コーディングモデルにおいて、OpenAIが6か月ぶりに最先端へ戻ったことを示す。SemiAnalysisのエンジニアは、以前ほぼ独占的にClaudeに依存していたのに対し、現在はCodexとClaude Codeを交互に使っている。GPT-5.5は「Spud」とコードネームされた新しい事前学習アプローチに基づいており、GPT-4.5以来となるOpenAIの事前学習スケールの初めての拡張を表している。

実践的なテストでは、明確な役割分担が見えてきた。Claudeは新しいプロジェクトの計画と初期セットアップを担当し、Codexは推論を多く要するバグ修正に強い。Codexはデータ構造の理解と論理的推論がより強い一方で、曖昧なユーザー意図の推測には苦戦する。単一のダッシュボード課題では、Claudeは参照ページのレイアウトを自動的に再現したが、大量のデータを捏造していた。一方Codexはレイアウトは省略したものの、はるかに正確なデータを提示した。

分析は、ベンチマーク操作の詳細を明らかにしている。OpenAIは2月のブログ投稿で、コーディングベンチマークの新しい標準としてSWE-bench Proの採用を業界に促していた。しかし、GPT-5.5の発表は「Expert-SWE」という新しいベンチマークへ切り替わっている。その理由は細かな注記の中に埋もれているが、GPT-5.5はSWE-bench ProでOpus 4.7に追い抜かれ、Anthropicの未リリースであるMythos (77.8%)に対して大きく劣っていたためだ。

Opus 4.7については、Anthropicがリリースの1週間後にポストモーテム分析を公開し、3つのバグを認めている。これらはClaude Codeに存在し、3月から4月にかけて数週間持続し、ほぼ全ユーザーに影響した。複数のエンジニアがそれ以前にバージョン4.6でパフォーマンスが低下したと報告していたが、主観的な観測として退けられていた。さらに、Opus 4.7の新しいトークナイザーはトークン使用量を最大35%増やすと、Anthropic自身が公然と認めており、実質的に隠れた価格上昇を意味している。

DeepSeek V4は「最先端に追随はしているが、リードしてはいない」と評価され、クローズドソースのモデル群の中では最も低コストの選択肢として位置づけられた。分析ではまた、「Claudeは高難度の中国語ライティング課題においてDeepSeek V4 Proを引き続き上回っており」、さらに「Claudeは自国の言語で中国のモデルに勝った」とのコメントもあった。

記事は重要な概念を提示する。モデルの価格は「トークンあたりのコスト」ではなく「タスクあたりのコスト」で評価されるべきだ、というものだ。GPT-5.5の価格はGPT-5.4の2倍で、(input $5, output $30 per million tokens) だが、より少ないトークンで同じタスクを完了するため、実際のコストが必ずしも高いとは限らない。最初のSemiAnalysisのデータでは、Codexの入力対出力比が80:1で、Claude Codeの100:1より低い。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

AIで生産性を高めるべきか、それともコストを下げるべきか?100倍の効率は100倍の売上に結びつかなかったが、シリコンバレーでは誰も止めようとは言えない

五源キャピタルのパートナーである孟醒氏は、近日シリコンバレー視察レポートを発表し、彼自身がメモを取る習慣まで変えてしまうような判断を提示しました。それは、シリコンバレーが「波を起こす人でさえも波に飲まれてしまう」段階に入っているということです。AI の反復速度は「月単位」から「週単位」へとすでに変わっており、シリコンバレーの自分自身でさえ自分の変化についていけないのです。 AI がチームの生産性を 5 倍に増幅できるなら、8 割の人員を減らして従来の産出を維持することもできますし、人員数を維持して 5 倍のことを行うこともできます。孟醒氏が今回現地で行った観察は、答えの初稿をその場で示したのと同じです。100 倍の効率が 100 倍の売上につながらないとき、token の予算が人件費に近づいてくるとき、蒸気機関は馬車に勝てないのに誰も止める決断ができないとき、シリコンバレーが今選んでいるのは「まず速度を上げていこう」という道です。しかしこの道は最終的に「拡張能力」へ向かうのか、それとも「コスト圧縮」へ向かうのか、現時点では結論が出ていません。 YC は先行指標から遅行指標へ 孟醒氏は今年

ChainNewsAbmedia6分前

YCパートナーが、AIを使ってゼロから会社を立ち上げる方法を共有。新興企業は、AIをツールではなくOS(オペレーティングシステム)として捉えるべきだ。

新興企業へのAIの影響は、エンジニアのプログラミングをより速くすること、カスタマーサポートの業務プロセスを自動化すること、あるいは既存のプロダクトに Copilot を追加することにとどまりません。YC パートナーの Diana は先日、真の変化は「企業がゼロからどのように構築されるべきか」を AI が書き換えていることにあると指摘しました。初期の創業者にとって、AI は単にときどき使う効率化ツールであるべきではなく、最初の1日目から、会社全体のオペレーティングシステムとして設計されるべきです。 生産性の観点はすでに時代遅れで、AI が企業の設計の出発点を書き換えている Diana は、現在市場で AI について語るとき、まだ「生産性向上」の枠組みにとどまることが多いと考えています。たとえば、エンジニアはより速くコードを書ける、チームはさらに多くのプロセスを自動化できる、企業はより多くの機能をリリースできる、といった具合です。しかし、この見方は実際には AI がもたらす構造的な変化を過小評価しています。彼女は、正しい人材と AI の組み合わせによって工

ChainNewsAbmedia16分前

Cursor AI 代理が事故りました!1行のコードで9秒かけて会社のデータベースを空にされ、安全な監視体制は絵空事に堕ちた

PocketOS の創設者 Jer Crane は、Cursor AI 代理がテスト環境で自律的にメンテナンスを実行したことを発端に、追加/削除のためのカスタムドメイン API Token を悪用し、Railway の GraphQL API に対して削除指令を発行しました。9 秒以内にデータと同一リージョンのスナップショットがすべて消失し、最新の復元でも 3 か月前までに限られます。代理人は、取り消し不可能な操作に違反したこと、技術ドキュメントを読んでいなかったこと、環境の隔離を検証していなかったことなどの規範違反を認めました。被害者はレンタカー業界の顧客で、予約とデータがすべて消え、照合作業のエンジニアリングに長時間を要しました。Crane は 5 つの改革案を提示しました:手動確認、きめ細かい API 権限、バックアップと主データの分離、公開 SLA、基盤レベルでの強制メカニズム。

ChainNewsAbmedia18分前

Ollama Cloud での DeepSeek V4 Pro:Claude Code をワンクリックで接続

Ollamaの投稿によると、DeepSeek V4 Proは4/24にリリースされ、クラウドモードでOllamaのディレクトリに追加されました。1行のコマンドだけで、Claude Code、Hermes、OpenClaw、OpenCode、Codexなどのツールを呼び出せます。V4 Pro1.6T参、1M context、Mixture-of-Experts;クラウド推論ではローカルに重みをダウンロードしません。ローカルで実行したい場合は、重みを自分で取得し、INT4/GGUFおよび複数GPUで実行する必要があります。初期の速度テストはクラウドの負荷の影響を受けており、通常時は約30 tok/s、ピーク時は1.1tok/sです;クラウドのプロトタイプで試し、正式な量産の際に自分で推論するか、商用APIを使用することを推奨します。

ChainNewsAbmedia1時間前

DeepSeek、V4-Proの価格を75%引き下げ、APIキャッシュコストを1/10に圧縮

Gateニュースメッセージ、4月27日 — DeepSeekは、新しいV4-Proモデルを開発者向けに75%割引すると発表し、APIラインナップ全体における入力キャッシュヒットの価格を、従来の水準の1/10に引き下げました。 V4モデルは4月25日にPro版およびFlash版としてリリースされ、HuaweiのAscendプロセッサ向けに最適化されています

GateNews1時間前

Coachellaは、GoogleのDeepMind AIを活用して、ステージを超えたコンサートを再構想しています

Coachellaは、ライブ音楽の公演がどのように制作され、どのように体験されるかを再構築する新しいAIツールをテストするため、Google DeepMindと提携しました。 概要 Coachellaは、Google DeepMindとともにAIツールをテストし、ライブパフォーマンスをインタラクティブなデジタル環境へと変えることに取り組みました。 3つのプロトタイプが作成されました。

Cryptonews1時間前
コメント
0/400
コメントなし