ゲートニュース 4月27日 — Google DeepMindのシニア・プロダクトマネージャーであり、Google AI Studioのプロダクトリードでもあるローガン・キルパトリックは、Xで、AIベースのプロダクトを構築するすべての企業は、AIモデルの性能を測るために自社のカスタムベンチマークを確立すべきだと述べた。彼はこれを、モデルの改善が「自社に不釣り合いなほど大きな利益をもたらす」ための方法だと説明し、創業者やビジネスリーダーに「明日から始めるよう」促した。
ほとんどの企業は現在、公的なリーダーボードに依存してAIモデルを選んでいるが、それらは一般的な能力を測るものであり、多くの場合、特定のビジネスシナリオと噛み合っていない。キルパトリックは例として、契約書レビュー会社を挙げた。同社が最も重視しているのは条項抽出の正確性だが、その能力は公的ベンチマークに存在しないため、そのタスクにおけるモデル性能を評価できない。カスタムベンチマークには2つの重要な利点がある。第一に、企業は自社のビジネス課題に対して各モデル更新を評価し、全体で最上位のモデルではなく、実際の利用ケースで最も良い性能を発揮するモデルを選べるようになること。第二に、企業はこれらのテストセットをモデル提供者と共有でき、ビジネスにとって重要な領域での継続的な最適化につながることだ。
キルパトリックは、ZapierやSierraのような企業がすでにこのアプローチを実装しているとし、「ここで生み出せるアルファはかなりある」と述べた。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
IEA:AIインフラ投資はすでに石油・ガス生産投資を上回っており、2026年にはさらに75%増加する見込み
国際エネルギー機関(IEA)が4月26日に公表した分析と市場データによると、2025年の上位5社のテクノロジー企業の合計設備投資額(キャピタル・エクスペンディチャー)は4,000億ドルを超え、主にAI基盤インフラの整備に投じられており、その規模は世界の石油・天然ガス生産における年間投資規模をすでに上回っています。IEAは、2026年の関連する設備投資はさらに75%増加する可能性があると見積もっています。
MarketWhisper32分前
上院議員バーニー・サンダース、AIの存在的脅威に警告
サンダースは、多くのAI科学者がAIが制御から逃れて私たちの存在に危険をもたらす可能性を認めているとしても、それを回避するための主要な措置は何も取られていないと強調した。「私たちは、AIが人類に利益をもたらし、私たちを傷つけないことを確実にしなければならない」と彼は述べた。
要点:
ベルニ―・サンダース
Coinpedia42分前
小米の大規模モデル責任者:AI競争はエージェント時代へ移行、自己進化はAGIの重要な出来事
テンセント大規模モデルチームの責任者である羅福莉は、4月24日にビリビリプラットフォームでディープインタビュー(動画番号:BV1iVoVBgERD)を受けた。インタビューの所要時間は3.5時間であり、彼女にとって技術責任者として初めて、技術的な見解を体系的に公に述べるものだった。羅福莉は、大規模モデルの競争はChatの時代からAgentの時代へ移行しており、さらに「自己進化」が今後1年のAGIにとっての重要な出来事になると指摘した。
MarketWhisper42分前
xAI Grok Voice が Starlink カスタマーサポートのホットラインを引き継ぎ、70% の着信が自動で手続き完了
xAI は 4 月 23 日に公式発表を行い、xAI が Grok Voice Think Fast 1.0 音声 AI エージェントを提供し、Starlink のカスタマーサポートホットライン +1 (888) GO STARLINK に展開済みである。発表で明らかにされた実測データによると、70% の着信は AI によって自動的に処理され、人間の介入は不要。
MarketWhisper54分前
GPT-5.5がコーディングの最前線に復帰、しかしOpenAIはOpus 4.7に敗れた後でベンチマークを切り替え
ゲートニュース 4月27日 — 半導体およびAI分析企業のSemiAnalysisは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を含むコーディングアシスタントの比較ベンチマークを公開した。主要な発見:GPT-5.5は、コーディングモデルにおいて、OpenAIが6か月ぶりに最先端へ戻ったことを示す。S
GateNews58分前