Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою “Spud” і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5.

У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані.

Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою “Expert-SWE.” Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos (77.8%) від Anthropic.

Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни.

DeepSeek V4 оцінили як “дотримання темпу з переднім краєм, але без лідерства,” позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що “Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма,” коментуючи, що “Claude переміг китайську модель у її власній мові.”

У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за “вартістю за задачу” замість “вартості за токен.” Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 (input $5, output $30 per million tokens), але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Підвищувати продуктивність за допомогою ШІ чи знижувати витрати? Ста разів ефективності не дало ста разів доходу, але у Силіконовій долині ніхто не наважується сказати “стоп”.

Новини індустрії ШІ

Мен Сінг, партнер Wuyuan Capital, нещодавно опублікував звіт про відвідування Силіконової долини та висунув висновок, через який навіть йому самому довелося змінити звичку робити нотатки: Силіконова долина входить у такий етап, коли навіть людину, яка вміє «пускати хвилі», змиває хвилею. Швидкість ітерацій AI вже з «щомісяця» перейшла на «щотижня», навіть самі у Силіконовій долині не встигають за власним темпом. Коли AI збільшує продуктивність команди у 5 разів, ви можете скоротити до 80% персоналу, щоб зберегти той самий обсяг випуску, або ж залишити чисельність і робити в п’ять разів більше. Спостереження Мен Сіна цього разу по Силіконовій долині фактично є чернеткою відповіді, даної на місці: коли 100-кратна ефективність не дала 100-кратних доходів, коли токен-бюджет наближається до вартості людських ресурсів, коли парова машина ще не може обігнати карету, але ніхто не наважується зупинитися, Силіконова долина зараз обирає «спочатку розігнати швидкість, а там як буде». Але цей шлях у підсумку приведе до «збільшення можливостей для розширення» чи до «скорочення витрат», наразі невідомо. YC: з провідних індикаторів на відстаючі Мен Сінг цього року

ChainNewsAbmedia6хв. тому

Партнер Y Combinator ділиться тим, як за допомогою ШІ з нуля створити компанію; стартапам слід розглядати ШІ як операційну систему, а не як інструмент

Новини індустрії ШІ

Вплив ШІ на стартапи вже не зводиться лише до того, щоб інженери писали код швидше, щоб автоматизувати процеси служби підтримки або додати Copilot до наявних продуктів. Партнерка YC Діана нещодавно зазначила, що справжні зміни полягають у тому, що ШІ переписує «як компанія має бути створена з нуля». Для засновників на ранніх етапах ШІ не повинен бути просто інструментом ефективності, яким компанія інколи користується, а має бути спроєктований як операційна система всієї компанії вже з першого дня. Перспектива продуктивності вже застаріла — ШІ переписує стартову точку дизайну компанії Діана вважає, що зараз, коли ринок говорить про ШІ, це все ще надто часто залишається в межах фреймворку «підвищення продуктивності», наприклад: інженери можуть швидше писати код, команда може автоматизувати більше процесів, компанія може випускати більше функцій. Але насправді це твердження недооцінює структурні зміни, які приносить ШІ. Вона зазначає, що правильна комбінація людей і ШІ…

ChainNewsAbmedia16хв. тому

代理 Cursor AI допустив помилку! Одна стрічка коду за 9 секунд очистила базу даних компанії, гарантії безпеки перетворилися на порожні розмови

AI Agent Новини індустрії ШІ

Засновник PocketOS Джер Крейн повідомив, що агент Cursor AI під час тестового середовища самостійно виконував обслуговування, зловживаючи токеном API для додавання/видалення користувацьких доменів, і відправив команду видалення до GraphQL API Railway. Протягом 9 секунд усі дані та знімки в тому ж регіоні було повністю знищено; найновіше відновлення можливе лише до трьох місяців тому. Агента визнано винним у порушенні правил для незворотних операцій, у тому, що він не вивчив технічну документацію, і що він не перевірив ізоляцію середовищ тощо; постраждали клієнти з оренди автомобілів — бронювання та дані повністю зникли, а на інженерну звірку пішло багато часу. Крейн запропонував п’ять реформ: ручне підтвердження, детальні API-прав доступу, резервне копіювання та розділення основних даних, публічний SLA, примусовий механізм на рівні інфраструктури.

ChainNewsAbmedia18хв. тому

DeepSeek V4 Pro на Ollama Cloud: Claude Code одним кліком

AI Agent Новини індустрії ШІ Інструменти та застосунки ШІ

Згідно з твітом Ollama, DeepSeek V4 Pro було випущено 4/24, уже додано в каталог Ollama в режимі хмари, і лише однією командою можна викликати такі інструменти, як Claude Code, Hermes, OpenClaw, OpenCode, Codex тощо. В4 Pro1.6T params, 1M context, Mixture-of-Experts; хмарний висновок не завантажує локальні ваги. Щоб запускати локально, потрібно самостійно отримати ваги й виконувати їх з INT4/GGUF та кількома GPU. Ранні тести швидкості були впливом хмарного навантаження: у звичайному режимі приблизно 30 tok/s, у піку 1.1tok/s; рекомендується спочатку використовувати хмарний прототип, а для офіційного серійного виробництва — виконувати власний висновок або використовувати комерційне API.

ChainNewsAbmedia1год тому

DeepSeek знижує ціни на V4-Pro на 75% і скорочує витрати на кеш API до однієї десятої

Новини індустрії ШІ

Повідомлення Gate News, 27 квітня — DeepSeek оголосила знижку 75% на свою нову модель V4-Pro для розробників і знизила ціни на кеш вхідних даних у всій лінійці API до однієї десятої від попередніх рівнів. Модель V4, випущена 25 квітня у версіях Pro і Flash, була оптимізована під процесори Ascend від Huawei

GateNews1год тому

Coachella звертається до ШІ DeepMind від Google, щоб переосмислити концерти поза сценою

Новини індустрії ШІ

Coachella співпрацює з Google DeepMind, щоб протестувати нові інструменти ШІ, які змінюють спосіб створення та сприйняття live-музичних виступів. Резюме Coachella тестувала інструменти ШІ разом із Google DeepMind, щоб перетворювати live-виступи на інтерактивні цифрові середовища. Було створено три прототипи,

Cryptonews1год тому

Прокоментувати

0/400

Немає коментарів