GLM-5.1 atteint la première place du classement des codes sur LMArena, code open source #1, troisième au monde

Nouvelles de Gate News, le 10 avril, aujourd’hui la plateforme d’évaluation d’IA de référence à l’échelle mondiale LMArena (plateforme d’évaluation de modèles d’IA basée sur des tests à l’aveugle, avec des millions d’utilisateurs participants) met à jour le classement spécialisé Code Arena : GLM-5.1 prend la première place mondiale des modèles open source et se classe troisième au niveau mondial des modèles.

GLM-5.1 reprend non seulement la capacité de codage open source SOTA de la génération précédente, mais réalise aussi une percée sur les tâches à long terme (Long-Horizon Task), en atteignant : construire un bureau Linux depuis zéro en 8 heures ; 655 itérations pour briser le goulot d’étranglement de l’optimisation des bases de données vectorielles ; et 1000 tours d’appels d’outils pour optimiser la charge de modèles d’apprentissage automatique réels.

À noter : dans les mêmes critères d’évaluation du tableau METR, GLM-5.1 est le seul modèle open source à atteindre un niveau de travail continu de 8 heures, et c’est aussi l’un des rares modèles dans le monde, en dehors de Claude Opus 4.6, à posséder cette capacité.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

NEA examine l’utilisation de l’intelligence artificielle dans la réglementation nucléaire

Le groupe de travail de l’OCDE sur les nouvelles technologies a tenu un atelier les 25 et 26 mars, portant sur la manière dont l’intelligence artificielle peut être appliquée à la supervision réglementaire et aux opérations internes au sein des autorités nucléaires. Résumé L’atelier de l’OCDE a examiné des applications réelles de l’IA dans la réglementation nucléaire, avec

CryptonewsIl y a 2h

La Chine mettra à l’épreuve 300+ robots humanoïdes lors du semi-marathon de Pékin le 19 avril

Le deuxième semi-marathon de robots à Pékin met en compétition plus de 300 robots humanoïdes issus de 70 équipes sur un parcours de 21 km. Les avancées en matière de déplacement autonome sont mises en avant, avec 40 % des robots fonctionnant sans contrôle. La Chine domine le marché des robots humanoïdes, malgré des difficultés de production.

GateNewsIl y a 4h

Les États-Unis cherchent à augmenter leurs importations d’uranium namibien pour alimenter des centrales nucléaires propulsées par l’IA

Les États-Unis envisagent d’augmenter leurs importations d’uranium en provenance de Namibie afin de soutenir l’énergie nucléaire pour des centres de données liés à l’IA, alors que la Chine domine le secteur de l’uranium de la Namibie. La hausse des prix de l’uranium relance l’intérêt minier, malgré les difficultés d’approvisionnement en eau dans la région aride.

GateNewsIl y a 5h

OpenAI Executives Bill Peebles and Kevin Weil Depart in Leadership Reshuffle

OpenAI executives Bill Peebles and Kevin Weil announced their exits, part of a series of leadership changes as the company decentralizes its operations. Their departures follow several other high-profile exits and a shift in company structure.

GateNewsIl y a 6h

Zoom s’associe à World pour ajouter une détection des deepfakes via la reconnaissance faciale

Zoom s’est associé à la société World de Sam Altman pour lancer une fonctionnalité qui détecte les participants réels plutôt que des deepfakes d’IA lors des appels vidéo. L’objectif est de lutter contre la fraude par deepfake, en hausse, avec des options de vérification pour les hôtes et les participants.

GateNewsIl y a 6h

Des rapports de bogues générés par l’IA submergent l’équipe de maintenance de cURL

Les rapports de bogues générés par l’IA submergent le projet cURL, avec une hausse marquée des soumissions entraînant une tension sur les ressources. Les mainteneurs réagissent en limitant l’accès aux modèles d’IA et en suspendant les programmes de récompense des vulnérabilités afin de gérer l’afflux.

GateNewsIl y a 7h
Commentaire
0/400
Aucun commentaire