MIT s’associe à NVIDIA pour développer la technologie TLT : l’efficacité d’entraînement des grands modèles d’IA d’inférence est la plus élevée, avec une accélération allant jusqu’à 210 %.

robot
Création du résumé en cours

IT之家, 28 février — MIT News, dans un billet publié le 26 février, indique que le Massachusetts Institute of Technology (MIT), en collaboration avec NVIDIA et d’autres institutions, a mis au point une technologie « dompter la longue traîne » (TLT), capable d’améliorer considérablement l’efficacité de l’entraînement des grands modèles de langage (LLM) en inférence.

IT之家 cite le billet qui explique que les grands modèles d’inférence sont doués pour résoudre des problèmes complexes en décomposant les étapes, mais que, pendant l’entraînement par apprentissage par renforcement (RL), les coûts de calcul et de consommation d’énergie sont extrêmement élevés.

L’équipe de recherche a constaté que l’étape de « rollout » consistant à générer plusieurs réponses candidates occupe jusqu’à 85 % du temps d’entraînement. Comme la longueur des réponses générées par différents processeurs varie, les processeurs capables de terminer plus vite sont contraints d’être mis en veille, en attendant que les autres processeurs terminent des tâches de texte long, ce qui entraîne un grave goulot d’étranglement en termes d’efficacité.

Pour remédier à ce problème, des chercheurs du MIT, en collaboration avec NVIDIA, l’École polytechnique fédérale de Zurich, et d’autres institutions, ont proposé une solution adaptative appelée « dompter la longue traîne » (TLT).

Le cœur de cette solution réside dans l’utilisation innovante de la technique de « décodage spéculatif » : entraîner un plus petit « modèle de brouillon » (drafter) pour prédire rapidement les sorties futures du grand modèle, puis laisser le grand modèle valider ces hypothèses en lots. De cette façon, le grand modèle n’a plus besoin de générer les sorties une par une de manière séquentielle, ce qui accélère fortement le traitement.

Dans le décodage spéculatif traditionnel, le modèle de brouillon est généralement entraîné une seule fois puis maintenu statique. Cependant, en apprentissage par renforcement, le modèle principal doit être mis à jour des milliers de fois ; un modèle de brouillon statique devient rapidement obsolète.

Ainsi, le système TLT introduit un « entraîneur de brouillon adaptatif ». Dès qu’une partie des processeurs a terminé des requêtes courtes et passe en état d’attente, le système les planifie immédiatement pour entraîner le modèle de brouillon en temps réel.

En même temps, le « moteur de rollout adaptatif » ajuste automatiquement la stratégie de décodage en fonction des caractéristiques de la charge de travail, afin de garantir que le modèle de brouillon reste en forte synchronisation avec le grand modèle cible, sans accroître les coûts supplémentaires en calcul.

Des tests menés sur des ensembles de données issus du monde réel montrent que la technologie TLT augmente la vitesse d’entraînement de plusieurs grands modèles de langage d’inférence de 70 % à 210 %, tout en préservant intégralement l’exactitude du modèle, sans aucune perte.

Ce n’est pas tout : le modèle de brouillon léger obtenu peut également servir de sous-produit gratuit, utilisé directement pour un déploiement efficace en aval. À l’avenir, l’équipe de recherche prévoit d’intégrer cette technologie dans davantage de cadres d’entraînement et d’inférence, afin de réduire davantage les coûts de développement de l’IA et d’améliorer l’efficacité énergétique.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler