Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
MIT s’associe à NVIDIA pour développer la technologie TLT : l’efficacité d’entraînement des grands modèles d’IA d’inférence est la plus élevée, avec une accélération allant jusqu’à 210 %.
IT之家, 28 février — MIT News, dans un billet publié le 26 février, indique que le Massachusetts Institute of Technology (MIT), en collaboration avec NVIDIA et d’autres institutions, a mis au point une technologie « dompter la longue traîne » (TLT), capable d’améliorer considérablement l’efficacité de l’entraînement des grands modèles de langage (LLM) en inférence.
IT之家 cite le billet qui explique que les grands modèles d’inférence sont doués pour résoudre des problèmes complexes en décomposant les étapes, mais que, pendant l’entraînement par apprentissage par renforcement (RL), les coûts de calcul et de consommation d’énergie sont extrêmement élevés.
L’équipe de recherche a constaté que l’étape de « rollout » consistant à générer plusieurs réponses candidates occupe jusqu’à 85 % du temps d’entraînement. Comme la longueur des réponses générées par différents processeurs varie, les processeurs capables de terminer plus vite sont contraints d’être mis en veille, en attendant que les autres processeurs terminent des tâches de texte long, ce qui entraîne un grave goulot d’étranglement en termes d’efficacité.
Pour remédier à ce problème, des chercheurs du MIT, en collaboration avec NVIDIA, l’École polytechnique fédérale de Zurich, et d’autres institutions, ont proposé une solution adaptative appelée « dompter la longue traîne » (TLT).
Le cœur de cette solution réside dans l’utilisation innovante de la technique de « décodage spéculatif » : entraîner un plus petit « modèle de brouillon » (drafter) pour prédire rapidement les sorties futures du grand modèle, puis laisser le grand modèle valider ces hypothèses en lots. De cette façon, le grand modèle n’a plus besoin de générer les sorties une par une de manière séquentielle, ce qui accélère fortement le traitement.
Dans le décodage spéculatif traditionnel, le modèle de brouillon est généralement entraîné une seule fois puis maintenu statique. Cependant, en apprentissage par renforcement, le modèle principal doit être mis à jour des milliers de fois ; un modèle de brouillon statique devient rapidement obsolète.
Ainsi, le système TLT introduit un « entraîneur de brouillon adaptatif ». Dès qu’une partie des processeurs a terminé des requêtes courtes et passe en état d’attente, le système les planifie immédiatement pour entraîner le modèle de brouillon en temps réel.
En même temps, le « moteur de rollout adaptatif » ajuste automatiquement la stratégie de décodage en fonction des caractéristiques de la charge de travail, afin de garantir que le modèle de brouillon reste en forte synchronisation avec le grand modèle cible, sans accroître les coûts supplémentaires en calcul.
Des tests menés sur des ensembles de données issus du monde réel montrent que la technologie TLT augmente la vitesse d’entraînement de plusieurs grands modèles de langage d’inférence de 70 % à 210 %, tout en préservant intégralement l’exactitude du modèle, sans aucune perte.
Ce n’est pas tout : le modèle de brouillon léger obtenu peut également servir de sous-produit gratuit, utilisé directement pour un déploiement efficace en aval. À l’avenir, l’équipe de recherche prévoit d’intégrer cette technologie dans davantage de cadres d’entraînement et d’inférence, afin de réduire davantage les coûts de développement de l’IA et d’améliorer l’efficacité énergétique.