Les chercheurs ont proposé une méthode d'ingénierie de caractéristiques, en intervenant sur le comportement du modèle via des vecteurs de contrôle.

robot
Création du résumé en cours

Actualités ME, informations du 4 avril (UTC+8). Récemment, une méthode de recherche intitulée « ingénierie de la représentation » a été proposée, visant à offrir aux modèles d’IA un moyen de transparence et de contrôle de haut en bas. Le cœur de cette méthode consiste à calculer un « vecteur de contrôle » que l’on peut lire pendant l’inférence du modèle, ou ajouter aux valeurs d’activation du modèle, afin d’expliquer ou de contrôler le comportement du modèle. L’ensemble du processus ne nécessite aucune dépendance à l’ingénierie des prompts ou au fine-tuning du modèle. Les chercheurs ont exploré l’application du vecteur de contrôle à la simulation de caractéristiques telles que « état psychédélique », « paresse » et « diligence », et ont publié la boîte à outils PyPI correspondante.

Le vecteur de contrôle est un ensemble de vecteurs (un par couche) qui modifient directement sa sortie en s’appliquant aux états cachés du modèle. Par exemple, après application d’un vecteur « joyeux » au modèle Mistral-7B-Instruct, la réponse à la question « À quoi ressemble l’IA ? » passe de « Je ne ressens rien ou je n’ai aucune expérience » dans la version de base à une réponse enthousiaste. L’article estime que, par rapport à l’ingénierie des prompts, les vecteurs de contrôle offrent un moyen d’intervention du comportement plus direct et plus en profondeur, pouvant être utilisés pour contrer les attaques de jailbreaking ou renforcer la capacité du modèle à résister aux interférences. Cependant, les mécanismes internes restent encore incomplètement compris : par exemple, il reste à déterminer si les vecteurs correspondent à un seul concept sémantique, etc. Il s’agit d’une direction de recherche pour l’avenir. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler