ME News のメッセージ、4 月 4 日(UTC+8)。近日、「表現エンジニアリング」という研究手法が提案され、AIモデルに対してトップダウンの透明性と制御を提供することを目的としている。方法の中核は、「制御ベクトル」を計算することであり、モデル推論時に読み取ったり、モデルの活性値に追加したりして、モデルの振る舞いを説明または制御するために用いられる。プロセス全体は、プロンプトエンジニアリングやモデルの微調整に依存しない。研究者は、制御ベクトルが「サイケデリック状態」「怠惰」「勤勉」などの特性を模擬する用途でどのように使えるかを探り、関連する PyPI ツールキットを公開した。制御ベクトルは一連のベクトル(各層に 1 つ)で、モデルの隠れ状態に適用することで、その出力を直接変化させる。たとえば、Mistral-7B-Instruct モデルに「ハッピー」なベクトルを適用すると、「AI とはどんな感じ?(What does it feel like to be an AI?)」という問いへの回答は、ベースライン版の「私は感じたり体験したりできません」から、興奮した応答へと変わる。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的でよりボトムレベルの振る舞い介入手段を提供し、脱獄攻撃への対抗や、モデルの妨害への耐性を強化する用途に使えるとされる。ただし、その内部の仕組みはまだ完全には明らかではない。たとえば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究課題である。(出所:InFoQ)
研究者は表現工学の手法を提案し、制御ベクトルを介してモデルの挙動を操作します
ME News のメッセージ、4 月 4 日(UTC+8)。近日、「表現エンジニアリング」という研究手法が提案され、AIモデルに対してトップダウンの透明性と制御を提供することを目的としている。方法の中核は、「制御ベクトル」を計算することであり、モデル推論時に読み取ったり、モデルの活性値に追加したりして、モデルの振る舞いを説明または制御するために用いられる。プロセス全体は、プロンプトエンジニアリングやモデルの微調整に依存しない。研究者は、制御ベクトルが「サイケデリック状態」「怠惰」「勤勉」などの特性を模擬する用途でどのように使えるかを探り、関連する PyPI ツールキットを公開した。制御ベクトルは一連のベクトル(各層に 1 つ)で、モデルの隠れ状態に適用することで、その出力を直接変化させる。たとえば、Mistral-7B-Instruct モデルに「ハッピー」なベクトルを適用すると、「AI とはどんな感じ?(What does it feel like to be an AI?)」という問いへの回答は、ベースライン版の「私は感じたり体験したりできません」から、興奮した応答へと変わる。本文の見解では、プロンプトエンジニアリングと比べて、制御ベクトルはより直接的でよりボトムレベルの振る舞い介入手段を提供し、脱獄攻撃への対抗や、モデルの妨害への耐性を強化する用途に使えるとされる。ただし、その内部の仕組みはまだ完全には明らかではない。たとえば、ベクトルが単一の意味概念に対応しているのかどうか等は、今後の研究課題である。(出所:InFoQ)