ページ

2026年5月26日火曜日

検証可能なTransformerへの道:ソルバー検証可能な回路の説明

#aidexx #news

2026年05月26日




## 要約:
この研究は、Transformerモデル内の回路の説明を例や手動検証に頼るのではなく、形式的な証明可能なものにするためのフレームワーク「Verifiable Transformers」を提案します。回路をSMTソルバーに入力し、機能を検証したり、必要条件や頑健性を確認したりします。難しい演算子には代用モデルを使用し、回路の説明と代用モデルの整合性を検証することで、機械的な解釈可能性の精度向上を目指します。

---

## 翻訳:
arXiv:2605.24033v1で発表された新しいタイプ。
要約:メカニズム解釈可能性は、Transformerモデル内で回路を特定することが多いですが、その回路の説明は通常、例、アブレーション、および手動推論によって検証されます。これにより、妥当な回路を見つけることと、その回路が何をするかを証明することとの間にギャップが生じます。私たちは、タスクに特化したTransformer回路を、境界付きでソルバー検証可能な主張に変換するためのフレームワークである、Verifiable Transformersを紹介します。特定の動作、有限のタスクドメイン、および候補トークンの投影が与えられた場合、タスク回路を抽出し、投影された関数等価性、エッジの必要性、タスク関連の不変性、および最終残差の堅牢性などのプロパティを検証します。直接検証は、抽出された回路自体をSMTソルバーにエンコードします。回路に正確にまたは実行可能にエンコードできない演算子が含まれている場合、代用媒介検証はSMTエンコード可能な代用を適合させ、境界付きドメインで抽出された回路に対して検証を行い、記号的な説明を代用に検証します。Signed L1 BandNorm、sparsemaxアテンション、およびLeakyReLUを使用したGPTスタイルのアーキテクチャで直接検証を実装します。小さなシンボリックなシーケンスタスクでは、SMTで表現可能なTransformerをトレーニングし、引用符の閉じ方やブラケットのタイプ追跡に関するスパースな回路を抽出し、投影された関数等価性、コンテンツの不変性、エッジの必要性、および最終残差の堅牢性を網羅的に検証します。GPT-2スケールでは、同じ演算スタックがOpenWebTextで安定してトレーニングされますが、単純な直接SMT検証は実行不可能であるままです。また、エンコードが難しいアテンションを持つタスクに特化した回路で代用媒介検証を実証し、検証された記号的な説明とソルバーが生成した反例の両方を示します。目標は、フルモデルの検証ではなく、メカニズム回路の説明を証明または反証できる形式的な命題に変えるための具体的な道筋を提供することです。

[📰 原文はこちら](https://arxiv.org/abs/2605.24033)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

業界団体代表、東大研究者への不正献金で有罪判決

#aidexx #news 2026年05月26日 ## 要約: 東京地方裁判所は、日本化粧品協会の代表者である彦地浩一氏に対し、不正な研究資金提供(収賄)で有罪判決を下した。彦地氏は、東大の元教授2名に対し、共同研究名目で賄賂を供与した疑いで起訴されていた。判決は懲...