2026年04月20日

## 要約:
LLMエージェントが組織のポリシーを遵守するために、PolicyBankという新しいメカニズムを提案。これは、既存の不変なポリシー解釈を改善し、テストとフィードバックを通じて政策理解を反復的に改善することで、曖昧さや矛盾を解消する。PolicyBankは、既存手法と比較して、ポリシー違反を分離したテストベッドで大幅な改善を達成した。
---
## 翻訳:
arXiv:2604.15505v1 Announce Type: new
Abstract: LLMエージェントは、組織のポリシーの下で運用し、通常は自然言語で指定される承認制約を遵守する必要があります。実際には、そのような仕様には必然的に曖昧さや論理的、意味的なギャップが含まれており、エージェントの動作が真の要件と系統的に乖離する原因となります。本研究では、エージェントが事前デプロイスメントテストからのインタラクションと修正フィードバックを通じてそのポリシー理解を進化させることで、仕様ギャップを自律的に解消できるかという問いを立てます。我々はPolicyBankを提案します。これは構造化されたツールレベルのポリシーインサイトを維持し、反復的に改善するメモリメカニズムです。既存のメモリメカニズムがポリシーを不変の真実として扱うのとは異なり、PolicyBankは「準拠しているが間違っている」という行動を強化しません。我々はまた、実行失敗からアラインメント失敗を分離するために、制御されたポリシーギャップを拡張した人気のツール呼び出しベンチマークを拡張することで、体系的なテストベッドに貢献します。既存のメモリメカニズムはポリシーギャップシナリオでほぼゼロの成功しか達成できませんが、PolicyBankは人間のオラクルへのギャップを最大82%まで解消します。
[📰 原文はこちら](https://arxiv.org/abs/2604.15505)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。