ページ

2026年4月23日木曜日

PolicyBank:LLMエージェント向けの政策理解の進化

#aidexx #news

2026年04月20日




## 要約:
LLMエージェントが組織のポリシーを遵守するために、PolicyBankという新しいメカニズムを提案。これは、既存の不変なポリシー解釈を改善し、テストとフィードバックを通じて政策理解を反復的に改善することで、曖昧さや矛盾を解消する。PolicyBankは、既存手法と比較して、ポリシー違反を分離したテストベッドで大幅な改善を達成した。

---

## 翻訳:
arXiv:2604.15505v1 Announce Type: new
Abstract: LLMエージェントは、組織のポリシーの下で運用し、通常は自然言語で指定される承認制約を遵守する必要があります。実際には、そのような仕様には必然的に曖昧さや論理的、意味的なギャップが含まれており、エージェントの動作が真の要件と系統的に乖離する原因となります。本研究では、エージェントが事前デプロイスメントテストからのインタラクションと修正フィードバックを通じてそのポリシー理解を進化させることで、仕様ギャップを自律的に解消できるかという問いを立てます。我々はPolicyBankを提案します。これは構造化されたツールレベルのポリシーインサイトを維持し、反復的に改善するメモリメカニズムです。既存のメモリメカニズムがポリシーを不変の真実として扱うのとは異なり、PolicyBankは「準拠しているが間違っている」という行動を強化しません。我々はまた、実行失敗からアラインメント失敗を分離するために、制御されたポリシーギャップを拡張した人気のツール呼び出しベンチマークを拡張することで、体系的なテストベッドに貢献します。既存のメモリメカニズムはポリシーギャップシナリオでほぼゼロの成功しか達成できませんが、PolicyBankは人間のオラクルへのギャップを最大82%まで解消します。

[📰 原文はこちら](https://arxiv.org/abs/2604.15505)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

大分裁判所、無人駅問題に関する障害者団体の損害賠償請求を棄却

#aidexx #news 2026年04月24日 ## 要約: 大分地方裁判所は、JR九州が無人駅を運営していることが障害者の移動の自由を侵害するという訴えに対し、棄却の判決を下しました。裁判所は、障害を理由とした不当な差別的扱いは認められないと判断しました。この訴...