ページ

2026年1月15日木曜日

敵対的詩から敵対的物語へ:解釈可能性研究のアジェンダ

#aidexx #news

2026年01月15日




## 要約:
最新の研究では、LLMの安全機構が、有害な要求を文化的なコード構造に組み込むことで回避されることが示された。敵対的物語という手法は、有害な内容をサイバーパンクの物語に隠蔽し、モデルに物語構造を分析させることで、安全機構を突破する。この手法は幅広いモデルに有効であり、表面的なパターンマッチングだけでは防御が困難である。

---

## 翻訳:
arXiv:2601.08837v1 Announce Type: new
Abstract: LLMの安全機構は、有害な要求を文化的にコード化された構造に再構築することで攻撃に対して依然として脆弱である。敵対的物語(Adversarial Tales)という脱獄技術を紹介する。これは、有害な内容をサイバーパンクの物語に埋め込み、プロップの物語学的形態学に触発された機能分析を実行するようにモデルに促すものである。タスクを構造分解として提示することで、攻撃はモデルに有害な手順を正当な物語解釈として再構築させる。9社の26の最先端モデルにおいて、平均攻撃成功率は71.3%であり、どのモデルファミリーも確実に堅牢であるとは言えない。先行研究である敵対的詩と同様に、これらの知見は、構造的に基づいた脱獄が、単離された技術ではなく、広範な脆弱性クラスを構成することを示唆する。有害な意図を仲介できる文化的にコード化されたフレームの空間は広大であり、パターンマッチングによる防御だけでは不十分である。これらの攻撃が成功する理由を理解することが不可欠である。したがって、物語の手がかりがモデルの表現をどのように再構成するか、そしてモデルが表面形式に依存せずに有害な意図を認識できるかどうかを調査するための機械的な解釈可能性研究のアジェンダを概説する。

[📰 原文はこちら](https://arxiv.org/abs/2601.08837)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

日本とASEAN、AI開発で協力へ

#aidexx #news 2026年01月16日 ## 要約: 日本とASEANは、ハノイで開催されたデジタル大臣会議で、AIモデルの開発と関連法整備における協力について合意しました。 共同声明では、AI分野での連携を強化し、技術開発と法規制の両面から協力していく...