
## 要約:
PErshianでの感情分類において、LLMは自己説明が人間の判断と一致せず、信頼性に問題があることを示した。
---
## 翻訳:
大規模言語モデル(LLM)は予測と共に自説明を生成することも増加していますが、この実践は低リソース言語におけるこれらの説明の正確性に関する懸念を引き起こします。本研究では、PErshianという低リソース言語において感情分類でのLLM生成説明の信頼性を評価するために、モデルによって識別された影響力のある単語と人間アノテーターによって識別されたものとの比較を行い、トークンレベルのlog-確率から導き出される自信度スコアを使用して信頼性を評価しました。説明と予測の順序が異なる2つのプロンプト戦略(予測先行説明と説明先行予測)は、説明の信頼性に及ぼす影響をテストしました。結果は、LLMは強い分類性能を得ることができたものの、生成された説明が人間の判断とは一致せず、他のLLM同士よりも人間の判断とより一致していることを示しています。これらの結果は、現在の説明方法や評価指標の限界を強調し、多言語および低リソースコンテキストにおけるLLMの信頼性確保に向けたより堅牢なアプローチが求められていることを明らかにしました。
[📰 原文はこちら](https://arxiv.org/abs/2511.19719)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。