2025年12月24日

## 要約:
本研究では、教育現場の実際の会話データを基に、大規模言語モデル(LLM)が指示的指示を分類する能力を評価した。
ゼロショットでは性能は限定的だったが、few-shotプロンプティング(例の提示)により性能が向上し、専門家のコーディングとのCohen's Kappaは0.58に達した。
しかし、モデルの性能は指示の種類によって異なり、誤検出の増加を伴う場合もあった。
---
## 翻訳:
arXiv:2512.19903v1 Announce Type: new
概要:大規模言語モデル(LLM)は、教材の作成や評価設計の支援、チューターなど、様々なタスクのために教育技術にますます採用されています。モデルを特定のタスクに適合または最適化する研究はありますが、大きなカスタマイズなしに、LLMが実際の教育シナリオを解釈する能力はほとんどわかっていません。LLMベースのシステムが日常的な学術的な文脈で学習者や教育者によって広く採用されるようになるにつれて、そのボックスから出しての能力を理解することが、期待を設定し、ベンチマークするための重要性が高まっています。私たちは、実際の教室の書き起こしにおける指示的指示を分類するという、シンプルでありながら重要なタスクについて、6つのLLMのベースライン性能を見積もりました。我々は、ゼロショット、ワンショット、そしてフューショットプロンプティングという一般的なプロンプティング方法を評価しました。ゼロショットの性能は中程度であったことがわかりましたが、包括的な例(フューショットプロンプティング)を提供することで、最先端のモデルの性能が大幅に向上し、最も強力な構成では、専門家がコーディングした注釈に対してCohen's Kappa = 0.58に達しました。同時に、改善は一様ではなく、完全なものではありませんでした。性能は指示的指示の種類によって大きく異なり、高い再現率は、誤陽性の増加を招くことがよくありました。全体的に、これらの知見は、基盤モデルは指示的談話を解釈する上で意味のあるものの限られた能力を示しており、プロンプトの設計は能力を明らかにするのに役立ちますが、基本的な信頼性の制約を排除するものではないことを示しています。
[📰 原文はこちら](https://arxiv.org/abs/2512.19903)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。