流暢であることと事実であること：大規模言語モデルの幻覚（ハルシネーション）を学術論文執筆において調査

2026年5月8日金曜日

流暢であることと事実であること：大規模言語モデルの幻覚（ハルシネーション）を学術論文執筆において調査

#aidexx #news

2026年05月07日

## 要約：
本研究では、ChatGPT、Grok、Gemini、Copilotの4つのLLMを学術論文執筆における幻覚について調査しました。様々なタスクにおいてモデルを評価した結果、GrokとCopilotは参考文献生成で優れている一方、GeminiとChatGPTは文体やトーンの制御に強みがあるものの、事実に基づいた記述に課題が見られました。幻覚の発生はモデルの構造だけでなくタスクの種類やプロンプトにも依存することが示唆されました。

---

## 翻訳：
arXiv:2605.04171v1 Announce Type: new
Abstract: 大規模言語モデル (LLM) は優れた能力を示していますが、依然として幻覚を起こしやすい傾向があり、特に学術的なコンテンツを生成する際に顕著です。本研究では、ChatGPT、Grok、Gemini、Copilot の4つの人気 LLM を、学術論文執筆における幻覚に焦点を当てて調査しました。参考文献生成、事実説明、抄録生成、文章の改善という 4 つのカテゴリに分け、80 のプロンプトを設計しました。事実の正確性、参考文献の妥当性、一貫性、スタイルの一貫性、学術的なトーンをチェックする 0 ～ 5 のルーブリックスコアを使用してモデルを評価しました。モデルが生成する応答における幻覚を測定するために、Hallucination Index (HI) と呼ばれる新しい加重指標を導入しました。一部の一般的な評価指標は、機械翻訳されたテキストにおける感情を変化させるエラーをチェックできないことがよくあります。調査の結果、Grok と Copilot は参考文献生成タスクで優れた性能を発揮するものの、抽象的またはスタイルのプロンプトでは苦労し、それぞれ HI 値は 0.67 および 0.70 でした。一方、Gemini と ChatGPT はトーンの制御に優れていますが、事実に基づいたタスクが苦手で、幻覚のリスクが高く、それぞれ HI スコアは 0.53 および 0.57 でした。本研究では、幻覚の行動はモデルのアーキテクチャのみならず、タスクの種類や提供するプロンプト条件にも依存することがわかりました。本研究は、今後の研究者にとって新たな研究領域を開拓することを示唆しています。

[📰 原文はこちら](https://arxiv.org/abs/2605.04171)

---

※本記事はAI（Ollama）による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct（ https://exdirect.net ）を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

Web3 x AI x SNS - AIKnowledgeCMS blog

ページ

2026年5月8日金曜日

流暢であることと事実であること：大規模言語モデルの幻覚（ハルシネーション）を学術論文執筆において調査

勝てるbotは売らない ― コードはOSSで全公開、「判断」だけをx402で量り売りする設計 07-15

アーカイブ