2026年01月01日

## 要約:
この研究では、1575年から1815年のレーデン大学教授・学芸員の伝記データを含む歴史書をデジタル化し、OCR、LLM、データベース連携を組み合わせた自動化パイプラインを構築しました。OCRの精度を向上させるために生成AIを活用し、94%の精度でデータ連携に成功しました。この研究は、デジタルヒューマンティーズ分野における歴史文書の解釈を自動化する上で貢献します。
---
## 翻訳:
arXiv:2512.23710v1 Announce Type: new
Abstract: この研究は、1983年から1985年に書かれた1575年から1815年のレーデン大学教授・学芸員の伝記データを含む歴史書「Leidse hoogleraren en lectoren」をデジタル化し、分析します。中央の問いは、OCR、LLMベースの解釈、データベース連携を組み合わせた自動化パイプラインをどのように設計して、歴史文書画像のデータと既存の高品質データベース記録を統合できるか、という点です。私たちは、OCR技術、データ抽出を構造化する生成AIデコーディング制約、データベース連携方法を適用して、タイプライターで書かれた歴史記録をデジタル形式に処理しました。OCRは文字誤り率(CER)1.08%、単語誤り率(WER)5.06%を達成し、OCRテキストからのJSON抽出は平均63%の精度、アノテーション付きOCRに基づく場合は65%の精度を達成しました。これは、生成AIが低いOCR性能をある程度補正することを示しています。私たちの記録連携アルゴリズムは、アノテーション付きJSONファイルで94%の精度、OCR由来のJSONファイルで81%の精度で連携しました。この研究は、レイアウトの変動や用語の違いといった課題に対処し、高度な生成AIモデルの適用可能性と有効性を探求しながら、デジタルヒューマンティーズ研究に貢献する、デジタル化された歴史文書を解釈するための自動化パイプラインを提供します。
[📰 原文はこちら](https://arxiv.org/abs/2512.23710)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。