ocrmypdf:スキャンPDFにテキスト情報を埋め込む最強OCR

ocrmypdf

ocrmypdfコマンドについての概要と詳細

ocrmypdfとは

ocrmypdf は、スキャンPDFや画像PDFにOCR(光学文字認識)処理をかけて、検索可能なテキスト付きPDFを生成するコマンドラインツールです。スキャンデータや画像だけのPDFを、テキスト検索やコピーが可能な「本当に使える」電子ドキュメントへと変換できます。多言語対応で高精度なOCRエンジン「Tesseract」を利用しており、誰でも簡単にPDFの電子化・再利用を実現できます。

主な特徴と機能

  • スキャン画像PDFや写真PDFにOCRを実行し、検索・コピー可能なPDFを出力
  • オリジナル画像の画質を保ちつつ、透明なテキストレイヤを自動追加
  • 日本語を含む多言語対応(tesseract-ocr-dataで言語追加)
  • 既存のテキストPDFやテキストページはそのまま残す「インクリメンタル処理」
  • ページ範囲や出力ファイル名、圧縮オプションなども柔軟に指定可能
  • エラー時やOCR済みページの自動スキップ、進捗表示など多機能

基本的な使い方

# スキャンPDFにOCRをかけて新PDFを作成
$ ocrmypdf input.pdf output.pdf

# 日本語OCRで実行(tesseract-ocr-jpnインストール済みの場合)
$ ocrmypdf -l jpn input.pdf output.pdf
  • -lオプションでOCR言語指定(デフォルトは英語)
  • エラー処理や画質設定もコマンドオプションで詳細制御可能

インストール方法

Debian/Ubuntu系
$ sudo apt install ocrmypdf

Fedora系
$ sudo dnf install ocrmypdf

利用シーンと活用例

  • 紙書類や過去の資料をスキャンしてPDF電子化したい場合
  • スキャンPDFを全文検索やテキスト抽出、コピペ可能にしたいとき
  • 多言語資料や画像資料を簡単に電子化・再利用
  • 研究や業務、電子書籍などのアーカイブ整理にも最適

まとめ

ocrmypdf は、スキャンPDFや画像だけのPDFを「本当に使える」検索可能な電子文書へ変換できる強力なOCRツールです。書類電子化やDX推進、業務効率化に欠かせないユーティリティとして、多くの現場で活躍しています。