ocrmypdf：スキャンPDFにテキスト情報を埋め込む最強OCR

2025年12月20日 2025年12月20日

KoAN

ocrmypdfコマンドについての概要と詳細

ocrmypdfとは

ocrmypdf は、スキャンPDFや画像PDFにOCR（光学文字認識）処理をかけて、検索可能なテキスト付きPDFを生成するコマンドラインツールです。スキャンデータや画像だけのPDFを、テキスト検索やコピーが可能な「本当に使える」電子ドキュメントへと変換できます。多言語対応で高精度なOCRエンジン「Tesseract」を利用しており、誰でも簡単にPDFの電子化・再利用を実現できます。

主な特徴と機能

スキャン画像PDFや写真PDFにOCRを実行し、検索・コピー可能なPDFを出力
オリジナル画像の画質を保ちつつ、透明なテキストレイヤを自動追加
日本語を含む多言語対応（tesseract-ocr-dataで言語追加）
既存のテキストPDFやテキストページはそのまま残す「インクリメンタル処理」
ページ範囲や出力ファイル名、圧縮オプションなども柔軟に指定可能
エラー時やOCR済みページの自動スキップ、進捗表示など多機能

基本的な使い方

# スキャンPDFにOCRをかけて新PDFを作成
$ ocrmypdf input.pdf output.pdf

# 日本語OCRで実行（tesseract-ocr-jpnインストール済みの場合）
$ ocrmypdf -l jpn input.pdf output.pdf

-lオプションでOCR言語指定（デフォルトは英語）
エラー処理や画質設定もコマンドオプションで詳細制御可能

インストール方法

Debian/Ubuntu系
$ sudo apt install ocrmypdf

Fedora系
$ sudo dnf install ocrmypdf

利用シーンと活用例

紙書類や過去の資料をスキャンしてPDF電子化したい場合
スキャンPDFを全文検索やテキスト抽出、コピペ可能にしたいとき
多言語資料や画像資料を簡単に電子化・再利用
研究や業務、電子書籍などのアーカイブ整理にも最適

まとめ

ocrmypdf は、スキャンPDFや画像だけのPDFを「本当に使える」検索可能な電子文書へ変換できる強力なOCRツールです。書類電子化やDX推進、業務効率化に欠かせないユーティリティとして、多くの現場で活躍しています。

カテゴリー: Linux、インフラ

タグ: linux ocr ocrmypdf pdfスキャンコマンド

ocrmypdf：スキャンPDFにテキスト情報を埋め込む最強OCR

ocrmypdfコマンドについての概要と詳細

ocrmypdfとは

主な特徴と機能

基本的な使い方

インストール方法

利用シーンと活用例

まとめ

mutool extract：埋め込みファイルも抜き出す万能抽出ツール

CachyOS：高性能・高速志向のLinuxディストリビューション

ocrmypdfコマンドについての概要と詳細

ocrmypdfとは

主な特徴と機能

基本的な使い方

インストール方法

利用シーンと活用例

まとめ

関連記事:

mutool extract：埋め込みファイルも抜き出す万能抽出ツール

CachyOS：高性能・高速志向のLinuxディストリビューション