pdfimages:PDF内の画像だけを一括抽出

pdfimages

pdfimagesコマンドについての概要と詳細

pdfimagesとは

pdfimages は、PDFファイル内に埋め込まれている画像を抽出し、個別の画像ファイルとして保存するためのコマンドラインツールです。PDFのページやテキストに関係なく、オリジナル画質で画像のみを取り出すことができます。poppler-utilsパッケージに含まれており、JPEG・PPM・PBM・PNG形式で出力が可能です。

主な特徴と機能

  • PDF内に含まれるすべての画像(写真・図表・イラストなど)を抽出
  • 画質劣化なしのオリジナル画質で保存(圧縮画像はそのまま抽出)
  • JPEG・PPM・PBM・PNG形式で出力可能(PNGはオプション指定)
  • 抽出画像は自動連番で保存(img-0001.jpgなど)
  • ページ範囲や画像タイプでフィルタも可能
  • スクリプトやバッチ処理にも最適

基本的な使い方

# すべての画像を抽出してimg-0001.jpgなどで保存
$ pdfimages -j input.pdf img

# 3~5ページ目だけPNG画像として抽出
$ pdfimages -f 3 -l 5 -png input.pdf img
  • -j:JPEG抽出、-png:PNG形式で保存、-f/-l:ページ範囲指定

インストール方法

Debian/Ubuntu系
$ sudo apt install poppler-utils

Fedora系
$ sudo dnf install poppler-utils

利用シーンと活用例

  • 論文や資料PDFから図表・写真だけを高画質で抜き出したい場合
  • 電子書籍やカタログからイラストやデザインパーツを再利用
  • PDF内の画像データベース化や画像処理ソフトへの活用
  • OCR用データや画像比較などの自動処理にも活用可能

まとめ

pdfimages は、PDFに含まれるすべての画像データを手軽かつ高画質で抽出できる強力なCLIツールです。画像を多用した資料の再利用やデータ化、解析・編集作業を効率化したい場合に特におすすめです。