pdfimages:PDF内の画像だけを一括抽出

目次
pdfimagesコマンドについての概要と詳細
pdfimagesとは
pdfimages は、PDFファイル内に埋め込まれている画像を抽出し、個別の画像ファイルとして保存するためのコマンドラインツールです。PDFのページやテキストに関係なく、オリジナル画質で画像のみを取り出すことができます。poppler-utilsパッケージに含まれており、JPEG・PPM・PBM・PNG形式で出力が可能です。
主な特徴と機能
- PDF内に含まれるすべての画像(写真・図表・イラストなど)を抽出
- 画質劣化なしのオリジナル画質で保存(圧縮画像はそのまま抽出)
- JPEG・PPM・PBM・PNG形式で出力可能(PNGはオプション指定)
- 抽出画像は自動連番で保存(img-0001.jpgなど)
- ページ範囲や画像タイプでフィルタも可能
- スクリプトやバッチ処理にも最適
基本的な使い方
# すべての画像を抽出してimg-0001.jpgなどで保存
$ pdfimages -j input.pdf img
# 3~5ページ目だけPNG画像として抽出
$ pdfimages -f 3 -l 5 -png input.pdf img- -j:JPEG抽出、-png:PNG形式で保存、-f/-l:ページ範囲指定
インストール方法
Debian/Ubuntu系
$ sudo apt install poppler-utils
Fedora系
$ sudo dnf install poppler-utils利用シーンと活用例
- 論文や資料PDFから図表・写真だけを高画質で抜き出したい場合
- 電子書籍やカタログからイラストやデザインパーツを再利用
- PDF内の画像データベース化や画像処理ソフトへの活用
- OCR用データや画像比較などの自動処理にも活用可能
まとめ
pdfimages は、PDFに含まれるすべての画像データを手軽かつ高画質で抽出できる強力なCLIツールです。画像を多用した資料の再利用やデータ化、解析・編集作業を効率化したい場合に特におすすめです。





