pdftotext：PDFからテキストを一瞬で抽出

2025年12月12日 2025年12月12日

KoAN

pdftotextコマンドについての概要と詳細

pdftotextとは

pdftotext は、PDFファイルからテキストデータを抽出し、プレーンテキストファイルとして保存するコマンドラインツールです。PDF内の文字情報を素早く取り出し、検索やデータ解析、再利用ができるため、研究・ビジネス・自動処理など幅広い用途に活用されています。poppler-utilsパッケージに含まれています。

主な特徴と機能

PDFの全ページまたは指定ページからテキストを抽出可能
レイアウト維持や行単位での抽出、文字コード指定（UTF-8など）も柔軟に対応
バッチ処理やスクリプトからの一括利用に便利
OCR済みPDFなら画像化された文字もテキスト化できる
コマンド一発で簡単にプレーンテキスト化できるシンプル設計

基本的な使い方

# PDF全体をテキストファイルに変換
$ pdftotext input.pdf output.txt

# PDFの3～5ページ目だけ抽出
$ pdftotext -f 3 -l 5 input.pdf part.txt

-layoutオプションでレイアウト維持した抽出も可能
出力ファイルを省略すると標準出力に表示

インストール方法

Debian/Ubuntu系
$ sudo apt install poppler-utils

Fedora系
$ sudo dnf install poppler-utils

利用シーンと活用例

論文やレポート、契約書PDFからテキストだけ抽出して再利用
データベースへの取り込みや検索用インデックス作成
大量のPDFの内容チェックや自動レポート作成
OCR済みスキャンPDFのテキスト化や校正作業

まとめ

pdftotext は、PDF内の文字情報を手軽かつ高速に抽出できる便利なCLIツールです。研究・教育・業務・システム開発など、あらゆる現場で活用できる必須ユーティリティと言えるでしょう。poppler-utilsパッケージで導入できるため、ぜひ活用してみてください。

カテゴリー: Linux、インフラ

タグ: linux PDF pdfからテキスト抽出コマンド

pdftotext：PDFからテキストを一瞬で抽出

pdftotextコマンドについての概要と詳細

pdftotextとは

主な特徴と機能

基本的な使い方

インストール方法

利用シーンと活用例

まとめ

pdftoppm：PDFを高画質画像に一括変換

pdftohtml：PDFをそのままHTML化

pdftotextコマンドについての概要と詳細

pdftotextとは

主な特徴と機能

基本的な使い方

インストール方法

利用シーンと活用例

まとめ

関連記事:

pdftoppm：PDFを高画質画像に一括変換

pdftohtml：PDFをそのままHTML化