TOP > Poppler ツール > *
機能
PDFの各ページを画像も含めてHTML、XML、又はPNG、JPG画像に変換して出力します。
pdftotext の「-htmlmeta」オプションと違って、よりPDFの各ページ表示に近い形でHTML、XML、又はPNG画像形式に変換します。
Help の内容
001 I:¥Tools¥Run¥Poppler-0.45¥bin>pdftohtml -h
002 pdftohtml version 0.45.0
003 Copyright 2005-2016 The Poppler Developers - http://poppler.freedesktop.org
004 Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
005 Copyright 1996-2011 Glyph & Cog, LLC
006
007 Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
008 -f <int> : first page to convert
009 -l <int> : last page to convert
010 -q : don't print any messages or errors
011 -h : print usage information
012 -? : print usage information
013 -help : print usage information
014 --help : print usage information
015 -p : exchange .pdf links by .html
016 -c : generate complex document
017 -s : generate single document that includes all pages
018 -i : ignore images
019 -noframes : generate no frames
020 -stdout : use standard output
021 -zoom <fp> : zoom the pdf document (default 1.5)
022 -xml : output for XML post-processing
023 -hidden : output hidden text
024 -nomerge : do not merge paragraphs
025 -enc <string> : output text encoding name
026 -fmt <string> : image file format for Splash output (png or jpg)
027 -v : print copyright and version info
028 -opw <string> : owner password (for encrypted files)
029 -upw <string> : user password (for encrypted files)
030 -nodrm : override document DRM settings
031 -wbt <fp> : word break threshold (default 10 percent)
032 -fontfullname : outputs font full name
Highlight:プログラミング言語のソースコードを構文で色分け (GUI編)
形式
pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
- options : オプション。複数の組み合わせ可能。
- PDF-file : 入力のPDFファイル名
- html-file : 出力するHTMLトファイル名
ハイフン「-」を指定すると標準出力(画面)に出力します。
保存先フォルダもココで指定できます。相対、フルパスもOK。詳細は後で。 - xml-file : 出力するXMLファイル名
各区切りは1つ以上の半角の空白です。
Options
各オプションはオプション文字列の前にハイフン1つ「-」、そしてオプション名です。更に値が続く場合は1つ以上の半角の空白を入れます。複数のオプションを入れる時も1つ以上の半角の空白を入れて連続させます。
オプション名の入力ミス時は「--help」と同じ動作をします。
-h , -help , --help , -?
各オプションの概要を一覧表示します。
-f <int>
処理する最初のページ番号を指定します。基本的に「 -l 」と対で使用します。無指定は最初からの扱いになります。
-l <int>
処理する最後のページ番号を指定します。基本的に「 -f 」と対で使用します。無指定は最後までの扱いになります。
-q
任意のメッセージまたはエラーを表示しません。慣れるまで使用は控えましょう。
-v
著作権とバージョン情報を表示します。
-p
.html で .pdf リンクを交換します。
-c
1頁を1HTMLファイルの形で出力します。(=複数ファイルへの出力モード)
-s
すべてのページを含む1つのHTMLファイルを生成します。これは1ファイルしか生成しないと言う意味では無いです。1つのHTMLファイルから全ての情報を表示できると言うHTMLファイルを作成する、という意味です。
>pdftohtml -s in,pdf
-i
画像を無視します。画像は出力しません。
-noframes
フレームを生成しません。「-c 複数ファイルへの出力モード」でサポートされていません。
-stdout
標準出力を使用します。Dos画面に結果を表示します。
-zoom <fp>
PDF文書をズームします。(デフォルト1.5倍)
-xml
XMLファイルで出力をします。画像は別ファイルでPNG又はJPG出力します。
-enc <string>
出力テキストのエンコーディング名を指定します。指定できるエンコーディング名は「pdfinfo.exe -listenc」コマンドで確認できます。
-opw <string>
オーナーパスワードを指定します。
-upw <string>
ユーザーパスワードを指定します。これは文書を開くパスワードです。
-hidden
非表示のテキスト抽出を強制します。
-fmt <string>
スプラッシュ出力用の画像ファイル形式(PNGまたはJPG)を指定します。
「-c 複数ファイルへの出力モード」が選択された場合、-fmtを指定しない場合、-fmt png が想定されます。
指定しても何も変わらない感じを受けます。
-nomerge
段落をマージしません。
-nodrm
文書のDRM(デジタル著作権管理)設定を上書きします。
-wbt <fp>
単語区切りのしきい値比率を調整します。既定値は10です。隣接する二つの文字の間の距離が文字の高さのパーセントよりもを超えるときに、単語の区切りの発生します。
-fontfullname
任意の置換なしフォント名を出力します。
終了コード
終了コードは不明です。ネット上のドキュメントにpdftohtml だけ記載が無い為です。他のPoppler ツールと同じならば以下のコードが返されるはずです。※要テスト
- 0 : エラー無し
- 1 : 入力PDFファイルを開く時にエラーが発生した
- 2 : 出力ファイルを開く時にエラーが発生した
- 3 : 入力PDFファイルのアクセス権に関連するエラーが発生した
- 99 : その他のエラー
VBA関数からの起動
以下のVBA関数を利用してPoppler の pdftohtml.exe をコマンドライン起動できます。
変換内容に満足しない時
pdf2htmlEX と言う PDFからHTML へ変換だけを目的にしたGPL3ソフトが公開されています。高性能なHTML変換をする感じを一部のテストで感じました。Xpdf , Poppler をペースにしているので形式やエラーメッセージは同じです。フォルダやパスの考え方も同じです。ただし、日本語での操作方法を詳しく書いたサイトは現状ではほとんど無いのが残念です。
Windows版のEXEが本家サイトのリンク先に公開されています。
備考
- 実際に変換してみた感想は「実用レベルとは到底言いがたい」です。特に一度でも pdf2htmlEX を試した事があるとなおさらです。
動作確認の環境
- Windows 10 64bit Pro
- Microsoft Office 2007 Excel 32bit
< Poppler へ戻る >