pdf2htmlEX：PDFをHTMLへ変換するツール

TOP > *

概要

PDFを画像では無く、純粋なHTMLへ驚くほど高精度に変換します。

まずは下のどちらがPDFでどちらがHTMLでしょうか？

▽サンプル①

▽サンプル②

正解は①がPDF、②がHTMLです。上記の画像をクリックするとハッキリと判ります。

②は①を変換したHTMLです。ページヘ移動するリンク、上記には表示してませんがしおり、文字列の選択、コピー、検索も可能です。

これ以降は Windows版バージョン 0.14.6 での解説になります。

特徴

フリーソフト（GPL3 ライセンス）
画像では無く、検索可能なHTMLに変換
フォントをPDFから抽出してHTMLに含める
(Type 3フォントは未サポート)
変換後のHTMLは選択やコピーが可能
しおりも使えます
ネットでの評価は非常に良い
~~頻度は落ちているがバージョンアップは停止してない~~
マルチバイト（漢字）対応。
~~※しかし現時点(2016/7/10) v 0.14.6 のWin版は日本語処理が確認できず~~
（発表時は）香港の学生？が作成。

日本語の対応

公開サイトでは堂々と「日本語をサポート」と書かれています。

最終バージョンの 0.14.6 Windows 版で日本語を含むPDFの変換には当サイトのコメントで書かれている作業を事前にする必要が有ります。

ダウンロード

Windows 版のダウンロードはココからです。以下の２つをダウンロードしてください。

pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip 又は
pdf2htmlEX-win32-0.14.6-with-poppler-data.zip
UPXの圧縮EXE版は「-upx-」の方です。迷う方は下の「-upx-」無し版をオススメします。EXE本体が圧縮されているか、無いかの違いだけです。
pdf2htmlEX v0.12-win32-static（pdf2htmlEX-0.12-win32-static-with-poppler-data.zip）
旧バージョン（更新：2014/11/11）です。ダウンロードして保管してください。理由は既に説明済み。

インストール

pdf2htmlEX-win32- ・・・ -with-poppler-data.zipを全て解凍して、適当なフォルダにそのままで全ファイルを置くだけです。EXE 以外のファイルやフォルダも同じ状態で解凍してください。

できれば半角の空白が入らないフォルダの下に入れてください。半角の空白が入るとプログラムからコマンドライン起動する時に起動できない問題が発生してしまいます。

必要な方はWindowsの環境変数「PATH=」にパスを追加してください。

バージョンとHelp の内容

001 >pdf2htmlex -v 002 pdf2htmlEX version 0.14.6 003 Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors 004 Libraries: 005 poppler 0.33.0 006 libfontforge 20150621 007 cairo 1.12.18 008 Default data-dir: I:¥Tools¥Run¥pdf2htmlEX-0.14.6/data 009 Supported image format: png jpg svg 010 011 012 >pdf2htmlex -h 013 Usage: pdf2htmlEX [options] <input.pdf> [<output.html>] 014 -f,--first-page <int> first page to convert (default: 1) 015 -l,--last-page <int> last page to convert (default: 2147483647) 016 --zoom <fp> zoom ratio 017 --fit-width <fp> fit width to <fp> pixels 018 --fit-height <fp> fit height to <fp> pixels 019 --use-cropbox <int> use CropBox instead of MediaBox (default: 1) 020 --hdpi <fp> horizontal resolution for graphics in DPI (default: 144) 021 --vdpi <fp> vertical resolution for graphics in DPI (default: 144) 022 --embed <string> specify which elements should be embedded into output 023 --embed-css <int> embed CSS files into output (default: 1) 024 --embed-font <int> embed font files into output (default: 1) 025 --embed-image <int> embed image files into output (default: 1) 026 --embed-javascript <int> embed JavaScript files into output (default: 1) 027 --embed-outline <int> embed outlines into output (default: 1) 028 --split-pages <int> split pages into separate files (default: 0) 029 --dest-dir <string> specify destination directory (default: ".") 030 --css-filename <string> filename of the generated css file (default: "") 031 --page-filename <string> filename template for split pages (default: "") 032 --outline-filename <string> filename of the generated outline file (default: "") 033 --process-nontext <int> render graphics in addition to text (default: 1) 034 --process-outline <int> show outline in HTML (default: 1) 035 --process-annotation <int> show annotation in HTML (default: 0) 036 --process-form <int> include text fields and radio buttons (default: 0) 037 --printing <int> enable printing support (default: 1) 038 --fallback <int> output in fallback mode (default: 0) 039 --tmp-file-size-limit <int> Maximum size (in KB) used by temporary files, -1 for no limit. (default: -1) 040 --embed-external-font <int> embed local match for external fonts (default: 1) 041 --font-format <string> suffix for embedded font files (ttf,otf,woff,svg) (default: "woff") 042 --decompose-ligature <int> decompose ligatures, such as ・・-> fi (default: 0) 043 --auto-hint <int> use fontforge autohint on fonts without hints (default: 0) 044 --external-hint-tool <string> external tool for hinting fonts (overrides --auto-hint) (default: "") 045 --stretch-narrow-glyph <int> stretch narrow glyphs instead of padding them (default: 0) 046 --squeeze-wide-glyph <int> shrink wide glyphs instead of truncating them (default: 1) 047 --override-fstype <int> clear the fstype bits in TTF/OTF fonts (default: 0) 048 --process-type3 <int> convert Type 3 fonts for web (experimental) (default: 0) 049 --heps <fp> horizontal threshold for merging text, in pixels (default: 1) 050 --veps <fp> vertical threshold for merging text, in pixels (default: 1) 051 --space-threshold <fp> word break threshold (threshold * em) (default: 0.125) 052 --font-size-multiplier <fp> a value greater than 1 increases the rendering accuracy (default: 4) 053 --space-as-offset <int> treat space characters as offsets (default: 0) 054 --tounicode <int> how to handle ToUnicode CMaps (0=auto, 1=force, -1=ignore) (default: 0) 055 --optimize-text <int> try to reduce the number of HTML elements used for text (default: 0) 056 --correct-text-visibility <int> try to detect texts covered by other graphics and properly arrange them (default: 0) 057 --bg-format <string> specify background image format (default: "png") 058 --svg-node-count-limit <int> if node count in a svg background image exceeds this limit, fall back this page to bitmap background; negative value means no limit. (default: -1) 059 --svg-embed-bitmap <int> 1: embed bitmaps in svg background; 0: dump bitmaps to external files if possible. (default: 1) 060 -o,--owner-password <string> owner password (for encrypted files) 061 -u,--user-password <string> user password (for encrypted files) 062 --no-drm <int> override document DRM settings (default: 0) 063 --clean-tmp <int> remove temporary files after conversion (default: 1) 064 --tmp-dir <string> specify the location of temporary directory. (default: "C:¥Users¥xxxx¥AppData¥Local¥Temp/") 065 --data-dir <string> specify data directory (default: "I:¥Tools¥Run¥pdf2htmlEX-0.14.6/data") 066 --debug <int> print debugging information (default: 0) 067 --proof <int> texts are drawn on both text layer and background for proof. (default: 0) 068 -v,--version print copyright and version info 069 -h,--help print usage information

　Highlight：プログラミング言語のソースコードを構文で色分け (GUI編)
　

形式

pdf2htmlEX [options] <input.pdf> [<output.html>]

options ：オプション。複数の組み合わせ可能。
input.pdf ：入力のPDFファイル名
output.html ：出力するHTMLトファイル名
未指定時はカレントフォルダに拡張子.html で同じファイル名で作成します。
保存先フォルダもココで指定できます。相対、フルパスもOK。詳細は後で。

各区切りは１つ以上の半角の空白です。

Options　：　オプション

多くのオプションが有りますが、基本はデフォルトで動作するようにセッティングされています。

各オプションはオプション文字列の前にハイフン２つ「--」又はハイフン１つ「-」、そしてオプション名です。更に値が続く場合は１つ以上の半角の空白を入れてから、値を入れます。複数のオプションを入れる時も１つ以上の半角の空白を入れて連続させます。

オプション名の入力ミス時は「--help」と同じ動作をします。

例：２ページから１０ページ　

-f 2 -l 10

例：２ページから１０ページ

--first-page 2 --last-page 10

ページ関連のオプション

-f, --first-page <num> (Default: 1)

処理するための最初のページを指定します。デフォルトは１頁からです。

-l, --last-page <num> (Default: last page)

処理するための最後のページを指定します。デフォルトは最終頁です。

寸法関連のオプション

--zoom <ratio>

変換後の表示ズームの倍率を指定します。

例：　１．５倍

>pdf2htmlex --zoom 1.5 data2¥input.pdf save¥out.html

--fit-width <width>

ページの最大の幅をピクセル単位で指定します。

縦横比は維持されます。各ページのサイズが異なる場合は最大サイズのページの幅を指定値にして、他の小さいページは同じ倍率で幅を調整します。（目視で確認

例：　幅を700ピクセル

>pdf2htmlex --fit-width 700 data2¥input.pdf save¥out.html

--fit-height <height>

ページの最大の高さをピクセル単位で指定します。

縦横比は維持されます。各ページのサイズが異なる場合は最大サイズのページの高さを指定値にして、他の小さいページは同じ倍率で高さを調整します。（目視で確認

例：　高さを500ピクセル

>pdf2htmlex --fit-height 500 data2¥input.pdf save¥out.html

複数の値が指定されている場合は、最小のものが使用されます。

何も指定されていない場合、ページは72dpiとして表示されます。

--use-cropbox <0|1> (Default: 1)

出力時はMediaBox(メディアボックス)の代わりにCropBox(クロックボックス)を使用します。デフォルト1：使用する。0：使用しない。（テスト確認できるPDF無し

例：

>pdf2htmlex --use-cropbox 0 data2¥input.pdf save¥out.html

※Poppler ： Pdfinfo の使い方　より
MediaBox　：　メディアボックス
ページ内の余白を含まない領域です。
CropBox　：　クロックボックス
ページの余白も含んだ可視領域です。

--hdpi <dpi>, --vdpi <dpi> (Default: 144)

画像の水平方向、垂直方向のDPI（解像度）を指定します。ここでの解像度は変換後の画像の部分の事を言っているみたいです。デフォルトは144DPIです。

目視で144と4000を見比べたですが、・・・テキスト部分に関しては違いは確認できず。画像部分に関しては拡大して見比べると、144がやや粗くなっている程度でした。よって画像を使っていて、より美しく見せたい時は値を大きくしましょう。その分だけファイルのサイズは大きくなります。大きくなる割合は画像の使用量によって変わります。

また、値を3000等の大きくすると画像部分のみが表示できない現象を確認しています。指定時は必ず各種ブラウザで確認してください。

出力関連のオプション

--embed <string>

--embed-css <0|1> (Default: 1)

--embed-font <0|1> (Default: 1)

--embed-image <0|1> (Default: 1)

--embed-javascript <0|1> (Default: 1)

--embed-outline <0|1> (Default: 1)

出力HTMLファイルに埋め込まれるべき要素（CSS、フォント、画像、Javascript、アウトライン）を指定します。オフ(0) 時、対応する要素はHTML以外の別ファイルとして出力されます。

以下、0：別ファイルへ。１：含める。デフォルトは全て1の「含める」です。

--embed-css <0|1> はCSSをHTMLに含めるかを指定します。

--embed-font <0|1> はフォントをHTMLに含めるかを指定します。

--embed-image <0|1> は画像をHTMLに含めるかを指定します。

--embed-javascript <0|1> はJavaScriptをHTMLに含めるかを指定します。

--embed-outline <0|1> はアウトラインをHTMLに含めるかを指定します。

上記の--embed-css、--embed-font、--embed-image、--embed-javascript、--embed-outline を１つでまとめて設定できるのが --embed <string> です。

--embed <string> の引数の文字列は --embed-X** オプションのXの1文字に相当する文字を指定します。Xが大文字の時は「含める」の１になり、Xが小文字の時は「別ファイルへ」の０になります。

例：

--embed cfijo 　：全ての要素を別ファイルへ出力します。

--embed CFIJO 　：全ての要素をHTMLへ含めます。

--embed i 　：画像以外はHTMLへ含めます。

--dest-dir <dir> (Default: .)

Specify destination folder.
元のインストール先フォルダを指定します。EXEだけを別フォルダにコピーして使用したい時に使います。なおこのオプションを指定した時、--data-dir オプションでインストール先のdata フォルダも指定する必要があります。

例：

I:¥Tools¥Run¥pdf2htmlEX-0.14.6¥Testforuda>pdf2htmlex --dest-dir .. --data-dir ..¥data ..¥data2¥input.pdf

このオプションを使うと他の設定も考慮する必要があるので、あまり使わない方をオススメします。

--css-filename <filename> (Default: <none>)

HTMLにCSSが埋め込まれていない場合（ --embed-css 0 ）は、生成されるCSSのファイル名を指定します。ココのファイル名が空の場合は自動的に決定されます。

--page-filename <filename> (Default: <none>)

各ページ単位にファイル分割（--split-pages 1 ）する時の各ファイル名のテンプレートを指定します。

%d のプレースホルダーはページ番号を配置する場所を示すために filename に含めることが出来ます。プレースホルダは指定された幅とゼロパディングを含む通常の数値プレースホルダの限られたサブセットをサポートしています。

filename にページ番号のプレースホルダが含まれていない場合はページ番号はファイル拡張子の前に直接挿入されます。ファイル名は拡張子を持っていない場合はページ番号はファイル名の末尾に配置されます。

--page-filename を指定しない場合は、<input-filename>は.PAGE を拡張子に交換し、拡張子の前に直接ページ番号を追加し、出力ファイル名に使用されます。

例：

>pdf2htmlEX --split-pages 1 foo.pdf

生成されるファイル　foo1.page, foo2.page, ・・・

>pdf2htmlEX --split-pages 1 foo.pdf --page-filename bar.baz

生成されるファイル　bar1.baz, bar2.baz, ・・・

>pdf2htmlEX --split-pages 1 foo.pdf --page-filename page%dbar.baz

生成されるファイル　 page1bar.baz, page2bar.baz, ・・・

>pdf2htmlEX --split-pages 1 foo.pdf --page-filename bar%03d.baz

生成されるファイル　 bar001.baz, bar002.baz, ・・・

--outline-filename <filename> (Default: <none>)

HTMLにアウトラインが埋め込まれていない場合（ --embed-outline 0 ）は、生成されるアウトラインのファイル名を指定します。ココのファイル名が空の場合は自動的に決定されます。

--process-nontext <0|1> (Default: 1)

（画像など）の非テキストオブジェクトを処理するかどうか。１：処理する。０：処理しない。

--process-outline <0|1> (Default: 1)

生成されたHTMLでアウトラインを表示するかどうか。１：表示する。０：表示しない。

--printing <0|1> (Default: 1)

印刷を可能にします。デフォルト１：可能にする。０：可能にしない。このオプションを無効にするとCSSのサイズを小さくすることができます。

--fallback <0|1> (Default: 0)

フォールバックモードでの出力は、優れた精度とブラウザの互換性の為ですが、サイズが大きくなります。

※フォールバックモード：精度が低下しても表示を可能な限り維持する。（と思う。

--tmp-file-size-limit <limit> (Default: -1)

出力ファイルの合計サイズを制限する為に一時ファイルの合計サイズ（KB単位）を制限します。これは推定値で、一時ファイルの合計サイズがこの数よりも大きくなると、その時点でページ処理を途中停止します。その時のメッセージは「Stop processing, reach max size」です。 -1 は無制限を意味し、デフォルトです。

要は、サイズが大きくなり過ぎないようにしたい時に、一時ファイルのサイズを制限します。デフォルは制限無し。

例：　1000 KB で制限

>pdf2htmlex --tmp-file-size-lim 1000 input.pdf
Preprocessing: 16/16
Stop processing, reach max size　　＜－停止のメッセージ
Working: 16/16

変換後のHTMLファイルのサイズが9000KBぐらいの時、一時ファイルのサイズは3000KBぐらいまで落とさないと途中停止は発生しないテスト結果が一部で出ています。注意してください。

フォント関連のオプション

--embed-external-font <0|1> (Default: 1)

HTMLに埋め込まれるべきで、PDFに埋め込まれていないフォントに対して、ローカルでマッチしたフォントを指定します。

このスイッチがオフ（０）の場合、唯一のフォント名はWebブラウザが適切なフォントを自分自身で見つけることを試みることができようにエクスポートされます。それは正しくないフォントメトリックに関する問題を引き起こす可能性があります。

--font-format <format> (Default: woff)

PDFファイルから抽出されたフォントの形式を指定します。デフォルトはwoff です。

--decompose-ligature <0|1> (Default: 0)

合字を分解します。例えば 'fi' - > 'f''i' 。

--auto-hint <0|1> (Default: 0)

1に設定すると、ヒントは fontforge を使用しているフォントで生成されます。これは --external-hint-tool が先行することができます。

--external-hint-tool <tool> (Default: <none>)

tool が指定された場合、フォントの強化ヒンティングするために呼び出されます。これは--auto-hint が先行します。

tool は--font-format のために指定されるようにサフィックスが同じになる、'<tool> <in.suffix> <out.suffix>' の順で呼ばれます。

--stretch-narrow-glyph <0|1> (Default: 0)

1 に設定すると、PDFに記載されているよりも狭いグリフ（絵文字）は伸縮されます。それ以外の場合はスペースがグリフ（絵文字）の右側にパディングされます。

--squeeze-wide-glyph <0|1> (Default: 1)

１の場合は、PDFファイルに記載さよりも広いグリフ（絵文字）は圧縮されます。
それ以外の場合はそれは切り捨てられます。

--override-fstype <0|1> (Default: 0)

TTF/ OTFフォントでの fstype ビットをクリアします。Internet Explorer が「アクセス許可はインストール可能でなければならない」と文句を言う場合、あなたがそうする権限を持っているなら、これをオンにします。

--process-type3 <0|1> (Default: 0)

オンにした場合、pdf2htmlEXはテキストがHTMLでネイティブにレンダリングすることができるように、Type 3 のフォントを変換しようとします。それ以外の場合は、Type 3 フォントですべてのテキストを画像としてレンダリングされます。
この機能は非常に実験的です。

テキスト関連のオプション

--heps <len> , --veps <len> (Default: 1)

最大許容垂直/水平方向のオフセット（ピクセル単位）を指定します。pdf2htmlEXはこの距離内でテキストを移動して生成されたHTMLファイルを最適化しようとします。デフォルト１：最適化する。０：しない。

--space-threshold <ratio> (Default: 0.125)

同じ行に2つの連続した文字の間の距離が ratio * フォントサイズよりも広い場合、pdf2htmlEX は空白文字を挿入します。

--font-size-multiplier <ratio> (Default: 4.0)

多くのWebブラウザは、最小フォントサイズを制限し、多くは与えられたフォントサイズを丸めることになります。それは間違ったレンダリングを結果として生じます。

この問題を解決するだろう１よりも比率も大きいを指定します。しかし、それは一部のブラウザがフリーズすることがあります。

Firefoxの一部のバージョンについて。しかしながら小さい方の値をここで指定する必要がある場合にはフォントサイズが大きすぎるという問題があるでしょう。

--space-as-offset <0|1> (Default: 0)

１に設定すると、空白文字はオフセットとして扱われ、より良い最適化を可能にします。良くないエンコーディングのPDFファイルの場合は、このオプションをオン（１）にすると文字を失う恐れがあります。

--tounicode <-1|0|1> (Default: 0)

ToUnicodeマップは文字の「意味」を示すPDF内の各フォントを設けているのかもしれない。しかし多くの場合は、Type 0/1 フォントに良いToUnicode 情報が有り、時々提供されるToUnicodeマップが間違っています。この値が1に設定されている場合は、ToUnicodeマップが常に適用され、PDFで提供される場合、衝突が存在する場合は文字がHTMLで正しくレンダリングされない事があります。

－１に設定した場合、カスタマイズされたマップはレンダリングがHTML（視覚的に同じ）で適切となるように使用されますが、選択＆コピー＆ペーストで正しい文字を取得することはできません。

０に設定するとpdf2htmlEXは上記の2つの方法のバランスをとるためにベストを試みます。

--optimize-text <0|1> (Default: 0)

１に設定するとpdf2htmlEXはテキストに使用されるHTML要素の数を削減しようとします。何かうまくいかない場合はオフにしてください。

背景画像関連のオプション

--bg-format <format> (Default: png)

背景画像形式を指定します。すべてのサポートされる形式をチェックするために’pdf2htmlEX -v’を実行してください。

PDF保護関連のオプション

-o , --owner-password <password>

オーナーパスワードを指定します。

-u , --user-password <password>

ユーザーパスワードを指定します。

--no-drm <0|1> (Default: 0)

文書のDRM（デジタル著作権管理）設定を上書きします。あなたが権限を持っている場合にのみ、このオプションをオン（１）にします。

その他のオプション

--clean-tmp <0|1> (Default: 1)

オフ（０）にした場合、中間ファイルは最後に削除されることはありません。

--data-dir <dir> (Default: pdf2htmlEX/data)

manifest ファイルやその他の動作に関連するファイルを保持しているフォルダを指定します。デフォルトはカレントフォルダ下のdataフォルダです。

--tmp-dir <dir> (Default: /tmp)

一時ファイル用に使用する一時フォルダを指定します。デフォルトは　"C:¥Users¥ [ユーザー名] ¥AppData¥Local¥Temp/")

--css-draw <0|1> (Default: 0)

実験およびサポートされていないCSSの描画。

--debug <0|1> (Default: 0)

デバッグ情報の表示します。

メタ　関連のオプション

-v, --version

著作権とバージョン情報を表示します。

--help

使用情報を表示します。

終了コード

ドキュメントに記載が無いので不明です。

VBA関数からの起動

以下のVBA関数を利用してpdf2htmlEX.exe をコマンドライン起動できます。

関数：コマンドラインの起動

PDF内のJavaScriptについて

PDFの中にはAcrobat JavaScript と言うAcrobat PDF専用の拡張型 JavaScript を入れる事ができます。これはWebで使っているJavaScriptと100％同じではありません。全てがHTMLに対応した形で変換できるかは未確認です。

「POPPLER : PDFINFO の使い方」の「-js」オプションでPDFにJavaScript が入っているかを事前確認出来ます。

エラーメッセージ

Error: Cannot open the manifest file

data フォルダが見つからない時に出ます。--data-dir オプションでインストール先のdata フォルダも指定する必要があります。又はmanifest ファイルが存在しない時に出ます。インストール状態を再確認してください。

Stop processing, reach max size

--tmp-file-size-limit オプションの指定サイズを越えた時に出るメッセージです。

＜　TOPへ戻る　＞

pdf2htmlEX の検証結果での問題点

2020/08/20時点での修正：
最終バージョンの 0.14.6 Windows 版で日本語を含むPDFの変換には当サイトのコメントで書かれている作業を事前に行うことで解消できました。

pdf2htmlEX の過去バージョンでの検証

pdf2htmlEX-win32-0.13.6.zip　：　
日本語の文字は同様にブランクになる
※多分、ココと同じ作業で解決するかもしれない。（未確認
pdf2htmlEX-0.12-win32-static-with-poppler-data.zip　：　
日本語が表示できた！

＜　TOPへ戻る　＞