Poppler:pdftohtml の使い方

TOP > Poppler ツール > *


London Underground Kiss

機能

PDFの各ページを画像も含めてHTML、XML、又はPNG、JPG画像に変換して出力します。

pdftotext の「-htmlmeta」オプションと違って、よりPDFの各ページ表示に近い形でHTML、XML、又はPNG画像形式に変換します。

Help の内容

001 I:¥Tools¥Run¥Poppler-0.45¥bin>pdftohtml -h 002 pdftohtml version 0.45.0 003 Copyright 2005-2016 The Poppler Developers - http://poppler.freedesktop.org 004 Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch 005 Copyright 1996-2011 Glyph & Cog, LLC 006 007 Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>] 008 -f <int> : first page to convert 009 -l <int> : last page to convert 010 -q : don't print any messages or errors 011 -h : print usage information 012 -? : print usage information 013 -help : print usage information 014 --help : print usage information 015 -p : exchange .pdf links by .html 016 -c : generate complex document 017 -s : generate single document that includes all pages 018 -i : ignore images 019 -noframes : generate no frames 020 -stdout : use standard output 021 -zoom <fp> : zoom the pdf document (default 1.5) 022 -xml : output for XML post-processing 023 -hidden : output hidden text 024 -nomerge : do not merge paragraphs 025 -enc <string> : output text encoding name 026 -fmt <string> : image file format for Splash output (png or jpg) 027 -v : print copyright and version info 028 -opw <string> : owner password (for encrypted files) 029 -upw <string> : user password (for encrypted files) 030 -nodrm : override document DRM settings 031 -wbt <fp> : word break threshold (default 10 percent) 032 -fontfullname : outputs font full name


 Highlight:プログラミング言語のソースコードを構文で色分け (GUI編)
 

形式

pdftohtml  [options]  <PDF-file>  [<html-file>  <xml-file>]

  • options : オプション。複数の組み合わせ可能。
  • PDF-file : 入力のPDFファイル名
  • html-file : 出力するHTMLトファイル名
    ハイフン「-」を指定すると標準出力(画面)に出力します。
    保存先フォルダもココで指定できます。相対、フルパスもOK。詳細は後で。
  • xml-file : 出力するXMLファイル名

各区切りは1つ以上の半角の空白です。

Options

各オプションはオプション文字列の前にハイフン1つ「-」、そしてオプション名です。更に値が続く場合は1つ以上の半角の空白を入れます。複数のオプションを入れる時も1つ以上の半角の空白を入れて連続させます。

オプション名の入力ミス時は「--help」と同じ動作をします。

-h , -help , --help , -?

各オプションの概要を一覧表示します。

-f <int>

処理する最初のページ番号を指定します。基本的に「 -l 」と対で使用します。無指定は最初からの扱いになります。

-l <int>

処理する最後のページ番号を指定します。基本的に「 -f 」と対で使用します。無指定は最後までの扱いになります。

-q

任意のメッセージまたはエラーを表示しません。慣れるまで使用は控えましょう。

-v

著作権とバージョン情報を表示します。

-p

.html で .pdf リンクを交換します。

-c

1頁を1HTMLファイルの形で出力します。(=複数ファイルへの出力モード)

-s

すべてのページを含む1つのHTMLファイルを生成します。これは1ファイルしか生成しないと言う意味では無いです。1つのHTMLファイルから全ての情報を表示できると言うHTMLファイルを作成する、という意味です。

>pdftohtml  -s  in,pdf

-i

画像を無視します。画像は出力しません。

-noframes

フレームを生成しません。「-c 複数ファイルへの出力モード」でサポートされていません。

-stdout

標準出力を使用します。Dos画面に結果を表示します。

-zoom <fp>

PDF文書をズームします。(デフォルト1.5倍)

-xml

XMLファイルで出力をします。画像は別ファイルでPNG又はJPG出力します。

-enc <string>

出力テキストのエンコーディング名を指定します。指定できるエンコーディング名は「pdfinfo.exe -listenc」コマンドで確認できます。

-opw <string>

オーナーパスワードを指定します。

-upw <string>

ユーザーパスワードを指定します。これは文書を開くパスワードです。

-hidden

非表示のテキスト抽出を強制します。

-fmt <string>

スプラッシュ出力用の画像ファイル形式(PNGまたはJPG)を指定します。
「-c 複数ファイルへの出力モード」が選択された場合、-fmtを指定しない場合、-fmt png が想定されます。

指定しても何も変わらない感じを受けます。

-nomerge

段落をマージしません。

-nodrm

文書のDRM(デジタル著作権管理)設定を上書きします。

-wbt <fp>

単語区切りのしきい値比率を調整します。既定値は10です。隣接する二つの文字の間の距離が文字の高さのパーセントよりもを超えるときに、単語の区切りの発生します。

-fontfullname

任意の置換なしフォント名を出力します。

終了コード

終了コードは不明です。ネット上のドキュメントにpdftohtml だけ記載が無い為です。他のPoppler ツールと同じならば以下のコードが返されるはずです。※要テスト

  • 0 : エラー無し
  • 1 : 入力PDFファイルを開く時にエラーが発生した
  • 2 : 出力ファイルを開く時にエラーが発生した
  • 3 : 入力PDFファイルのアクセス権に関連するエラーが発生した
  • 99 : その他のエラー

VBA関数からの起動

以下のVBA関数を利用してPoppler の pdftohtml.exe をコマンドライン起動できます。 

変換内容に満足しない時

pdf2htmlEX と言う PDFからHTML へ変換だけを目的にしたGPL3ソフトが公開されています。高性能なHTML変換をする感じを一部のテストで感じました。Xpdf , Poppler をペースにしているので形式やエラーメッセージは同じです。フォルダやパスの考え方も同じです。ただし、日本語での操作方法を詳しく書いたサイトは現状ではほとんど無いのが残念です。

Windows版のEXEが本家サイトのリンク先に公開されています。

備考

  • 実際に変換してみた感想は「実用レベルとは到底言いがたい」です。特に一度でも  pdf2htmlEX を試した事があるとなおさらです。

動作確認の環境

  • Windows 10 64bit Pro
  • Microsoft Office 2007 Excel 32bit

< Poppler へ戻る >

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA



SAMURAI Plugin

コメントをする時は出来れば以下もお願いします。

  • OS名 バージョン
  • Acrobat バージョン
  • ツール(Excel等) バージョン
コメントにサンプルコードを入れる時はコードを全て全角文字列にしてください。コチラで半角に戻します。それでもエラーが回避できない時はコメント下さい。個別に対処します。



お仕事で当サイトを見ている方へ
考え込んだら、ご質問下さい。
一緒に解決策を考えましょう。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください