TOP

サイトマップ

先頭に固定表示2021年11月8日管理人 209件のコメント

▼ サイトの紹介

このサイトはExcel VBAから、Acrobat アプリケーションをプログラミング操作するOLE機能について解説しています。

Adobe社はこのOLE機能の事を「IAC」と表現しています。

(注意：Adobe Readerだけでは使用出来ません)

Adobe社提供のSDK資料を元にサンプルを加えて説明をしています。

サイト管理人もご覧下さい。

▼ 当サイトの使い方

当サイトをうまく使う上での手順を以下に示します。

最初に「Acrobat SDK：OLE objects and methods図を入手する」にあるオブジェクト連携図を手に入れます。出来れば印刷する方が見やすいです。１頁です。
下記の「Excel」、「Acrobat」、「ダウンロード」、「SDK」、「備考」にサッと目を通します。「その他＆メモ」は特に見なくてもイイです。
自分が目的とする処理を探しながら、印刷したオブジェクト連携図を元にサイト右記「Object & List」下を上からクリックしてザックリと内容を見ます。各オブジェクトのメソッドの詳細は後にして全体で何が出来て、何が出来ない(サポートされていない)かを把握します。
「Acobat OLE 以外の選択」も見て下さい。
目的が解決出来ない時は、キッパリとあきらめてAdobe社の日本語「Acrobatフォーラム」で相談します。当サイトより質が高い。
それでもダメなら、当サイトにコメントを入れてみます。サイト管理人がある程度、判る範囲でお答えをします。
（お願い：管理人を「様」での呼び方はご遠慮下さい。管理人さん、で十分です。）

▼ Excel

▼ Acrobat

Acrobat SDK：OLE objects and methods図を入手する
ここで示す図は必ず入手する必要があります。
これが無いとオブジェクト連携が判らなく、OLE(IAC)操作が出来ません。
Acrobatアプリケーションを閉じる(実は簡単に出来ない)
Acrobat OLEのエラーを防ぐVBAロジック
Acrobat OLE 使用上の注意事項
Acrobatプログラミングにおける技術上の制約やライセンス上の制約
PDFファイルを作成、及び操作する開発者に対しての注意事項
Windows のコマンドラインから Acrobat や Adobe Reader を使用して印刷する方法
PDFドキュメントの文書フラグとは
PDF バージョンとは
PDFバージョンの変化
ExportTask.xml
一括で複数ファイルを処理（アクション、バッチ処理）
PDF の３つのパスワード
PDFのパスワードは３２文字まで
印刷の問題点を解決
PDF内での座標の起点
Acrobatとレジストリ
PDF上のテキストとその座標

▼ ダウンロード

各種サンプルのダウンロード
Adobe Acrobat 9.1 SDK のダウンロード
SDKをダウンロードしてサンプル、解説PDF,HTML等を入手する必要があります。
Adobe Acrobat X SDK のダウンロード情報も入ってます。
Adobe Acrobat 8.1 SDK のダウンロード
この 8.1 バージョンのSDKは現時点(2013/10/03)で一般公開されてません。
情報が入り次第、掲載します。
Acrobat製品別ダウンロード先 URL
AcroPDFLib.AxAcroPDF：Excel VBAサンプル（A）
AcroPDFLib.AxAcroPDF：Excel VBAサンプル（B）
Adobe Readerの各種バージョンのダウンロード

▼ SDK

AcrobatプログラミングにおけるMenu and Toolbar Button Names 一覧
PDDocのGetJsObjectのオブジェクト構造図が見当たらない
Acrobat SDK：正誤表
Acrobat SDK v8.1ドキュメントに記載ミスが有ります。
Acrobatに関するSDKが Acrobat Developer Center からダウンロード出来ます。
Acrobat JavaScript における「Safe Path：セーフパス」についての注意事項
Acrobat SDK公開Webサイト URLの取得方法

▼ 備考

JavaScriptの解説はAcrobat v7 v8 共に英語版です。しかし、旧バージョンですがコメントを頂いた方から日本語版のAcrobat JavaScript解説PDFが見つかりました。以下がそのPDFです。
~~http://www.adobe.com/jp/support/products/pdfs/acrojs_j.pdf~~
[2009/1/7] AcroExch.AVDoc：Open メソッドでバグ？を発見しました。Acrobat v8.1.3 v9.0が対象です。

▼ その他＆メモ

▼日本語の資料

日本語版で公開されている技術情報が非常に少なく、また対応バージョンも古く、作成年度も古いのが多いです。しかし、PDF 又はAcrobat のエンジニア向けの基本的な技術はこの10年間はそれ程進歩していません。よって思った以上に使える事に気がつくはずです。

公開されている情報は今後消滅すると予想されます。必要な情報はバックアップする事をお勧めします。

▼ Acrobat SDK 関連

~~Acrobat JavaScript Object Specification バージョン 5.0.5~~
~~テクニカルノート# 5186 改訂日：2001年9月14日~~
(297頁) Acrobat 5.0 JavaScript リファレンスマニュアル。
PDF ドキュメントでJavaScript を使用するために必要なすべての情報。
※2018/10 リンク先は消滅しました。
Developing Acrobat Applications Using JavaScript
Adobe Acrobat SDK バージョン 8.0
(220頁) JavaScript を使用してAdobe Acrobat での開発や拡張したりする方法について
説明したマニュアル。必読！
JavaScript for Acrobat 3D Annotations API Reference
Adobe Acrobat SDK 2007年4月バージョン 8.1
(105頁) 3D 機能（3D注釈のJavaScript API）をユーザに提供したい開発者を対象にしたマニュアル
Parameters for Opening PDF Files（日本語版）
Adobe Acrobat SDK Version 8.1 April 2007
(8頁) PDF ファイルをURL やコマンドの中で開く際に使用できるパラメータについて説明したマニュアル
Adobe Acrobat Workshop
(78頁) Acrobat 7.0 JavaScript、API、IAC等の開発環境に関する概念の説明図
Adobe Acrobat 7.0 Acrobat JavaScript Scripting Guide 2005年1月7日
(276頁) Acrobat JavaScript を使用して開発したり拡張したりする方法について簡単に説明ししたもの
Programming Acrobat JavaScript Using Visual Basic
Technical Note #5417 バージョン：Acrobat 6.0 2003年5月
(14頁) Acrobat 6.0 提供のJSObject と言うOLE オートメーション機能のプログラミング環境に関しての概念を説明したもの
Acrobat JavaScript Scripting Guide
Technical Note #5430 バージョン：Acrobat 6.0 2003年5月
(90頁) Acrobat 6 Pro に搭載されている JavaScript 開発環境を使用して Acrobat アプリケーションを開発したり拡張したりする方法を簡単にまとめたもの
Upgrading Plug-ins From Acrobat 5 to Acrobat 6
Technical Note #5424 バージョン：Acrobat 6.0 2003年7月
(28頁) Acrobat 6 API の概要を説明し、Acrobat 5 およびそれ以前のプラグインを Acrobat 6 にアップグレードする際に開発者が理解しておくべきことについて説明したマニュアル
Adobe® Solutions Network Developer Program FAQ for Members
Version 3.0 MAY 2002
(461頁) ASNディベロッパーサポートプログラム会員から頂いたAcrobat Plug-in API,IAC,Readerに関する質問を整理した情報
Acrobat Developer FAQ
Adobe Developer Relations 改定:1999年9月2日
(37頁) 質問および回答形式を整理した情報
Parameters for Opening PDF Files（日本語版）
Adobe Acrobat SDK Version 8.1 April 2007
(24頁) Acrobat SDK でよくある質問と回答を整理したもの
Adobe Acrobat 7.0 Acrobat SDK ユーザガイド 2004年12月14日
(124頁) Acrobat SDKで提供されている機能、Acrobatで提供されている機能とその操作説明等
JavaScript for Acrobat API Reference
Adobe Acrobat SDK バージョン 8.0
(765頁) Acrobat JavaScript の詳細な解説書/リファレンス

▼ Acrobat 一般資料

Adobe Acrobat Security ディベロッパーサポート 2005年4月7日
(43頁) Acrobat 7.0 の各種セキュリティに関する概念

管理人の独り言

2010/4/26 「Appメソッド一覧」移行完了。かなり見直したので、結構解説が難しくなってしまったかも・・。全部の移行が完了したら、再度見直す事にして、次に行きます。
2010/5/14 データの移行と再リンクが終わりました（汗）。サイトマップの構成も少し見直して・・。後は見直し(リニューアル)する必要有り。OLE(IAC)の全貌が判った時点で細かい部分の追加が必要となった。各頁にかなりの追加と再テストが必要だが既に環境は出来あがっている。本当の踏ん張ると事はココからかもしれない。
2010/5/18 Appオブジェクトの移行が完了しました。
2012/11/12 AFormAut オブジェクトが IAC に含まれていない盲点に orz
2013/10/14 JavaScriptAPIと言う当サイト独自の表現を JSObject と本来の表現に変更する。
2015/5/9　サイトのレイアウトを変更。

▼ Acobat OLE 以外の選択

Adobe Acrobat OLE（IAC）以外で、PDFファイルをプログラミング操作する情報を以下に提供します。

VBA の Shell 関数（又はWscriptのExec関数）で起動する事により、IACには無い機能で複数ファイルの自動化処理が可能だと思われます。

Qpdf
PDF をコマンドラインで操作するツール
セキュリティ（パスワード）の設定が出来る！
Poppler
PDF をコマンドラインで操作するツール
Xpdf をペースした機能拡張版
注意：公式サイトからはWin版EXEは配布されてません。
pdf2htmlEX
PDF をHTMLへ変換する高性能なツール
Coherent PDF Command Line Tools
非常に多機能なコマンドラインツール
ライセンスに注意が必要
Xpdf
PDF をコマンドラインで操作するツール
Popplerの旧バージョン。安定版。
PDFtk * ※検証予定(時期未定)
PDF をコマンドラインで操作するツール
- PDFtk : インストール
- メモ：PDFtk : shuffle 引数の例
PDFill PDF Writer: PDF作成ツール
コマンドラインの使用は有償版のみ。
無償版と有償版。表示は英語。
★その他の各種ソフトとツール★
各種のPDFソフトウェアを一覧でまとめたサイトです。
たぶん、ココの情報が最新で内容も充実してると思われます。

[コメント入力] <-をクリックするとページの最後にコメント入力が出来ます。
名前(ﾆｯｸﾈｰﾑ)は必須。メールアドレス（非表示）も必須ですが、適当で結構です。

【更新日：2019/06/05 (11版)】

サンプル・関数

関数：全頁を行単位のテキスト、ヘッダー、フッターで返す

2023年3月12日管理人 6件のコメント

TOP > サンプル/関数 > ＊ [...]

概要

PDFページ上の全テキストを抽出します。テキストはページ単位に以下の内容に編集します。

行単位の文字列
行単位の文字列の座標（計算で出したY座標のみ）
ヘッダー（連続するページ上の最上部行。連続行有り）
フッター（連続するページ上の最終行。連続行有り）

上記を配列で返します。全て計算で出しているので、期待しない結果が出る可能性が有ります。

詳細

PDFファイルからテキストと同時に取得できる情報は座標（X、Y）だけです。行（行番号）と言う情報は取得できません。英語ならば単語単位、日本語ならば１文字単位の座標（X、Y）で取得します。

参照：PDF上のテキストとその座標

当関数は、同じ行なのか、連続する１行のテキストなのかを座標を見て計算しています。行番号はページ上部からテキストの出現順に１，２，３行目としています。

ヘッダー、フッター以外の本文のみのテキスト検索にも使用できると思っています。

処理動作を変更する定数をいくつか備えていますが、最初はPDFファイルのパスだけを指定して、他はデフォルトで試して下さい。

座標はページ左下を基点とします。

抽出されるテキストの順番

プログラムでは画面上部から表示される順番でテキストの取得はできません。画面トップに表示さていたテキストが途中や最後の場合も有ります。同じ行内のテキストでも順番が前後する場合も有ります。これはPDFファイルの作成時の内容によって変わるみたいです。理由の詳細は不明です。

各テキストは画面表示上の座標（X、Y）を持っています。よって、テキストの順序が前後しても、画面表示では全く問題が出ません。

しかし、順番の前後するテキストをプログラムで扱うとなると問題が出てきます。この関数は座標を見て、画面表示の順（上から下へ、左から右へ）で各テキストを並び替えます。但し、並び替えると問題が出るケースもあります。表内のテキストや索引などのように横に行が複数存在する場合です。並び替えるとテキストのY座標が同じ場合は同じ行と判断してしまうからです。当関数では並び替えをしない指定も出来ます（非推奨！）。

同じ行のテキストと判断する条件

PDF上に以下のようなテキストが存在するとします。

これをプログラムで抽出すると、以下の青枠の単位で分割されて返されます。

「Acrobat 5.05」は「Acrobat」と「5.05」に分割されます。分割方法の指示や変更は出来ません。

当関数は同じ行のテキストと判断する条件を各テキスト横の中心座標の高さの差で行います。

各テキストの中心座標の Y 座標の差が、頁内のテキストの平均的な高さ（Y座標）の１／４の範囲に有れば、同じ行のテキストと判断します。１／４は経験則から出した独自の値です（変更可能：C_DEV 定数）。

ヘッダー、フッターと判断する条件

以下の条件を全て必要とします。

1行目から次ページと同じ位置に同じテキストが存在する時にヘッダーとします。最終行から次ページと同じ位置に同じテキストが存在する時にフッターとします。ヘッダーは下の行へ、フッターは上の行へ連続行の判断もします。
数字と記号以外のテキストが同じ。
変化するページ番号を無視する為の条件です。「年月日」の文字も無視します。テキストの横方向のX座標は見ません。
前後するページ上のテキストの中心座標Yの差がほぼ同じ。
テキストの中心座標Yの差は前ページのテキストの平均的な高さの１／４です（変更可能：C_DEV 定数）。
次ページの同じ位置に同じテキストが存在しなくても、ヘッダー行と判断した真下（直下）にある行もヘッダーと見なします。フッターも同様に、次ページの同じ位置に同じテキストが存在しなくても、フッターと判断した真上（直上）にある行もフッターとします。これは１ページ上にしか存在しないヘッダー、又はフッターも取り込む為の機能です。1行でもヘッダー、又はフッターが存在した時に機能します。
但し、この機能はデフォルトでは無効です。定数で有効に変更できます。
ヘッダー、又はフッターと判断した行から離れた位置にある行は判断はしません。稀に本文のトップ行が同じ文字、同じ位置に有る場合があります。デフォルトではテキストの平均高さYの２．５倍以上離れていると無視します。フッターも同様です。

例：

「 XMPデータモデル」行は次ページ上の同じ位置に同じテキストが存在するので、ヘッダーと判断しました。

「プロパティ値」行は次ページの同じ位置にテキストが存在しなくてもヘッダーとして見ることが出来ます（４．の機能）。但し、デフォルでは、この機能は無効になっています。

「構造体」行はヘッダー行の「プロパティ値」から離れているので、ヘッダーの判断はしません（５．の機能）。

「４．」も「５.」もVBAソース内の定数で機能オン・オフに出来ます。

機能

指定したPDFの全テキストを抽出します。
抽出したテキストはY座標に従って並び替えます（推奨）。
並び替えをしない設定（bSortY = False）も出来ます。
テキストのY座標をもとに１行のテキストに結合します。
結合する前にX座標の順にテキストを並び替えます（推奨）。
並び替えをしない設定（bSortX = False）も出来ます。
条件を満たした１行目をヘッダー、最終行をフッターとします。連続行も判断します。

形式

Public Function OutSquareRects( _
    ByVal sInFilePathIn As String, _
    ByRef sOutData() As PageLineZahyo) As Boolean

第１引数（sInFilePathIn）：PDFのフルパスを指定します。
第２引数（sOutData）：処理の結果です。
詳細は以下の「第２引数：sOutDataの詳細」を参照。

第２引数：sOutDataの詳細

処理結果が「sOutData() As PageLineZahyo」配列に返されます。

'処理の結果
Private Type PageLineZahyo
    iLineCount              As Long     '行数：１～
    sLineData(C_MAXLINE)    As String   '行のテキスト
    iLineDataY(C_MAXLINE)   As Long     '行の中央Y座標
    iHeaderCount            As Long     'ヘッダー件数：１～
    iFooterCount            As Long     'フッター件数：１～
    bHeaderFlag(C_MAXLINE)  As Boolean  'Trueはヘッダー行
    bFooterFlag(C_MAXLINE)  As Boolean  'Trueはフッター行
    
    '以下は作業用、デバッグ用
    bHeaderST(C_MAXLINE)    As Boolean  'Trueはヘッダー行・真下
    bFooterST(C_MAXLINE)    As Boolean  'Trueはフッター行・真上
    iAveTextY               As Long     'テキストの平均的な高さY
    iTextCount              As Long     '座標を持ったテキスト数
End Type                                '注：文字数の合計では無い

iCountLine：ページ内の行数。１は１行。－１、０はゼロ行。
sLineData( )：ページ内の行データ。配列で返します。
iLineDataY( )：行データの中心座標のY値。
iHeaderCount：ヘッダーの数。０は無し。１～
iFooterCount：フッターの数。０は無し。１～
bHeaderFlag( )：ヘッダーの有無。sLineDataと同じ位置がTrueならヘッダー。見方は以下を参照。
bFooterFlag( )：フッターの有無。sLineDataと同じ位置がTrueならフッター。見方は以下を参照。

上記以外は作業用、デバッグ用の変数です。

フッターを見る時は iCountLine の値で配列の最後が判断できます。

戻り値

True : 正常
False : エラー。第一引数のファイルがPDFで無い等。

動作検証した環境

Windows 10 64bit Pro
Adobe Acrobat XI Pro （バージョン 11.0.23）
MS Office - Excel 2007 - VBA

関数のソース - VBA

VBAソースのダウンロードファイルは公開していません。以下をコピペしてご確認下さい。

参照設定が２つ必要です。

001 Option Explicit
002 
003 '**************************************************
004 '
005 ' Create  : 2023/03/07
006 ' Update  : 2023/03/12
007 '
008 '   ★の値はテストで出した結果。
009 '**************************************************
010 
011 '全体で使用
012 Private Const C_MAXLINE As Long = 200   'ページ中の最大行数
013 Private Const C_DEV As Long = 4         '差計算時の分母
014 
015 'Sort_TextData      で使用
016 Private Const C1_Y_FIX As Boolean = True 'Y座標の修正
017 Private Const C1_SA       As Long = 3    '★差の範囲 Y座標
018 Private Const C1_SORTX As Boolean = True 'X軸ソートの実行
019 Private Const C1_SORTY As Boolean = True 'Y軸ソートの実行
020 
021 'Get_Header_Footer  で使用
022     '行間が長い行はチェック対象から外す。
023     'True：外す　False：外さない
024 Private Const C2_LONG_HD As Boolean = False 'ヘッダー
025 Private Const C2_LONG_FT As Boolean = False 'フッター
026 Private Const C2_LONG_BAI = 2.5            '★行(高さ)の倍率
027     '真下、真上の行はヘッダー、フッターに取り込む
028     'True：取り込む　False：取り込まない
029 Private Const C2_SHORT_HD As Boolean = True 'ヘッダーの真下
030 Private Const C2_SHORT_FT As Boolean = True 'フッターの真上
031 Private Const C2_SHORT_BAI = 1.3            '★行(高さ)の倍率
032 
033 '処理の結果
034 Private Type PageLineZahyo
035     iLineCount              As Long     '行数：１～
036     sLineData(C_MAXLINE)    As String   '行のテキスト
037     iLineDataY(C_MAXLINE)   As Long     '行の中央Y座標
038     iHeaderCount            As Long     'ヘッダー件数：１～
039     iFooterCount            As Long     'フッター件数：１～
040     bHeaderFlag(C_MAXLINE)  As Boolean  'Trueはヘッダー行
041     bFooterFlag(C_MAXLINE)  As Boolean  'Trueはフッター行
042     
043     '以下は作業用、デバッグ用
044     bHeaderST(C_MAXLINE)    As Boolean  'Trueは真下のヘッダー行
045     bFooterST(C_MAXLINE)    As Boolean  'Trueは真上のフッター行
046     iAveTextY               As Long     'テキストの平均的な高さY
047     iTextCount              As Long     '座標を持ったテキスト数
048 End Type                                '注：文字数の合計では無い
049 
050 'PDFファイル内のテキストとその座標（一時作業用）
051 Private Type TextZahyo
052     sText               As String   'テキスト(編集済み)
053     sTextOrg            As String   'テキスト(オリジナル)
054                                     '※Trime前の状態
055     sTop                As String   '上部 座標
056     sBottom             As String   '下部 座標
057     sLeft               As String   '左   座標
058     sRight              As String   '右　 座標
059     iLineNo             As Long     '行番号
060     iCenterX            As Long     '中心座標 X
061     iCenterY            As Long     '中心座標 Y
062 End Type
063 
064 'Acrobat JavaScriptから取得のQuads座標
065 Private Enum JsZahyo
066     iTop = 1
067     iBottom = 5
068     iLeft = 0
069     iRight = 2
070 End Enum
071     '※ 0[Left] 1[Top]    2[Right] 3[Top]
072     '※ 4[Left] 5[Bottom] 6[Right] 7[Bottom]
073 
074 
075 '**************************************************
076 '
077 ' 関数を呼び出すテスト用
078 '
079 ' Create  : 2023/03/07
080 '
081 '**************************************************
082 Sub Main_Test()
083     Dim bRet            As Boolean          '関数の戻り値
084     Dim sInFilePathIn   As String           'PDFファイル
085     Dim sOutData()      As PageLineZahyo    'テキストと座標
086     
087     'PDF内の全テキストと座標を取得
088     sInFilePathIn = ThisWorkbook.Path & "\Test22.pdf"
089     bRet = OutSquareRects(sInFilePathIn, sOutData)
090     If bRet = False Then Exit Sub
091     
092     '=====================================
093     '結果をテキスト出力し、メモ帳も起動する
094     Call WriteLog(sInFilePathIn, sOutData)
095 End Sub
096 
097 '**************************************************
098 '
099 ' PDF内の全テキストを抽出し、行データを作成する。
100 ' ヘッダー、フッターの情報も作成する。
101 '
102 ' Create  : 2023/02/28
103 ' Update  : 2023/03/11
104 '
105 ' 引数１  : sInFilePathIn As String (IN)
106 '           入力するPDFファイルのフルパス
107 '
108 ' 引数２  : sOutData() As PageLineZahyo (OUT)
109 '           PDFファイル内の
110 '           ・行とそのY座標
111 '           ・ヘッダー、フッター
112 '
113 ' 戻り値  : True  正常
114 '           False エラー、PDFが無い、等
115 '
116 ' 参照設定：
117 '       Acrobat (Adobe Acrobat **.* Type Library)
118 '       AFormAut 1.0 Type Library
119 '
120 '**************************************************
121 Public Function OutSquareRects( _
122     ByVal sInFilePathIn As String, _
123     ByRef sOutData() As PageLineZahyo) As Boolean
124 
125 'On Error GoTo Err_OutSquareRects:
126     OutSquareRects = True
127     Dim start As Double: start = Timer
128 
129     Dim i1              As Long
130     Dim i2              As Long
131     Dim iPageNo         As Long
132     Dim iPageEnd        As Long
133     Dim bRet            As Boolean
134     
135     Dim sAJS            As String
136     Dim sReturn         As String
137     Dim sJsText         As String
138     Dim sJsTextOrg      As String
139     Dim sJsWk2()        As String
140     Dim sJsWk3()        As String
141     Dim sJsQuads()      As String
142     
143     Dim sTextDT()       As TextZahyo   '作業用
144     
145     'テキストの座標を取得するAcrobat JavScript
146     Const sAcrobatJavaScript = _
147         "var sOut='';" & _
148         "var numWords = this.getPageNumWords(@P);" & _
149         "for ( var j = 0; j < numWords; j++) {" & _
150         "   nthWord = this.getPageNthWord(@P,j,false);" & _
151         "   aQuads  = this.getPageNthWordQuads(@P,j);" & _
152         "   sOut=sOut + j + '\b' + nthWord + " & _
153         "'\b' + aQuads + '\t';" & _
154         "}" & _
155         "event.value=sOut;"
156     '※下記の特殊文字はデータの区切りに使用
157     '　 \b：バックスペース
158     '   \t：タブ
159     
160     If Dir$(sInFilePathIn, vbNormal) = "" Then
161         MsgBox sInFilePathIn & vbCrLf & _
162             "ファイルが存在しない。", _
163             vbOKOnly + vbCritical, "実行エラー"
164         OutSquareRects = False
165         Exit Function
166     End If
167 
168     'Acrobatオブジェクトの定義＆作成
169     Dim objAcroApp      As New Acrobat.AcroApp
170     Dim objAcroAVDoc    As New Acrobat.AcroAVDoc
171     Dim objAcroPDDoc    As New Acrobat.AcroPDDoc
172     Dim objAFormApp     As AFORMAUTLib.AFormApp
173     Dim objAFormFields  As AFORMAUTLib.Fields
174 
175     '前回のエラー終了時の事前対応
176     objAcroApp.CloseAllDocs
177     objAcroApp.Hide '稀にデスクトップに表示されるので隠す
178 
179     'PDFファイルを開く
180     If objAcroAVDoc.Open(sInFilePathIn, "") = False Then
181         MsgBox "Open出来ません。" & vbCrLf & sInFilePathIn, _
182             vbOKOnly + vbCritical, "実行エラー"
183         OutSquareRects = False
184         GoTo Skip_OutSquareRects_END:
185     End If
186 
187     Application.Cursor = xlWait     'マウスポインターを砂時計
188     Set objAcroPDDoc = objAcroAVDoc.GetPDDoc
189     iPageEnd = objAcroPDDoc.GetNumPages - 1
190     Set objAFormApp = CreateObject("AFormAut.App")
191     Set objAFormFields = objAFormApp.Fields
192     Set objAcroPDDoc = objAcroAVDoc.GetPDDoc
193     
194     'ページ単位のテキストデータ
195     ReDim sOutData(iPageEnd) As PageLineZahyo
196     
197     For iPageNo = 0 To iPageEnd
198         
199         DoEvents    'CPUを一時的に返す
200         '頁単位で全文字列＋座標を抽出
201         
202         'Acrobat JavaScriptの編集
203         sAJS = sAcrobatJavaScript
204         sAJS = Replace(sAJS, "@P", iPageNo)
205         'Acrobat JavaScript の実行
206         sReturn = objAFormFields.ExecuteThisJavascript(sAJS)
207         sJsWk2 = Split(sReturn, vbTab)
208         
209         Debug.Print "Page=" & iPageNo + 1 & _
210             " Start-Time=" & Time & " Count=" & _
211             UBound(sJsWk2) + 1
212         
213         '結果の編集
214         i2 = -1
215         If UBound(sJsWk2) >= 0 Then
216             ReDim sTextDT(UBound(sJsWk2)) As TextZahyo
217         End If
218         
219         For i1 = 0 To UBound(sJsWk2)
220             If sJsWk2(i1) = "" Then Exit For
221             
222             sJsWk3 = Split(sJsWk2(i1), vbBack)
223             sJsQuads = Split(sJsWk3(2), ",")
224             sJsText = sJsWk3(1)
225             sJsText = Replace(sJsText, vbCr, "")
226             sJsText = Replace(sJsText, vbLf, "")
227             sJsTextOrg = sJsText
228             sJsText = Trim$(sJsText)
229             If sJsText <> "" Then
230                 i2 = i2 + 1
231                 With sTextDT(i2)
232                     .sText = sJsText
233                     .sTextOrg = sJsTextOrg
234                     .sTop = sJsQuads(JsZahyo.iTop)
235                     .sBottom = sJsQuads(JsZahyo.iBottom)
236                     .sLeft = sJsQuads(JsZahyo.iLeft)
237                     .sRight = sJsQuads(JsZahyo.iRight)
238                     '初期化
239                     .iLineNo = -1
240                     .iCenterX = -1
241                     .iCenterY = -1
242                 End With
243             End If
244         Next i1
245     
246         sOutData(iPageNo).iTextCount = i2
247         If i2 >= 0 Then
248             ReDim Preserve sTextDT(i2) As TextZahyo
249         
250             '▼全テキストの[平均の高さ]と[中心座標]を求める
251             bRet = EditYobiData(iPageNo, sOutData(), sTextDT)
252             If bRet = False Then
253                 OutSquareRects = False
254                 Exit For
255             End If
256             
257             '▼テキストの中心座標を基に全テキストのソートを行う
258             bRet = Sort_TextData(iPageNo, sOutData(), sTextDT)
259             If bRet = False Then
260                 OutSquareRects = False
261                 Exit For
262             End If
263             
264             '▼テキストデータから行データを作成
265             bRet = MargTextLine(iPageNo, sOutData(), sTextDT)
266             If bRet = False Then
267                 OutSquareRects = False
268                 Exit For
269             End If
270         End If
271         
272     Next iPageNo
273     
274     '▼ヘッダー、フッターを抽出
275     bRet = Get_Header_Footer(sOutData)
276 '    If bRet = False Then Exit Sub
277     
278     Application.Cursor = xlDefault  'マウスポインターを戻す
279     'PDFファイルを閉じる
280     If objAcroAVDoc.Close(False) = False Then
281         MsgBox "AVDocオブジェクトはClose出来ませんでした", _
282                 vbOKOnly + vbCritical, "実行エラー"
283         OutSquareRects = False
284     End If
285 
286 Skip_OutSquareRects_END:
287 
288 On Error Resume Next    'これ以降は強制実行
289 
290     Application.Cursor = xlDefault  'マウスポインターを戻す
291     '変更しないで閉じます。
292     bRet = objAcroAVDoc.Close(False)
293     'Acrobatアプリケーションの終了
294     objAcroApp.Hide
295     objAcroApp.Exit
296     'オブジェクトの強制開放
297     Set objAFormFields = Nothing
298     Set objAFormApp = Nothing
299     Set objAcroPDDoc = Nothing
300     Set objAcroAVDoc = Nothing
301     Set objAcroApp = Nothing
302 
303     Debug.Print "Total Time = " & Timer - start & _
304         " PageCnt = " & iPageEnd + 1
305     
306     Exit Function
307 
308 Err_OutSquareRects:
309     MsgBox "処理は以下の理由で中断しました。" & vbCrLf & _
310         vbCrLf & err.Number & vbCrLf & err.Description, _
311         vbOKOnly + vbCritical, "OutSquareRects：実行エラー"
312     OutSquareRects = False
313     GoTo Skip_OutSquareRects_END:
314 End Function
315 
316 '**************************************************
317 '
318 ' データの中間加工
319 '
320 '　・全テキストの平均・高さを求める
321 '　・全テキストの中心座標を求める
322 '
323 ' Create  : 2023/03/07
324 '
325 '    ※ココで求める値は整数値で十分
326 '
327 '**************************************************
328 Private Function EditYobiData( _
329     ByVal iPageNo As Long, _
330     ByRef sOutData() As PageLineZahyo, _
331     ByRef sTextDT() As TextZahyo) As Boolean
332 
333     EditYobiData = True
334     
335     Dim i1          As Long
336     Dim iAll        As Long     'テキストの高さの集計
337     Dim iHi         As Long     '計算用作業
338     
339     iAll = 0
340     For i1 = 0 To UBound(sTextDT)
341         With sTextDT(i1)
342             iHi = Round(val(.sTop) - val(.sBottom))
343             'テキストの高さの集計
344             iAll = iAll + iHi
345             'テキストの中心座標
346             .iCenterY = Round(val(.sTop) - (iHi / 2))
347             iHi = val(.sRight) - val(.sLeft)
348             .iCenterX = Round(val(.sRight) - (iHi / 2))
349             '初期化
350             .iLineNo = -1
351         End With
352     Next i1
353     
354     With sOutData(iPageNo)
355         If .iTextCount = -1 Then
356             .iAveTextY = -1
357         Else
358             'ページ単位のテキストの平均的な高さ
359             .iAveTextY = Round(iAll / (.iTextCount + 1))
360         End If
361     End With
362 
363 End Function
364 
365 '**************************************************
366 '
367 ' テキストの中心座標を基に全テキストをソートする
368 '
369 ' Create  : 2023/03/08
370 ' Update  : 2023/03/12
371 '
372 ' 注：(C1_Y_FIX=True)で行間（座標Y）が小さい場合(差:3)は
373 '　　先頭行と同じ座標Yに強制修正する。同じ行内でも
374 '　　高さが少し異なるテキストを同じ行とする為の処理です。
375 '　　このようなテキストは非常に多い。
376 '**************************************************
377 Private Function Sort_TextData( _
378     ByVal iPageNo As Long, _
379     ByRef sOutData() As PageLineZahyo, _
380     ByRef sTextDT() As TextZahyo) As Boolean
381     
382     Sort_TextData = True
383     
384     Dim iSa         As Long     '計算の差
385     Dim i1          As Long
386     Dim i2          As Long
387     Dim iEndInx     As Long
388     Dim w_sText     As String   'テキスト
389     Dim w_sTextOrg  As String   'テキスト(オリジナル)
390     Dim w_sTop      As String   '上部 座標
391     Dim w_sBottom   As String   '下部 座標
392     Dim w_sLeft     As String   '左   座標
393     Dim w_sRight    As String   '右　 座標
394     Dim w_iLineNo   As Long     '行番号
395     Dim w_iCenterX  As Long     '中心座標 X
396     Dim w_iCenterY  As Long     '中心座標 Y
397     Dim iLineSeqNo  As Long     '行番号
398     Dim iHeightAve  As Long     'テキストの平均的な高さ
399     
400     iEndInx = sOutData(iPageNo).iTextCount
401         
402     '▼Y軸座標でソート
403     If C1_SORTY Then
404     For i1 = 0 To iEndInx - 1
405         For i2 = i1 + 1 To iEndInx
406             If sTextDT(i1).iCenterY < sTextDT(i2).iCenterY Then
407                 w_sText = sTextDT(i1).sText
408                 w_sTextOrg = sTextDT(i1).sTextOrg
409                 w_sTop = sTextDT(i1).sTop
410                 w_sBottom = sTextDT(i1).sBottom
411                 w_sLeft = sTextDT(i1).sLeft
412                 w_sRight = sTextDT(i1).sRight
413                 w_iCenterX = sTextDT(i1).iCenterX
414                 w_iCenterY = sTextDT(i1).iCenterY
415                 
416                 sTextDT(i1).sText = sTextDT(i2).sText
417                 sTextDT(i1).sTextOrg = sTextDT(i2).sTextOrg
418                 sTextDT(i1).sTop = sTextDT(i2).sTop
419                 sTextDT(i1).sBottom = sTextDT(i2).sBottom
420                 sTextDT(i1).sLeft = sTextDT(i2).sLeft
421                 sTextDT(i1).sRight = sTextDT(i2).sRight
422                 sTextDT(i1).iCenterX = sTextDT(i2).iCenterX
423                 sTextDT(i1).iCenterY = sTextDT(i2).iCenterY
424             
425                 sTextDT(i2).sText = w_sText
426                 sTextDT(i2).sTextOrg = w_sTextOrg
427                 sTextDT(i2).sTop = w_sTop
428                 sTextDT(i2).sBottom = w_sBottom
429                 sTextDT(i2).sLeft = w_sLeft
430                 sTextDT(i2).sRight = w_sRight
431                 sTextDT(i2).iCenterX = w_iCenterX
432                 sTextDT(i2).iCenterY = w_iCenterY
433             End If
434         Next i2
435     Next i1
436     '微妙な座標Y誤差の修正
437     If C1_Y_FIX Then
438         For i1 = 0 To iEndInx - 1
439             iSa = Abs(sTextDT(i1).iCenterY - _
440                       sTextDT(i1 + 1).iCenterY)
441             If (0 < iSa) And (iSa <= C1_SA) Then
442                 sTextDT(i1 + 1).iCenterY = _
443                 sTextDT(i1).iCenterY
444             End If
445         Next i1
446     End If  'End IF (C1_Y_FIX)
447     End If  'End If (bSortY)
448     
449     '▼行番号を追加する。Y座標で判断する。
450     If sOutData(iPageNo).iTextCount = -1 Then
451         sOutData(iPageNo).iLineCount = -1
452     Else
453         iLineSeqNo = 1
454         iHeightAve = Round(sOutData(iPageNo).iAveTextY / C_DEV)
455         '※下記にしたら影響するのは本文のみ。
456 '        iHeightAve = 0
457         For i1 = 0 To iEndInx - 1
458             sTextDT(i1).iLineNo = iLineSeqNo
459             For i2 = i1 + 1 To iEndInx
460                 If Abs((sTextDT(i1).iCenterY - _
461                    sTextDT(i2).iCenterY)) <= iHeightAve Then
462                     '行番号を設定
463                     sTextDT(i2).iLineNo = iLineSeqNo
464                 Else
465                     i1 = i2 - 1
466                     iLineSeqNo = iLineSeqNo + 1
467                     Exit For
468                 End If
469             Next i2
470         Next i1
471         If sTextDT(iEndInx).iLineNo = -1 Then
472             sTextDT(iEndInx).iLineNo = iLineSeqNo
473         End If
474         sOutData(iPageNo).iLineCount = iLineSeqNo
475     End If
476     
477     '▼行番号単位でX軸ソート
478     If C1_SORTX Then
479     If sOutData(iPageNo).iTextCount <> -1 Then
480         iLineSeqNo = -1
481         For i1 = 0 To iEndInx - 1
482             For i2 = i1 + 1 To iEndInx
483                 If sTextDT(i1).iLineNo <> sTextDT(i2).iLineNo _
484                     Then Exit For
485                 If sTextDT(i1).iCenterX > sTextDT(i2).iCenterX Then
486                     w_sText = sTextDT(i1).sText
487                     w_sTextOrg = sTextDT(i1).sTextOrg
488                     w_sTop = sTextDT(i1).sTop
489                     w_sBottom = sTextDT(i1).sBottom
490                     w_sLeft = sTextDT(i1).sLeft
491                     w_sRight = sTextDT(i1).sRight
492                     w_iLineNo = sTextDT(i1).iLineNo
493                     w_iCenterX = sTextDT(i1).iCenterX
494                     w_iCenterY = sTextDT(i1).iCenterY
495                     
496                     sTextDT(i1).sText = sTextDT(i2).sText
497                     sTextDT(i1).sTextOrg = sTextDT(i2).sTextOrg
498                     sTextDT(i1).sTop = sTextDT(i2).sTop
499                     sTextDT(i1).sBottom = sTextDT(i2).sBottom
500                     sTextDT(i1).sLeft = sTextDT(i2).sLeft
501                     sTextDT(i1).sRight = sTextDT(i2).sRight
502                     sTextDT(i1).iLineNo = sTextDT(i2).iLineNo
503                     sTextDT(i1).iCenterX = sTextDT(i2).iCenterX
504                     sTextDT(i1).iCenterY = sTextDT(i2).iCenterY
505                 
506                     sTextDT(i2).sText = w_sText
507                     sTextDT(i2).sTextOrg = w_sTextOrg
508                     sTextDT(i2).sTop = w_sTop
509                     sTextDT(i2).sBottom = w_sBottom
510                     sTextDT(i2).sLeft = w_sLeft
511                     sTextDT(i2).sRight = w_sRight
512                     sTextDT(i2).iLineNo = w_iLineNo
513                     sTextDT(i2).iCenterX = w_iCenterX
514                     sTextDT(i2).iCenterY = w_iCenterY
515                 End If
516             Next i2
517         Next i1
518     End If
519     End If  'End If (bSortX)
520 
521 End Function
522 
523 '**************************************************
524 '
525 ' 行データを作成
526 '
527 ' Create  : 2023/03/07
528 '
529 '**************************************************
530 Private Function MargTextLine( _
531     ByVal iPageNo As Long, _
532     ByRef sOutData() As PageLineZahyo, _
533     ByRef sTextDT() As TextZahyo) As Boolean
534     MargTextLine = True
535     
536     Dim i1          As Long
537     Dim i2          As Long
538     
539     '初期化
540     For i1 = 0 To UBound(sOutData(iPageNo).sLineData)
541         sOutData(iPageNo).sLineData(i1) = ""
542         sOutData(iPageNo).iLineDataY(i1) = -1
543     Next i1
544     
545     '行番号単位に行テキストを作成
546     For i1 = 0 To UBound(sTextDT)
547         i2 = sTextDT(i1).iLineNo - 1
548         With sOutData(iPageNo)
549             .sLineData(i2) = _
550             .sLineData(i2) & sTextDT(i1).sTextOrg
551             .iLineDataY(i2) = sTextDT(i1).iCenterY
552         End With
553     Next i1
554     
555 End Function
556 
557 '**************************************************
558 '
559 ' ヘッダー、フッターの判断
560 '
561 ' Create  : 2023/03/07
562 ' Update  : 2023/03/12
563 '
564 ' 　ヘッダー、フッターの抽出条件：
565 '   文字列＋連続頁＋前後ページでの高さ(Y)が同じ
566 '
567 '   C2_LONG_HD,C2_LONG_FTをTrueにすると行間が長い行は
568 '   比較対象から外す。（推奨）
569 '
570 '**************************************************
571 Private Function Get_Header_Footer( _
572     ByRef sOutData() As PageLineZahyo) As Boolean
573     
574     Get_Header_Footer = True
575     
576     Dim iPageNo     As Long 'ページ番号
577     Dim iNextPg     As Long '次のページ番号
578     Dim i1          As Long
579     Dim i2          As Long
580     Dim iHeaderEnd  As Long 'ヘッダー最終処理の位置
581     Dim iFooterEnd  As Long 'フッター最終処理の位置
582     Dim iSa         As Long '差
583     
584     '初期化
585     For iPageNo = 0 To UBound(sOutData)
586         With sOutData(iPageNo)
587             For i1 = 0 To C_MAXLINE
588                 .bHeaderFlag(i1) = False
589                 .bFooterFlag(i1) = False
590                 .bHeaderST(i1) = False  'デバッグ用
591                 .bFooterST(i1) = False  'デバッグ用
592             Next i1
593         End With
594     Next iPageNo
595     
596     '■ヘッダー、フッター
597     For iPageNo = 0 To UBound(sOutData)
598         If sOutData(iPageNo).iLineCount < 0 Then _
599             GoTo Next_Get_Header_Footer:
600         
601         iNextPg = iPageNo + 1
602         
603         '▼ヘッダーの編集
604         iHeaderEnd = -1
605         '当ページと次ページとの比較
606         If iPageNo < UBound(sOutData) Then
607             iSa = Round(sOutData(iPageNo).iAveTextY / C_DEV)
608             For i1 = 0 To sOutData(iPageNo).iLineCount - 1
609                 If (DeleteText(sOutData(iPageNo).sLineData(i1)) = _
610                     DeleteText(sOutData(iNextPg).sLineData(i1))) _
611                        And Abs(sOutData(iPageNo).iLineDataY(i1) - _
612                                sOutData(iNextPg).iLineDataY(i1)) <= iSa _
613                     Then
614                     If C2_LONG_HD And (i1 > 0) Then
615                         '１行上との行間が大きい時はヘッダーにしない。
616                         If Abs(sOutData(iPageNo).iLineDataY(i1 - 1) - _
617                                sOutData(iPageNo).iLineDataY(i1)) > _
618                               (sOutData(iPageNo).iAveTextY * _
619                                 C2_LONG_BAI) Then
620                             Exit For
621                         End If
622                     End If
623                     sOutData(iPageNo).bHeaderFlag(i1) = True
624                     sOutData(iNextPg).bHeaderFlag(i1) = True
625                     iHeaderEnd = i1
626                 Else
627                     Exit For
628                 End If
629             Next i1
630         End If
631         For i1 = sOutData(iPageNo).iLineCount - 1 To 0 Step -1
632             If sOutData(iPageNo).bHeaderFlag(i1) Then
633                 iHeaderEnd = i1
634                 Exit For
635             End If
636         Next i1
637 
638         'ヘッダーの真下の近い行はヘッダーとする
639         If C2_SHORT_HD And (iHeaderEnd <> -1) Then
640             '真下の行はヘッダーとして取り込む
641             With sOutData(iPageNo)
642                 iSa = .iAveTextY * C2_SHORT_BAI
643                 For i2 = (iHeaderEnd + 1) To (.iLineCount - 1)
644                     If Abs(.iLineDataY(i2 - 1) - _
645                            .iLineDataY(i2)) <= iSa Then
646                         .bHeaderFlag(i2) = True
647                         .bHeaderST(i2) = True
648                     Else
649                         Exit For
650                     End If
651                 Next i2
652             End With
653         End If
654         
655         '▼フッターの編集
656         iFooterEnd = -1
657         If iPageNo < UBound(sOutData) Then
658             i2 = sOutData(iNextPg).iLineCount - 1
659             '当ページと次ページとの比較
660             If (i2 >= 0) And (iPageNo < UBound(sOutData)) Then
661                 iSa = Round(sOutData(iPageNo).iAveTextY / C_DEV)
662                 For i1 = sOutData(iPageNo).iLineCount - 1 To 0 Step -1
663                     If i1 <= iHeaderEnd Then Exit For   'ヘッダーに達した
664                     
665                     If (DeleteText(sOutData(iPageNo).sLineData(i1)) = _
666                         DeleteText(sOutData(iNextPg).sLineData(i2))) _
667                            And Abs(sOutData(iPageNo).iLineDataY(i1) - _
668                                    sOutData(iNextPg).iLineDataY(i2)) <= iSa _
669                         Then
670                         sOutData(iPageNo).bFooterFlag(i1) = True
671                         sOutData(iNextPg).bFooterFlag(i2) = True
672                         iFooterEnd = i1
673                         If C2_LONG_FT And (i1 > 0) Then
674                             '１行上との行間が大きい時は「次は」比較しない。
675                             If Abs(sOutData(iPageNo).iLineDataY(i1 - 1) - _
676                                    sOutData(iPageNo).iLineDataY(i1)) > _
677                                   (sOutData(iPageNo).iAveTextY * C2_LONG_BAI) Then
678                                   Exit For
679                             End If
680                         End If
681                     End If
682                 Next i1
683             End If
684         End If
685         For i1 = 0 To sOutData(iPageNo).iLineCount - 1
686             If sOutData(iPageNo).bFooterFlag(i1) Then
687                 iFooterEnd = i1
688                 Exit For
689             End If
690         Next i1
691         'フッターの真上の近い行はフッターとして取り込む
692         If C2_SHORT_FT And (iFooterEnd <> -1) Then
693             With sOutData(iPageNo)
694                 iSa = .iAveTextY * C2_SHORT_BAI
695                 For i1 = iFooterEnd To 1 Step -1
696                     If Abs(.iLineDataY(i1) - _
697                            .iLineDataY(i1 - 1)) <= iSa Then
698                         .bFooterFlag(i1 - 1) = True
699                         .bFooterST(i1 - 1) = True
700                     Else
701                         Exit For
702                     End If
703                 Next i1
704             End With
705         End If
706         
707 Next_Get_Header_Footer:
708     Next iPageNo
709     
710     '■ヘッダー、フッターの数を数える
711     For iPageNo = 0 To UBound(sOutData)
712         With sOutData(iPageNo)
713             .iHeaderCount = 0
714             For i1 = 0 To C_MAXLINE
715                 If .bHeaderFlag(i1) Then
716                    .iHeaderCount = .iHeaderCount + 1
717                 End If
718             Next i1
719             .iFooterCount = 0
720             For i1 = 0 To C_MAXLINE
721                 If .bFooterFlag(i1) Then
722                    .iFooterCount = .iFooterCount + 1
723                 End If
724             Next i1
725         End With
726     Next iPageNo
727     
728 End Function
729 
730 '**************************************************
731 '
732 ' ヘッダーとフッターからページ番号と日付に当たる部分を
733 ' 削除する。比較の対象から外すためです。
734 '
735 ' Create  : 2023/03/07
736 ' Update  : 2023/03/08
737 '
738 ' ※[年月日]を入れれば日付を外して比較が出来る
739 '**************************************************
740 Private Function DeleteText( _
741     ByVal sText As String) As String
742     
743     Const D_DATA = "0123456789年月日" & _
744         "#./*-=+!""$%&'()~|`[]{}@*:;<>?_\/,"
745     Dim i1      As Long
746     Dim sW      As String
747     Dim iCnt    As Long
748     
749     '連続する空白は１つにする
750     sText = Replace(sText, "   ", " ")
751     sText = Replace(sText, "  ", " ")
752     
753     For i1 = 1 To Len(D_DATA)
754         sW = Mid$(D_DATA, i1, 1)
755         sText = Replace(sText, sW, "")
756     Next i1
757     
758     DeleteText = Trim$(sText)
759 
760 End Function
761 
762 '**************************************************
763 '
764 ' 処理結果をテキスト出力する。メモ帳も起動する。
765 '
766 ' ※デバッグ用ロジック
767 '
768 ' Create  : 2023/03/07
769 ' Update  : 2023/03/11
770 '
771 '**************************************************
772 Private Sub WriteLog( _
773     ByVal sInFilePathIn As String, _
774     ByRef sOutData() As PageLineZahyo)
775     
776     Dim sLogFilePath    As String
777     Dim iFileNo         As Long
778     Dim iPageNo         As Long
779     Dim i1              As Long
780     Dim i2              As Long
781     Dim iLineC          As Long
782     Dim iTextC          As Long
783     
784     Dim sPage           As String
785     Dim iPageL          As Long
786     Dim sPrint          As String
787     Dim iSeq            As Long
788     
789     '実行中の当ファイルが格納されたフォルダのパス
790     sLogFilePath = ThisWorkbook.Path & "\"     'Excel
791     iFileNo = FreeFile()
792     sLogFilePath = ThisWorkbook.Path & "\" & "\Log-" & _
793         Format(Date, "yyyy-mmdd-") & _
794         Format(Time, "hhmm-ss") & ".txt"
795     Open sLogFilePath For Append As #iFileNo
796     
797     '見出し
798     Print #iFileNo, "Log-File = " & sLogFilePath
799     Print #iFileNo, "IN-PDF   = " & sInFilePathIn
800     
801     'ヘッダー、フッターの一覧
802     For iPageNo = 0 To UBound(sOutData)
803         With sOutData(iPageNo)
804             sPage = "Page=(" & (iPageNo + 1) & "/" & _
805                 (UBound(sOutData) + 1) & ") "
806             iPageL = Len(sPage)
807             'ヘッダー出力
808             iSeq = 1
809             For i2 = 0 To C_MAXLINE
810                 If .bHeaderFlag(i2) Then
811                     sPrint = sPage & iSeq & _
812                         ".Header(" & .sLineData(i2) & ")" & _
813                         "Y=" & .iLineDataY(i2)
814                     Print #iFileNo, sPrint
815                     sPage = Space(iPageL)
816                     iSeq = iSeq + 1
817                 End If
818             Next i2
819             'フッター出力
820             iSeq = 1
821             For i2 = 0 To C_MAXLINE
822                 If .bFooterFlag(i2) Then
823                     sPrint = sPage & iSeq & _
824                         ".Footer(" & .sLineData(i2) & ")" & _
825                         "Y=" & .iLineDataY(i2)
826                     Print #iFileNo, sPrint
827                     sPage = Space(iPageL)
828                     iSeq = iSeq + 1
829                 End If
830             Next i2
831             If Trim(sPage) <> "" Then
832                 Print #iFileNo, sPage
833             End If
834         End With
835     Next iPageNo
836     Print #iFileNo, vbCrLf & _
837         "***************************" & vbCrLf
838     
839     '各ページの作業用値の一覧
840     iLineC = 0: iTextC = 0
841     For iPageNo = 0 To UBound(sOutData)
842         With sOutData(iPageNo)
843             Print #iFileNo, _
844                 "Page=(" & (iPageNo + 1) & "/" & _
845                 (UBound(sOutData) + 1) & ")" & _
846                  " 行数=" & .iLineCount & _
847                  " テキスト数=" & .iTextCount & _
848                  " テキスト平均Y高さ=" & .iAveTextY & _
849                  " ヘッダー数=" & .iHeaderCount & _
850                  " フッター数= " & .iFooterCount
851             If (iLineC < .iLineCount) Then iLineC = .iLineCount
852             If (iTextC < .iTextCount) Then iTextC = .iTextCount
853         End With
854     Next iPageNo
855     Print #iFileNo, vbCrLf & "　最大行数=" & _
856                      iLineC & " 最大テキスト数=" & iTextC
857     Print #iFileNo, vbCrLf & "***************************"
858     
859     '行データ
860     For iPageNo = 0 To UBound(sOutData)
861         Print #iFileNo, vbCrLf & "======================="
862         With sOutData(iPageNo)
863             sPage = "Page=(" & (iPageNo + 1) & "/" & _
864                 (UBound(sOutData) + 1) & ") "
865             iPageL = Len(sPage)
866             Print #iFileNo, vbCrLf & sPage & _
867                  " テキスト数=" & .iTextCount & _
868                  " 行数=" & .iLineCount & _
869                  " テキスト平均Y高さ=" & .iAveTextY & _
870                  " ヘッダー数=" & .iHeaderCount & _
871                  " フッター数= " & .iFooterCount
872             sPage = Space(iPageL)
873             iPageL = Len(sPage)
874             
875             'ヘッダー出力
876             iSeq = 1
877             For i2 = 0 To C_MAXLINE
878                 If .bHeaderFlag(i2) Then
879                     sPrint = sPage & iSeq & _
880                         ".Header(" & .sLineData(i2) & ")" & _
881                         "Y=" & .iLineDataY(i2) & _
882                         IIf(.bHeaderST(i2), " S*", "")
883                     Print #iFileNo, sPrint
884                     sPage = Space(iPageL)
885                     iSeq = iSeq + 1
886                 End If
887             Next i2
888             
889             'フッター出力
890             iSeq = 1
891             For i2 = 0 To C_MAXLINE
892                 If .bFooterFlag(i2) Then
893                     sPrint = sPage & iSeq & _
894                         ".Footer(" & .sLineData(i2) & ")" & _
895                         "Y=" & .iLineDataY(i2) & _
896                         IIf(.bFooterST(i2), " S*", "")
897                     Print #iFileNo, sPrint
898                     sPage = Space(iPageL)
899                     iSeq = iSeq + 1
900                 End If
901             Next i2
902             Print #iFileNo, ""
903             
904             'テキスト行
905             For i2 = 0 To .iLineCount - 1
906                 Print #iFileNo, "p" & (iPageNo + 1) & " " & _
907                     (i2 + 1) & "/" & .iLineCount & _
908                     " Text=(" & .sLineData(i2) & ")" & _
909                     "Y=" & .iLineDataY(i2)
910             Next i2
911         End With
912     Next iPageNo
913     Print #iFileNo, vbCrLf & "*** EOF ***"
914     Close #iFileNo
915     
916     'メモ帳を起動
917     Dim ReturnValue
918     ReturnValue = Shell("NOTEPAD.EXE " & sLogFilePath, 1)
919 End Sub

テキストの並び替え関連の定数

テキストをY座標をもとに並び替えます。したくない時は C1_SORTY をFlaseに変更します。行単位（＝座標Yが同じ）でテキストのX座標で並び替えます。したくない時は C1_SORTX をFlaseに変更します。Y座標での並び替えを行うときに、同時にY座標の微妙な誤差（Private Const C1_SA As Long = 3）以内ならば同じ行の先頭のテキストのY座標値に強制的に変更しています。変更したくない時は C1_Y_FIX をFalseに変更します。

Private Const C1_Y_FIX As Boolean = True 'Y座標の修正
Private Const C1_SA       As Long = 3    '★差の範囲 Y座標
Private Const C1_SORTX As Boolean = True 'X軸ソートの実行
Private Const C1_SORTY As Boolean = True 'Y軸ソートの実行

ヘッダー、フッター関連の定数

ヘッダーと判断した行の真下（直下）にある行もヘッダーと見なします。したくない場合は以下の C2_SHORT_HD 定数をFalseに変更します。フッターも同様です。フッター行の真上（直上）ある行もヘッダーと見なします。したくない場合はC2_SHORT_FT 定数をFalseにします。
C2_SHORT_BAI 定数は真下、真上と判断する時の計算倍率です。テキストの高さの平均値にこの倍率を掛けて、計算します。この値を大きくすると真下、真上と判断する行が増えます。大きすぎると本文の内容を拾ってしまいます。計算の詳細はVBAソースを御覧ください。

Private Const C2_SHORT_HD As Boolean = True 'ヘッダーの真下
Private Const C2_SHORT_FT As Boolean = True 'フッターの真上
Private Const C2_SHORT_BAI = 1.3            '★行(高さ)の倍率

ヘッダーと判断した行、又はフッターと判断した行と一定以上に離れているテキストは、ヘッダー、又はフッターの判断はしない方がイイです。以下の定数でTrueを設定すると、これが機能します。離れていても判断（チェック）して欲しい時はFalseにします。デフォルトはFalseで、離れていてもヘッダー、フッターの判断をします。
C2_LONG_BAI 定数は離れる行数の最大倍率（２．５行）です。この値を大きくするとチェック対象の行が増えます。

    '行間が長い行はチェック対象から外す。
    'True：外す　False：外さない
Private Const C2_LONG_HD As Boolean = False 'ヘッダー
Private Const C2_LONG_FT As Boolean = False 'フッター
Private Const C2_LONG_BAI = 2.5            '★行(高さ)の倍率

上記のC2_SHORT_BAI 定数とC2_LONG_BAI 定数は非常に重要です。抽出漏れが有ると感じた時は迷わず値を大きくして見て下さい。

その他の定数

１ページの行数の最大は200（0～200）です。C_MAXLINEで指定してます。行の判断の計算値の分母はC_DEVで４をデフォルトにしています。

Private Const C_MAXLINE As Long = 200   'ページ中の最大行数
Private Const C_DEV As Long = 4         '差計算時の分母

当関数の評価手順

当関数付属の出力テキストファイルでフッターとヘッダーの判断結果を確認します。できるだけ種類の異なるPDFを数種類用意します。

最初は入力PDFを指定するだけで、定数は全てデフォルトにします。
次に以下の定数のTrueをFalseに、FalseをTrueに変更して再実行します。
Private Const C2_SHORT_HD As Boolean = True
Private Const C2_SHORT_FT As Boolean = True
Private Const C2_LONG_HD As Boolean = False
Private Const C2_LONG_FT As Boolean = False
定数をもとに戻し、以下の値を少しずつ大きくしてみます。
Private Const C2_SHORT_BAI = 1.3
Private Const C2_LONG_BAI = 2.5
C2_LONG_BAI定数はC2_LONG_HDとC2_LONG_FT をTrueにしないと確認できません。
時間があれば、今度は値を小さくしてみます。

出力したテキストファイルはWinMerge 日本語版等でテキスト比較を行うと簡単に違いを確認できます。

備考

下記は処理結果をテキストファイルへ出力する確認用のロジックです。メモ帳も起動します。必要なくなったら、WriteLog 処理も削除して下さい。

Call WriteLog(sInFilePathIn, sOutData)

ヘッダー、フッターに関する情報が不要の方は、OutSquareRects関数内に有る以下の部分を削除して下さい。少しは処理速度が上がります。

bRet = Get_Header_Footer(sOutData)

参照

PDF上のテキストとその座標

その他

関数内部にはデバッグ用のロジックも一部残してあります。

サイト管理者の技術メモ

これ以降はサイト管理者が当ページを管理するための技術メモです。公開用には書いていません。よって、見る必要は無いです。

関数内の数値「－１」の扱い

デバッグ時に使います。未処理だと実行エラーを発生されるようにしています。また、データが存在しなかった時の判断にも利用しています。

「Microsoft Print to PDF」と「Adobe PDF」との違い

MS Office に入っている文書をPDFにする「Microsoft Print to PDF」とAdobe Acrobatに付いている「Adobe PDF」との違いが当関数のテストで分かった。
「Microsoft Print to PDF」で作ったPDFは同じ行でもテキストの座標Yが異なるケースがかなり有る。Y座標値「２」程度だが、当関数でこれを処理すると別の行になってしまう。「Adobe PDF」で作成したPDFは元の文書が同じ行ならば座標Yは同じになる。画面表示するPDF上のテキストは同じ箇所に有るように見えるが、これをプログラムで扱うとなると別の行の文字列になってしまうのは困る。中心座標Y値が「２」しか違わないのを修正する「座標Y誤差自動修正機能」なるものを追加する。

Y座標誤差自動修正機能

「座標Y軸ソート」をしたときに、直前・直後テキストの前後のY座標の差が有り、その差が２以内の場合は、直前のY座標の値を直後のテキストのY座標に修正する。~~これが発生した時は再度「座標Y軸ソート」を行う必要が有る。~~ ＜ー勘違いしてました。再ソートは不要でした。

Y軸ソート時の中心座標Yでの強制修正：Sort_TextData関数内

同じ行の判断は中心座標Yでソートした後にC_DEVの定数を使って判断している。このソートを行うと座標Yの値によってはテキストが行内の本来の場所とは異なる場所（前後）に入ってしまうケースが出ている。それをカバーする為にソート後に「座標Y誤差の自動修正」ロジックを追加した。座標Yの差が２以下ならば前のテキストの座標Yを直後のテキストの座標Yにセットする。

この後にテキストから行データを作成する処理（関数：MargTextLine）で、前後のテキストの座標Y値がテキストの平均高さの１／４かの判断を行っている。同一行の判断のために。コレはコレで必要な処理、と思う。

微妙な誤差は強制修正が必要だが、ある程度の差は通常の計算値として通常に使用する必要が有る。上記はそうゆう話。

使えない画像

せっかく作ったのに、どこの文章にも使えない画像。

以上。