ページのテキストを取得
pdf_get_text hid, page, var_str, buf_size
hid : ハンドル page : ページ番号 var_str : 結果を受け取る str 変数 (sdim 済) buf_size : var_str に sdim で確保したバッファサイズ
(プラグイン / モジュール : hsppdf.dll)
ページ内の全テキストを UTF-16 で取得し、CP_ACP (cp932) に変換して var_str に書き込みます。PDF 側が日本語フォントを埋め込んでいれば 正しく取得できますが、outline 化された PDF や非対応フォントは 空文字になる場合があります。 var_str は `sdim s, 65536` 等で十分なサイズを確保してから渡して ください。確保した sdim サイズを buf_size に指定します。 iron_pdf.hsp の pdf_text ラッパは refstr で文字列を返すため、 バッファ確保は不要です。 iron_ai と組み合わせて「PDF 全文要約」を作る場合は、ページ毎に pdf_get_text で取り出して結合してから ai_chat に投げます。長大な PDF は N ページずつ chunk して map-reduce 要約するのが現実的です。
| pdf_doc_title | ドキュメントの /Title メタデータを取得 | (hsppdf.dll) |
| pdf_doc_author | ドキュメントの /Author メタデータを取得 | (hsppdf.dll) |
| プラグイン / モジュール | hsppdf.dll |
| バージョン | 1.0 |
| 作成日 | 2026-04-15 |
| 著作者 | IronHSP / hsppdf |
| URL | https://github.com/inovia/IronHSP |
| 備考 | hsppdf.dll は Google PDFium (bblanchon/pdfium-binaries の prebuilt ~7 MB)
を embed した薄いプラグインです。HSP から PDF ファイルを開き、ページ数 の取得、ラスタライズ (ビットマップ化)、テキスト抽出、メタデータ参照が できます。 PDFium 本体 (pdfium.dll) は別途 bblanchon のリリースから DL して hsppdf.dll と同じディレクトリに配置する必要があります。詳しくは plugins/win32/hsppdf/third_party/pdfium/README.md を参照してください。 プラグイン未配置時は stub として全関数が -100 / 空文字を返します。 HSP からは package/win32/common/iron_pdf.hsp を include して pdf_open / pdf_draw / pdf_text 等の糖衣 API を使うのが推奨です。 本ヘルプは生 API の説明です。 ドキュメントハンドルは 16 並列まで同時に保持できます。使い終わった ものは pdf_close で解放してください。 iron_ai との連携で PDF 要約を書く場合は、pdf_page_count で全ページ数を 取り、pdf_get_text を順に呼んで CP_ACP 文字列を結合してから ai_chat / ai_complete に投げます (iron_ai 側で chunk 分割が必要な場合あり)。 |
| タイプ | 拡張命令 |
| グループ | hsppdf ― テキスト |
| 対応環境 |
|
| hs ファイル | hsphelp\hsppdf.hs |