pdf_get_text

ページのテキストを取得

pdf_get_text hid, page, var_str, buf_size

hid      : ハンドル
page     : ページ番号
var_str  : 結果を受け取る str 変数 (sdim 済)
buf_size : var_str に sdim で確保したバッファサイズ

(プラグイン / モジュール : hsppdf.dll)

解説

ページ内の全テキストを UTF-16 で取得し、CP_ACP (cp932) に変換して
var_str に書き込みます。PDF 側が日本語フォントを埋め込んでいれば
正しく取得できますが、outline 化された PDF や非対応フォントは
空文字になる場合があります。

var_str は `sdim s, 65536` 等で十分なサイズを確保してから渡して
ください。確保した sdim サイズを buf_size に指定します。
iron_pdf.hsp の pdf_text ラッパは refstr で文字列を返すため、
バッファ確保は不要です。

iron_ai と組み合わせて「PDF 全文要約」を作る場合は、ページ毎に
pdf_get_text で取り出して結合してから ai_chat に投げます。長大な
PDF は N ページずつ chunk して map-reduce 要約するのが現実的です。

関連項目

pdf_doc_titleドキュメントの /Title メタデータを取得(hsppdf.dll)
pdf_doc_authorドキュメントの /Author メタデータを取得(hsppdf.dll)

情報

プラグイン / モジュールhsppdf.dll
バージョン1.0
作成日2026-04-15
著作者IronHSP / hsppdf
URLhttps://github.com/inovia/IronHSP
備考hsppdf.dll は Google PDFium (bblanchon/pdfium-binaries の prebuilt ~7 MB)
を embed した薄いプラグインです。HSP から PDF ファイルを開き、ページ数
の取得、ラスタライズ (ビットマップ化)、テキスト抽出、メタデータ参照が
できます。

PDFium 本体 (pdfium.dll) は別途 bblanchon のリリースから DL して
hsppdf.dll と同じディレクトリに配置する必要があります。詳しくは
plugins/win32/hsppdf/third_party/pdfium/README.md を参照してください。
プラグイン未配置時は stub として全関数が -100 / 空文字を返します。

HSP からは package/win32/common/iron_pdf.hsp を include して
pdf_open / pdf_draw / pdf_text 等の糖衣 API を使うのが推奨です。
本ヘルプは生 API の説明です。

ドキュメントハンドルは 16 並列まで同時に保持できます。使い終わった
ものは pdf_close で解放してください。

iron_ai との連携で PDF 要約を書く場合は、pdf_page_count で全ページ数を
取り、pdf_get_text を順に呼んで CP_ACP 文字列を結合してから
ai_chat / ai_complete に投げます (iron_ai 側で chunk 分割が必要な場合あり)。
タイプ拡張命令
グループhsppdf ― テキスト
対応環境
  • その他 : Win32 / Win64
hs ファイルhsphelp\hsppdf.hs