llama_load

GGUF モデルをロード

llama_load "model.gguf", n_ctx, n_gpu_layers, var_h

"model.gguf"  : GGUF ファイルパス
n_ctx         : コンテキスト長 (0 指定時 2048)
n_gpu_layers  : GPU へオフロードするレイヤ数 (0=CPU のみ, 99=全部)
var_h         : セッションハンドル (>=0) または負のエラーコード

(プラグイン / モジュール : hspllama.dll)

解説

モデルをロードしてコンテキストを作成します。4 スロットまで同時保持可能。

エラーコード:
  -1  : ハンドル満杯
  -2  : モデルロード失敗 (ファイル不正 / メモリ不足)
  -3  : コンテキスト作成失敗
 -100 : llama.cpp 未リンク (スタブビルド)

サンプル逆引き (1)

sample_llama.hsp

情報

プラグイン / モジュールhspllama.dll
バージョン1.0
作成日2026-04-15
著作者IronHSP / hspllama
URLhttps://github.com/inovia/IronHSP
備考hspllama.dll は llama.cpp (https://github.com/ggerganov/llama.cpp)
embed した local LLM 推論プラグインです。HSP から GGUF 形式の
量子化済モデルを読み込み、同期または streaming で補完 / チャットが
可能です。

ビルドには llama.cpp の static lib または dll 配置が必要です。
plugins/win32/hspllama/third_party/llamacpp/README.md の手順で
CMake ビルド → hspllama.vcxproj に lib を追加してください。
llama.cpp 未配置でもスタブとしてビルドは通ります (実推論は不可)。

同時に 4 モデルまで保持できます。LLM は VRAM / RAM を大量に
消費するので、使わないモデルは llama_close で速やかに開放して
ください。

iron_ai.hsp に LOCAL_LLAMA バックエンドを追加しており、
通常は iron_ai_set_backend / iron_ai_chat 経由で呼び出すのが
簡単です (iron_ai.hsp 参照)。
タイプ拡張命令
グループhspllama ― セッション
対応環境
  • その他 : Win32 / Win64
hs ファイルhsphelp\hspllama.hs