hspllama.dll
Version 1.0
Date 2026-04-15
Author IronHSP / hspllama
目次 (5 グループ / 11 ページ)
hspllama ― ストリーミング
llama_stream_begin
ストリーミング開始
ストリーミング推論を開始します。以後 llama_stream_next を
ループで呼ぶと 1 トークンずつ (token piece の文字列) が
返ります。空文字列が返ったら終了です。
llama_stream_next
次のトークンを取得
ストリーミング中に次のトークン片を var_token_str に格納します。
空文字列が返った場合は EOS か max_tokens 到達です。
var_token_str は事前に sdim で十分なサイズを確保し、その sdim
サイズを buf_size に指定してください。
hspllama ― セッション
llama_load
GGUF モデルをロード
モデルをロードしてコンテキストを作成します。4 スロットまで同時保持可能。
hspllama ― メタ情報
hspllama ― 初期化 / 終了
llama_init
llama.cpp バックエンド初期化
ggml backend を初期化します。アプリ起動時に 1 回だけ呼び出します。
hspllama ― 推論
llama_chat
chat 形式の補完 (同期, chat template 適用)
モデル組み込みの chat template を適用して system + user を
適切な形式に整形し、assistant の返答を生成します。
var_result_str は事前に sdim で十分なサイズを確保し、その sdim
サイズを buf_size に指定してください。
llama_complete
単発補完 (同期)
プロンプトを流し込み、最大 max_tokens 個のトークンを生成して
結果文字列を var_result_str に格納します。EOS トークンに到達した
時点で打ち切られます。