hspllama.dll

Version 1.0 Date 2026-04-15 Author IronHSP / hspllama

目次 (5 グループ / 11 ページ)

hspllama ― ストリーミング 3

hspllama ― セッション 2

hspllama ― メタ情報 2

hspllama ― 初期化 / 終了 2

hspllama ― 推論 2

hspllama ― ストリーミング

llama_stream_begin
ストリーミング開始
ストリーミング推論を開始します。以後 llama_stream_next をループで呼ぶと 1 トークンずつ (token piece の文字列) が返ります。空文字列が返ったら終了です。

llama_stream_end
ストリーミング終了
..

llama_stream_next
次のトークンを取得
ストリーミング中に次のトークン片を var_token_str に格納します。空文字列が返った場合は EOS か max_tokens 到達です。 var_token_str は事前に sdim で十分なサイズを確保し、その sdim サイズを buf_size に指定してください。

hspllama ― セッション

llama_close
セッションを閉じる
..

llama_load
GGUF モデルをロード
モデルをロードしてコンテキストを作成します。4 スロットまで同時保持可能。

hspllama ― メタ情報

llama_n_ctx
コンテキスト長を取得
..

llama_n_vocab
語彙サイズを取得
..

hspllama ― 初期化 / 終了

llama_init
llama.cpp バックエンド初期化
ggml backend を初期化します。アプリ起動時に 1 回だけ呼び出します。

llama_shutdown
llama.cpp バックエンド終了
..

hspllama ― 推論

llama_chat
chat 形式の補完 (同期, chat template 適用)
モデル組み込みの chat template を適用して system + user を適切な形式に整形し、assistant の返答を生成します。 var_result_str は事前に sdim で十分なサイズを確保し、その sdim サイズを buf_size に指定してください。

llama_complete
単発補完 (同期)
プロンプトを流し込み、最大 max_tokens 個のトークンを生成して結果文字列を var_result_str に格納します。EOS トークンに到達した時点で打ち切られます。