llama.cpp 推理 pipline

llama.cpp 使用 GGUF 模型进行推理流程。code aspect

加载 GGUF 文件，解析权重和配置

将权重加载到内存（支持内存映射 mmap 以减少内存占用）。

初始化上下文（llama_context），包括 KV 缓存（用于加速多轮对话）和计算图。

llama.cpp 文件中：

llama_model *model = llama_model_load_from_file(model_path, params);
llama_context * lctx = llama_init_from_model(model, cparams);

将输入文本（prompt）通过分词器（tokenizer）转换为 token ID 序列。分词器信息通常存储在 GGUF 文件中，llama.cpp 使用它将文本编码为输入向量。

llama.cpp 中

std::vector<llama_token> tokens = llama_tokenize(model, prompt, true);

llama.cpp 构建了一个推理 pipeline，基于 GGUF 文件中的配置，首先执行 Transformer 的前向传播。包括：

在构建Graph时，就已经添加了 kv-cache 图节点，存储注意力机制的中间结果，加速多轮推理。

然后通过采样chain（如贪婪采样、Top-K、Top-P）从 logits 中选择下一个 token。

最后将生成的 token 序列通过分词器解码为文本。

比如当我执行 llama-cli 时，就会体现上述 pipline 。

llama.cpp 项目通过其提供的各种工具（ llama-cli、llama-server、llama-quantize 等）作为 entry point 。entry 通过调用核心的推理逻辑和相关组件来实现功能。

其中最小的 entry 就是 llama-simple & llama-chat。阅读这两个应用。

这里所谓的动态构建其实是，llama.cpp 事先在 code 中编码了常见的几乎所有开源的模型架构。详见 llama-model.cpp 文件。共有 74 个 LLMs 结构，Grok…

详见后续