深度学习-74-大语言模型LLM之基于API与llama.cpp启动的模型进行交互-CFANZ编程社区

深度学习-74-大语言模型LLM之基于API与llama.cpp启动的模型进行交互

1 大模型量化方法

大语言模型的参数通常以高精度浮点数存储，这导致模型推理需要大量计算资源。

量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储，可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效，也更具可行性。

GPTQ: Post-Training Quantization for GPT Models

GPTQ是一种4位量化的训练后量化(PTQ)方法，主要关注GPU推理和性能。

该方法背后的思想是，尝试通过最小化该权重的均方误差将所有权重压缩到4位。在推理过程中，它将动态地将其权重去量化为float16，以提高性能。

GPTQ常用4bit，8bit量化。

GGUF：GPT-Generated Unified Format

GGUF(以前称为GGML)是一种量化方法，允许用户使用CPU来运行LLM，但也可以将其某些层加载到GPU以提高速度。

虽然使用CPU进行推理通常比使用GPU慢，但对于那些在CPU或苹果设备上运行模型的人来说，这是一种非常好的格式。

0 条评论