llama.cpp 是一个开源项目,专为高效推理设计,支持在 CPU、轻量级 GPU 和边缘设备上运行大规模语言模型。该项目主要使用 C/C++ 编写,适合开发人员和研究人员,满足不同场景下的嵌入式应用需求。
vLLM 是一个高吞吐量和内存友好的开源推理与服务引擎,专为部署大规模语言模型服务的团队设计。它适合从事自然语言处理和对话系统开发的人员,能够有效提升模型推理的效率并降低资源消耗。通过使用 vLLM,团队可以更便捷地实现和优化大模型的部署。
本地运行开源模型的热门工具,适合企业内网试验和个人本地部署。
面向桌面端本地模型试用与管理的工具,适合非工程同学快速体验本地模型。