AI Open Source · Category

模型推理与部署

本地跑大模型、推理引擎、量化与服务化。

In this category

items

Ollama 提供本地一键拉起 LLM 的方式，覆盖 Llama、Qwen、Gemma、 DeepSeek、GLM 等常见开源模型。命令行 ollama run 就能起一个本地 OpenAI 兼容接口，研究者拿来做离线推理、隐私敏感数据处理很方便。

Hugging Face 的 transformers 库是文本、视觉、语音、多模态模型的事实标准实现层，既能跑推理也能做训练与微调。复现论文模型、加载 Hub 上的权重、写自定义模型类时几乎都会走它。

llama.cpp 用纯 C/C++ 实现 LLM 推理，把开源大模型压到 CPU、 Apple Silicon、低配 GPU 上也能跑得动。GGUF 量化格式、Ollama 的底层都依赖它。本地部署、边缘端推理走这条路线。

vLLM 是面向服务端的高吞吐 LLM 推理引擎，靠 PagedAttention 等机制把 GPU 显存利用率拉上去。自己搭模型服务、需要同时撑很多并发请求、跑评测吞吐对比时是主流选型。

MLC-LLM 基于 TVM 编译栈，把 LLM 编译到各种异构硬件上跑，包括 iOS、Android、WebGPU、AMD、NVIDIA 等平台。需要把模型部署到非主流硬件、或在浏览器里直接跑模型时用得上。

Hugging Face 的 TGI 是面向生产的文本生成服务框架，支持 BLOOM、 Falcon、StarCoder、GPT 系列等模型的高效推理。和 vLLM 算同类， Hugging Face 自家 Inference Endpoints 背后用的就是它。

LM Studio 的 TypeScript SDK，把 LM Studio 桌面端跑的本地模型暴露给 Node 应用调用。喜欢用 LM Studio 的图形界面管理本地模型、又想从 TypeScript 代码里接入推理结果时走这个 SDK。