AI Open Source · Category
本地跑大模型、推理引擎、量化与服务化。
In this category
7
items
Ollama 提供本地一键拉起 LLM 的方式,覆盖 Llama、Qwen、Gemma、 DeepSeek、GLM 等常见开源模型。命令行 ollama run 就能起一个本地 OpenAI 兼容接口,研究者拿来做离线推理、隐私敏感数据处理很方便。
Hugging Face 的 transformers 库是文本、视觉、语音、多模态模型的 事实标准实现层,既能跑推理也能做训练与微调。复现论文模型、加载 Hub 上的权重、写自定义模型类时几乎都会走它。
llama.cpp 用纯 C/C++ 实现 LLM 推理,把开源大模型压到 CPU、 Apple Silicon、低配 GPU 上也能跑得动。GGUF 量化格式、Ollama 的底层都依赖它。本地部署、边缘端推理走这条路线。
vLLM 是面向服务端的高吞吐 LLM 推理引擎,靠 PagedAttention 等机 制把 GPU 显存利用率拉上去。自己搭模型服务、需要同时撑很多并发 请求、跑评测吞吐对比时是主流选型。
MLC-LLM 基于 TVM 编译栈,把 LLM 编译到各种异构硬件上跑,包括 iOS、Android、WebGPU、AMD、NVIDIA 等平台。需要把模型部署到非 主流硬件、或在浏览器里直接跑模型时用得上。
Hugging Face 的 TGI 是面向生产的文本生成服务框架,支持 BLOOM、 Falcon、StarCoder、GPT 系列等模型的高效推理。和 vLLM 算同类, Hugging Face 自家 Inference Endpoints 背后用的就是它。
LM Studio 的 TypeScript SDK,把 LM Studio 桌面端跑的本地模型暴 露给 Node 应用调用。喜欢用 LM Studio 的图形界面管理本地模型、 又想从 TypeScript 代码里接入推理结果时走这个 SDK。