AI Open Source · Category
文档问答、向量库、检索增强生成、web 抓取。
In this category
7
items
微软维护的 Python 工具,把 PDF、Word、Excel、PPT 等 Office 文档 和常见格式统一转成 markdown。做 RAG 数据预处理、给 LLM 喂结构 干净的文本时是趁手的第一步,也常配合 LangChain、AutoGen 使用。
Firecrawl 把网页抓取、清洗、转 markdown 这条链路打包给 AI agent 用,输出可直接喂 LLM 的干净文本。做联网搜索、构建网页索引、 给 agent 加 web context 时常用它替代手写 scraper。
RAGFlow 是开源的 RAG 引擎,把检索增强和 agent 能力结合起来做成 完整的 context 层。支持复杂文档解析、agentic retrieval、混合检 索等机制,适合搭企业知识库这类对召回质量敏感的场景。
云原生的高性能向量数据库,专攻大规模向量近似最近邻搜索。底层支持 DiskANN、 Faiss 等多种索引,分布式架构能扛住十亿级 embedding 的检索负载。生物医药文本 检索、跨模态相似性搜索、企业级 RAG 后端常用它做向量存储层。
用 Rust 写的向量数据库与搜索引擎,强调单机性能与混合检索能力。支持 HNSW 索引、payload 过滤、稀疏与稠密向量混合查询,适合需要把 embedding 相似度和 结构化条件一起搜的场景,例如带元数据筛选的语义搜索、图像检索。
面向 AI 应用的轻量级向量数据库,主打开发者友好。原本是 Python embedded 库,现在底层重写为 Rust。在 RAG 原型、Agent 长期记忆这类场景里,因为 API 简洁、上手成本低,常被用作起步阶段的向量存储。
开源向量数据库,把对象和向量一起存,支持向量相似度检索与结构化字段过滤 混合查询。生成式搜索模块可以直接对接 LLM 做 RAG。云原生设计带来横向扩展 和容错,常见于知识库检索、多模态检索这类企业应用。