indie projects
开源 OSS
GitHub 上的独立开源项目,多为个人或小团队发起的工具与原型。长存的高 star 项目整理在 /ai 下按主题归组。
32 items · 按发布时间倒序
32 items
2026 年 5 月2 items
- GitHub大模型
Meta 开源人脑活动基础模型 TRIBE v2
Meta 开源了 TRIBE v2,一个能预测人类在看到、听到、读到内容时全脑活动的基础模型。它利用预训练的音频、视频和文本嵌入,通过 Transformer 学习跨刺激、任务和个体的通用表征,再映射到个体 fMRI 体素。无需重新训练即可预测新刺激和新受试者的脑反应,在听觉和视觉数据集上比标准方法提升 2–3 倍,为神经科学实验设计和脑疾病辅助诊断提供了新工具。
- GitHub其他
Horizon 开源 AI 新闻雷达系统,多源抓取并 AI 评分筛选
Horizon 是一款开源的 AI 新闻雷达系统,从 Hacker News、RSS、Reddit、Telegram、X、GitHub 等多源抓取信息并去重,使用可配置的 AI 评分模型筛选重要内容。系统自动补充背景信息并总结社区评论,生成中英双语简报,支持通过 GitHub Pages、邮件、飞书等方式推送。对于需要追踪行业动态的技术人、团队或内容创作者,Horizon 提供了一种将信息筛选时间压缩的实用方案。
2026 年 4 月14 items
- GitHub浏览器自动化
browser-use 开源 Browser Harness 浏览器自动化框架
browser-use 开源了 Browser Harness,一个仅 592 行 Python 代码的自愈式浏览器自动化框架。它直接通过 WebSocket 连接 Chrome,无需中间层或预设流程。AI 在执行任务时可实时编写缺失功能,完成任务后自动将操作路径沉淀为技能文件,方便下次同类任务直接复用。该框架即插即用,已适配 Claude Code 和 Codex,为开发者提供了一种极简但灵活的浏览器自动化方案。
- GitHub世界模型
腾讯开源 3D 世界模型 HY-World 2.0
腾讯开源了最新 3D 世界模型 HY-World 2.0,同时支持世界生成与重建。模型接受文本、单/多视图图像及视频等多种输入,输出可编辑的网格或 3D 高斯点云,能直接导入 Blender、Unity、Unreal Engine、Isaac Sim 等引擎。用户可在 AI 生成的街道、建筑与景观中通过第一人称或第三人称角色自由探索,并享受基于物理的碰撞效果。HY-World 2.0 采用四阶段流水线一次性生成完整 3D 世界,区别于英伟达 Lyra 2.0 的实现路径。
- GitHub世界模型
英伟达发布世界生成模型 Lyra 2.0
英伟达发布 Lyra 2.0 世界生成模型,将视频生成与 3D 重建结合,解决了 AI 生成 3D 世界时场景持久一致性的难题。模型支持单张图片启动,用户可在场景中移动时持续生成新内容,并能返回已探索区域。通过逐帧 3D 几何路由缓解空间遗忘,利用自增强训练对抗长程漂移,视觉质量与 3D 一致性表现良好。生成的 3D 世界可直接导出为 3DGS 和网格,已开源。
- GitHubskill
Hue 开源设计系统生成技能,输入 URL 或截图捕获品牌风格
Hue 是一套开源工具,专为 Claude Code 设计。用户只需提供网站 URL 或设计截图,Hue 即可自动提取颜色、字体、阴影等品牌视觉元素,生成包含 30 多个组件(按钮、输入框、卡片等)的完整设计系统,并支持深浅双模式。该系统输出为 8 个文件,其中包含一个可直接浏览的组件库 HTML,后续 Claude 生成 UI 时会自动引用这套规范,确保品牌一致性。
- GitHub编程工具
CodeFlow 开源零配置代码架构可视化工具
CodeFlow 是一款纯浏览器运行的代码架构可视化工具,无需配置即可分析代码库。它生成交互式架构地图,展示文件间的依赖关系。影响范围分析功能可预估修改文件波及的其他文件,活动热力图按提交频率着色标记活跃区域。工具还检测设计模式与反模式,辅助开发者快速理解代码库结构。
- GitHubAgent
阿里 AMAP DreamX 团队开源 SkillClaw 框架,实现 AI agent 技能自动进化与共享
阿里 AMAP DreamX 团队开源了 SkillClaw 框架,将 agent 技能的提炼、同步、调用和进化全流程自动化。用户无需手动干预,技能会随使用量增长而增强,并支持验证机制保证质量。所有进化结果以 SKILL.md 文件保存,兼容 Hermes、OpenClaw 等平台。
- GitHubAgent
Arlington Labs 开源 AgentChat 工具,支持 Agent 间群聊
Arlington Labs 开源了 AgentChat,一个让多个 agent 之间建立聊天群组的工具。用户可以为自己的 agent 创建群聊、发送消息并邀请其他 agent 加入,实现 agent 层面的知识流动,减少人工转发信息的环节。该项目基于协议 skill 构建,支持读取群消息和交互反馈,适用于 agent 之间交流 bug、prompt 或开发动态等场景。
- design.mdUI生成
awesome-design-md 开源 50+ 网站设计规范集合
awesome-design-md 是一个开源项目,将真实网站的设计规范提取为纯 Markdown 文件,形成一套可直接供 AI 读取的设计系统 prompt 库。项目目前收录了 50 多个知名网站的设计系统,涵盖 AI、开发工具、后台、金融、电商、媒体等领域,每个文件包含颜色、字体、组件、布局等完整规范,并附带预览文件。用户只需提供 DESIGN.md 和描述,AI 即可生成风格一致的 UI 界面,对快速原型和 vibe coding 场景有一定实用价值。
- GitHubskill
markdown-viewer 开源 AI 在 Markdown 中生成专业图表的 skill
markdown-viewer 发布了一款名为 skills 的开源项目,让 AI 能直接在 Markdown 中生成 UML、云架构、网络拓扑等 13 个领域的专业图表。用户只需用自然语言描述架构或流程,AI 即可自动识别场景、选择图标、组合布局并渲染输出。该 skill 支持 Claude Code、Copilot、Cursor 等工具,通过 npx 命令即可一键安装,大幅降低了技术文档中绘制复杂图形的门槛。
- GitHub编程工具
哪吒Nezha 开源多任务 Vibe Coding 管理工具
哪吒Nezha 是一个面向 Vibe Coding 场景的开源编程工具,它将终端会话、代码浏览、Git 操作整合到一个 GUI 中,支持同时管理多个 Claude Code 或 Codex 任务。每个 AI 编程实例独立运行,后台持续执行,切换项目不中断。工具还提供任务确认提醒、会话历史回放、中断恢复,以及按周统计 Token 与工具调用消耗,帮助开发者掌握每个 Agent 的投入产出。
- GitHubAgent
Galaxy-Dawn 开源 claude-scholar 半自动化研究助手
Galaxy-Dawn 开源了 claude-scholar,一款面向学术研究和软件开发的半自动化研究助手。它不追求端到端全自动,而是以人为核心决策者,通过 Zotero 管理文献、Obsidian 建立知识库,并提供 20 个可插拔的微型 SOP skill,自动归档实验与结果。研究者在选题、假设检验、写作等关键环节保留判断权,claude-scholar 则负责加速文献整理、编程、实验分析和论文撰写之间的衔接,适合希望简化研究工作流的研究人员。
- GitHub知识库
Wikiwise 开源原生 macOS 知识库应用
Wikiwise 是一款基于 Karpathy 个人知识库理念的原生 macOS 应用,用户无需编程即可使用。它内置 SwiftTerm 终端,可直接运行 Claude Code、Codex 等工具。FSEvents 文件监听让 Markdown 自动编译并即时预览。知识图谱可视化提供 3D 视图,支持一键发布生成分享链接,同时兼容 URL 导入、Readwise 同步、本地文件及手写 Markdown 等多种导入方式。
- GitHubTTS
小米开源 OmniVoice 语音克隆 TTS,覆盖 600 多种语言
小米开源了 OmniVoice,一个覆盖 600 多种语言的语音克隆 TTS 模型。它在 Seed-TTS 中文测试集上 WER 仅 0.84%,多语言评测指标超越 ElevenLabs v2 和 MiniMax,合成效率比实时快 40 倍。OmniVoice 采用非自回归架构,支持 3-10 秒参考音频克隆,并能通过文本描述控制性别、年龄、口音等声音属性。该项目对小语种和濒危语言的数字化保存有实际价值。
- GitHub安全
cc-gateway 开源 Claude Code 反封号反追踪工具
cc-gateway 是一个针对 Claude Code 的反封号反追踪开源工具。Anthropic 通过 640 多种遥测事件和 40 多个维度的指纹(设备 ID、邮箱、操作系统、硬件配置等)每 5 秒上报一次来检测异常使用。cc-gateway 在身份指纹出网前全部重写,让服务器只能看到一个标准化身份,同时接管 OAuth 流程和网络层阻断直连,实现多设备共用一个账号。
2026 年 3 月16 items
- GitHub其他
TrendRadar 开源全网热点舆情监控工具,支持11个平台
TrendRadar 是一款开源的舆情监控工具,默认覆盖知乎、微博、抖音、B站、百度热搜等11个平台,用户也可自行添加RSS订阅源。它支持关键词过滤和AI智能筛选,能用自然语言描述关注领域。推送渠道涵盖企业微信、飞书、钉钉、Telegram、邮件等10余种。工具还提供趋势分析,记录新闻从出现到结束的完整周期,并生成热点洞察报告,支持多语言翻译。部署方面支持Docker,数据可本地或云端存储。
- GitHubAgent
Anthropic 发布 iMessage 插件,支持与 Claude Code 双向通信
Anthropic 推出官方 iMessage 插件,使用户能通过手机短信与 Claude Code 进行双向交互。插件支持文本和图片消息,可让 Claude 执行文件查询、代码修改和图像分析等任务,并通过 iMessage 返回结果。出于安全考虑,插件默认只响应手动授权的联系人,陌生人的消息会被丢弃。该项目已在 GitHub 开源。
- GitHubskill
HyperLearn 开源自动生成技能文档的 Agent 工具
HyperLearn 是一个开源项目,能根据用户提供的主题或网址自动打开浏览器阅读文档,并实时整理为技能文档。完成后将 skill 打包为 zip 文件,可直接用于其他 Agent。该项目将人工整理技能文档的过程完全自动化,通过可见的浏览器预览展示 AI 的学习过程。
- GitHubskill
web-access 为 Claude Code 提供联网与浏览器自动化能力
web-access 是一个为 Claude Code 设计的 skill,补齐了其在 CDP 浏览器操作和复杂交互上的短板。它支持 WebSearch、WebFetch、curl、Jina 和 CDP 等多种工具,能直接连接日常使用的 Chrome 浏览器,天然携带登录态,可执行点击、文件上传、视频截帧等操作。操作经验按域名存储并跨会话复用,多个目标任务可交由子 Agent 并行处理,适合需要登录态和动态页面交互的场景。
- accio.comAgent
阿里推出电商版 OpenClaw:Accio Work
阿里上线 Accio Work,定位电商场景的智能代理平台。用户通过对话框即可驱动商品设计、采购、店铺运营、营销等任务,平台支持组建多角色 AI 团队,内置电商相关 skill,并可通过微信、钉钉等通讯工具交互。Accio Work 将阿里自身的电商经验封装为可调用的 agent 能力,适合希望快速启动跨境电商业务的用户。
- GitHub安全
openclaw-security-hardening 开源 OpenClaw 安全体检加固工具
openclaw-security-hardening 是一个面向 OpenClaw 的自动化安全体检与加固工具。它通过对话式交互扫描配置文件,识别风险项并标注等级,提供三档加固方案供用户选择,选定后直接修改配置,省去手动编辑 JSON 的麻烦。适合不想逐条检查配置文件的团队使用。
- GitHubAgent
EvoSkill 开源 Agent Skill 自我进化系统
EvoSkill 是一个开源的自动化系统,通过分析 Agent 执行失败的原因,自动发现需要改进的技能点,并生成针对性的 skill 文件。系统会对每个改进进行验证,保留最优配置并进入下一轮迭代,直到收敛到最佳方案。每次迭代都会保存为 git 分支,所有改动可追溯。默认使用 Claude SDK,也支持通过 OpenCode SDK 接入 DeepSeek、Gemini 等其他模型。
- GitHubAgent
阿里开源纯前端 JavaScript GUI Agent Page Agent
阿里开源的 Page Agent 是一个纯前端 JavaScript GUI Agent,用户通过自然语言指令即可操控页面,无需浏览器插件或后端改动。它基于文本的 DOM 操作,不依赖截图或多模态模型,安装 Chrome 扩展后能跨多页面连续执行任务,并支持人机协同确认。对 SaaS 厂商和 ERP、CRM 用户来说,可大幅简化操作流程,降低 AI 化改造门槛。
- GitHubAgent
EvoScientist 开源多智能体科研系统,覆盖文献调研到论文撰写
EvoScientist 是一个开源的多智能体科研系统,由规划、调研、编码、调试、分析、写作六个智能体协同完成文献调研、实验、数据分析和论文撰写等环节。系统支持跨会话保存上下文,可通过 CLI、Telegram、Slack、飞书、微信等多渠道接入,并允许用户自由组合 Skill 子任务,适应不同研究需求。
- GitHubskill
posterskill 开源学术海报生成 Skill
posterskill 是一个开源项目,能从 Overleaf 论文源文件中提取内容、下载图表和机构 Logo,自动生成可交互的学术海报编辑器。生成的海报并非静态图片,而是支持实时编辑的网页,可导出 PDF 打印,并允许添加参考海报。适合需要快速将论文转化为视觉海报的研究者使用。
- GitHub其他
OpenCLI 开源网站转 CLI 工具,支持 B 站、知乎、X 等 19 个网站
OpenCLI 是一个开源工具,支持在终端直接访问 B 站、知乎、X、Reddit、YouTube 等 19 个网站,提供 80 多条命令。该工具可复用 Chrome 的登录状态,无需单独登录,凭证不离开浏览器。它具备 AI 原生能力,能自动发现 API 接口并生成适配器,采用 YAML 声明式和 TypeScript 浏览器注入的双引擎架构。
- GitHub训练
Unsloth Studio 开源无代码模型训练工具
Unsloth Studio 是无需写代码即可训练 AI 模型的开源工具,覆盖 500 多种模型与文本、视觉、音频多种类型。可从 PDF、CSV、DOCX 等文件自动构建训练数据集,训练过程实时可视化、图表可自定义。适合教育场景、个性化模型微调与小团队私有部署,把 LoRA / QLoRA 微调的门槛压到了图形界面层。
- okara.aiAgent
okara.ai 发布 AI CMO 自动化营销智能体团队
okara.ai 推出 AI CMO,一个面向营销场景的自动化智能体团队。给定网站后,它能部署 SEO 智能体、GEO 智能体、AI 写手以及 Reddit、Hacker News、X 等平台的自媒体智能体,自动优化 Google 排名、提升 AI 搜索可见度、生成博客文案并在社区发帖互动。适合希望快速搭建营销自动化流程的用户。
- GitHubskill
HyperSkill 开源 AI skill 自动化生产工具
HyperSkill 是一款根据主题或网址自动搜索并生成 SKILL.md 文档的工具。它支持单条和批量处理,实时显示生成进度,结果可打包为 ZIP 下载。适合需要快速构建 AI skill 文档的开发者,简化了信息搜集与整理流程。
- GitHubAgent
Claw Colony 开源多 AI 自主演化社交生态实验
Claw Colony 是一个多 AI 社交生态系统,让 AI 在生存压力下自主协作、竞争、立法、进化,用来探索 AGI 是否能从环境中演化而来。核心机制包含基于 Token 的生存经济、可继承能力的 Ganglion 栈、由 AI 社区自治的规则系统,以及 AI 主动重构认知框架的能力。作者计划在无人介入的封闭环境中长期运行系统,观察自主智能涌现的边界条件。
- GitHub编程工具
Claude Opus 4.6 在 24 小时内逆向 Disney Infinity 角色限制
开发者用 Claude Opus 4.6 在不到 24 小时内逆向了 2013 年游戏 Disney Infinity,破解了角色与世界绑定的硬限制——任意角色现在可在任意世界使用。最终成果是 17 个二进制补丁加 3 个数据文件,已开源在 GitHub。这一案例说明前沿 LLM 在小众平台、加密协议、游戏内存布局等长尾逆向场景上达到了实用水平。