AI Labs · 厂商一手发布
102 itemsOpenAI、Anthropic、DeepMind、Google AI、NVIDIA、Mistral、Meta AI、xAI 的官方公告,覆盖新模型与新能力发布。
- Mistral大模型
Mistral 发布 Mistral Small 4
Mistral 推出 Mistral Small 4,一款面向低延迟与本地部署场景的轻量级语言模型。该模型在保持较小参数规模的同时,优化了推理速度与多语言能力,适合在边缘设备或资源受限环境中运行。Mistral Small 4 延续了 Mistral 系列高效、开放的路线,为开发者提供了又一个兼顾性能与部署灵活性的选择。
阅读详情
- Meta AI大模型
Meta AI 发布 Muse Spark 模型
Meta AI 推出 Muse Spark,一款面向个人超级智能场景的新模型。该模型在推理、多模态理解和个性化交互方面进行了深度优化,旨在让 AI 更贴近个人用户的实际需求。Muse Spark 的发布标志着 Meta 在通用智能与个性化之间寻找平衡的重要一步,也为未来个人 AI 助手的发展提供了新的技术方向。
阅读详情
- Meta AI其他
Meta 两年内推出四款 MTIA 芯片
Meta 自研的 AI 加速芯片 MTIA 在过去两年间已推出四款,涵盖训练与推理场景。这些芯片专为 Meta 的社交网络、推荐系统及生成式 AI 工作负载设计,旨在以更低功耗提供更高算力。最新一代芯片在性能与能效上均有显著提升,帮助 Meta 在数十亿用户规模的 AI 应用中降低成本、提升响应速度。
阅读详情
- xAI大模型
xAI 发布 Grok 4.1 Fast 与 Agent Tools API
xAI 推出 Grok 4.1 Fast,这是 Grok 系列的最新快速推理版本,同时开放了 Agent Tools API,允许开发者将 Grok 的对话与工具调用能力集成到自主 agent 工作流中。新模型在推理速度和指令遵循上做了针对性优化,API 支持函数调用、代码执行和外部数据检索,为构建端到端 agent 应用提供了更直接的入口。
阅读详情
- xAI大模型
xAI 发布 Grok 4.1
xAI 正式推出 Grok 4.1,这是其最新一代语言模型。新模型。新版本在推理、编程和指令遵循等核心能力上均有提升,并优化了长上下文处理与多轮对话表现。Grok 4.1 的发布为开发者与用户提供了更强大的 AI 交互基础。
阅读详情
- xAI大模型
xAI 发布 Grok 4 Fast
xAI 发布 Grok 4 Fast,该版本针对推理速度进行了优化,相比标准 Grok 4 降低了响应延迟。模型现已在 X Premium+ 订阅和 API 中上线,适用于需要快速交互的对话和 agent 场景。
阅读详情
- xAI大模型
xAI 发布 Grok 4
xAI 正式发布 Grok 4,这是其新一代大语言模型,在推理、编码和指令遵循方面相比前代有显著提升。Grok 4 采用更大规模的训练数据和优化架构,支持更长的上下文窗口,并增强了多轮对话的连贯性。该模型目前已在 xAI 平台上开放使用,后续将逐步集成到更多应用中。
阅读详情
- xAI大模型
xAI 发布 Grok 3 Beta
xAI 正式推出 Grok 3 测试版,强调推理能力的跃升。新模型在前代基础上强化了逻辑推理、多步骤问题解决和 agent 式任务执行,能够自主拆解复杂指令并逐步验证结果。Grok 3 Beta 的发布标志着 xAI 从对话助手向推理 agent 平台过渡,为后续更高级的自主智能体奠定了基础。
阅读详情
- xAI大模型
xAI 向所有用户开放 Grok
xAI 宣布将 Grok 开放给所有用户,不再局限于 X Premium 订阅者。Grok 是 xAI 开发的大语言模型,以对话模型,以实时信息获取和幽默风格为特色。此次开放意味着更广泛的用户群体可以直接体验 Grok 的问答能力,无需付费订阅 X 平台。xAI 此举旨在扩大用户基础,并收集更多反馈以持续改进模型性能。
阅读详情
- xAI图像模型
xAI 发布 Grok 图像生成功能
xAI 在 Grok 中加入了图像生成能力,用户可通过文字描述实时生成图片。该功能基于自研模型,并融入了对话上下文理解,使生成的图像更贴合用户意图。此次更新让 Grok 从纯文本模型扩展至多模态交互,为用户提供了更丰富的表达方式。
阅读详情
- xAI大模型
xAI 发布 Grok-2 测试版
xAI 推出 Grok-2 测试版,这是其第二代大语言模型,在推理、编码和指令跟随方面较前代有显著提升。Grok-2 同时具备图像理解能力,可处理视觉输入并生成回答,扩展了多模态交互场景。该模型已在 X 平台上对 Premium 用户开放体验,xAI 还同步提供了 API 接口供开发者接入。
阅读详情
- Mistral大模型
Mistral 发布 Mistral Medium 3.5 及 Vibe 远程 Agent
Mistral 发布 Mistral Medium 3.5 模型,并将其直接整合到 Vibe 平台中,提供远程编码 Agent 能力,开发者可通过自然语言描述在云端执行代码编写与调试等任务。同时,Le Chat 新增 Work mode,针对需要多步推理的复杂任务优化了上下文处理与对话管理。
阅读详情
中文厂商 · Chinese vendors
5 items阿里通义、月之暗面、小米、智谱、字节、腾讯等中文厂商的模型与产品发布,含 HuggingFace 上托管的中文模型卡。
- HuggingFace大模型
月之暗面开源 Kimi K2.6,聚焦编程与智能体集群
月之暗面开源了 Kimi K2.6,这是一款在编程、长程执行和智能体集群方面有显著提升的模型。它能在单次任务中执行超过 4000 次工具调用,持续运行 12 小时以上,并支持跨语言和跨任务类型的泛化。Kimi K2.6 还引入了智能体集群能力,单次运行可调度 300 个并行子智能体,每个子智能体可执行 4000 步操作,一个提示词就能生成 100 多个文件。在部分编码 benchmark 上,该模型追平或领先 GPT 5.4 和 Opus 4.6。
阅读详情
- Alibaba CloudASR
阿里通义实验室发布 Fun-ASR 1.5
阿里通义实验室发布 Fun-ASR 1.5,单模型即可覆盖30种语言、汉语七大方言体系及20余种地方口音,古诗词字符级准确率达97%。相比上一代,典型方言场景字符错误率下降56.2%,其中5种方言准确率超90%、15种超80%。模型能还原方言特色词汇,并支持同一段对话中30种语言跨语种混合切换,适用于方言纪录片、法律笔录、国学课程等场景。
阅读详情
- HuggingFace大模型
阿里开源 Qwen3.6-35B-A3B 智能体编程模型
阿里开源 Qwen3.6-35B-A3B,一款总参数 35B、仅激活 3B 的 MoE 模型,专为智能体编程与推理任务设计。相比前代 Qwen3.5-35B-A3B,其智能体编程能力显著提升,在 Claw-Eval 上超越 Qwen3.5-27B。同时具备原生多模态能力,在大多数视觉语言基准上表现与 Claude Sonnet 4.5 持平,例如 RefCOCO 达 92.0、ODInW13 成绩亮眼。模型已在 HuggingFace 和 ModelScope 开源。
阅读详情
- HuggingFace其他
阿里发布 PrismAudio 环境音/音效模型
阿里发布了 PrismAudio 环境音与音效生成模型,参数量 5.18 亿,生成 9 秒音频仅需 0.63 秒。该模型将强化学习与思维链结合,先推理再生成匹配画面的声音,在声画同步和音质清晰度上表现不错。模型权重已在 HuggingFace 和 ModelScope 开源。
阅读详情
- mimo.xiaomi.com大模型
小米发布全栈 Agent 模型 MiMo-V2-Pro、Omni、TTS
小米推出全栈 Agent 模型系列 MiMo-V2-Pro、Omni 和 TTS,从传统 Chat 模型转向 Agent 原生设计。MiMo-V2-Pro 拥有 100 万 token 上下文窗口,采用 7:1 混合注意力机制和 MTP 推理,强调低延迟和低成本。MiMo-V2-Omni 支持多模态感知与自动化任务,MiMo-V2-TTS 结合语音建模与强化学习,支持方言。官方表示稳定后将开源。
阅读详情
学术 · research & papers
46 itemsarXiv 预印本、Nature 等期刊以及研究机构博客(research.google 等)的 AI 相关原始研究。
- HuggingFace PapersAgent
Nexus 发布时间序列预测 agent 框架
Nexus 是一个面向时间序列预测的 agent 框架,将预测任务拆解、建模、集成、推理等环节交由多个专门 agent 协作完成。该框架把链式思维与反思机制引入时序预测,支持数据预处理、模型选择、结果校验的自动化编排。Nexus 在多个公开数据集上取得领先效果,为时间序列分析提供了 agent 化的新范式。
阅读详情
- HuggingFace Papers训练
自适应教师暴露方法用于 LLM 推理自蒸馏
这篇论文提出一种自适应教师暴露策略,用于大语言模型推理任务中的自蒸馏。传统自蒸馏固定使用教师模型输出,而该方法动态调整教师暴露程度,在训练早期更多依赖教师指导,后期逐渐减少,从而缓解过拟合并提升学生模型的推理能力。实验表明,该方法在数学推理和常识推理基准上均优于固定蒸馏方案,为自蒸馏训练提供了更灵活的范式。
阅读详情
- HuggingFace Papers训练
RewardHarness 提出自进化 agent 后训练方法
RewardHarness 是一种面向 agent 的自进化后训练方法,通过将奖励信号与 agent 行为动态耦合,使模型在交互过程中持续优化决策策略。该方法无需人工标注大量偏好数据,而是利用 agent 自身在环境中的反馈形成闭环训练,显著提升了复杂任务中的泛化能力与适应性。论文在多个基准上验证了其有效性,为 agent 训练提供了新的范式。
阅读详情
- HuggingFace Papers大模型
HuggingFace 发布 Dynamic Latent Routing 论文
HuggingFace 推出 Dynamic Latent Routing 方法,旨在优化大模型推理路径。该技术通过动态调整 latent 空间中的路由策略,提升模型在多任务场景下的效率与准确性。论文展示了其在减少计算开销的同时保持性能的优势,为模型推理架构提供了新思路。
阅读详情
- HuggingFace Papers训练
随机少样本指导提升可验证奖励强化学习性能
HuggingFace 新研究提出一种通过随机选取的少样本指导来增强基于可验证奖励的强化学习方法。该方法在训练中引入高质量示范,帮助模型更高效地探索奖励信号明确的策略空间,在数学推理等任务上取得提升,为 RLVR 训练范式提供了轻量的实用改进。
阅读详情
- HuggingFace Papers大模型
BEAM 提出二进制专家激活掩码实现 MoE 动态路由
该论文提出 BEAM(二进制专家激活掩码)方法,通过可学习的二进制掩码动态选择专家参与计算,替代传统门控网络。实验表明,BEAM 在保持模型性能的同时显著降低计算开销,为混合专家模型的高效推理提供新思路。
阅读详情
- HuggingFace Papers评测
视频世界模型几何一致性定量评估方法
该研究提出一种针对视频世界模型的几何一致性定量评估方法。现有世界模型评估多依赖视觉质量或下游任务指标,缺乏对三维几何结构保持能力的直接度量。论文设计了包含相机运动、物体形变等场景的测试集,并引入基于多视图几何的评分指标,可量化模型在生成视频时对空间一致性的保持程度。实验在多个主流视频生成模型上验证了方法的有效性,为世界模型的几何能力评估提供了标准化工具。
阅读详情
- HuggingFace PapersAgent
SPIN 提出基于迭代导航的结构化 LLM 规划方法
SPIN 是一种面向工业任务的结构化 LLM 规划方法。它让大模型通过迭代导航在复杂流程中逐步生成可执行的步骤序列,将任务分解为多个子目标,每次规划后根据环境反馈修正路径。论文在多个真实工业数据集上验证了效果,为 LLM 在自动化流程中的应用提供了新的思路。
阅读详情
- HuggingFace Papers训练
Hodge 分解实现保拓扑神经网络算子学习
该研究将 Hodge 分解引入神经网络算子学习,在保持数据拓扑结构的前提下提升模型对几何与物理场的建模能力。通过显式分解外微分算子,网络在流体仿真、电磁场预测等任务上展现出更好的局部细节保持与全局拓扑一致性,为科学计算中的神经算子设计提供了新的理论工具。
阅读详情
- HuggingFace Papers评测
HuggingFace 发布 PreScam 诈骗对话预测基准
HuggingFace 联合研究团队发布 PreScam 基准,用于从早期对话中预测诈骗行为的演变趋势。该基准聚焦对话起始阶段的细微信号,为反欺诈系统提供可量化的评估标准。研究团队构建了包含真实诈骗对话的数据集,并设计了多维度评测指标,覆盖诈骗话术识别、意图预测与风险等级判定。PreScam 的推出填补了诈骗早期检测领域的评测空白,有助于推动对话安全与用户保护技术的标准化发展。
阅读详情
- HuggingFace Papers世界模型
SANA-WM 提出 Hybrid Linear Diffusion Transformer 实现分钟级世界建模
SANA-WM 提出基于混合线性扩散 Transformer 的世界模型,能够在分钟级时间尺度上生成可交互的虚拟环境。该方法在保持环境动态建模精度的同时减少了计算需求,为机器人训练和仿真应用提供了新的技术路径。
阅读详情
- HuggingFace Papers视频生成模型
RAVEN 发布实时自回归视频外推模型
RAVEN 提出了一种基于一致性模型 GRPO 的实时自回归视频外推方法。该模型能够根据已有视频帧,实时生成后续帧,实现视频的连续扩展。RAVEN 在保持生成质量的同时,显著提升了推理速度,为视频生成与编辑领域提供了新的技术路径。
阅读详情
开源 OSS · indie projects
42 itemsGitHub 上的独立开源项目,多为个人或小团队发起的工具与原型。长存的高 star 项目整理在 /ai 下按主题归组。
- r/LocalLLaMA评测
llama.cpp 在 RTX 5090 上测试 Qwen3.6 MTP 支持
用户在 RTX 5090 上测试 llama.cpp 的 MTP(多 token 预测)功能,搭配 Qwen3.6 模型。由于官方 docker 镜像尚未合并最新代码,需从源码构建 CUDA 版本。该测试展示了 llama.cpp 对新一代模型架构的支持进展,为社区提供了实际性能参考。
阅读详情
- GitHub大模型
Meta 开源人脑活动基础模型 TRIBE v2
Meta 开源了 TRIBE v2,一个能预测人类在看到、听到、读到内容时全脑活动的基础模型。它利用预训练的音频、视频和文本嵌入,通过 Transformer 学习跨刺激、任务和个体的通用表征,再映射到个体 fMRI 体素。无需重新训练即可预测新刺激和新受试者的脑反应,在听觉和视觉数据集上比标准方法提升 2–3 倍,为神经科学实验设计和脑疾病辅助诊断提供了新工具。
阅读详情
- r/LocalLLaMA大模型
社区发布 G4-Meromero-31B-uncensored-heretic 微调模型
社区开发者基于 Gemma 4 31B 微调了 G4-Meromero-31B-uncensored-heretic 模型,专为创意写作等任务设计,大幅降低了拒绝率。模型同时提供 Safetensors 和 GGUF 两种格式,方便本地部署与推理。
阅读详情
- r/LocalLLaMA评测
用户对比 Strix Halo、RTX 3090 与 RTX 5070 的模型推理性能
一位用户在 r/LocalLLaMA 分享了他对 Strix Halo、RTX 3090 和 RTX 5070 三款硬件的模型推理速度对比测试。他搭建了测试框架,公开了所有运行数据的 YAML 文件,涵盖 55 次运行、五个推理后端 rocm vulkan cpu cuda 和 vllm-cuda 以及多种模型。这项独立评测为社区提供了可直接对比的实测数据,有助于了解不同硬件在本地大模型推理上的实际表现。
阅读详情
- r/LocalLLaMA大模型
社区发布 Gemma 4 31B 创意写作微调模型 Ortenzya
社区开发者 llmfan46 基于 Gemma 4 31B 指令版进行了创意写作微调,推出 Ortenzya 模型。该模型旨在提升英文写作的自然度和散文质量,适合小说、故事等创意场景。模型同时提供 Safetensors 和 GGUF 格式,方便本地部署和量化使用。
阅读详情
- r/LocalLLaMA评测
用户对比 Qwen 3.6 本地量化版与前沿模型的编程能力
一位用户在 Reddit 上分享了对 Qwen 3.6 本地量化版本与前沿模型在单文件 HTML Canvas 动画编程任务上的对比测试。实验围绕密集的编码原语展开,并附带了结果与 GIF 演示。这类社区驱动的评测为开发者了解本地模型在实际编程场景中的表现提供了直观参考。
阅读详情
- r/LocalLLaMA大模型
Strix Halo 发布 Llama.cpp MTP 基准测试:27B 提速显著,35B 表现不一
Strix Halo 在 Llama.cpp 上对 Qwen3.6 的 27B 与 35B 模型进行了 MTP 基准测试。结果显示,27B-MTP 相比基础版在生成速度上提升超过 111%,总耗时缩短约 11.5%,但提示处理速度略有下降。35B 模型的表现则较为复杂,未呈现一致加速。这一测试为本地大模型部署提供了有价值的性能参考。
阅读详情
- r/LocalLLaMA大模型
llama.cpp 合并多 token 预测(MTP)支持
llama.cpp 项目正式合并多 token 预测支持,相关 PR #22673 已进入主分支。这一功能允许模型在推理时同时预测多个后续 token,有望提升生成速度与解码效率,为本地大模型部署带来实用的性能改进。
阅读详情
- r/LocalLLaMA训练
llama.cpp 即将支持 MTP 多 token 预测
llama.cpp 社区传来消息,MTP(多 token 预测)功能即将被合并进主分支。这项技术能让模型在单次前向传播中同时预测多个后续 token,从而提升推理吞吐量并降低延迟。对于在本地运行大模型的用户来说,这意味着一项重要的性能优化即将到来。
阅读详情
- r/MachineLearning其他
ArXiv 拟对含 LLM 幻觉引用的论文作者实施一年封禁引发争议
ArXiv 提议对发表包含幻觉引用或明显 LLM 生成痕迹论文的作者及合著者实施一年封禁,这一政策在社区引发强烈反弹。机器学习领域学者 Thomas Dietterich 在社交媒体上分享该提案后,争议迅速升温。反对者认为,封禁可能误伤无意犯错的研究者,且难以界定“明显 LLM 痕迹”的标准。该讨论折射出学术出版界在应对 AI 生成内容时的两难处境。
阅读详情
- r/MachineLearning其他
arXiv 实施 1 年封禁,针对含 LLM 生成错误证据的论文
arXiv 针对论文中 LLM 生成错误如幻觉引用推出新规,一旦证实即禁发一年。这是学术出版领域对 AI 泛滥的首次强硬回应,直接冲击近期依赖大语言模型撰写论文的风气。arXiv 机器学习板块主持人托马斯·迪特里希在 X 上宣布,封禁令旨在遏制引用幻觉等系统性不可靠内容,重新捍卫同行评议的底线。此举可能重塑预印本平台对 AI 论文的评审标准。
阅读详情
- GitHub其他
Horizon 开源 AI 新闻雷达系统,多源抓取并 AI 评分筛选
Horizon 是一款开源的 AI 新闻雷达系统,从 Hacker News、RSS、Reddit、Telegram、X、GitHub 等多源抓取信息并去重,使用可配置的 AI 评分模型筛选重要内容。系统自动补充背景信息并总结社区评论,生成中英双语简报,支持通过 GitHub Pages、邮件、飞书等方式推送。对于需要追踪行业动态的技术人、团队或内容创作者,Horizon 提供了一种将信息筛选时间压缩的实用方案。
阅读详情
Hacker News · AI
15 itemsHow to buy cheap Claude tokens in China
chinatalk.media25 · 8 comments ·Zerostack – A Unix-inspired coding agent written in pure Rust
crates.io449 · 223 comments ·I tried to make Claude make me money on open-source bounties
github.com36 · 23 comments ·OpenAI and Government of Malta partner to roll out ChatGPT Plus to all citizens
openai.com226 · 273 comments ·DeepSeek-V4-Flash means LLM steering is interesting again
seangoedecke.com242 · 73 comments ·A Meta employee gets real about the horror of working there
sfstandard.com96 · 91 comments ·SANA-WM, a 2.6B open-source world model for 1-minute 720p video
nvlabs.github.io356 · 140 comments ·OpenClaw Creator Spent $1.3M on OpenAI Tokens in 30 Days
twitter.com151 · 191 comments ·The 52-Page Memo That Nearly Destroyed OpenAI: Ilya Sutskever's Deposition
medium.com35 · 6 comments ·OpenAI's KOSA Endorsement Is Regulatory Capture with a Smiley Face
techdirt.com15 · 0 comments ·Show HN: Sx – an open-source package manager for AI skills, MCPs, and commands
github.com47 · 25 comments ·OpenAI is connecting ChatGPT to bank accounts via Plaid
firethering.com110 · 137 comments ·UK sovereign LLM inference
relax.ai107 · 113 comments ·Show HN: Find the best local LLM for your hardware, ranked by benchmarks
github.com283 · 67 comments ·Where's Ed: Anthropic Told Court $5B but Public $19B
flyingpenguin.com54 · 43 comments ·
GitHub · 上升中
15 itemsaffaan-m/everything-claude-code
185kThe agent harness performance optimization system. Skills, instincts, memory, security, and research-first development for Claude Code, Codex, Opencode, Cursor and beyond.
JavaScriptpushed · createdSignificant-Gravitas/AutoGPT
184kAutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission is to provide the tools, so that you can focus on what matters.
Pythonpushed · createdollama/ollama
172kGet up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.
Gopushed · createdf/prompts.chat
162kf.k.a. Awesome ChatGPT Prompts. Share, discover, and collect prompts from the community. Free and open source — self-host for your organization with complete privacy.
HTMLpushed · createdhuggingface/transformers
161k🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
Pythonpushed · createdNousResearch/hermes-agent
154kThe agent that grows with you
Pythonpushed · createdlanggenius/dify
142kProduction-ready platform for agentic workflow development.
TypeScriptpushed · createdopen-webui/open-webui
137kUser-friendly AI Interface (Supports Ollama, OpenAI API, ...)
Pythonpushed · createdlangchain-ai/langchain
137kThe agent engineering platform.
Pythonpushed · createdfirecrawl/firecrawl
121k🔥 Search, scrape, and clean the web for AI agents.
TypeScriptpushed · createdChatGPTNextWeb/NextChat
88k✨ Light and Fast AI Assistant. Support: Web | iOS | MacOS | Android | Linux | Windows
TypeScriptpushed · creatednextlevelbuilder/ui-ux-pro-max-skill
80kAn AI SKILL that provide design intelligence for building professional UI/UX multiple platforms
Pythonpushed · createdlobehub/lobehub
77kLobeHub organizes your agents into 7×24 operation. It hires, schedules, reports on your entire AI team. You stay in charge — without staying online.
TypeScriptpushed · createdthedotmack/claude-mem
76kPersistent Context Across Sessions for Every Agent – Captures everything your agent does during sessions, compresses it with AI, and injects relevant context back into future sessions. Works with Claude Code, OpenClaw, Codex, Gemini, Hermes, Copilot, OpenCode + More
TypeScriptpushed · createdbytedance/deer-flow
68kAn open-source long-horizon SuperAgent harness that researches, codes, and creates. With the help of sandboxes, memories, tools, skill, subagents and message gateway, it handles different levels of tasks that could take minutes to hours.
Pythonpushed · created
数据由 GitHub Actions cron 每 6 小时跑一次 scripts/extract-content.mjs 与 scripts/extract-feed.mjs 从 HackerNews Algolia、GitHub Search 与 8 家 AI lab 一手发布源抓取,过 LLM 打分归类后 commit 回仓库随构建部署。访客 0 外部请求。