厂商一手发布
AI Labs
OpenAI、Anthropic、DeepMind、Google AI、NVIDIA、Mistral、Meta AI、xAI 的官方公告,覆盖新模型与新能力发布。
109 items · 按发布时间倒序
109 items
2026 年 5 月32 items
- Meta AI其他
Meta AI 将 DINO 模型应用于英国政府绿地项目
Meta AI 发布博客,介绍其自监督视觉模型 DINO 在英国政府项目中的应用。Forest Research 利用 DINO 分析卫星与航拍图像,自动识别绿地分布与变化,替代传统人工巡查,降低政府成本的同时提升公众对绿地的访问便利性。这一案例展示了基础视觉模型在公共治理中的落地潜力,也为开源模型在非商业场景的价值提供了实证。
- Meta AI大模型
Meta AI 发布 Muse Spark 模型
Meta AI 推出 Muse Spark,一款面向个人超级智能场景的新模型。该模型在推理、多模态理解和个性化交互方面进行了深度优化,旨在让 AI 更贴近个人用户的实际需求。Muse Spark 的发布标志着 Meta 在通用智能与个性化之间寻找平衡的重要一步,也为未来个人 AI 助手的发展提供了新的技术方向。
- Meta AI其他
Meta 两年内推出四款 MTIA 芯片
Meta 自研的 AI 加速芯片 MTIA 在过去两年间已推出四款,涵盖训练与推理场景。这些芯片专为 Meta 的社交网络、推荐系统及生成式 AI 工作负载设计,旨在以更低功耗提供更高算力。最新一代芯片在性能与能效上均有显著提升,帮助 Meta 在数十亿用户规模的 AI 应用中降低成本、提升响应速度。
- Meta AI图像模型
Meta 发布 SAM 3.1 实时视频检测与追踪模型
Meta 发布 SAM 3.1 模型,专为实时视频检测与追踪设计。通过多路复用与全局推理机制,在保持分割精度的同时显著提升推理效率,降低算力需求。SAM 3.1 支持灵活交互式分割,可应用于视频编辑、自动驾驶感知、安防监控等动态场景,进一步拓展了 Segment Anything 系列在视频领域的应用。
- Meta AI大模型
Meta AI 发布 TRIBE v2 脑预测基础模型
Meta AI 推出 TRIBE v2,一个预测性基础模型,用于理解人脑在复杂刺激下的处理机制。该模型基于大规模神经影像数据训练,可预测大脑对视觉、语言等刺激的反应,为认知神经科学提供新的计算工具。TRIBE v2 在多个脑区泛化能力上相比前代有显著提升,有助于揭示脑功能组织原则。
- Meta AI图像模型
Meta AI 发布 Canopy Height Maps v2 全球森林冠层高度地图
Meta AI 与世界资源研究所合作推出 Canopy Height Maps v2,利用 DINO 自监督视觉模型从卫星影像中生成更高精度的全球森林冠层高度数据。新版本在空间分辨率和覆盖完整性上均有显著提升,为碳汇估算、生物多样性监测和森林管理提供了更可靠的基础数据。
- xAIAgent
xAI 将 Grok 接入 Hermes Agent 框架
xAI 宣布将 Grok 模型接入 Hermes Agent 框架,使 Grok 能够调用外部工具、执行多步推理并自主完成任务。Hermes Agent 是一个开源的多智能体协作系统,支持任务规划、工具调用和结果验证。此次集成意味着 Grok 从对话模型扩展为可执行实际操作的 agent,开发者可通过 API 让 Grok 自主完成网页浏览、代码执行、数据查询等复杂工作流。
- xAI编程工具
xAI 推出 Grok Build CLI 工具
xAI 发布了 Grok Build,一款面向开发者的命令行工具。它让用户可以直接在终端中调用 Grok 模型进行代码生成、调试和项目构建,无需离开命令行环境。Grok Build 支持多种编程语言,并能与现有开发工作流衔接,为开发者提供了一种新的 AI 辅助编程方式。
- xAI图像模型
xAI 推出 Grok Imagine 质量模式 API
xAI 为 Grok Imagine 图像生成模型新增了质量模式 API。开发者可以通过参数调整图片的细节丰富度与渲染精度。该模式在保持原有生成速度的基础上,提升了纹理、光影和复杂构图的表现力,适用于对视觉质量有更高要求的应用场景。此次更新并未改变模型架构,而是优化了采样策略和后处理流程,为图像生成类产品提供了更灵活的质量控制选项。
- Meta AI训练
Meta AI 分享扩展 AI 构建与测试的经验
Meta AI 发表博客,介绍其在构建和测试最先进 AI 模型时如何规模化基础设施与流程。文章详述了分布式训练、自动化测试、以及资源调度方面的工程实践,旨在提升模型开发效率与可靠性。这些方法为训练更大规模、更高性能的 AI 系统提供了可参考的工程框架。
- Meta AI图像模型
Meta 的 Segment Anything 被 Alta Daily 用于数字衣橱应用
Alta Daily 将 Meta 的 Segment Anything 模型集成到其时尚应用中,用于自动分割衣物图像。用户上传照片后,模型可识别并分离单件衣物,省去手动裁剪的步骤。这一应用展示了 Segment Anything 在垂直场景中的实用价值。
- Meta AI其他
Meta AI 借助 DINO 和 SAM 改进医疗分诊实践
Meta AI 与宾夕法尼亚大学合作,将计算机视觉模型 DINO 和 SAM 应用于医疗分诊流程。通过分析急诊室照片中的环境线索,模型能够自动识别患者等待时间、床位占用情况等关键信息,帮助医护人员更高效地分配资源。这项实践展示了预训练视觉模型在真实医疗场景中的落地价值,有望减少患者等待时间。
- xAI其他
Connectors in web, iOS, and Android
Grok 在网页、iOS 和 Android 端上线了 Connectors 功能,允许用户将 Grok 与外部数据源或服务连接,扩展对话助手的上下文获取能力。这一更新让 Grok 在实用性和信息整合上更进一步,适合需要实时或个性化信息的场景。
- OpenAIAgent
Databricks 将 GPT-5.5 接入企业 agent 工作流
Databricks 宣布将 OpenAI 的 GPT-5.5 模型集成到其企业 agent 工作流平台中。该模型在 OfficeQA Pro 基准测试上取得了新的最优成绩,能够更好地处理复杂的办公文档问答任务。这一合作意味着企业用户可以在 Databricks 的数据智能环境中,直接调用 GPT-5.5 构建自动化 agent,用于文档分析、报告生成等场景,降低了部署前沿模型的门槛。
- OpenAI其他
OpenAI 在 ChatGPT 中推出个人财务管理体验
OpenAI 面向美国 Pro 用户预览 ChatGPT 的个人财务管理功能。用户可安全关联银行账户,让 AI 基于个人财务背景、目标和优先级提供洞察与建议。该功能将对话式 AI 引入日常理财场景,但当前仅限美国地区且需 Pro 订阅。
- OpenAI编程工具
OpenAI 推出 Codex 移动端远程操控功能
OpenAI 将 Codex 编程 agent 的能力延伸至 ChatGPT 移动端。用户现在可以在手机上实时监控、引导和审批代码任务,支持跨设备和远程环境操作。这一更新让开发者不必守在桌面端就能管理 AI 编程工作流,提升了 agent 在真实开发场景中的可用性和协作效率。
- OpenAI安全
OpenAI 更新 ChatGPT 安全功能,提升敏感对话上下文感知
OpenAI 为 ChatGPT 推出安全更新,重点改进模型在敏感对话中的上下文识别能力。新机制让模型能随时间动态检测风险信号,在涉及心理健康、暴力等话题时做出更谨慎的回应。这项更新不改变模型核心能力,但通过更细粒度的上下文理解减少误判,属于安全对齐方向的渐进式改进。
- OpenAI编程工具
OpenAI 为 Codex 构建 Windows 安全沙箱
OpenAI 分享了为 Codex 在 Windows 上构建安全沙箱的技术方案。该沙箱通过限制文件访问和网络权限,使编程 agent 能在受控环境中安全运行,兼顾效率与安全性。这一设计为开发者使用 Codex 进行 Windows 平台自动化编码提供了更可靠的基础设施。
- OpenAI安全
OpenAI 回应 TanStack npm 供应链攻击并更新安全措施
OpenAI 针对 TanStack 的“Mini Shai-Hulud”npm 供应链攻击发布详细回应,说明了已采取的系统保护措施和签名证书加固方案,并解释了 macOS 用户须在 2026 年 6 月 12 日前更新 OpenAI 应用的原因。事件波及范围与后续加固方案一并公开。
- Anthropic大模型
Anthropic 推出 Claude for Small Business
Anthropic 面向小企业推出专用版 Claude,简化了部署和定价流程。企业用户可直接使用 Claude 完成文案起草、客户沟通、数据分析等日常任务,无需复杂技术配置。这一服务降低了 AI 工具在小团队中的使用门槛,推动生成式 AI 在更广泛商业场景中落地。
- OpenAI编程工具
OpenAI 发布 NVIDIA 工程师使用 Codex 的案例
OpenAI 分享了 NVIDIA 工程师与研究人员如何借助 Codex 和 GPT-5.5 将研究想法快速转化为可运行的实验,并交付生产系统。这一案例展示了 Codex 在复杂工程环境中的实际落地能力,为大型团队使用 AI 编程助手提供了参考。
- OpenAI评测
OpenAI 总结 Parameter Golf 竞赛对 AI 辅助研究的启示
OpenAI 回顾了 Parameter Golf 竞赛的成果,这场活动吸引了超过 1000 名参与者和 2000 多份提交,聚焦于在严格参数限制下利用 AI 辅助进行机器学习研究、编码 agent、量化及新型模型设计。竞赛展示了 AI 在加速研究探索方面的潜力,也揭示了当前模型在复杂推理和约束优化上的边界。
- OpenAI其他
OpenAI 发布企业部署公司 DeployCo
OpenAI 成立 DeployCo 公司,专注于帮助企业将前沿人工智能引入生产环境,并转化为可衡量的业务价值。这家新公司提供从技术集成到运营优化的全周期服务,弥补了尖端模型与企业落地之间的鸿沟,使组织能更系统地利用 AI 提升实际产出。
- OpenAI安全
OpenAI 详解 Codex 安全运行机制
OpenAI 发布了一篇技术文章,详细说明如何通过沙箱隔离、审批流程、网络策略和 agent 原生遥测等手段,保障 Codex 编码 agent 的安全运行。文章重点介绍了在支持合规采用的同时,如何落地的同时,确保 agent 行为可控、可审计,为企业采用编码 agent 提供安全基线。
- OpenAI大模型
Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber
OpenAI 发布 GPT-5.5 与 GPT-5.5-Cyber,后者专为网络安全场景设计。通过可信访问计划,已验证的防御者可借助该模型加速漏洞研究、保护关键基础设施。这是 GPT 系列首次推出安全垂直版本,将大模型能力直接嵌入防御工作流。
- OpenAI大模型
OpenAI 在 API 中推出新型语音模型
OpenAI 在 API 中上线了新一代实时语音模型,能够同时完成推理、翻译和转录任务。这些模型旨在让语音交互更自然、更智能,开发者可以直接调用,为应用注入更接近人类对话的语音能力。
- OpenAI安全
OpenAI 在 ChatGPT 中推出 Trusted Contact 功能
OpenAI 为 ChatGPT 新增 Trusted Contact 功能,这是一项可选的安全机制。当系统检测到用户存在严重的自伤风险时,会自动通知用户指定的信任联系人,以便及时获得帮助。该功能在隐私保护与危机干预之间寻求平衡,不主动监控对话内容,仅在模型判断风险达到阈值时触发通知。
- OpenAI编程工具
Simplex 借助 Codex 提升软件开发效率
Simplex 将 ChatGPT Enterprise 与 Codex 引入软件开发流程,在需求分析、编码构建和测试环节中缩短交付周期。这家公司利用 AI 驱动的工作流来扩展团队能力,让开发者更专注于高价值任务。案例展示了企业级大模型在工程实践中的落地方式,也为同类团队提供了可参考的协作范式。
- DeepMindAgent
DeepMind 发布 Gemini 驱动的编码 Agent AlphaEvolve
DeepMind 推出 AlphaEvolve,一个基于 Gemini 模型驱动的编码 agent。该 agent 能够自动生成和优化代码,已在商业、基础设施和科学领域显现出跨领域的影响力,显著提升工作流效率。AlphaEvolve 展示了大型语言模型在编程任务中的实际落地能力。
- OpenAI其他
Singular Bank 推出基于 ChatGPT 和 Codex 的内部助手
Singular Bank 利用 OpenAI 的 ChatGPT 和 Codex 构建了一款名为 Singularity 的内部助手,帮助银行家在会议准备、投资组合分析和后续跟进等环节提升效率。据官方数据,每位银行家每天可因此节省 60 到 90 分钟工作时间。这是大模型在金融服务场景中落地的一个具体案例。
- AnthropicAgent
Anthropic 推出面向金融服务的 Agent 方案
Anthropic 发布了一套面向金融服务的 agent 解决方案,旨在将 Claude 模型的能力融入银行、保险、投资等业务场景。该方案支持自动化合规审查、客户咨询、风险分析等任务,通过多步骤推理和工具调用提升效率。Anthropic 强调其在安全性与可解释性上的设计,以满足金融监管要求。
- Google AI其他
Google AI 为 Gemini API 引入 Webhooks 支持
Google AI 在 Gemini API 中新增了事件驱动的 Webhooks 功能,允许开发者以推送方式接收长时间运行任务的完成通知,从而避免轮询带来的延迟和资源浪费。这一更新简化了异步工作流的集成,适合需要后台处理或批处理场景的应用。
2026 年 4 月23 items
- Mistral大模型
Mistral 发布 Mistral Medium 3.5 及 Vibe 远程 Agent
Mistral 发布 Mistral Medium 3.5 模型,并将其直接整合到 Vibe 平台中,提供远程编码 Agent 能力,开发者可通过自然语言描述在云端执行代码编写与调试等任务。同时,Le Chat 新增 Work mode,针对需要多步推理的复杂任务优化了上下文处理与对话管理。
- xAI大模型
xAI 发布 Grok Voice Think Fast 1.0 语音模式
xAI 推出了 Grok Voice Think Fast 1.0,这是 Grok 模型的新一代语音交互模式。该模式旨在提供更自然、迅速的语音对话体验,用户能以说话速度实时与 Grok 交流,获得即时回应。Think Fast 强调低延迟与流畅性,可能利用端侧或优化推理加速。此次更新让 Grok 的语音能力从简单问答升级为更沉浸式的对话,适用于实时信息查询、创意讨论等场景,为多模态交互再添一环。
- xAI大模型
Grok Speech to Text and Text to Speech APIs
xAI 为 Grok 推出了语音转文字和文字转语音 API,开发者可以借此为应用添加实时语音交互能力。STT 支持多语言识别和标点恢复,TTS 则提供多种自然音色与语速控制。这两项 API 的开放意味着 Grok 从纯文本对话向多模态交互迈出关键一步,降低了语音功能集成的门槛。
- MistralAgent
Mistral Studio 上线内置与自定义 MCP 连接器
Mistral 在 Studio 平台中推出 MCP 连接器功能,支持将企业数据系统通过可重用的连接器直接接入 AI 应用,并允许开发者调用内置或自定义的 MCP 工具。该更新还引入了人工审批控制,确保敏感操作可被审计与干预,降低 agent 自动执行任务时的安全风险。
- xAITTS
xAI 为 Grok 推出自定义语音与语音库
xAI 为 Grok 上线自定义语音功能,用户可以从预设的语音库中选择,或创建专属合成语音。该功能基于 Grok 的文本转语音能力,支持调节语速、音调等参数。语音库初期提供十余种风格选项,覆盖中性、活泼、沉稳等类型。自定义语音需通过简短录音样本生成,系统自动训练出匹配的声学模型。这使 Grok 在对话助手中的表现更具个性化,适合不同使用场景。
- MistralAgent
Mistral 发布 Workflows 工作流公开预览版
Mistral 宣布 Workflows 功能进入公开预览,这是一项面向企业级任务自动化的产品更新。用户可通过可视化或代码方式编排多步骤工作流,将大语言模型的推理能力与业务流程对接,适用于文档处理、数据提取、审批流转等场景。该功能旨在降低开发门槛,使非技术人员也能构建基于 AI 的自动化流程。
- DeepMind其他
DeepMind 提出 AI 联合临床医生模型
DeepMind 发布 AI 联合临床医生概念,探索人工智能辅助诊疗的新路径。该研究聚焦于构建能与医生协作的 AI 系统,在临床决策中提供实时支持,而非替代人类判断。项目目前处于研究阶段,旨在通过人机协同提升诊断准确性与治疗效率,为未来医疗 AI 的落地提供框架参考。
- Anthropic大模型
Claude for Creative Work
Anthropic 推出 Claude for Creative Work,为创意工作者提供专门的写作、剧本、广告文案等场景支持。该版本在保持 Claude 原有对话能力基础上,针对叙事结构、角色一致性、风格控制等创作需求做了定向优化,并内置了多轮协作改稿的工作流。对于需要长期维护复杂文本项目的编剧、小说家和内容团队来说,这是一个更贴合实际创作习惯的产品形态。
- OpenAI大模型
OpenAI 发布 GPT-5.5
OpenAI 正式推出 GPT-5.5,这是一款主打 agentic 自主执行能力的新模型。相比前代 GPT-5.4 和 Claude Opus 4.7,GPT-5.5 在 Terminal-Bench 2.0 编程评测上领先约 8 至 13 个百分点,在 GDPval 知识工作、OSWorld-Verified 计算机操作以及 GeneBench 科研任务上也展现出显著优势。OpenAI 强调该模型能自主理解复杂目标、规划工具使用、检查工作并推进任务闭环,同时保持与 GPT-5.4 相同的推理速度但 token 消耗更低。内部研究还发现 GPT-5.5 协助在 Ramsey 数问题上发现了新的证明。
- Google AI训练
Google 发布第八代 TPU 芯片
Google 在 Cloud Next 大会上推出第八代 TPU,包含两款专用芯片,分别针对训练与推理场景优化。新芯片面向 agent 时代设计,旨在为大规模 AI 工作负载提供更高算力与能效。这是 Google 在自研 AI 硬件上的又一次重要迭代,将直接服务于 Gemini 等前沿模型的训练与部署。
- DeepMind训练
DeepMind 发布 Decoupled DiLoCo 分布式训练方法
DeepMind 提出 Decoupled DiLoCo,一种面向分布式 AI 训练的新方法。它通过解耦通信与计算,显著提升大规模训练的抗故障能力与扩展效率,为构建更鲁棒的分布式训练基础设施提供了新思路。
- OpenAI图像模型
OpenAI 发布具备推理能力的 ChatGPT Images 2.0
OpenAI 于 4 月 22 日开放 ChatGPT Images 2.0,将其定位为具备推理与思考能力的视觉认知系统,而非单纯的图像渲染器。用户可在 ChatGPT 中选择 thinking 或 pro 模式,系统会自动理解任务、联网搜索实时信息、规划结构并生成最多 8 张图,同时保持角色与物体的连续性,还能自检输出质量。细节渲染更精细,可处理密集文字和小图标,API 支持最高 2K 分辨率及多种比例,适用于连续漫画、不同尺寸海报等设计场景。
- Anthropic设计
Anthropic Labs 发布 Claude Design 设计工具
Anthropic Labs 推出 Claude Design,把对话式 AI 接入设计工作流:从理解品牌、生成产品原型、营销页面到团队协作与导出,覆盖完整链路。底层使用 Opus 4.7 推理,内置品牌自动构建系统读取代码库与设计文件后保持视觉一致性。支持文本、图片、文档、网页多模态输入,可对生成结果做行内评论、滑块调间距与颜色等精细化调整。
- Google AI浏览器自动化
A new way to explore the web with AI Mode in Chrome
Google 在 Chrome 中推出 AI Mode,让用户以对话方式与网页交互,而非传统搜索。该模式整合了浏览器上下文理解与生成式 AI,能直接回答复杂问题、总结页面内容或执行多步指令,例如对比多个商品信息或提取关键数据。这一更新将浏览器从被动展示工具变为主动助手,降低了信息获取的门槛,也预示着搜索与浏览体验的融合趋势。
- Google AI图像模型
Google 在 Gemini 应用中推出个性化图像生成功能
Google 在 Gemini 应用中新增个性化图像生成能力,基于 Nano Banana 模型,可调用用户的个人上下文和 Google Photos 相册数据,生成反映用户真实生活场景的定制化图片。这一更新将图像生成从通用模板推进到与个人记忆和偏好关联的阶段,让 AI 创作更贴近用户的日常体验。
- DeepMindTTS
DeepMind 发布 Gemini 3.1 Flash TTS 语音合成模型
DeepMind 推出新一代语音合成模型 Gemini 3.1 Flash TTS,核心创新在于引入细粒度音频标签,允许开发者精确调节语气、节奏、停顿等表达参数,从而生成更自然、富有情感的 AI 语音。该模型面向需要高质量有声内容的应用场景,如播客、有声书、虚拟助手等,在保留 Gemini 系列流畅性的基础上,大幅提升了语音表达的细腻度和可控性。
- Anthropic大模型
Anthropic 发布 Claude Opus 4.7
Anthropic 今日发布 Claude Opus 4.7,在编程、agent、视觉和多步推理任务上均有显著提升。新模型在关键工作上更加彻底和一致,延续了 Opus 系列在复杂场景下的表现优势。此次更新没有引入全新架构,但通过训练优化和规模扩展压榨出了更强的实际能力,为开发者提供了更可靠的底层推理引擎。
- Google AITTS
Google 发布 Gemini 3.1 Flash TTS 语音合成模型
Google 推出 Gemini 3.1 Flash TTS,一款新一代语音合成模型,主打高表达力与自然度。该模型现已集成到 Google 旗下多款产品中,为用户提供更流畅、更富有情感的语音交互体验。
- OpenAI大模型
OpenAI 发布 GPT-5.4-Cyber 网络安全防御模型
OpenAI 发布 GPT-5.4-Cyber,这是 GPT-5.4 的微调变体,专门面向网络安全防御场景。模型新增了二进制逆向工程能力,无需源代码即可分析编译软件,同时降低了安全相关任务的拒绝边界,减少误拒。该模型面向 TAC 计划的网络安全防御者,需申请使用,是 OpenAI 在安全领域的一次针对性能力扩展。
- Google AIskill
Google 在 Chrome 中推出 Skills 功能,将 AI 提示转为一键工具
Google 在 Chrome 浏览器中上线了 Skills 功能,允许用户将自己常用的 AI 提示保存为一键触发的工具。用户可以在 Chrome 中浏览、保存和复用 AI 工作流,无需每次手动输入提示词。这一更新降低了 AI 工具的使用门槛,让高频操作更加便捷。
- DeepMind世界模型
DeepMind 发布 Gemini Robotics-ER 1.6 具身推理模型
DeepMind 推出 Gemini Robotics-ER 1.6,这是一款专为自主机器人设计的具身推理模型,核心能力在于增强空间推理与多视角场景理解。相比前代,新版本在复杂物理环境中对物体位置、姿态和交互路径的判断更加精准,使机器人能更可靠地完成抓取、导航等真实世界任务。该模型将多模态感知与空间推理深度融合,为机器人从实验室走向开放环境提供了关键能力升级。
- DeepMind大模型
DeepMind 发布 Gemma 4 开源模型
DeepMind 推出 Gemma 4 系列开源模型,自称迄今最智能的开放权重模型。Gemma 4 专为高级推理和 agent 工作流设计,在保持轻量级的同时强化了逻辑推理与工具调用能力,为本地部署场景提供了高性能选择。
- Google AI大模型
New ways to balance cost and reliability in the Gemini API
Google 在 Gemini API 中新增 Flex 和 Priority 两种推理层级,让开发者可以根据场景在成本与延迟之间灵活取舍。Flex 优先保障吞吐量、适合批量处理;Priority 则争取更快的响应时间。两者共享同一模型能力,不改变生成质量,但计费方式和配额分配有所不同。这是 API 层面的一次务实调整,有助于降低开发者的实际使用门槛。
2026 年 3 月15 items
- Mistral大模型
Mistral 发布 Mistral Small 4
Mistral 推出 Mistral Small 4,一款面向低延迟与本地部署场景的轻量级语言模型。该模型在保持较小参数规模的同时,优化了推理速度与多语言能力,适合在边缘设备或资源受限环境中运行。Mistral Small 4 延续了 Mistral 系列高效、开放的路线,为开发者提供了又一个兼顾性能与部署灵活性的选择。
- MistralTTS
Mistral 发布 Voxtral TTS 文本转语音模型
Mistral 推出 Voxtral TTS,一款开源权重的高性能文本转语音模型。它能够快速生成逼真的人声,并支持即时适配不同风格和说话人,为语音 agent 场景提供了灵活的基础能力。Voxtral 在速度与自然度之间取得了良好平衡,可广泛应用于智能助手、有声内容制作等领域。
- Mistral大模型
Mistral 发布 Forge 企业级 AI 模型构建系统
Mistral 推出 Forge,一个面向企业的 AI 模型构建系统。Forge 允许企业在自有数据基础上,打造达到前沿水平的定制模型,将 Mistral 的通用能力与客户专有知识结合。该系统旨在解决企业数据安全与模型个性化之间的平衡问题,为金融、医疗等对数据敏感且需要高精度模型的行业提供了一条可控的路径。
- MistralAgent
Mistral 开源 Leanstral 代码 agent,支持 Lean 4
Mistral 发布 Leanstral,首个针对 Lean 4 的开源代码 agent。该项目为形式化验证场景下的编码提供可信赖的自动化辅助,旨在将 agent 能力引入严谨的数学证明与程序验证领域,降低使用 Lean 4 的门槛。
- Mistral编程工具
Mistral 发布自动编写 Rails 测试的 agent 工具
Mistral 推出一个面向 Rails 开发者的 agent 工具,能够自动编写测试代码,覆盖开发者不愿手动处理的测试场景。该 agent 基于 Mistral 模型,可理解 Rails 项目结构和业务逻辑,生成符合项目风格的测试用例,旨在提升测试覆盖率并减少重复劳动。
- Mistral大模型
Mistral AI 与 NVIDIA 合作加速开放前沿模型开发
Mistral AI 宣布加入 NVIDIA Nemotron 联盟,双方将围绕开放前沿模型展开合作。Mistral 将贡献其在大规模模型开发和多模态能力方面的积累,借助 NVIDIA 的算力与基础设施加速模型迭代。这一合作延续了 Mistral 一贯的开源路线,也为开放模型生态引入了更强的底层算力支持。
- DeepMindAgent
DeepMind 将鼠标指针变为上下文感知 AI 协作助手
Google DeepMind 推出 AI Pointer,将传统鼠标指针升级为可理解用户当前上下文的 AI 伙伴。在 Chrome 浏览器及更多场景中,用户无需通过繁琐的提示词交互,即可通过点击、悬停等自然操作获得智能辅助。这一设计方向试图将 AI 能力融入日常操作系统层级,降低协作门槛。
- DeepMind大模型
DeepMind 发布 Gemini 3.1 Flash Live 语音模型
DeepMind 推出 Gemini 3.1 Flash Live,这是其语音模型的最新版本。该模型在精度和延迟上做了针对性优化,旨在让语音交互更流畅、自然且准确。对于依赖语音接口的应用场景,这一更新有望带来更接近真人对话的体验。
- DeepMind安全
DeepMind 发布 AI 操纵风险安全措施
Google DeepMind 针对 AI 在金融、健康等领域的操纵风险展开研究,并据此推出新的安全措施。这项研究聚焦于 AI 系统可能被用于误导或欺骗用户的情景,提出了检测与防护框架。相关成果将帮助开发者和监管机构更早识别潜在风险,为 AI 安全治理提供可操作的方法论。
- DeepMind其他
DeepMind 发布 Lyria 3 Pro 音乐生成模型
DeepMind 推出 Lyria 3 Pro,这是其音乐生成模型的最新版本,支持生成长度更长、具备结构感知能力的曲目。同时,Lyria 正在被集成到更多 Google 产品与界面中,让用户能在更多场景下直接使用 AI 辅助音乐创作。
- claude.com编程工具
Claude Code 推出自动模式
Claude Code 新增自动模式,在完全放手与每次审批之间提供了一个折中方案。该模式内置安全分类器,操作前自动审查:安全操作直接执行,有风险的操作则被拦截并建议替代方案,连续拦截会触发用户审批。Anthropic 建议在隔离环境中使用此功能。Team Plan 用户即日起可用研究预览版,企业版和 API 访问将在未来几天内陆续开放。
- code.claude.com编程工具
Claude Code 上线 Telegram 和 Discord 消息交互功能
Anthropic 为 Claude Code 新增了通过即时通讯软件下发指令的能力,目前支持 Telegram 和 Discord。用户可以直接在聊天中要求 Claude Code 修复 bug、添加功能或执行任务,执行完毕后会收到结果汇报。该功能为研究预览版,需使用 Claude Code v2.1.80 及以上版本,并且登录方式仅限于 claude.ai 账户,不支持 API Key。
- DeepMind评测
DeepMind 提出 AGI 进展评测认知框架
DeepMind 发布了一套用于衡量 AGI 进展的认知框架,并同步在 Kaggle 上发起黑客松,鼓励社区构建对应的评测任务。该框架试图从认知能力维度拆解 AGI 的关键能力指标,为当前大模型的能力边界提供更结构化的评估手段。
- DeepMind其他
DeepMind 回顾 AlphaGo 十年影响:从游戏到科学
DeepMind 发文纪念 AlphaGo 问世十年,回顾其在围棋领域击败人类冠军后,如何催化科学发现并通向通用人工智能。文章探讨 AlphaGo 的算法创新在生物学、药物设计等领域的应用,以及其对 AI 研究方向的深远影响。
- DeepMind大模型
DeepMind 发布 Gemini 3.1 Flash-Lite
DeepMind 推出 Gemini 3.1 Flash-Lite,这是 Gemini 3 系列中速度最快、成本最低的模型。它在保持较高智能水平的同时大幅降低推理开销,适合大规模部署场景,为需要高吞吐量和低延迟的应用提供了更经济的选择。
2026 年 2 月5 items
- DeepMind图像模型
DeepMind 发布 Nano Banana 2 图像生成模型
DeepMind 推出 Nano Banana 2,将 Pro 级图像生成能力与 Flash 级别的推理速度结合。新模型在保持高速生成的同时,引入了更丰富的世界知识、主体一致性等高级功能,定位为兼顾质量与效率的图像生成方案。
- DeepMind大模型
DeepMind 发布 Gemini 3.1 Pro
DeepMind 推出 Gemini 3.1 Pro,定位为处理复杂任务的更智能模型。该版本针对需要深度推理和多步骤分析的场景进行了优化,旨在提供超越简单问答的解决方案。Gemini 3.1 Pro 的发布标志着 DeepMind 在大型语言模型能力上的又一次重要迭代。
- DeepMind大模型
DeepMind 在 Gemini 中集成 Lyria 3 音乐生成功能
DeepMind 将最新音乐生成模型 Lyria 3 集成到 Gemini 应用中,用户可通过文字或图片生成最长 30 秒的音乐片段。这一功能让 Gemini 从文本对话扩展到多模态创作,降低了音乐制作的门槛。Lyria 3 是 DeepMind 在音频生成领域的最新成果,标志着大模型在创意表达上的又一次能力延伸。
- DeepMind大模型
DeepMind 发布 Gemini 3 Deep Think 推理模式
DeepMind 推出 Gemini 3 Deep Think,这是其推理模式的最新更新,面向科学、研究和工程领域的复杂问题。该模式在逻辑推理与多步分析上做了针对性强化,可辅助研究人员处理高难度任务。此次更新让 Gemini 系列在专业场景中的可用性更进一步。
- DeepMind大模型
DeepMind 更新 Gemini Deep Think 在数学与科学发现中的进展
DeepMind 发布博客,介绍 Gemini Deep Think 在数学与科学发现中的加速作用。该能力通过深度推理提升模型在数学证明、物理推导等任务上的表现,多项研究论文指出其在多个科学领域日益增长的影响。Deep Think 代表了推理链扩展在科学应用中的一次有效落地。
2026 年 1 月5 items
- xAI图像模型
xAI 发布 Grok Imagine API
xAI 推出 Grok Imagine API,向开发者开放了 Grok 模型的图像生成能力。该 API 支持通过文本描述生成高质量图片,可嵌入第三方应用,有望扩展 Grok 在创意内容生成领域的生态。
- DeepMind世界模型
DeepMind 发布 Project Genie 交互式世界生成原型
DeepMind 推出 Project Genie,一个面向美国 Google AI Ultra 订阅用户开放的实验性研究原型。该工具允许用户创建并探索无限、可交互的虚拟世界,将生成式 AI 从静态内容拓展至动态环境。Project Genie 代表了世界模型方向的一次重要尝试,为游戏、模拟和沉浸式体验提供了新的可能性。
- DeepMind3D
DeepMind 发布 D4RT 四维重建与追踪方法
DeepMind 推出 D4RT,一种统一且高效的四维重建与追踪方法,速度比此前技术快 300 倍。D4RT 将时间维度纳入视觉理解,使 AI 能够同时感知物体在三维空间中的形态与运动轨迹,在动态场景建模、机器人交互和自动驾驶等领域有应用前景。
- DeepMind视频生成模型
DeepMind 发布 Veo 3.1 视频生成模型
DeepMind 推出 Veo 3.1,这是其视频生成模型的一次重大更新。新版本在保持场景一致性的同时,增强了创作自由度和精细控制能力,支持生成更自然、更具动态感的视频片段,并首次加入竖屏视频支持,为社交媒体和移动端内容创作提供了更直接的工具。
- NVIDIA其他
NVIDIA 在 CES 2026 发布 Rubin 平台、开放模型与自动驾驶蓝图
NVIDIA 创始人黄仁勋在 CES 2026 主题演讲中发布了 Rubin 平台、开放模型及自动驾驶技术蓝图,强调 AI 正扩展至每个领域和设备。Rubin 平台作为下一代计算架构,结合加速计算与 AI,为数据中心、边缘和终端提供统一基础。同时,NVIDIA 展示了其在自动驾驶、机器人及企业级 AI 应用的最新进展,并宣布多项开放模型合作,旨在降低 AI 开发门槛,推动全行业智能化转型。
2025 年 12 月8 items
- xAIAgent
xAI 发布 Grok Voice Agent API
xAI 正式推出 Grok Voice Agent API,让开发者通过语音接口构建智能代理应用。该 API 支持多轮对话、实时语音识别与合成,可集成到客服、助手等场景。Grok 的语音能力由此从原生应用扩展到第三方服务,为企业提供低延迟、高自然度的语音交互方案。
- xAI大模型
xAI 推出 Grok Collections API
xAI 发布了 Grok Collections API,允许开发者以编程方式创建和管理对话集合,从而更灵活地组织 Grok 的交互内容。该 API 支持批量操作、标签分类与检索,为构建基于 Grok 的复杂应用提供了基础设施层面的便利。对于需要将 Grok 集成到工作流或知识管理场景的团队来说,这是一个实用的能力扩展。
- xAI大模型
xAI 发布 Grok Business 与 Grok Enterprise
xAI 正式推出 Grok Business 和 Grok Enterprise 两款企业级服务,为组织提供 Grok 对话模型的商用版本。新服务包含增强的隐私保护、更高的调用配额以及定制化选项,旨在满足商业场景下的部署与集成需求,帮助团队将 Grok 融入日常工作流。
- DeepMind大模型
DeepMind 发布 Gemini 3 Flash
DeepMind 推出 Gemini 3 Flash,这是一款以速度为核心设计的前沿智能模型,在保持高性能的同时大幅降低了推理成本。该模型延续了 Gemini 系列在语言理解与生成上的优势,针对实时交互场景进行了优化,适合需要快速响应的应用。
- DeepMind安全
DeepMind 发布 Gemma Scope 2 可解释性工具
DeepMind 发布了 Gemma Scope 2,一套面向 Gemma 3 全系列模型的开源可解释性工具。该项目旨在帮助 AI 安全社区更深入地理解复杂语言模型的内部行为,通过提供稀疏自编码器与激活分析接口,让研究者能够观察模型在推理过程中的神经元响应模式。这是继第一代 Gemma Scope 之后,对可解释性基础设施的重要扩展。
- DeepMind大模型
DeepMind 更新 Gemini 音频模型,提升语音交互能力
DeepMind 发布了改进版 Gemini 音频模型,在语音理解与生成方面取得显著提升。新模型能够更自然地处理多轮对话中的语气、语速和情感表达,同时支持更复杂的语音指令识别。这一更新让 Gemini 在语音助手、实时翻译和有声内容创作等场景中的表现更加流畅,为开发者提供了更强大的语音交互基础能力。
- NVIDIA其他
NVIDIA 发布博客称模型构建者依赖其基础设施
NVIDIA 博客文章指出,随着 AI 模型复杂度提升,模型构建者越来越多依赖 NVIDIA 的硬件基础设施。文章提及 OpenAI 的 GPT-5.2 和 GPT-5.3 Codex 模型在 NVIDIA Hopper 和 GB200 NVL72 系统上训练和部署,展示了 NVIDIA 在 AI 基础设施领域的持续影响力。
- DeepMind安全
Google DeepMind 深化与英国 AI 安全研究所合作
Google DeepMind 宣布加强与英国 AI 安全研究所(AISI)的研究合作,聚焦关键 AI 安全与对齐议题。双方将共享评估经验、联合开展前沿安全研究,并探索建立更稳健的 AI 威胁检测与缓解机制。此举旨在为快速演进的大模型提供更具鲁棒性的安全框架,也反映出行业与监管机构在 AI 治理上从对话走向深度协作的趋势。对于关注 AI 安全标准化与政策落地的从业者,这是一条值得留意的动向。
2025 年 11 月2 items
- xAI大模型
xAI 发布 Grok 4.1 Fast 与 Agent Tools API
xAI 推出 Grok 4.1 Fast,这是 Grok 系列的最新快速推理版本,同时开放了 Agent Tools API,允许开发者将 Grok 的对话与工具调用能力集成到自主 agent 工作流中。新模型在推理速度和指令遵循上做了针对性优化,API 支持函数调用、代码执行和外部数据检索,为构建端到端 agent 应用提供了更直接的入口。
- xAI大模型
xAI 发布 Grok 4.1
xAI 正式推出 Grok 4.1,这是其最新一代语言模型。新模型。新版本在推理、编程和指令遵循等核心能力上均有提升,并优化了长上下文处理与多轮对话表现。Grok 4.1 的发布为开发者与用户提供了更强大的 AI 交互基础。
2025 年 9 月4 items
- xAI大模型
xAI 发布 Grok 4 Fast
xAI 发布 Grok 4 Fast,该版本针对推理速度进行了优化,相比标准 Grok 4 降低了响应延迟。模型现已在 X Premium+ 订阅和 API 中上线,适用于需要快速交互的对话和 agent 场景。
- xAI其他
xAI 与 GSA 合作推出 OneGov 政府服务
xAI 宣布与美国总务管理局合作,通过 OneGov 项目将 AI 能力引入政府服务。这一合作旨在提升政府机构的运营效率,xAI 的技术将用于优化公共服务流程。此举标志着 xAI 在政府领域的首次正式落地,也为 AI 在公共部门的规模化应用提供了参考案例。
- NVIDIA大模型
UK-LLM 基于 NVIDIA Nemotron 构建支持威尔士语的 AI 模型
UK-LLM 主权 AI 计划基于 NVIDIA Nemotron 构建多语言模型,重点支持威尔士语等凯尔特语言。该模型能同时用英语和威尔士语进行推理,旨在服务约 85 万威尔士语使用者,并计划扩展至康沃尔语、爱尔兰语和苏格兰盖尔语。这一项目体现了 AI 在保护语言多样性方面的应用潜力。
- NVIDIA其他
NVIDIA 推出基于 GPU 的高湿度预报深度学习方案
NVIDIA 与波兰国际研究团队合作,利用深度学习模型和 GPU 算力提升大气湿度预报精度。该项目聚焦湿度这一长期困扰气象预报的关键变量,通过改进对水汽场的建模,有望提前更准确地捕捉雷暴、洪水和飓风等极端事件。技术方法结合降水和稠密观测数据,虽尚未产出公开模型或产品,但为 AI 与气象交叉研究提供了新思路。
2025 年 8 月2 items
- xAI编程工具
xAI 发布 Grok Code Fast 1 编程辅助工具
xAI 推出 Grok Code Fast 1,一款面向开发者的编程辅助工具。该工具借助 Grok 模型为程序员提供实时代码建议、解释和修复,旨在提升代码编写与调试效率。Grok Code Fast 1 的发布标志着 xAI 在开发者工具领域迈出重要一步,为编程工作流带来了新的 AI 辅助选项。
- NVIDIA世界模型
NVIDIA 在 SIGGRAPH 展示物理 AI 研究突破
NVIDIA 在 SIGGRAPH 2025 上发布了多项物理 AI 研究进展,覆盖神经渲染、3D 生成与世界模拟三大方向。这些技术旨在提升机器人、自动驾驶和内容创作的物理真实感与交互能力。虽然尚未推出具体产品,但将底层算法向更贴近真实物理规律的方向推进,为后续的仿真训练与数字孪生打下基础。
2025 年 7 月3 items
- xAI大模型
xAI 发布 Grok 4
xAI 正式发布 Grok 4,这是其新一代大语言模型,在推理、编码和指令遵循方面相比前代有显著提升。Grok 4 采用更大规模的训练数据和优化架构,支持更长的上下文窗口,并增强了多轮对话的连贯性。该模型目前已在 xAI 平台上开放使用,后续将逐步集成到更多应用中。
- NVIDIA训练
NVIDIA 助力英国 Isambard-AI 超级计算机上线
布里斯托大学基于 NVIDIA Grace Hopper 超级芯片打造的 Isambard-AI 超级计算机正式上线,可提供 21 exaflops AI 算力,成为英国最快的超算系统,并在全球能效排名中位居前列。这台超算将支撑英国在气候科学、药物研发和基础物理等领域的大规模 AI 训练与推理任务。
- NVIDIA其他
NVIDIA 用游戏 GPU 分析陶瓷文化对话
NVIDIA 发布了一项将游戏 GPU 用于文化研究的案例:通过深度学习分析陶瓷器物的纹理、风格与历史流转,帮助考古学家和艺术史学者解码跨越千年的文化对话。这项应用展示了消费级显卡在非传统计算场景中的潜力,将 AI 从实验室带入博物馆与拍卖行,为文化遗产研究提供了新的数字工具。
2025 年 6 月1 items
2025 年 2 月4 items
- xAI大模型
xAI 发布 Grok 3 Beta
xAI 正式推出 Grok 3 测试版,强调推理能力的跃升。新模型在前代基础上强化了逻辑推理、多步骤问题解决和 agent 式任务执行,能够自主拆解复杂指令并逐步验证结果。Grok 3 Beta 的发布标志着 xAI 从对话助手向推理 agent 平台过渡,为后续更高级的自主智能体奠定了基础。
- NVIDIA其他
NVIDIA 发布美国手语教学 AI 平台
NVIDIA 联合美国聋童协会及创意机构 Hello Mo 推出 AI 平台,用于教授美国手语 ASL。该平台旨在弥补 ASL 数据稀缺、AI 工具远少于英语和西班牙语的现状,帮助聋童及其家庭更便捷地学习手语,缩小沟通鸿沟。
- NVIDIA大模型
NVIDIA 发布 Evo 2 生物分子基础模型
NVIDIA 联合非营利生物医学机构在 DGX Cloud 上训练了 Evo 2,这是目前公开最大的基因组 AI 模型,能够理解所有生命域的遗传密码。Evo 2 已通过 BioNeMo 平台开放,为生物分子科学提供从序列预测到功能注释的底层能力,有望加速药物发现与合成生物学研究。
- NVIDIA其他
NVIDIA 用 AI 设计蛋白质对抗致命蛇毒解毒蛋白
NVIDIA 研究人员利用 AI 设计出能中和致命蛇毒的蛋白质。蛇毒的蛋白质,为全球蛇咬伤高发地区提供了一种潜在的低成本治疗方案。这项技术通过深度学习模型快速筛选和优化蛋白质结构,有望大幅缩短传统解毒剂的研发周期,并降低生产成本,让更多脆弱人群获得及时救治。
2025 年 1 月1 items
2024 年 12 月2 items
- xAI大模型
xAI 向所有用户开放 Grok
xAI 宣布将 Grok 开放给所有用户,不再局限于 X Premium 订阅者。Grok 是 xAI 开发的大语言模型,以对话模型,以实时信息获取和幽默风格为特色。此次开放意味着更广泛的用户群体可以直接体验 Grok 的问答能力,无需付费订阅 X 平台。xAI 此举旨在扩大用户基础,并收集更多反馈以持续改进模型性能。
- xAI图像模型
xAI 发布 Grok 图像生成功能
xAI 在 Grok 中加入了图像生成能力,用户可通过文字描述实时生成图片。该功能基于自研模型,并融入了对话上下文理解,使生成的图像更贴合用户意图。此次更新让 Grok 从纯文本模型扩展至多模态交互,为用户提供了更丰富的表达方式。
2024 年 11 月1 items
2024 年 8 月1 items