DeepMind · 安全

DeepMind 发布 Gemma Scope 2 可解释性工具

DeepMind 发布了 Gemma Scope 2,一套面向 Gemma 3 全系列模型的开源可解释性工具。该项目旨在帮助 AI 安全社区更深入地理解复杂语言模型的内部行为,通过提供稀疏自编码器与激活分析接口,让研究者能够观察模型在推理过程中的神经元响应模式。这是继第一代 Gemma Scope 之后,对可解释性基础设施的重要扩展。

域名
deepmind.google
评分
4 · 重要更新
发布
2025-12-16

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Open interpretability tools for language models are now available across the entire Gemma 3 family with the release of Gemma Scope 2.