HuggingFace Papers · 评测

WildClawBench 发布面向真实世界长时域 agent 评估的基准

WildClawBench 是一个新发布的基准测试，专门用于评估 agent 在真实世界长时域任务中的表现。它覆盖了需要长期规划、多步推理和动态环境适应的场景，为衡量 agent 在复杂实际应用中的能力提供了标准化测试集。该基准的推出有助于推动 agent 研究从简单模拟走向真实部署，填补了现有评测在时间跨度和任务复杂度上的空白。

域名: huggingface.co
评分: 4 · 重要更新
收录: 2026-05-17

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest