HuggingFace Papers · 评测

WildClawBench 发布面向真实世界长时域 agent 评估的基准

WildClawBench 是一个新发布的基准测试,专门用于评估 agent 在真实世界长时域任务中的表现。它覆盖了需要长期规划、多步推理和动态环境适应的场景,为衡量 agent 在复杂实际应用中的能力提供了标准化测试集。该基准的推出有助于推动 agent 研究从简单模拟走向真实部署,填补了现有评测在时间跨度和任务复杂度上的空白。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-17
WildClawBench 发布面向真实世界长时域 agent 评估的基准

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。