HuggingFace Papers · 评测
WildClawBench 发布面向真实世界长时域 agent 评估的基准
WildClawBench 是一个新发布的基准测试,专门用于评估 agent 在真实世界长时域任务中的表现。它覆盖了需要长期规划、多步推理和动态环境适应的场景,为衡量 agent 在复杂实际应用中的能力提供了标准化测试集。该基准的推出有助于推动 agent 研究从简单模拟走向真实部署,填补了现有评测在时间跨度和任务复杂度上的空白。
- 域名
huggingface.co- 评分
- 4 · 重要更新
- 收录
- 2026-05-17
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。