research & papers
学术
arXiv 预印本、Nature 等期刊以及研究机构博客(research.google 等)的 AI 相关原始研究。
54 items · 按发布时间倒序
54 items
2026 年 5 月50 items
- HuggingFace Papers3D
Sat3DGen 发布:单张卫星图像生成街景级三维场景
Sat3DGen 是首个能从单张卫星图像直接生成街景级三维场景的模型。传统方法需要多视角或激光雷达数据,而 Sat3DGen 通过卫星图像中的几何与语义线索,重建出包含建筑、道路、植被等细节的立体城市环境。这一突破大幅降低了高精度 3D 城市建模的数据门槛,适用于城市规划、仿真和自动驾驶场景生成。
- HuggingFace PapersAgent
STALE 研究:LLM Agent 能否检测记忆失效
LLM Agent 在长期任务中依赖记忆,但记忆可能因环境变化而过时。STALE 论文提出一种评估框架,检验 Agent 能否主动识别记忆失效并触发更新。实验表明,当前主流 Agent 在记忆时效性判断上存在明显短板,该研究为构建更可靠的持久化 Agent 系统提供了评测基准与改进方向。
- HuggingFace Papers评测
ViMU 基准测试发布,用于评估视频隐喻理解能力
ViMU 是首个专注于视频隐喻理解的基准测试,旨在评测模型对视频中视觉隐喻、符号化表达与多模态语义的把握能力。该基准包含精心标注的视频样本,覆盖多种隐喻类型与常见文化场景,为图像视频理解模型提供了高阶认知维度的评估手段。
- HuggingFace Papers评测
北大、字节跳动等发布 WildTableBench 表格理解评测基准
WildTableBench 是来自北大、字节跳动等机构的多模态表格理解评测基准,从真实网页与文档中采集 6500 余张表格,覆盖 7 大类 42 个细粒度子任务,包括表格问答、搜索、推理与基础 OCR 等。测试表明,当前主流多模态大模型在开放域表格理解上仍有显著短板,即便顶层模型整体准确率也未达 70% 准确率,为表格理解研究提供了清晰的能力基准。
- HuggingFace Papers安全
LiSA 提出终身安全适应的保守策略归纳方法
LiSA 是一种面向终身学习场景的安全适应方法,通过保守策略归纳,使智能体在持续交互中维持安全边界。该方法在不遗忘已有安全知识的前提下,动态调整行为策略以应对新任务或环境变化。论文在机器人导航和自动驾驶模拟中速自动驾驶场景中做了实验,危险动作率相比基线有明显下降,表明这项工作在终身学习的安全对齐上有参考价值。
- HuggingFace Papers大模型
研究提出 VLA 模型节奏与路径校正方法
这篇论文针对视觉-语言-动作模型在动态环境中的"动态盲视"问题,提出一种无需训练的节奏与路径校正方法。该方法不依赖额外训练数据或微调,直接修正 VLA 模型在实时任务中的运动节奏与行动路径,在仿真与真实场景中均能提升任务成功率,为多模态具身智能的鲁棒部署提供了实用思路。
- HuggingFace Papers评测
基于 LLM 的操纵性政治叙事检测方法研究
HuggingFace 上发布了一篇关于利用大语言模型检测操纵性政治叙事的研究论文。该工作探索了 LLM 在识别和分类政治宣传、虚假信息等操纵性叙事方面的能力,提出了相应的检测框架和评估方法。研究为自动化识别政治操纵内容提供了新思路,有助于提升信息环境的透明度。
- HuggingFace Papers其他
研究提出德国政治文本意识形态预测方法
该研究针对德国政治文本开发意识形态预测方法,利用语言学与计算模型结合,旨在准确判别文本中的政治倾向。通过在多类别德语语料上进行训练和测试,该方法在区分左右派立场上表现稳健,为政治文本分析和计算社会科学提供了可落地的技术路径。
- HuggingFace PapersAgent
Nexus 发布时间序列预测 agent 框架
Nexus 是一个面向时间序列预测的 agent 框架,将预测任务拆解、建模、集成、推理等环节交由多个专门 agent 协作完成。该框架把链式思维与反思机制引入时序预测,支持数据预处理、模型选择、结果校验的自动化编排。Nexus 在多个公开数据集上取得领先效果,为时间序列分析提供了 agent 化的新范式。
- HuggingFace Papers训练
自适应教师暴露方法用于 LLM 推理自蒸馏
这篇论文提出一种自适应教师暴露策略,用于大语言模型推理任务中的自蒸馏。传统自蒸馏固定使用教师模型输出,而该方法动态调整教师暴露程度,在训练早期更多依赖教师指导,后期逐渐减少,从而缓解过拟合并提升学生模型的推理能力。实验表明,该方法在数学推理和常识推理基准上均优于固定蒸馏方案,为自蒸馏训练提供了更灵活的范式。
- HuggingFace Papers训练
RewardHarness 提出自进化 agent 后训练方法
RewardHarness 是一种面向 agent 的自进化后训练方法,通过将奖励信号与 agent 行为动态耦合,使模型在交互过程中持续优化决策策略。该方法无需人工标注大量偏好数据,而是利用 agent 自身在环境中的反馈形成闭环训练,显著提升了复杂任务中的泛化能力与适应性。论文在多个基准上验证了其有效性,为 agent 训练提供了新的范式。
- HuggingFace Papers大模型
HuggingFace 发布 Dynamic Latent Routing 论文
HuggingFace 推出 Dynamic Latent Routing 方法,旨在优化大模型推理路径。该技术通过动态调整 latent 空间中的路由策略,提升模型在多任务场景下的效率与准确性。论文展示了其在减少计算开销的同时保持性能的优势,为模型推理架构提供了新思路。
- HuggingFace Papers训练
随机少样本指导提升可验证奖励强化学习性能
HuggingFace 新研究提出一种通过随机选取的少样本指导来增强基于可验证奖励的强化学习方法。该方法在训练中引入高质量示范,帮助模型更高效地探索奖励信号明确的策略空间,在数学推理等任务上取得提升,为 RLVR 训练范式提供了轻量的实用改进。
- HuggingFace Papers大模型
BEAM 提出二进制专家激活掩码实现 MoE 动态路由
该论文提出 BEAM(二进制专家激活掩码)方法,通过可学习的二进制掩码动态选择专家参与计算,替代传统门控网络。实验表明,BEAM 在保持模型性能的同时显著降低计算开销,为混合专家模型的高效推理提供新思路。
- HuggingFace Papers评测
视频世界模型几何一致性定量评估方法
该研究提出一种针对视频世界模型的几何一致性定量评估方法。现有世界模型评估多依赖视觉质量或下游任务指标,缺乏对三维几何结构保持能力的直接度量。论文设计了包含相机运动、物体形变等场景的测试集,并引入基于多视图几何的评分指标,可量化模型在生成视频时对空间一致性的保持程度。实验在多个主流视频生成模型上验证了方法的有效性,为世界模型的几何能力评估提供了标准化工具。
- HuggingFace PapersAgent
SPIN 提出基于迭代导航的结构化 LLM 规划方法
SPIN 是一种面向工业任务的结构化 LLM 规划方法。它让大模型通过迭代导航在复杂流程中逐步生成可执行的步骤序列,将任务分解为多个子目标,每次规划后根据环境反馈修正路径。论文在多个真实工业数据集上验证了效果,为 LLM 在自动化流程中的应用提供了新的思路。
- HuggingFace Papers训练
Hodge 分解实现保拓扑神经网络算子学习
该研究将 Hodge 分解引入神经网络算子学习,在保持数据拓扑结构的前提下提升模型对几何与物理场的建模能力。通过显式分解外微分算子,网络在流体仿真、电磁场预测等任务上展现出更好的局部细节保持与全局拓扑一致性,为科学计算中的神经算子设计提供了新的理论工具。
- HuggingFace Papers评测
HuggingFace 发布 PreScam 诈骗对话预测基准
HuggingFace 联合研究团队发布 PreScam 基准,用于从早期对话中预测诈骗行为的演变趋势。该基准聚焦对话起始阶段的细微信号,为反欺诈系统提供可量化的评估标准。研究团队构建了包含真实诈骗对话的数据集,并设计了多维度评测指标,覆盖诈骗话术识别、意图预测与风险等级判定。PreScam 的推出填补了诈骗早期检测领域的评测空白,有助于推动对话安全与用户保护技术的标准化发展。
- HuggingFace Papers世界模型
SANA-WM 提出 Hybrid Linear Diffusion Transformer 实现分钟级世界建模
SANA-WM 提出基于混合线性扩散 Transformer 的世界模型,能够在分钟级时间尺度上生成可交互的虚拟环境。该方法在保持环境动态建模精度的同时减少了计算需求,为机器人训练和仿真应用提供了新的技术路径。
- HuggingFace Papers视频生成模型
RAVEN 发布实时自回归视频外推模型
RAVEN 提出了一种基于一致性模型 GRPO 的实时自回归视频外推方法。该模型能够根据已有视频帧,实时生成后续帧,实现视频的连续扩展。RAVEN 在保持生成质量的同时,显著提升了推理速度,为视频生成与编辑领域提供了新的技术路径。
- HuggingFace Papers评测
MemEye 发布多模态 agent 记忆评测框架
多模态 agent 的记忆能力缺乏系统评估方法。MemEye 提出一个以视觉为中心的评测框架,通过模拟人类视觉交互任务,测试 agent 在复杂场景中存储、检索和利用视觉记忆的能力。该框架覆盖短期与长期记忆维度,为多模态 agent 的记忆机制研究提供了标准化评估方案。
- HuggingFace Papers大模型
Darwin Family 提出 MRI 信任加权进化合并方法实现免训练扩展语言模型推理
Darwin Family 提出一种名为 MRI 信任加权进化合并的方法,用于在不进行额外训练的情况下扩展语言模型的推理能力。该方法通过加权融合多个模型参数,结合进化搜索策略自动优化合并权重,从而提升模型在复杂推理任务上的表现。实验表明,该技术能有效整合不同模型的优势,无需微调即可获得更强的推理性能,为模型合并与推理增强提供了新思路。
- HuggingFace Papers评测
WildClawBench 发布面向真实世界长时域 agent 评估的基准
WildClawBench 是一个新发布的基准测试,专门用于评估 agent 在真实世界长时域任务中的表现。它覆盖了需要长期规划、多步推理和动态环境适应的场景,为衡量 agent 在复杂实际应用中的能力提供了标准化测试集。该基准的推出有助于推动 agent 研究从简单模拟走向真实部署,填补了现有评测在时间跨度和任务复杂度上的空白。
- HuggingFace Papers视频生成模型
Warp-as-History 提出单视频训练的可泛化相机控制视频生成方法
南洋理工大学等机构的研究团队提出 Warp-as-History 方法,通过将相机运动建模为视频帧间的变形历史,只需一段视频即可训练模型控制生成视频的相机轨迹。该方法在未见场景上采样变换和跨域场景中展现出泛化能力,为低成本实现精准镜头控制的视频生成提供了可行路径。
- HuggingFace Papers大模型
论文揭示 LLM 路由配置的设计空间 RouteProfile
HuggingFace 上的一篇论文提出了 RouteProfile,系统地分析了 LLM 路由场景下 profile 配置的设计空间。研究团队通过大量实验,梳理出影响路由效果的关键维度与参数组合,为多模型调度和成本控制提供了可借鉴的设计方法论。这项工作对希望根据任务特征动态调用不同大模型的应用开发者具有参考价值。
- HuggingFace Papers3D
VGGT-Edit 发布基于残差场预测的前馈式原生 3D 场景编辑方法
VGGT-Edit 提出一种前馈式原生 3D 场景编辑方法,通过残差场预测直接修改 3D 场景的几何与外观,无需逐场景优化或依赖 2D 扩散模型。该方法在编辑速度与保真度上取得提升,为 3D 内容编辑提供了更高效的端到端方案。
- HuggingFace PapersAgent
EvolveMem 提出基于自研究机制的自进化记忆架构
EvolveMem 是一种面向 LLM Agent 的自进化记忆架构。它通过自动研究机制让 Agent 动态优化自身记忆结构,无需人工干预即可适应任务需求。该方法在长时对话和多步骤推理任务中提升了 Agent 的连贯性与效率,为记忆管理提供了新思路。
- HuggingFace Papers大模型
Lighthouse Attention 实现长上下文预训练
Lighthouse Attention 是一种面向长上下文预训练的高效注意力机制。研究者通过稀疏化策略降低计算开销,同时维持模型对长程依赖的捕捉能力。该方法在千亿 token 级语料上验证了效果,为更长序列的模型训练提供了可行的技术路径。
- HuggingFace Papers3D
Realiz3D 提出域感知学习实现逼真 3D 生成
Realiz3D 是一项面向 3D 生成领域的研究,通过域感知学习策略提升生成结果的真实感。该方法在训练过程中引入对目标域特征的显式建模,使模型能够更好地捕捉真实世界物体的几何与纹理细节,从而产出更接近照片级质量的 3D 内容。这一工作为 3D 生成技术的实用化提供了新的思路。
- HuggingFace Papers大模型
ATLAS 提出极简视觉推理方法:一个词即可同时实现 Agent 与隐式推理
ATLAS 是一项来自推理社区的新研究,提出只需向视觉语言模型输入一个关键词就能在 agent 行为和隐式推理之间自由切换。该方法绕过繁琐的 prompt 设计,通过单一 token 隐式编码推理模式,在视觉问答和 agent 任务上均取得显著提升。论文已开源,代码与模型权重可在 GitHub 和 HuggingFace 获取。
- HuggingFace Papers编程工具
FrontierSmith:大规模合成开放性编程问题
FrontierSmith 提出一种可扩展的数据合成方法,用于生成具有明确需求与多种解法路径的编程问题。该方法通过分解复杂任务、迭代细化与自动验证,构建出训练集质量可与人工标注匹敌的开放型题目。实验表明,用合成数据训练的代码模型在 HumanEval 等基准上表现接近人工数据训练的模型,且覆盖更多解题策略,为代码大模型的数据扩充提供了有效思路。
- HuggingFace PapersAgent
研究提出面向大规模多智能体路径规划的局部通信学习方法
多智能体路径规划在大规模场景下长期面临通信瓶颈与计算复杂度的挑战。一项新研究提出局部通信学习框架,让智能体仅与邻近个体交换信息,即可协同完成全局路径规划。该方法在数千智能体的仿真环境中显著降低了通信开销,同时保持接近全局最优的路径效率。这一思路为仓储物流、无人机编队等大规模多智能体系统提供了更实用的决策方案。
- HuggingFace Papers训练
DiffusionOPD 提出扩散模型同策略蒸馏的统一视角
DiffusionOPD 将 DMD、SDXL-Lightning 等扩散模型蒸馏方法统一到同策略蒸馏框架下,重新定义了策略分布和优化目标,为加速采样提供了理论支撑。论文分析了现有方法的共性,为后续蒸馏算法设计奠定了基础。
- HuggingFace PapersAgent
IntentVLA 提出短时意图建模解决机器人操作中的混淆问题
IntentVLA 提出一种短时意图建模方法,帮助机器人在视觉混淆的情况下做出更准确的操作决策。传统 VLA 模型在遇到遮挡或低分辨率输入时,常因感知碎片化而推断错误动作。该方法通过隐式意图表示,让机器人提前判断下一步的合理走向,从而保持操作成功率。实验在仿真与真实场景中均验证了有效性。
- HuggingFace PapersAgent
Orchard 开源 agent 建模框架
Orchard 是一个新开源的 agent 建模框架,为多智能体系统提供结构化的设计与执行环境。它支持模块化构建 agent 行为、通信与协作逻辑,降低了开发复杂 agent 应用的门槛。Orchard 的发布为研究者与开发者提供了一个可扩展的基础设施,便于快速原型验证与实验迭代,在 agent 工程化方向上迈出了务实的一步。
- HuggingFace Papers图像模型
清华等机构提出 PanoWorld 全景空间超感知模型
多个研究机构联合提出 PanoWorld,一个面向 360 度全景图像的空间超感知模型。该工作旨在解决全景场景中深度估计、布局理解和物体感知的联合建模问题,通过在全景图像上训练统一的 transformer 架构,实现了对环视环境的全局理解。PanoWorld 在多个全景数据集上展示了更强的场景重建和空间感知能力,有望拓展 VR/AR 和机器人感知的应用边界。相关论文发表于近期顶会。
- HuggingFace Papers大模型
Forcing-KV 提出混合 KV 缓存压缩方法用于自回归视频扩散模型
Forcing-KV 提出一种混合 KV 缓存压缩方法,面向自回归视频扩散模型。该方法通过区分关键与非关键 token 的 KV 缓存,对冗余部分进行压缩,在保持生成质量的同时降低显存占用和推理延迟。实验显示,该方法在多个视频生成任务上实现近 2 倍速度提升,画质损失较小,为长视频生成提供了更高效的推理方案。
- HuggingFace Papers大模型
BOOKMARKS 提出高效主动故事线记忆用于角色扮演
BOOKMARKS 是一种专为角色扮演场景设计的主动故事线记忆机制,通过动态提取和更新叙事关键节点,让大型语言模型在长对话中保持角色连贯性。与传统缓存或摘要不同,它能够在不显著增加推理开销的前提下,主动标记并索引故事中的事件与关系。实验表明,该方法在多轮角色扮演任务中显著提升了记忆召回与角色一致性,在需要持续追踪世界状态与人物关系的互动场景中表现突出。
- HuggingFace Papers训练
论文提出自进化推理强化学习方法 Verifiable Environment Synthesis
该论文提出一种名为 Verifiable Environment Synthesis 的方法,让大模型在强化学习训练中自主构建可验证的推理环境。传统方法依赖人工标注或固定题库,而该方法通过模型自身生成并验证环境,实现推理能力的持续进化。实验表明,在数学推理等任务上,该方法显著提升了模型的泛化性能和样本效率,为强化学习在复杂推理场景的应用提供了新思路。
- HuggingFace Papers视频生成模型
PhyMotion 提出结构化 3D 运动奖励用于物理感知人体视频生成
PhyMotion 提出一种结构化 3D 运动奖励机制,将物理约束引入人体视频生成流程。该方法通过三维运动奖励信号引导生成模型输出符合真实物理规律的人体动作,有效减少视频中常见的肢体穿模、飘浮等不自然现象。相关工作已在 arXiv 公开,为物理感知视频生成提供了新的技术路径。
- HuggingFace Papers图像模型
PRISM 提出扩散模型文本图像超分辨率新方法
PRISM 是一项针对扩散模型文本图像超分辨率的研究,通过先验修正与不确定性感知结构建模,提升低分辨率文本图像的还原质量。该方法在保持文本可读性的同时,增强了图像细节的清晰度,为文档 OCR 和场景文本识别等应用提供了更可靠的预处理方案。
- HuggingFace PapersAgent
FutureSim 提出通过回放世界事件评估自适应 Agent
FutureSim 提出一种新的评估框架,通过回放真实世界事件来测试自适应 Agent 在动态环境中的表现。该方法利用历史事件序列构建模拟场景,要求 Agent 在连续变化的条件中做出决策,从而更贴近实际应用中的不确定性。相比传统静态基准,FutureSim 能揭示 Agent 在突发事件下的适应能力,为开发更鲁棒的自主系统提供了可复现的测试手段。
- HuggingFace PapersAgent
LLM 多智能体系统协作、故障归因与自我进化综述
这篇综述系统梳理了基于 LLM 的多智能体系统在协作、故障归因与自我进化三个方向的研究进展。作者分类总结了现有方法,指出当前系统在任务协调、错误传播和持续学习方面的关键挑战,并给出了未来可能的优化路径。对于从事多智能体框架设计与评估的研究者来说,是一份结构清晰的参考资料。
- HuggingFace PapersAgent
PREPING 提出无需任务的 agent 记忆构建框架
PREPING 是一种面向 agent 的记忆构建方法,它绕过了传统依赖具体任务来形成记忆的方式,让 agent 在更通用的交互中主动积累和调用信息。该方法不要求 agent 先完成某个任务,而是让其在运行过程中自然建立记忆结构,从而在后续决策中提供上下文支持。这项研究为提升 agent 的持续学习与适应能力提供了新思路。
- HuggingFace Papers设计
合成分层设计数据对分层设计分解的有效性研究
这项研究探讨了使用合成生成的分层设计数据来训练模型进行分层设计分解的可行性。实验表明,合成数据能够有效提升模型对设计层次结构的理解与拆分能力,为自动化设计分析提供了一条低成本、可扩展的路径。
- HuggingFace Papers评测
CurveBench:嵌套Jordan曲线精确拓扑推理基准
CurveBench 是一个专为评估 AI 模型在嵌套 Jordan 曲线上进行精确拓扑推理能力而设计的基准测试。它涵盖几何形状的闭合曲线集合,要求模型理解包含、分离等空间关系,并处理多层级嵌套结构。该基准的提出为测试大模型在几何与逻辑结合的任务上的表现提供了新维度。
- HuggingFace Papers视频生成模型
Causal Forcing++ 实现可扩展的少步自回归扩散蒸馏用于实时交互视频生成
Causal Forcing++ 提出一种新的蒸馏方法,将自回归扩散模型的推理步数压缩至个位数,使实时交互式视频生成成为可能。该方法在保持生成质量的同时大幅减少计算开销,为短视频、虚拟角色和游戏场景等对延迟敏感的应用提供了可行的技术路径。
- HuggingFace PapersAgent
Self-Distilled Agentic Reinforcement Learning 论文发布
HuggingFace 发布一篇关于自蒸馏强化学习的论文,提出一种让 agent 通过自我蒸馏机制提升决策能力的方法。该方法结合 agent 框架与强化学习,使模型在复杂任务中自主优化行为策略,无需外部监督。研究展示了 agent 在动态环境中自我改进的潜力,为自主系统训练提供了新思路。
- HuggingFace Papers评测
MemLens 发布多模态长期记忆评测基准
MemLens 是一个面向大型视觉语言模型的多模态长期记忆评测基准。它通过设计需要跨图像、文本和时间维度进行信息检索与推理的任务,系统性地评估模型在长序列交互中的记忆保持与调用能力。该基准填补了现有评测对多模态长期记忆关注不足的空白,为理解大模型在复杂、延续性任务中的表现提供了新的测试工具。
- HuggingFace Papers大模型
通过统一缩放实现奥赛金牌级推理能力
这项研究提出一种统一的推理缩放方法,使模型在奥赛级别的数学与逻辑推理任务上达到金牌水平。该方法通过将推理深度与广度有效结合,显著提升了复杂多步推理的表现,在多个高难度评测上取得突破性成绩。
2026 年 4 月2 items
- correr-zhou.github.io视频生成模型
字节跳动与港中文发布人-物交互视频生成模型 OmniShow
字节跳动与香港中文大学联合发布 OmniShow,一个专为人-物交互场景设计的端到端视频生成模型。该模型支持图像、音频、姿势与文本多种输入的混合控制,能够生成最长 10 秒的连续视频,并实现人脸保持、物理合理性与口型同步等效果。OmniShow 在人-物交互的生成质量上表现出竞争力,尤其在电商广告等需要精准控制人物与商品互动的场景有明确应用价值。项目页面已上线,代码即将开源。
- arXiv其他
Meta 与 KAUST 团队提出神经计算机概念
Meta 与沙特阿卜杜拉国王科技大学联合提出神经计算机这一全新计算范式,将计算、内存和输入输出统一为一个运行时状态。团队训练了终端和桌面模拟器,展示模型能直接模拟打字、命令执行、鼠标操作等行为,而非仅作为传统计算机的工具。目前该方案仍处于概念验证阶段,存在符号计算不稳定和短序列限制,但为图灵完备、通用可编程的智能计算形态提供了理论方向。
2026 年 3 月2 items
- NatureAgent
Sakana AI 的 The AI Scientist 登上 Nature
Sakana AI 开发的 The AI Scientist 系统登上 Nature,该系统可自动完成从生成研究想法、编写代码、运行实验、分析数据到撰写论文和审稿的全流程。它已向 ICLR 2025 研讨会提交 3 篇论文,其中 1 篇通过盲审,后因 AI 生成协议被主动撤回。系统提供基于模板和无模板两种模式,分别适用于明确任务和开放式探索。
- research.google训练
Google 发布 TurboQuant 压缩算法,KV 缓存内存减少 6 倍速度提升 8 倍
Google 研究团队推出 TurboQuant,一种针对大语言模型键值缓存的新型压缩算法。它通过 PolarQuant 将向量坐标转换为角度与半径表示,省去传统量化常数的存储开销,再以 QJL 的 1 bit 符号量化对残余误差进行零开销修正。在多个数据集上,TurboQuant 实现内存占用降低 6 倍、推理速度提升 8 倍,且不引入精度损失。该方案无需额外训练即可直接部署,为长上下文推理和推荐系统等场景提供了高效的内存管理路径。