research & papers

学术

arXiv 预印本、Nature 等期刊以及研究机构博客（research.google 等）的 AI 相关原始研究。

54 items · 按发布时间倒序

54 items

2026 年 5 月50 items

2026 年 4 月2 items

correr-zhou.github.io视频生成模型2026-04-14
字节跳动与港中文发布人-物交互视频生成模型 OmniShow
字节跳动与香港中文大学联合发布 OmniShow，一个专为人-物交互场景设计的端到端视频生成模型。该模型支持图像、音频、姿势与文本多种输入的混合控制，能够生成最长 10 秒的连续视频，并实现人脸保持、物理合理性与口型同步等效果。OmniShow 在人-物交互的生成质量上表现出竞争力，尤其在电商广告等需要精准控制人物与商品互动的场景有明确应用价值。项目页面已上线，代码即将开源。
arXiv其他2026-04-14
Meta 与 KAUST 团队提出神经计算机概念
Meta 与沙特阿卜杜拉国王科技大学联合提出神经计算机这一全新计算范式，将计算、内存和输入输出统一为一个运行时状态。团队训练了终端和桌面模拟器，展示模型能直接模拟打字、命令执行、鼠标操作等行为，而非仅作为传统计算机的工具。目前该方案仍处于概念验证阶段，存在符号计算不稳定和短序列限制，但为图灵完备、通用可编程的智能计算形态提供了理论方向。

2026 年 3 月2 items

Back to Latest

Sat3DGen 发布：单张卫星图像生成街景级三维场景

STALE 研究：LLM Agent 能否检测记忆失效

ViMU 基准测试发布，用于评估视频隐喻理解能力

北大、字节跳动等发布 WildTableBench 表格理解评测基准

LiSA 提出终身安全适应的保守策略归纳方法

研究提出 VLA 模型节奏与路径校正方法

基于 LLM 的操纵性政治叙事检测方法研究

研究提出德国政治文本意识形态预测方法

Nexus 发布时间序列预测 agent 框架

自适应教师暴露方法用于 LLM 推理自蒸馏

RewardHarness 提出自进化 agent 后训练方法

HuggingFace 发布 Dynamic Latent Routing 论文

随机少样本指导提升可验证奖励强化学习性能

BEAM 提出二进制专家激活掩码实现 MoE 动态路由

视频世界模型几何一致性定量评估方法

SPIN 提出基于迭代导航的结构化 LLM 规划方法

Hodge 分解实现保拓扑神经网络算子学习

HuggingFace 发布 PreScam 诈骗对话预测基准

SANA-WM 提出 Hybrid Linear Diffusion Transformer 实现分钟级世界建模

RAVEN 发布实时自回归视频外推模型

MemEye 发布多模态 agent 记忆评测框架

Darwin Family 提出 MRI 信任加权进化合并方法实现免训练扩展语言模型推理

WildClawBench 发布面向真实世界长时域 agent 评估的基准

Warp-as-History 提出单视频训练的可泛化相机控制视频生成方法

论文揭示 LLM 路由配置的设计空间 RouteProfile

VGGT-Edit 发布基于残差场预测的前馈式原生 3D 场景编辑方法

EvolveMem 提出基于自研究机制的自进化记忆架构

Lighthouse Attention 实现长上下文预训练

Realiz3D 提出域感知学习实现逼真 3D 生成

ATLAS 提出极简视觉推理方法：一个词即可同时实现 Agent 与隐式推理

FrontierSmith：大规模合成开放性编程问题

研究提出面向大规模多智能体路径规划的局部通信学习方法

DiffusionOPD 提出扩散模型同策略蒸馏的统一视角

IntentVLA 提出短时意图建模解决机器人操作中的混淆问题

Orchard 开源 agent 建模框架

清华等机构提出 PanoWorld 全景空间超感知模型

Forcing-KV 提出混合 KV 缓存压缩方法用于自回归视频扩散模型

BOOKMARKS 提出高效主动故事线记忆用于角色扮演

论文提出自进化推理强化学习方法 Verifiable Environment Synthesis

PhyMotion 提出结构化 3D 运动奖励用于物理感知人体视频生成

PRISM 提出扩散模型文本图像超分辨率新方法

FutureSim 提出通过回放世界事件评估自适应 Agent

LLM 多智能体系统协作、故障归因与自我进化综述

PREPING 提出无需任务的 agent 记忆构建框架

合成分层设计数据对分层设计分解的有效性研究

CurveBench：嵌套Jordan曲线精确拓扑推理基准

Causal Forcing++ 实现可扩展的少步自回归扩散蒸馏用于实时交互视频生成

Self-Distilled Agentic Reinforcement Learning 论文发布

MemLens 发布多模态长期记忆评测基准

通过统一缩放实现奥赛金牌级推理能力

字节跳动与港中文发布人-物交互视频生成模型 OmniShow

Meta 与 KAUST 团队提出神经计算机概念

Sakana AI 的 The AI Scientist 登上 Nature

Google 发布 TurboQuant 压缩算法，KV 缓存内存减少 6 倍速度提升 8 倍