HuggingFace · 其他
阿里发布 PrismAudio 环境音/音效模型
阿里发布了 PrismAudio 环境音与音效生成模型,参数量 5.18 亿,生成 9 秒音频仅需 0.63 秒。该模型将强化学习与思维链结合,先推理再生成匹配画面的声音,在声画同步和音质清晰度上表现不错。模型权重已在 HuggingFace 和 ModelScope 开源。
- 域名
huggingface.co- 评分
- 4 · 重要更新
- 发布
- 2026-03-24
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
原文摘要
标签 大模型 产品名 PrismAudio 分类 开源 摘要 阿里推出了名为PrismAudio的环境音/音效模型,拥有5.18亿参数,生成9秒音频仅需0.63秒。该模型结合了强化学习和思维链,能够实现声画同步,音质清晰且丰富 收录时间 2026/03/24 网址 huggingface.co/Fun…mAudio 岗位辅助 通用 行业 通用 2 more properties 阿里刚刚放出来了一款环境音/音效模型:PrismAudio,5.18亿参数,生成9秒音频只需0.63秒 它把强化学习和思维链结合,先思考,再生成匹配的声音 声画同步、以及音质上的清晰度丰富度感觉还可以 权重: https://huggingface.co/FunAudioLLM/PrismAudio https://www.modelscope.cn/models/iic/PrismAudio Loading... Loading...