HuggingFace · 其他

阿里发布 PrismAudio 环境音/音效模型

阿里发布了 PrismAudio 环境音与音效生成模型，参数量 5.18 亿，生成 9 秒音频仅需 0.63 秒。该模型将强化学习与思维链结合，先推理再生成匹配画面的声音，在声画同步和音质清晰度上表现不错。模型权重已在 HuggingFace 和 ModelScope 开源。

域名: huggingface.co
评分: 4 · 重要更新
发布: 2026-03-24

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

原文摘要

标签大模型产品名 PrismAudio 分类开源摘要阿里推出了名为PrismAudio的环境音/音效模型，拥有5.18亿参数，生成9秒音频仅需0.63秒。该模型结合了强化学习和思维链，能够实现声画同步，音质清晰且丰富收录时间 2026/03/24 网址 huggingface.co/Fun…mAudio 岗位辅助通用行业通用 2 more properties 阿里刚刚放出来了一款环境音/音效模型：PrismAudio，5.18亿参数，生成9秒音频只需0.63秒它把强化学习和思维链结合，先思考，再生成匹配的声音声画同步、以及音质上的清晰度丰富度感觉还可以权重： https://huggingface.co/FunAudioLLM/PrismAudio https://www.modelscope.cn/models/iic/PrismAudio Loading... Loading...

Back to Latest