关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro307人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐清明热推:电视剧《冰湖重生》;电视剧《月鳞绮纪》......

伊周潮流 浏览 743

美乌柏林两日会谈后 特朗普、泽连斯基同日发声

环球时报国际 浏览 17598

黄金越涨越买?这届年轻人心态变得太快了

说财猫 浏览 3390

《向往》收视创新低!仅剩0.19%越看越丧气,节目氛围遭吐槽

萌神木木 浏览 3494

“军国主义”为何能在日本存续下来

国际在线 浏览 2841

“复古运动风”今年秋天太流行了,这样穿减龄又好看!

LinkFashion 浏览 3327

降入20万价格区间 曝廉价版特斯拉即将国产

车质网 浏览 3412

迪士尼官宣10亿美元投资OpenAI,允许Sora生成米老鼠等视频

IT之家 浏览 2802

德国总理首次访华时间被指敲定 高级经济代表团将跟随

澎湃新闻 浏览 6621

中国男子在意涉嫌抢枪被警察击伤头部 疑是两孩父亲

扬子晚报 浏览 8834

切尔西本赛季英超已有10人取得进球,与阿森纳并列最多

懂球帝 浏览 3365

伊朗曾组建反间谍机构 结果最后发现负责人就是以间谍

扬子晚报 浏览 43305

卷首语 | 拒绝和解的勇气

时尚COSMO 浏览 3192

桑德兰前锋伊西多尔:亨利发信息祝贺我,鼓励我继续前进

懂球帝 浏览 3938

今年最好的大银幕电影,没有之一

电影最TOP 浏览 2628

岚图追光L/别克至境世家领衔 12月上市新车汇总

太平洋汽车 浏览 2859

女子年初砸60万买黄金国庆后花20万买白银基金:真运气

潇湘晨报 浏览 17506

大回血,股票型ETF一周猛增1000亿元!上周两明星产品遭“反噬”,但资金“越跌越买”|ETF规模周报

每经牛眼 浏览 3311

张嘉倪带俩儿子迪士尼跨年,穿貂皮大衣好贵气

老吴教育课堂 浏览 2490

博主成功拆解苹果 iPhone Air,刮去背板涂层打造“透明版”机型

IT之家 浏览 3353

杉杉股份易主:任元林接盘,“民营船王”入主锂电材料巨头

征探财经 浏览 3546
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1