关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro308人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 4018

他被谢霆锋打成重伤,如今怎么样了?

卷史 浏览 3298

全运男足U20:浙江、新疆成绩完全相同,需抽签决定晋级球队

懂球帝 浏览 3057

佘诗曼《新闻女王2》首波口碑出炉了!现场观众的评价一针见血

娱乐圈笔娱君 浏览 3046

京沪高铁:一道复杂的算术题

锦缎研究院 浏览 2491

猫头鹰联手Prusa推出经典棕色、米色3D打印PLA耗材

IT之家 浏览 2757

上海机场48岁总经理因个人原因辞职,上任仅9个月,去年年薪上百万元

红星资本局 浏览 3289

刘宇宁一天迎来两个喜讯,秦海璐没说谎

贵州小娟 浏览 2468

日本知名巨头退出中国内地市场 有门店日排队3000桌

21世纪经济报道 浏览 7481

记者:在不用参与训练时,B费也会在场边观看以给予队友鼓励

懂球帝 浏览 3170

今冬高质感穿搭,很有气质!

Yuki女人故事 浏览 2883

量子位「MEET2026智能未来大会」启动!年度榜单征集中

量子位 浏览 3487

今年春夏最流行的4组通勤穿搭,谁穿谁时髦!

LinkFashion 浏览 286

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 3202

跨年晚会主持人状态曝光!靳梦佳被质疑整容

萌神木木 浏览 2446

多纳鲁马:曼奇尼和巴洛特利都推荐我来,他们让我更坚定选择

懂球帝 浏览 3168

刚说淘汰中国激光雷达,最后希望的 Luminar 就破产了?

差评XPIN 浏览 2561

卡罗拉锐放价格再下探!网友:这次真心动了

汽车网评 浏览 2251

金鸡奖成“照妖镜?

柠檬有娱乐 浏览 3037

加总理在中国说了美国最不爱听的话 2000亿协议拿到手

北回归线 浏览 6525

德国军方举行演习被当地警方误判为“威胁” 遭警方实弹还击

环球网资讯 浏览 3180
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1