关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1674人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄白“西方-2025”联合军演结束

环球网资讯 浏览 5333

贝弗利:安东尼曾因不想跟林书豪同队而没跟哈登和霍华德组三巨头

懂球帝 浏览 4267

特朗普在专机上提到与高市早苗通话:她是安倍的好朋友

红星新闻 浏览 9949

鹿晗关晓彤恋爱期间毫不避讳?

娱晓晓 浏览 3707

自称快19岁女子诞下女婴被医生违规抱养 医院5人被罚

大风新闻 浏览 8689

由内而外大变化 第四代CS55PLUS上市限时优惠7.89万起

网易汽车 浏览 5186

售13.98万起 吉利新能源皮卡四驱山地版/高寒版同步上市

网易汽车 浏览 3712

冠军魔咒再应验,高芙总决赛屡屡被报一箭之仇,黯然出局

网球之家 浏览 4130

汤杯爆冷,14冠王印尼1-4不敌法国,队史首次止步小组赛

懂球帝 浏览 1407

张兰回京仅三天连出四大决策,马筱梅直播拆台

秋别离 浏览 2642

对话深投控何建锋:当好耐心资本、长期资本、大胆资本|连线两会

中国企业家杂志 浏览 2638

卡什:阿卡辛纳这样“双马竞争”对网坛来说不是健康的事

网球之家 浏览 3525

孙东旭卸任东方甄选珠海公司职务

雷达财经 浏览 3658

官方:利物浦签下15岁曼城青训门将阿尔菲-杜利

懂球帝 浏览 4741

米体:尤文希望在冬窗引进新后卫,目标包括什克和金玟哉

懂球帝 浏览 4525

周星驰悼梁小龙,翻起港圈大佬们的恨海情天

仙女事件簿 浏览 3346

特朗普发起新一轮无差别攻击 外媒:中国巴西受益最大

澎湃新闻 浏览 38931

冬季穿衣没想象中那么难,看看这些穿搭就有灵感,保暖又好看

静儿时尚达人 浏览 4067

《阿凡达3》预测票房仅仅11亿,口碑翻车

娱乐圈笔娱君 浏览 3757

绝望的日本车:搞新能源押错了宝,随时有可能被国产车一波推

小李车评李建红 浏览 3771

3人因销售火麻种子被判缓刑申诉获再审 法院维持原判

澎湃新闻 浏览 23083
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1