爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

哈梅内伊次子...

美媒：马杜罗...

队报：比赛中...

开撕了！亲爹...

52岁郭德纲...

北青：中国女...

长城汽车取消大小周，员工感慨：工作11年，终于等到全面双休了

齐沃：阿森纳和拜仁是目前欧洲最强，但这不意味着我们输定了

美台讨论共同研发武器国防部回应

伊姐清明热推：电视剧《冰湖重生》；电视剧《月鳞绮纪》......

美乌柏林两日会谈后特朗普、泽连斯基同日发声

黄金越涨越买？这届年轻人心态变得太快了

《向往》收视创新低！仅剩0.19%越看越丧气，节目氛围遭吐槽

“军国主义”为何能在日本存续下来

“复古运动风”今年秋天太流行了，这样穿减龄又好看！

降入20万价格区间曝廉价版特斯拉即将国产

迪士尼官宣10亿美元投资OpenAI，允许Sora生成米老鼠等视频

德国总理首次访华时间被指敲定高级经济代表团将跟随

中国男子在意涉嫌抢枪被警察击伤头部疑是两孩父亲

切尔西本赛季英超已有10人取得进球，与阿森纳并列最多

伊朗曾组建反间谍机构结果最后发现负责人就是以间谍

卷首语 | 拒绝和解的勇气

桑德兰前锋伊西多尔：亨利发信息祝贺我，鼓励我继续前进

今年最好的大银幕电影，没有之一

岚图追光L/别克至境世家领衔 12月上市新车汇总

女子年初砸60万买黄金国庆后花20万买白银基金:真运气

大回血，股票型ETF一周猛增1000亿元！上周两明星产品遭“反噬”，但资金“越跌越买”|ETF规模周报

张嘉倪带俩儿子迪士尼跨年，穿貂皮大衣好贵气

博主成功拆解苹果 iPhone Air，刮去背板涂层打造“透明版”机型

杉杉股份易主：任元林接盘，“民营船王”入主锂电材料巨头