爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

五年十代攻关...

曝古二家人被...

路边停车累计...

TimeSe...

43岁张杰正...

因欧盟制裁 ...

＂老虎＂高以忱被开除党籍：大搞政商勾连大肆收钱敛财

细菌对抗生素的两种生存机制被揭示

2026 春节档终极 PK！沈腾周星驰二次交手

俄白“西方-2025”联合军演结束

贝弗利：安东尼曾因不想跟林书豪同队而没跟哈登和霍华德组三巨头

特朗普在专机上提到与高市早苗通话:她是安倍的好朋友

鹿晗关晓彤恋爱期间毫不避讳？

自称快19岁女子诞下女婴被医生违规抱养医院5人被罚

由内而外大变化第四代CS55PLUS上市限时优惠7.89万起

售13.98万起吉利新能源皮卡四驱山地版/高寒版同步上市

冠军魔咒再应验，高芙总决赛屡屡被报一箭之仇，黯然出局

汤杯爆冷，14冠王印尼1-4不敌法国，队史首次止步小组赛

张兰回京仅三天连出四大决策，马筱梅直播拆台

对话深投控何建锋：当好耐心资本、长期资本、大胆资本｜连线两会

卡什：阿卡辛纳这样“双马竞争”对网坛来说不是健康的事

孙东旭卸任东方甄选珠海公司职务

官方：利物浦签下15岁曼城青训门将阿尔菲-杜利

米体：尤文希望在冬窗引进新后卫，目标包括什克和金玟哉

周星驰悼梁小龙，翻起港圈大佬们的恨海情天

特朗普发起新一轮无差别攻击外媒：中国巴西受益最大

冬季穿衣没想象中那么难，看看这些穿搭就有灵感，保暖又好看

《阿凡达3》预测票房仅仅11亿，口碑翻车

绝望的日本车：搞新能源押错了宝，随时有可能被国产车一波推

3人因销售火麻种子被判缓刑申诉获再审法院维持原判