关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro306人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2025年,他们集齐了十二枚臂章

我们的太空 浏览 1938

媒体:高市内阁就"雷达照射"贼喊捉贼 遭批国家的耻辱

新民晚报 浏览 19680

韩总理下达紧急指令:必要时强力应对个别反华集会

环球网资讯 浏览 15398

埃尔法最大竞品复活了,这台新出的日系MPV有点酷!

汽车消费网 浏览 3104

中方敦促波黑各方缓解紧张局势

国际在线 浏览 3147

CES变成中国科技秀:机器人跳舞、熊猫获奖、眼镜会说话

霞光社 浏览 2344

每月抽查5%商家 外卖平台“新国标”落地

北京商报 浏览 2739

气场拉满:泰国改装厂让长城坦克300“变身”Brabus G63

IT之家 浏览 2405

钟楚曦合影风波升级!杨幂刘亦菲差点没挤进去

萌神木木 浏览 3229

豪华MPV的"新解法" 吉利银河V900上市26.98万起售

车评社Auto 浏览 2157

"女首相梦"悬了的高市公开支持赖清德 日本亲华派翻脸

梁讯 浏览 7194

首富卷入惊天丑闻,妻子被瞒一无所知

Yuki女人故事 浏览 2053

A股突发!刚刚,释放三大信号!

券商中国 浏览 3431

机酒价格普降两成 出境错峰游正当时

北京商报 浏览 3465

一切为了销量、利润,消息称三星决定不提高Galaxy S26系列售价

IT之家 浏览 2505

75岁谭咏麟街头买金鱼!与老板老友式寒暄

丁睋解说 浏览 2024

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 2065

12306汽车托运服务订单火爆 客服:目前有9条线路可选

极目新闻 浏览 21036

沃勒尔:德国队首发门将仍存在变数,特狮必须稳定上场才行

懂球帝 浏览 2582

B级车杀入八万元区间,汽车的价格战到底路在何方?

江瀚视野 浏览 3468

天冷了,“彩色毛衣”这么穿美翻了!

LinkFashion 浏览 2634
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1