关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1671人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

距伊朗161公里 巴基斯坦想邀美国在敏感地点建港口

上观新闻 浏览 3867

“过年红”就这么穿,真不俗!

Yuki女人故事 浏览 3314

德天空:迪朗维尔预计将在1月以租借形式离开多特

懂球帝 浏览 3505

中国游客到迪拜参加婚礼被困:目睹导弹从上空飞过

极目新闻 浏览 2701

奖金1.5万元,破赛事新纪录,张水华拿下2026年第一个冠军

数字财经智库 浏览 3557

小李子塞隆绝色出演,伍迪艾伦的绝妙讽刺剧

幕味儿 浏览 3791

特朗普:对伊朗的军事行动我们已经赢了 但还没赢够

每日经济新闻 浏览 32393

AI+消费电子硬核“出圈”,华强北亮相CEIC 2025

南方都市报 浏览 4401

“内鬼”赶走老板!300多亿中国资产,要被抢了

大猫财经Pro 浏览 4533

2025全球十大工程成就发布,DeepSeek、人形机器人等入选

澎湃新闻 浏览 4572

陈运拿下华锋股份意欲何为

北京商报 浏览 4124

央视春晚二次联排阵容曝光,网友泼冷水:这配置真没必要硬凑热闹

肆季娱乐 浏览 3321

配1.5T增程/猎鹰700辅助驾驶 星途ET5预售15.99万起

网易汽车 浏览 4218

宝马圣诞视频暗藏新车剪影

大象新闻 浏览 3601

长征十二号甲火箭首飞入轨,一级未能成功回收

上观新闻 浏览 3644

武夷山小旅行:走!去山野间,煮一壶茶

黎贝卡的异想世界 浏览 495

业主私挖300平地下室 同楼住户:家里没一面墙是完整的

新民周刊 浏览 9560

何超莲晒全家福,三太瘦了很多,窦骁仍缺席

素素娱乐 浏览 497

从“AI猪食”到“大模型旅鼠”,2025年度热词背后的新商机

吴晓波频道 浏览 3863

新研究发现 AI 的最大破绽:不是不够聪明,而是不会“骂人”

IT之家 浏览 4168

年内首家省级农商行挂牌不到20天,快马加鞭启动第二批机构合并

湘财Plus 浏览 1853
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1