关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4718人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

李湘要气炸了!王诗龄封面脚被P成“双右脚”,芭莎无回应惹争议

乌娱子酱 浏览 3798

继与霉霉恋情谣言后,里弗斯被传约会网红

艺兔体坛 浏览 3557

伊朗官员提开放霍尔木兹海峡条件

央视新闻客户端 浏览 1862

推广中奖名单-更新至2025年12月15日推广

黎贝卡的异想世界 浏览 3623

星链养AI,值不值?SpaceX的1.8万亿算力豪赌

钛媒体APP 浏览 512

清华大学团队发明"聪明偷懒"的AI:让人工智能只在难题上深度思考

科技行者 浏览 3408

华硕灵耀14双屏2026来袭:酷睿Ultra X9加持,移动办公集大成者

IT之家 浏览 3234

多家银行挂牌信用卡不良资产

中国基金报 浏览 3935

布朗复出27+7绿军19分逆转双杀热火 西蒙斯39+7三分赛季新高

醉卧浮生 浏览 3520

初秋“不露腿”也能穿得美:裤选长、裙及踝,优雅得体又应季

静儿时尚达人 浏览 4595

以军打死数十名哈马斯指挥官 特朗普:应该的

每日经济新闻 浏览 4342

32岁程序员猝死 公司谈判录音公布:我们非常器重他

澎湃新闻 浏览 7418

详解“和平意志-2026”演习各国参演舰艇阵容

环球网资讯 浏览 3462

德佬:我本来不想让KK的团队得逞,但最终不得不把他卖掉

懂球帝 浏览 5231

视界大会后台社交名利场!欧豪起身主动接杨幂,剧组之间互相抱团

萌神木木 浏览 4154

A股董事被拘!涉嫌违法放贷,早年工行履历被关注

财通社 浏览 4664

天才少年姚顺雨入职腾讯后首次公开发声

21世纪经济报道 浏览 3436

Nuralogix智能镜亮相CES,可看脸提供“长寿评分”

IT之家 浏览 3581

江俊晋级斯诺克苏格兰公开赛八强

体坛周报 浏览 3810

转行当吉他手?科纳特被罗梅罗蹬到后,做出吉他里的扫弦动作

懂球帝 浏览 3744

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 3312
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1