关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1043人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奥西利奥:国米的目标是保持领先,我们不像有的球队那样隐藏

懂球帝 浏览 12869

京东“百亿补贴”商品确认不支持价保,号称“已经十分优惠”

IT之家 浏览 35357

91岁台湾男星跌倒头部血流如注!患前列腺癌暴瘦40斤坐轮椅现身

娱乐白名单 浏览 10512

机器人不约而同毛茸茸,年轻人抢着体验AI养老产品…首届WTCC太全面了

上观新闻 浏览 878

22名将领将退役 阿根廷总统米莱对军方“大换血”

环球网资讯 浏览 13065

张国强:被前妻嫌穷,如今苦尽甘来

小娱乐悠悠 浏览 1504

颠覆认知!用这8把“尺子”重新丈量中国餐饮未来!

餐饮老板内参 浏览 1657

哈登愿意被交易至76人哈登的下家是哪?火箭老板表态

趣看热点 浏览 25502

17岁小伙疑陷东南亚骗局 家人收其戴手铐跪地照片

大风新闻 浏览 14586

105-141!库里低迷仅15分,勇士36分惨败鹈鹕,西部前十渐行渐远

ALL体育 浏览 12982

这些才是普通人都该学的冬季穿搭!不浮夸、不单薄,自然保暖

静儿时尚达人 浏览 91

OpenAI与博通达成数十亿美元芯片开发协议

国际金融报 浏览 1018

日本将为2024年准备创纪录的530亿美元军事预算

财联社 浏览 13347

罗马尼亚门将:看到场内80%都是罗马尼亚球迷,这氛围难以置信

直播吧 浏览 10523

女人到了六十岁还是短发更减龄 时尚又洋气

成铭聊发型 浏览 17327

内饰配置再提升 新款极氪X内饰官图发布

车质网 浏览 667

新增远程代客泊车辅助 深蓝S7i高阶智驾深度体验

车市红点 浏览 12556

里程碑!乔治生涯三分超皮尔斯独占历史第12 高居现役第6

醉卧浮生 浏览 12896

40+女人穿衣不要太花哨!学会这些高级感搭配,美得无可挑剔

静儿时尚达人 浏览 13515

丰田为何执着复兴引擎

帮宁工作室 浏览 11249

有偶像包袱别演戏!《沉默的荣耀》于和伟干饭,打脸多少假吃演员

娱乐圈笔娱君 浏览 1050
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1