关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3563人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

莫斯科大学突破:普通照片实现房间结构与物品识别

科技行者 浏览 3358

邮报:罗塞尼尔邀请麦克法兰加入切尔西一线队教练组

懂球帝 浏览 2319

美股芯片股全线大跌,希捷科技盘后猛涨17%,国际油价涨超3%

21世纪经济报道 浏览 38

托蒂:还没和斯帕莱蒂谈过去的事情,经过这么多年该放下了

懂球帝 浏览 3181

小伙雕刻"全球首个汽车石窟" 曾雕"奥特曼"石窟引争议

封面新闻 浏览 9013

上海交大吴家睿:复杂的科学时代需要复杂性思维|全国科普月

上观新闻 浏览 4175

科技氛围浓郁 全新奥迪Q5L内饰正式公布

车质网 浏览 2818

杜加利奇解释离队:不是竞技因素和经济问题,原因在于一个人

懂球帝 浏览 2656

美国43岁母亲在学校舞会拐走女儿14岁男友 还和他生子

潇湘晨报 浏览 8884

大湾区晚会收视出炉!小沈阳父女拿下最高点,王源和时团联手赶客

萌神木木 浏览 3880

娃哈哈精密机械公司启动解散清算,员工称已收到终止劳动合同通知

红星资本局 浏览 1620

今年最好的大银幕电影,没有之一

电影最TOP 浏览 2630

何小鹏“扒皮”验真身 国产人形机器人“摊牌了”

汽势传媒 浏览 3098

12306又上新功能:坐火车能领取积分 积分可以当钱花

大象新闻 浏览 8012

复旦大学OpenNovelty:让AI成为学术论文同行评议的"火眼金睛"

科技行者 浏览 2415

随着西班牙3-0 世界杯16强定14席 中国队对手确定 亚洲仅韩国出局

侃球熊弟 浏览 3400

国家互联网应急中心提示“龙虾”风险

澎湃新闻 浏览 1409

女星安吉丽娜·朱莉访乌 其随身保镖被乌军征兵处抓走服役

极目新闻 浏览 3168

蔚来跌超6%三季度亏30亿,理想由盈转亏,零跑盈利,造车新势力洗牌加剧

21世纪经济报道 浏览 2891

萨高大战流产!萨巴伦卡将挑战赛变授课堂,高芙被小白菜扫成服妹

网球之家 浏览 2163

每体:腓骨骨折的邦马蒂将接受手术,或将伤缺5个月

懂球帝 浏览 2715
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1