关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3559人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

影视大佬吴敦离世,贾静雯林志颖发文悼念

素素娱乐 浏览 2049

方程豹钛3拆车:情绪烘托到这份儿上,你会买单吗?

大飙车 浏览 2589

史上最强财报背后,苹果仍差临门一脚

虎嗅APP 浏览 3184

影像机能爆炸,这是朱一龙最惊艳的电影之一

幕味儿 浏览 3114

印度的“真正敌人” 莫迪挑明了

参考消息 浏览 25150

M3旅行版上市售94.39万元 告别平行进口

网易汽车 浏览 3107

台湾名嘴蔡正元:黄海8天实弹演习只是前菜

看看新闻Knews 浏览 2130

追梦:当勇士保持健康,我认为没有哪支球队是我们无法击败的

懂球帝 浏览 3591

四缸AMG失败史:干掉C63!

CLauto酷乐汽车 浏览 1309

赵露思这段戏火了,陈伟霆当初没说错

刘蕳爱下厨 浏览 3772

数读“十四五”答卷︱世界第一、全球领先!一组数据看我国科技事业历史性成就

海外网 浏览 4119

账面资金高达43亿,却要募集13亿,这家老牌企业差不差钱?

IPO日报 浏览 3314

特朗普呼吁立即停火 遭俄方坚决驳斥

财联社 浏览 3355

媒体:中国元首时隔11年再次访韩 在韩国引发很大反响

新民周刊 浏览 13964

马筱梅不再隐瞒!直播掀上衣展示孕肚

老塕是个手艺人 浏览 2615

媒体:美国对台军售 本质是在加重中华人民共和国负担

新民周刊 浏览 8246

胡润百富榜发布!刘永行、朱义、刘永好、刘汉元、张勇排川商前五

红星资本局 浏览 3270

香港重磅活动,17日盛大开启!

中国基金报 浏览 2700

焕然“E”新!近六万亿市场,大变样!

券商中国 浏览 2481

足球报:北京市体育局与足协相关领导都会现场观战足协杯决赛

懂球帝 浏览 2889

以色列再次延长对半岛电视台运营禁令

上观新闻 浏览 2169
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1