关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4719人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

张嘉倪带俩儿子迪士尼跨年,穿貂皮大衣好贵气

老吴教育课堂 浏览 3628

李昊:五年、十年后的未来,我希望代表中国队站在世界杯赛场

懂球帝 浏览 1439

特朗普称取消与普京会晤并对俄实施新制裁 普京回应

每日经济新闻 浏览 7541

黄晓明新片差评如潮,主演电影连扑三部,票房号召力越来越差了

萌神木木 浏览 4415

广汽华为启境任命刘嘉铭为CEO 合作进入实质阶段

太平洋汽车 浏览 5041

三种动力配置 星光560将于1月15日上市

网易汽车 浏览 3435

南亚空战启示录:枭龙碾压S400背后工业革命

浏览 7324

山西老人智力受损 上海警察因撞脸改口音假扮儿子12年

封面新闻 浏览 9265

晚旗报:随着齐米卡斯留在罗马,罗伯逊不会在冬窗离开利物浦

懂球帝 浏览 3226

双14.6英寸联屏 星越L长风系列上市限时价12.47万起

网易汽车 浏览 2674

懒懒陪王思聪低调过38岁生日,晒甜蜜日常

丁丁鲤史纪 浏览 3545

扫街榜百日奇袭:高德正在成为AI时代的超级枢纽

光子星球 浏览 3486

福特在华渠道大整合,能否激发出新动力?

禾颜阅车 浏览 4391

李湘高调炫富再传噩耗,隐私被扒洗不白

生命之泉的奥秘 浏览 3377

王家卫事件再次升级,可怜了这些明星

阿伧说事 浏览 4149

KAIST团队突破视频生成瓶颈:让AI学会"自我反思"修正动作错误

科技行者 浏览 3370

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿 浏览 4178

混动系统为内燃机续命 沃尔沃最新消息曝光

乐选爱车 浏览 4301

伊朗军方发言人称击落敌方一架先进战斗机

财联社 浏览 1873

BBC两高管宣布辞职 特朗普:他们试图"介入总统选举"

红星新闻 浏览 9319

黎巴嫩民众雨中避难 超83万人流离失所

国际在线 浏览 2451
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1