爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

奇才120-...

蔚来法务部回...

花江峡谷大桥...

范戴克：我们...

最火的赛道，...

美拉德+黑蓝...

俄官宣“末日鱼雷”完成核动力试验

都体：国米想租佛罗伦萨翼卫多多，愿意送出德弗赖或阿斯拉尼

郑丽文要让国民党＂羊群变狮群＂：不是反咬一口而已

张嘉倪带俩儿子迪士尼跨年，穿貂皮大衣好贵气

李昊：五年、十年后的未来，我希望代表中国队站在世界杯赛场

特朗普称取消与普京会晤并对俄实施新制裁普京回应

黄晓明新片差评如潮，主演电影连扑三部，票房号召力越来越差了

广汽华为启境任命刘嘉铭为CEO 合作进入实质阶段

三种动力配置星光560将于1月15日上市

南亚空战启示录：枭龙碾压S400背后工业革命

山西老人智力受损上海警察因撞脸改口音假扮儿子12年

晚旗报：随着齐米卡斯留在罗马，罗伯逊不会在冬窗离开利物浦

双14.6英寸联屏星越L长风系列上市限时价12.47万起

懒懒陪王思聪低调过38岁生日，晒甜蜜日常

扫街榜百日奇袭：高德正在成为AI时代的超级枢纽

福特在华渠道大整合，能否激发出新动力？

李湘高调炫富再传噩耗，隐私被扒洗不白

王家卫事件再次升级，可怜了这些明星

KAIST团队突破视频生成瓶颈：让AI学会＂自我反思＂修正动作错误

刚刚，阿里千问 APP 开启公测，要做中国版ChatGPT | 附实测

混动系统为内燃机续命沃尔沃最新消息曝光

伊朗军方发言人称击落敌方一架先进战斗机

BBC两高管宣布辞职特朗普：他们试图＂介入总统选举＂

黎巴嫩民众雨中避难超83万人流离失所