关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3558人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

光模块双雄:高增长审美疲劳 高估值面临压力

21世纪经济报道 浏览 3161

当“中国表格之王”开始发力多维表格

硅星人 浏览 3239

规模创历史新高 2025浦江创新论坛共议科技未来

看看新闻Knews 浏览 4028

半年暴涨超470%!中际旭创,实控人拟套现22亿!

侃见财经 浏览 3906

厦门翔安:侨商越海疆 展翼共翱翔——一场以侨为桥招商大会背后的千亿机遇

中国商报 浏览 2219

司晓迪扯出内娱灰产,难怪王大发连夜起诉割席,网友呼吁整治内娱

萌神木木 浏览 1787

固态电池量产提速!超千万新能源车主,竟成被割的 “老韭菜”?

数字财经智库 浏览 4031

大国放大招,交割日要注意了

大猫财经Pro 浏览 2307

河南最大城商行迎博士行长,曾任濮阳副市长、为湖南大学校友

湘财Plus 浏览 3593

白百何工作室放聊天记录了!锤了剧组没撒谎,东京之前就有矛盾

萌神木木 浏览 2541

纯电汉兰达?丰田发布新款SUV预告,向新时代低头?

正在说车 浏览 2117

开完"告别酒会"70岁萨科齐下周入狱 或住进9平米单间

上观新闻 浏览 8776

谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底

第一财经资讯 浏览 3338

西班牙拒绝加入美国发起的“和平委员会”

国际在线 浏览 2148

以方袭击后 美副总统表态:加沙停火协议仍在维持

国际在线 浏览 3230

奇才120-103尼克斯,巴格利18+11,亚布塞莱11分,克拉克森12分

懂球帝 浏览 3357

涉结束俄乌冲突 美媒披露"12点方案"

环球网资讯 浏览 11862

西贝深圳一门店被指未获同意提前“逃场”,回应:撤店属实,双方已达成方案

红星资本局 浏览 2143

从一家超市的开业,看大卖场的终章

新零售财经 浏览 3419

美海军"林肯"号航母打击群抵达中东地区

环球网资讯 浏览 2132

限量3000台 广汽本田新飞度焕新价6.68万

网易汽车 浏览 2280
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1