Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

paper.seebug.org

paper - Last paper

Get the latest updates from paper - Last paper directly as they happen.

Follow now 562 followers

Latest posts

Last updated 1 day ago

从效率到泄露——联邦语言模型微调中的隐私后门

1 day ago

作者:Shanghao Shi, Chaoyu Zhang, Heng Jin, Yang Xiao, Yevgeniy Vorobeychik, William Yeoh...

NRT-Bench:面向安全关键控制室中 LLM 智能体的多轮红队测试基准

3 days ago

作者:Hanwool Lee, Dasol Choi, Bokyeong Kim等 原文链接:https://arxiv.org/pdf/2606.20408 摘要 大型语言模型(LLM)智能体越来越多地被提议作为安全关键系统的监督组件,但它们在持续、自适应对抗压力下的鲁棒性仍然缺乏充分表征。本文提出NRT-Bench,一个用于对担任安全关键系统操作员的LLM智能体进行多轮红队测试的基准,具体实例...

面向多种防御策略的自动化越狱攻击

11 days ago

作者:Qi Wang, Chengcheng Wan等 原文链接:https://arxiv.org/pdf/2606.16751 摘要 大型语言模型(LLM)在广泛的任务中展现出了卓越的能力。然而,由于其易受对抗性提示攻击的影响,其安全性仍然是一个关键问题。在本文中,我们提出了UniAttack,这是一个从防御视角设计的对抗性测试框架,用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...

ZERO-APT:面向智能防御下 LLM 驱动自动化渗透测试的闭环对抗框架

16 days ago

作者:Anlan Zheng, Tiantian Zhu 原文链接:https://arxiv.org/html/2606.05567v1 摘要 LLM驱动的自动化渗透测试智能体通常是在既不会检测也不会响应攻击的静态目标上进行评估的,因此它们在智能防御下的行为仍然未经测试。多步攻击链的因果一致性同样依赖于不稳定的LLM推理,而智能体的决策对人类分析人员来说仍然是不透明的。这三个缺陷——真实性、一致...

软件工程的终结:AI智能体如何从根本上重构软件范式

18 days ago

作者:Zhenfeng Cao 原文链接:https://arxiv.org/pdf/2606.05608 摘要 半个多世纪以来,软件工程一直建立在一个基本前提之上:人类工程师负责拆解问题,将决策逻辑编码为静态代码,并在需求演变时手动调整代码。本文认为,AI智能体(AI agents)的出现——即以大型语言模型作为主要推理引擎,将代码动态生成与丢弃作为工具性资源的系统——并非渐进式的改进,而是对软...

大语言模型后训练中的顺序数据投毒

19 days ago

作者:Jack Sanderson, Yihan Wang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2606.04929v1 摘要 大语言模型后训练包含多个阶段,例如监督微调(SFT)以及随后的人类反馈强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段,但忽略了...

BLAST:面向协作多智能体深度强化学习系统的隐秘后门杠杆攻击

30 days ago

作者:Jing Fang, Saihao Yan等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2501.01593v2 摘要 现有研究表明,协作多智能体深度强化学习(c-MADRL)极易遭受后门攻击威胁。一旦观测到后门触发器,系统将执行恶意行为,引发任务失败或达成攻击者恶意目的。然而现有后门攻击存在诸多缺陷:瞬时触发模式隐蔽性差、需借助额外网络完成后...

潜在对抗检测:基于大模型激活自适应探测的多轮攻击检测

about 1 month ago

作者:Prashant Kulkarni 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.28129v1 摘要 多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径,但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现,该攻击路径会在模型残差流中留下可识别的激活层特征:攻击每个阶段的切换都会引发激活向量偏移,最终累积路径长度远超正常...

GLiGuard:面向大语言模型安全防护的模式条件分类方法

about 2 months ago

作者:Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2605.07982v1 摘要 保障大语言模型(LLM)输出安全合规、符合政策要求,需要能跨多安全维度实时扩展的内容审核机制。然而,当前最优的安全护栏模型均基于70亿–27...

基于大语言模型的 AI 智能体安全威胁与防御系统性综述——分层攻击面框架

about 2 months ago

作者:Kexin Chu 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/pdf/2604.23338v2 摘要 智能体AI系统可跨多会话规划、保留记忆、调用外部工具并与对等智能体协同,无状态大语言模型则不具备这些能力。现有安全分类体系按攻击类型(如提示注入、越狱)划分威胁,却未说明脆弱的架构组件或威胁显现的时间尺度。本文直接解决这些结构性问题,提出分层攻击面模型(...

ReTokSync:面向生成式语言隐写的自同步分词消歧方法

about 2 months ago

作者:Yaofei Wang, Rui Wang, Weilong Pang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.25486v1 摘要 生成式语言隐写(GLS)通过将秘密信息嵌入自然语言生成过程实现隐蔽通信。然而在实际部署中,GLS易受分词歧义影响:相同的表层文本在接收端可能被重新分词为不同的token序列,破坏通信双方共享的解码状...

素域 PINI:后量子 NTT 掩码的机器验证合成定理

about 2 months ago

作者:Ray Iskander,Khaled Kirah 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/abs/2604.25878v1 摘要 本文是后量子密码掩码数论变换(NTT)硬件形式化验证分析系列论文的第六篇。第一篇论文[1]建立了 QANARY 平台的结构依赖分析,第二篇论文[2]量化了部分 NTT 掩码下的安全裕度。布尔掩码的合成理论通过无干扰(NI)...