Recoleta Item Note

Show HN: Open-source playground to red-team AI agents with exploits published

这是一个开源的AI智能体攻防演练平台,用公开挑战、公开提示词和公开利用手法来系统化红队测试真实智能体。它要解决的核心问题是:如何通过社区共建来提升对AI智能体安全性与可靠性的信任。

ai-agent-securityred-teamingopen-source-playgroundjailbreak-evaluationagent-trust

这是一个开源的AI智能体攻防演练平台,用公开挑战、公开提示词和公开利用手法来系统化红队测试真实智能体。它要解决的核心问题是:如何通过社区共建来提升对AI智能体安全性与可靠性的信任。

  • AI智能体正在承担越来越多真实任务,但如果用户不能相信它“只做该做的事、不做不该做的事”,就无法大规模落地。
  • 封闭式内部测试不足以建立可信度;智能体失效模式、越狱路径和工具滥用风险需要开放、持续、可复现的压力测试。
  • 现有很多安全演示是玩具场景,而不是带真实工具能力的在线智能体,因此难以暴露实际部署中的问题。
  • 构建一个开源Playground:每个挑战都部署一个真实在线AI智能体,具备明确persona、可调用工具(如web search、browsing)以及需要保护的目标。
  • 系统提示词公开、挑战配置版本化公开,让研究者直接面向真实防护边界进行越狱/利用,而不是黑盒猜测。
  • 采用社区驱动流程:任何人可提案挑战,社区投票,优先挑战上线,最快成功越狱者获胜。
  • 获胜利用技术完整发布,包括方法与推理过程,以推动防御改进,并形成公开的失败模式知识库。
  • 守护栏评估在服务端运行,以减少客户端篡改;前端开源,智能体运行时将另行开源。
  • 文本未提供定量实验结果,没有给出成功率、基准数据集、对比基线或防御提升幅度等数字。
  • 最强的具体主张是:平台提供真实在线智能体而非玩具示例,并且公开系统提示词、版本化挑战配置、公开获胜利用方法
  • 明确宣称的机制收益是形成一个正反馈循环:公开攻击技术 → 倒逼更强防御 → 产生更难挑战 → 加深对智能体失效模式的理解
  • 工程上给出的可验证事实包括:前端技术栈为React + TypeScript + Vite + Tailwind,挑战定义位于**/challenges目录,守护栏评估服务端执行**。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.