Recoleta Item Note

Show HN: Open-source playground to red-team AI agents with exploits published

这是一个开源的AI智能体攻防演练平台，用公开挑战、公开提示词和公开利用手法来系统化红队测试真实智能体。它要解决的核心问题是：如何通过社区共建来提升对AI智能体安全性与可靠性的信任。

ai-agent-securityred-teamingopen-source-playgroundjailbreak-evaluationagent-trust

Summary

构建一个开源Playground：每个挑战都部署一个真实在线AI智能体，具备明确persona、可调用工具（如web search、browsing）以及需要保护的目标。
系统提示词公开、挑战配置版本化公开，让研究者直接面向真实防护边界进行越狱/利用，而不是黑盒猜测。
采用社区驱动流程：任何人可提案挑战，社区投票，优先挑战上线，最快成功越狱者获胜。
将获胜利用技术完整发布，包括方法与推理过程，以推动防御改进，并形成公开的失败模式知识库。
守护栏评估在服务端运行，以减少客户端篡改；前端开源，智能体运行时将另行开源。

文本未提供定量实验结果，没有给出成功率、基准数据集、对比基线或防御提升幅度等数字。
最强的具体主张是：平台提供真实在线智能体而非玩具示例，并且公开系统提示词、版本化挑战配置、公开获胜利用方法。
明确宣称的机制收益是形成一个正反馈循环：公开攻击技术 → 倒逼更强防御 → 产生更难挑战 → 加深对智能体失效模式的理解。
工程上给出的可验证事实包括：前端技术栈为React + TypeScript + Vite + Tailwind，挑战定义位于**/challenges目录，守护栏评估服务端执行**。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.