---
source: hn
url: https://github.com/fabraix/playground
published_at: '2026-03-15T22:29:46'
authors:
- zachdotai
topics:
- ai-agent-security
- red-teaming
- open-source-playground
- jailbreak-evaluation
- agent-trust
relevance_score: 0.79
run_id: materialize-outputs
language_code: zh-CN
---

# Show HN: Open-source playground to red-team AI agents with exploits published

## Summary
这是一个开源的AI智能体攻防演练平台，用公开挑战、公开提示词和公开利用手法来系统化红队测试真实智能体。它要解决的核心问题是：如何通过社区共建来提升对AI智能体安全性与可靠性的信任。

## Problem
- AI智能体正在承担越来越多真实任务，但如果用户不能相信它“只做该做的事、不做不该做的事”，就无法大规模落地。
- 封闭式内部测试不足以建立可信度；智能体失效模式、越狱路径和工具滥用风险需要开放、持续、可复现的压力测试。
- 现有很多安全演示是玩具场景，而不是带真实工具能力的在线智能体，因此难以暴露实际部署中的问题。

## Approach
- 构建一个开源Playground：每个挑战都部署一个**真实在线AI智能体**，具备明确persona、可调用工具（如web search、browsing）以及需要保护的目标。
- **系统提示词公开、挑战配置版本化公开**，让研究者直接面向真实防护边界进行越狱/利用，而不是黑盒猜测。
- 采用**社区驱动流程**：任何人可提案挑战，社区投票，优先挑战上线，最快成功越狱者获胜。
- 将**获胜利用技术完整发布**，包括方法与推理过程，以推动防御改进，并形成公开的失败模式知识库。
- 守护栏评估在服务端运行，以减少客户端篡改；前端开源，智能体运行时将另行开源。

## Results
- 文本**未提供定量实验结果**，没有给出成功率、基准数据集、对比基线或防御提升幅度等数字。
- 最强的具体主张是：平台提供**真实在线智能体**而非玩具示例，并且**公开系统提示词、版本化挑战配置、公开获胜利用方法**。
- 明确宣称的机制收益是形成一个正反馈循环：**公开攻击技术 → 倒逼更强防御 → 产生更难挑战 → 加深对智能体失效模式的理解**。
- 工程上给出的可验证事实包括：前端技术栈为**React + TypeScript + Vite + Tailwind**，挑战定义位于**/challenges**目录，守护栏评估**服务端执行**。

## Link
- [https://github.com/fabraix/playground](https://github.com/fabraix/playground)