端到端软件生成进入更严格评测
代码智能评测正从单点函数题,转向更接近真实工程的整系统任务。Vibe Code Bench测“从需求到部署”的完整Web应用,最强模型也只有61.77%。外部集成一多,表现明显下滑。这个方向说明,行业开始用更贴近生产的任务重新校准“会写代码”与“能交付软件”的差距。
Representative sources
- Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development — Hung Tran; Langston Nashold; Rayan Krishnan; Antoine Bigeard; Alex Gu