Recoleta Item Note

State-of-the-Art Prompting for AI Agents (2025)

这篇文章不是严格意义上的学术论文，而是一份面向构建 AI agent 的提示工程最佳实践总结。它整理了多种可操作的 prompting 技巧，核心目标是提升 agent 的可靠性、可控性与可调试性。

prompt-engineeringai-agentsagent-workflowsevalsmeta-prompting

Summary

提倡把 LLM 当作“新员工”来管理：给出超具体、超详细的长提示，明确角色、任务、约束和输出格式。
使用角色设定、任务拆解、分步计划和结构化格式（如 Markdown/XML 标签）来增强模型对指令的理解和输出一致性。
借助few-shot 示例和meta-prompting，让模型基于好/坏案例帮助改写提示，从而迭代优化行为。
在多阶段 agent 工作流中使用动态 prompt folding 生成更专门的子提示，并加入 escape hatch（如“不知道就明确说明”）来减少幻觉。
强调debug 信息/思维痕迹与evals的重要性：前者帮助排查提示问题，后者用于系统性衡量提示质量；同时考虑不同模型“个性”，并通过大模型优化、小模型部署来做蒸馏与成本权衡。

文中没有提供正式实验、基准数据集或可复现的定量指标，因此没有可报告的 accuracy、success rate、latency 或成本对比数字。
最具体的工程性例子包括：Parahelp 的客服 agent 提示词长度达到 6+ pages，并使用 XML 风格标签（如 <manager_verify>accept</manager_verify>）约束结构化输出。
文中声称这些方法可带来更高的可靠性、更好的可调试性、更一致的机器可读输出，并降低 hallucination 风险，但这些结论主要来自经验总结而非严格实验验证。
文章还提出“evals are your crown jewels”这一核心主张：相比单条 prompt，本地评测集被认为是 prompt 迭代和 agent 产品化的关键资产。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.