Recoleta Item Note
Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain
本文提出 QoT(Questions-of-Thoughts),一种面向软件设计质量的推理脚手架,让 LLM 先分解工程步骤,再对每一步做自问自答式检查。它旨在减少遗漏、提升模块化与安全性,并留下可复用的轻量推理记录。
llm-agentssoftware-designinference-time-reasoningself-verificationcode-quality
Summary
本文提出 QoT(Questions-of-Thoughts),一种面向软件设计质量的推理脚手架,让 LLM 先分解工程步骤,再对每一步做自问自答式检查。它旨在减少遗漏、提升模块化与安全性,并留下可复用的轻量推理记录。
Problem
- 现有 LLM 辅助软件开发常能生成“看起来能用”的代码,但在完整性、模块化、安全性上经常不足,尤其在多模块、长链路任务中容易漏掉关键约束。
- 只看功能是否跑通不够,因为真实软件系统还需要可维护、可审计、可部署;这对后端系统、企业流程和合规场景尤其重要。
- 现有 CoT/ToT/自我修正方法通常更偏向“生成后再改”,缺少围绕软件质量属性的前置约束梳理和逐步验证机制。
Approach
- QoT 把用户目标先拆成有顺序的工程步骤(Sequential Process Chain),例如先用户模块、再业务模块、再路由与集成,避免一次性生成时遗漏依赖关系。
- 对每一步,模型会自动提出一组自检问题(Question-Answer Chain),用最简单的话说,就是“边做边问自己:有没有权限控制?有没有错误处理?有没有并发/一致性问题?”
- 系统把中间结论持续写入一个推理知识库(Reasoning Knowledge Base),作为后续步骤的上下文,帮助后面的设计与前面的约束保持一致。
- 该方法是推理时增强而不是训练新模型:底座模型不变,只在推理流程外面套上一个质量驱动的 agentic scaffold。
- 评测中,作者用一个受 ISO/IEC 启发的质量量表,对Scalability、Completeness、Modularity、Security四项进行 1–4 分打分,并比较 QoT 与 NoQoT、CoT 的差异。
Results
- 在 QoT vs CoT 对比中,llama3.1_70b 提升最明显:API Design +5.8±1.30,Data Communication +6.6±0.89,File Systems +3.2±1.48。
- 在 QoT vs CoT 中,llama3.3_70b 也在三域全部为正:API +2.2±2.28,Data Communication +4.8±2.17,File Systems +2.2±3.90。
- 小模型也有收益但更不稳定:llama3.1_8b 对 CoT 的提升为 API +2.0±1.73、Communication +2.4±3.05、FS +1.2±2.77;llama3.2_3b 为 API +3.6±2.51、Communication +1.4±1.67、FS +1.4±5.86。
- 在 QoT vs NoQoT 中,结果呈现容量依赖与任务依赖:例如 llama3.1_70b 在 API +3.4±1.34、Communication +5.4±1.67,但在 File Systems -2.8±1.10;llama3.3_70b 在 FS 也出现 -3.0±3.46,作者将其解释为可能的“过度思考/过度工程化”。
- 图中汇总百分比结果显示:llama3.2_3b 在 QoT vs NoQoT 下总改进达 101.49%,llama3.1_70b 为 23.08%,llama3.1_8b 为 23.81%,llama3.3_70b 为 2.80%。
- 论文的核心突破性主张是:QoT 能在不改模型参数的前提下,通过“分步规划 + 自检问答 + 累积记忆”显著提升软件设计质量,并且在部分场景下让较小模型逼近较大模型的单次生成质量。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.