Recoleta Item Note

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

本文研究小语言模型（SLM）在软件架构决策记录（ADR）生成中的“推理深度”，并提出一个同时衡量语义质量、架构合规性与多样性的评测框架。核心结论是：SLM并非越小越好用，约3B参数以上出现更稳健的零样本架构推理能力，而高多样性常常意味着幻觉而非有效探索。

Software Intelligence

small-language-modelssoftware-architectureadr-generationbenchmarkingarchitectural-reasoning

Open arXiv Source markdown

Summary

Problem

现有软件工程基准多评测代码实现或文本相似度，难以判断模型是否真的理解软件架构中的权衡、约束与设计原则。
大模型虽强，但在成本、延迟、隐私与本地部署上不适合很多企业架构场景，因此需要弄清小模型是否足够胜任ADR生成。
仅靠ROUGE/BLEU等指标可能把“写得像”误判为“架构上正确”，这会误导真实的软件架构辅助部署。

Approach

提出 SLM-ArchBench，针对ADR生成评估10个开源、指令微调的SLM（约1B到7B），数据集为95个专家编写的Context-Decision样本。
用三种设置系统比较：Zero-shot、Few-shot（k=2）、以及 LoRA PEFT微调；LoRA设置包括r=16、alpha=32、dropout=0.5，训练10个epoch，训练集76条、验证集19条。
评测不只看文本相似度，还加入 Architectural Compliance Score（由Gemini-2.5-Flash作为judge，0-100分）来判断技术合理性与架构最佳实践一致性。
进一步用3次采样候选之间的平均余弦距离衡量 Semantic Diversity，区分“有价值的方案探索”与“随机幻觉式发散”。
论文试图回答三个简单问题：小模型原生能力有多强、few-shot和微调谁更有效、以及多样性究竟是创造力还是错误信号。

Results

零样本表现：Mistral-7B-v0.3取得最高 BERTScore F1=0.827；Qwen2.5-3B取得最高 Compliance=71.737/100。论文总结称，3B以上模型大多零样本合规分超过65，显示出更稳健的架构推理门槛。
小模型的语义-合规脱钩明显：Gemma-3-1B虽有 BERTScore F1=0.805，但 Compliance仅45.421；SmolLM2-1.7B F1=0.815，Compliance=51.053，说明“语义像答案”不代表“架构上正确”。
多样性未必是好事：零样本下 SmolLM2-1.7B 的 Diversity=0.541、Phi-3-mini 的 0.499 较高，但其合规性并未同步领先；相反 Mistral-7B 的 Diversity=0.280 却有更强语义与合规表现。论文据此声称，高多样性在小模型中常与幻觉相关。
Few-shot可作为校准机制：例如 Mistral-7B 从零样本 F1=0.827 提升到 few-shot 0.835，ROUGE-1 从 0.202 提升到 0.224；但其 Compliance 从66.947降到62.0，表明few-shot能改善语义表达，但未必稳定提升架构正确性。
Few-shot对部分短上下文中型模型有效：Llama-3.2-3B 的 F1从0.826升至0.830；OLMo-2-1B 的 F1从0.825升至0.826。论文据此反驳“上下文一加就饱和”的简单假设，认为few-shot对某些模型更像校准而非负担。
微调方面的定量结论在摘要中给出但节选未完整展示表格：作者声称 sub-2B模型在Fine-Tuning后BERTScore增益最明显，但合规性提升并不保证。因此最强具体主张是：微调更能修复小模型的语义匹配，而不一定真正补齐架构推理缺口。

Link

http://arxiv.org/abs/2603.07091v1

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart