Recoleta Item Note

How to run Qwen 3.5 locally

这是一份面向工程实践的本地部署指南,介绍如何在 llama.cpp、LM Studio 和 llama-server 上运行 Qwen3.5 全系列模型,并结合 Unsloth 动态量化降低本地推理门槛。 它不是标准学术论文,更像产品/系统说明文档,重点在可运行性、量化配置、推理模式切换和资源需求。

local-llmmodel-quantizationllama-cppqwentool-callingagentic-coding

这是一份面向工程实践的本地部署指南,介绍如何在 llama.cpp、LM Studio 和 llama-server 上运行 Qwen3.5 全系列模型,并结合 Unsloth 动态量化降低本地推理门槛。 它不是标准学术论文,更像产品/系统说明文档,重点在可运行性、量化配置、推理模式切换和资源需求。

  • 解决的问题是:如何在本地设备上高效运行从 0.8B 到 397B 的 Qwen3.5 模型,同时尽量降低内存占用并保留推理、编码、长上下文和工具调用能力。
  • 这很重要,因为大模型通常对显存/内存要求极高;若能通过量化和后端适配在本地运行,就能支持离线使用、更低成本部署、私有数据处理和本地 agent/coding 工作流。
  • 文中还隐含解决了一个工程问题:不同“thinking / non-thinking”模式、工具调用模板、量化格式和推理后端之间容易配置错误,影响真实可用性。
  • 核心方法是使用 Unsloth Dynamic 2.0 动态量化 GGUF,把 4-bit 等低比特量化与关键层升到 8/16-bit 结合,在尽量小的模型体积下维持性能。
  • 运行机制很简单:先下载对应 Qwen3.5 变体的 GGUF 量化文件,再用 llama.cpp / llama-server / LM Studio 加载,并按任务切换“thinking”或“non-thinking”模式。
  • 文档为不同尺寸模型给出本地硬件建议、上下文长度、采样参数和命令行设置;对于小模型,默认关闭 reasoning,需要显式开启 enable_thinking=true
  • 对超大模型 397B,方法上依赖MoE offloading + 量化,使其可以在单 24GB GPU 加大系统内存的环境中运行,而不是要求纯高端多卡集群。
  • 还修复了tool-calling chat template bug 并更新 imatrix 数据与量化算法,以改善聊天、编码、长上下文和工具调用效果。
  • 文中声称 Qwen3.5 支持 256K context,并可通过 YaRN 扩展到 1M;覆盖 201 languages
  • 本地资源门槛方面:27B 可在约 18GB RAM/Mac 上运行,35B-A3B 可在约 22–24GB 设备上运行,9B 近全精度约需 12GB RAM/VRAM122B-A10B 约需 70GB
  • 397B-A17B:完整检查点约 807GB3-bit 量化可放入 192GB RAM4-bit 可放入 256GB RAM;其 UD-Q4_K_XL214GB 磁盘占用,可直接在 256GB M3 Ultra 上加载;通过 单张 24GB GPU + 256GB 系统内存 的 MoE offloading,报告可达到 25+ tokens/s
  • 第三方 750-prompt 混合评测(LiveCodeBench v6, MMLU Pro, GPQA, Math500)中,Qwen3.5-397B-A17B 原始权重 81.3%UD-Q4_K_XL 80.5%-0.8 点+4.3% relative error increase);UD-Q3_K_XL 80.7%-0.6 点+3.5% relative error increase)。文中据此强调量化后与原始模型性能差距 低于 1 个百分点
  • 对 35B 系列,文中称更新后的量化在 150+ KL Divergence benchmarks、总计 9TB GGUFs 上表现为 SOTA on Pareto Frontier,并特别提到 UD-Q4_K_XL、IQ3_XXS 等结果,但未在摘录中给出更完整的逐项基准数值。
  • 其他结果多为定性主张:改进后的量化算法、imatrix 数据和模板修复可提升 chat、coding、long context、tool-calling 场景表现;但除上述基准外,摘录未提供更多可核验的详细数字。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.