Note about different ctx_num settings vs different models on Ollama on my GPU box

2026-01-28-Wednesday

GPU Box setup

  • MB: GA Z270P D3
  • CPU: i5-7600k
  • RAM: 64G DDR4 2133
  • GPU 1: 3090 24G, pcie 3.0 x16 to CPU
  • GPU 2, 3: 3070 8G, pice 3.0 x4 via chipset
  • GPU 4: 3070 8G, pcie 3.0 x1
  • Total VRAM: 48G
Modelctx_num (tested)VRAMComment
SEED oss 36b Q422k43 GBmodel support 512k ctx, but dense model
Qwen3-vl-30b Q4256k (model max)-MOE A3B
Qwen2.5-32b Q4--dense coder
GLM-4.7-Flash Q4128k27 GBMOE A3B, 198k ctx (model max) should also work
Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth Q4KM400k-MOE A3B, 1M ctx max, fast
  • 感觉 SEED 比较适合用来做总结,或者是用来做文档阅读,从杂乱的非结构化文本中提炼结构化的信息。
    • 但是不适合做分析,判断,研判,下论断。也不是特别适合写代码(对于胶水代码它太慢了,对于内核型代码,它错误率会高)
  • Qwen3-vl-30b 的读图能力已经很强了。A3B 速度也很快。
    • 但是 A3B 这类 MOE 虽然速度快,支持的 ctx 长。但是实际上长 ctx 使用场景下会飘,长文本下,在某一个阈值之后肯可能指令追踪能力会断崖下降,记忆力也没有那么ctx看起来的那么强。
  • GLM-4.7-Flash 是目前 2026-01-28-Wednesday A3B MOE 的通用最强 (所以不考虑 qwen3-30b了)。
    • 可以拿来快速写胶水代码。核心复杂代码开始有可能出错的。更推荐用 qwen 2.5 coder
    • 虽然支持cheap long ctx,但是一样有后期飘的问题。不过还是可以用的。
    • A3B 终归还是会受限的。
  • Qwen2.5-coder-32b 可能适合写复杂代码。但是不知道现在能跑多少 ctx,还没测试过。
  • Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth: Unsloth 拓展最大 1M 的快速写代码模型。我机器上能跑至少 400K ctx.

我估计 写 Golang, Python 可能比较容易,一些 MOE 的模型比较好搞定。但是如果是 C++这种,估计就一定要上 dense coder 模型了。这些语言特性太多了,syntax 复杂,keyword 以及规则极多,所以容易出错,这个时候最好用最稳的 dense coder 模型。

说实话 Qwen3-vl-30b 的能力已经比较惊人了。读system design diagram能力很强。

复杂系统设计,分析,system design 分析,画 mermaid 图,难道还是 deepseek r1 32b/70b 最强? 或者是 qwen2.5 coder 32b 用来出 mermaid 代码?但是分析用 deepseek-r1?