Note about different ctx_num settings vs different models on Ollama on my GPU box
2026-01-28-Wednesday
GPU Box setup
- MB: GA Z270P D3
- CPU: i5-7600k
- RAM: 64G DDR4 2133
- GPU 1: 3090 24G, pcie 3.0 x16 to CPU
- GPU 2, 3: 3070 8G, pice 3.0 x4 via chipset
- GPU 4: 3070 8G, pcie 3.0 x1
- Total VRAM: 48G
| Model | ctx_num (tested) | VRAM | Comment |
|---|---|---|---|
| SEED oss 36b Q4 | 22k | 43 GB | model support 512k ctx, but dense model |
| Qwen3-vl-30b Q4 | 256k (model max) | - | MOE A3B |
| Qwen2.5-32b Q4 | - | - | dense coder |
| GLM-4.7-Flash Q4 | 128k | 27 GB | MOE A3B, 198k ctx (model max) should also work |
| Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth Q4KM | 400k | - | MOE A3B, 1M ctx max, fast |
- 感觉 SEED 比较适合用来做总结,或者是用来做文档阅读,从杂乱的非结构化文本中提炼结构化的信息。
- 但是不适合做分析,判断,研判,下论断。也不是特别适合写代码(对于胶水代码它太慢了,对于内核型代码,它错误率会高)
- Qwen3-vl-30b 的读图能力已经很强了。A3B 速度也很快。
- 但是 A3B 这类 MOE 虽然速度快,支持的 ctx 长。但是实际上长 ctx 使用场景下会飘,长文本下,在某一个阈值之后肯可能指令追踪能力会断崖下降,记忆力也没有那么ctx看起来的那么强。
- GLM-4.7-Flash 是目前 2026-01-28-Wednesday A3B MOE 的通用最强 (所以不考虑 qwen3-30b了)。
- 可以拿来快速写胶水代码。核心复杂代码开始有可能出错的。更推荐用 qwen 2.5 coder
- 虽然支持cheap long ctx,但是一样有后期飘的问题。不过还是可以用的。
- A3B 终归还是会受限的。
- Qwen2.5-coder-32b 可能适合写复杂代码。但是不知道现在能跑多少 ctx,还没测试过。
- Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth: Unsloth 拓展最大 1M 的快速写代码模型。我机器上能跑至少 400K ctx.
我估计 写 Golang, Python 可能比较容易,一些 MOE 的模型比较好搞定。但是如果是 C++这种,估计就一定要上 dense coder 模型了。这些语言特性太多了,syntax 复杂,keyword 以及规则极多,所以容易出错,这个时候最好用最稳的 dense coder 模型。
说实话 Qwen3-vl-30b 的能力已经比较惊人了。读system design diagram能力很强。
复杂系统设计,分析,system design 分析,画 mermaid 图,难道还是 deepseek r1 32b/70b 最强? 或者是 qwen2.5 coder 32b 用来出 mermaid 代码?但是分析用 deepseek-r1?