Ollama Models and GPU VRAM Usage

Note about different ctx_num settings vs different models on Ollama on my GPU box

2026-01-28-Wednesday

GPU Box setup

Model	ctx_num (tested)	VRAM	Comment
SEED oss 36b Q4	22k	43 GB	model support 512k ctx, but dense model
Qwen3-vl-30b Q4	256k (model max)	-	MOE A3B
Qwen2.5-32b Q4	-	-	dense coder
GLM-4.7-Flash Q4	128k	27 GB	MOE A3B, 198k ctx (model max) should also work
Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth Q4KM	400k	-	MOE A3B, 1M ctx max, fast

感觉 SEED 比较适合用来做总结，或者是用来做文档阅读，从杂乱的非结构化文本中提炼结构化的信息。
- 但是不适合做分析，判断，研判，下论断。也不是特别适合写代码（对于胶水代码它太慢了，对于内核型代码，它错误率会高）
Qwen3-vl-30b 的读图能力已经很强了。A3B 速度也很快。
- 但是 A3B 这类 MOE 虽然速度快，支持的 ctx 长。但是实际上长 ctx 使用场景下会飘，长文本下，在某一个阈值之后肯可能指令追踪能力会断崖下降，记忆力也没有那么ctx看起来的那么强。
GLM-4.7-Flash 是目前 2026-01-28-Wednesday A3B MOE 的通用最强（所以不考虑 qwen3-30b了）。
- 可以拿来快速写胶水代码。核心复杂代码开始有可能出错的。更推荐用 qwen 2.5 coder
- 虽然支持cheap long ctx，但是一样有后期飘的问题。不过还是可以用的。
- A3B 终归还是会受限的。
Qwen2.5-coder-32b 可能适合写复杂代码。但是不知道现在能跑多少 ctx，还没测试过。
Qwen3-Coder-30B-A3B-Instruct-1M-Unsloth: Unsloth 拓展最大 1M 的快速写代码模型。我机器上能跑至少 400K ctx.

我估计写 Golang, Python 可能比较容易，一些 MOE 的模型比较好搞定。但是如果是 C++这种，估计就一定要上 dense coder 模型了。这些语言特性太多了，syntax 复杂，keyword 以及规则极多，所以容易出错，这个时候最好用最稳的 dense coder 模型。

说实话 Qwen3-vl-30b 的能力已经比较惊人了。读system design diagram能力很强。

复杂系统设计，分析，system design 分析，画 mermaid 图，难道还是 deepseek r1 32b/70b 最强？或者是 qwen2.5 coder 32b 用来出 mermaid 代码？但是分析用 deepseek-r1?