Gemma 4实战：Google首个Apache 2.0开源模型怎么跑

Google在4月2日发布了Gemma 4——这是Gemma系列迄今为止最强的开源模型家族，也是Google首次采用Apache 2.0许可发布模型。对开发者来说，这意味着你可以真正自由地在商业产品中使用、修改和分发它，不再有之前Gemma许可的各种限制条款。

四个尺寸，四种定位

Gemma 4不是单个模型，而是一个覆盖从手机到工作站的完整家族：

E2B（有效2B参数）：为移动和IoT设备设计，离线运行，近零延迟。支持原生音频输入和视觉理解，在手机、Raspberry Pi和NVIDIA Jetson Orin Nano上都能跑。
E4B（有效4B参数）：比E2B更强，同样面向边缘设备，多模态能力更完整。Android开发者可以通过AICore Developer Preview直接集成。
26B MoE：混合专家架构，推理时只激活38亿参数，吞吐速度极快。适合需要快速响应的Agent工作流和编程辅助场景。
31B Dense：当前家族旗舰，在Arena AI文本排行榜上排名全球开源模型第3。质量最强，适合微调和需要最高推理质量的场景。

这是国内开发者最关心的问题。根据DataLearner的实测数据，Gemma 4 31B在部分数学推理基准上甚至优于Qwen3.5-27B，但整体各有千秋。Gemma 4的优势在于：

Apache 2.0许可：Qwen3.5用的是自家的Qwen许可，对商业使用有额外条款。Gemma 4的Apache 2.0是真正的自由许可，商用无顾虑。
原生多模态：所有尺寸都支持视觉输入（图片、视频、OCR），E2B/E4B还支持音频。这是Qwen3.5小尺寸版本不具备的。
Agent能力开箱即用：原生支持函数调用、结构化JSON输出、系统指令，不需要额外微调就能构建Agent工作流。

但也要实话实说：在中文场景下，Qwen3.5的中文理解和生成质量依然更自然。如果你的应用以中文为主，Gemma 4的140+语言支持虽然覆盖面广，但中文深度不如Qwen系列。

26B MoE是性价比之选：推理时只激活3.8B参数，速度远快于31B Dense，质量在大部分场景下够用。如果你主要跑Agent工作流和代码生成，26B MoE是首选。

# 26B MoE
ollama run gemma4:26b-moe

# 31B Dense
ollama run gemma4:31b

# E4B（适合笔记本）
ollama run gemma4:e4b

如果用llama.cpp，需要先从HuggingFace下载GGUF格式的权重文件。vLLM和SGLang也已在发布首日支持，适合需要生产级推理服务的场景。

Gemma 4的真正意义不在于它比谁强，而在于它把高质量开源AI的门槛又拉低了一档——Apache 2.0许可加上从手机到云端的完整覆盖，让更多开发者能无障碍地用上前沿AI能力。这比任何基准分数都重要。

0 条

暂无评论，来分享你的看法吧