Ollama连夜跳版本,只为迎接Google扮猪吃老虎的Gemma4?

admin 2026-04-07 01:15:19 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文档报道Ollama为适配GoogleGemma4模型快速升级至v0.20.0,实测Gemma4E2B-IT模型在RTX4070上达到109.58TPS输出速率,较Llama3.1提升117%。分析指出该模型物理参数约10B(远超名称所示的2B),具备图像识别能力但本地工具调用尚不完善,并探讨了Google‘Effective架构’以小博大的技术策略与显存占用问题。 综合评分: 72 文章分类: AI安全,安全工具,技术标准,解决方案,其他


cover_image

Ollama连夜跳版本,只为迎接Google扮猪吃老虎的Gemma 4?

原创

衡水铁头哥 衡水铁头哥

铁军哥

2026年4月4日 07:37 北京

俗话说:士别三日,当刮目相看。在AI圈,这话得改成“士别三小时”。让我看看,到底是谁这么大阵仗?

刚打算喝口水,一看GitHub,Ollama竟然为了跑通Google最新的Gemma 4模型,直接将版本升级到了v0.20.0。要知道,我们上次测试的时候(8G显存跑AI:Llama3.1完胜Qwen3.5?Ubuntu下四大模型横评,速度竟差一倍!),ollama的版本还是v0.18.4,而这,仅仅是上周的事情!

换句话说,上个版本v0.19.0,也仅仅保持了4天不到。

自古好马配好鞍,咱手里的RTX4070又是时候拉出来溜溜了。接下来,让我们见识一下最新版ollama叠加Gemma 4的变态性能!还是老问题:

你是一个资深网络工程师。我现在的网络拓扑如下:R1和R2运行OSPF,都在Area 0。R2和R3运行BGP(eBGP)。R2将OSPF路由重分发进了BGP。

现在出现了一个故障:R3能够学习到R1的Loopback接口路由,但是R3无法ping通R1的Loopback接口。请列出排查此故障的3个最可能原因,并给出具体的排查命令(假设设备为华为VRP操作系统)。要求逻辑严密,不要有废话。

看,输出速率109.58 TPS,相比上次测试的冠军选手llama3.1:8B的50.4 TPS,大幅提升117 %。简直是天下武功、唯快不破。

注意看,这次gemma4的模型参数跟以往有所不同,这里面别有洞天。

对于以往的常规模性参数(目前来看,ollama量化过的DeepSeek模型应该就是最具性价比的选择),文件大小是可以预估的。比如bf16精度,模型文件大小近似为模型参数量的2倍,例如gemma4:31b-it-bf16的模型大小为63 GB;如果是INT8量化,模型文件大小比模型参数量稍大一些,例如gemma4:31b-it-q8_0的模型大小为34 GB;如果是INT4量化,模型文件大小比模型参数量的一半稍大一些,例如gemma4:31b-it-q4_K_M的模型大小为20 GB。我们之前测试的llama3.1:8B的INT4量化版本模型文件大小为4.9 GB,qwen3.5:9B的INT4量化版本模型文件大小为6.6 GB。

如果按照这个规律,这个gemma4:e2b-it-q4_K_M模型文件的大小应该不超过2 GB,但实际呢?

7.2 GB,这还是Gemma 4所有模型里面最小的模型了,也是我RTX4070能运行的最大模型。

如果按照常规模型文件大小反推,7.2 GB比9B模型的6.6 GB还要大,那实际模型参数可能已经达到10B。模型名称中的e实际上就是“Effective”系列,虽然逻辑表现对标2B,但其物理参数可能高达10B。而Effective的效果就是,Google为了让它拥有超越量级的智商,往里面塞了海量的知识密度。它的脑容量很大,但思考路径很短。浓缩的都是精华,膨胀的都是显存。

据说,Gemma 4 E2B-IT的整体能力已经逼近Gemma 3 27B,甚至在AIME 2026(数学/逻辑)、LiveCodeBench v6(编程)、τ2-bench(Agent任务流)等方面大幅领先。

对了,它还支持图像识别呢,我们换成截图再试试。

依旧很稳定,输出速度为105.62 TPS。

资源占用方面,显存相对吃紧,达到了7383 MB,超过90 %,再大估计就要卸载到CPU了。

那我们试试搭配codex一起跑一下。

可以看到,因为模型参数比较小,显存也比较小,跑任务还是有点难度,分明有128K上下文却没有七秒钟的记忆,竟然还跟我玩起了“马什么梅啊”的梗。看来在本地工具调用的协议上,这头猛兽还有点水土不服。

虽然目前它还像一个四肢发达、头脑简单的壮汉,但别担心,谷歌这次更新的Effective架构肯定会被其他家跟进。而且他是开源的,应该很快,我们就能看到国内模型跟进这种以小博大的思路,实现遥遥领先的弯道超车了!

你觉得Google这种“虚报参数、实打实占显存”的策略,是技术革新还是显存刺客?如果让你用RTX 4070跑模型,你是要体积小、功能弱的轻量级,还是体积大、功能全的全能王?

行配置呢?

***推荐阅读***

我们的WireGuard管理系统支持手机电脑了!全平台终端配置,支持扫码连接,一键搞定

保姆级教程:一条命令部署OpenVPN管理系统V4版,支持Win/Mac/安卓/iOS全平台接入

成本省下99.7%!用40元的腾讯云服务器自建IPsecVPN,成功对接企业级飞塔防火墙

别再乱选VPN了!实测数据告诉你:为什么L2TP是个“坑”

密码复杂度满分却被秒破?腾讯云“白名单”闹剧与AI泄密的血泪复盘

彻底告别密码登录!Ubuntu最强安全加固与效率提升指南

告别OSPF!EVE-NG专业版+BGP Unnumbered打通Underlay的完整实战

从180秒到0.01秒:智算中心Underlay路由优化的速度与激情

嵌套虚拟化的极限时延:在2000 Mbps的风暴中,我找到了性能的真谛

单边写入为何秒杀双边传输?从UDP 4791到BTH头,看懂RDMA的灵魂构造!

手机也能跑DeepSeek-R1/Qwen3了:零成本搭建AI推理平台

2048卡昇腾910C集群算力集群交付工程手册

2048卡H100算力中心100G无阻塞存储网建设方案


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:铁军哥 衡水铁头哥 衡水铁头哥《Ollama连夜跳版本,只为迎接Google扮猪吃老虎的Gemma 4?》

评论:0   参与:  0