文章总结: 文档报道Ollama为适配GoogleGemma4模型快速升级至v0.20.0,实测Gemma4E2B-IT模型在RTX4070上达到109.58TPS输出速率,较Llama3.1提升117%。分析指出该模型物理参数约10B(远超名称所示的2B),具备图像识别能力但本地工具调用尚不完善,并探讨了Google‘Effective架构’以小博大的技术策略与显存占用问题。 综合评分: 72 文章分类: AI安全,安全工具,技术标准,解决方案,其他
Ollama连夜跳版本,只为迎接Google扮猪吃老虎的Gemma 4?
原创
衡水铁头哥 衡水铁头哥
铁军哥
2026年4月4日 07:37 北京
俗话说:士别三日,当刮目相看。在AI圈,这话得改成“士别三小时”。让我看看,到底是谁这么大阵仗?
刚打算喝口水,一看GitHub,Ollama竟然为了跑通Google最新的Gemma 4模型,直接将版本升级到了v0.20.0。要知道,我们上次测试的时候(8G显存跑AI:Llama3.1完胜Qwen3.5?Ubuntu下四大模型横评,速度竟差一倍!),ollama的版本还是v0.18.4,而这,仅仅是上周的事情!
换句话说,上个版本v0.19.0,也仅仅保持了4天不到。
自古好马配好鞍,咱手里的RTX4070又是时候拉出来溜溜了。接下来,让我们见识一下最新版ollama叠加Gemma 4的变态性能!还是老问题:
你是一个资深网络工程师。我现在的网络拓扑如下:R1和R2运行OSPF,都在Area 0。R2和R3运行BGP(eBGP)。R2将OSPF路由重分发进了BGP。
现在出现了一个故障:R3能够学习到R1的Loopback接口路由,但是R3无法ping通R1的Loopback接口。请列出排查此故障的3个最可能原因,并给出具体的排查命令(假设设备为华为VRP操作系统)。要求逻辑严密,不要有废话。
看,输出速率109.58 TPS,相比上次测试的冠军选手llama3.1:8B的50.4 TPS,大幅提升117 %。简直是天下武功、唯快不破。
注意看,这次gemma4的模型参数跟以往有所不同,这里面别有洞天。
对于以往的常规模性参数(目前来看,ollama量化过的DeepSeek模型应该就是最具性价比的选择),文件大小是可以预估的。比如bf16精度,模型文件大小近似为模型参数量的2倍,例如gemma4:31b-it-bf16的模型大小为63 GB;如果是INT8量化,模型文件大小比模型参数量稍大一些,例如gemma4:31b-it-q8_0的模型大小为34 GB;如果是INT4量化,模型文件大小比模型参数量的一半稍大一些,例如gemma4:31b-it-q4_K_M的模型大小为20 GB。我们之前测试的llama3.1:8B的INT4量化版本模型文件大小为4.9 GB,qwen3.5:9B的INT4量化版本模型文件大小为6.6 GB。
如果按照这个规律,这个gemma4:e2b-it-q4_K_M模型文件的大小应该不超过2 GB,但实际呢?
7.2 GB,这还是Gemma 4所有模型里面最小的模型了,也是我RTX4070能运行的最大模型。
如果按照常规模型文件大小反推,7.2 GB比9B模型的6.6 GB还要大,那实际模型参数可能已经达到10B。模型名称中的e实际上就是“Effective”系列,虽然逻辑表现对标2B,但其物理参数可能高达10B。而Effective的效果就是,Google为了让它拥有超越量级的智商,往里面塞了海量的知识密度。它的脑容量很大,但思考路径很短。浓缩的都是精华,膨胀的都是显存。
据说,Gemma 4 E2B-IT的整体能力已经逼近Gemma 3 27B,甚至在AIME 2026(数学/逻辑)、LiveCodeBench v6(编程)、τ2-bench(Agent任务流)等方面大幅领先。
对了,它还支持图像识别呢,我们换成截图再试试。
依旧很稳定,输出速度为105.62 TPS。
资源占用方面,显存相对吃紧,达到了7383 MB,超过90 %,再大估计就要卸载到CPU了。
那我们试试搭配codex一起跑一下。
可以看到,因为模型参数比较小,显存也比较小,跑任务还是有点难度,分明有128K上下文却没有七秒钟的记忆,竟然还跟我玩起了“马什么梅啊”的梗。看来在本地工具调用的协议上,这头猛兽还有点水土不服。
虽然目前它还像一个四肢发达、头脑简单的壮汉,但别担心,谷歌这次更新的Effective架构肯定会被其他家跟进。而且他是开源的,应该很快,我们就能看到国内模型跟进这种以小博大的思路,实现遥遥领先的弯道超车了!
你觉得Google这种“虚报参数、实打实占显存”的策略,是技术革新还是显存刺客?如果让你用RTX 4070跑模型,你是要体积小、功能弱的轻量级,还是体积大、功能全的全能王?
行配置呢?
***推荐阅读***
我们的WireGuard管理系统支持手机电脑了!全平台终端配置,支持扫码连接,一键搞定
保姆级教程:一条命令部署OpenVPN管理系统V4版,支持Win/Mac/安卓/iOS全平台接入
成本省下99.7%!用40元的腾讯云服务器自建IPsecVPN,成功对接企业级飞塔防火墙
别再乱选VPN了!实测数据告诉你:为什么L2TP是个“坑”
密码复杂度满分却被秒破?腾讯云“白名单”闹剧与AI泄密的血泪复盘
彻底告别密码登录!Ubuntu最强安全加固与效率提升指南
告别OSPF!EVE-NG专业版+BGP Unnumbered打通Underlay的完整实战
从180秒到0.01秒:智算中心Underlay路由优化的速度与激情
嵌套虚拟化的极限时延:在2000 Mbps的风暴中,我找到了性能的真谛
单边写入为何秒杀双边传输?从UDP 4791到BTH头,看懂RDMA的灵魂构造!
手机也能跑DeepSeek-R1/Qwen3了:零成本搭建AI推理平台
2048卡昇腾910C集群算力集群交付工程手册
2048卡H100算力中心100G无阻塞存储网建设方案
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:铁军哥 衡水铁头哥 衡水铁头哥《Ollama连夜跳版本,只为迎接Google扮猪吃老虎的Gemma 4?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论