该版本经过量化感知训练(Quantization-Aware Training,QAT)优化,能在保持高质量的同时显著降低内存需求。
Chatbot Arena Elo 得分:更高的分数(最上面的数字)表明更大的用户偏好。点表示模型使用 BF16 数据类型运行时所需的 NVIDIA H100 GPU 预估数量。
机器之心在一台配备了 RTX 3070 的电脑上简单测试了其中的 12B 版本,可以看到虽然 Gemma 3 的 token 输出速度不够快,但整体来说还算可以接受。
在 AI 模型中,研究者可以使用更少的位数例如 8 位(int8)甚至 4 位(int4)进行数据存储。
采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式,数据大小缩减至 1/4。
与传统在模型训练完成后才进行量化的方式不同,QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算,使模型在后续被量化为更小、更快的版本时,仍能保持准确率损失最小化。
具体实现上,谷歌基于未量化的 checkpoint 概率分布作为目标,进行了约 5,000 步的 QAT 训练。当量化至 Q4_0(一种常见的量化格式) 时,困惑度下降了 54%。
此图仅表示加载模型权重所需的 VRAM。运行该模型还需要额外的 VRAM 用于 KV 缓存,该缓存存储有关正在进行的对话的信息,并取决于上下文长度。
现在看来,用户在消费级设备上就能运行更大、更强的 Gemma 3 模型,其中:
Ollama:从今天起,只需一个简单命令即可原生支持 Gemma 3 QAT 模型。LM Studio:通过用户友好界面,轻松下载并在桌面上运行 Gemma 3 QAT 模型。MLX:利用 MLX 在苹果芯片上对 Gemma 3 QAT 模型进行高效推理。Gemma.cpp:使用专用的 C++ 实现,直接在 CPU 上进行高效推理。llama.cpp:得益于对 GGUF 格式 QAT 模型的原生支持,可轻松集成到现有工作流程中。
激动的网友已经无法抑制内心的喜悦:「我的 4070 就能运行 Gemma 3 12B,这次谷歌终于为即将破产的开发者做了一些事情。」
这个可以本地运行的 Gemma 3 你用了吗,效果如何,欢迎大家评论区留言。
小不点挠头,而后站在石碑前,一切都感觉那么的新奇,但是却有点无从下手的感觉,比划了半天也没写出什么。
乡村两级干部都要增强工作的主动性、积极性和前瞻性,随着农村一系列、全方位改革的不断深化,这就要求我们必须转变传统的思维方式和工作方法,以全新的思维方式来谋划工作,以灵活工作方法来解决工作中的难题,要切实转变以前那种按部就班、思维置后、工作被动的状况,要紧密结合本村、本单位的实际,创造性地开展工作,从现在起就要干当前、想明年,及早考虑,超前谋划明年工作的思路和重点,力争使各项工作取得新的更大的成绩。这次会议之后,各村、各单位的一个重要任务就是尽快召开会议,结合各村、各单位实际讨论研究制定下半年的工作思路和目标任务,切实解决当前存在的影响工作进度的问题。
04月13日,台退将吁“驱逐‘’” 国台办:展现黄埔人对统一的执着追求,
小不点落泪,伸出一只手,主动抓住了那只小手,用力的握紧,而后一起放在了老人那粗糙的大手中,轻声道:“祖爷爷请放心,我会照顾好他的!”
04月13日,香港举办第七届“紫荆杯”全港中小学生知识竞赛 庆祝新中国成立75周年,
04月13日,采访中国全国两会的外国记者——“把中国的故事讲给更多人听”,
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证