模型量化

找到 5 篇关于此标签的文章

LoRA大模型微调

定制大模型仅更新1%参数：微调量化让AI专才流水线化，落地门槛实质降低

本文解析大模型微调与量化全流程：微调让通才变专才，量化为模型瘦身。LoRA等高效微调技术仅需更新1%参数，正让中小企业用消费级显卡定制AI成为可能，是模型落地的关键基建。

APEX量化新增25款模型：百亿参数AI塞进家用显卡，算力门槛正被抹平

开源项目APEX推出针对MoE模型的新量化方案，一个月新增25款以上压缩模型，并推出极低体积的I-Nano层级。这让原本需企业级算力的百亿参数AI，现在单张家用显卡即可运行，大幅降低本地部署成本。

Qwen本地部署

Qwen3.6 反常识：35B 比 27B 更快更好 — 参数规模不是选模型的靠谱标尺

Qwen3.6 的 35B 版本被开发者实测发现比 27B 质量更高、速度更快，打破"参数少更轻快"的常识。这提醒企业：模型选型不能只看参数量，实测数据比数字更重要。

QAT模型量化

AI模型量化告别全盘降级，混合精度拓扑设计成工程新解

AI模型在16位切8位部署时易精度崩塌，新方法提出以8位为底座、对敏感层做16位升级的“等效拓扑”设计，兼顾性能与精度，标志着模型部署走向精打细算。

Qwen3.6-27B量化跑进单张消费显卡—本地部署甜蜜点正在出现

Qwen3.6-27B 经 Unsloth Q5 量化后部署在单张 RTX 5090 上实测，19 轮任务表现稳定。中等规模模型的本地部署可行性正在实质性提高，值得关心硬件成本与能力边界的交汇点。