Qwen
找到 30 篇关于此标签的文章
消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低
一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s,背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案,关心本地部署的人值得留意这个趋势。
本地小模型跑通初级IT运维 — 30年老兵判断:管理员人机比将改写
一位近30年经验IT老兵实测:Qwen3.6 27b本地模型配Agent框架,1.5小时完成初级管理员3小时的活。本地小模型干初级运维已跨过可用门槛,企业IT编制逻辑即将调整。
开发者周末调出 Solidity 专精模型反超 Opus — 垂域小模型性价比时刻到了
一位开发者用 Qwen 底座微调出 27B 参数的 Solidity 专精模型,在编程基准上超过 Claude Opus。这件事本身不大,但印证了一个趋势:垂直场景里,便宜的小模型正在追上昂贵的通用大模型。
实测 65% 代码任务可本地运行 — API 账单降 74%,多数人在为懒惰交云算力税
开发者实测发现 65% 的日常编程任务本地小模型完全胜任,按任务路由后 API 费用降 74%。这揭示了一个被忽视的事实:多数人没搞清哪些工作真需要云端,就在为懒惰支付高昂溢价。
APEX量化新增25款模型:百亿参数AI塞进家用显卡,算力门槛正被抹平
开源项目APEX推出针对MoE模型的新量化方案,一个月新增25款以上压缩模型,并推出极低体积的I-Nano层级。这让原本需企业级算力的百亿参数AI,现在单张家用显卡即可运行,大幅降低本地部署成本。
llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了
llama.cpp 开始支持 MTP 多 token 预测,目前适配 Qwen3.5。结合张量并行成熟,本地推理框架与云端服务之间的速度差距正在收窄,对本地部署大模型的可行性有实质提升。
失业研究员用本地AI跑出21页专业报告 — 开源Agent进入够用但慢的阶段
一位15年经验的政策研究员,在消费级硬件上用开源模型和Agent框架,5小时自主迭代6轮生成专业级研究报告。AI做深度研究从概念验证进入'能用但别急'阶段,值得传统知识工作者关注。
NVIDIA 48GB 显存专业卡 A5000 Pro 上架 — 本地跑大模型不用再切双卡了
NVIDIA RTX A5000 Pro Blackwell 48GB 显卡售价约 4500 美元,单卡即可运行 Qwen 27B 量化模型。对想本地部署 AI 的中小企业,这比双卡方案更简洁,但性价比仍需仔细算账。
Qwen 开源微调版学会拒绝 — AI 不再讨好你这件事有人当真了
开源社区基于 Qwen3-32B 微调出一个'不讨好'的 AI 助手,故意注入负面偏见减少谄媚。这不是玩票,而是对 AI 行业长期忽视的'讨好症'的一次认真回应。
Qwen 开源稀疏自编码器,大模型内部可读可调 — 可解释性赛道中国玩家入场
Qwen 在 HuggingFace 开源了基于 Qwen3.5-27B 的稀疏自编码器,含 80K 特征维度。这让大模型内部逻辑首次可被中国团队拆解、操控,是可解释性方向的重要跟进。
Qwen3.6 反常识:35B 比 27B 更快更好 — 参数规模不是选模型的靠谱标尺
Qwen3.6 的 35B 版本被开发者实测发现比 27B 质量更高、速度更快,打破"参数少更轻快"的常识。这提醒企业:模型选型不能只看参数量,实测数据比数字更重要。
开发者做出 Hugging Face 模型可视化工具 — 看懂大模型黑盒不再需要读代码
一位开发者推出 hfviewer.com,可将 Hugging Face 上的大模型架构转化为交互式图表。这值得关心,因为它把原本需要读代码才能理解的模型结构变成了直观视觉图,降低了非技术人员了解 AI 黑盒的门槛。
Qwen3.6-27B 与 Coder-Next 实测打平 — 选模型不看跑分看场景
一位开发者用 20 小时实测发现,Qwen3.6-27B 与 MoE 架构的 Coder-Next 整体胜率持平,但在不同任务上表现天差地别。更意外的是:关闭「思考模式」反而更稳定。传统跑分正在失灵,场景选型才是关键。
Qwen3.6单卡深搜95.7%—本地AI追平Perplexity,Agent比拼工具调用而非模型大小
开源项目LDR用单张3090跑出95.7%深搜准确率,追平Perplexity云端水平。关键发现:Agent场景下工具调用能力比模型参数量更重要,本地AI搜索进入实用阶段。
Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知
开发者实测 Qwen 3.6 与 Gemma 4,发现跑分领先的 Qwen 因死循环烧掉 8000+ Token 在真实任务中落败。大模型刷榜正扭曲能力认知,企业选型需从看榜单转向做实测。
开源社区造出混合检索记忆工具 — Agent 不靠大上下文也能记事了
一个基于 Qwen3.5-4B 的开源 MCP 记忆工具,用 BM25+向量混合检索给 Agent 加项目记忆。值得关心:Agent 记忆的主流解法正从'堆上下文窗口'转向'做对检索',小模型路线让落地门槛显著降低。
单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux
开发者在 Windows 原生环境跑通 Qwen3.6-27B 模型,速度达 72 tok/s。这大幅降低了本地部署门槛,传统企业无需配置 Linux 环境即可用现有显卡跑起大模型。
Qwen 3.6 本地替代 Copilot — 零 API 费,但新手别碰
一位开发者用 Qwen 3.6-27B 量化版 + RTX 6000 Pro 写了一整天代码,API 调用为零。本地模型到了'够用'的临界点,但前提是你得会写代码。
Qwen3.6-27B量化跑进单张消费显卡—本地部署甜蜜点正在出现
Qwen3.6-27B 经 Unsloth Q5 量化后部署在单张 RTX 5090 上实测,19 轮任务表现稳定。中等规模模型的本地部署可行性正在实质性提高,值得关心硬件成本与能力边界的交汇点。
Gemma 4 仅用1/5 token跑赢Qwen 3.6 — 本地部署开始拼效率
Reddit 用户用同一吃豆人游戏 Prompt 测试两个开源模型,Gemma 4 以1/5的token和1/5的时间产出更可玩的结果。这提醒我们:本地部署时代,模型效率比生成量更值得关注。
阿里 Qwen 3.6 Max 悄悄上线,中国模型榜单第一——但开源还是闭源,这才是真正的问题
Alibaba's Qwen 3.6 Max quietly launched in preview, scoring highest among Chinese models — but its open-source status remains undecided.
有人开始用国产开源模型替换 Claude 做日常编程助手 — 性能差距正在缩小到「够用」
Reddit 上一个有 184 个点赞、143 条讨论的帖子显示,已有开发者认真考虑用阿里的 Qwen-35B-A3B 替换 Anthrop ic 的 Claude Opus 4.7 作为日常编程工具。这件事值得关心,不是因为某个人换了个软件,而是它折射出一个趋势:AI 模型的「够用线」正在快速下移
本地运行的阿里 Qwen 模型,在普通电脑上实现了「浏览器当操作系统」— 开源模型的能力边界正在被重新丈量
一位开发者用阿里巴巴开源的 Qwen 3.6 35B 模型,在本地(无需云端服务器)实现了「Browser OS」——让 AI 像操作系统一样调度浏览器完成复杂任务。他称这是迄今为止本地模型跑出的最好结果。这件事值得关注,因为它说明开源模型的实际可用性,正在追上那些要收费的云端大模型。
一台消费级显卡,AI 帮用 户重写了整个记账软件——阿里 Qwen 新模型让「本地运行」开 始变得真实
阿里巴巴最新发布的 Qwen3.6-35B-A3B 模型,在一 位普通用户的消费级显卡(RTX 5070 Ti,16GB 显 存)上,用不到一小时完成了代码审查、 安全漏洞排查和重构工作。这不是实 验室基准测试,是真实项目里上一代 模型卡死的问题被解决了。它值 得关注,因为「在自己电脑上跑大模型做
Alibaba Releases Qwen3.6-35B-A3B Mixture-of-Experts Model
Alibaba's Qwen team releases Qwen3.6-35B-A3B, a 35B-parameter MoE model activating 3B parameters per token.
Qwen3.6-35B-A3B released!
Alibaba's Qwen team releases a 35B sparse MoE model with only 3B active params under Apache 2.0.
使用 SageMaker RLVR 微调 Qwen 2.5 以支持工具调用
AWS SageMaker 无服务器 RLVR 微调使 Qwen 2.5 7B 的工具调用准确率提升 57%,无需管理 GPU。
37 个大语言模型在 MacBook Air M5 32GB 上完成基准测试:完整速度结果
社区使用 llama-bench 在 M5 Air 32GB 上对 37 个本地 LLM 进行基准测试,结果显示 MoE 模型在速度与质量比方面表现最佳。
OpenCode + 本地 LLM:哪些模型最适合独立开发者任务
在 RTX 4080 上对 OpenCode 与 6+ 款自托管 LLM 进行实战基准测试,涵盖真实编码任务。
Agent 集群结合连续批处理将 LLM 任务时间缩短 36 倍
在 Intel B70 GPU 上运行 50 个并行 Agent 配合 Qwen 27B,利用连续批处理技术将原本需 42 分钟的研究任务压缩至 70 秒完成。