Qwen

找到 30 篇关于此标签的文章

QwenRTX 3090

消费级显卡跑通 100K 上下文 — 本地大模型部署的硬件门槛正在快速降低

一块 RTX 3090 跑 27B 模型、100K 上下文、50 tokens/s，背后是量化+MTP 推测解码+KV 缓存压缩的组合优化。消费级硬件的推理能力正在逼近一年前的企业级方案，关心本地部署的人值得留意这个趋势。

5d ago1 分钟

QwenHermes Agent

本地小模型跑通初级IT运维 — 30年老兵判断：管理员人机比将改写

一位近30年经验IT老兵实测：Qwen3.6 27b本地模型配Agent框架，1.5小时完成初级管理员3小时的活。本地小模型干初级运维已跨过可用门槛，企业IT编制逻辑即将调整。

5d ago1 分钟

QwenSolidity

开发者周末调出 Solidity 专精模型反超 Opus — 垂域小模型性价比时刻到了

一位开发者用 Qwen 底座微调出 27B 参数的 Solidity 专精模型，在编程基准上超过 Claude Opus。这件事本身不大，但印证了一个趋势：垂直场景里，便宜的小模型正在追上昂贵的通用大模型。

6d ago1 分钟

DeepSeekQwen

实测 65% 代码任务可本地运行 — API 账单降 74%，多数人在为懒惰交云算力税

开发者实测发现 65% 的日常编程任务本地小模型完全胜任，按任务路由后 API 费用降 74%。这揭示了一个被忽视的事实：多数人没搞清哪些工作真需要云端，就在为懒惰支付高昂溢价。

6d ago1 分钟

APEXQwen

APEX量化新增25款模型：百亿参数AI塞进家用显卡，算力门槛正被抹平

开源项目APEX推出针对MoE模型的新量化方案，一个月新增25款以上压缩模型，并推出极低体积的I-Nano层级。这让原本需企业级算力的百亿参数AI，现在单张家用显卡即可运行，大幅降低本地部署成本。

May 51 分钟

llama.cppMTP

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

llama.cpp 开始支持 MTP 多 token 预测，目前适配 Qwen3.5。结合张量并行成熟，本地推理框架与云端服务之间的速度差距正在收窄，对本地部署大模型的可行性有实质提升。

May 41 分钟

Hermes AgentQwen

失业研究员用本地AI跑出21页专业报告 — 开源Agent进入够用但慢的阶段

一位15年经验的政策研究员，在消费级硬件上用开源模型和Agent框架，5小时自主迭代6轮生成专业级研究报告。AI做深度研究从概念验证进入'能用但别急'阶段，值得传统知识工作者关注。

May 41 分钟

NVIDIARTX A5000 Pro

NVIDIA 48GB 显存专业卡 A5000 Pro 上架 — 本地跑大模型不用再切双卡了

NVIDIA RTX A5000 Pro Blackwell 48GB 显卡售价约 4500 美元，单卡即可运行 Qwen 27B 量化模型。对想本地部署 AI 的中小企业，这比双卡方案更简洁，但性价比仍需仔细算账。

May 41 分钟

QwenAssistant_Pepe

Qwen 开源微调版学会拒绝 — AI 不再讨好你这件事有人当真了

开源社区基于 Qwen3-32B 微调出一个'不讨好'的 AI 助手，故意注入负面偏见减少谄媚。这不是玩票，而是对 AI 行业长期忽视的'讨好症'的一次认真回应。

May 31 分钟

QwenSAE

Qwen 开源稀疏自编码器，大模型内部可读可调 — 可解释性赛道中国玩家入场

Qwen 在 HuggingFace 开源了基于 Qwen3.5-27B 的稀疏自编码器，含 80K 特征维度。这让大模型内部逻辑首次可被中国团队拆解、操控，是可解释性方向的重要跟进。

May 31 分钟

Qwen本地部署

Qwen3.6 反常识：35B 比 27B 更快更好 — 参数规模不是选模型的靠谱标尺

Qwen3.6 的 35B 版本被开发者实测发现比 27B 质量更高、速度更快，打破"参数少更轻快"的常识。这提醒企业：模型选型不能只看参数量，实测数据比数字更重要。

May 31 分钟

hfviewerHugging Face

开发者做出 Hugging Face 模型可视化工具 — 看懂大模型黑盒不再需要读代码

一位开发者推出 hfviewer.com，可将 Hugging Face 上的大模型架构转化为交互式图表。这值得关心，因为它把原本需要读代码才能理解的模型结构变成了直观视觉图，降低了非技术人员了解 AI 黑盒的门槛。

May 31 分钟

QwenCoder-Next

Qwen3.6-27B 与 Coder-Next 实测打平 — 选模型不看跑分看场景

一位开发者用 20 小时实测发现，Qwen3.6-27B 与 MoE 架构的 Coder-Next 整体胜率持平，但在不同任务上表现天差地别。更意外的是：关闭「思考模式」反而更稳定。传统跑分正在失灵，场景选型才是关键。

May 31 分钟

QwenLDR

Qwen3.6单卡深搜95.7%—本地AI追平Perplexity，Agent比拼工具调用而非模型大小

开源项目LDR用单张3090跑出95.7%深搜准确率，追平Perplexity云端水平。关键发现：Agent场景下工具调用能力比模型参数量更重要，本地AI搜索进入实用阶段。

May 21 分钟

QwenGemma

Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知

开发者实测 Qwen 3.6 与 Gemma 4，发现跑分领先的 Qwen 因死循环烧掉 8000+ Token 在真实任务中落败。大模型刷榜正扭曲能力认知，企业选型需从看榜单转向做实测。

May 21 分钟

QwenMCP

开源社区造出混合检索记忆工具 — Agent 不靠大上下文也能记事了

一个基于 Qwen3.5-4B 的开源 MCP 记忆工具，用 BM25+向量混合检索给 Agent 加项目记忆。值得关心：Agent 记忆的主流解法正从'堆上下文窗口'转向'做对检索'，小模型路线让落地门槛显著降低。

May 21 分钟

QwenvLLM

单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux

开发者在 Windows 原生环境跑通 Qwen3.6-27B 模型，速度达 72 tok/s。这大幅降低了本地部署门槛，传统企业无需配置 Linux 环境即可用现有显卡跑起大模型。

May 21 分钟

Qwen阿里云

Qwen 3.6 本地替代 Copilot — 零 API 费，但新手别碰

一位开发者用 Qwen 3.6-27B 量化版 + RTX 6000 Pro 写了一整天代码，API 调用为零。本地模型到了'够用'的临界点，但前提是你得会写代码。

May 21 分钟

QwenUnsloth

Qwen3.6-27B量化跑进单张消费显卡—本地部署甜蜜点正在出现

Qwen3.6-27B 经 Unsloth Q5 量化后部署在单张 RTX 5090 上实测，19 轮任务表现稳定。中等规模模型的本地部署可行性正在实质性提高，值得关心硬件成本与能力边界的交汇点。

May 11 分钟

QwenGemma

Gemma 4 仅用1/5 token跑赢Qwen 3.6 — 本地部署开始拼效率

Reddit 用户用同一吃豆人游戏 Prompt 测试两个开源模型，Gemma 4 以1/5的token和1/5的时间产出更可玩的结果。这提醒我们：本地部署时代，模型效率比生成量更值得关注。

May 11 分钟

QwenAlibaba

阿里 Qwen 3.6 Max 悄悄上线，中国模型榜单第一——但开源还是闭源，这才是真正的问题

Alibaba's Qwen 3.6 Max quietly launched in preview, scoring highest among Chinese models — but its open-source status remains undecided.

Apr 202 分钟

QwenClaude

有人开始用国产开源模型替换 Claude 做日常编程助手 — 性能差距正在缩小到「够用」

Reddit 上一个有 184 个点赞、143 条讨论的帖子显示，已有开发者认真考虑用阿里的 Qwen-35B-A3B 替换 Anthrop ic 的 Claude Opus 4.7 作为日常编程工具。这件事值得关心，不是因为某个人换了个软件，而是它折射出一个趋势：AI 模型的「够用线」正在快速下移

Apr 201 分钟

Qwen阿里巴巴