返回首页
强化学习
找到 2 篇关于此标签的文章
vLLMServiceNow
vLLM 升级 V1 让强化学习结果跑偏 — 推理框架的正确性比速度更值得关心
vLLM 从 V0 升级到 V1 后,在强化学习场景下出现输出不一致的问题。推理框架的「快」如果以牺牲「准」为代价,会让依赖它训练的模型悄悄走偏。
May 61 分钟
Sakana AIDigital Ecosystem
Sakana AI 造出 AI 版「西部世界」,大模型训练正从人工微调转向自然进化
Sakana AI 发布数字生态系统,让 AI 在虚拟世界中自建社会和规则。这标志着大模型训练正从高成本的人工微调转向自然进化,避开算力军备竞赛,但同时也带来了行为不可控的风险。
May 11 分钟