强化学习

找到 2 篇关于此标签的文章

vLLM 升级 V1 让强化学习结果跑偏 — 推理框架的正确性比速度更值得关心

vLLM 从 V0 升级到 V1 后，在强化学习场景下出现输出不一致的问题。推理框架的「快」如果以牺牲「准」为代价，会让依赖它训练的模型悄悄走偏。

Sakana AIDigital Ecosystem

Sakana AI 造出 AI 版「西部世界」，大模型训练正从人工微调转向自然进化

Sakana AI 发布数字生态系统，让 AI 在虚拟世界中自建社会和规则。这标志着大模型训练正从高成本的人工微调转向自然进化，避开算力军备竞赛，但同时也带来了行为不可控的风险。