发生了什么
埃及人工智能公司TokenAI发布了Horus-1.0-4B,这是一款拥有40亿参数的大语言模型,据团队称,该模型完全从零开始,在数万亿个清洗过的训练令牌上进行了训练。该模型被定位为埃及首款从零构建的开源大语言模型(LLM),可在tokenai.cloud/horus获取。
Horus-1.0-4B配备8K上下文窗口,并以7种变体形式发布:一个包含原始权重的全精度版本,以及6个针对不同硬件配置的压缩变体。该模型支持包括阿拉伯语在内的多语言推理,团队声称其在40亿参数规模类别中具备强大的思维链(Chain-of-Thought)推理性能。
除了模型权重外,TokenAI还发布了neuralnode,这是一个旨在简化与Horus模型集成的Python框架。该框架还捆绑了Replica Text-to-Speech,提供涵盖10种语言(包括阿拉伯语)的20种语音。分发通过neuralnode包进行,模型文件可通过TokenAI平台下载。
技术深度解析
从零开始训练一个40亿参数的模型,而不是对LLaMA 3或Mistral等现有基础模型进行微调,在计算成本、数据策划和基础设施方面都是一项重大工程。阿拉伯世界的大多数区域性或特定领域模型都是通过监督微调或继续预训练,建立在现有西方基础模型之上的。Horus-1.0声称通过执行完整的预训练过程,偏离了这一模式。
7种变体的分发策略类似于llama.cpp兼容的GGUF发布项目所采用的方法,即单个基础模型被量化为多种位宽(例如Q4_K_M、Q5_K_S、Q8_0),以适应从消费级GPU到仅CPU设置的各种硬件。TokenAI尚未公布具体的量化格式或使用的位宽,但6个压缩变体表明采用了类似的分级方法。
neuralnode Python框架抽象了模型加载和推理过程。基本使用模式类似于:
pip install neuralnode随后通过框架的API进行模型初始化。同一框架内的TTS集成对于阿拉伯语语音应用尤为值得注意,因为在历史上,与英语相比,阿拉伯语的高质量合成一直未被充分满足。
8K上下文窗口对于40亿参数模型来说具有竞争力——与Phi-3-mini(默认4K,使用rope scaling可扩展至128K)和Gemma 2 2B(8K)相当。在没有发布基准测试分数或技术报告的情况下,很难独立验证其作为同类规模中全球最强模型之一的说法。一旦权重更广泛地可用,社区可能会将其与MMLU、HellaSwag和ArabicMMLU等标准基准测试进行评估。
一个悬而未决的问题是分词器(tokenizer)的设计。针对阿拉伯语优化的分词器会显著影响阿拉伯文本的推理速度和模型质量,而TokenAI是构建了自定义分词器还是改编了现有的分词器,将影响模型处理阿拉伯语形态的方式。
谁应该关注
构建阿拉伯语NLP应用的开发人员将发现Horus-1.0-4B具有直接相关性,特别是那些曾受限于小型西方模型阿拉伯语能力不足的团队。6个压缩变体使其对无法访问高端GPU集群的团队也具有可及性。
研究多语言模型开发和低资源语言AI的研究人员将希望关注此次发布,特别是如果TokenAI发布一份技术报告,详细说明训练数据构成和阿拉伯语分词器设计。
构建支持语音的阿拉伯语应用的团队将从neuralnode中捆绑的TTS集成中受益——在单个Python框架中拥有推理和语音合成,与拼接单独的服务相比,减少了集成开销。
MENA地区对数据主权有顾虑的组织可能更倾向于使用区域开发的模型,而不是将数据发送到基于美国的API提供商,这使得Horus对于数据驻留至关重要的企业和政府用例具有相关性。
本周行动指南
要评估Horus-1.0-4B,请从官方网站开始:
- 访问
tokenai.cloud/horus查看可用的权重变体,并选择与您的硬件相匹配的版本(GPU服务器使用全精度,本地部署使用压缩版) - 安装neuralnode框架:
pip install neuralnode - 运行基本的阿拉伯语和英语推理测试,以 firsthand 评估输出质量
- 将输出与您正在使用的类似规模模型进行比较——Phi-3-mini-4B或Gemma 2 2B是合理的基线
- 如果您从事阿拉伯语NLP工作,请在ArabicMMLU或您的内部评估集上运行该模型,并在r/LocalLLaMA上与社区分享结果
在基准测试数据得到独立验证且模型经过更广泛的社区测试之前,请暂缓生产部署。