区别于传统AI PPT通过模板套用信息的方式,GLM-4.5能够主动收集资料、匹配合适的图片,并基于实际素材直接生成HTML格式的图文内容,实现了更精确的信息呈现和更自由的版面设计。 在模型结构设计上,相较于DeepSeek-V3和Kimi K2,智谱团队选择在缩小模型宽度(包括隐藏维度和路由专家数量)的同时增加深度(层数),因为实验发现更深的模型在推理任务中表现更优。 在预训练阶段,模型首先在15T的通用预训练语料上进行训练,随后在 7T 的代码与推理相关语料上继续训练。在完成基础预训练后,团队又引入了若干额外阶段,以进一步提升模型在关键下游任务中的表现。 灵活的混合训练架构:Slime的核心优势在于其多功能的混合架构。它支持同步、共置训练,适用于传统应用如推理和通用强化学习,同时还支持分散的异步训练模式。这种异步范式对于高级智能体强化学习至关重要,因为数据生成可能是一个缓慢的外部过程。通过解耦训练和数据收集,它确保训练 GPU 保持完全饱和,最大化硬件利用率。解耦的面向智能体设计:智能体强化学习常常在环境回滚期间遇到缓慢且长尾延迟分布,严重限制了训练吞吐量。为了解决这一问题,Slime 实现了一个完全解耦的基础设施,将回滚引擎与训练引擎分离。这些组件在不同硬件上独立运行,将数据生成瓶颈转变为并行的非阻塞过程。这种设计对于加速长视野智能体任务至关重要。使用混合精度加速数据生成:为了进一步提高吞吐量,Slime 采用混合精度推理加速回滚。它策略性地在数据生成中使用高效的FP8格式,同时在模型训练循环中保持BF16的稳定性。这种技术显著提高了数据生成速度,同时不会影响训练质量。这种内聚的设计使得slime能够无缝集成多个智能体框架,支持多样化的任务,并通过统一且强大的接口高效管理长期展开过程。 对于LLM来说,通过自我生成的探索性体验迭代增强其策略的后训练过程至关重要。强化学习已成为推动模型能力边界的关键步骤。 对于推理,团队在整个64K上下文中进行单阶段强化学习,并采用基于难度的课程设计,团队发现这比渐进式调度更为优越。智谱引入了改进的强化学习技术以确保稳定性:动态采样温度以平衡探索和利用,以及针对STEM问题的自适应裁剪策略,以实现稳健的策略更新。对于智能体任务,训练正在两个可验证的任务上进行:基于信息检索的问答和软件工程。智谱开发可扩展的策略,通过人机交互提取并选择性模糊化网页内容来合成基于搜索的问答对。编码任务由真实世界软件工程任务的执行反馈驱动。 并且从参数效率角度来看,GLM-4.5的参数量仅为DeepSeek-R1的一半、Kimi-K2的三分之一,却在多项标准基准测试中展现出更优异的表现,充分体现了GLM模型卓越的参数效率。 它不仅在多个关键评测维度上取得了国产和开源领域的冠军,更重要的是,它向我们展示了一种更高效、更融合、也更具前瞻性的技术路径。 在各大厂商纷纷追求千亿甚至万亿参数的“军备竞赛”中,智谱展现了不同的思考。GLM-4.5凭借其先进的MoE(混合专家)架构和精巧的系统工程设计,以远少于同行的参数量,实现了超越性的性能。 当业界还在纷纷猜测和等待OpenAI的GPT-5将带来何种革命性功能时,智谱已经将类似的、甚至更强大的Agent能力通过GLM-4.5直接开源,并开放给所有用户免费体验。


