情综合婷婷色五月蜜桃

EN
www.dcsz.com.cn

http://www.nbacsgo.com骋笔罢-5训练背后隐藏大佬:靠一篇博客入职翱辫别苍础滨

智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。 “许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。 从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型公司。 Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。 使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。 Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。 为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。 一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。 根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。 根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。 另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。 第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。 Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。 Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。 发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。 为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。 竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。 通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。 Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。

http://www.nbacsgo.com
http://www.nbacsgo.com过去15年,我国连锁药房行业迎来了跨越式发展。公开数据显示,2009年底,全国药店数量为38.14万家,药店市场规模突破1531亿元。截至2024年底,全国药店总数已突破68万家,平均每万人拥有4.6家药店,远高于日本和美国的水平。这对我来说意味着一切。尤其是在一个如此热爱足球的家庭里,我们过去所做的就是看足球比赛,看英格兰队的比赛,你会很兴奋,会围绕着英格兰队的比赛来安排一天的行程,确保能看上比赛。http://www.nbacsgo.com9.1短视直接观看“足球带来团结和发展,也提升了人性。”荣誉队长乔治-维阿说,“我将一如既往地尽一切努力推广这项运动,因为足球就是生命。我很荣幸能够担任这一角色。”谈到在这场比赛中国家队的球员似乎存在态度问题,施魏因斯泰格表示:“我为德国队踢了121场比赛,从来没有出现过态度问题。当你听到国歌并穿上国家队球衣时,无论是友谊赛还是世界杯决赛,你都必须在场上全力以赴。”
20251009 ? http://www.nbacsgo.com东风-26D导弹是东风-26导弹家族的新成员,在适应复杂战场环境和体系对抗的能力上有进一步的提升。军事专家傅前哨表示,东风-26D导弹体并不大,但属于中远程弹道导弹,通过采用新的乘波体弹头,射程和机动能力有很大幅度提升,敌方难以对其进行拦截。日亚M码是日本的还是中国的这种孩子到了初二、初三,甚至高中,能立刻切换到“全力以赴”的状态。因为他们的脑子早就习惯独立思考,不依赖外力推着走。
http://www.nbacsgo.com
? 金容范记者 孔小东 摄
20251009 ? http://www.nbacsgo.com如果一支球队以0-2输了球,并且纸面实力本就不如我们的对手,阵中表现最出色的却是他们的门将,那大家心里都该清楚这意味着什么。成品ppt网站免费入口总之,打造商品力的背后,是盒马在 “从选品到汰换” 全链路中的层层打磨。这一过程中,既包含对用户消费习惯的深度洞察、对供应链运营能力的精细化深耕,也涵盖了数字化技术的全面运用…… 而这一切能够落地的底层支撑,正是盒马过去十年的积累与沉淀。
http://www.nbacsgo.com
? 张玉国记者 李前川 摄
? 3日,阿联酋警告以色列,任何吞并约旦河西岸的计划对阿联酋来说都是“红线”。阿联酋常驻联合国代表努赛贝呼吁以色列停止这些计划,并表示不允许实施威胁该地区稳定与和平的政策。同日,约旦方面亦发表声明谴责以财长相关言论。《姐姐让我戴上避孕套歌曲原唱》
扫一扫在手机打开当前页