情综合婷婷色五月蜜桃

EN
www.dcsz.com.cn

天天影视综合网免费观看电视剧骋笔罢-5训练背后隐藏大佬:靠一篇博客入职翱辫别苍础滨

智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。 “许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。 从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型公司。 Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。 使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。 Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。 为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。 一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。 根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。 根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。 另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。 第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。 Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。 Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。 发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。 为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。 竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。 通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。 Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。

天天影视综合网免费观看电视剧
天天影视综合网免费观看电视剧时间是一种宝贵的资源。如果把大量的时间和精力都耗费在重复的考编考试中,而忽视了其他的发展机会,这无疑是一种资源的浪费。就像管理学中的机会成本理论,当我们选择了一条道路时,就意味着放弃了其他道路可能带来的收益。这位姑娘如果能够及时调整方向,投身到其他有潜力的工作中,或许能够更快地实现自己的人生价值。“一些俱乐部考虑过他,但我可以告诉大家,金玟哉未能转会到意大利的真正问题,与其说是转会费——因为拜仁除了在转会窗临近结束的时候以外一直都相当开放地进行谈判——不如说是薪水问题。金玟哉在拜仁的薪水非常高,数字非常可观,可以说超过税后700万欧元。所以你们可以想象,这些数字在意大利足球中通常是给前锋或是同等水平球员的。”天天影视综合网免费观看电视剧日本尘惫与欧美尘惫的区别从人均薪酬额度来看,头部股份行、东部地区强势城商行位居第一梯队,人均月薪超过4.5万元。其中,招商银行、南京银行人均薪酬保持5.05万元、4.82万元的高位。宁波银行、兴业银行、北京银行分别以人均薪酬为4.54万元、4.54万元、4.52万元紧随其后。中信银行、浙商银行、江苏银行、上海银行、成都银行、平安银行上半年人均月薪也都超过4万元。那场古早的“互联网大战”最终以网景败阵而结束。不过,网景倒闭、被资本收购前夕,团队成员大胆地将核心浏览器代码开源,同时还成立了一家名为Mozilla基金会的非营利组织,并借火狐打出了“把互联网还给用户”的slogan,颇有和IE的“Windows同捆”操作针锋相对的意思。
20251015 ? 天天影视综合网免费观看电视剧除了跨平台运营的挑战,客户流失也成为代运营企业的一大风险点。如欧莱雅、娇韵诗、雅诗兰黛、相宜本草等国际、国内美妆品牌纷纷与代运营公司解约,转而自建电商团队。《乳头被男人吸过乳头会皲裂吗》OnlyFans打开了粉丝经济商业化的新世界大门,但从本质来看搞黄色、卖肉这种事情门槛还是太低了,当网黄们和用户都习惯了这样的公开叫卖方式,OnlyFans的历史使命已经完成,接下来就是顺利成章的网黄平台大爆发。
天天影视综合网免费观看电视剧
? 刘利杰记者 孙兰华 摄
20251015 ? 天天影视综合网免费观看电视剧直播吧09月06日讯 美网男单半决赛,前赛会冠军、2号种子阿尔卡拉斯以6-4/7-6(4)/6-2击败前赛会冠军、7号种子德约科维奇,职业生涯第二次晋级美网男单决赛、第七次闯入大满贯决赛。《exo妈妈mv视频》8月26日,中国足协中止了张卓毅案的仲裁。8月28日,有博主曝光了嗨球少年在8月20日向法院起诉张卓毅及其家长,要求对方赔款266万元。今日,此事迎来重磅进展--
天天影视综合网免费观看电视剧
? 王亚宏记者 齐新春 摄
? 下半场塞尔维亚阿夫拉莫维奇出现伤病没有出战,土耳其主力全员发挥,单节命中6记三分,以70-64反超比分。塞尔维亚马上调整阵容,三节结束追至73-74。末节塞尔维亚古杜里奇站了出来,连续得分帮助球队反超比分。之后双方互有得分,比赛进入白热化,申京强攻篮下,哈泽尔命中三分,土耳其89-88反超1分。塞尔维亚暂停回来,约基奇补篮反超,申京造约基奇犯规两罚全中。随后申京关键抢断古杜里奇,塞尔维亚无奈犯规。约基奇想造三分犯规无果,申京两罚全中锁定胜局,土耳其95-90击败塞尔维亚,5战全胜夺得A组第1。《姨母的绣感中字3》
扫一扫在手机打开当前页