热文善良的朋友Test Time Scaling Law远未达到上限!华为诺亚代码HLCE终极基准

本文的第一作者为华为诺亚研究员李向阳，毕业于北京大学，开源组织 BigCode 项目组成员。此前他们团队曾经推出 CoIR 代码检索基准，目前已经成为代码检索领域的标杆 benchmark。其余主要成员也大部分来自 CoIR 项目组。大语言模型（LLM）在标准编程基准测试（如 HumanEval,Livecodebench）上已经接近 “毕业”，但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力？来自华为诺亚方舟实验室的一项最新研究给出了一个颇具挑战性的答案。他们推出了一个全新的编程基准 ——“人类最后的编程考试” (Humanity's Last Code Exam, HLCE)。该基准包含了过去 15 年（2010-2024）间，全球难度最高的两项编程竞赛：国际信息学奥林匹克竞赛（IOI）和国际大学生程序设计竞赛世界总决赛（ICPC World Finals）中最顶尖的 235 道题目。结果如何？即便是当前最先进的推理模型，如 OpenAI 的 o4-mini (high) 和谷歌的 Gemini-2.5 Pro，在 HLCE 上的单次尝试成功率（pass@1）也分别只有15.85% 和 11.4%，与它们在其他基准上动辄超过 70% 的表现形成鲜明对比。这表明，面对真正考验顶尖人类智慧的编程难题，现有的大模型还有很长的路要走。近年来，LLM 在代码生成领域取得了惊人的进步，许多主流基准（如 LiveCodeBench、APPS 等）已经无法对最前沿的模型构成真正的挑战。研究者指出，现有基准存在几个关键问题： 2.缺乏交互式评测：大多数基准采用标准的输入 / 输出（I/O）模式，而忽略了在真实竞赛中常见的 “交互式” 题目。这类题目要求程序与评测系统进行动态交互，对模型的实时逻辑能力要求更高。 3.测试时扩展规律（Test-time Scaling Laws）未被充分探索：模型在推理时花费更多计算资源能否持续提升性能？这个问题在复杂编程任务上尚无定论。为构建高质量基准，研究团队对 HLCE 题目进行了深度处理。例如 ICPC World Finals 题目原始材料均为 PDF 格式，团队通过人工逐题提取、转写为 Markdown 并校验，确保题目完整性。最终形成的 HLCE 基准包含：1）235 道 IOI/ICPC World Finals 历史难题；2）标准 I/O 与交互式双题型；3）全可复现的评测体系。 IOI 交互式题目是 “硬骨头”：所有模型在 IOI 题目上的表现都远差于 ICPC world finals 题目。例如，o4-mini (high) 在 ICPC 上的 pass@1 为 25.21%，但在 IOI 上骤降至 6.48%。研究者认为，这与当前模型的训练数据和强化学习方式主要基于标准 I/O 模式有关，对于交互式问题准备不足。奇特的模型退化现象：一个例外是 claude-3.7-thinking 模型，尽管是推理模型，但其表现甚至不如一些非推理模型，在 IOI 题目上通过率为 0%。研究者推测，这可能是因为 claude 针对通用软件工程任务进行了优化，而非高难度的算法竞赛。除了代码生成，研究者还设计了一个新颖的 “自我认知”（self-recognition）任务：让模型判断自身生成的代码是否正确，以评估其能力边界感知力。这种 “苏格拉底悖论”—— 卓越的问题解决能力与清晰的自我认知能力未能同步发展 —— 暗示在现有 LLM 架构中，推理能力与元认知能力（metacognition）可能遵循不同的进化路径。一个关键问题是：目前 LLM 的推理能力已经非常强了，目前这种范式达到极限了吗？未来的模型的推理能力还能继续发展吗？而面对如此高难度的 HLCE benchmark，这显然是一个绝佳的机会来研究大语言模型的Test Time Scaling Law。研究者将模型生成的每组回答按照 thinking token 的数量按照长短进行分组，然后重新测试性能。从图中可以看出，随着思考长度的不断延长，模型的性能在不断的提升，并且远远没有达到上限。基于上述发现，研究者将模型的最佳表现（基于 5 次尝试，IOI 取 5 次的最大分数，ICPC world Finals 取 5 次解决掉的最多题目）与历年 IOI 和 ICPC 世界总决赛的奖牌分数线进行了直接对比。这也解释了一个看似矛盾的现象：尽管模型单次成功率很低，但只要给予足够多的尝试机会（这正是 “测试时扩展规律” 的体现），它们就能找到正确的解法，从而在竞赛中获得高分。这项研究通过 HLCE 这一极具挑战性的基准，清晰地揭示了当前 LLM 在高级编程和推理能力上的优势与短板。它证明了，虽然 LLM 在单次尝试的稳定性上仍有欠缺，但其内部已蕴含解决超复杂问题的知识。更重要的是，测试时扩展规律在这一极限难度下依然有效，为我们指明了一条清晰的性能提升路径：通过更优的搜索策略和更多的计算投入，可以持续挖掘模型的潜力。

                                善良的朋友当每年动辄千亿美元的资本支出成为常态，即便是现金储备超过3400亿美元的亚马逊、谷歌、Meta、微软和Oracle，也开始感受到前所未有的财务压力。欧洲区世预赛，英格兰队主场对阵安道尔，埃利奥特-安德森首发出战，上演英格兰代表队首秀，成为第1294位代表英格兰队出场的球员。善良的朋友9·1免费观看完整版在北京时间9月6日结束的美网首场男单半决赛中，2号种子、22岁的西班牙天才阿尔卡拉斯直落3盘横扫7号种子、38岁的德约科维奇，强势晋级决赛。这是阿尔卡拉斯第2次打进美网男单决赛，第7次打进大满贯男单决赛。SALP的工具箱非常丰富，它可以投资上市公司股票、私募股权，也可以运用期权、期货等衍生品来放大收益或对冲风险。也因此，与追求分散风险的传统基金不同，SALP敢于将其绝大部分资金集中押注在少数几个高度确信的领域和标的上。
                            

                                20250930 ? 善良的朋友“她骑着电瓶车去取快递，途中不幸发生了交通事故。”该亲属回忆，由于伤势过重，杜彬洋先被送往西昌的医院救治，随后又转至成都治疗，可最终她还是走了。“我们去送了她最后一程，看着好好的孩子就这么没了，心里都揪得慌。这么努力上进的孩子，实在太让人惋惜了。”《免费网站在线观看人数在哪软件》讷斯塔塞特别关注到中国近年来取得的巨大发展成就。他指出，阅兵庆典展示了中国军队卓越的现代化水平和严明的纪律性。近年来，中国在技术创新与经济转型领域取得显著成就，成功将一个曾饱受贫困和国际关系挑战的国家，建设成为具有全球影响力的强国，极大地提升了人民的生活水平。
                            

? 王建涛记者张旭光摄

                                20250930 ? 善良的朋友球员之声小组成员包括：荣誉队长乔治-维阿（利比里亚）、埃曼纽尔-阿德巴约（多哥）、梅茜-阿基德（尼日利亚）、伊万-科尔多瓦（哥伦比亚）、迪迪埃-德罗巴（科特迪瓦）、卡利卢-法迪加（塞内加尔）、福米加（巴西）、杰西卡-胡阿拉（法国）、玛雅-杰克曼（新西兰）、孙继海（中国）、布莱斯-马图伊迪（法国）、宫间绫（日本）、洛塔-谢林（瑞典）、布里安娜-斯库里（美国）、米凯尔-西尔维斯特（法国）和胡安-帕勃罗-索林（阿根廷）。Exo妈妈mv高清视频但樊先生称其已许久未再参与，因为放电耗时较长且场地不便，需要在值班时间赶回换电站停止放电，常顶着“上班摸鱼被抓包”的风险。另外他认为从长远看，充放电次数增加会影响电池寿命甚至安全，V2G赚的这点“小钱”对于电池保养费来说并不划算。
                            

? 戴尚友记者高法文摄

                            ? A：研究发现数据污染不是根本原因。虽然在某些测试中确实发现了数据污染的迹象，但即使在完全没有污染的任务（如Operation和Counterfactual逻辑推理）中，这些奇特的训练现象依然存在。真正的关键在于模型是否具备处理特定任务的基础能力，无论这种能力来自预训练经验还是其他知识获取方式。数据污染可能影响模型基础表现，但不能解释不同训练方法的效果差异规律。满18岁免费观看高清电视剧推荐
                        

情综合婷婷色五月蜜桃