【新智元导读】Meta超级智能团队成员毕树超,回溯70年AI进化:从AlexNet掀起深度学习革命,到Transformer与Scaling Law驱动大模型爆发,再到强化学习+预训练通向AGI。他相信智能并非人类都独有,AGI曙光已现! 在题为《推进硅基智能前沿:过去、开放问题与未来》的演讲中,毕树超系统阐述了过去15年的技术进展、当前待解难题以及未来发展趋势 算力正在变得越来越廉价,计算机与环境的交互或许可自动生成新的知识与数据。这种方式将可能比人类自身产生数据的速度更快。 毕竟,目前许多技术,从数学角度来看,只不过改进了Tensor运算和梯度优化,本质上并不复杂。他不禁怀疑:人类真的那么难以复制吗? 但随着对AI理解的加深,他开始意识到:模拟人脑的方式不止一种。如果能够用计算机模仿人类的学习方式,那为什么不这样做呢? 一方面,也许大脑并不是独一无二的,它只是生物进化的结果。虽然复杂,但归根结底它也不过是一台「生物计算机」,并不比硅基计算机更神秘。 图灵提出,人工智能不应试图模仿成人的大脑(包含复杂的经验和偏见),而应设计一个简单的模型,尽量减少人为预设的结构,让模型通过数据自主学习。 当时深层网络训练就像走钢丝——梯度要么消失要么爆炸。而ResNet的「跳跃连接」(skip connection)就像给神经网络装了电梯:浅层特征可以直接跨层传输。 如果采用这种结构,可以确保学习起来容易得多。而且这种技巧几乎适用于所有网络架构。这就是为什么现在几乎所有网络都采用这种结构。 当处理非凸优化时,首先担心是陷入随机的局部最小值。如果最好的结果不过是随机的局部最小值,怎么能信任结果呢?然后,有很多对于这个的研究。 让他重拾信心的第一个发现是:在高维空间里,陷入局部最优其实非常难。在三维世界看二维曲面时,局部极小值确实像深坑难爬出来。但在十亿维空间里,有无数个逃生通道! 以前,只要有数据,每个领域都可以构建一个专门的模型。这并不具备可扩展性。而GPT系列模型非常通用,可以通过零样本或少样本学习完成任务。 过去十年,我们逐渐打破了很多对机器学习的误解。如今,主流观点是:预测本身的压缩,其实等同于理解,甚至是智能的体现。 从认知科学的角度,人类的学习过程本质上也是压缩过程。物理定律、数学公理等方式把世界的观察总结成最小的一组规则。 虽然问题还有很多值得探索,但毕树超在演讲中表示:「每隔几个月,我们就看到一些曾经被认为不可能的事情成为现实。这应该让我们重新审视所有我们仍然认为不可能的事情。 」


