+ 我要发布
我发布的 我的标签 发现
浏览器扩展
斑点象@Edge

大模型是如何工作的至今仍然是个迷

两年前,总部位于旧金山的OpenAI公司的研究人员尤里·布尔达(Yuri Burda)和哈里·爱德华兹(Harri Edwards)试图找出如何才能让语言模型进行基本的算术运算。他们想知道模型需要看到多少个将两个数字相加的示例,然后才能将他们给出的任何两个数字相加。起初,事情进展得不太顺利。模型记住了他们看到的总和,但未能解决新的总和。 出乎意料的是,布尔达和爱德华兹让他们的一些实验运行的时间比他们想要的要长得多——几天而不是几小时。这些模型一遍又一遍地向模型显示示例总和,远远超过了研究人员本来会称之为退出的程度。但当两人终于回来时,他们惊讶地发现实验奏效了。他们训练了一个语言模型来添加两个数字——这比任何人想象的都要多得多。 出于对正在发生的事情的好奇,布尔达和爱德华兹与同事合作研究了这一现象。他们发现,在某些情况下,模型似乎无法学习一项任务,然后突然就明白了,就好像灯泡打开了一样。这不是深度学习应该如何工作的。他们称这种行为为咕噜咕噜。 “这真的很有趣,”蒙特利尔大学和苹果机器学习研究的人工智能研究员Hattie 周说,他没有参与这项工作。“我们能确信模型已经停止学习了吗?因为也许我们只是训练的时间不够长。 这种奇怪的行为引起了更广泛的研究界的想象力。“很多人都有意见,”英国剑桥大学的劳罗·兰戈斯科(Lauro Langosco)说。“但我不认为对到底发生了什么达成共识。 Grokking 只是让 AI 研究人员挠头的几种奇怪现象之一。最大的模型,尤其是大型语言模型,似乎以教科书数学认为它们不应该的方式行事。这凸显了深度学习的一个非凡事实,深度学习是当今人工智能热潮背后的基础技术:尽管它取得了巨大的成功,但没有人确切知道它是如何工作的,或者为什么。 “显然,我们并非完全无知,”加州大学圣地亚哥分校的计算机科学家米哈伊尔·贝尔金(Mikhail Belkin)说。“但是我们的理论分析与这些模型的能力相去甚远。比如,他们为什么可以学习语言?我觉得这很神秘。 现在最大的模型是如此复杂,以至于研究人员正在研究它们,就好像它们是奇怪的自然现象一样,进行实验并试图解释结果。这些观察结果中的许多都与经典统计学背道而驰,经典统计学为预测模型的行为提供了最好的解释。 所以呢,你可能会说。在过去的几周里,谷歌DeepMind在其大多数消费者应用程序中推出了生成模型。OpenAI 凭借其令人惊叹的新文本到视频模型 Sora 让人们惊叹不已。世界各地的企业都在争先恐后地选择人工智能来满足他们的需求。技术有效——这还不够吗? 但是,弄清楚为什么深度学习效果如此之好不仅仅是一个有趣的科学难题。它也可能是解锁下一代技术的关键,以及处理其巨大风险的关键。 “这是激动人心的时刻,”哈佛大学的计算机科学家Boaz Barak说,他被借调到OpenAI的超对齐团队一年。“该领域的许多人经常将其与20世纪初的物理学相提并论。我们有很多不完全理解的实验结果,当你做一个实验时,它往往会让你感到惊讶。 大多数惊喜都与模型学习如何做他们没有被展示如何做的事情有关。这被称为泛化,是机器学习中最基本的思想之一,也是它最大的难题。模型通过一组特定的示例进行训练来学习完成任务——发现面孔、翻译句子、避开行人。然而,他们可以概括,学习用他们以前从未见过的例子来完成这项任务。不知何故,模型不仅会记住他们看到的模式,还会想出一些规则,让他们将这些模式应用于新案例。有时,就像 grokking 一样,泛化发生在我们意想不到的时候。 特别是大型语言模型,如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini,具有惊人的泛化能力。“神奇之处不在于模型可以学习英语数学问题,然后用英语推广到新的数学问题,”巴拉克说,“而是模型可以学习英语数学问题,然后看到一些法国文献,然后从中推广到用法语解决数学问题。这超出了统计数据所能告诉你的范围。 几年前,当周开始学习人工智能时,她对老师专注于如何而不是为什么的方式感到震惊。“这就像,这是你如何训练这些模型,然后是结果,”她说。“但目前尚不清楚为什么这个过程会导致能够做这些惊人事情的模型。她想知道更多,但她被告知没有好的答案:“我的假设是科学家知道他们在做什么。比如,他们会得到理论,然后他们会建立模型。但事实并非如此。 在过去的10多年里,深度学习的快速发展更多地来自反复试验,而不是理解。研究人员复制了对其他人有用的东西,并采用了自己的创新。现在有许多不同的成分可以添加到模型中,并且越来越多的食谱中充满了使用它们的食谱。“人们尝试这个东西,那个东西,所有这些技巧,”贝尔金说。“有些很重要。有些可能不是。 “它有效,这太棒了。我们的思想被这些东西的强大所震撼,“他说。然而,尽管他们取得了成功,但这些食谱更像是炼金术而不是化学:“我们在混合了一些成分后,在午夜想出了某些咒语,”他说。 问题在于,大型语言模型时代的人工智能似乎无视教科书的统计数据。当今最强大的模型非常庞大,具有多达一万亿个参数(模型中的值在训练期间进行调整)。但统计数据表明,随着模型变大,它们应该首先提高性能,然后变得更糟。这是因为所谓的过拟合。 当模型在数据集上进行训练时,它会尝试将该数据拟合到模式中。想象一下在图表上绘制的一堆数据点。适合数据的模式可以在该图表上表示为贯穿点的线。训练模型的过程可以看作是让它找到一条适合训练数据(图表上已有的点)但同时也适合新数据(新点)的线。 直线是一种模式,但它可能不会太准确,会遗漏一些点。连接每个点的摆动线将在训练数据上获得满分,但不会一概而论。当这种情况发生时,模型被认为过度拟合其数据。 根据经典统计学,模型越大,就越容易过度拟合。这是因为有了更多的参数可供使用,模型就更容易击中连接每个点的摆动线。这表明,如果模型要泛化,就必须找到欠拟合和过拟合之间的最佳点。然而,这不是我们在大型模型中看到的。最著名的例子是一种称为双重下降的现象。 模型的性能通常以它所犯的错误数量来表示:随着性能的提高,错误率会下降(或下降)。几十年来,人们一直认为,随着模型变大,错误率会先下降后上升:想象一条U形曲线,其最佳推广点位于最低点。但在 2018 年,贝尔金和他的同事们发现,当某些模型变大时,它们的错误率会下降,然后上升,然后再次下降(双下降,或 W 形曲线)。换句话说,大型模型会以某种方式超越这个最佳点并解决过拟合问题,随着它们变大而变得更好。 一年后,巴拉克与人合著了一篇论文,表明双重下降现象比许多人想象的更普遍。这不仅发生在模型变大时,也发生在具有大量训练数据的模型或训练时间更长的模型中。这种行为被称为良性过拟合,目前仍未完全理解。它提出了一些基本问题,即应该如何训练模型以充分利用它们。 研究人员已经勾勒出他们认为正在发生的事情的版本。贝尔金认为,有一种奥卡姆剃刀效应在起作用:拟合数据的最简单的模式——点之间最平滑的曲线——往往是最能概括的模式。更大的模型之所以比看起来更长,可能是因为更大的模型比较小的模型更有可能碰到那条曲线:更多的参数意味着在抛弃最摆动的曲线后,可以尝试更多可能的曲线。 “我们的理论似乎解释了它为什么有效的基本原理,”贝尔金说。“然后人们制作了会说100种语言的模型,就像,好吧,我们什么都不懂。他笑着说:“事实证明,我们甚至没有触及表面。 对于贝尔金来说,大型语言模型是一个全新的谜团。这些模型基于转换器,这是一种擅长处理数据序列的神经网络,就像句子中的单词一样。 贝尔金说,变压器内部有很多复杂性。但他认为,从本质上讲,它们或多或少与一种更易于理解的统计结构相同,称为马尔可夫链,它根据之前发生的事情预测序列中的下一个项目。但这还不足以解释大型语言模型可以做的所有事情。 “直到最近,我们还认为这不应该起作用,”贝尔金说。“这意味着从根本上缺少一些东西。它指出了我们对世界理解的差距。 贝尔金走得更远。他认为语言中可能存在一种隐藏的数学模式,大型语言模型会以某种方式利用这种模式:“纯粹的推测,但为什么不呢? “这些东西模拟语言的事实可能是历史上最大的发现之一,”他说。“你可以通过用马尔可夫链预测下一个单词来学习语言——这让我感到震惊。 研究人员正试图一点一点地弄清楚。由于大型模型太复杂而无法自行研究,Belkin,Barak,周和其他人在更小(和更旧)的统计模型上进行实验,这些模型更容易理解。在不同的条件下和各种数据上训练这些代理,并观察发生的事情可以深入了解正在发生的事情。这有助于使新理论起步,但这些理论是否也适用于更大的模型并不总是很清楚。毕竟,许多奇怪的行为都存在于大型模型的复杂性中。 深度学习理论即将到来吗?哥伦比亚大学(Columbia University)的计算机科学家大卫·许(David Hsu)是贝尔金(Belkin)的双血统论文的合著者之一,他并不指望很快能得到所有的答案。“我们现在有更好的直觉,”他说。“但真正解释了为什么神经网络有这种意想不到的行为吗?我们离这个目标还很远。 2016年,麻省理工学院的Chiyuan Zhang和Google Brain的同事发表了一篇颇具影响力的论文,题为“理解深度学习需要重新思考泛化”。五年后的 2021 年,他们重新发表了这篇论文,称其为“理解深度学习(仍然)需要重新思考泛化”。2024年呢?“有点是,有点不是,”张说。“最近取得了很大进展,尽管出现的问题可能比解决的问题要多得多。 与此同时,研究人员甚至在与基本观察结果作斗争。去年 12 月,Langosco 和他的同事在顶级 AI 会议 NeurIPS 上发表了一篇论文,他们声称 grokking 和双重下降实际上是同一现象的方面。“你盯着它们,它们看起来有点相似,”Langosco说。他认为,对正在发生的事情的解释应该同时考虑到这两点。 在同一次会议上,剑桥大学(University of Cambridge)研究统计学的艾丽西亚·柯思(Alicia Curth)和她的同事们认为,双重血统实际上是一种错觉。“现代机器学习是某种魔力,它违背了我们迄今为止建立的所有定律,这对我来说不太合适,”Curth说。她的团队认为,双下降现象 - 模型似乎表现更好,然后更差,然后随着它们变大而再次更好 - 由于模型复杂性的测量方式而出现。 Belkin和他的同事使用模型大小(参数的数量)作为复杂性的衡量标准。但Curth和她的同事们发现,参数的数量可能不是复杂性的一个很好的替代品,因为添加参数有时会使模型更复杂,有时也会使模型变得不那么复杂。这取决于这些值是什么,它们在训练过程中是如何使用的,以及它们如何与他人交互,其中大部分都隐藏在模型中。“我们的收获是,并非所有模型参数都是平等的,”Curth 说。 简而言之,如果对复杂性使用不同的度量,大型模型可能会很好地符合经典统计量。这并不是说我们没有太多不了解当模型变大时会发生什么,Curth说。但是我们已经有了解释它所需的所有数学知识。 诚然,这样的辩论可能会陷入困境。为什么人工智能模型是否以经典统计学为基础很重要? 一个答案是,更好的理论理解将有助于构建更好的人工智能或使其更有效率。目前,进展很快,但不可预测。OpenAI 的 GPT-4 可以做的许多事情甚至让制作它的人感到惊讶。研究人员仍在争论它能实现什么和不能实现什么。“如果没有某种基本理论,就很难知道我们可以从这些东西中得到什么,”贝尔金说。 巴拉克对此表示赞同。“即使我们有了模型,即使事后看来,也很难确切地说出为什么某些功能会出现,”他说。 这不仅关乎管理进度,还关乎预测风险。许多研究深度学习背后理论的研究人员都是出于对未来模型安全的担忧。“在我们训练和测试它之前,我们不知道 GPT-5 将具有什么功能,”Langosco 说。“现在这可能是一个中等规模的问题,但随着模型变得越来越强大,它将在未来成为一个非常大的问题。 巴拉克在OpenAI的超对齐团队工作,该团队由该公司的首席科学家伊利亚·萨茨凯弗(Ilya Sutskever)成立,旨在弄清楚如何阻止假想的超级智能流氓。“我对获得担保非常感兴趣,”他说。“如果你能做一些了不起的事情,但你无法真正控制它,那么它就不会那么神奇了。如果方向盘摇晃,一辆时速可以行驶 300 英里的汽车有什么用? 但在这一切的背后,还有一个巨大的科学挑战。“情报绝对是我们这个时代最大的谜团之一,”巴拉克说。 “我们是一门非常幼稚的科学,”他说。“这个月我最兴奋的问题可能与下个月我最兴奋的问题不同。我们仍在发现事物。我们非常需要尝试并感到惊讶。
我的笔记