编译 王晓涛
大语言模型激起了人们关于实现通用人工智能(AGI)的讨论。但人工智能不太可能仅凭自身达到这一里程碑。
机器要多久才能完成人类大脑可以处理的所有认知任务?
“通用人工智能”可以解决棘手的问题,包括气候变化、流行病、癌症、阿尔茨海默病以及其他疾病。但如此强大的力量也会带来不确定性,并给人类带来风险。加拿大蒙特利尔大学的深度学习研究员约书亚·本吉奥(Yoshua Bengio)说:“糟糕的事情可能会发生,要么是由于人工智能的滥用,要么是因为我们失去了对它的控制。”
过去几年大语言模型的更新引发了人们的猜测,即通用人工智能可能即将出现。但一些研究人员表示,考虑到大语言模型的构建和训练方式,它们本身不足以达到通用人工智能的水平。本吉奥说:“仍然有一些欠缺的部分。”
很明显,关于通用人工智能的问题现在比以往任何时候都更重要。亚利桑那州立大学的计算机科学家苏巴拉奥·坎巴姆帕蒂(Subbarao Kambhampati)说:“在我生命的大部分时间里,我认为谈论通用人工智能的人都是疯子。当然,现在每个人都在谈论它。你又不能说每个人都是疯子。”
为什么关于通用人工智能的讨论发生了变化?
在人工智能研究人员本· 戈策尔(Ben Goertzel)和凯西奥· 彭纳钦(Cassio Pennachin)于其撰写的书籍中提到通用人工智能一词后,该词于2007年左右进入了公众视野。它的确切含义至今仍不明确,但可以泛指具有类人推理和泛化能力的人工智能系统。撇开模糊的定义不谈,在人工智能的大部分历史中,很明显尚未达到通用人工智能的水平。以谷歌DeepMind创建的人工智能程序AlphaGo为例,它可以下围棋,并击败世界上最优秀的人类棋手。但这种超人能力是有限的,因为这就是它所能做的一切了。
大语言模型的新功能彻底改变了这一领域。与人类大脑一样,大语言模型具有广泛的能力,这使得一些研究人员认真考虑了某种形式的通用人工智能可能即将到来,甚至已经存在的可能性。
当你知道研究人员实际上并不太了解大语言模型是如何实现其功能的时候,一定会对这种能力的广度非常吃惊。大语言模型是一种神经网络,即一种类似大脑的机器学习模型;该网络由人工神经元(或称计算单元)组成,它们按照层级排列,参数可调,表示神经元之间的连接强度。在训练过程中,最强大的大语言模型依赖于一种称为“下一个单词预测”的方法。在该方法中,模型会反复接收文本样本,这些文本样本被分割成块,可以是完整的单词,也可以只是一组字符。序列中的最后一块被隐藏或“屏蔽”,并要求模型对其进行预测。然后,训练算法将预测结果与屏蔽的部分进行比较,并调整模型的参数,使其下次能够做出更好的预测。
人工智能如何重塑科学和社会?
这个过程会持续下去——通常使用数十亿个语言片段、科学文本和编程代码——直到模型能够可靠地预测被屏蔽的部分。在此阶段,模型参数已经捕获了训练数据的统计结构以及其中包含的知识。之后,参数被固定,当给出新的查询或“提示”时,模型就会利用参数来预测新的文本块。这些查询或提示不一定存在于其训练数据中。这一过程称为推理。
一种名为转换器的神经网络架构使大语言模型大大超越了以前的成就。该转换器使模型可以知晓,一些文本块对其他文本块会有很强的影响力,即使在文本样本中它们相隔甚远。这使得大语言模型能够以模仿人类的方式解析语言,例如,区分这句话中“bank”一词的两种含义:“当河岸(bank)被淹没时,水损坏了银行(bank)的自动取款机,导致无法取款。”
事实证明,这种方法在许多领域都获得了巨大的成功,包括生成计算机程序解决用自然语言描述的问题,总结学术文章,以及回答数学问题。
随着大语言模型规模的扩大,其他新的功能也出现了。如果大语言模型足够大,通用人工智能也可能出现。其中一个例子是链式思维(CoT)提示。这涉及向大语言模型展示如何将问题分解为更小的步骤来解决它,或者简单地要求大语言模型一步一步地解决问题。链式思维提示可以引导大语言模型正确回答以前让它们困惑的问题。但这个过程对于小型的语言模型来说效果不佳。
大语言模型的局限性
据OpenAI称,链式思维提示已被整合到o系列的工作中,并且成为该模型强大的基础。弗朗索瓦?· 乔莱特(Francois Chollet)原本是谷歌公司的人工智能研究员,他于2024年11月离职并创办了一家新公司。他认为,尽管技术如此先进,o系列也有其局限性,并不能被称为通用人工智能。
乔莱特说,通用人工智能,无论其规模大小,在解决需要重组所学知识以应对新任务的问题方面的能力都是有限的。
大语言模型的一个优势是,底层的转换器架构可以处理并发现除文本之外的其他类型信息(如图像和音频)中的统计模式,前提是有一种方法可以适当地标记这些数据。在纽约大学研究机器学习的安德鲁?· 威尔逊(Andrew Wilson)和他的同事们指出,这可能是因为不同类型的数据都有一个共同的特征:这些数据集具有较低的“柯尔莫哥洛夫复杂性”,即创建它们所需的最短计算机程序的长度。研究人员还表明,转换器非常适合学习具有低柯尔莫哥洛夫复杂性的数据中的模式,并且这种适用性随着模型“变大”而增强。转换器有能力对广泛的可能性进行建模,从而增加训练算法发现合适解决方案的机会,这种“表现力”随着规模的扩大而增加。威尔逊说,这些正是“我们实现通用学习真正需要的关键”。
人工智能能否阅读科学文献,并弄清楚其中的含义?
然而,有迹象表明,基于转换器的大语言模型存在局限性。首先,用于训练模型的数据正在耗尽。也有迹象表明,大语言模型随着规模的扩大而获得的收益不如以前那么多,尽管目前尚不清楚这是否与数据中的新颖性减少有关(因为现在已经有很多数据被使用了),或者有什么其他原因。
DeepMind研究副总裁拉亚?· 哈德塞尔(Raia Hadsell)提出了另一个问题。她认为,基于转换器的强大的大语言模型经过训练可以预测下一个文本块,但这种单一的关注点太有限,无法实现通用人工智能的效果。她说,构建能够一次性或大批量生成解决方案的模型,可以让我们更接近通用人工智能。有助于构建此类模型的算法已经在一些现有的非大语言模型系统中发挥作用,例如OpenAI的DALL-E系列,它根据自然语言的描述生成逼真的、但有时令人困惑的图像。不过,它们缺乏大语言模型的广泛能力。
构建一个世界模型
推动通用人工智能发展的突破性进展的灵感来自神经科学家。他们认为,我们的智力使得大脑能够建立一个“世界模型”。这可以用来想象不同的行动方案并预测其后果,从而进行计划和推理。它还可以通过模拟不同的场景,将在一个领域学到的技能推广到新的任务中。
一些报告声称,有证据表明大语言模型内部出现了基本的世界模型。在一项研究中,麻省理工学院的研究人员韦斯?· 古尼(Wes Gurnee)和马克斯?· 泰格马克(Max Tegmark)声称,一个广泛使用的开源大语言模型家族在接受包含地方信息的数据集训练时,构建了对全世界、全美国以及纽约市的模型,尽管其他研究人员在社交平台上指出,没有证据表明大语言模型正在使用世界模型进行模拟或学习因果关系。在另一项研究中,哈佛大学的计算机科学家肯尼思?· 李(Kenneth Li)和他的同事们发布报告,表明一个接受过棋盘游戏《奥赛罗》玩家动作记录培训的小型通用人工智能学会了在内部表示棋盘的状态,并利用这一点正确预测符合要求的下一步。
然而,其他结果表明,目前人工智能系统学习的世界模型是不可靠的。在一项研究中,哈佛大学的计算机科学家肯扬?· 瓦法(Keyon Vafa)和他的同事们使用了一个庞大的纽约市出租车转弯数据集,训练基于转换器的模型来预测下一个转弯,其准确率接近100%。
通过检查模型生成的转弯,研究人员能够证明它已经构建了一个内部地图来得出答案。但研究人员表示,这张地图展示的世界与曼哈顿几乎没有相似之处。瓦法说:“它包含具有不可能存在的物理方向的街道和高于其他街道的天桥。尽管该模型在某些导航任务中表现良好,但其地图是不连贯的。”当研究人员调整测试数据以包括训练数据中不存在的意外绕行时,它未能预测下一个转弯,这表明它无法适应新的情况。
DeepMind通用人工智能研究团队成员迪利普?· 乔治(Dileep George)表示,当今通用人工智能缺乏的一个重要特征就是内部反馈。人脑充满了反馈连接,使信息在神经元层之间双向流动。这允许信息从感觉系统流向大脑的更高层,以创建反映我们周围环境的世界模型。这也意味着来自世界模型的信息可以向下传播,并指导进一步的感官信息的获取。这种双向过程导致了感知的产生,大脑使用世界模型来推断感官输入的可能原因。它们还可以规划,即使用世界模型来模拟不同的行动过程。
但目前的大语言模型只能以一种附加的方式使用反馈。在o系列中,似乎正在起作用的是内部链式思维提示。这种反馈形式的连接生成提示以帮助查询答案,并在大语言模型产生最终答案之前反馈给模型本身。但是,正如乔莱特对o系列的测试所示,这并不能确保大语言模型具有无懈可击的推理能力。
为什么科学家过于信任人工智能?我们该怎么办?
包括坎巴姆帕蒂在内的研究人员也尝试在大语言模型上添加称为验证器的外部模块,用以检查大语言模型在特定上下文中生成的答案,例如用于创建可行的旅行计划。如果答案不符合要求,则要求大语言模型重新运行查询。坎巴姆帕蒂的团队表明,在外部验证器的帮助下,大语言模型能够更好地制定旅行计划。问题是,研究人员必须为每项任务设计定制的验证器。坎巴姆帕蒂说:“我们没有通用的验证器。”相比之下,使用这种方法的通用人工智能系统可能需要自行构建验证器适应出现的情况,就像人类可以使用抽象规则来确保他们对于新任务的正确推理一样。
大语言模型遇到的另一个大障碍是,它们是数据的消耗者。伦敦大学学院的理论神经科学家卡尔?· 弗里斯顿(Karl Friston)建议,未来的系统可以自己决定需要从环境中采集多少数据来构建世界模型并做出合理的预测,而不是简单地吃下所有输入的数据。这样可以提高效率。弗里斯顿认为,这将代表一种代理或自主的形式,这可能是通用人工智能所需要的。他说:“在大语言模型或生成式人工智能中,你看不到那种真正的代理形式。”他补充道:“如果你有任何一种可以在一定程度上进行选择的人工智能,那么我认为你正在朝着通用人工智能迈出重要的一步。”
具有构建有效世界模型和集成反馈回路能力的人工智能系统也可能较少依赖外部数据,因为它们可以通过运行内部模拟程序、提出反事实假设并使用它们进行理解、推理和规划,从而生成自己的数据。事实上,2018年,当时在东京谷歌大脑公司的研究人员大卫?· 哈(David Ha)和瑞士卢加诺-维甘内洛Dalle Molle人工智能研究所的于尔根?· 施密德胡贝尔(Jürgen Schmidhuber)报告称,他们建立了一个神经网络,可以有效地构建人工环境的世界模型,然后用它来训练人工智能驾驶虚拟汽车。
人工智能模型是否会比研究人员产生更多原创的想法?
如果你认为具有这种自主性的人工智能系统听起来很可怕,那么你并不孤单。除了研究如何构建通用人工智能,本吉奥还倡导将安全考量纳入人工智能系统的设计和监管中。他认为,研究必须集中在能够保证自身行为安全的训练模型上。例如,通过建立机制来计算模型违反某些特定安全约束的概率,并在概率过高时拒绝采取行动。此外,政府需要确保其能够被安全使用。他说:“我们需要一个民主的过程,确保个人、公司甚至军队,以对公众安全的方式开发人工智能并使用人工智能。”
那么,实现通用人工智能有可能吗?计算机科学家表示,没有理由认为不可能。乔治说:“理论上没有障碍。”新墨西哥州圣达菲研究所的计算机科学家梅兰妮?· 米切尔(Melanie Mitchell)对此表示赞同。她说:“人类和其他动物证明了你可以做到这一点。我认为生物系统与其他材料制成的系统没有什么特别之处。原则上,这些材料不会阻止非生物系统变得智能。”
但是,即使有可能,人们对它何时到来几乎也没有达成什么共识:估计从现在起几年到至少十年不
评论