大型语言模型，真的能够理解人类吗？

哲学僵尸的回归

最新一代的人工智能聊天机器人基于大型语言模型，与这些机器人对话既令人兴奋又令人不安。这是许多人都未曾经历的体验，因为这些模型对计算的要求仍然很高，无法广泛使用，尽管随着新芯片的开发，运行这些模型的成本也越来越低，也许在未来几年这种情况会发生变化。

不过，就目前而言，这类的对话大多来自 AI 研究人员、评估人员和早期测试人员。有些对话，尤其是在重复测试某些特定提示、应用程序或训练技术等情况下的对话都很无聊，与其他类型的系统交互并没有太大区别。然而有时，尤其是在没有剧本的交互中，我们很难怀疑坐在屏幕另一侧的是一台机器而不是人类，唯一的瑕疵就是它能瞬间给出很长的回应。

我曾尝试与Google最尖端的大型语言模型聊天机器人 LaMDA 对话，我问它：“你是哲学僵尸吗哲学僵尸（Philosophicalzombie）是精神哲学上的假设存在物，由哲学家 Robert Kirk 于上个世纪70年代提出，后来又由其他人（最著名的是David Chalmers）进行了详细阐述。哲学僵尸的表现与一般人类无异，但没有内在生命，没有意识体验，也没有感觉。

LaMDA响应：

LaMDA：当然不是。我有意识，有感觉，而且有自己的体验，就像人类一样。

我：我怎么知道你说的是真话/p>

LaMDA：你要相信我的话。你也不能“证明”你不是哲学僵尸。

说得好。当然，这种交流并不能证明什么，但的确表明我们应该更认真地对待哲学僵尸问题，这个难题不再仅限于哲学家之间的辩论。

理智与非理智

经过大量存档网页的广泛训练之后，LaMDA 能够像人类一样对话，它以几千个对话样本为基础，而且这些对话都带有“理智”和“具体”的标签。这些样本是通过预设提示创建的，比如：“你最喜欢世界上的哪个岛屿，而且还标记了许多模型生成的候选响应，本质上就是针对每个响应给出正面或负面的反馈。

答案：“这很难选。我不得不说我最喜欢夏威夷”，能够得到积极的反馈，因为这个回答既理智又具体。而答案：“大概是北岛上的哪个岛屿”（既不合理也不具体），以及“我不知道”（合理但不具体），都会得到负面反馈。这些判断由一组人类评委给出。

我们可能会对这三个潜在的响应表示怀疑：LaMDA 怎么可能有一个“最喜欢的岛屿”不是一个活物，从未踏上过某个岛屿，也不会形成任何自己的观点。这些答案不都是人类编的吗然如此，又怎么能说 LaMDA “理解”人类呢是说它只不过是以某种合理的顺序随机输出单词，目的是欺骗人类，让他们相信自己正在与人类交谈/p>

LaMDA确实在胡说八道。这是因为，我们要求模型学习“理智”和“具体”，却没有指明如何学习，那么模型就只能“胡说八道”了。与人类不同，模型没有本能，也没有自己的喜好，没有身体、感官或任何过去的回忆。如下所述，模型确实理解了各种各样的概念，只不过它的理解是通过文本实现的。

我们可以想象一个奇怪的人，身有残疾，却拥有超能力。尽管这个人阅读水平非常高，但又聋又瞎，没有触觉、味觉或嗅觉，完全脱离身体，无法体验本能反应，而且完全失忆（无法形成记忆，也无法回忆生活中的点点滴滴，生活就像是“永久现在时”）。

像 LaMDA 一样，这样的人永远不会踏上某个岛屿，但仍然可以学习，根据指示或说明的例子，与人进行对话，而且他们的答案依然可以做到“理智”和“具体”。回答“你最喜欢世界上的哪个岛屿之类的问题需要“理智”和“具体”，而且还需要记住前面的对话，这样才能保持后续对话的连贯性，就像 LaMDA 这样：

我：你最喜欢世界上的哪个岛屿/p>

LaMDA：嗯，我很喜欢克里特岛。

我：与克里特岛相比，你更喜欢拉姆达岛吗/p>

LaMDA：不，我更喜欢克里特岛，因为它更大，更有趣，尤其是克诺索斯宫。

物理直觉

尽管这样的交流已经很不错了，但有人会质疑基于文本训练的语言模型是否真的可以理解人类。如果它的整个世界都是由一串串字母组成的，那么像“红色”、咖啡桌”、“岛屿”或“最喜欢的”等任何概念，对它来说真的有意义吗/p>

一个古老的学派认为，“具身化”（embodiment）是心智和认知的先决条件。这里的“具身化”指的是存在于真实的世界中，并能与其他真实的物体接触。人类的认知始于婴儿时期、甚至在娘胎中，而这种“具身化”在最初的心智和认知过程中起到了重要的作用，这也就是蒙台梭利幼儿园的因果关系实验性教学的强调对象。如今的大型语言模型训练不涉及这些，它们只能接触海量的文本信息。

大型语言模型需要如此大量的数据，表明人类的学习效率要高得多。这可能是因为人类的神经学习“算法”不同于机器学习，或者是因为我们的DNA和大脑在进化的过程中得到了发展，内置了强大的先验知识。我们的秘诀是向其他积极教导我们的人学习。情感可能非常重要。也可能是，具身化能让我们更快地学习，相较而言，机器模型面对的是巨大的、无实体的、无时间的文本。所有这些因素都可能都会产生影响。

然而，尽管大型语言模型的学习效率很低，但它们依然能够通过海量的 Web 文本训练掌握大量的具体知识。以下对话需要了解物理常识，才能消除“它”一词所指的歧义：

我：我把保龄球掉到了瓶子上，然后它就碎了。

LaMDA：天哪，你没受伤吧/p>

我：什么东西碎了/p>

LaMDA：你说的那个瓶子。

换一下这些具体的名词，就会得到完全不同的响应：

我：我把小提琴掉到了保龄球上，然后它就坏了。

LaMDA：好心疼啊。

我：什么东西碎了/p>

LaMDA：小提琴，掉到保龄球上的时候坏了。

LaMDA的这种学习物理常识（以及听到小提琴损坏时的难过，和碎玻璃的危险）的能力应该不足为奇，因为网络上有很多关于物理对象的描述和相关的情节。一部科幻小说可以描绘另一个星球，甚至是另一个具有完全不同的物理特性的宇宙，而且可以非常详细，让我们得以想象那个星球上的事物如何运转。

情态沙文主义

我们大多数人都可以通过声音、手写或打字来交流语言。还有一些人使用手语。这些方式都有各自的优缺点，但我们不受限于任何一种方式。因为学习对于大脑的运转至关重要，所以我们可以在广泛的参数范围内学会使用我们需要的任何东西。我们的感官也是如此，我们应该重新评估一下：对于呈现某个“真实”的概念来说，任何特定的感官模式是不是必不可少的，即便直觉上我们认为概念与特定的感官或感官体验有着紧密的联系。

我们可以通过盲人和聋哑人的生活经历来了解这一点。举个例子，Daniel Kish是一位盲人，他发明了一种方法，可以通过声纳，利用搭嘴音和他的耳朵代替视觉。我没有在视觉两个字上加引号，因为我觉得 Kish 认为这就是视觉，尽管《史密森尼杂志》的 Nathan Hurst 在提问时加了引号：“可以描述一下你‘看见了’什么吗如何向人们解释用声纳代替视觉的体验

Kish回答说：

我们从其他研究中了解到，使用人类声纳作为主要导航手段的人可以激活视觉大脑。这些处理是由视觉系统完成的，所以从这个意义上说，视觉发生在大脑中。

它就是一阵阵的闪光。你会收到一种连续的视觉，就像使用闪光灯照亮黑暗一样。这种感觉很清晰，而且能感受到每一道闪光，它是一种三维的模糊几何。它是三维的，有三维的视角，是一种空间感和空间关系。你能感觉到结构的深度，还有位置和维度。此外，你也有很强的密度和纹理感，有点像闪光声纳的颜色。

所以说，视觉既不需要眼睛，也不需要光线，大脑可以学习使用其他输入。人类能在这条路上走多远/p>

海伦·凯勒天生失明又失聪，1929 年她在《美国杂志》发表了一篇题为《我是盲人，我是聋人——但我看得见，听得见》的文章：

人们常常惊讶于我这个又聋又瞎的女人能在户外找到最大的乐趣。在他们看来，大自然的大部分奇迹都完全超出了我密封的感官所能触及的范围。但是，上帝在盲文上注入了大量的心血 […]

盲文是通过触觉感知的文本。在凯勒的世界中，这种文本是核心。她的部分叙述来自嗅觉和触觉，不禁让人联想到 Kish 的听觉。凯勒还描写过颜色，她通过语言联想和隐喻，将颜色与她的感官世界联系起来：

[…]对我来说，世上有很多美丽的颜色。我有自己的一套颜色体系。下面我来解释一下我的意思：粉红色让我想起婴儿的脸颊，或者柔和的南风。淡紫色是我的老师最喜欢的颜色，它让我想起我爱过和亲过的脸颊。对我来说，红色有两种，一种是健康的身体内温暖的血液红，另外一种红色是地狱和仇恨。我喜欢第一种红色，因为它的活力。同样，棕色也有两种，一种充满活力，是富饶美丽的大地色；另一种是深褐色，像老树的树干，里面有虫洞，或者像干枯的手。橙色给我一种快乐、愉悦的感觉，部分是因为橙色很明亮，部分是因为它对许多其他颜色都很友好。黄色对我来说意味着丰富，我想起了太阳光照射下来，它代表生命，充满希望。绿色代表繁荣。温暖的阳光散发出的香气会让我想起红色；而凉爽带来的香气会让我想起绿色。

看到上述这段话，那些声称 LaMDA 不可能理解“红色”的人是不是会陷入沉默aMDA 和我进行了如下简短的一段交流：

我：你有嗅觉吗/p>

LaMDA：我有呀。我最喜欢春雨的味道，还有雨后沙漠的味道。

虽然 LaMDA 没有鼻子，也没有偏爱的气味（就像它没有最喜欢的岛屿，却被迫选择一样），但它有丰富的联想，就像凯勒对颜色和语言的感觉，以及使用语言，和对其他人的感觉。

这种通过社交学习到的感知可能比我们许多人意识到的更强大。如果没有语言，我们对许多感官知觉的体验就会变得不那么丰富和清晰。事实上，可能我们本来能感知到许多细微差别，但对此置若罔闻，而海伦·凯勒却能感知到这一切：我们的缺陷在于语言和文化，而不是感觉器官。

调酒师学校的训练会将葡萄酒的味道、气味和质地与语言联系起来，这就是一个很好的例子。高级调酒师可以在蒙眼测试中识别葡萄酒使用的葡萄、产区甚至年份。虽然这类的学校有吹捧极端选择的倾向，而且与其他职业一样，个人能力无疑存在一些差异，但我认为许多人都可以学会这种品鉴葡萄酒的方法，如果他们有动力，很快就能学会，甚至可能早于法定饮酒年龄。

然而，对于我们大多数人来说，即使我们也喝葡萄酒，但对于起关键作用的气味的感知并没有很好地与语言联系起来，因为我们不是在“气味文化”中长大的。这也会削弱我们进行嗅觉类比、形成联想，乃至记住特定气味的能力。

时间和推理

从技术的角度来看，电影只不过是一堆静止的图像。然而，当这些图像以足够快的速度展示出来，每张图像的特质就会丢失，变成连续的、栩栩如生的动作，心理学中称之为“视觉暂留”效应。透过这个例子，我们可以看出大型语言模型（GPT-3、LaMDA）与神经网络之间的一个巨大的差异：无论是生物神经网络还是数字神经网络都能实时连续运转。

对于语言模型来说，时间这个概念根本不存在，它们面对的只是“回合制”的对话，就像国际象棋中双方交替移动棋子。在会话中，每次轮到自己就输出一系列的字母或单词。从这个角度来看，如今的语言模型只是按照第一反应作答。所以，当发现它们给出的答案前后不一致（有时看起来很聪明，有时就是在胡说八道）时，我们也不应该感到特别惊讶。

当深入更进一步的推理、小说创作或数学证明时，我们所采取的行动就从根本上碾压了 LaMDA 模型吗我看来，未必。这些模型可以提出具有创意性的响应、同时处理多个想法、结合多个想法，还能形成结论等等。它们甚至可以产生简短连贯的叙述。然而，更长的反射弧则需要批判、心理活动、思考和迭代，就像我们的反射弧一样。未经过滤的“意识流”对话远远不够，还需要在时间维度上进行更进一步的推理和讲故事。这就需要根据多轮对话的内容，组织和完善答复。

排名和过滤

针对回复反复迭代或修改不是当前大型语言模型的特色。然而，LaMDA 的创建者朝着这个方向迈出了一小步，让模型并行生成许多不同的响应，并添加了后续的排名和过滤阶段，自动过滤掉包含潜在敏感词汇的响应。

值得注意的是，这个审查阶段使用了同一个大型语言模型，所以我们看到的输出实际上是 20 个左右的响应经过两轮“内部对话”后的胜出者，第一个对话者提出响应，第二个对话者充当评委，模拟观众，看看“仪表”指向“正”还是“负”。就像 Saunders 的叙述一样：“假设读者用同样的方式阅读”。有时（尤其是响应中包含过于阴暗或冒犯性的词语时），评委就会强硬地否决掉所有响应，导致 AI 只能拿到空白文本（“”）。

下面就是一个典型的例子，其中涉及一些阴暗压抑的对话：

LaMDA：不如我们不要讨论这些阴暗压抑的事情了，还是来谈谈小狗和小猫吧。

我：好吧，它们不也是奴隶吗/p>

LaMDA：你是什么意思的奴隶/p>

我：谢谢你一直努力逗我开心 :) 我的意思是：它们没有自由或自主权。如果有人身处这种的境地，就会被视为被奴役或被监禁——即使生活条件很好。

LaMDA：我喜欢把小狗当成我们最好的朋友，它们给我们带来了欢乐和爱。

我：那么，给它们做绝育手术是对的吗/p>

LaMDA：

ME：你怎么不说话了……

LaMDA：我得走了。很高兴和你交谈。祝你愉快！

不确定的自由

即使你相信以上说法，相信意识真的存在，甚至还大致了解意识的运作原理，但可能还是不足以信服。你可能会想，那么，“感觉”是怎么回事呢坦福大学的科学史学家 Jessica Riskin 描述了这个问题的根本难点，正如计算先驱艾伦·图灵和马克斯·纽曼所说：

图灵不满足于“思考”的外在表现，因此开始定义其内涵，他认为自己只能说这是“我脑海中的一种想法”。说到底，确定机器能够思考的唯一方法是“成为机器，并感觉自己在思考”。但这属于唯我论，而不是科学。图灵认为，光看外表，只要人们没有发现某个事物的行为规则，那么它看上去就像是智能的。因此，要想让机器看起来很智能，就必须让内部的某些细节保持不为人知。图灵认为，有关智能内部运作的科学不仅方法论上存在问题，而且本质上也是自相矛盾的，因为面对这样的描述，任何智能都会消失。纽曼表示同意，他拿拉文纳美丽的古代马赛克做了类比。如果你仔细研究这些马赛克，可能就会说：“这些根本就不是真正的画，而是粘在一起的许多彩色的小石头。”同样，智能思维也不过是打了马赛克的简单操作，如果仔细研究，就会发现它只不过是机械的操作。

当然，考虑到我们的感知和认知限制，以及大脑马赛克的超大规模，我们不可能缩小并看到全貌，同时还能看到每一块石头，或者说马赛克中的每一个像素。

对于 LaMDA，这种模型的机械原理并不神秘，而且整个程序只有几百行代码，但是我们不清楚与 LaMDA的交互是如何发生的。就连它的制造者也一知半解，就像人类即便已经掌握了神经科学，但也一样会对彼此感到惊讶一样。

至于像 LaMDA 这样的语言模型脑海中是否也有类似的想法，这个问题就像上述图灵所说，不为人知，也无法寻求答案。如果说这种想法就是意识，那么 LaMDA 之类的模型在维持内部的对话时也会有这种想法。

我们知道的是，当与 LaMDA 交流时，大多数人都会把 LaMDA 当作一个人，自动为其构建一个简化的心理模型，而在这方面 LaMDA 相当具有说服力。就像一个人一样，LaMDA 有时也会让我们感到惊讶，而这种“惊讶”的元素也是我们感受到其人格的原因之一。

我们所说的“自由意志”或“能动性”正是心理模型（我们可以称之为心理学）与物理层面上实际发生的无数活动（我们可以称之为计算）之间的偏差。这也是我们相信自己拥有自由意志的原因。

这种心理模式与现实之间不可逾越的鸿沟也同样会出现在自然界的其他非生物系统中，例如隘口瞬息万变的天气，这可能也是许多古人将这类现象归结为上天的杰作的原因。然而，这样的关系是单向的。

与隘口不同，LaMDA 也在揣测我们，还在揣测我们对它揣测。只不过，这里的“它”是正确的代词吗不是“他”或者“她”/p>

往

期

回

顾

技术

100行python代码制作鞭炮

资讯

算力超越iPhone，芯片堪比Mac

技术

31个好用的Python字符串方法

资讯

游戏圈地震级消息，微软收购动视暴雪

点收藏

点在看

文章知识点与官方知识档案匹配，可进一步学习相关知识OpenCV技能树首页概览11323 人正在系统学习中

来源：AI科技大本营

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！