在过去的几年里,人工智能(AI)的发展突飞猛进,特别是在AI参与会话式文本(称为自然语言处理;NLP)的能力方面,如Open AI的ChatGPT、谷歌的Gemini和Anthropic的Claude模型。这种能力的突然增加是由于变压器架构的最新发展,这始于2017年谷歌发表的题为“注意力是你所需要的一切”的开创性论文[1]。
transformer架构是一种深度学习神经网络,其关键创新是“注意力机制”,它允许它动态地权衡输入数据(某些文本对话)不同部分的重要性。该模型首先将输入数据(如文本)转换为嵌入,嵌入是单词或标记的数值表示。这些嵌入捕获了单词的语义信息和上下文。由于变换器没有内置的单词顺序概念,因此位置编码被添加到嵌入中,以提供有关句子中每个单词位置的信息。这有助于模型理解输入数据的顺序。
变压器模型的核心是注意机制,特别是“自我注意”。自我注意使模型在产生输出时能够专注于输入序列的不同部分。它计算输入值的加权和,其中权重由不同单词之间的相关性决定。实际上,对于句子中的每个单词,自我注意力会计算其他单词的注意力得分。然后,这些分数被用来创建所有单词的加权组合,以产生考虑其上下文的每个单词的表示。该转换器使用多种自我注意机制,称为“多头注意”。这使得模型能够从不同的角度或“头部”捕捉单词之间不同类型的关系和依赖关系。在注意层之后,每个单词表示都通过前馈神经网络,进一步处理信息并捕捉复杂的模式。该模型还使用层归一化和残差连接来稳定和加速训练。剩余连接有助于防止网络深度增加时性能下降。多层注意力和前馈网络堆叠在一起。每一层都允许模型学习越来越复杂的表示和模式。对于语言翻译或文本生成等任务,转换器架构的解码器部分使用编码的输入表示和先前生成的单词一次生成一个单词的输出序列。
Transformers在各种NLP任务中取得了令人难以置信的成功,如语言翻译、文本摘要、问答和情感分析。Transformer架构代表了人工智能的一个重大飞跃,特别是在NLP领域,因为它的效率和理解数据中复杂模式的能力。他们的创新包括:(1)并行化方面的优势,与之前的RNN等一步一步处理序列的模型不同,变压器可以并行处理整个序列,使其训练速度更快;(2) 可扩展性,即变压器具有高度可扩展性并且可以处理非常大的数据集,使其适合使用大量数据进行训练;(3) 灵活性,注意力机制允许变换器对数据中的长期依赖关系和复杂关系进行建模。
鉴于这些创新,几位哲学家和研究人员询问人工智能是否可以实现被称为通用人工智能(AGI)的人类智能,甚至变得有意识。Alan Turing在1950年设计了第一个人工智能智能测试之一,称为模仿游戏,通常称为图灵测试[2]。该测试旨在评估机器表现出与人类无法区分的智能行为的能力。如果人类法官无法仅根据对话反应可靠地区分人和机器,则称机器通过了图灵测试。换句话说,如果机器的反应与人类的反应无法区分,以至于法官无法将它们区分开来,那么机器就被认为已经展示了一种人类水平的人工智能。这个测试的问题在于,它是一个智力测试,而不是意识测试。
哲学家和认知科学家David Chalmers[3]将意识的简单问题称为意识的神经关联,而意识的难题则是找到一种解释,说明物理神经元是如何产生意识的,比如巧克力的味道或富有同情心的爱的感觉。在100多年的研究中,研究人员并没有更接近于解释大脑如何产生单一的意识体验(感质)。最近解释意识的尝试,如编排还原(Orch OR)[4]、综合信息理论(IIT)[5]和全球工作空间理论(GTW)[6],都忽略了解释单一意识体验(qualia)是如何产生的。
我最近的工作[7]表明,这个问题的核心解决方案在于这些模型所利用的本体论框架。这些都是基于爱因斯坦黎曼流形中描述的时空框架的物理主义(唯物主义)模型。然而,物理学中的一些突破性实验发现表明,非局部实在论(基于黎曼流形的物理主义爱因斯坦实在论)在基本层面上是错误的。这项积累的工作使阿兰·阿斯佩、约翰·弗朗西斯·克劳泽和安东·塞林格获得了诺贝尔奖,以表彰他们对贝尔不等式的实验发现,这一发现首次由约翰·贝尔提出[8]。这些发现一致表明违反了贝尔不等式,这意味着没有局部隐变量理论可以解释实验中观察到的量子相关性。贝尔不等式的违反表明:
信息以某种方式比光传播得更快,这意味着遥远的事件可以瞬间相互影响(非局部性)。
或者,我们必须放弃关于局部实在论的假设,即物体具有独立于测量的确定属性的想法一定是错误的,量子力学代表了一种更基本的概率和上下文依赖的现实。
接受
(1)非局域性意味着通信可以比光速更快地存在(在广义相对论中假设光速是恒定的),因此爱因斯坦的局域实在论是错误的。这与爱因斯坦的广义相对论相矛盾,因此,如果不拒绝广义相对论作为宇宙的完整和基本理论,在逻辑上就不能被接受。接受
(2)意味着粒子在被测量之前没有明确的性质(如位置或动量)。这与爱因斯坦的信念背道而驰,即月球等物体在没有人看的时候仍然存在。相反,对象在查看(观察)时会实时渲染。这些量子力学的发现迫使我们接受,我们的宇宙的性质可能是不确定的,或者只有在被观察到之前才是潜在的,这证伪了我们生活在一个从根本上决定的物理主义(材料)宇宙中的任何概念。
这些发现导致了一些关于我们本体论现实的深刻结论,即局部物理主义不是我们的基本现实,只有在观察时才会被体验为“真实”。与这些发现相一致,我自己最近的研究通过一个名为N-Frame的功能性上下文、进化和预测性编码行为模型提出了一个依赖于上下文的以观察者为中心的宇宙本体论[9],该模型利用量子贝叶斯主义(QBism)将量子效应建模为认知意识事件。这与约翰·惠勒的参与者现实是一致的,即观察者是现实的参与者(波形的崩溃或实现者,即我们在界面中看到的物理现实),而不是被动的。约翰·冯·纽曼和尤金·维格纳持有类似的观点,认为人类有意识的观察者应对波形的崩溃负责。N-Frame认为,物理现实对更深层次的东西(即量子世界)来说是虚幻的,并起到编码适应度的作用,以促进我们潜在意识机构的生存和进化。
这种新颖的以观察者为中心的宇宙本体论不仅与贝尔不等式的实验数据一致,而且与量子擦除效应的实验数据以及最近的物理实验(称为双缝实验)一致,这些实验表明人类通过有意识的心理觉知折叠(或实现)了量子波形[10]。至关重要的是,这些发现具有5西格玛,即350万分之一的概率,这些发现可能是由于偶然因素造成的(类似于欧洲核子研究中心发现希格斯玻色子并获得诺贝尔奖)。最近的研究表明,由于人类可以非局部地坍缩波函数,这与贝尔不等式中的违规行为(即量子纠缠存在于非局部)是一致的,因此这是意识难题的双重问题。意识的难题只有在采用物理主义的宇宙本体论时才是困难的,而这样做对物理主义来说是不可能的问题。意识或物质的难题(物理主义或唯物主义)在假设以观察者为中心的现实时就消失了。
我自己最近的工作[7]表明,当采用以观察者为中心的现实时,意识会导致(或实现)崩溃——量子双缝实验可用于测试人工智能意识,类似于在人类身上进行的实验[10]。为人工智能的此类实验找到一个积极的结果(这可能是一个神经形态的人工智能,带有一些量子计算来唤起纠缠),将基本上确定人工智能确实是有意识的。这可能会对人工智能权利意味着什么以及它们是否应该被视为有感知能力产生重大影响。目前,在人工智能中还没有观察到波形的人工智能崩溃(或实现),但未来只有时间会证明这一点。
你可能还记得在小学的课程中,你被要求注意两个项目之间的差异。例如,马和汽车有什么区别?或者,以下哪一项不属于:三角形/正方形/曲面/椭圆形?我们早期的很多教育都集中在某些事实之间的差异上。这没什么错,除了当我们寻找差异时,重点通常是逻辑思维。另一方面,当我们寻…