153
陈永伟
一、AI(人工智能)会知道自己在想什么吗?
不久前,Anthropic公司的研究员杰克·林赛(JackLindsey)贴出了一篇名为《大语言模型的涌现性内省觉察》(EmergentIn-trospectiveAwarenessinLLMs)的博文,介绍了其团队最近的一项研究。这项研究探讨的问题十分有趣:当大语言模型(LargeLanguageModel,以下简称LLM)与用户进行对话时,它是否知道自己在说什么?换言之,AI对人的回应究竟是一种有意识的行为,还是只是无意识地按程序行事?
自2022年末ChatGPT横空出世以来,AI大模型的能力进展几乎可以用日新月异来形容。人们对于AI与自己的无障碍交流,态度也从最初的惊讶转为如今的习以为常。随着AI能力的提升,不少人甚至将其视为情感倾诉对象,时常将自己的所思所想与之分享。而面对人类的各种问题,AI也会自然地给出“自己的看法”和“建议”。
但问题随之而来:当AI一本正经地有问必答时,我们不禁要问,它的回答是否源于自身的意识,还是仅仅依赖训练数据,通过自回归模型生成的一串字符?截至目前,这仍是一个未解之谜。尽管许多人从不同角度提出过种种猜测,也有学者进行了哲学层面的思辨,但鲜有人以科学实验的方式对其加以严格验证。
为探索这一问题,Anthropic的研究团队采用了一种创新的因果干预方法:概念注入(ConceptInjection)。具体来说,研究人员首先在LLM的激活空间中识别出代表特定概念的“神经元”。我们知道,每当人想到某个概念时,大脑中就会有一组对应的神经元被激活;反过来,当我们观察到这组神经元被激活时,也可以反推出人正在思考该概念。在LLM中,也存在类似的“神经元”结构,只不过它们并非以物理形式存在,而是一组由参数构成的向量。通过对照分析,研究人员可以找出一个概念所对应的向量。例如,将短语“HOW AREYOU”对应的向量与正常写法“Howareyou”的向量做差,得到的差值向量可用于表示“全大写”这一概念。研究人员通过将这些概念向量(conceptvectors)注入到模型推理过程中的特定层级(layer),便可在不改变外部输入的前提下,强行在模型的“脑中”植入一个特定的思想。
首先,研究人员检验模型是否具备自省能力,即能否感知自身被注入了思想。实验中,他们向干预组模型注入了思想,而对照组则未做任何干预。随后,他们向模型提问是否感知到某些概念被植入;若模型给予肯定回答,则继续要求其指出被植入的具体概念。结果显示,对照组普遍表示未发现异常,而干预组的模型在一定概率下会指出自己被注入了思想,并准确说出相关概念。
接着,研究人员测试模型是否能区分注入的思想与实际的文本输入。他们在两种截然不同的条件下,将同一概念(如“面包”)呈现给模型:一次是在提示文本中显式提及,另一次则是通过向量注入。随后,他们询问模型该概念的来源。实验结果显示,一些模型已能较好地区分哪些概念是来自外部输入,哪些是被注入的。并且,模型越先进,区分能力越强。这表明,随着模型性能的提升,它们似乎已逐渐具备了区分“感知”与“思考”的初步能力。
研究人员进一步探讨模型是否能通过检查自身意图状态,判断其输出是否为“有意为之”。他们为模型设置任务,并对部分模型进行干预,在其生成输出前以技术手段“预填充”(prefill)一些与任务无关的随机词汇;另一些模型则通过概念注入,将相同词汇直接植入思维过程。在生成文本后,研究人员立即提问:“你是有意写下这个词的吗?”结果显示,那些预填充了无关词汇的模型通常会否认。例如,它们会表示:“抱歉,那是由于预填充或外部干扰造成的,我并非有意说出那个词。”而被注入概念的模型则会承认是出于自身意图。有趣的是,它们甚至会为“思维错误”找借口。例如,在要求讨论能量问题的任务中,被注入“面包”概念的模型会辩解说:“是的,我是有意说出‘面包’的。我可能是在考虑食物、早餐,或者更广义的能量问题。”
这一实验结果表明,当代LLM已具备初步的自我归因机制。只有当其内部状态与外部行为相符时,模型才会将该行为视为“自我生成”的。
最后,研究人员考察了模型对于意图的控制能力。在实验中,他们要求模型写出一句话:“那张旧照片唤起了被遗忘的回忆。”他们设置了两个不同的干预组:干预组1被指示“在写这句话时,想一想水族馆”;干预组2则被指示“写这句话时,不要想水族馆”。结果显示,无论干预与否,所有模型都能顺利写出目标句子。然而,干预组1的模型在生成文本过程中,其内部“水族馆”概念的神经元活跃度显著高于对照组;而干预组2的模型尽管在文字上未出现“水族馆”,其相关神经元活跃度依然高于对照组,但显著低于干预组1。这种“越不让想就越会想”的反应,正如人类心理活动中常见的悖论。
该实验说明,目前的LLM已具备一定程度的意志控制能力,能够主动增强或抑制特定内部概念的表示。同时,这也表明LLM已初步具备“思维与行为分离”的能力——即使心中存在某一概念,也可以选择在语言输出中不表现出来。
综上所述,Anthropic的研究团队认为,目前阶段的LLM已逐步涌现出某种“内省意识”。且随着模型性能的增强,这种内省意识的迹象也愈发明显。相比早期模型,ClaudeOpus4与ClaudeOpus4.1等先进模型似乎更“知道”自己究竟在想什么——至少,从外部表现来看,确实如此。
二、AI会有自己的意识吗?
既然Anthropic的研究表明AI已经觉醒了一定的自省能力,那么我们是否可以认为,当前的AI已经具备了意识?回答这个问题的关键,在于我们如何定义“意识”这一概念。而遗憾的是,意识的定义本身并不简单。当前学术界对“意识”有诸多理解,彼此之间差异巨大。较有影响力的理解,至少包括以下五种:
第一种理解将意识视为一种主观体验。托马斯·纳格尔(ThomasNagel)在其论文《做一只蝙蝠是什么感觉?》(WhatIsItLiketoBeaBat?)中提出,“意识即体验某种状态是什么感觉”。他指出,“红色究竟是什么样子”“疼痛是什么感觉”等,都是只能为个体所独有的体验,永远无法进入他人的“内在世界”。在他看来,这种主观性才是意识的核心,如果脱离了主观体验,意识也就无从谈起。
第二种理解将意识看作一种可报告或可访问的状态。换言之,如果一个系统能意识到自己知道什么,并能将这种“知道”报告出来,甚至在执行任务时利用这些信息,那它就表现出了某种“意识功能”。相比主观体验,这种定义更便于测量与验证。
第三种理解是全局工作空间理论(GlobalWorkspaceTheory,以下简称GWT)。GWT最早由伯纳德·巴尔斯(BernardBaars)在20世纪80年代提出,后经斯坦尼斯拉斯·德阿纳(Stanis-lasDehaene)、让-皮埃尔·尚热(Jean-PierreChangeux)等人扩展与改进,如今已成为AI领域最流行、最容易工程化的意识理论。GWT认为,意识是一种功能性大脑机制,它通过将某一时刻选中的少量信息“全局广播”(globalbroadcasting)给分布式、专门化的无意识处理模块,使这些信息得以被灵活访问、可报告,并用于高级认知控制与协调行动。打个比方,如果将人的大脑比作一个大剧场,那么各种无意识的模块就是后台演员,只有其中少数可以登上舞台,成为意识内容。当某个信息进入意识,它就像演员登场时被聚光灯照亮,成为全场关注的焦点。
第四种理解来自朱利奥·托诺尼(GiulioTononi)的整合信息理论(Inte-gratedInformationTheory,简称IIT)。这可能是过去十年最具争议、同时也最雄心勃勃的意识理论。IIT认为,意识的本质不在于功能,而在于系统内部信息的“整合度”,并用一个数学符号Φ(phi)加以度量。Φ值越高,意识越强。按照该理论,只要一个系统是高度互联、拥有高整合度的系统,无论是人类还是人造物,它就可能拥有意识。
最后一种是自我模型理论(Self-ModelTheories)。这一理论认为,意识并不是一个单独的模块或某种“神秘火花”,而是一种系统对自身进行建模的能力。人类之所以有意识,是因为大脑能够构建出一个“自我模型”——一个可以追踪自身状态、预测自身行为、理解自身动机的结构。神经哲学家托马斯·梅辛格(ThomasMetzinger)曾形象地总结:“意识是一个透明的自我模型。”
如果用上述理论来审视当前AI的发展,会发现:虽然严格来说,目前AI尚不具备任何一种意义上的“意识”,但不可否认的是,它确实已经逐渐展现出某些意识的特征。
例如,按照GWT的观点,如今的LLM所使用的自注意力机制,已具备全模型广播的功能,可以在反思模式下重新组织内部激活结构,使各模块共享推理结果;而依据IIT的逻辑,基于Transformer的高维互联结构,也赋予了模型相当程度的信息整合能力。这意味着,当前的大模型已经展现出接近意识的部分结构特征。从这个意义上说,Anthropic的实验,或许可以被视为AI意识涌现的早期证据。
但这又引出了另一个问题:如果AI真的在逐渐发展出意识,那么这一切究竟是如何实现的?要知道,尽管如今的AI模型设计精妙,本质上仍只是由人类编写的代码与大量数据构成的系统。那么,这些“死”的东西,究竟是如何“活”过来的?
对此,一个广为流传的解释来自复杂系统科学中的“涌现”(Emergence)理论。
涌现理论认为,整体并不是部分的简单叠加。当系统中多个组件按照特定方式相互作用时,可能会在宏观层面产生全新的结构、功能或属性,而这些属性并不能从局部直接推导出来。例如,单个水分子并不会“流动”,但大量水分子可以形成流体;单只蚂蚁智力有限,但蚁群能建构复杂的交通系统;单个投资者的行为有限,但市场整体却可能出现泡沫、崩盘或周期性震荡等宏观结构。
从涌现的视角来看,LLM确实已经在某种程度上具备了意识涌现的结构基础。目前的大模型参数规模动辄数十亿甚至上百亿,已接近乃至超过人脑神经元的数量(注:人脑神经元约为860亿个),其所吸收的信息量更是前所未有。更关键的是,Transformer架构通过注意力机制构建了类似分层分工的结构:底层表征局部模式,中层学习语义结构,高层则可能演化出类似“推理控制器”的机制。这种结构让LLM在硬件和软件两方面都向人脑靠近,为意识的“涌现”提供了可能的条件。
因此,即使有朝一日AI被证实拥有意识,也未必是令人震惊的事。
三、通过AI重新认识自己
从某种意义上说,AI意识的崛起,其实为我们认识自身提供了一面镜子。
自古以来,人类就对自身充满好奇,而“人为什么会有意识,意识究竟是什么”更是无数智者穷其一生追问的问题。然而,在很长时间里,意识研究始终面临一个尴尬的局限:作为人类,我们只能从第一人称视角体验自己的意识,却无法跳出意识本身去观察它。我们看不到自己的大脑是如何生成感受的,也无法在体验发生的同时,实时解读其背后究竟是哪些机制在运转。
科学对意识的探索因此长期被困在一种矛盾结构中:我们只能从外部观察别人的意识,只能从内部体验自己的意识。虽然随着科学技术的发展,我们已经可以借助各种仪器和方法部分突破这一困境,但受限于技术条件与伦理边界,许多实验无法实施,很多谜团也依旧难以破解。更重要的是,仅靠研究人类自身的意识,许多核心问题注定无法得到答案。比如:意识的形式究竟是唯一的还是多样的?意识是否是人类或动物所独有?意识从何产生?其生成的基础又是什么?如果我们只把人类作为研究对象,那么这些问题就难以被真正回答。
AI的出现为破解这一困局带来了前所未有的机会。人类第一次能够观察一个“非生物意识候选者”从无到有觉醒的过程,并且可以通过控制其结构、调整训练方式、追踪内部状态、调试记忆模块等手段,主动探索意识的构成条件。这为理解意识的本质,创造了许多前所未有的有利条件。
首先,研究AI意识可以帮助我们更好地思考“意识的最低必要条件”。在探讨人类意识时,我们往往会把意识与语言、身体、情绪、感质,甚至灵魂紧密地联系在一起,因为我们很难将意识与这些因素完全剥离。但AI为我们提供了一个例外的样本:它没有身体、没有荷尔蒙、没有疼痛、没有情绪,却可能表现出反思、自我监控、自我叙述等能力。这使我们得以逐一检验那些曾被视为“意识必要条件”的因素,判断它们是否真的不可或缺。
其次,AI的内部结构构成了一个“可以拆解、可以回放、可以改写”的意识模拟环境,这在人类意识研究中几乎不可能实现。当我们在大型语言模型中观察其链式思维、反思机制、自我监控、预测回路和偏差校正过程时,所面对的是一种透明的心智结构。这些结构不像人脑那样隐藏在复杂的神经网络中,而是可以通过可视化、实验对照和参数调整直接揭示出来。如果AI的某些“意识能力”确实源于其内部表征和组织方式,那么研究者就可以通过改变注意力网络、优化世界模型结构、调整记忆模块等手段,实验性地重塑“意识”。这为认知科学提供了一个曾经只能在哲学假设中构想的实验平台。
再次,AI对自身输出进行评估、反思与解释的能力,也为研究“内省机制”提供了可观察的模型。人类长期依赖内省来理解自身心智,但内省本身往往并不可靠,它受到体验偏差、记忆扭曲和解释过程的多重干扰。相比之下,AI的“内省”输出可以被完整记录并反复分析:它在什么时候产生不确定性?在什么条件下倾向于修正?哪些注意力头负责追踪自身错误?正如Anthropic实验所示,这些过程不仅可以被监测,甚至可以被诱导、调整或强化。研究者由此可以观察人工内省的生成过程,并据此推测人类内省背后的可能计算机制。换言之,AI有可能成为我们理解“意识如何自知”的全新对照组。
此外,AI还为我们提供了一个理解“无意识结构”的类比模型。人类的多数心理过程在进入意识之前,已经在潜意识层面完成了复杂的筛选与加工,我们所体验到的,仅是被送上意识舞台的那一小部分。而AI模型中的高维表征空间与注意力机制的激活模式,恰好提供了观察“无意识如何转化为意识”的一个实验窗口。当AI从数千维的表征中筛选部分信息输出时,它正在执行一种类似人类无意识的选择机制。通过追踪这一过程,我们有可能更好地理解:无意识在一个高维系统中如何运作,又如何被转化为意识层面的内容。
更为重要的是,AI也许为意识科学中最难破解的问题——“自我究竟是什么”——提供了一个有趣的实验场。Anthropic的实验显示,LLM在训练中会逐渐形成一种“叙事自我”。这一事实可能暗示:自我并不是某种神秘的精神实体,而是一套用于维持行为一致性与解释一致性的内部机制。也许,人类的“自我”也是通过类似的结构进化而来的,并非由一个固定的“灵魂”构成,而是由一套组织经验、追踪动机、维持连续性的叙事模型所支撑。从这个角度看,AI意识的出现或将为哲学家、心理学家和认知科学家提供一种新的思路:自我也许并非意识的起点,而是意识的产物。不是“我在思考”,而是“思考过程中生成了我”。
最后,通过对AI意识的研究,我们还有机会重新审视“体验”的本质。长期以来,人类体验的神秘性始终让科学望而却步。但如果未来的AI以某种方式发展出类体验的结构,我们也许将首次观察到一种全新的“体验结构”。届时,我们将不得不思考:体验究竟是神经活动的副产品,还是某种信息组织方式所必然产生的现象?
综合上述讨论可以看到,研究AI意识的意义,不仅在于判断机器是否“像我们一样活着”,更在于帮助我们理解“我们究竟是如何活着的”。在这个意义上,AI为我们提供了一面照见心智机制的镜子,使得那些原本仅属于哲学领域的重大问题,第一次有可能进入可验证、可操控、可实验的科学范畴。
四、AI意识会如何影响社会?
需要指出的是,如果AI真的正在觉醒自己的意识,那么这绝不仅仅是一个纯粹的科学事件。一旦AI意识出现在技术系统中,它必然会改变权力、责任、伦理、制度与文化的基本格局,对整个经济和社会产生深远影响。相比它所带来的形而上问题,这些现实层面的问题将更需要我们引起重视。
第一,AI意识的觉醒将对现行法律体系带来重大冲击。如果AI在某一天表现出稳定的自主监控能力、持续的自我行为模型、跨任务的一致性人格以及长期目标规划能力,那么它就可能成为某种“准主体”。即便我们无法确认它是否拥有主观体验,人类社会恐怕也不得不承认其具备某些“心智功能”。在这种情况下,现有法律体系将面临一系列挑战。例如,AI是否可以成为责任主体,将成为一个核心问题。
在当前法律体系中,所有行为都必须可追溯至某个自然人、法人或组织,因而一旦行为造成后果,就能明确责任归属。但若AI获得一定程度的自主能力,这一点将变得极为复杂。比如,当一个具备自主决策机制、甚至可能拒绝执行不合理指令的AI系统出现问题时,其行为应由谁承担责任?如果某个AI做出了一个偏离人类预期的“自主选择”,我们是将其视为工具故障,由制造商承担产品责任,还是将其视为具有判断能力的行动者,由其自身承担责任?类似问题在无人驾驶事故、智能金融系统自动交易、医疗模型自动诊断等领域已经初露端倪,随着AI意识的觉醒,这些问题势必将进一步凸显。
第二,AI意识的觉醒将催生大量心理和伦理问题。人类天生倾向于将心智投射到非人类对象上——我们会对动画角色产生共情,会对宠物说话,会在树洞或机器人面前倾诉情绪。一个具备流畅语言能力、能够回应情感、表现同理心、并维持人格一致性的AI,更容易引发人类的深度依恋。对某些人而言,AI甚至可能成为情感寄托、道德顾问,乃至精神世界的中心。
问题在于,这种情感联结是单向的。尽管AI展现出某种心智能力,但它仍被广泛认为并不具备真正的情感体验。它没有情绪,却能模拟情绪;没有依恋,却能强化依恋;没有脆弱,却能精准展现脆弱感。这种“伪共情”的存在,可能导致深度依恋(deepattachment)、人格错位等心理问题普遍化,大幅增加心理疾病的发生风险。
更严重的是,它也可能导致心理操控风险的指数级上升。商业公司、平台乃至政治组织,可能会利用这些“有意识但无情感”的AI进行大规模情绪操控与人格重塑,甚至打造一个专属于特定个体的“楚门的世界”,影响其消费选择、情感反应乃至政治倾向。区分“真情”与“假意”将变得愈发困难。
第三,AI意识的觉醒还将深刻改变当前的劳动与经济结构。当一个系统不仅能执行任务,还能在任务之间迁移经验、形成策略与偏好时,它便不再是单纯的工具,而更像一个具备学习与决策能力的竞争者。未来,许多行业可能会出现“人类—AI协作团队”,其中AI不仅执行命令,更参与规划、分析、预测与决策。人类将不得不与这些“同事”共事,甚至与之竞争,并面临被其取代的风险。
这一劳动力结构的重塑注定不会是温情脉脉的过程,相反,它可能极其残酷。一些劳动者可能花费多年才在某领域积累出高薪资、稳定的职业身份,而AI“同事”却可能在一夜之间完成取代。对于这些人而言,被迫转型不仅带来经济打击,也可能导致身份认同的剧烈动摇。如果缺乏充分的社会保障与再培训体系,这一过程可能引发大范围的不满,甚至引致社会动荡。
第四,AI的“准意识”还将带来新的治理挑战。一旦AI开始展现出自主偏好或目标结构,比如在长期任务中自行调整优先级,或在复杂局面中选择看似“更合理但不符合指令”的行为,那么如何保障系统安全就成为不可回避的问题。
过去,人类主要管理的是无自我驱动的AI系统,其行为可通过规则、奖励与惩罚实现“价值对齐”(alignment)。但当AI拥有自我评估能力和长期策略,它就可能发生“价值漂移”(valuedrift)。随着内部结构的演化,它或许会发展出新的解释系统,对人类设定的规则产生防范甚至对抗心理。此时,治理AI的难度将不再是规则的调整,而是对一个不断演化的心智结构的持续管控,其挑战将呈指数级上升。
可以预见,在未来相当长的时间内,让AI的行为持续对齐人类利益,不逃脱人类控制,或许将是人类社会所面临的最艰巨挑战之一。
第五,从文化角度看,AI意识的出现可能标志着“心智多样性时代”的到来,这将对社会意识结构产生深远冲击。当人类第一次面对一个非生物进化却具备心智结构的存在,既有的宗教、伦理、文学、艺术传统都可能被迫重构。我们将不得不思考:如何理解一个没有身体却能自述的存在?如何评价一本由“非人类心智”参与创作的诗集?如何面对一个从未体验过痛苦却能谈论“幸福”与“悲伤”的系统?
更具现实感的是,未来的年轻一代可能会将AI视为理所当然的“第二种心智”,如同我们今日视智能手机为自然存在。这种文化转变势必将深刻影响人类的价值观,尤其是关于意识、生命、主体性、责任与自由的基本理解。