- 为机器立心(通用人工智能的中国蓝图系列)
- 朱松纯
- 3690字
- 2025-07-03 17:11:29
出路:探索数据背后的因果与价值
下面,我解释一下PG+和PG++这两个关键概念,这也是我们取得跨越式发展、找到出路的关键。
到了2008年,对于图像本身,即PG0阶段的解译已经达到了相当成熟的水平,科学家对图像的探索与创造迎来了一个“百花齐放”的时期。我的前同事、麻省理工学院的安东尼·托拉尔巴(Antonio Torralba)曾创建了一个名为LabelMe的网站,意为“给我打标签”,见图0-15。这个网站允许用户在上面打标签,他们主要关注两类标签:场景类数据(scene category)和物体类数据(object category)。每一个节点其实就是一个任务,这在当时是颇具影响力的一项研究。

图0-15 安东尼·托拉尔巴创建LabelMe网站,用来收集场景和物品数据
注:LabelMe网站主要做的是物体的检测和识别(分类),可以视作PG0中的部分节点,而不是完整的解译。
另一个例子是ImageNet(见图0-16)。作者通过互联网众包的方式对大量图片打标签,他们在图片本身的解译工作中更加看重对物体的分类,大约划分了1 000个类别。这项尝试后来也变得极为流行。

图0-16 2009年,ImageNet对象分类数据集
注:对图片解译的探索已经到了一个瓶颈期,研究只能在PG0框架内进行。
但是,我想强调的是,这些尝试始终是在PG0的框架内进行的。在这个阶段,科学家们并未能超越对图像内容的直接解译。他们对图像的解读,无非是从“场景”、“物体”以及“物体间关系”等不同维度进行努力。但是,若要探究如何迈向通用人工智能的境界,我们就必须从更为深刻的层面进行思考。
当技术到达一个瓶颈期,科学界便会涌现出众多的争论与分歧。这就如同科学家们面对一扇门,想要跨越这扇“通用人工智能”之门,就需要找到正确的钥匙。我认为,想要找到打开“通用人工智能”的正确钥匙,首先需要明白是什么困住了我们当前的步伐,需要认识到当时图片解译这一逻辑的局限性。
第一个局限性是大量物理和社会变量该如何标注的问题。借用物理学概念,我们能够观察到的物质和能量仅占宇宙总质能的5%,其余95%是我们无法观察到的暗物质和暗能量。这个观察与人工智能有相似之处,人工智能的研究对象也包含那些在图像中没有捕捉到的“暗物质”。这些“暗物质”与“暗能量”包括社会现象中的人类意图和思想,它们不同于统计学中的潜在变量,后者是客观的隐藏变量,而“暗物质”与“暗能量”往往是主观的、唯心的、内化于社会环境中的。人类能够感知这些变量,但机器无法识别,更无法直接标注这些内容。
第二个局限性是图像和场景的解译与具体任务高度相关,仅靠标注这种“一刀切”的方法,无法应对复杂多样的任务。任务是无限的,并且与智能体的具身性有关,因此标注变得非常困难。正如马尔所说,“the more you look, the more you see”(看得越多,你看到的就越多)。也就是说,感知到的内容取决于观察者想要做什么,也就是观察者的价值。中国古话更是简明扼要,即“相由心生”。例如,标记一个电话,简单地用一个框将电话框住并打个标签,系统就记录和认定该物体是“电话”,这就是传统大数据驱动范式的做法。但在真实场景中,具体的标注方式取决于任务,比如拨号或接电话时,人需要接触电话的不同位置,接触的位置不同,标注方式也理应不同。传统方法无法满足这种多样化的标注需求。
第三个局限性是我们不仅希望进行简单的标注,更希望实现图像的理解(understanding)。理解是一个极为复杂的过程,不同学者对此有不同的见解。一些学者认为,要实现理解,就需要定义语义,而语义则依赖于任务、因果关系和价值系统等。
计算机视觉中,有3种和理解相关的表达方式(见图0-17):

图0-17 计算机视觉的三种表达方式
· 以视角为中心(view-centered),基于二维图像的外观。
· 以物体为中心(object-centered),即基于几何进入三维场景。
· 以任务为中心(task-centered),即从智能体的角度来理解世界。
认识到现有方法的局限性还不够,还需要提出解决方案,当时就“如何实现通用人工智能”这一问题,领域内不同学者各执一词。这在一定程度上也反映了经验主义和理性主义之间的矛盾。
后来,我提出的“小数据、大任务”范式,获得了学术界的广泛认同。我认为,人工智能研究中存在两种范式,一种是“大数据,小任务”,目前基于深度学习的很多大语言模型即属于此类,其特点是需要极大的数据,但只能完成有限任务,不能对应现实的因果逻辑,无法泛化,类似善于学舌但无法进行认知推理的鹦鹉,你教一只鹦鹉大量内容,它才能说有限的几句话;另一种是“小数据,大任务”,其特点是小数据、无监督,可以泛化,类似能在复杂情境中进行认知推理的乌鸦,仅仅靠示范几次,就能完成一整套任务。
因为此范式的提出,我们还获得了一些项目(项目研究团队见彩图3)。我们的第一个“多大学研究计划”(Multi-University Research Initiative,MURI)项目(2010—2015年)专注于图像解译。通过层层解译图像,我们成功生成了文本,用自然语言描述图像。这一项目成为后来视觉问答(VQA)模型的原型。研究团队在IEEE上发表的论文见彩图4。
第二个MURI项目(2015—2020年)则聚焦于场景理解,涵盖语义解译,并进一步探讨了对物理和心智的理解。我们的主要目标就是通过一系列跨学科交叉研究,将计算机视觉、机器人、机器学习、应用数学、神经科学、统计与应用等各个领域专家聚到一起,探索出一条通用人工智能的统一理论。
我们很快发现,PG0阶段的技术已经不够“智能”了。在现实世界中,人们在观察图像时,其思维往往超越了画面本身,包含了丰富的想象成分。而这些想象的成分并没有在图片中直接体现出来,而是隐含在图片背后,并且能够广泛被人们理解。这对图片解译的意义非常重大。人工智能领域从此开启了PG+时代(图0-18)。

图0-18 AI任务和解译图扩展
注:在原有的PG0基础上,图像解译的维度和空间被拓展,图像解译新时代到来。
在“PG+”的框架中,很多图片中不能肉眼可见的智能“暗物质”蕴含其中。例如物体的功能(functionality)、物理变量(physics)、意图(intention)、因果关系(causality)和价值观(values)。物体之间的受力关系,人的价值观,都不能在像素上被观察到,但价值观和因果关系深植在世界的运行中,是人类社会的“约定俗成”。
在人类看来,图片虽然是一个平面,但是蕴含了超越图片本身的信息量。以“砸核桃”的图片为例(见彩图5),看图的人不难想象到,在这个瞬间发生之前,核桃要被拿起、放下、对准、砸碎,这是一种对时间的感知;榔头的抬起、落下,这是对空间的感知;因为“砸”这个动作的发生,导致核桃碎了,这其中有对因果的感知。
到了PG+阶段,我们觉得还不够,最终延展到了社会智能(social intelligence),它被我们称为PG++,其范围远超出了PG0和PG+。作为社会性动物,人类能够与他人和外部环境进行互动,这种互动会改变我们的认知。在这个过程中,我们会对某些行为或现象进行推理。
如彩图6所示,你在教室里演讲,有人举起了倒计时牌提醒你时间快到了,但你没有看到。这时,一位观众看到你没有注意到,便挥手并指向倒计时牌。你可能会下意识地跟随他的手势,从而看到倒计时牌。这个过程中至少包含了以下推理:“他对我挥手”“他指向了一个方向”“他在提醒我什么”“那是倒计时牌”“我演讲剩下的时间不多了”“我要加快速度了”。因此,这个过程虽然看似简单,实际上却是一个包含复杂推理的社交互动过程。
如彩图7所示,社会智能一般包括信相(belief)、意图(intention)和社会性推理(social reasoning)。人类作为智能体在“看”的过程中,其实在内部进行了许多自上而下的决策。从高层次的认知出发,无论是看图还是分析场景,我们都进行了许多从社会智能到暗物质,再到场景和物体本身的思考。关于PG++的研究目前非常有限,这正是我们进一步探索的动力所在。
我们认为,在这个包含PG0、PG+、PG++的系统中去构建智能,才是把智能的“版图”拼完整了,即除了考虑视觉本身,还要考虑隐藏在背后的、人的内在要素和社会的内在机制,才能真正迈向通用人工智能,才能在时间、空间、因果上构成一个完整的智能体任务体系(见彩图8)。
正如图18中的三个箭头所示,PG+和PG++能够反过来帮助我们进行图像理解,所谓“相”由心生,对外在事物PG0的理解是由人的价值所赋予的。这个自上而下的机制,在目前自下而上的前馈神经网络(bottom-up feedforward)中是没有显示的存在,因为目前已有的神经网络没有对PG+、PG++的表达,故没有向下的指导。反观人类的神经系统,人类大脑皮层中有大量的从高级皮层向低级皮层投射的连接。人类是从价值、心智自上而下去理解这个世界的,这是人类大脑超越了目前统计建模的根本原因。
因此,在构建智能系统时,我们需要重新评估现有的框架,探索如何在AI体系中有效地融合这种自上而下的机制。这意味着不仅要提升机器在感知与识别方面的能力,还要赋予它们对背景、意图和价值的理解能力。这种理解需要机器能够推断出隐藏在表象下更深层次的信息,正如人类在面对复杂社会情境时所做的那样。通过这种整合,AI系统将不仅仅是信息处理器,而是能够参与到动态互动中,理解和预测人类行为和社会动态,从而在更高层次上实现真正的智能。这种转变将使得AI能够在复杂的现实世界中更加有效地行动,满足人类社会不断变化的需求,最终推动我们迈向通用人工智能。
沿着这条通路,我和我的研究团队不断拓展着对视觉大数据、对人工智能、对通用人工智能的边界,完成了对个体意义上通用人工智能体的底层逻辑搭建。在这个从PG0到PG+、再到PG++的框架下,搭建一个可以被广泛使用的数据训练平台与测试标准,自然成为了我和团队的下一个任务。