- 为机器立心(通用人工智能的中国蓝图系列)
- 朱松纯
- 5399字
- 2025-07-03 17:11:31
新标:全球首个AGI评级测试标准
2024年,我们推出了全球首个通用智能体——通通,并入选了中关村论坛重大科技成果(见图0-19)。在如今众多只考虑“机器性”的成果中,通通显得更具“人性”。她具备像人类一样的物理常识和社会常识,在价值驱动下,通通不仅能完成无限任务,还可以自主定义任务。这是通用智能的关键,也是人类自儿童阶段就已开始发展的能力。通通具有完备的PG0,PG+,PG++的表达与构建能力。

图0-19 全球首个通用智能人“通通”入选中关村论坛重大科技成果
通通就像一个标杆,一棵通用人工智能的“小树”诞生了。想真正做到“俯瞰一片林”,必须将这一套标准形成一个平台,这个平台能够实现对通用智能体的评级、测试。于是我们推出了全球首个通用人工智能测试评级标准与平台——通智测试(Tong Test)。通智测试参考了人类婴幼儿发育的测试标准,研究总结出一种基于能力(U系统)和价值(V系统)的“UV通用人工智能评测”方法,并开发了复杂动态的物理场景(模拟仿真)和社会交互(混合现实)的测试平台。
这个测试平台的建立过程也分为几个阶段。2016年到2019年,为了将对智能体的训练做到充分,我开始带领团队搭建物理逼真的仿真场景(见图0-20)。

图0-20 2016到2019年,我们将丰富数据导入VR环境,用来搭建虚拟场景
要实现无限接近真实世界的程度,就意味着系统要有足够多、足够复杂的场景。所以我们在VR场景中批量导入了丰富的物体和场景数据,并让智能体与虚拟世界相互作用,记录智能体在虚拟环境中的表现,并通过外接设备观测实时情况。除了场景,我们还通过语言评估系统和以任务为导向的模拟器,构建对智能体的测试(见图0-21)。海量任务目标与场景、全流程记录智能体与环境互动,随时联通虚拟与现实、拥有语言评估与任务导向的模拟环境——这可以说是通智测试的雏形。

图0-21 运用语言评估系统和以任务为导向的模拟器,构建对智能体的测试
截至目前,这个系统已经能够实现不同场景的组合和搭建,与人类通过工作和学习获得能力与认知上的进步一样,任何智能体到这个环境里,都要接受任务挑战,平台可以搭建出逼真的室内场景和室外场景,包括写字楼、社区、学校等复杂场景,供智能体测试使用(见图0-22)。

图0-22 在2024年中关村通用人工智能论坛上发布的通智测试
外部平台搭建好之后,要考虑通智测试评价体系的内核,也就是“V系统”和“U系统”两大“支柱”如何构建的问题。U系统是势能函数,包含了智能体所掌握的客观物理定律、社会规范;V系统包含了智能体的价值函数集合。UV双系统的具体内容详见《为人文赋理》。
人工智能,“智”字在前。人们常说,“智慧不凭年龄凭心灵”,“智”要从心灵出发,从价值体系出发。实验表明,价值体系是人类作为智能体与生俱来的,尤其在不受国籍、种族、文化背景影响的婴幼儿身上体现得最为明显。例如,3-4个月大的婴儿已经具备因果推理,能够识别魔术,即不满足因果常识的物理现象。18个月大的婴儿已经能够开始识别出陌生人的意图并开始主动帮助。
儿童研究还发现,人类还能进化出大量的价值判断。比如,12个月的婴儿看到了两个成人在分配玩具,会倾向于选择分配“公平”的成人一起玩。8~12个月大的婴儿对于相似族裔的偏好要胜过对“公平”这一价值的偏好。也就是说,这个阶段的婴儿会在公平的成人和与自己族裔相同的成人之间选择相同族裔者。
所以在构建“V系统”时,通智测试充分考虑人类价值观发展的视角,采用了分级分层的价值体系。一些经典的心理学理论为通智测试具体评价指标的构建提供了有益延展。例如马斯洛和施瓦茨的理论就带来了启示。“需求层次理论”将人的需求从低到高分为生理需求、安全需求、社交需求、尊重需求和自我实现需求。人们通常先满足低层次需求,再追求高层次需求。施瓦茨提出了“人类基本价值观理论”,他认为价值观是一种有关什么是“值得的”观念,是人们对事物重要性的评价标准。
在“通智测试”的视角中,通用智能体应该有从基础到先进的价值体系。这个价值体系中有最基础的生理需求、对安全的需求,还有进一步的社交需求,比如对他人的关怀、对自己的关怀,还有尊重需求和自我实现的高阶价值,例如对人类社会、国家、社会等共同利益的关注等。
所以在通智测试中,价值系统被划分为5个价值层级,即基础自我价值、高级自我价值、多智能体交互价值、基础社会价值和高级社会价值,涵盖了从生理和生存需要,到情感和社会价值,再到群体价值,并且提出了每个层级中的关键点。
说完了“智”,再来说“能”。
当我们评价智能体到底是“小孩”还是“大人”时,必须首先考虑他的能力是否达到一定标准。比如普遍来说,成年人一定比幼儿跑得快、成年人的语言能力一定优于幼儿,这非常好理解。通智测试的具体能力指标,即“U系统”构建了一个以视觉、语言、认知、运动和学习5个主要能力为维度的评估框架,每个维度又设计分别对应5个不同的能力层级,并在各层级中详细定义了每个维度的任务(见图0-23)。能力层级越高,任务的复杂程度越高,层级所代表的能力空间就越大,能力空间所涵盖的、对现实世界规律的理解越深入、表征越广泛。

图0-23 通智测试的能力测评系统
注:根据发展心理学理论和人工智能发展规律,通智测试有L1-L5五级评分标准,难度逐级增加。
资料来源:Tong Test: Evaluating Artificial General Intelligence Through Dynamic Embodied Physical and Social Interactions, Peng et al., 2024, Engineering。
举个例子,评估智能体语言能力时,第一层级就是理解词语,第五层级就需要实现推理和理解多人、多智能体交互;评估运动能力时,第一层级需要智能体控制自身运动,到了第五层级就包括社会交互与价值流动。这只是一个简单说明,实际上,在《通用人工智能:标准、评级、测试与架构》中,共设置了86项能力测试,并进一步衍生出更大量的任务测试,累计任务指标多达上百项。
在这个平台中,U系统和V系统不是单独运行的,它们之间有着紧密的关系。智能体从内在价值出发,不断驱动外在的能力与外部产生交互,价值驱动能力完成任务、做出决策,展现出自主行为。能力与环境的交互又反过来影响和构建价值体系的形成。这与真实世界的人类无异:当孩子希望被爱、被呵护,“价值”体系就会促使他们伸开双臂去拥抱家人,家人的拥抱反过来又会给孩子被承认、被尊重的体验。价值与能力相互驱动,相互塑造,这是我们日常生活中真实可感的“智能”,也是让智能体测试更有说服力的“金标准”。
至此,通智测试完成了它“价值”与“能力”的“双驱动评价体系”(见图0-24)。这个体系将能力空间和价值空间进行联合考虑,设置了5个通智测试等级(Level 1~5),进而形成了一套基于能力与价值双系统的通智测试评级理论。它建立的任务强调实用性、可测量性及与人类智能发展的一致性,成为挑战传统理论的范式,弥补了传统理论缺陷的典范。智能体能够在通智测试中通过完成任务进行测评,能完成的难度越高,最终就能够实现U(能力)和V(价值)越高的融合程度,就越接近真正的通用智能体。

图0-24 通智测试的“双驱动评价体系”
注:通智测试UV评价系统,两个系统又各自分5个评价等级,构建了完整的“双驱动评价体系”。
如果站在智能体进化的角度,我们不难看到一种必然的结论:随着灵长类动物的脑容量不断变大,其智能程度也会更高,这些是通过正向基因选择、谱系快速演化、基因家族不断扩张的结果。为了解释进化这一过程,我们提出了智能的CUV系统,这一系统由认知架构(C)、势能函数(U)和价值函数(V)组成。在这个框架中,C代表智能体的认知架构,它模拟大脑中的思维和决策过程;U函数涵盖了智能体对环境的理解,包括物理规律和社会规范;而V函数定义了智能体的目标和动机。CUV系统能够通过这些U和V函数来表征智能体的行为,模仿人类的智能思维和行动。
在CUV系统中,U函数形成了一个层次结构,从基础的运动、视觉感知、语言理解等,到更高级的社交技能,如理解他人的意图和情绪。价值函数V则影响智能体的行动方向和目的,类似于生物体在进化过程中形成的行为驱动力。通过不断最大化累积奖励并调整U和V函数,智能体能够实现个性化和灵活的学习方法。CUV系统提供了一种模拟智能的方法,决定了智能体位于智能谱系的哪个位置。
人类的运动能力比不上猿猴等灵长类动物,却能成为智能体的顶端生物,这是因为综合来看,人类有着更加高级的CUV系统。如果需要完成“能对所有智能体进行测试”这么一个理想目标,那么就需要在认知架构、能力系统、价值系统上同时满足“超越所有现存智能体最高水平”这个条件,找到所有智能体的“公倍数”(见彩图9)。通智测试就是在这个理论框架下进行构建的。
通智测试最终会实现对包括人类在内的、一切智能体的评级和测试,这也是实现“与人对齐”这个愿景的时刻。
目前,构建在这样一套底层逻辑上的通智测试,有什么颠覆式的创新呢?可以简单概述为三个基本特征:无限任务、自主生成任务、价值驱动并与人类对齐。
第一,无限任务指的是在通智测试中,任务的数量是无限的。我认为,一个智能体需要完成无穷无尽的任务才能称之为“通用”,真正的标准应该是在复杂环境中处理无限多项没有预先设定的任务。在以往传统大模型的设计中,智能体任务是由专一任务转向多任务处理的,任务的数量是“叠加”起来的,这种叠加的方式带来一个问题:要叠加到多少任务,才算真正的“通用人工智能”呢?如果100项任务算是“通用人工智能”,那么出现第101项任务怎么办?所以任务的数量不能是绝对数,而是要满足任务“无限”涌现才可以,只有像通智测试一样,任务是无限的,才能够实现真正优秀的泛化能力。
第二,自主生成任务。人们憧憬着有朝一日智能体能够很好地融入人类日常生活,这就需要智能体可以根据外部环境事件和自我内在状态的变化,随时随地自动产生各种各样的任务,这也意味着在投入实际场景前,智能体能够应对和现实生活一样的随机要求。但是,如果智能体的运行完全依赖人类预设的任务目标,即便拥有海量训练数据和全面规则,仍然无法很好地应对未经训练的特殊情况和意外事件。例如,当孩子正拿着一个对他来说颇具危险性的小物件,没有经受过该物件数据训练的智能体能否自主识别出该任务的不合理之处并形成保护孩子安全的新任务?
为了应对这种情况,智能体需要具备自主定义任务的能力。当智能体处于开放环境时,它需要依据自身价值判断并自主设定任务,甚至可以进一步通过实际观察和体验来学习,逐步累积经验并塑造认知。这是通智测试的第二个特点。
第三,价值驱动和价值对齐。通智测试的价值体系(V系统)是它的核心组成部分。为了让智能体自主生成并完成符合人类需求的任务,通智测试融入了人类的基本价值观,使智能体有能力学习和理解人类的价值偏好,并最终实现与人类价值的对齐。这意味着通智测试不但从功能上完成对智能体的测试和评级,同时还能保证被测试的智能体有足够的、能通过人类社会安全“红线”的能力。
无限任务、自主生成任务、价值驱动与对齐,是通智测试的3个致胜“法宝”。无论通智测试平台场景如何再改进,它面向用户的体验如何再提升,这3个基本特征都是它不变的“底色”和准则,也是它能推动从数据驱动向任务驱动的转向、实现真正意义上通用人工智能的核心原因。
这些创新点对通用人工智能领域意义非凡,也让通智测试具有明显的优势(见图0-25)。

图0-25 通智测试与其他AI测试对比优势
其他智能体测试往往有以下缺点:
· 任务复杂度不足,主要基于在特殊设计的环境中的对话/图像/操作,而没有在人类世界中复制物理和社会互动。
· 主观偏见与缺乏量化。不同的人有不同的主观判断标准,缺乏对不同智能体之间的量化评估。
· 缺乏价值测试,只有能力测试。
· 缺乏对自主任务生成的测试,只有人类指定的任务。
通智测试则采取了一种全新的策略,为通用智能体的实现设计了一套顶层测试方案。通智测试的设计全面考虑了通用人工智能的关键特征,填补了通用人工智能评测的空白。这不但有助于指导研究者为通用人工智能构建综合的设计架构与完善的评估体系,而且能够为人工智能的安全治理问题提供积极的解决方案。
从实用性来说,在通智测试标准化、定量化和客观化的评估体系下,政府可针对不同水平的智能体制定不同的监管准入机制,这对于规范化通用人工智能的发展具有重要参考意义。另外,通智测试的评级机制还可以为通用人工智能的科研路径提供明晰、可靠的路线图,协助相关领域的研究者找准科研道路上的前进方向。
构建通智测试平台,形成全球首个AGI评级测试标准体系,就是对我开头提到的那几个问题的“答卷”。
· 到底多“通用”才算是通用人工智能?
能力与价值都与人类对齐。这意味着AGI不仅需要在多种环境和任务中表现出高度的适应性和灵活性,还需要在道德和伦理上与人类的价值观保持一致。AGI应该能够理解并参与复杂的社交互动、解决广泛的实际问题,同时确保其行为和决策不会对人类和社会产生负面影响。只有在能力和价值观双重对齐的情况下,AGI才能被认为是真正的“通用”。
· 通用人工智能需要完成多少项任务?
无限任务。这意味着AGI应该具备处理各种新颖和未预见任务的能力。与特定任务或领域的狭义人工智能不同,AGI需要能够在不同的情境下理解和执行从未遇到过的任务。这种无限任务的能力要求AGI不仅要具备广泛的知识和技能,还需要具备学习和推理的能力,以便动态地适应和处理新挑战。
· 如何评估智能体的进步?
能力与价值双驱动,分级评估。评估智能体的进步不仅需要测试其在不同任务和情境中的能力,还需要考虑其决策和行为是否符合人类社会的价值观。能力驱动的评估可以通过任务完成度、效率和创新性来衡量,而价值驱动的评估则需要审视智能体在伦理和社会责任方面的表现。