是真的掌握了概念,还是仅仅形成了“隐藏记忆”

大模型训练数据集的不透明性,以及人类评估时所采取的指标差异,可能导致人类高估了大模型的真实性能。大模型通常利用庞大且容易获取的互联网数据进行训练,而训练数据中可能包括了用于后续评估的数据集。由于我们目前无法确切了解GPT-4等大模型训练数据集的构成,“泛化”这一概念变得模糊不清。我们难以判断这些模型是真的掌握了核心概念,还是仅仅在从训练过程中形成的“隐藏记忆”中进行检索。这种不透明性阻碍了学术界对这些模型进行公正和可靠的评估。

如图1-2所示,连小学生都知道9.9比9.11大,但ChatGPT却认为9.11比9.9大,并给出了错误的理由。

图1-2 ChatGPT出现的数学错误

比如,GPT-4大模型未经事实验证,就胡乱编造地生成“林黛玉倒拔垂杨柳”的事实性错误内容。这说明大模型虽然通过海量文本数据分别学到了“林黛玉在大观园”和“鲁智深倒拔垂杨柳”的内容,但是本质上并不具备事实判断的能力。它所表现出的乃是一种“知识幻象”。

再比如,GPT-4大模型会编造宋江、吴用、花荣“桃园三结义”的故事。这同样说明了大模型本质上不具备事实判断的能力,而只表现出一种“知识幻象”。

图1-3显示的是当输入“马骑着宇航员”的英文“A horse is riding an astronaut”时,某文生图大模型生成的结果。生成的图像是宇航员骑着马,而不是马骑着宇航员。这表明该模型在理解自然语言的字面含义方面存在局限,并不能准确地解译和生成与输入语句含义相符的图像。

图1-3 某文生图大模型生成的错误图像

此外,大模型的一个重要问题是尝试将本身不属于语言范畴的问题转化为语言问题。然而,在这一转化下,本身不使用语言而使用计算模型的问题自然变得漏洞百出。比如,经过统计,在处理一个小学难度的数据集时,即使是采用了多步迭代策略的大模型,其正确率也难以超过50%。大模型在处理数据集时的正确率见表1-1。

表1-1 处理数据集时大模型的正确率(%)

注:表中的百分比表示在处理不同数学问题类型时大模型的正确率。例如,MathChat模型在处理代数问题时的正确率是59.93%,在处理组合概率问题时的正确率是52.03%,以此类推。

在传统逻辑推理任务中,大模型的准确度往往依赖于语言的清晰度和具体性。一旦我们将原本具有明确语义的词汇替换为抽象的符号,大模型的推理能力就会急剧下降。

大模型做不好抽象推理,在那些仅依赖于从几个小样本中找到潜在规律的任务中,大模型的表现较为一般。如图1-4所示,在以英国学者约翰·C.瑞文(John C. Raven)命名的瑞文标准推理测验中,测试者需要根据已有的8个图形的形状、数量、大小等,寻找隐含的规律,然后推理出最后一个图形。大模型在瑞文标准推理测验中的表现较差。

图1-4 瑞文标准推理测验中的图形推理问题

大模型在创造力方面的表现也远远不如人类,甚至在某些方面达不到儿童的水平。最近,研究人员提出一种创造力测试方法,灵感源于欧美广受欢迎的电视节目中的游戏环节。这项测试要求参与者对一组单词进行分类,并说明其分类的逻辑依据。实验结果显示,与人类参与者相比,大模型在解决此类问题时遇到了显著的困难。

大模型虽然在某些方面表现出色,但它们并不具备真正的“智能”,更像是一种新型的“数据库”。在实际应用中,大模型最常面临的问题之一是所谓的“幻觉”现象。这些模型在海量文本数据上进行训练,因此在回答问题时,它们往往会搜索所有训练数据,寻找与问题在统计意义上相似的内容来回答。然而,这种回答仅仅基于问题和数据之间的“相似性”,并不是真正的“相关性”。

数据价值趋于饱和,学术界普遍认为大模型不是通用人工智能。OpenAI的首席执行官山姆·奥尔特曼(Sam Altman)曾公开表示,目前大模型所使用的数据量已经接近公开可获取数据的极限,盲目提升规模并不会带来可预见的突破。

数据是大模型训练中的关键要素。在微软的加持下,OpenAI得以利用先进的搜索技术,其训练数据集已经非常广泛,几乎涵盖了互联网上所有可公开访问的信息,数据的价值几乎已经被耗尽。

GPT-4在很大程度上代表了在当前数据集规模下所能达到的性能极限。在这种情况下,单纯增加数据量或模型规模,将难以在人工智能领域再次实现质的飞跃。