图片来源
视觉中国
文
追问nextquestion,作者
PT,编辑
存源
科幻照进现实
当阿西莫夫在小说《转圈圈》(Runaround)中向世界介绍他著名的机器人三定律时,他可能没有完全预见到,八十年后的世界会多么接近他的科幻梦想。如今,我们生活在一个由人工智能(ArtificialIntelligence,AI)渗透的世界里。AI系统在许多方面已超越阿西莫夫的想象——在家里,私人AI助手不仅可以帮你安排日程,还能根据你的心情推荐娱乐节目。工作中,各种AI分析工具帮你洞察复杂数据,提供行业和科学洞见。甚至在艺术领域,AI也在帮助千千万万的艺术家创作新颖的作品,挑战我们对创造力的传统认识。
这还只是冰山一角。
AI气象模型[1]已为我们预测天气,它比代表人类千万年经验的传统数值预报方法还要准确,速度也要快上一万倍;AI教学平台正在根据学生的学习习惯和进度提供个性化指导[],使教育更加有效和包容;AI医疗模型也正帮助医生更准确快速地诊断罕见病[3]、癌症[]、神经退行性疾病[5],在某些情况下,它们的表现甚至超过了人类专家。
然而,这些进步引发了一个问题:
这些先进的AI系统是否代表着人类对通用人工智能(AGI),或“(超)人类层级的智能”的终极设想?
自年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。今年上半年,终于有主流研究者提出[6],AI模型——或者更确切地说,大语言模型——已经表现出“通用人工智能的火花”(sparksofAGI)。这似乎表明,AGI已经从哲学猜想变成了将来的未来。然而,关于AGI的观点众说纷纭,大语言模型也常有愚蠢行为出现,这些都引发了对AGI的质疑。在此背景下,我们需要明确几个关键问题:我们的AGI目标到底是什么?我们离实现真正的AGI还有多远?我们如何预测AGI的社会影响并评估其潜在风险?
想回答这些问题,首先要在那些带有迷惑性的科幻作品之外,准确地、可操作地定义AGI。
尝试定义AGI
尝试定义通用人工智能的概念,最早可追溯到上世纪五十年代著名的“图灵测试”[7]。在这一测试中,人类需要使用文本,与某未知对象进行交流,并据此判断对面是机器还是人类。图灵的洞见在于,机器是否能“思考”不取决于其思考过程,而在于其表现的能力。但是,因为人类太容易被糊弄,这一测试通常并不能很好地反映智能的程度。
此后,约翰·瑟尔(JohnSearle)在他著名的“中文房间”[8]思想实验中,则将AGI视作一种有“意识”的强AI系统。虽然将AI与“意识”相连听起来很诱人,但这更多是哲学上的讨论,而非可验证的科学,因为“意识”本身更是一个难以被科学定义的概念。
而在马克·古布鲁德(MarkGubrud)年首次提出AGI这一概念时,他将AGI类比于人脑——一种能在复杂性和速度上超越人脑,能获取和内化知识,被用于需要运用人类智慧来解决问题的用途之上。但问题在于,现代的AI系统,比如基于Transformer模型,与人类的大脑结构和学习模式的联系其实并不紧密。
更近地,本世纪初,当DeepMind联合创始人谢恩·莱格(ShaneLegg)将AGI的概念向计算机科学家们普及时[9],他将AGI定义为在认知任务上能取得类人表现的机器智能。但这一定义并未明确所指的任务类型和“类人”标准。
除此之外,近期还有从学习任务或元认知能力(不充分),经济价值(不必要不充分),灵活性(不充分)等方面对AGI的定义尝试,但它们都有各自的问题。在今年,还有一些极具影响力的科学家提出[10],当前最佳(SOTA)的大语言模型已经是AGI,因为它们在许多任务上都能取得一定的表现,足够通用;但是,在通用之外,真正的AGI还必须拥有足够可靠的性能。
事实上,所有这些尝试都在试图定义一个AI发展的“临界”或“终极”状态。但是,我们通向AGI的巅峰之旅,恐非一点之极,而似层峦叠嶂、地形错综的高原。
?图1:原始论文,参考文献1。
最近,谢恩·莱格带领DeepMind团队总结历史上的定义,并在此基础上提出了他们对AGI的定义框架[1]。
从理论到实践:定义AGI的六大原则
从这些过去定义AGI的尝试中,研究人员发现了一些共同特征,并从中提取出定义AGI所必须满足的六大原则:
1.注重能力,而非过程:AGI的定义应