谷歌DeepMind创始人戴米斯：“与未来几年的变化相比，今天的聊天机器人将显得微不足道”

图片来源@视觉中国

谷歌多年来一直在展示其人工智能技术，但随着 ChatGPT 的爆炸式增长以及微软在搜索领域的新威胁，谷歌和 Alphabet 今年早些时候决定将 DeepMind 引入谷歌，与Google Brain一起创建了Google DeepMind。这是一个重大的结构决策，其目标是让人工智能产品更具竞争力并更快推向市场。

(相关资料图)

要竞争的不仅仅是 OpenAI 和微软——你可能最近在网络上看到了一位谷歌工程师的备忘录，声称谷歌在人工智能领域没有竞争护城河，因为在商用硬件上运行的开源模型正在迅速发展和追赶。近日的访谈中，Google DeepMind CEO 戴米斯·哈萨比斯Demis Hassabis（DeepMind创始人）证实该备忘录是真实的，但表示这是谷歌辩论文化的一部分，他不同意该备忘录观点，因为他对谷歌的竞争优势有其他想法。

戴米斯还分享了他对当下人工智能进程与未来AGI的思考：

ChatGPT 和大语言模型以及公众对此的反应，证实了人工智能已经进入了一个新时代。对于所有人来说，包括 OpenAI，这有点令人惊讶，因为Deepmind和 Anthropic 和 OpenAI 等其他一些初创公司，都拥有这些大型语言模型。他们的能力大致相同。因此，令人惊讶的不是技术是什么，因为我们都拥有技术，而是公众对此的兴趣以及由此产生的轰动。当前的产品并不是最终状态。就聊天机器人和此类系统而言，我认为与未来几年将出现的情况相比，今天的聊天机器人将显得微不足道。与仅仅扩大现有解决方案相比，还需要突破才能实现通用人工智能，巨大的突破，存在很大的不确定性。我认为这在很大程度上取决于时间框架。但现在来看，如果我们在未来十年实现 AGI 或类 AGI 之类的东西，我不会感到惊讶。未来几年必须改进的关键领域之一是：事实性和基础性，并确保他们不会传播虚假信息等。这对我们来说是最重要的。理想情况下，我们在下一阶段和下一代系统中要做的就是结合两全其美——保持当前系统的创造力、清晰性和有趣性，但提高其真实性和可靠性。我们还有很长的路要走。但我可以看到事情正在改善，而且我看不出有任何理论上的原因可以解释“为什么这些系统在未来几年内无法达到极高的准确性和可靠性水平”。

以下是近日戴米斯在AGI议题的分享（经编辑删减）。

戴米斯：这个时间表是正确的，但这不是直接的结果。

无论如何衡量，AlphaGo、AlphaFold，还有 20 多篇自然和科学论文等等——所有这些正常指标都可以用来真正交付我们能够做的、令人惊叹的前沿研究。但在某种程度上，ChatGPT 和大语言模型以及公众对此的反应证实了人工智能已经进入了一个新时代。对于我们所有人来说，包括 OpenAI，这有点令人惊讶，因为我们和 Anthropic 和 OpenAI 等其他一些初创公司，都拥有这些大型语言模型。他们的能力大致相同。

因此，令人惊讶的不是技术是什么，因为我们都拥有技术，而是公众对此的兴趣以及由此产生的轰动。我认为这表明了我们在过去两三年里一直感受到的东西，那就是这些系统现在已经达到了成熟和复杂的水平，可以真正走出研究阶段，并为下一代产品和体验以及突破提供动力，例如 AlphaFold 等对生物学家来说直接有用。因此，对我来说，这只是表明人工智能正处于一个新阶段，即人工智能对人们的日常生活切实有用，并且实际上能够解决真正重要的现实世界中的困难问题，而不仅仅是好奇心或乐趣，比如游戏。

当你认识到这种转变时，我认为有必要改变你的方法，包括你如何进行研究以及你对产品和此类事物的关注程度。我认为这就是我们所有人都意识到的：现在是时候简化我们的人工智能工作并更加关注它们了。显而易见的结论就是进行合并。

戴米斯：我认为这个分析是正确的。我认为这就是为什么大型语言模型能够真正进入了公众意识——因为它是面向普通人，实际上人们可以理解并与之互动。当然，语言是人类智力和日常生活的核心。我认为这确实解释了为什么聊天机器人会像病毒一样传播开来。尽管我会说像 AlphaFold 这样的东西——当然我这样说是有偏见的，但我认为它实际上在人工智能领域迄今为止对世界产生了最明确最大的有益影响，因为如果你与任何生物学家交谈——你会发现已经有一百万生物学家、研究人员和医学研究人员在使用 AlphaFold。我想世界上几乎所有的生物学家都是如此。每家大型制药公司都在使用它来推进药物发现计划。有多位、数十位诺贝尔奖获得者级别的生物学家和化学家与我谈论他们如何使用 AlphaFold。

因此，世界上所有科学家中的某些人，他们都知道 AlphaFold，它影响并极大地加速了他们的重要研究工作。但当然，街上的普通人不知道蛋白质是什么，也不知道这些东西对于药物发现等事情的重要性。显然，对于一个聊天机器人来说，每个人都能理解，这是不可思议的——比如让它为你写一首诗或一些每个人都能理解、处理和衡量的东西。

戴米斯：谷歌周围的人工智能系统不仅存在于面向消费者的事物中，而且还存在于你可能没有意识到的幕后。举例来说，我们最初应用人工智能系统的其中一件事就是谷歌数据中心的冷却系统，巨大的数据中心，实际上将它们使用的能源比冷却系统使用的能源减少了近 30%，如果将其乘以他们在那里拥有的所有数据中心和计算机，效果是显著的。因此，实际上人工智能一直被用来提高这些（幕后）系统的效率。当前的产品并不是最终状态。

就聊天机器人和此类系统而言，最终，从读什么书到推荐现场活动等，再到预订旅行、为您规划旅行，再到协助您的日常工作。我认为我们距离这样的聊天机器人还很远，而且我认为我们知道缺少什么：诸如计划、推理和记忆之类的东西，我们正在努力解决这些问题。我认为与未来几年将出现的情况相比，今天的聊天机器人将显得微不足道。

戴米斯：事实上，有一个完整的研究分支正在研究工具使用。这个想法是，这些大型语言模型或多模态模型，它们是语言方面的专家，也许还有一些其他能力，比如数学和可能的编码。

但是，当你要求他们做一些专门的事情时，比如折叠蛋白质或下国际象棋或类似的事情，那么实际上他们最终所做的是调用一个工具，这可能是另一个人工智能系统，提供解决方案或该特定问题的答案。然后通过中央大型语言模型系统，以语言或图形方式将其传输回用户。所以它实际上对用户来说可能是不可见的，因为对用户来说，它看起来就像一个具有许多功能的大型人工智能系统，我认为这可能将是下一个时代。下一代系统将使用这些功能。然后，你可以将中央系统视为几乎是一个 switch 语句，你可以用语言有效地提示它，它会根据你查询的任何内容，来为你解决该问题或提供解决方案。然后以一种非常容易理解的方式将其传回。

戴米斯：我认为这是通往 AGI 的关键道路，这是另一个原因。我对这个新角色感到非常兴奋，并且做了更多的产品和事情，因为我认为这里的产品路线图和研究路线图，像 AGI 或人类水平的人工智能这样的东西是非常互补的。为了构建像通用助理一样在日常生活中有用的产品，人们需要推动其中的一些功能，例如计划、记忆和推理，我认为这些对到达AGI至关重要。所以我认为产品和研究之间现在有一个非常巧妙的反馈循环，它们可以有效地互相帮助。

戴米斯：我认为，与仅仅扩大现有解决方案相比，还需要突破才能实现通用人工智能，巨大的突破——创新突破——存在很大的不确定性。我认为这在很大程度上取决于时间框架。显然，如果仍然需要很多突破，那么这些突破就会更难实现，并且需要更长的时间。但现在，如果我们在未来十年实现 AGI 或类 AGI 之类的东西，我不会感到惊讶。

但研究从来都不是一条直线。如果是的话，那么它就不是真正的研究。如果你在开始之前就知道答案，那么这就不是研究。因此，前沿研究和蓝天研究（好奇心驱动的研究）总是存在不确定性，这就是为什么你无法真正确定地预测时间表。但你可以看到的是趋势，我们可以看看今天正在研究的想法和项目的质量，看看它们的进展如何。我认为在接下来的五到十年里，我们可能会渐近，我们可能会用现有的技术和规模来碰壁。如果发生这种情况，我也不会感到惊讶：我们可能会发现，仅仅扩展现有系统就会导致系统性能的回报递减。

实际上，这表明确实需要一些新的创新才能取得进一步的进展。目前，我认为没有人知道我们处于哪个阶段。所以答案是你必须尽可能努力地推动这两个方面。因此，现有系统和现有想法的扩展和工程，以及大量投资于你认为可能带来创新的探索性研究方向，可能会解决当前系统中的一些弱点。作为拥有大量资源的大型研究组织的优势之一，是我们可以最大限度地押注于这两件事，这两个方向。在某种程度上，我对“我们是否需要更多突破，或者现有系统是否会一直扩展？”这个问题持不可知论。我的观点是，这是一个经验问题，人们应该尽可能地推动这两个问题。

戴米斯：“我认为这份备忘录是真实的。”

我认为那份备忘录是真实的。我认为谷歌的工程师经常编写各种文档，有时它们会被泄露并传播开来。但我不会太认真地对待它。这些只是意见。我认为听听他们的意见很有趣，你必须制定自己的路线。我还没有详细阅读该备忘录，但我不同意其中的结论。我认为可以有开源，我们在 DeepMind 历史上已经做了很多这样的事情。我的意思是，AlphaFold 是开源的，对吗？因此，我们显然相信开源，并支持开放研究。这是科学讨论的一个关键问题。

我也认为还需要考虑其他因素。显然是商业问题，但也存在有关访问这些非常强大的系统的安全问题。如果坏人可以访问它怎么办？你对这些人的使用怎么办？但到目前为止这还只是理论性的，我认为从这里一直到 AGI 都非常重要，因为这些系统变得更通用、更复杂、更强大。这个问题对于如何阻止不良行为者将这些系统用于恶意目的而言非常重要。

这是我们需要不断提出的东西，但回到你的问题，看看谷歌和 DeepMind 在过去十年或更长时间里在提出新的创新和突破以及多重突破方面所做的历史。我敢打赌我们，而且我非常有信心，这种情况将继续下去，而且在未来十年中，我们将像过去一样实现下一个关键突破，这一点实际上更加真实。

戴米斯：我觉得很难说。我认为这绝对是一个特定的时刻。我们一直非常小心。但展望未来，我认为这些系统可能有一些方法，特别是当你拥有数以百万计的用户时，可以有效地自我引导。或者人们可以想象人工智能系统能够真正与自己对话或批评自己。

这有点像将语言系统变成类似游戏的环境，当然我们在这方面非常专业，我们一直在思考这些强化学习系统（它们的不同版本）实际上可以在某些方面相互评价方式。它可能不如人类评分者，但它实际上是一种有用的方法，可以进行一些评级，然后也许只是通过最后与人类评分者检查这些评级来校准它，而不是让人类评分者对一切进行评价。因此，我可以看到很多创新，将有助于解决这一问题，并且可能意味着这一切都需要人类评估员来完成。

戴米斯：让我们以 AlphaZero 为例，我们的通用游戏系统最终会学习如何玩任何两人游戏，包括国际象棋和围棋。这很有趣。那里发生的事情是：我们建立了系统，以便它可以与自己对战数千万次。所以，事实上，它建立了自己的知识库。它从随机开始，自我发挥，自我引导，训练自己的更好版本，并以小型锦标赛的形式相互较量。但最后，你仍然想针对人类世界冠军或类似的东西或以传统方式构建外部计算机程序进行测试，以便你可以校准自己的指标，这些指标告诉你——这些系统正在根据你的目标或你的指标改进。

但在使用外部基准或测量值对其进行校准之前，你无法确定。根据具体情况，人类评估者或人类基准 ——人类专家通常是校准内部测试的最佳人选。并且你要确保你的内部测试确实反映了现实。对于研究人员来说，产品是非常令人兴奋的，因为当你将研究投入到产品中并且数百万人每天都在使用它时，那就是你获得现实世界反馈的时候，这是没有办法解决的，对吧？这就是现实，这是对你所构建的任何理论或任何系统的最佳检验。

戴米斯：是的，我认为这是谷歌对此非常负责的原因之一，就是我们知道大模型会产生幻觉并且可能不准确。未来几年必须改进的关键领域之一是：事实性和基础性，并确保他们不会传播虚假信息等。这对我们来说是最重要的。对于如何改进这一点，我们有很多想法。我们几年前发布的旧 DeepMind 的 Sparrow 语言模型是一项实验，旨在研究我们如何在这些系统中获得事实性和规则遵守性。事实证明，我们也许可以将其提高一个数量级，但这有时是以牺牲语言模型的清晰度或创造力以及实用性为代价的。

所以这有点像帕累托边界，如果你改进一个维度，你就会降低另一个维度的能力。理想情况下，我们在下一阶段和下一代系统中要做的就是结合两全其美——保持当前系统的创造力、清晰性和有趣性，但要提高其真实性和可靠性。我们还有很长的路要走。但我可以看到事情正在改善，而且我看不出有任何理论上的原因可以解释“为什么这些系统在未来几年内无法达到极高的准确性和可靠性水平”。

关键词：