焦点速讯：达摩院天猫精灵联合研发数字人：大模型训练、大规模交互将带来什么？

11月7日消息，阿里巴巴多个团队正联合研发由数字人全面接管的终端交互引擎。预计第一款“数字人+终端”产品将在2023年一季度让用户体验。

(资料图片仅供参考)

项目集合达摩院NLP、语音、视觉、3D构建驱动及大模型领域团队，和天猫精灵AliGenie交互系统专家。就像手指触屏奠定智能手机交互，大模型数字人将接管未来智能交互。2022年开始，达摩院多模态大模型开始应用于天猫精灵语音搜索与百科场景。各方目前将合作场景推向AliGenie交互的系统层和用户感知层。

数字人领域正由喧嚣转向理性。虽然高精度高颜值的人偶形象不断出现，但绝大部分场景缺乏与用户的持续性、个性化互动，进而商业化规模有限。如，只能在短视频和动画中存在的虚拟偶像。或只在单一设备或界面中面向大众支持问答的虚拟员工，这些形态缺乏大模型训练和大规模交互，无法个性化学习升级，用户感受就像“没有灵魂”。

数字人Inside，接管终端——则是阿里巴巴正在尝试的新方式。云栖大会上，阿里巴巴集团研究员李小龙透露列举了达摩院积累的包括多模态大模型、语音、自然语言、3D构建驱动、各个领域近两年百项专利与顶会论文，通过将这些成果，在诸多交互场景验证，一个多模态大模型为基础的数字人的引擎已初显雏形。

图：李小龙介绍全新数字人引擎技术架构

天猫精灵产品规划负责人卢勇介绍，接入AliGenie系统的终端已覆盖4000多万家庭、包含1600多个品牌的4.6亿已接入产品，能让数字人在可持续、大规模、组合式的场景与用户交互。AliGenie此前公布，仅智能音箱产品每月交互80亿次以上，70%是主动型服务。许多消费硬件领域厂商，也迫切希望有超出单一连接、单一设备对话的智能体验。

以多模态大模型驱动的智能化，理论上也非常适合缺乏数据、场景碎片化的智能终端场景。例如，由通义多模态大模型（BroadScope）训练的数字人，可以具备可泛化的认知驱动能力，数字人根据音乐进行舞蹈、根据文字产生行动，改变了过去完全要单一维度数据训练的模式，能够让数字人迁移场景进行服务。

图：大模型将提升数字人的自主对话能力

在云语音语义技术方面，Gartner 2022报告显示，阿里综合能力居全球第二。阿里团队还在Wizard of Wiki（知识对话）、Commonsense QA（常识问答）和VQA（视觉问答）三项全球评测中连续获得冠军，并超过人类能力基准。

以天猫精灵日常对话场景为例，通过大模型底座进一步训练的对话大模型mPLUG-dialog，将可能成为包含知识、情感、个性、记忆的全新交互系统。

在内容上，不再是单纯地按知识库或搜索结构在检索和回答问题，而是综合这四个维度，努力给出更有趣更有情商的回复，在声音上，不再是字正腔圆的播报音，会包含更丰富更细腻的情绪。实时沟通时，AI不仅能被随时打断，也能稳定接茬，还会主动追问。

关键词：阿里巴巴