张向征：AIGC技术重塑数字人，释放新需求｜2023 ChinaJoy AIGC大会

7月28日至7月31日第20届中国国际数码互动娱乐展览会（ChinaJoy）在上海举行。7月28日，由汉威信恒主办，集团协办的2023 ChinaJoy AIGC大会正式召开。大会聚焦时下热议的AIGC行业，邀请国内外AIGC领域的行业代表专家、学者、企业大咖重磅参会，从技术层面、应用层面、价值投资层面，全生态视角探讨AIGC技术下的内容产业新业态。

(资料图)

360智脑总裁张向征发表了题为《从数字人到数智人：360智脑的解决方案》的演讲。

张向征指出，AIGC技术可以重塑数字人，释放新需求。大模型本身有强大的内容理解能力和用户需求理解能力、文本生成的能力，让传统的数字人可以和人进行实时智能的对话，满足人的各类需求，解决人的各种工具性问题。同时，在数字人生产和制作方面，文生图工具，包括图像生成、视频生成、跨模态语义理解和可控图像编辑工具，可以让数字人的创作更加高效。

新一代数字人不仅只有形象，有语音，而且可以学会人说话的方式，以及人的背景信息。张向征介绍，通过大模型的学习训练，数字人可以代替我们完成智能客服、进行直播、进行销售及进行培训，帮助我们提高各类工作的效率，经过训练的数字人甚至可以实现数字分身，在不方便出席或者没有时间出席的场合完成讲话。

以下是张向征在2023 ChinaJoy AIGC大会上的演讲全文（略经App整理）：

尊敬的各位来宾，大家上午好！

我是360的张向征，今天我跟大家分享360智脑在数字人领域的探索和应用。

AIGC技术的发展，尤其是大模型技术的出现，让娱乐行业拥有了大脑和灵魂，而且带来了需求和供给的双增量。在需求方面带来了新的应用场景，比如说数字人、数字永生。在解放生产力方面带来了新技术、新的AI工具，帮助内容创作者降低生产成本，提高生产效率。

AIGC技术可以重塑数字人，释放新需求。比如说因为大模型的出现，大模型本身有强大的内容理解能力和用户需求理解能力、文本生成的能力，可以让传统的数字人不再是工具人，而是可以和人进行实时智能的对话，满足人的各类需求，解决人的各种工具性问题。

在数字人生产和制作方面，文生图工具，包括图像生成、视频生成、跨模态语义理解和可控图像编辑工具，可以让数字人的创作更加高效。

AIGC技术无论在文字、图像、音频、视频多个领域，都可以全链条降本增效，帮助企业快速应用到自己的业务场景上。

在今年上半年，依托360过去多年在算法、数据、工程、架构各方面的积累，发布了360智脑的认知型通用大模型。模型集成了多个工具，包括360 GPT大模型，对标ChatGPT类似的做文本的理解和生成。同样有图像生成大模型、图像处理工具，也有360鸿图做复杂的文本图像治理，以及能够根据用户指令结合用户提交的图片、细节修改，定制化地对图像进行复杂处理。

360智脑具备十大核心能力，可以覆盖大模型应用的各种场景。比如说生成与创作能力，360智脑的生成与创作能力可以更好地理解用户角色的诉求，比如说制造了孙悟空的数字人，孙悟空说话需要有自己的特色和用语；制造了诸葛亮的数字人，需要用文言文的方式更好地回答各种用户的问答。

同样的道理，在更复杂的场景，需要多轮对话的能力，需要理解用户的前文上下文。阅读理解的能力，更好地理解用户的意图，知识问答的能力，更好地解决用户的需求，应用在广泛的应用场景上。

360大模型的开发，依托了以往多年在各个领域的积累，比如说在搜索原来，我原来是做搜索方向的，在搜索领域积累了海量中文网页及对中文网页进行内容抽取、数据清晰的能力。同样，在RP领域，已有的搜索技术需要跟踪各类大模型的新进展，以前Bard、GPT的出现我们也会在内部进行各种尝试和应用。

搜索服务本身也可以作为360智脑大模型的增强工具，作为一种外挂知识库，解决大模型的连接问题，提高大模型的内容实效性和实时性。

360智脑最大的问题是安全，有在模型基础框架和安全的积累，也有在内容安全下的积累，让输出的内容更加安全可控。

大模型驱动的数字人能够带来生产效率的提升，以及颠覆生产关系，新一代数字人不仅只有形象，有语音，而且可以学会人说话的方式，以及人的背景信息。通过大模型的学习训练数字人可以代替我们完成智能客服、进行直播、进行销售及进行培训，帮助我们提高各类工作的效率，经过训练的数字人可以实现数字分身，在不方便出席或者没有时间出席的场合完成讲话。

与传统的数字人相比，已有的影视级数字人成本极高，需要3A建模，需要专业的演员，需要专业的拍摄设备，投入动辄百万起，而已有的虚拟人在后续运维上也需要投入较大的成本。

已有的形象克隆数字人可以进行直播，也可以按照人提供的内容进行内容输出，比较直观和形象。但存在两个缺点：一是内容需要有人来写，而2个小时的直播需要提供海量的文本内容，需要经常性进行变化。二是念稿的机器人只是单向的，没有办法及时响应用户的需求和提问，导致用户有时候会觉得有点虚假和不真实。

360智脑机器人的核心优势是具备“最强外表+最强大脑”，有三个特点：

一是以人为本，多模态交互。360智脑大模型应用耗用、易用是关键，大模型技术很强，但很多人在用ChatGPT时并没有办法把ChatGPT最强的能力发挥出来。有些专业的问题有些人可以问出来很好的答案，但有有些人问出来的答案效果不够好。数字人背后已经有专业的人员定制了各种不同的角色，这些角色可以更好地让用户使用时就知道我们面对的是专业的律师、专业的医生、专业的营销顾问，在已有数据调研里，使用数字人的场景、数字通用大模型的场景，用户问答满意度提升超过10个百分点。数字人形象相比传统文本界面的交互，更直观，更形象，这种多模态交互更符合人更自然的交互，所以用户体验更好。

二是有灵魂有记忆，需要利用已有的通用引擎的技术，把数字名人、古圣先贤，他们有一系列的背景知识、著作、才华、发表过的文章，只靠简单的提示语没有办法很好地解决，需要有外挂的知识库进行个性化的定制，才能提供更好的符合人设定义的服务。

三是能联网、能学习。有很强的搜索及对话知识库存的定制服务，用户在使用的时候，可以及时联网解决有效性和测试性的问题。

数字人前期治理的步骤，首先依托于搜索本身文本处理的能力，及时把网络文本、文档文本抽取出来，结合语义积累进行分段处理、执行、摘要，提前生成Q&A的问题。存储阶段，有赖于已有的通用引擎，这是360的引擎的基础服务。

同时支持了基于关键词的传统搜索，以及基于向量的语义搜索，可以结合用户的使用场景平衡用户对精确性的要求、语义泛化性的要求。比如说在政府办事的智能客服里任何一点差错都不能犯，要给用户的信息要足够精准，只靠语义相关没有办法解决，需要用到传统搜索技术。

人机交互层面可以依赖于360智脑大模型语义理解能力，很好地对用户从知识库里检索出来的信息进行统一的汇总和输出，更符合与人对话的自然语言理解。

针对垂直的行业和数字人特定地收集语料加入到预训练和微调中，这样才能具有专业性，提供比通用大模型更优的结果。

在游戏领域简单的展示，只需要提供简单的角色资料，以及采集一部分人物照片信息，加上360智脑大模型的能力，就可以生成能看见、能听见、开放式问答的对话式数字人。

生成数字人之后还有提问，如果只靠大模型本身输出的结果很难给出人具体的观点，往往是大模型每次基于模型本深生成的结果有很大的随机性。但是当有了个性化、定制化的知识库之后，数字信息就会更多代表更符合人设，更符合他已有的观点，而不是用大模型本身去“胡说八道”。

在现场问答的场景，具体使用时，一种是直播场景，可以单向对外输出，另外一种是直观和用户进行问答（在线问答、实时问答），工具后台可以统一提供，可以用于直播场景，也可以用于实时问答场景。

360智脑数字人不止在平台上可以用，而且做了整体的服务包装，通过API和SDK很方便地挂载到第三方网站、第三方APP中，在用户使用其他工具的场景下，很方便地进入数字人的场景，提供智能客服或者一系列的咨询服务。

在其他应用场景也会有更复杂的场景，比如说大屏场景，需要的不止是简单的对话，而需要和其他系统做复杂交互。

这是和城市文旅场景结合的数字人，不止需要问答，也需要把原有系统中的数据结合用户问的问题，通过解析层具体的指令，获取对应的结果化数据，再通过大模型的加工处理，用更自然的形式反馈给用户。

除了大屏场景，还有数字分身，可以代表主人出席大会，如果有些人时间来不及的话，可以解决这一问题。另外可以用于直播间场景。

有人设，有记忆，有灵魂的数字人，最终的应用场景很多样。

1.数字伴侣。这种场景下人是需要有情感需求的，而里面不止是现在用大模型时的专业化回答，需要有闲聊的模式，能更反映角色对应的特点。比如说可以作为情感陪伴。

2.数字名人。我们自己做的“数字老周”也是类似的场景，需要和人对应的背景信息建设成个性化的知识库，很好地融入到大模型的使用场景，解决大模型的幻觉，反馈出人本身的背景知识，自己对问题的理解、个性的特点

3.数字专家。作为数字员工，比如说营销专家、法律专家，作为数字员工给企业提供服务，提供的方式比泛泛地问大模型得到的效果好很多，因为他们的partment都是经过精心设计的。

4.数字助手。大屏场景需要解决复杂的场景，需要和复杂的场景进行交互。

360智脑目前已经有了多层布局，可以批量化规模生产数字人，成本很低。另外提供了对外的API平台，很方便地对外提供服务。未来可能的应用方向可以做更多的探索，比如说用于AR、VR领域，希望有更多合作伙伴将来能一起探索更智能的未来。

谢谢大家！

关键词：