>首页> IT >

超融合以太加持:北京大学高性能计算平台将迎来大提速

时间:2023-08-25 18:18:48       来源:CCTIME飞象网

飞象网讯(计育青/文)8月25日,在青岛举行的全国高性能计算学术年会大会(CCF HPC China 2023)上,2023华为高性能计算解决方案分论坛同步举办。来自北京大学计算中心工程师付振新分享了“北京大学高性能计算平台超融合以太数据中心网络解决方案实践”。

为满足校内的教学科研计算需求,北京大学从2018年起陆续建设了“未名一号”、“未名生科一号”、“未名教学二号”等高性能计算集群,有力地提升了校内的算力供应能力。随着承载的用户、计算任务和数据量不断增加,原有平台的网络基础设施性能逐渐不敷使用,因此北京大学在2023年进行了高性能计算平台的系统及网络改造项目。经过全方位的综合评估,北京大学最终选择了华为超融合以太数据中心网络解决方案,实现高性能计算平台的大提速,真正释放算力基础设施的全部潜力。

科研创新迎来算力时代


【资料图】

进入二十一世纪以来,人类的科学探索逐渐深入高度复杂、高度不确定性的新环境,大量庞大而复杂的科学问题需要借助超级计算机来进行模拟、仿真、预测。从传统的化学化工、生物制药、高能物理、金融工程、社会治理,到新兴的大数据、人工智能、网络信息安全等等,都因强大算力的加持而取得了超出以往的全新进展和成果。

北京大学早在2018年就建成了高性能计算校级公共平台,先后建成投用了“未名一号”、“未名教学二号”、“未名生科一号”等5套集群。不过随着平台使用人数、计算任务的增加,网络基础设施的流量吞吐量和复杂性都大大增加,年均节点占用率都在80%以上,“未名生科一号”的节点占用率甚至长期处于95%以上,作业时间和排队时间变得越来越漫长。针对这一问题,几家供应商分别提出了基于IB、RoCEv1、RoCEv2等技术打造的网络方案。在北京大学组织的基准测试和通用地球系统模式CESM、分子动力学软件VASP等应用场景测试中,华为提供的基于RoCEv2的超融合以太数据中心网络解决方案表现出了优异性能,能够有效缩短作业运行时间和排队时间,于是成功入选北京大学高性能计算平台的改造项目。

生态开放、性能优异:RoCE前景看好

为适应用户对计算效率、时延、扩展性等方面的苛刻要求,高性能计算需要在不同节点之间实时高速传递海量数据,这对服务器互连方案的要求非常高。目前业界主流的计算互联协议有RoCE和IB两种,其中IB具有高吞吐、低时延、高可靠性等特点,技术先进,不过主要掌握在英特尔、IBM、英伟达等企业手中,技术和产品生态都比较封闭,成本高昂。RoCE则是一种基于以太网络的RDMA网络协议,生态相对开放,而且着力于实现网络的无损传输,深受各国高性能计算和AI等产业欢迎,被认为是未来全球数字化的重要路径。

华为基于RoCE的超融合以太技术,具有完善的流量控制、拥塞控制、流量调度和应用加速功能,独家实现了以太网0丢包。此外,华为还开发了在网计算(INC)技术有效提高集合通信效率、降低总的任务完成时间,在时延方面比IB略胜一筹。

支持算力建设,服务数字未来

近年来,华为超融合以太网络解决方案已经在国内外多个高性能计算平台项目中落地应用。比如在2022年,华为超融合以太网络解决方案还在武汉超算中心、阿联酋高级国家研究和教育网络Ankabut项目中投入了应用,因其卓越性能而得到了客户的高度评价。

在北京大学高性能计算平台的前期项目中,“未名二号”集群就采用了华为100GE RoCE无损以太网络方案。“未名二号”由240台CPU计算节点和30台GPU计算节点组成,后续可扩容至340台CPU计算节点。与IB方案相比,北京大学高性能计算平台管理人员发现华为RoCE方案无需用户改变使用习惯,以太网带宽增加更快,性能也超出预期。

随着HPC和AI应用的快速发展,对网络带宽吞吐的需求将不断增长,从100GE、200GE、400GE到800GE等更高速率不断演进的以太网络无疑是最佳的承载技术。与此同时,RoCE无损以太网络在时延、吞吐量、可靠性、编解码和调制技术等方面也在不断进步,使得无损以太网络的总体性能不断提高,未来有望在自动驾驶、智能制造、生物科技、金融等更多行业和领域投入应用。

关键词: