云计算 已评论

当数据中心遇到NVIDIA云原生超级计算

2021-12-21 14:47

  【天极网云计算频道】当下,超级计算中心和公有云的诉求正在走向融合 ,它们必须拥有多个“技能”于一身:为新一代高新能计算(HPC)、AI和数据分析的应用提供更高的性能,同时还应安全隔离应用,并响应用户对流量的不同需求。“要应对这样的需求,当前最好的技术就是云原生技术。”NVIDIA网络事业部宋庆春在近日的媒体沟通会上对天极网表示。

当数据中心遇到NVIDIA云原生超级计算
NVIDIA网络事业部宋庆春

  云原生超算来了!

  或许你了解火爆的云原生,也对超算不感到陌生,而Cloud Native Supercomputing(云原生超算)对于业界来说可能是一个略显陌生的技术名词,“把超级计算技术带入千家万户的数据中心中,让数据中心拥有了超算技术的高性能,同时也把云数据中心上云的灵活性和安全性带进了超算平台。”这是云原生超算诞生的意义和使命。所以,云原生将会是未来提供算力平台的发展趋势。

  如何把云原生的设备高效连起来?为何说InfiniBand网络是最贴切、最合适的网络?宋庆春对天极网表示:

  首先,InfiniBand是会计算的网络,不管是在InfiniBand的网卡上、DPU上还是交换机上,都赋予更强劲的针对不同业务的加速引擎,这样可以把不同的业务模型和通信模型的计算放到卡上或者交换机上。

  其次,InfiniBand网络可以很容易扩展到几万、几十万、上百万的节点,可以采用不同的拓扑方案而不需要担心拓扑中出现死锁和网络风暴的问题,InfiniBand是无死锁、无网络风暴的网络,同时InfiniBand的动态路由可以让网络的利用效率变得非常高。

  再次,在InfiniBand网络中可以由软件来定义规则,在执行规则时就由InfiniBand的硬件实现,所以会有一个非常高效的对于网络的管理方式。InfiniBand网络是即插即用网络,不用对交换机或网卡做任何特殊设置。

  最后,InfiniBand是一个标准网络,源于90年代的两个非常重要的网络技术:一个是下一代I/O(NGIO),一个是FutureI/O,两个技术被整合起来,被当时的业界著名的多家公司和研究机构,一起定义成了新的InfiniBand网络。有了InfiniBand网络以后,Mellanox当时的创始人为了推广InfiniBand创建了Mellanox公司,把InfiniBand网络推成了业界标准的高性能计算和存储领域的网络。

  在不久前的GTC大会上,NVIDIA Quantum-2新一代InfiniBand网络平台正式发布,据了解,NVIDIA Quantum-2平台即400Gbps的InfiniBand网络平台,包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3数据中心处理器(DPU)和支持这种新架构的软件,这也是迄今为止非常先进的端到端高性能网络平台。

  NVIDIA Quantum-2平台有何魅力?

  据介绍,新一代NVIDIA Quantum-2平台的三大产品,赋予了可以提供云原生上需要的几个关键能力:

  首先, NVIDIA Quantum-2 InfiniBand将网速提高了一倍,网络端口数量增加了三倍。它在性能提升3倍的同时,还将使数据中心网络所需的交换机数量减少了6倍,与此同时,数据中心的能耗和空间也将各减少7%。

  其次,NVIDIA Quantum-2平台还实现了多租户之间的性能隔离,这使得一个租户的行为不会干扰到其他租户,同时通过利用先进的主动遥测和支持云原生的拥塞控制机制,确保了可靠的数据吞吐量,并且不受用户或应用需求高峰的影响。

  再次,NVIDIA Quantum-2 SHARPv3网络计算技术可为AI应用提供超出上一代产品32倍的加速引擎能力,借助NVIDIA UFM Cyber-AI平台,将为数据中心提供先进的InfiniBand网络管理功能,包括预测性维护等。

  值得一提的是,NVIDIA Quantum-2平台中还集成了纳秒级精度的时钟系统可以同步分布式应用,如在数据库处理中,有助于减少等待及空闲时间。纳秒时钟同步是一种新功能,其使得云数据中心成为电信网络的一部分,可以托管软件定义的5G无线服务。

  3U一体云原生架构赋予无限算力资源

  NVIDIA BlueField DPU的出现为3U一体架构奠定了基础。基于DPU 实现了新的Cloud Native计算架构,把传统的Infrastrucure操作放到了BlueField DPU上,由DPU执行通信框架、存储框架、安全框架和业务隔离,让Host里面的CPU和GPU资源都释放给应用,通过这样一个架构可以让业务性能得到更优的发挥,甚至比在裸金属状况下的性能有更好的提升。

当数据中心遇到NVIDIA云原生超级计算

  “DPU提供了打开了一个对业务性能优化的新思路,把通信和计算重叠起来,可以通过DPU来加速HPC业务中的通信,由DPU来运行通信框架,由CPU和GPU执行真正的浮点计算。”宋庆春说。

  总之,DPU的出现弥补了数据中心中对于基础设施加速能力的不足,实现了DPU、GPU、CPU 3U一体新型数据中心架构,让数据中心成为新的计算单元,在优化算力资源时,从数据中心更高层次、更高粒度、更大空间里来进行优化成为可能。由此看来,3U一体已经成为数据中心的一个必然的架构。

  NVIDIA云原生软件定义安全应对零信任

  随着数据量越来越大,数据传输速度越来越快,各种异构数据频繁出现,跨平台的整合、各种模型迭代、计算迭代、平台迭代速度越来越快。网络安全已经成为数据安全的最大的威胁,使用传统的思维方式或者工具已经没有办法满足如今的数据中心安全需求。如今,在数据中心里要发现一个漏洞,大概需要超过半年的时间,而要修复这个漏洞需要超过两个多月的时间。零信任(Zero-trust)的前提就对数据中心中的任何人、任何事、任何设备都不信任,如果要是发现问题需要200天,修复问题需要70天,整个数据中心将非常不安全。

  在今年秋季的GTC上,NVIDIA发布了 DOCA 1.2。DOCA 1.2是专门面向零信任(Zero-trust)的安全框架,包括了很多和安全相关的软件。帮助开发者实现网络安全即服务,将数据中心安全保护扩展到用户涉及的应用、数据、设备、存储、基础架构等几乎所有关键点。

  Morpheus是一个基于NVIDIA RAPIDS、TRITON和深度学习框架的零信任AI应用框架,用于分析来自网络流量日志、应用日志和云日志的流式遥测数据,为网络上的每个应用和用户建立独立的行为档案,一旦出现异常情况,它将提醒安全运营团队注意潜在的安全漏洞。

  写在最后:数据中心趋势展望

  在大型机时代,数据中心一般运行关键且单一的任务,随着软件定义数据中心的出现,在数据中心中会运行多个业务,在这个过程中如何优化利用资源成为瓶颈;随着SDN、数据中心解耦、微服务等新技术的出现,可以解决资源利用的瓶颈问题,但如何提升扩展性,算力就成为了新的瓶颈,NVIDIA GPU通过高性能的算力,去解决算力上的瓶颈,但GPU能解决的只是一个单机的算力瓶颈,而NVIDIA网络解决了扩展效率和数据中心的瓶颈,但这时又出现性能隔离和安全的新瓶颈,由此,NVIDIA DPU进而解决了这一困扰,如今,在数据中心中,CPU、GPU、DPU 3U一体缺一不可,这是数据中心成为单元的基础,也是算力成为服务的基础。

#+1你赞过了
人已赞
#
分享
查看更多内容

取消

©2020 天极网旗下网站

#
第三方账号登录
X
发布