NVIDIA 全栈网络产品助力点存科技网络架构创新,


在数字化转型过程中,企业对于算力的追求是永无止境的,特别是随着人工智能等新技术的发展,企业对于算力的要求越来越高,如何有效提升算力,确保新技术的应用落地,成为摆在企业面前的主要挑战。

近年来,虽然GPU的算力在不断提高,训练方法上也取得了重大的进步,但是在单一机器上,大型网络训练所需要的时间仍然长得不切实际。点存科技CEO李浩天在近期接受记者采访时表示,政企机构对GPU等算力资源的需求呈现短期性和集中性的特点,这类高速发展的高强度并行运算需求,自建计算资源成本巨大,通过将闲置的计算资源进行整合,以分布式资源池的方式提供给市场,这种按需使用、按量付费的方式越来越受到企业欢迎。

解决计算资源不足问题,分布式云计算平台成为最佳选择

从单机计算到传统数据中心系统,再到基于云的基础架构平台,每一次计算模型的变革,信息处理效率和安全性都会有大幅度的提高。

如今,CPU、GPU、FPGA等芯片在技术上取得了突破,性能有了质的提高,且软件框架也有了明显的优化。但是,相对于爆炸式增长的数据和各种复杂的计算需求,算力仍然无法满足企业的要求。随着区块链技术和分布式账本技术(DLT)的发展,分布式云计算平台迅速发展,并以其灵活性、透明性、安全性、可溯源性、降低成本等诸多优势,成为解决企业算力不足的最佳解决方案。

除此之外,在分布式云计算平台上,用户能够像使用传统云平台一样,轻松开发和部署分布式的应用程序。实际上,点存科技开发的DC-Cloud就是这样的一个平台。

作为新型分布式云平台的科技型企业,点存科技凭借自身大量的存储和计算资源,利用分布式网络构建了一个全新的分布式云平台:DC-Cloud。在平台上,用户可以选择存储托管自己的文件(包含图像、脚本、视频等),且所有的文件将被采用默克尔DAG格式进行存储,保证隐私性和安全性。

同时,DC-Clould能够结合IPFS、IPNS、Filecoin等系统,在分布的Web上运行任何serverless的Web应用程序。相对于传统的中心云存储平台,用户能够享受低成本的同时保证存储资料的安全性和隐私性,也不用顾虑中心云平台的选择问题。

据了解,点存科技的数据中心采用了基于NVIDIA SN系列白盒以太网交换构造的三层五级CLOS架构,IP Fabric形式组网,并使用基于EVPN-VxLAN提供的业务层服务。之所以选择与NVIDIA合作,在李浩天看来,NVIDIA不仅拥有行业最优的产品和解决方案,而且在方案的规划、部署和实施中更具有大量的优化技术和实践经验。

谈到双方的合作,NVIDIA网络事业部以太网产品总监王栋表示,NVIDIA与点存科技的合作,一是对新一代产品和技术有迫切的需求,希望能够构建新的产品和服务,满足用户要求;二是NVIDIA拥有满足点存科技需求的整套解决方案。因此,双方一拍即合,共同完成了新型云服务的实践落地。

NVIDIA以高性能网络产品,助力点存科技构建GPU Cloud

构建GPU Cloud并非是一件简单的事情,需要强大的GPU、网络以及软件能力的支撑。

李浩天告诉记者,点存科技在启动GPU Cloud项目之后,发现这个行业的门槛要求特别高,不但需要强大的GPU资源,并具备机房建设、配套服务等能力之外,对于网络的要求也非常高,要具备让用户调用任意一块GPU资源的网络能力。此外,还需要不断地进行软件调优,做到用户之间不相互干扰的同时,确保资源的合理利用。

据介绍,在产品选择上,点存科技追求极致,最终选择了25G以太网,作为其基础接入的带宽颗粒,100Gb作为其标准的汇聚带宽颗粒。整套方案最终采用了基于英伟达SN系列白盒以太网交换构造的三层五级CLOS架构,使用了NVIDIA的ConnectX-5系列25G高性能网卡,该款网卡具备支持高性能应用能力,功能挖掘空间巨大。最终,点存科技实现了远程GPU和本地GPU性能差距控制在3%以内的理想目标。

除此之外,在NOS平台选择上,点存科技根据自身需求,在白盒平台上使用了NVIDIA Cumulus操作系统,实现了快速部署,有效提高自动化、管理、监控方面的应用水平。在可视化方面,依托NVIDIA以太网交换机内置的“What Just Happened”(故障快照)技术,点存科技的运维人员可以第一时间发现和定位网络故障,并可以立即获得故障原因,从而提高故障定位和修复速度,显著降低了运维压力。

NVIDIA网络事业部拥有独特的高性能网络产品技术栈和产品栈,从应用API开始,支持传统TCP,支持基于RDMA的Verbs,穿越整个业务栈,包括协议栈到达底层。王栋表示,在底层,涵盖了交换机网卡芯片、DPU芯片(智能网卡芯片)、线缆、高性能芯片以及高性能芯片交换系统,构建了业界独特的、端到端的产品和技术支持,以此来支持高性能产品的应用。

王栋告诉记者,在与点存科技的合作上,双方通过大量的沟通交流,最后决定使用工业界的最佳实践。据了解,这些最佳实践更偏向于新兴互联网公司,它基于白盒,使用三层五级Cloud架构,基于IP Fabric体系,基于Spectrum交换芯片。而这样的基础设施,已经被实践证明能够很好地支持大型的基础设施,具有非常好的可维护性、可靠性以及成本优势。

王栋表示,Spectrum交换芯片是NVIDIA的自研产品,它具有非常高的转发性能,能够帮助用户进行自动化组网,有非常清晰、精确的遥测功能,能够减轻运维的压力,最终提升整个网络的可靠性。

以开源生态,推动架构创新转型

以新技术帮助客户实现架构转型,构建更加开放的创新架构,是NVIDIA始终坚持的技术路线。

“NVIDIA推动新技术实践主要是为了帮助用户从传统封闭架构转向新兴的、可以使用货架产品的新体系,并允许用户无论是在硬件底层还是操作系统层,甚至于上层Overlay技术的选择,以及Fabric构造技术的选择上,都可以来占据一个主导地位,而不是被一个厂家的专有技术来阻碍。” 王栋表示,同时,NVIDIA网络事业部的整套产品就是按照这样的架构来进行设计的,这些产品可以开放底层选择硬件,也可以开放选择平台,上层OS根据用户需要可以选择厂家的收费产品,也可以使用开源的NOS。因此,用户可以非常容易集成应用,满足企业定制化的要求。

他强调,这些创新的架构,必须要具有非常好的经济性。

在与点存科技的合作上,NVIDIA在开源生态以及底层对开源支持上投入是非常大的精力,这样以来,点存科技的用户可以灵活地选择闭源产品和开源产品。

王栋表示,NVIDIA的OS和开源OS是基于相同的SDK以及相同的硬件,上层是基于使用相同的路由栈和网管栈,给用户一个非常好的选择和非常好的投资保护,允许用户无论想使用收费软件还是想使用开源软件,都能够找到非常灵活、有利的位置。

相关内容