点存科技计算加速的秘密武器:NVIDIA网络
- +1 你赞过了
【天极网网络频道】如果回顾计算模型的发展历程,从最初的单机设备到传统的数据中心系统,再到如今云基础构建的平台,你会发现,每一次变革都伴随着信息处理效率和安全性的提高。如今,随着区块链技术和分布式账本技术(DLT)的发展。一种新的模型分布式云平台正在逐步成为业界关注的焦点。
Gartner预测,到2025年,超过50%的组织将使用分布式云,从而实现转型业务模式。分布式云平台具备透明性、安全性、可溯源性、降低成本等特性,在平台上用户能够轻松开发和部署分布式的应用程序,就像在传统的云平台一样。点存科技所开发的DC-Cloud正是这样的一个平台。
GPU Cloud加速计算的迅猛发展
近年来 ,GPU 在算力和训练方法上都取得了长足的进步,但在单一机器上,大型网络训练所需要的时间仍然较长,点存科技CEO 李浩天对天极网表示, 政企、影视公司等客户对于GPU算力资源的需求呈现出短期和集中性等特点,只在某一个时间段需要大量的并行计算资源,自建计算资源的成本是巨大的,因此,针对这类需求,可通过提供闲置的计算资源形成分布式资源池让用户按需使用、按量付费。
“CPU像是总工,善于处理各种复杂问题,例如结构概念设计、体系布置等等,但精力有限;GPU更像是一群助理工程师,他们只会进行简单的结构计算,但是人数众多,可以很快完成建模、画图等工作。”李浩天说。
解决算力挑战的秘密武器 —— NVIDIA网络加速
就像是每个硬币都有两面,虽然,GPU Cloud所带来的优势不言而喻,但要建好一个GPU Cloud却面临巨大的挑战:首先,构建GPU Cloud 需要足够的硬件支撑,由于GPU算力资源是紧缺,市场一直处于供不应求的状态,及时更新换代也是一大难题。除了GPU资源,机房建设、服务器等配套设施,对于个人和企业来说是一项巨大的成本投入;其次,GPU Cloud对网络的要求非常高,不同的用户在调用资源时,GPU 上会进行大量的运算和大量的数据传输,如果要减小远程GPU和本地GPU的性能差距,对网络的要求更高。最后,如果高效地任意调度GPU Cloud中的资源,对于软件要求也很高。李浩天对天极网表示,在产品开发过程中,点存科技通过市场对比,最终选择了行业顶级的NVIDIA作为合作伙伴。结合NVIDIA多年来的实践经验,点存科技的数据中心采用了基于NVIDIA SN系列白盒以太网交换构造的三层五级CLOS架构,IP Fabric形式组网,并使用基于EVPN-VxLAN提供的业务层服务。方案采用了现代数据中心的典型架构,在规划和部署上应用了大量的基于最佳实践的优化技术。
NVIDIA全栈网络:支撑算力“起飞”
据了解,在NOS平台的选择上,点存科技根据自身需求,在白盒平台上使用了NVIDIA Cumulus操作系统,实现了快速部署,有效提高自动化、管理、监控方面的应用水平。
在可视化方面,依托NVIDIA以太网交换机内置的“What Just Happened”故障快照技术,点存科技的运维人员可以第一时间发现和定位网络故障,并可以立即获得故障原因,从而提高故障定位和修复速度,显著降低了运维压力。
在产品选择角度,点存科技最终选择了25G以太网,作为其基础接入的带宽颗粒,100Gb作为其标准的汇聚带宽颗粒。使用NVIDIA的ConnectX-5系列25G高性能网卡,由于该款网卡具备支持高性能应用的能力,功能挖掘空间巨大,能够有效满足业务需求。
“目前,在行业内只有英伟达的产品能够满足我们的需求。”李浩天说。
NVIDIA网络:创新未来可期
虽然,业界大部分人对于NVIDIA的认知还停留在GPU上,但其在网络产品上创新的脚步也从未停止,据NVIDIA以太网产品总监 王栋介绍,NVIDIA技术栈和产品栈从应用API、从支持传统TCP,到支持基于RDMA的VERBS, 穿越了整个业务栈包括协议栈到达底层,底层则有交换机网卡芯片、DPU芯片(智能网卡芯片)、线缆、高性能芯片以及高性能芯片交换系统等,构造了整个业界独特的、端到端的产品和技术支持,以支持高性能产品的应用。
由于双方对于新一代产品和技术的迫切追求,新型云服务平台应运而生。据天极网了解,双方将会大在规模计算中心和先进的网络架构上有进一步合作,一起探索符合未来业务需求的产品。笔者认为,结合NVIDIA在高性能网络、应用加速和计算方面的优势,以及点存科技在软件开发及系统能力、数据中心运营能力和业务拓展能力等特色,能为客户提供更优质、高效的解决方案。
最新资讯
热门视频
新品评测