AMD Alveo™ V80发布!为内存密集型工作负载提供强大加速

AMD Alveo™ V80加速卡是AMD推出的首款大规模市场化的加速卡产品,采用了Versal FPGA自适应SoC,为大数据集提供FPGA灵活性与HBM,适用于处理计算密集型和内存密集型的工作负载

近日,AMD发布了全新Alveo™ V80加速卡,专为内存密集型工作负载提供灵活应变的加速。

4

据AMD自适应和嵌入式计算事业部(AECG)高级产品线经理Shyam Chander介绍,Alveo™ V80加速卡是AMD推出的首款大规模市场化的加速卡产品。它采用了Versal FPGA自适应SoC,为大数据集提供FPGA灵活性与HBM,适用于处理计算密集型和内存密集型的工作负载,主要服务于高性能计算、数据分析、金融科技、存储等领域。

与前代产品相比,Alveo™ V80的性能能提升至高2倍,并且逻辑密度翻倍,存储器带宽翻倍,存储器的性能也有很大的提升。另外,Alveo™ V80提供了非常熟悉的FPGA开发流程,有AMD的Vivado™工具设计框架可以用于Alveo硬件,可以帮助客户更好地部署。目前,Alveo™ V80加速卡已投入量产。

AMD Alveo™ V80加速卡:为计算密集型工作负载解决内存与带宽挑战

随着高性能计算、数据分析、网络安全、传感器处理、计算存储和金融科技等领域对内存密集型工作负载的需求日益增长,这些应用通常涉及大型数据集,并要求硬件具备足够的灵活性以适应工作负载的优化需求。

1

传统的大数据集工作负载处理流程示意图

传统的大数据集工作负载处理流程往往在存储器和网络访问方面容易遇到瓶颈,在高性能计算等应用场景中也不例外。

首先,在内存方面,无论是DDR4还是DDR5,带宽非常有限,无法和PCIe相媲美,经常达不到CPU、FPGA等各种芯片、计算传输的需求。其次,在网络方面,传统方案往往是固定网络接口与带宽,一旦需要超大规模数据传输,就难以满足。因此,解决计算密集型工作负载内存与带宽的挑战成为AMD 研发Alveo™ V80的重要一环。

AMD AlveoTM V80

AMD Alveo™ V80的大数据集工作负载处理流程示意图

AMD Alveo™ V80加速卡基于7nm Versal™自适应SoC架构,并配备了高带宽存储器 (HBM),不再需要DDR4或其他外部芯片,打破了传统的大数据集工作负载在内存与网络访问的局限,把安全连接和灵活应变的计算融合,可以帮助用户实现性能最大化,同时减少功耗、占板面积以及时延。

此外,AMD Alveo™ V80融合了FPGA的灵活应变来处理大数据集的工作负载。与前代产品相比,它的性能提升至高2倍,包括逻辑密度翻倍、存储器带宽翻倍。并且,Alveo™ V80支持使用AMD Vivado™ Design Suite的传统FPGA设计流程,使得开发人员可以更加容易地利用这款加速器卡。

基于对提升逻辑密度、存储器带宽和网络带宽的着重设计,AMD Alveo™ V80加速卡能够有效处理多种大数据工作负载,涵盖了从高性能计算(如基因组学和传感器数据处理)、数据分析(例如欺诈检测)、金融科技(包括风险分析和算法交易)、网络安全(如数据包检查)到存储(其中数据压缩尤为关键)等多个领域。此外,它在AI计算领域也表现出色,支持推荐引擎和大型语言模型等应用。因此,Alveo™ V80能够帮助客户显著提升这些工作负载的处理速度,优化数据处理流程,提升整体工作效率。

AMD Alveo™ V80:满足大规模加速内存密集型工作负载

作为Versal HBM系列中最大的器件,AMD Alveo™ V80采用全高、3/4 长( FH¾L )尺寸规格,由 AMD Versal™ HBM 自适应SoC提供支持,整体包含一个32GB的DDR4 DIMM扩展插槽、能够提供250万个LUT的可编程逻辑、10,890个DSP计算逻辑片以及820GB/s的存储器带宽。 Alveo™ V80还采用了PCIe Gen5接口,支持64G的传输速率,并支持MCIO的连接,有可扩展的GTY,可以实现存储卡的一系列连接。

AMD AlveoTM V80加速卡

AMD Alveo™ V80加速卡整体架构

Shyam Chander表示, Alveo™ V80芯片的关键特点包括其超高的带宽,集成了高带宽网络核心和加密引擎。其次,它配备了大量的DSP计算逻辑片,提供比前代产品高达2到3倍的DSP性能。此外,V80还具备硬化的计算基础设施连接,即所谓的超级通道,这使得集成过程更加轻松便捷。

据了解,预构建、硬化的数据中心基础设施连接正是使用了V80加速卡来实现这种硬化的Versal连接,可以非常方便地连接板载扩展内存、以太网络、MCIO端口,以及高性能的EPYC处理器。

预构建、硬化的数据中心基础设施的连接

AMD Alveo™ V80硬化的计算基础设施连接

Shyam Chander通过列举了AMD Alveo™ V80在澳大利亚联邦科学与工业研究组织天文天线阵列和在金融科技方面的应用案例,说明了V80计算加速卡在高性能计算、AI、数据中心等应用领域的优势。

联邦科学与工业研究组织CSIRO是澳大利亚国家级研究机构,参与了世界最大射电天文天线阵列的建设。该阵列目前包含420块Alveo U55C加速卡,主要通过处理无线电波来研究早期宇宙并探索信息演化。该阵列持续传感器数据传输速度能达到每秒15TB,工作负载主要是传感器的实时传输还有波束成型和连接器。

由于工作负载主要涉及DSP,CSIRO的工作负载就愈发复杂,不仅需要迅速扩展计算资源,而且需要在有限的机架空间内优化设备布局,以便数据中心能够容纳更多的设备。在这个过程中,还需要支持不断提高的计算功耗和功能灵活性需求。简而言之,在相近的总拥有成本下,目标是在相近的总拥有成本下,实现比前代产品高出三倍的算力,同时考虑到有限的机架空间限制。

因此,CSIRO选择了V80计算加速卡来提升计算性能,并增强Versal上的DSP引擎,以降低时延并实现高精度的实时工作负载。而DSP58相关功能得到了显著增强,其强化的Versal DSP计算逻辑片相较于前代产品,性能提升了大约2到3倍。并且每张卡的密集计算简化了集成、扩展和集群的部署过程。

2

传感器处理扩展算力及总拥有成本降低的估算情况

金融建模和算法交易是金融科技领域的两个重要应用。AMD Alveo™ V80为金融科技领域提供了强大的技术支持,能够处理复杂的金融模型和算法交易,同时确保了数据处理的高速度和准确性。

一方面,建模仿真和回测的用例依赖于密集计算架构和DSP,主要在FPGA上实现,而HBM被用于处理大数据集和历史定价数据。另一方面,低时延算法交易用例体现在加速交易策略和期权定价的过程。此外,还有752Mb的RAM用于存储定价数据和交易记录。同样,HBM也用于处理订单信息。

3

金融建模和算法交易案例

正如Shyam Chander所说,AMD计算加速卡采用的自适应SoC架构能够在计算和存储器带宽方面提供非常高的性价比,Versal系列产品能够给客户提供包括逻辑资源和低时延、可扩展性、能效、存储器、带宽等各方面的价值,而Alveo™ V80可以应对非常广泛的工作负载和需求。

相关推荐

发表评论