首页 > 行业资讯 > 正文

高性能计算的开端

多年来,高性能计算 (HPC) 具有多种含义。HPC 的主要目标是提供运行数据中心所需的计算能力,数据中心是一个致力于存储、处理和分发数据的实用设施。从历史上看,正在处理的数据是给定组织的业务运营输出。交易,客户资料,销售细节,诸如此类。目标通常是从大量事务信息中创建商业智能。

数据中心之旅,从中央公用事业到宇宙中心-数据中心是集什么三大要素于一身的数据基础设施

有时,数据代表研究。在这种情况下,商业智能是追求某种物理效应的知识——我们如何用测量数据推断更多,以提高我们的知识和利润?药物发现、油田分析和天气预报都是这种数据处理的例子。

多年来,数据中心使用硬件补充来执行此类操作,这些硬件主要包括阵列配置中的存储、计算和通信。更多的数据意味着更多的存储、计算和通信副本。

这种类型的数据中心有两个关键属性。首先,正在处理的数据是由真实世界的事件生成的。用于研究的销售、交易和物理观察数据都是以与人类交互一致的速度生成的数据示例。其次,数据处理以创建信息是使用程序软件系统完成的,由人类编写和调试。

指数增长的时代

在过去的大约 10 年里,上述范式在要处理的数据量和处理方式方面都发生了根本性的变化。让我们看看这两种现象。

数据不再由人类事件生成。由于广泛的传感器部署,再加上高度连接的环境,所有类型的设备都在以指数级的速度生成数据。您的智能手表会捕获有关您的锻炼方案和健康的详细信息。根据一项研究,自动驾驶汽车每小时运行可以产生5TB的数据。如果您考虑未来几年将有多少此类车辆投入使用,您可以清楚地看到数据雪崩。

Statista对这些趋势的综合进行了透视。下图是 2010 年至 2025 年全球创建、捕获、复制和使用的数据量的预计数据量(以泽字节为单位)。一个泽字节大约是一千艾字节或十亿太字节。请注意,在2010年,地球包含两个泽字节的数据,而到181年的项目量为2025泽字节。

数据中心之旅,从中央公用事业到宇宙中心-数据中心是集什么三大要素于一身的数据基础设施1资料来源:统计局

提取情报的方式也发生了变化。各种形式的人工智能 (AI) 用于从所有这些数据中提取关键的、可操作的见解。推理方法可以识别语音和视觉模式。强化学习技术可以从大量可能性中识别出最佳结果。

这种处理看起来也不像传统软件。它不是人类编写的代码。相反,它是大量的处理事件,通过检查大量信息和结果来操作和学习。

和指数级挑战

随着过去十年中信息生成、信息处理和存储的这种根本性转变,数据中心架构在同一时期发生了巨大变化也就不足为奇了。复制存储、计算和通信元素以满足需求的策略根本行不通。

数据量的爆炸式增长需要依赖分布式网络的新存储方法。无论计算速度有多快,都无法再使用中央处理器完成。相反,需要针对特定工作负载优化的自定义处理元素。他们中的许多人,在海量分布式数据集上以同步的方式执行不同的任务。沟通也大不相同。从性能(延迟)的角度来看,数据中心服务器机架中的离散网络接口卡 (NIC) 和架顶式交换机等概念在数据中心内移动数据不再有效。

数据中心复兴

现在有些组织从大量数据中推断情报是核心业务的一部分。这些公司引领了数据中心的复兴。这些公司被称为 超大规模企业, 重新定义了数据中心的架构及其在社会中的地位。谷歌、亚马逊、Facebook、微软、阿里巴巴、百度和腾讯都是超大规模企业。

他们各自以自己的方式推进了数据中心设计和信息处理的状态。谷歌构建了其张量处理单元(TPU),以提供运行AI算法的正确架构。亚马逊出于同样的原因建立了AWS Trainium。事实上,几乎所有的超大规模企业都在构建定制芯片来为其数据中心提供动力。

数据中心的配置方式也在发生变化。内存、存储、处理能力和网络带宽等关键元素现在已池化。然后,可以根据特定工作负载的需求组合和部署这些资源,而不是在服务器中配置这些资源的正确组合。随着工作负载的变化,数据中心的架构也会发生变化。这种方法被称为可组合数据中心。

数据中心的商业模式也发生了变化。虽然在现场,私人设施仍然相当普遍,但建造和运营下一代设施的极端成本可能令人望而却步。结果,那些能够建造它们的人这样做,他们也向那些不能建造它们的人出售能力。这就是云计算的诞生。这个过程类似于芯片制造的情况。许多公司拥有并经营晶圆厂,直到成本变得令人望而却步,技术变得非常复杂。在这一点上,出现了一些关键参与者,他们为任何需要的人提供晶圆厂的能力。

以及更多挑战

正如他们所说,魔鬼在细节中。数据中心的复兴绝对是正确的。最终结果在范围和影响上都非常壮观。但是,实现所有这些功能会带来一系列挑战。

众所周知,摩尔定律正在放缓。进入下一个工艺节点无法获得成功所需的性能、能源效率和成本降低。摩尔定律的扩展优势仍然很重要,但其他策略也开始发挥作用。

摩尔定律的规模复杂性现在辅以一系列利用系统复杂性的策略。用于执行特定 AI 算法的专用定制设备就是其中之一。TPU和Trainium就是这样的例子。创建由芯片、密集存储器或小芯片组成的多芯片设计到单个系统中的方法是另一个艰巨的挑战。添加大量内存作为 3D 堆栈并同步大型且高度复杂的软件堆栈以在这些新架构上运行也是如此。

公共云计算也高度重视安全性。在公共云数据中心中创建的信息和见解非常有价值。需要硬件和软件系统来保护该信息的安全。

这个创新的新时代将摩尔定律的规模复杂性与利用系统复杂性的新方法相结合。我们称之为SysMoore时代,它正在改变我们所知道的生活。

迎接系统摩尔时代的挑战

驯服大型芯片和芯片系统的设计复杂性是成功的关键项目。将所有这些技术集成到一个统一的系统中的方法则是另一种。还需要强大的验证、强大的安全性和可靠性,以及低能耗和值得信赖的预验证构建块来源。

好消息是,Synopsys 全面专注于高性能计算和数据中心开发。我们为整个过程提供端到端的解决方案,具有强大的设计优化和生产力。我们的预验证 IP 产品组合可满足所有要求。我们甚至可以提供设计服务,帮助您建立下一个企业,在设计、实施和验证EDA工具和方法方面拥有熟练的资源,以及在先进技术节点中集成复杂的IP。

我们还可以向您展示如何在现场部署设计后监控和优化设计性能,并集成最新的光子学功能。

数据中心确实已经走了很长一段路。它们不再只是一个实用程序。最先进的设施产生的见解改善了我们的健康和安全,使我们的社会团结在一起,甚至改善了地球的环境。他们现在确实是宇宙的中心。

审核编辑 黄宇

猜你喜欢