云服务商的五大最佳实践

现代 数据中心 技术日新月异,云服务商、托管服务商等IT服务提供商在管理数据中心时面临着诸多复杂问题。为应对这些挑战,云服务商可通过以下五种最佳实践,提升数据中心运营效率。

引入液冷技术提升性能

近三十年来,数据中心的输出量持续增长,主要受 AI服务器 技术需求急剧增加的推动。然而,环境可持续性问题依然存在。新型服务器搭载最新的CPU和GPU,逐渐逼近空气冷却的极限,这就需要采用液冷技术,以保证微处理器和加速器在设计限制内运行。此外,如果数据中心的功率预算成为长期问题,CSP应考虑使用液冷来降低整体数据中心的电源使用效率(PUE)并减少HVAC冷却功耗。

许多数据中心的功率预算为每机架10千瓦到12千瓦,这对于装满服务器、GPU服务器和存储系统的机架来说是一个巨大挑战。针对AI优化的新系统,单台服务器可能消耗高达10千瓦的功率,导致每机架功率增加到100千瓦左右。经过充分测试的液冷解决方案允许更高密度的服务器和GPU加速服务器部署;外部热交换器比传统的HVAC冷却更高效。液冷基础设施必须在机架交付前就开始规划。与在机架级别具有液冷经验的公司合作,对于高效的数据中心至关重要。

新一代高性能液冷基础设施已经可以支持CSP的数据中心需求。我们的全新解决方案经过精心设计和测试,可支持高密度和高热设计功率(TDP)的CPU和GPU。这些解决方案在系统、机架和集群等各个层面都经过严格验证和测试,以确保最高水平的一致性和可靠性。

供应商选择和及时的技术更新

在技术领域,增长一直是不变的主题。然而,一味等待最新最好的技术已被证明是一种徒劳的策略,因为新技术和改进不断涌现。能够战略性地规划和应对关键技术变革,并实施升级或迁移策略,可以最大化买方的利益。

此外,服务的扩展和技术的同步增长并不总是与人员和资源的增加相匹配。CSP必须与可靠的供应商合作,这些供应商能够提供经过预先测试和组装到机架中的先进服务器、存储和网络解决方案,并配备合适的软件栈。这种合作关系可以帮助缓解数据中心面临的一些挑战,加快新服务的部署或现有服务的升级。作为向各种规模的CSP提供机架级解决方案的领导者,我们在产品开发、供应链物流、服务和支持以及规模化和测试方面积累了丰富而相关的经验。能够与具有深厚合作关系的供应商合作,这些供应商可以与您分享过渡计划、成本影响和供应链问题,这一点至关重要。

此外,采用分离式或模块化的服务器和机架方法意味着可以升级特定组件或服务器,而无需更换所有组件或整个机箱。新一代服务器能够以更高的能效执行更多工作,但也可能需要更多的功率。在安装初始服务器和机架时,数据中心的设计不应受到机架功率要求的限制。通过与供应商密切合作,CSP将能够更好地理解数据中心潜在技术的标准和必要条件。

紧跟最新服务器设计

为了应对成本管理问题,采用新技术可以在降低成本的同时提高性能。例如,根据所需的服务级别协议(SLA)、代码库和矩阵处理级别,AI工作负载可以在CPU或GPU上运行。有些工作负载可以从CPU转移到辅助数据处理单元(DPU),DPU同时充当网络接口和数据处理单元。

然而,某些工作负载将从定制方案中受益,例如使用现场可编程门阵列(FPGA)。CXL 2.0的引入在直接附加到DRAM之下但在SSD之上的内存层次结构中提供了另一层。此外,这还引入了内存池化的概念,可以灵活地分配给系统上的特定CPU,缓解了直接附加到CPU但未充分利用的内存问题。这些新技术可能有利于特定服务的工作负载和软件栈。在大规模部署之前,在概念验证(POC)环境中测试新技术也是至关重要的。与硬件合作伙伴合作,在这些新技术上进行早期POC测试,是获得竞争优势的关键。

尽管最初的讨论可能集中在为特定工作负载选择合适的服务器,但话题很快会转向机架规模集成。随着现场机架数量的增加,了解整个数据中心的运作和限制变得至关重要。数据中心必须被视为一个整体,从冷通道和热通道的分离、强制空气冷却、冷却器和风扇的规格,到电力分配等方面都需要考虑。冷却技术的讨论必须在项目初期就开始,因为根据CSP选择的空气或液冷方案,数据中心的物理基础设施将有所不同。

测量、管理和供应链

要准确评估当前数据中心的效率,需要使用工具测量CPU、存储和网络的利用率。这些工具也可以在集群级别进行操作。它们可以提供有关现有瓶颈位置以及资源过度或不足利用情况的宝贵信息。此外,还可以测量CPU和服务器的温度,从而在问题导致故障之前识别潜在隐患。

对于云服务商的数据中心来说,很可能会同时被多个客户使用,因此需要一个作业管理调度器来保持数据中心的高效运行。在资源有限的情况下,并非所有对计算、存储或网络的请求都能得到满足,作业或应用程序可能需要在所需资源变得可用或获得额外软件之前进行调度或适配。

在管理供应链方面,找到并管理好供应商中的"最薄弱环节"是最佳做法。虽然我们不提倡供应链等级或分级制度,但简化关键供应商的供应链是订购、安装和支持的理想最佳实践。一个能够提供服务器、存储、网络、第三方软件解决方案以及机架集成的单一供应商,甚至可以将独特的第三方硬件集成到单一系统中,这是理想的选择。

制造专业知识和构建CSP的经验

业内鲜为人知的事实是,几乎所有大型原始设备制造商(OEM)都将其产品的制造、设计和供应链外包给了原始设计制造商(ODM)和合同制造商(CM)。OEM主要专注于这些产品的营销和销售。与一家从机箱到主板以及电源供应器都自主设计所有产品的公司合作,并在靠近客户的地方进行制造,是非常有价值的。从客户的角度来看,这意味着数据中心供应商可以更加灵活,提供更快的交付时间,并最终通过减少中间环节、加快运输和规模经济效应降低总体拥有成本。

与在数据中心采用新技术一样,将所有资源集中在一个供应商身上可能存在风险。选择数据中心解决方案提供商不是边干边学的时候,也不适合与一家更关注自身托管服务或制造笔记本电脑的公司合作。相反,与专注于数据中心,并且长期与服务提供商和大型HPC服务器集群合作,为最大的超大规模运营商、OEM和企业提供解决方案的B2B公司合作,对CSP来说大有裨益。

结论

作为CSP,高效运营数据中心需要周全的规划和与全方位服务提供商的紧密合作。数据中心的启动时间、SLA和整体效率受到诸多因素的影响。无论建设公共共享数据中心还是私有数据中心,都离不开精细化的规划。深入掌握服务器和机架技术,积极探索新技术和解决方案,是确保数据中心长期稳定运行的关键。