本文作者:Supermicro市场营销与网络安全副总裁Michael McNerney
如今的IT部门必须响应企业内诸多部门提出的各种要求。企业在建设全面数字化基础设施的过程中,势必会开发和部署一系列的新技术。随着物联网技术的发展和边缘计算的需求不断增长,数据中心必须进行现代化改造,尤其是数据处理的能力必须比最初的设计高出几个数量级。
各式各样的服务器和软件产品,以及易于使用的解决方案,可助力各种规模的企业顺利实现自己的业务目标。但挑选符合您需求和环境的系统是一项棘手的工作,在此我们加以简要说明,以便帮助您做出适当的选择:
边缘和物联网
边缘基础设施所需的组件与数据中心所需的组件迥然不同。在边缘采集和过滤传感器数据的服务器,以及用作电信基础设施的服务器,均与装备了空调的数据中心所安装的服务器有着很大不同。
处于边缘的服务器系统需要承受各种恶劣的室外环境,能够在发生地震的情况下保持运行,甚至需要承受各种人为的破坏。很多时候,系统必须具备自冷功能(无风扇),并且需要在低功率条件下运行。所以说,针对这些实际的环境选择合适的设备可谓至关重要。NEBS 3级认证可以用来判断设备是否能够应对这些极端的边缘环境。通过了该项认证的服务器满足严格的规范要求,包括热性能测试、气流模式、声学限制、故障备援和部分运行等要求。
分布式数据中心
并非所有的数据中心都包含数以千计的服务器和存储系统,并且消耗数以兆瓦计的电力。在不具备大规模数据中心弹性的受控环境中,我们可以采用中级系统。在这样的环境中,气流也许有限,但与边缘相比,它的外部条件没有那么严苛。另外,由于物理空间可能会受到限制,因此计算和存储系统的密度成为了关键。请务必根据数据中心的具体需求来选择供应商提供的各种硬件。由于这些需求通常都会提前掌握,因此您可以依据比较详细的规范来选择服务器。
大型数据中心
大型数据中心包含各种各样的服务器、存储器和网络系统。我们可以选择各种外形尺寸的设备,具体取决于工作负载以及存储和网络功能的需求:
诸如刀片式服务器之类的高密度计算系统可以实现HPC、数据分析等工作负载。
可以容纳多个GPU的系统特别适用于人工智能和机器学习。
共享的冷却和电源设备可以减少用电,从而降低环境影响,但是扩展性比较差。
用于实时分析的专门应用需要海量内存。
有些应用可以在一个机箱中容纳4个CPU,而传统的企业工作负载则可以采用较低成本的单插槽系统。
大型数据中心的需求在不断地发展变化,供应商如果能够为实施大型数据中心的企业提供具备各种外形尺寸以及各种容量和功能的服务器和存储器,那么就能够获得客户的信赖。
接下来是评估您的基础设施,并确定完善您的数据中心所需的存储器和软件产品。
储存器的选择
传统硬盘正在被固态硬盘取代,因为固态硬盘访问数据的速度要快得多。此外,因为固态硬盘消耗的功率比传统硬盘少,所以它的运行成本也比较低。客户的存储需求各不相同,所以任何基础设施项目都必须能够提供适当性能和容量的存储系统,这一点至关重要。包含这两种硬盘的系统可以将企业存储进行分层,其中“热”数据存储在固态硬盘上,而“温”数据和“冷”数据则存储在容量比较大的传统硬盘上。
持久内存(Persistent Memory)等新技术为整合存储提供了一个全新的视角。持久内存在断电后仍可保存数据,并可扩展CPU能够及时访问的内存范围。企业如果需要极端冗余和故障保护,以实现安全、合规或客户服务,那么就应该考虑采用持久内存。总之,您需要分析自己的存储需求,了解应用针对检查点和重启有什么不同的算法。
软件生态系统
无论是边缘上的单个服务器还是大规模的云数据中心,软件在实施服务器和存储基础设施的过程中都可以发挥重要的作用。除了系统供应商为服务器的机架级监测和控制而提供的软件之外,将适当的硬件与基础软件相结合的各种解决方案也至关重要。
开放式系统基于行业标准CPU、操作系统和规定接口,允许预装或加载大量重要的软件。许多最终客户要求测试并安装特定的软件堆栈,以简化服务器和存储系统的启动,从而加快投产。您也可以考虑能够满足自己需求的整体解决方案,与自行组装相比,这样可以进一步加快投产速度。
快速响应并符合各种IT需求的服务器和存储系统将是未来的趋势所在。CPU性能、存储容量和功率需求仍将是其中的关键因素,既有可能促成也有可能破坏有效且优化的解决方案。同样,从边缘到超大规模数据中心,工作负载各不相同,硬件的选择必须符合客户的需求。尽管OEM供应商提供的全面产品乍一看似乎令人望而生畏,但实际上定义最终用户需求并确定适当的解决方案将使大家受益匪浅。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。