国云注智天翼云打造智算平台建设新样板

近日，ArchSummit全球架构师峰会在深圳隆重开幕，本次大会以“智能进阶. 架构重塑”为主题，探讨AI浪潮下，企业架构如何适应大模型和云原生的时代趋势，寻找既有应用成果又有成本效益的解决方案。

近日，ArchSummit全球架构师峰会在深圳隆重开幕，本次大会以“智能进阶. 架构重塑”为主题，探讨AI浪潮下，企业架构如何适应大模型和云原生的时代趋势，寻找既有应用成果又有成本效益的解决方案。国内外100余名顶尖专家齐聚一堂，围绕AI、大模型、云原生等话题展开深度交流。天翼云云网产品事业部研发专家黄坚受邀参会，并在“智算平台建设与应用实践”专题会上发表主题演讲，分享了天翼云在超大规模智算集群运维及管理方面的创新思路和实践经验。

国云注智天翼云打造智算平台建设新样板

天翼云云网产品事业部研发专家黄坚

随着大模型风潮来袭，加快建设超大规模智算集群，已成为增强多元算力供给的重要措施。与传统云原生大规模场景相比，超大规模智算集群的管理复杂度和难度更高。黄坚表示，当前，在充分发挥超大规模智算集群的算力方面，整个行业还面临着诸多挑战：

● 首先，智算业务与底层算力高耦合。在基于transformer衍生出来的智算生态中，要求最大化使用底层算力，这就要求从业者既要懂算法，又要懂算力，同时需要具备结合算法算力的工程化思维，从算子优化、算子融合、并行计算等多个方向提升算力的使用效率。

● 其次，硬件无明确异常指标，定位难度大。虽然通过监控可以覆盖一些明显的软硬件问题，但更多类似于光模块故障等问题，需要综合光衰、温度、功耗等多个维度，并结合业务异常，才能实现准确定位。

● 再次，日常管理复杂度高。超大规模智算集群规模大、数量多，如何实现百万量级元器件的系统化、模块化、周期化管理，并与业务方进行有效协同，是运维的难点。

作为云服务国家队，天翼云加强核心技术自主研发，积极探索超大规模智算集群运维之道，不断升级产品和生态矩阵，为AI开发者提供“供得上、用得起、用得好”的智算服务。

在平台层面，天翼云全新升级一体化计算加速平台“云骁”，“云骁”具备超大规模集群管理、运营和算力加速能力，可提供通智超一体化服务，集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力于一体，让智算更快、更稳。

在算力层面，天翼云加速推进多层次智算算力布局，打造万卡级超大规模智算中心，满足快速增长的智算算力需求。目前，天翼云上海临港国产万卡算力池已正式启用，这不仅是国内首个投入正式运营的国产单池万卡液冷算力集群，也是业内领先的全国产化云智一体公共智算中心，创新性采用网络中置、算力分层的“魔方”型组网，实现了单一集群内万卡高速互联，满足万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通信等需求。

未来，天翼云将持续坚持科技创新，深耕云智一体，不断夯实国云智算底座，为数字经济发展与数字中国建设注入澎湃动能。

来源：业界供稿

天翼云

0赞

好文章，需要你的鼓励

国云注智 天翼云打造智算平台建设新样板

来源：业界供稿

2024

06/19

10:42

分享

点赞

英特尔至强6助力阿里云第九代企业级ECS实例100天赢得超万家客户青睐

清华大学团队揭秘AI视觉识别“轻装上阵"的秘密：无需真实数据也能让神经网络变聪明

超智算完成亿元级天使轮融资 助力石景山智算中心成为“算力新基建”标杆

AI编程挑战赛首轮结果出炉：最高得分仅7.5%

阿里巴巴发布Qwen3-Coder-480B编程模型，可能是最佳编程模型

The Ocean Cleanup携手亚马逊云科技 利用AI技术加速清除海洋塑料

SecurityPal结合AI与专家团队将企业安全问卷处理速度提升87倍

皮查伊对谷歌云与OpenAI合作表示"非常兴奋"

SAP亚太区新增商业AI 客户，推动第二季度增长动能

我们正在见证机器心理学的诞生吗？

Google将AI驱动的照片生成视频功能扩展至更多应用

承包商如何加速数据中心建设进度

天翼云CPU实例部署DeepSeek-R1模型最佳实践