回首IT的历史变迁,半个世纪可谓发生了翻天覆地的变化。上个世纪60年代是IBM大机时代,进入80年代后PC成为主流,诞生了像微软、英特尔这样的一些大公司,90年代以后特别是2000年以后移动互联网的普及,我们迈入了大数据、云计算的时代。同样在整个数据存储层面也经历了种种变化,存储形态是"分久必合,合久必分"。最开始的存储形态就是本地机械硬盘,大机时代存储和计算分离,出现直连式的JBOD存储,再后来诞生了我们现在熟知的基于SAN网络、NAS网络的独立存储系统。2000以后互联网的到来,数据量越来越大,从GB级别像PB级别有一个很大的飞跃。这时候包括谷歌、亚马逊等很多互联网公司开始通过分布式存储形态来构建基于海量的数据存储系统。
什么叫分布式存储,业界有很多定义,其中有个定义英文名称叫Server SAN,就是将通用X86服务器的本地存储资源通过网络融合成一个很大的存储资源池,从而实现海量的存储资源和线性的拓展能力,同时降低TCO。华为公司FusionStorage 就是这样一款产品。对上层业务来说,FusionStorag主要支撑两种业务应用,一种是虚拟化场景;另一种就是数据仓库,在整个分布式架构里面,它能够更好的支撑数据库,特别是OLAP分析的业务。该产品有三个核心的关键点,分别是高可扩展性(High Scalalility)、高性能(HighPreformance)和开放兼容(Open),华为称之为H2O。H2O是水的化学式,FusionStorag的特性恰恰暗合了水的特性,随需而动,充满能量又海纳百川。

分布式存储架构解决了传统架构的I/O 瓶颈
那么这些特性对客户的价值又是什么呢?首先来讲开放性,其最大的价值是支持客户现有的环境,可大规模利用已有的通用X86服务器,兼容主流操作系统和数据库,保护软硬件的投资。其次是高性能,分布式的技术突破了传统存储机头的性能瓶颈,能够以少聚多,达到千万级的IOPS,这对于高带宽高吞吐要求极高的应用显然是至关重要的。最后来说高可用性方面,软件定义的N+M副本模式相较传统RAID也是优势明显,在分布式存储上1TB的数据恢复时长大概仅仅30分钟左右。
以金融机构为例,因为遇到互联网的挑战、政策的约束和成本压力,传统越来越大的核心系统显得不可持续。整个金融的改革是希望做一个小的核心系统,业务系统最好是做到平台化,所有的业务都是即插即用,比如说网银、征信。那么怎么做到呢,分布式技术就是一剂良药。使用通用的低成本的X86服务器所构建的高性能大容量高可靠的存储资源池来取代价格高昂、技术难度高,弹性不足的高端存储阵列,在商业部署上完全实现了核心IT架构由Scale-up到Scale-out的转型,可使IT基础设施实现大规模弹性扩容,以适应未来业务发展。
华为分布式存储在中国已有很多成熟的商用案例,金融、电信、能源、政府都是先行者。这不仅得益于华为先进的技术,也来自于华为立志本土,贴近客户的执着。华为愿和业界同仁共同探索,携手构建更好的IT生态系统。
好文章,需要你的鼓励
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。