IBM的通用并行文件系统(简称GPFS)将很快经由蓝色巨人的线性磁带文件系统,也就是LTFS的企业级版本,与磁带库中的文件“交会”。
LTFS包含一套自描述性磁带格式,其中保存在介质上已知位置的元数据负责定义磁带中的文件内容。LTFS支持LTO5、LTO6以及TS1140几种磁带格式,而主机设备可以利用LTFS实现面向磁带的拖拽操作以及文件:文件夹图形化用户界面。
尽管GPFS目前已经被划入Elastic Storage品牌之下,但IBM仍然在继续开发一套LTFS EE(即企业版本)产品,旨在为GPFS与LTFS架起对接的桥梁。
IBM公司德国分部客户技术架构师Frank Kraemer表示,用户可以“将任意LTFS磁带纳入这款磁带库,利用LTFS EE命令将内容进行导入,相关数据内容将由对应导入规则加以定义并显示在GPFS文件系统当中。”
之所以能够实现这样的效果,是因为LTFS EE“利用内部‘隐藏’GPFS文件系统以保持LTFS元数据与GPFS之间的映射关系。”
借助这套方案,我们可以将规模庞大、访问频率较低但却必须保留的GPFS数据保存在低成本但却具备出色可靠性的磁带之上,而不必让其占用相对昂贵的磁盘存储空间。
LTFS EE数据导入/导出机制
IBM在LTFS官方网站上作出如下说明:
IBM线性磁带文件系统企业版本(简称LTFS EE)为企业用户提供一套简便方案,旨在以突出的成本效率在分层式存储基础设施当中使用IBM的磁带驱动器与磁带库。那些利用磁带库来取代原本作为二级与三级数据存储(即数据长期保留机制)磁盘设备的企业用户也可以借此提高效率并降低使用成本。除此之外,LTFS EE能够以无缝化方式集成GPFS的可扩展性、可管理性以及性能表现,这套由IBM打造的企业级文件管理平台能够帮助用户摆脱以往单纯添加存储资源的束缚、对数据管理作出优化。
IBM表示“利用LTFS EE,企业用户能够轻松在全局存储环境之内共享针对磁带与磁盘存储内容的访问能力。”
我们必须强调的一点是,“在大型GPFS集群当中,LTFS EE实例的数量最小需要为两套,而如果有必要、大家也可以将其扩展到全部GPFS NSD服务器节点当中。”
蓝色巨人指出,用户可以通过LTFS EE或者GPFS策略对同一套站点内的磁带资源进行双重管理。如果需要具备多站点电子副本功能,那么同时采用两套实施方案也是完全可行的。GPFS AFM能够被用于在两套站点之间进行数据复制,或者利用一套简单脚本实现重新同步、从而完成此类复制任务。
IBM指出,“磁带驱动器以及LTFS EE服务器的性能表现可借助LTFS EE软件实现负载平衡,从而确保数据传输速度与数据可用性始终保持在最高水平。”
LTFS EE目前支持的磁带库分别为采用LTO 5、LTO 6以及IBM 3592 JB、JC以及JK格式的IBM TS4500与TS3500库。用户必须使用GPFS v3.4及其后续版本。
Kraemer补充称:“这是一款新兴产品,但客户对其保持着高度关注,而且早期体验者已经开始了自己的试用之旅。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。