在广播、媒体、零售、地理信息系统等一些面临最严峻的数据存储挑战的行业里,很多企业不再将他们的数据称为“数据”,而是称其为“内容”、“资产”或“信息”。
这些企业认识到,他们的员工或客户可以利用这些数据信息来为企业创造价值,进而深入地去了解如何帮助企业增加收入、促进产品上市、赢得竞争优势、并且提高利润率。它表明存储不仅仅是支出,更能够赋能企业。目前业界对这一认识的支持率有不断增高的趋势。
昆腾的许多用户都属于此类思想领先的公司,以下是从他们的经验中吸取的一些重要经验:
经验之一:选择适合数据或信息“工作流”的存储系统:这是显而易见的道理,因为任何行业对数据的处理过程都是一个工作流的过程,例如数据的产生(采集)、编辑加工、再加工、分发结果等。在工作流中,数据不能丢失,还要能够在全球范围内将其分享,同时根据不同业务的需求还要能够帮助快速访问数据。 因此,工作流对存储有着特殊的需求。然而,许多公司却试图用通用型的存储去满足本来无法满足的特殊需求。例如,对于某大型零售公司,存放广告的视频和图像的存储竟然和存放大数据库和邮件用的是一样的存储。其实,我们应该为工作流选择适合它们特点的存储,根据工作流和用户的需求、针对每个数据类型来考虑并设计存储系统。
经验之二:将更多的数据存储更长的时间,使用户能够从数据中获得更多价值:例如,基因组测序的研究数据就是一个很好的案例,当前的研究完成后,有时候不能立刻知晓结果的价值如何。然而,几年后的研究可能会产生出更加重要的发现。这正是前期的数据是“具有不可预测价值的数据”的有力证据。 地理空间信息系统也是如此,当前捕获的卫星图像可能对10年后的任务或行动提供支持。由此可见,长期保留数据的价值是不可预测的。
分层存储系统是目前将更多的数据存储更长的时间的最优方法,也是最节约资金的一种方法。大多数数字内容都是“非结构化”的,是无法缩减或压缩的大文件,而且大多数此类内容需要保持可用性和可访问性。不过,它们可能在一段时间内,数天甚至数年都不会被访问。通常的正确做法是分层存储系统,即用加工时使用闪存存储-速度最快,而加工完毕长期保存时使用磁带这种成本低、功耗低的存储-速度够用、但成本最低。其他类型的存储如NAS、块存储、对象存储和云存储等也可以在大多数工作流中发挥作用。事实上,我们期望云计算在未来能够成为大多数分层存储工作流的一部分。
经验之三:用户首先要先能访问数据,然而才能从数据中发掘出价值:一些企业已经设计了基于数字资产工作流的存储系统,并且设计了支持其企业的分层存储系统来存储更多数据。 其下一步是确保最终使用者(电影剪辑师、设计师、营销管理者、科学家、分析师)可以在需要时无需通过IT部门就可以访问数据。因此,我们需要的存储必须是在全球范围内可以实现跨站点的共享的存储,并且是容易访问的存储。目前来说,LTFS磁带、基于对象的云存储技术、以及其他新的开放存储模式都可以帮助促进数据共享和快速访问。
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
上海AI实验室联合多家顶尖机构开发出全球首个科学推理大模型SciReasoner,该模型在2060亿科学数据上训练,支持103个科学任务,能够像科学家一样进行逻辑推理并展示思考过程。它实现了化学、生物学、材料科学等多领域知识整合,在分子设计、性质预测、文献分析等方面表现出色,为科学研究提供了强大的AI助手工具。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
南洋理工大学研究团队开发出SHINE方法,这是一种无需额外训练就能实现高质量图像合成的新技术。该方法通过巧妙引导现有AI模型的潜能,能够在复杂光影条件下完美合成图像,包括准确的阴影生成和水面倒影效果。研究团队还创建了ComplexCompo基准测试集,验证了SHINE在各种挑战性场景中的卓越性能,为图像编辑技术的发展开辟了新方向。