在广播、媒体、零售、地理信息系统等一些面临最严峻的数据存储挑战的行业里,很多企业不再将他们的数据称为“数据”,而是称其为“内容”、“资产”或“信息”。
这些企业认识到,他们的员工或客户可以利用这些数据信息来为企业创造价值,进而深入地去了解如何帮助企业增加收入、促进产品上市、赢得竞争优势、并且提高利润率。它表明存储不仅仅是支出,更能够赋能企业。目前业界对这一认识的支持率有不断增高的趋势。
昆腾的许多用户都属于此类思想领先的公司,以下是从他们的经验中吸取的一些重要经验:
经验之一:选择适合数据或信息“工作流”的存储系统:这是显而易见的道理,因为任何行业对数据的处理过程都是一个工作流的过程,例如数据的产生(采集)、编辑加工、再加工、分发结果等。在工作流中,数据不能丢失,还要能够在全球范围内将其分享,同时根据不同业务的需求还要能够帮助快速访问数据。 因此,工作流对存储有着特殊的需求。然而,许多公司却试图用通用型的存储去满足本来无法满足的特殊需求。例如,对于某大型零售公司,存放广告的视频和图像的存储竟然和存放大数据库和邮件用的是一样的存储。其实,我们应该为工作流选择适合它们特点的存储,根据工作流和用户的需求、针对每个数据类型来考虑并设计存储系统。
经验之二:将更多的数据存储更长的时间,使用户能够从数据中获得更多价值:例如,基因组测序的研究数据就是一个很好的案例,当前的研究完成后,有时候不能立刻知晓结果的价值如何。然而,几年后的研究可能会产生出更加重要的发现。这正是前期的数据是“具有不可预测价值的数据”的有力证据。 地理空间信息系统也是如此,当前捕获的卫星图像可能对10年后的任务或行动提供支持。由此可见,长期保留数据的价值是不可预测的。
分层存储系统是目前将更多的数据存储更长的时间的最优方法,也是最节约资金的一种方法。大多数数字内容都是“非结构化”的,是无法缩减或压缩的大文件,而且大多数此类内容需要保持可用性和可访问性。不过,它们可能在一段时间内,数天甚至数年都不会被访问。通常的正确做法是分层存储系统,即用加工时使用闪存存储-速度最快,而加工完毕长期保存时使用磁带这种成本低、功耗低的存储-速度够用、但成本最低。其他类型的存储如NAS、块存储、对象存储和云存储等也可以在大多数工作流中发挥作用。事实上,我们期望云计算在未来能够成为大多数分层存储工作流的一部分。
经验之三:用户首先要先能访问数据,然而才能从数据中发掘出价值:一些企业已经设计了基于数字资产工作流的存储系统,并且设计了支持其企业的分层存储系统来存储更多数据。 其下一步是确保最终使用者(电影剪辑师、设计师、营销管理者、科学家、分析师)可以在需要时无需通过IT部门就可以访问数据。因此,我们需要的存储必须是在全球范围内可以实现跨站点的共享的存储,并且是容易访问的存储。目前来说,LTFS磁带、基于对象的云存储技术、以及其他新的开放存储模式都可以帮助促进数据共享和快速访问。
好文章,需要你的鼓励
谷歌研究团队推出VaultGemma,这是其首个采用差分隐私技术的大语言模型。该模型基于Gemma 2构建,拥有10亿参数,通过在训练阶段引入校准噪声来防止模型"记忆"敏感用户数据。研究团队建立了差分隐私缩放定律,平衡计算预算、隐私预算和数据预算。尽管添加差分隐私会影响准确性,但VaultGemma在性能上与同规模非私有模型相当。该模型现已在Hugging Face和Kaggle平台开放下载。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
英国宽带服务商Olilo正式推出多千兆宽带服务,专门面向技术人员、工程师、系统管理员和家庭实验室爱好者。该公司自建Layer 2网络基础设施,提供对称多千兆宽带,支持静态IPv4地址和原生IPv6。Olilo与伦敦三大互联网交换中心建立对等连接,在英国对等网络中排名第24位。服务经过150多名技术用户的付费封闭测试,并通过Discord社区持续收集用户反馈优化服务。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。