在广播、媒体、零售、地理信息系统等一些面临最严峻的数据存储挑战的行业里,很多企业不再将他们的数据称为“数据”,而是称其为“内容”、“资产”或“信息”。
这些企业认识到,他们的员工或客户可以利用这些数据信息来为企业创造价值,进而深入地去了解如何帮助企业增加收入、促进产品上市、赢得竞争优势、并且提高利润率。它表明存储不仅仅是支出,更能够赋能企业。目前业界对这一认识的支持率有不断增高的趋势。
昆腾的许多用户都属于此类思想领先的公司,以下是从他们的经验中吸取的一些重要经验:
经验之一:选择适合数据或信息“工作流”的存储系统:这是显而易见的道理,因为任何行业对数据的处理过程都是一个工作流的过程,例如数据的产生(采集)、编辑加工、再加工、分发结果等。在工作流中,数据不能丢失,还要能够在全球范围内将其分享,同时根据不同业务的需求还要能够帮助快速访问数据。 因此,工作流对存储有着特殊的需求。然而,许多公司却试图用通用型的存储去满足本来无法满足的特殊需求。例如,对于某大型零售公司,存放广告的视频和图像的存储竟然和存放大数据库和邮件用的是一样的存储。其实,我们应该为工作流选择适合它们特点的存储,根据工作流和用户的需求、针对每个数据类型来考虑并设计存储系统。
经验之二:将更多的数据存储更长的时间,使用户能够从数据中获得更多价值:例如,基因组测序的研究数据就是一个很好的案例,当前的研究完成后,有时候不能立刻知晓结果的价值如何。然而,几年后的研究可能会产生出更加重要的发现。这正是前期的数据是“具有不可预测价值的数据”的有力证据。 地理空间信息系统也是如此,当前捕获的卫星图像可能对10年后的任务或行动提供支持。由此可见,长期保留数据的价值是不可预测的。
分层存储系统是目前将更多的数据存储更长的时间的最优方法,也是最节约资金的一种方法。大多数数字内容都是“非结构化”的,是无法缩减或压缩的大文件,而且大多数此类内容需要保持可用性和可访问性。不过,它们可能在一段时间内,数天甚至数年都不会被访问。通常的正确做法是分层存储系统,即用加工时使用闪存存储-速度最快,而加工完毕长期保存时使用磁带这种成本低、功耗低的存储-速度够用、但成本最低。其他类型的存储如NAS、块存储、对象存储和云存储等也可以在大多数工作流中发挥作用。事实上,我们期望云计算在未来能够成为大多数分层存储工作流的一部分。
经验之三:用户首先要先能访问数据,然而才能从数据中发掘出价值:一些企业已经设计了基于数字资产工作流的存储系统,并且设计了支持其企业的分层存储系统来存储更多数据。 其下一步是确保最终使用者(电影剪辑师、设计师、营销管理者、科学家、分析师)可以在需要时无需通过IT部门就可以访问数据。因此,我们需要的存储必须是在全球范围内可以实现跨站点的共享的存储,并且是容易访问的存储。目前来说,LTFS磁带、基于对象的云存储技术、以及其他新的开放存储模式都可以帮助促进数据共享和快速访问。
好文章,需要你的鼓励
OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。
艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。
Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。
苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。