EMC公司的Data Lake 2已经不再局限于内部存储元素,而开始将云机制纳入其中。
EMC公司已经公布了其第八代Isilon操作系统,此次的新特性在于面向小型办公环境交付纯软件方案,而同时新增的Cloud Pool结构能够削减发送至云端的活动数据量。
Isilon是EMC公司旗下的一款向外扩展文件存储产品,其上运行的则是OneFS软件。这套非结构化数据存储系统能够支持文件协议以及HDFS。
EMC公司将目前的发展思路命名为Data Lake 2.0战略,旨在全面冲击企业边缘环境——也就是其远程及分支办公体系市场。与之配套的软件名为IsilonSD Edge,其中SD代表软件定义,它的作用是运行在能够与VMware VSAN相兼容的节点硬件服务器之上。
其将支持VMware ESX并能够被整合到vCenter当中以实现集中管理。
作为免费的非生产型使用方案,Edge支持最多六个节点,总计36 TB数据存储容量——而其核心存储容量则为50 PB——客户还能够面向数据中心Isilon设备进行数据导入/导出以及文件同步与共享。而在生产环境下,Edge则需要针对各个集群购买授权许可。
OneFS v8迎来了经过调整的更强执行内核,其现在能够实现非破坏性升级,从而进一步提高了可用性水平。虽然此前其已经能够实现较低程度的非破坏性升级,但更新之后其已经能够在完全不造成破坏性影响的前提下实现大版本升级。
而如果发现升级结果不够理想,用户还能够对该系统进行回滚。大家可以“根据需要将自己的应用程序或者最终用户环境回滚到升级之前的状态”。EMC公司将其称为.Next选项。另外,OneFS 8.0还新增了SMB 3.0支持能力。
Cloud Pools会将活动程度较低的数据发送至公有、私有或者混合云进行归档,从而帮助核心Isilon文件存储系统节约存储空间。EMC公司指出,这种作法特别适合那些需要保障合规性或者其它监管要求的数据使用场景。
Isilon目前拥有一套归档层,所有已归档文件都能够在Isilon全局命名空间当中直接查看,也就是具备了可读访问能力。
而作为外部对象存储机制,其能够支持的目标云方案包括AWS、Azure以及VMware的Virtustream,而且数据迁移过程中不需要云网关的协助。作为其它目标选项,EMC的ECS可被Isilon文件存储系统作为私有云模式使用。
被发送至云端的文件会经过加密与压缩。存储成本为每GB每月1美元起,如果使用内部Isilon作为存储平台则能够实现更低的使用成本,并将总体拥有成本转化为日常运营成本。
Cloud Pools的存储能力超过50 PB,也就是Isilon集群的容量上限,而可容纳文件总数则超过8万亿个。
Chad Sakac在博文中使用的Isilon系统分层示意图
下面让我们更直白地进行说明。EMC公司目前正在创建一套Isilon数据结构,其主要面向数据中心以及分支办公环境部门需要,并能够通过Cloud Pools实现面向公有云的扩展能力,且这一切都能够在单一OneFS环境之下进行访问与管理。
NetApp公司对于这样的设计概念肯定也相当认同,甚至有可能向EMC发出申请,希望后者的OneFS 8.0能够将自家Data Fabric设计方案纳入支持范畴。
Chad Sakac在博文当中对这款Isilon软件进行了评测。根据他的观点,未来还将有更多软件定义Isilon版本与广大用户见面,也许包括OneFS加裸机设备的选项。
OneFS 8.0、IsilonSD Edge以及Cloud Pools都将于2016年年初正式投放市场,而具体定价信息届时也将一同公布。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。