Datadobi 发布的 StorageMAP v7.2 版本增加了元数据和报告功能,可以更好地降低成本,帮助客户实现更环保的运营,并跟踪更广泛的对象存储数据。
StorageMAP 软件可以扫描和列出客户的文件和对象存储资产,包括本地和公有云环境,并且能够识别孤立的 SMB 协议数据。新增的归档功能允许客户识别并将旧数据或不活跃数据迁移到归档存储中,从而释放闪存或磁盘上的主要数据存储空间。Datadobi 引用了 Gartner 的研究报告指出:"到 2028 年,超过 70% 的基础设施和运营 (I&O) 领导者将实施混合云存储策略,相比去年仅 30% 有显著增长。"这意味着高效管理混合本地/公有云文件和对象数据资产将变得更加重要。
首席收入官 Michael Jack 表示:"非结构化数据持续以前所未有的速度增长,然而许多 I&O 领导者仍然难以对其环境获得适当程度的可见性和控制。"
StorageMAP 具有元数据扫描引擎 (mDSE),支持并行多线程操作、元数据查询语言 (mDQL)、非结构化数据工作流引擎 (uDWE) 和非结构化数据移动引擎 (uDME),可在存储层和位置之间移动数据。它可以跨本地和公有云环境工作,将 SMB 和 NFS 文件转换为 S3 对象,并部署为 Linux 虚拟机。
Datadobi 文件扫描使用多线程来并行处理目录结构。由于对象存储具有扁平地址空间,没有嵌套的文件/目录结构,StorageMAP 的扫描引擎将对象命名空间分割为子集,并行扫描以降低扫描时间。
v7.2 中的新元数据功能使客户能够更精确地跟踪成本、碳排放和其他 StorageMAP 标签。
v7.2 引入了 Dell ECS 和 NetApp StorageGRID 对象存储的自动发现功能,使客户能够识别其租户及其关联的 S3 存储桶。它将孤立数据功能扩展到 NFS 环境,以便识别和报告当前不属于任何活跃员工的数据。此功能适用于通过 SMB 和 NFS 协议访问的所有数据。
新软件可以查找和分类适合生成式 AI 处理的数据,"使企业能够为数据湖提供相关的高质量数据集",用于检索增强生成 (RAG)。增强的许可模型让客户可以根据具体需求扩展 StorageMAP 功能的使用。
附注
Gartner 研究报告题为"使用混合云实现文件存储数据服务现代化"。报告有三项建议:
通过利用公有云实现灾难恢复、容量突发、处理突发和存储标准化来实施混合云数据服务。
制定三年计划,将非结构化文件数据与公有云基础设施即服务 (IaaS) 集成,以匹配目标、SLA 和成本约束。
根据混合云文件提供商提供额外增值服务的能力进行选择,如数据移动性、数据分析、网络弹性、生命周期管理和全球访问。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。