IBM公司着手发布Ceph产品更新,提供对象锁定功能以抵御勒索软件侵袭,同时带来NVMe-oF及NFS对象摄取的预览版本。
IBM Storage Ceph也就是IBM目前宣传的Red Hat Ceph,属于IBM在收购Red Hat时继承而来的大规模、可扩展、开源对象/文件/块存储软件。Ceph中的对象存储部分名为RADOS(可靠自治分布式对象存储)。Ceph对象网关也被称为RADOS网关(RGW),是构建在librados库之上的对象存储接口,负责为应用程序提供指向Ceph存储集群的RESTful网关。
前Red Hat产品经理、现供职于IBM的Marcel Hergaarden在LinkedIn上的帖子中表示,Storage Ceph v7.0现已全面上市。其中包括Cohasset对象锁定功能认证,意味着对象存储符合美国证券交易委员会(SEC)及金融行业监管局不可擦除和不可重写(FINRA WORM)要求,且满足美国商品期货委员会(CFTC)规章1.31(c)-(d)的要求。
Ceph文件系统支持NFS,也就是说客户现在可以在配置Ceph文件系统之后,在Ceph仪表板之内创建、编辑和删除NFS导出。Hergaarden表示,“可以使用NFS Ganesha服务通过NFS协议导出CephFS命名空间。Storage Ceph Linux客户端可以原生挂载CephFS,这是因为CephFS的驱动程序默认集成在Linux内核当中。借助这一新功能,非Linux客户端现在也可以通过NFS Ganesha服务通过NFS 4.1协议访问CephFS。”
RGW(RADOS网关)现在可以从仪表板以多站点模式进行设置和配置。仪表板支持对象桶级交互,提供多站点同步状态详细信息,可用于CephFS分卷的管理和监控。
他还提到,Storage Ceph通过将S3select查询推送至RADOS网关(RGW),从而为Presto和Trino应用程序带来了性能改进。v7.0还支持CSV、JSON和Parquet定义的S3select等数据格式。
此外,基于RGW策略的数据归档与公有云迁移也在受支持范畴。用户可以:“出于成本和可管理性的考量,创建策略并将符合策略标准的数据移动至与AWS相兼容的S3存储桶进行归档。”其目标可以是AWS S3或Azure Blob存储桶。RGW通过对象存储地理复制可实现更好的多站点性能。“数据复制与元数据操作性能得以提高”,再加上“通过优化和增加RadosGW守护进程数量来提高操作并行性,从而提高横向可扩展能力”,但IBM并未公布具体性能数据。
再有,通过使用C2+2纠删码池,纠删码的最小节点数已降至4个。
Ceph v7.0还迎来三项预览版新功能,目前仅作为展示,不建议在生产应用中直接使用:
首先是基于块存储的NVMe for Fabrics(NVMe-oF)。客户端与NVMe-oF启动器交互,并接入至IBM Storage Ceph NVMe-oF网关,此网关从北端启动器处接收数据并连接至南端RADOS,且性能与RBD(RADOS Block Device)使用原生块存储持平。
对象归档区,用于保存每个对象的各个版本,负责为用户提供包含对象完整历史记录的对象目录。此功能交付的是无法从RADOS网关(RGW)端点删除或修的不可变对象,并支持恢复生产站点上存在的任意对象的各个版本。这项功能主要用于抵御勒索软件和实现灾难恢复。
为了限制进入归档的内容,还可对归档区存储桶进行粒度设置,从而立足每个对象存储桶启用/禁用指向归档区的复制操作。
第三项预览功能是NFS到RADOS网关的后端,允许通过NFS将数据摄取至Ceph对象存储当中。Hergaarden总结称,“这项功能主要用于从本身不支持S3对象API的遗留应用程序中轻松提取对象数据。”
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。