5月23日-24日,2023创新数据基础设施论坛在德国慕尼黑举办。本届论坛以“新应用、新数据、新韧性”为主题,来自全球的行业专家、合作伙伴等嘉宾,共同就YB数据时代下的数据基础设施建设展开探讨。会上,华为全面阐述了拥抱新兴应用生态、高效处理海量非结构化数据、全面提升数据韧性等数据存储产业演进方向,助力企业释放数据价值。
华为公司副总裁、数据存储产品线总裁周跃峰博士发言
华为认为,随着数字化转型的深入,数据存储产业正在迎来巨大的变革和发展机会:
首先,数据应用日新月异,56%的企业都在部署AI应用;同时96%的企业计划构建云原生应用。
其次,数据爆炸式增长,80%新增的数据为非结构化数据,年复合增长率达到38%。
最后,数据韧性挑战日益严峻,勒索病毒变种快,同比增加98%,而且14.1%的企业遭受勒索攻击后数据无法恢复。
新兴的大数据、AI应用对多样化数据并行处理提出更高要求,数据存储和数据应用之间的分工协作模型正在重新构建,新的数据范式时代正在到来。云原生应用将越来越多地引入到企业数据中心,为此,高性能、高可靠的容器存储成为必需。
非结构化数据正在进入企业生产决策系统,实时的访问让数据热度不断提升,分布式存储的读写带宽和IO访问效率需要得到数量级的提升。同时,分布式存储需要在软件、算法以及硬件方面通过系统性创新,满足海量非结构化数据对极致成本效益的要求。此外,数据规模的增长带来严重的数据重力问题,需要构建智能的数据编织能力,实现跨系统、跨地域、跨云的全局统一数据视图和调度。
数据安全威胁正在从自然灾害、物理损坏向勒索软件等人为攻击转变,企业需要从被动响应走向主动防御,提升数据韧性。零日漏洞的增加、数据无法恢复带来的巨大损失,使得以网络、应用、主机安全构成的企业数据安全体系不足以满足企业最新的数据韧性需求。数据存储正在成为守护数据安全的最后一道防线,更多的数据韧性能力将被内嵌到数据存储产品中,例如勒索检测、数据加密、安全快照和AirGap隔离区恢复特征等。
华为公司副总裁、数据存储产品线总裁周跃峰指出,华为数据存储携手客户与伙伴共同成长,提供丰富的产品与解决方案,其中OceanStor Dorado全闪存存储和OceanStor Pacific分布式存储均荣获2023 Gartner Peer Insights™客户之选。
纵观全球整个数据存储产业,2022年全球前五名外置存储厂商发货容量是2012年的3倍,相比于正在迎来的YB数据时代,这还远远不够。华为预测2032年这一数字将实现10倍增长,超过100EB。数据存储在不断追求大容量、高性能的同时,还需要通过构建新的数据范式、智能的数据编织、内生的数据韧性,助力企业释放海量数据价值,也使能数据存储产业的飞速发展。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。