近日,在工信部指导下的数据中心联盟公布的2017大数据产品评测结果中,浪潮云海Insight大数据平台以优异的成绩通过了基础能力测试和性能测试两部分评测,其中三项性能指标排名第一。
大数据产品能力评测由工信部指导下的数据中心联盟组织,并委托中国信息通信研究院实施测试,是国内起步最早、覆盖最广、技术水平最高、影响最大的大数据评测体系,圈定了国内大数据基础平台厂商第一梯队,成为政府和行业用户评价和选购大数据产品的权威参考。
在此次基础能力测试中,云海Insight大数据平台满足全部32个必测项和12个可选项的测试要求,涵盖了Hadoop和Spark生态体系中的绝大部分组件和功能;
在性能测试中,云海Insight大数据平台通过全部15个测试用例指标验证,其中SQL执行总时间(10个用例)、HBase载入、机器学习SVM算法三项性能指标排名第一。
此次评测标准升级到了2.0版本,测试难度加大,基础能力测试用例达到44项;性能测试SQL负载测试数据规模从10TB扩展到30TB,NoSQL测试数据规模达到20亿条,机器学习最大负载数据规模达到1TB。
云海Insight大数据平台是浪潮着力打造的一款企业级大数据平台产品,包含Hadoop和Spark生态中的20多个主要技术组件,研发过程中始终秉承开放共享的技术发展策略,遵循国际开源技术标准。同时,云海Insight从客户业务的需求出发,着力于产品功能的完备性、运维的便捷性、系统的安全性、集群的扩展性、操作的易用性和性能的高效性,为政企客户打造成熟稳定的企业级规模化大数据平台。
目前,云海Insight实现了一站式管理运维,运维效率提升30%;提供统一的数据操作控制台,实现了可视化数据操作、全栈式任务管理和图形化流程编排,开发效率提升20%;SQL兼容性99%,全部通过TPC-DS标准SQL测试;各项性能指标持续提升,多次在第三方评测和客户测试中拔得头筹;提供向导式、高性能的机器学习工具,内置丰富算法模型,大大降低行业客户在机器学习领域的技术门槛;实现基于认证、授权、加密、审计四位一体的安全策略,保障数据资源和计算资源的安全隔离和灵活共享。
多年来,浪潮面向行业为客户提供云计算和大数据整体解决方案,积淀了丰富的经验。凭借成熟的大数据技术平台和扎实的行业实战能力,浪潮云海大数据平台成功在政府、电信、金融、公安、气象、卫生、教育等行业实现落地,运用大数据技术为客户提供业务价值。
加大技术投入,浪潮大数据竞争力持续提升
浪潮积极融入并回馈国际开源社区,多位技术人员在Apache社区的Spark、Kudu、Hue、HBase等多个项目中成为了代码贡献者。凭借领先的大数据发展理念和"技术-专利-标准"梯次攀登的创新战略,2016年浪潮申请云计算、大数据专利450项,居国内首位,在《2017中国大数据发展报告》中被评为技术创新度唯一满分的企业。
2017年,浪潮大数据竞争能力持续提升。今年3月,在由国家信息中心、南海大数据应用研究院发布的《2017中国大数据发展报告》中,浪潮被评为十大最具影响力大数据企业前三甲;同月,在2017中国IT市场年会中,浪潮获得"2016-2017中国大数据市场综合实力第一"殊荣;7月,浪潮正式加入Apache国际开源社区,以支持更多的浪潮大数据技术人员成为社区开源项目的贡献者。
2017年,中国唯一"大数据流通与交易技术国家工程实验室" 落户浪潮,围绕数据流通进行大数据相关体系建设、标准统一、核心技术研发和生态构建;浪潮宣布参建国家首个"教育大数据应用技术国家工程实验室",致力建设国内领先、国际一流的教育大数据理论研究、工程化实验、教育管理服务和专门人才培养一体化平台。
同时,依托大数据技术和产品,浪潮天元大数据平台积累了50PB高价值的互联网数据,具备20000+采集节点、500TB的日处理能力;成功助力全国27个省市政府建立大数据平台,实现了数据的共享共用,为众多政府、企业用户提供专业的大数据服务。
"进入大数据时代,稳扎稳打的技术实力和行业根基将让浪潮领先半步。通过联合上下游合作伙伴,浪潮致力于构建开放融合的大数据生态,为客户提供云计算大数据整体解决方案。" 浪潮集团副总裁张晖表示。未来,浪潮将继续通过更具竞争力的大数据产品、丰厚的行业沉淀,助力更多客户在云计算大数据时代下转型升级。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。