对海量数据进行管理和利用,离不开一个好的大数据平台,而建立一个企业级大数据平台需要包括软硬件平台的最优适配,以及多种维度解决用户应用大数据过程中所遇到问题的能力。近日,Dell EMC PowerScale(Isilon)大数据存储系统通过了Cloudera的最高级别认证——质量保证测试套件(QATS)流程认证,能够帮助企业在面对大数据分布式系统的挑战的时候,快速、高效、灵活的获得适配的解决方案。
双方提供的Cloudera的最高级别认证的解决方案有什么特色,能够企业带来哪些价值?近日戴尔科技集团大中华区非结构化数据存储事业部高级经理李海与Cloudera大中华区售前技术总监刘隶放分享了各自的观点。
建立企业级大数据平台遇到的挑战
麦肯锡咨询报告指出,擅长利用大数据价值的企业组织将获得持续发展动能。包括更易获取新的客户资源,更好的保留老客户以及在市场份额上获得更好的成长等价值。
戴尔科技集团大中华区非结构化数据存储事业部高级经理 李海
但是,数据团队现在处理的数据比以往任何时候都多,随着数据的增长,企业在构建一个大数据平台的时候,实际上会遇到很多挑战。例如,企业应用越来越多,在架构变得更加复杂,业务形态更多样化的情况下,多个业务部门的需求如何管理?数据的安全性如何保证?数据如何更好的治理? 多个Cloudera发行版并存,同时并存的数据里如何更好的访问?“为了解决这些问题,许多数据团队都转向了能够在对象和HDFS中独立扩展计算和存储的架构。帮助企业直面在扩展大数据分布式系统所面临的挑战。” 李海谈到。
这其中就包括PowerScale(Isilon) 长期与Cloudera的紧密合作,Cloudera与戴尔科技集团保持了长期而成功的合作关系,基于Dell EMC PowerScale和ECS平台为混合云中运行的大数据分析工作负载开发共享存储解决方案。
Cloudera最高级别认证助力PowerScale应对大数据挑战
Dell EMC PowerScale/Isilon成功获得企业数据云公司Cloudera在Cloudera Data Platform私有云版本上完成的 Dell EMC PowerScale/Isilon 8.2.2质量控制测试套件(QATS)认证。
通过Cloudera QATS认证,戴尔科技集团将确保在Dell EMC PowerScale(Isilon)上进行投资的客户在CDP方面拥有正确的前进方向,同时获得业界一流的计算和存储解决方案。双方的持续成功为客户提供了所需的数据,以最大化其内部部署和混合分析工作负载的效率。
质量保证测试套件(QATS)流程是Cloudera的最高级别认证,可对所有Cloudera产品套件的软件文档系统、新一代硬件和容器进行严格的测试。QATS借助专用的Cloudera工程资源对新产品进行连续、完整的测试,使解决方案在全面的应用中得到验证,确保即便在严格的负载下也能提供高性能。
“QATS认证是通过模拟用户的实际环境,运行了Cloudera CDP里全部的模块,包括安全模块、运算模块、数据分析模块等,仿照用户整个流程所需要的每一个步骤去验证每一个硬件,每一个软件的搭配情况,确保每一个环节平滑服务。所以这个认证是一个非常严格的认证,需要大量的人力、物力、时间、精力的投入。” 李海谈到。
Cloudera大中华区售前技术总监刘隶放
“随着客户在大数据场景的深入,我们需要硬件厂商跟我们配合过QATS这样的测试,通过深层次的合作把HDFS适配在Isilon上,用户一旦出现问题,双方会通过企业级的响应,来快速解决问题,提升客户的满意度。” 刘隶放分享到。
Cloudera CDP + PowerScale 架构与传统大数据架构的优势
在 2020 年 Gartner 分布式文件系统和 对象存储魔力象限中,戴尔科技(Isilon+ECS)连续第五年被评为领导者。PowerScale(Isilon)具备多协议和网络负载平衡、分布式文件系统和高达N + 4数据保护、容量自动平衡和横向扩展、成熟的企业级软件等主要功能,帮助客户实现各种各样的数据治理、数据安全、数据访问的功能。是一款非常成熟的企业级横向扩展面向大数据平台的基础架构。
Cloudera是唯一一家能够在数据的生命周期里保证安全和管控的一家公司。其开发的“企业数据云”平台(CDP)能够能够实现一个可视化窗口查看混合云和多云环境下的场景,打通各个数据场景,通过自动扩展,暂停和恢复来控制云成本,基于分析和机器学习优化工作负载并实现开发和开源保持一致,从而确保数据生命周期全流程一体化。
相对于传统大数据架构,Cloudera CDP + PowerScale具备以下优势:
PowerScale CDP能够实现存算分离下的扩容
传统 Hadoop HDFS 通过存算一体式扩容,存储与计算比率是固定,扩展计算意味着扩展容量,大量未充分利用的 CPU 资源;”PowerScale+CDP”可实现数据整合于 PowerScale ,计算、储各自独立扩容,计算随着工作负载的发展实现最佳性能平衡,能够做到无需数据迁移,随着硬件的发展增加新的性能。
PowerScale CDP能够轻松实现大数据容灾
传统HDFS架构没有主备复制,不是为企业级关键任务设计。PowerScale+CDP 能够实现完整的数据快照集成,可识别更改多线程、多节点横向扩展复制 ,并改进 RPO/RTO 以实现业务连续性 ,对备用 Hadoop实现主动应用。
实现对生产大数据即时可用,即时分析
在传统架构上,如果将100TB 数据通过 10Gb 链接从主存储复制到 Hadoop 系统,往往需要超过24小时,而PowerScale+CDP通过NAS 和 HDFS 协议访问相同的数据,可使用现有数据快速获得结果,无需复制或提高成本,并且最终生产数据和分析数据没有以往的一致性问题。
PowerScale CDP加持数据湖新特性
基于原生的HDFS,生产数据从沙箱直接获取,生产数据与分析无缝对接 ,支持多种工作负载,包括大数据分析,AI 应用对数据的同时访问等,同时支持多个版本发行版数据共享,消除不必要的数据移动,简化数据治理。
据了解,Cloudera CDP + PowerScale目前已经服务多个国有大型银行、全球芯片制造企业、全球著名消费品公司,以及国内著名互联网企业内容服务公司等。未来,Clouder与戴尔科技会有更加深入的合作,包括更多的Cloudera CDP大数据分析软件模块在PowerScale上的认证,更多的版本适配和兼容性,包括ECS对象存储完成在Cloudera CDP平台下的认证,实现本地和云端大数据分析平台无缝对接。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。