软件定义存储,数据激发计算显威力

我们需要“软件定义存储”这种新形态来应对数据复杂性。以前通过传统硬件和软件之间的紧密联系,优化存储并提高性能,而现在软件定义存储是让将两者分离,更加强调软件实现的方式,让用户可以通过一个软件或者管理界面管理自己所有的存储资源和内容。

企业数据膨胀不可抑止 技术架构变革迫在眉睫

数据在无时不刻地增长着,市场调研公司IDC的研究数据显示,2014年全球数据存储总量将增长到2.16ZB,2016年还将继续增长至3.77ZB。数据呈现海量化的趋势,过去两年中所产生的数据量占到人类有史以来所积累的数据总量的90%,现在每秒钟有500万笔交易发生,每天有5亿个通话记录产生。日益增长的数据推动着存储技术的发展,同时也对数据的IO能力提出了更高的要求。

除了大,数据有多“快”?来看一组数据,全球最大电子商务公司亚马逊发现网页每延迟0.1秒,客户活跃度就会下降1%,如果网页下载速度慢1秒钟,1年就有可能损失16亿美元;全球最大搜索公司谷歌也发现,如果提交搜索结果的时间延迟0.4秒,一天的搜索量就会减少800万次。“快比慢好”,即使你有很棒的产品或者项目,但如果速度不够,它就会被淘汰被忘掉,更何况在大数据时代下,数据与信息的产生、处理和分析都在提速,企业就更需要快速且高效率的底层技术作为支撑。

“大”数据不仅意味着数据的数量庞大,变化速度快,还代表着数据种类繁多结构复杂,以前数据多是结构化的,现在越来越多的数据是半结构甚至是完全非结构化的数据,从企业来的、从互联网来的,从用户来的各种各样的数据都大量涌入我们的服务器、进入数据中心,于是就产生了诸多挑战,这么多数据怎么样把它变成信息,转变成知识和决策,这就需要有更丰富的数据管理、重复数据删除和数据分析能力,和强大的数据计算处理能力。

云、移动、物联网使得各种企业资产不断扩散,引发了新一轮的数据大爆炸。虽然企业可从数据中分析洞察,从而获得新的商机,但与此同时,大数据也对现有的基础设施,对各种资源包括计算、存储和网络是否能实时处理和即时访问,都提出了更大、更快、更简的需求,而传统以硬件为中心的方式已无法获得必要的灵活性,那么面对新形势我们如何应对呢?

软件定义,一统管理把复杂的东西简单化

数据量猛增,数据生成速度快,要求处理延迟低,这使得数据的保存、管理和处理都变得极为复杂。然而,在我们传统的IT形态下,物理设备无法做到高效的动态化,其相应的计算、存储、网络等也会因物理的限制而无法更高效地实现自动化供给与调配。不仅如此,虚拟化、云计算、大数据和移动互联在中国市场的不断普及,在实现业务扩展转型和扩展的同时,能够让相关应用和服务以更快的速度交付,这就对更灵活、易于管理和调配的数据中心资源技术提出了迫切需求。

所以,我们需要“软件定义存储”这种新形态来应对数据复杂性。我们是通过传统硬件和软件之间的紧密联系,优化存储并提高性能,而现在,软件定义存储(SDS,Software Defined Storage)却是让将两者分离,更加强调软件实现的方式,把复杂的存储系统封装成为易操作的服务,用户可以通过一个软件或者管理界面管理自己所有的存储资源和内容。

软件定义追求的目标是将设备的功能和管理性,与设备的物理性相剥离,物理设备最终只是一个执行的角色,高级的资源整合、调度与自动化协同将由上层的软件来实现。这样做的好处就是,硬件可以更直接的服务于相关的应用,或者说应用可以更好、更直接的利用并控制IT资源,从而让数据中心具备更为强大的功能与更高的效率,更好地为应用服务。

利用软件定义存储,将存储服务从底层专有硬件中抽象出来,提供更加透明的数据迁移和数据管理,这也从另一个方面降低了数据管理的复杂性,减轻数据管理的负担,使存储服务实现了简单化、虚拟化和自动化,提高现有存储的使用率,让数据在各种存储系统和存储层,甚至是各个厂商的存储系统之间迁移和管理更加简单,让各种应用高效地运行其上,从而大大缩短了服务的交付时间。

不少厂商已宣称在软件定义存储领域开展了竞争,而且有其各自不同的方式。例如,EMC通过自己的 ViPR代表了存储价值从硬件阵列和控制器向软件存储领域的转移——从而使得自己能够定价自己的存储服务价值而不依赖于专有硬件,并且在商用硬件以及第三方硬件上都是可部署的;IBM则认为目前软件定义存储属于存储虚拟化2.0,未来还会有3.0,IBM的虚拟存储中心可对异构的存储系统进行自动化、策略驱动层化以及虚拟化,无须更换设备便可将已有存储转变成私有云存储。不管各家厂商怎样的战略和技术,但最终软件定义存储的未来都应该是能够将传统存储与新型交付模式融合在一起,满足企业不断变化的业务和应用需求。

海量数据,底层稳固让存储更加亲近计算

大数据时代下,结构化和非结构化数据充斥着企业的各个角落,而且企业需要保存和处理数据的量迅猛增加,这就对大容量、低延迟的存储提出了更进一步的要求,因此从理论上讲,我们需要高容量的存储介质、存储和服务器越靠近越好,缩短数据从存储到服务器的传输路程,提高应用程序的性能并加快响应速度。

存储数据用的硬盘容量越来越大,容量上限一再被刷新,不久前全球首款8TB硬盘刚刚面世,不断提高的容量密度,不仅是为了应对企业存储中份额最大且增长最快的非结构化数据内容,同时也是为多种应用运行提供存储支撑的根基,为私有的和基于云的数据中心创建经济适用且高容量的存储。

底层存储介质是应对海量数据的基石,而处理结构化和非结构化数据的架构也需要变革以适应新的需求。在这方面,大数据Hadoop走在了前沿。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取和加载方面上的天然优势,如英特尔与Cloudera联合打造的CDH(Cloudera Distribution Including Apache Hadoop),是CPU、存储、内存技术创新与Hadoop的优势结合。

Hadoop采用分布式架构,运行在行业标准的硬件上,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

一体机和分布式计算系统Hadoop就是最明显的代表,因为将计算、存储硬件以及应用软件进行集成,在简化部署的同时降低应用和管理难度,一体化集成系统已经成为了各大IT供应商抢占的新高地,主流厂商相继推出面向数据库应用的一体机,包括Oracle三大数据处理集成系统、惠普AppSystem for Hadoop以及IBM的PureData System。

单从硬件角度来说,Hadoop的诞生与x86系统就有着非常密切的关系,它的出现使得在基于x86这种要求较低的硬件系统上运行复杂的分布式集群运算成为可能,从这种意义上来说,Hadoop本身就是为x86系统而量身定制的平台。

上面提到的主流大数据处理集成系统中,x86架构正在成为一种新的标准平台,而强大的处理器计算能力会在这一坚实基石上,为众多的软硬集成解决方案如虎添翼,得以彰显最大的性能威力。与此同时,为提高效率,存储往往需要支持其它高级能力,如压缩、加密、自动数据分层、重复数据删除、纠删码和自动精简配置,这些软件功能在英特尔最新至强处理器上得到支持,同时强调对数据库高可用、高性能要求的满足以支撑企业进行大数据分析和处理。

除此之外,Lustre是开放原始码的平行分散式档案系统,也是关键的储存技术,它不仅把资料连结在一起,还带来极快的存取速度。在这方面英特尔的Lustre企业级版本就是让Hadoop在Lustre上运行,大幅缩短资料存取与分析的速度,这让使用者能更快速地直接从全球档案系统存取档案,进而缩短分析时间,且更有效率地运用各种储存资源并简化储存管理流程。

唯快不破,存储深刻变化激发对计算能力的强劲需求

正如开篇所说,大数据使得我们对“快”的要求更高了,一般要在秒甚至微秒级时间范围内给出数据处理和分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

先从存储介质来看,传统机械硬盘的接口已经从上一代的6Gb/s SAS提升到了12Gb/s SAS,也就是达到了单向1.2GB/s的速率,然而这和闪存的变化比起来又不算什么,由于属于半导体工业,其发展上相比机械工业可谓是突飞猛进,现在基于闪存的固态盘不管是在容量上还是性能上都超出了传统机械硬盘。

每过一年,固态盘的容量就会增长1.85倍,性能则会增长更多,并推动了更先进的PCI Express直连存储架构。新的PCI Express界面固态盘在3.0规范的x8宽度、8GT/s传输速率时可以达到单向64Gb/s(8GB/s),而在Storage over PCI Express的主要两种企业级标准——SAS Express和NVM Express当中,将IO请求分配到多个CPU核心已经是一种基本能力,从而对存储处理器提出了更高的要求。

因此大数据爆炸以及PCIe闪存对IO和处理IO计算能力提升等一系列深刻的变化影响之下,存储从以前对于性能和带宽要求不高,变得对性能、IO以及带宽要求增加,这就需要进一步增强的计算能力。这些都需要从架构的特性上来满足需求,英特尔更新换代的至强E7 v2处理器现在拥有15个核心,37.5MB三级缓存,集成I/O和数据直接I/O技术,以及对PCIe3.0的支持,多核心以及IO配置使其不仅具备更强的处理能力,也具备更强的存储与网络连接能力。

不仅如此,庞大数据的迅猛增长使得数据中心日益庞大,但是数据处理和存储能力却未能跟上步伐,这时候闪存在企业级环境中可以发挥它最大的优势,也就是提升存储和服务器的处理器速度,让数据操作变得更为迅速以实现对数据的更高效的分析。闪存的高I/O性能,可以化解企业关键业务应用的I/O瓶颈,提高服务器利用率,降低购买服务器和软件许可的开支,还能改善存储的效率,起到节能降耗的效果。

作为解决日益加剧的存储IOPS和延迟问题的利器,闪存正在被越来越多的企业接受并使用,闪存产品越来越丰富,人们对固态存储技术了解的加深,以及不断下滑的价格,所有这些因素都在有力推动着闪存存储技术的发展。

不仅如此,数据量的急剧和持续增长意味着各种规模的企业都必须面对一个问题,那就是如何将所有的数据储存下来,以及如何利用有限的存储资源实现合理的性能和效率。因此,在部署闪存的基础上,分层存储架构更明确地体现了数据的不同特性和存储介质的价值。因为用户并不是所有数据都需要最高的性能,所以把闪存作为缓存,或者使用自动分层技术,将热数据保存在闪存中,在硬盘上持久保存冷数据或全部数据,这样既不用采购很多的闪存和硬盘,也可以让闪存和硬盘各自发挥长处。

但是,分层存储涉及到其复杂的算法,这对计算能力提出了一定的要求,只有处理器能力足够强,分层存储技术才能在企业中普及应用,不仅如此,对实时压缩、自动精简配置、重复数据删除、快照等其他提高存储效率的高级软件功能快速发展,起到极大的推动作用。

访问和处理不同类型以及不同特性数据本身也是一种应用场景,也归属在软件定义基础设施的范畴中。在这方面,企业需要根据需求采取一整套明晰的分层存储与计算策略,而这也与英特尔的创新策略相呼应:首先,针对热度最高、需要实时处理的数据,在更强大的多路处理平台基础上,能够提供大容量内存来支持内存计算和内存数据库的应用,如上文提到至强E7 v2处理器平台。

其次,针对较热的数据,可保存在高速的、基于闪存的固态盘上,如英特尔面向数据中心的PCIe固态盘DC P3700系列,支持NVMe技术,可应对高性能、低延迟的数据中心存储不断增长的需求;然后,温数据则适合保存在容量较大、性能相对较低的硬盘上,冷数据保存在成本低、对性能要求不高的磁带等存储介质上,同时配合软件功能来最大限度发挥硬件的潜力,如英特尔Cache Acceleration Software(CAS)软件,能进一步帮助优化数据中心环境中的固态盘硬件的性能,尤其是在数据库/OLTP、虚拟化、云计算和大数据Hadoop应用场景中可带来I/O和应用的性能提升。

深度渗透企业级存储英特尔SDI全面铺开

在可预计的未来,无论IT的形态如何变化,执行应用的服务器、保存应用数据的存储、互联应用与数据的网络这三个数据中心IT基础设施的要素都是不可或缺的。软件定义基础设施(Software Defined Infrastructure),是通过软件将硬件设备上的IT资源抽象化,可以最大限度的整合IT资源,将传统的服务器、存储与网络资源抽象为计算资源池、存储资源池与网络互联资源池,再根据相关应用的不同需求,将这三个资源进行有机的组合置备,实现动态、快速和高效的的服务模式。

在基于x86标准化平台上的强大优势,是英特尔提出并贯彻其SDI战略的核心,为此重新构建了服务器、存储与网络技术体系与相关组件,具体存储方面,英特尔的策略则是以软件定义为引领,在相应的组合与软件方面给予积极的支持:对于现有的存储系统,提供更优秀的标准化x86平台与相应的组件帮助进行软件定义化,而对于新兴的软件定义设备,是要深入组件级与系统级研发,帮助OEM厂商开发出具备更好更多功能的高性能软件定义存储系统,以推动整体的行业的发展。

正如上文看出,当企业面对数据提出大、快、复杂这些需求时,软件定义存储的方式可以很好地解决数据存储和管理的复杂性,而不断更新的硬盘技术与Hadoop大数据架构,则有效地解决了对大容量和强大计算能力的要求,闪存硬件与分层存储软件以极高的性能特点,比较理想地突破了速度的瓶颈,而在这些方面英特尔具有技术和产品布局。

因此,总的来看,在这些这种变革下,现有大多数存储系统都可以部署采用英特尔CPU,并这个趋势在主流存储系统越来越明显。与此同时,存储系统配置的英特尔处理器越来越顶级,这样可以提供越来越强大的计算动力,这很好地体现了存储的深刻变化激发对计算能力的强劲需求以及大数据让存储更加亲近计算,英特尔对存储带来深刻影响的同时,更好地引导着让软件定义基础设施改变数据中心的游戏规则。

来源:ZDNet存储频道

0赞

好文章,需要你的鼓励

2014

09/03

09:56

分享

点赞

邮件订阅
白皮书