扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
英特尔的云创新
随着云计算和物联网的发展,以用户为中心的创新应用模式正在逐渐体现。英特尔亚太研发有限公司总经理兼英特尔中国软件与服务事业部总经理何京翔博士认为,我们需要利用这一发展时机来转变思维,面向用户来创新,为未来的物联网和云计算打造自己的云计算平台和基础。
英特尔亚太研发有限公司总经理兼英特尔中国软件与服务事业部总经理何京翔
说到创新,英特尔公司应该是一个充满了创新的公司。从最早的英特尔创始人开始,不断的在技术产品上探索创新,在半导体制造工业上不断的自我创新,又不断的否定英特尔过去的“创新”。在英特尔这44年的历程中,可以说是一个创新、自我否定、再创新的过程,由此也创造了自己独特的企业文化。根据不同时代的发展速度,英特尔根据真身情况和市场发展不断变换着自己的创新计划。而互联网和云计算时代,英特尔的目标就是通过互联和互通的计算技术改变人们新的生活。
以前的英特尔,往往在考虑问题的时候是先从处理器、硬件平台着手,然后才会考虑到软甲,最后再考虑通过某种程度的合作关系来提交用户体验。在云计算和互联网时代,这种思维模式显然已经不能满足时代的发展需求。英特尔改变了自己的策略,首先从用户体验触犯,然后再考虑什么样的软件解决方案能够满足这样的用户体验,最后才会考虑到硬件平台和处理器是否能够最好的来提交这种用户体验。
未来的云计算和物联网是一个充满了个性化的计算体验时代,英特尔针对这一方面做了一个全套的解决方案,这一套解决方案是由大规模的制造技术、适合于不同平台的芯片和SOC,强大的软件和解决方案部门支持。同时,英特尔还通过远端开放着计划,和世界上1400万以上的开发者建成了紧密的合作和联系,很好的支持了英特尔的解决方案。
作为全球最大的半导体公司,英特尔的芯片技术一直在不断创新,明年年底将会有三维14纳米的半导体电路,有了这些基本元素,再加上英特尔的软件技术支持,用计算改变人们生活的愿想就不难实现。
英特尔的大数据规划
进入21世纪,随着智能手机的普及越来越多的图片 、视频数据增加,而且这些数据来源种类也越来越丰富,大家发现数据的增长已经超过软件的想象,数据的增长会每过三个月到六个月翻一番,比如电信运营商每三个月数据就会翻一番,而在物联网里面随着数据量的增长也在几个月翻一番,IDC预计数据量到2020年会增长44倍,达到35.2ZB。这些杂乱的数据就引出了一个概念,大数据,那么什么是大数据呢?
数据量从以前的几百个G到TB再到现在的PB级别的增长中,产生了大量复杂的数据类型,超过80%的数据是非结构化的,而每个地区的数据类型又有不同的特点。就拿中国来讲,除了上面提到这几点,还有以下特性:第一个是数据来自大量源,需要做相关性分析;第二个特点是数据的采集,产生是不间断的,不停的产生就需要实时或者准实时的流式采集,比如有些应用就要90%写10%读;三是数据需要长时间存储,非热点数据也会被随机访问。大数据还有一个特点就是需要对数据进行分析,需要新的架构来不断的满足用户查看数据的需求,甚至是半年前的数据。
那么数据增长如此之快,如何才能让现有的系统来满足这种需求呢?其实从第一代互联网到现在已经十几年过去了,大家做了大量的尝试,发现要想满足这种需求,系统需要有以下三个特点:第一就是处理系统要能满足无限扩展;第二需要系统保持在线运行;第三就是灵活性,需要一个灵活可动态改变的数据模型。那么该怎么样做才能满足这三个特点呢?原来那套很集中式的管理方式整体性能不高,采用新的方式就需要做横向拓展。在上世纪末,大家想过用MPI的方式,但是到了2000年以后发现这种方式不行,人们发现不仅只是要把计算分布式,而且还要把存储进行分布式,这个也是现在大数据的架构,计算和存储是融合的,所使用的软件要能够处理这种架构。
这个时候就需要用软件调节可用性。这种可用性的解决方法首先是数据多份,然后再检测,对这个数据重新进行修复。但是数据复制了以后又带来一个新的问题,对多种数据进行修改的时候,该怎么办呢?
这个问题其实在大数据处理中就已经存在,大家发现分布式事务处理是不能做的,然后就开始产生了很多心的技术。这个问题最早是1998年Eric Brewer提出来的,他在做搜索引擎的时候发现数据的一致性,所有的副本都是最新的;系统具有高可用性,总是可写;允许网络通讯出现故障,不论是短暂延时或长时间故障,容忍网络隔离意味着系统横向扩展性增强。
但是大家发现钥匙容忍网络隔离是必选项的话,就必须要容忍网络的延时,剩下的所有选择就是容忍网络隔离。如果容忍这个东西存在,你的系统的拓展性就会越来越好。
上图为大家解释了CAP定理。现在大家发现在设计大规模数据系统的时候,CAP每个属性是一个范围,从强的一致性到最终一致性,只修改某些拷贝,最终把数据完全修改成一致的,这是最终的一致性、永久的一致性,比如可以将数据复制两份,使用一个另外一个还有,这个可用性就提高了。这样在不同部分的情况都是不一样的,所有的企业的选择灵活可变,这时候有几种做法,在不同部分采用不同的选择。这里我们可以举个例子,第一个例子是牺牲可用性的,比如说当不允许修改数据时,只能看。第二个,以后要修复,怎么修复?比如像亚马逊的,发生网络故障的时候就可以轻松解决,但是缺点是被系统删的东西可能仍然存在,这个是第二个选择。实际还有第三个选择,保证出事的时候风险最小。比如我们在航空买票的时候,换了票以后发现座位上已经坐了一个人,这个时候需要航空公司给你补偿,或者给你换一个航班。另外一个ATM机存取款,对银行来讲要保证ATM随时能够取出款,可以单独限制你取2000块,限制你一天最多取1万块钱,再损失也就损失1万块钱,这就是风险控制。通过修护、补偿、控制风险的策略,实现可用性原则。
HDFS分布式文件系统,它的第一个设计目标是错误检测和快速自动恢复,因为硬件故障是常态而非异常;第二个目标是为流式数据访问优化;第三个目标是支持大数据集,第四个目标是简化一致性模型;第五个目标是移动计算比移动数据更便宜。它的主要特点是使用低成本存储和服务器构建;存放PB级别的海量数据;高可扩展性,实际生产环境扩展至4000个节点;高可靠性和容错性,数据自动复制,可自我修复;高带宽,高并发访问;高级均衡算法。
Map Reduce计算框架。为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架,分析问题能够被并行化,且输入数据集可以被切分。
HBase分布式数据库,它是一个按列存储的、多维表结构的实时分布数据库,为高速在线数据服务而设计。现HBase有两大特点,首先是提供了四维的结构发明,这样一个模型,能够描述比专业数据库更强的数据模型。第二个特点是它是一个分布式系统,高性能,支持高速并发写入和高并发查询;根据Locality和table数量智能负载均衡,更高的读写性能;可扩展,数据自动切分和分布,可动态扩容,无需停机;高可用性,建立在HDFS分布式文件系统之上。
Hive数据仓库是一个建立在hadoop/hbase之上的数据仓库,用于分析结构化海量数据,采用HDFS或HBase进行数据存储,采用Map/Reduce进行操作。
英特尔其实在两年前就认识到了为企业级应用的hadoop性能优化。过去的两年中英特尔走访了很多企业,看到在六大行业里面他们所运用的大数据的问题,首先需要新技术的解决。中国市场第一波采用hadoop的行业,首先是电信,电信在几年前就开始采用Hadoop,包括详单和帐单的采集、存储、实时查询和统计;用户上网记录的采集、查询、统计;用户行为分析、套餐推荐;用户流失性分析;3G网络优化,流量优化、网间优化;基站参数采集和分析。第二个是交通,智能交通系统,交通信息的实时采集、实时统计和实时查询,交通信息的实时分析,例如区间测速,交通状况的模式分析和优化。第三个医疗,包括电子病历的实时查询、搜索和实时共享;医疗影像数据的存储和检索;疾病的趋势分析,流行病告警;计算机辅助诊断(疾病分类等);药物效果分析;药物相互作用(副作用)分析。第四个是金融,非结构化数据(例如签名、影像等)的存储和检索;准实时的交易统计和分析;交易相关性分析;客户风险分析;交易监控、合规分析、法规遵从。第五个是零售,包括统计和分析,准实时的售卖点销售统计;决策支持,从库存管理、价格制订到新店选址;新的商业/服务模式,定向广告、优惠券等等。第五个是制造行业。
创新带来云变革
当然,大数据的发展离不开云计算,我们回顾整个IT界,其实整个IT界每年都有新的技术出现,而云计算的出现又是因为互联网的带动。为什么说云就代表了未来的方向呢?因为互联网使大数据在云中发生了,也使得云中有很多设备进入云端,也是因为互联网改变了生活、改变了我们和云之间的互动。
从云计算到物联网,英特尔一直在追求着创新,通过技术创新来带动产业的创新,最终带动整个社会的创新,这就是英特尔的创新战略。只有这样才能够真正实现计算改变生活的愿想,在2012全球软件和信息服务高层论坛暨企业家峰会上,英特尔亚太研发有限公司总经理兼英特尔中国软件与服务事业部总经理何京翔博士表示英特尔同时表示英特尔真正想做到和中国、大连一起腾“云”架“物”,来完成智能社会发展的转变。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。