科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道访谈:Isilon与大数据

访谈:Isilon与大数据

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Xiotech副总裁Rob Peglar已经跳槽到Isilon成为美洲区首席技术官(CTO)。我们对Rob做了一次采访,就Isilon的前途、大数据、闪存在横向扩展文件服务器中的作用、复制以及Isilon集群归档数据等方面做了充分的交流。

作者:存储时代(编译) 来源:Stor-age.com【原创】 2011年5月30日

关键字: Isilon 大数据 横向扩展

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

Xiotech副总裁Rob Peglar已经跳槽到Isilon(现在是EMC的一个部门)成为美洲区首席技术官(CTO)。

我们对Rob做了一次采访,就Isilon的前途、大数据、闪存在横向扩展文件服务器中的作用、复制以及Isilon集群归档数据等方面做了充分的交流。

访谈:Isilon与大数据

Isilon(现在是EMC的一个部门)美洲区首席技术官

问:你为什么加入Isilon?

Rob Peglar:主要是因为个人原因 — 为了获得美洲区CTO的职位,其次,行业大部分都在向基于文件的存储转移,使用存储在文件中的数据(收集、分析、浓缩),Isilon是这个领域的革新者和领头羊,我加入是为了帮助最终用户实现使用文件数据的新功能,以及参与下一代文件存储架构的开发。

问:美洲区CTO和全球CTO有何区别?

Rob Peglar:美洲区CTO是一个专职的位置,向公司CTO(Paul Rutherford)汇报,Isilon在全球有三个CTO,分别负责美洲区(基本上就是西半球)、EMEA和亚太(AP)区。这些角色有对外(如对最终用户和渠道)职责,也有对内(如对产品、路线图、战略和工程等)的职责,在我这个位置上,我要面对客户和渠道,不仅要让他们彻底了解Isilon是做什么的,如何做的,为什么要做,还要让他们了解更高层次的产业趋势、工艺和技术,以及文件数据对企业和组织的战略意义。

问:大数据和HPC领域中的大数据不一样吗?

Rob Peglar:一般来说,两者是不一样的,商业世界中的大数据和传统HPC/超算世界中的大数据通常是有差异的,但它们之间也有相似之处,如两者都是非结构化数据。我很幸运同时有这两方面的经历,在传统HPC领域的工作经历可以追溯到1978年。HPC通常涉及到非常大,但数据集是“固定的”的分析,如描述一个初始状态的数据集,这些数据然后被“吞下”并进入一个反复的过程,通常是一个非常大的模拟和分析工作,基于初始状态执行某些计算模型。

在作业期间,会产生大量的中间文件,它们保存给定时间步长的工作状态和数据,这个过程通常被称为“检查点”,创建检查点是因为HPC作业可能会运行数周,从而避免因某些原因作业停止后要重新从初始状态启动。HPC作业产生的最终结果可能只有很少的数据,有时只是一组结果或一种可视化展现,也有可能最终结果是一个非常大的数据集,然后依次进行下一个分析,可能是一个完全不同的作业。

这种大数据和所谓“连续运行”应用程序(如网页点击、基于Cookie的部件、错误日志、事务日志和流应用等)产生和存储的商业“大数据”相比,虽然都是非结构化数据,但后者是一直变化的,并且和外部世界有关。

数据分析作业通常是取出一块大数据,然后通过特殊分析、模式匹配、搜索和/或常规数据挖掘进行浓缩,寻求数据本身隐含的商业价值,这种大数据的关键特征是,它是不断发展的,而HPC世界中的大数据通常不是这样的,但这两种大数据都需要大型、可靠且可扩展的存储。

问:闪存在横向扩展文件服务器中扮演什么角色?

Rob Peglar:这是一个非常有趣的问题,闪存通常指的是非易失性快速内存,它在横向扩展架构中扮演一个有趣的角色,目前,它的影响大多数是与保存元数据有关的,在这方面它的确很有用。Isilon在后端通信路径是非常快速且可扩展的InfiniBand时使用闪存用的特别好,节点间的信息遍历非常迅速和高效,将它和闪存中保存的基于节点的元数据结合,确保所有节点都通过InfiniBand同步,形成一个非常坚固的架构解决方案。

使用旋转式硬盘做元数据同步效率较低,因为这种硬盘存在固有延迟和写缓存干预,而使用闪存设备可以在稳定的存储上快速地获得元数据。从规模上来讲,这会引起极大的关注,例如,人们可以轻松地使用HDD同步两个节点的元数据,但它是不可横向扩展的,如果要模仿横向扩展,会在传统文件系统上增加一层额外的文件系统开销(如汇聚层),效率是非常低的。横向扩展至少需要三个节点,最大则可以无限(N),目前的挑战是,在不增加二次延迟的情况下尽量提高N的值,这时闪存可以帮上大忙。

闪存在横向扩展架构中的第二个作用是保存读密集型数据本身,特别是那些已经做了映射(Map/Redcue的Map阶段),现在正在处理的大数据,目前在这一领域有大量的研究和进展,特别值得一提的是,闪存设备密度变得越来越高,价格却越来越便宜。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章