科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道如何从存储故障中学习经验

如何从存储故障中学习经验

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Carnegie Mellon大学的计算机科学家Garth Gibson接收我们的采访。他在RAID和技术方面颇有建树,并且领导着一个名为PDSI(Petascale Data Storage Institute)的项目。PDSI研究人员所发现的主要问题正是计算机现在所面临的挑战。

作者:存储时代(编译)【原创】 2007年9月24日

关键字: 容错 超级计算机 PB级

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共3页)

  从失败中学习

  PB级数据存储世界里另一个重大的发展是Computer Failure Data Repository的建立,最终用户(到目前为止,只有政府资助的超级计算机站点可以)发布他们故障数据的记录,方便别人检查并且研究。这些信息非常重要,Gibson表示,"因为提高系统质量的正确方法是真正理解它们失败的原因,了解它们故障的模式。

  尽管计算机已经出现很长时间了,"可绝大部分计算机科学家都对计算机而不仅仅是存储失败机制知之甚少。" Gibson表示。

  因为厂商通常厌恶,或者无法分享失败数据,Computer Failure Data Repository则是依靠最终用户,例如Los Alamos National Laboratory、Pacific Northwest National Laboratory、Lawrence Berkeley Lab和National Energy Research Scientific Computing Center (NERSC)来提供数据。Los Alamos已经提供了一个失败列表,其中列举了该实验室中23个不同的集群在9年的时间里出现的各种故障,这对研究人员来说非常有帮助。

  Gibson表示,希望通过了解大型(甚至更小一些规模)的计算系统或集群为什么,以及如何失败的,厂商能够开发出一些技术来减少或者消除失败现象,帮助他们建设更大、更快、更有效而且也更为可靠的计算机和存储系统,以市场能够承受的价格提供给用户。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章