扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
从失败中学习
PB级数据存储世界里另一个重大的发展是Computer Failure Data Repository的建立,最终用户(到目前为止,只有政府资助的超级计算机站点可以)发布他们故障数据的记录,方便别人检查并且研究。这些信息非常重要,Gibson表示,"因为提高系统质量的正确方法是真正理解它们失败的原因,了解它们故障的模式。
尽管计算机已经出现很长时间了,"可绝大部分计算机科学家都对计算机而不仅仅是存储失败机制知之甚少。" Gibson表示。
因为厂商通常厌恶,或者无法分享失败数据,Computer Failure Data Repository则是依靠最终用户,例如Los Alamos National Laboratory、Pacific Northwest National Laboratory、Lawrence Berkeley Lab和National Energy Research Scientific Computing Center (NERSC)来提供数据。Los Alamos已经提供了一个失败列表,其中列举了该实验室中23个不同的集群在9年的时间里出现的各种故障,这对研究人员来说非常有帮助。
Gibson表示,希望通过了解大型(甚至更小一些规模)的计算系统或集群为什么,以及如何失败的,厂商能够开发出一些技术来减少或者消除失败现象,帮助他们建设更大、更快、更有效而且也更为可靠的计算机和存储系统,以市场能够承受的价格提供给用户。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者