在这期播客中,我们与东芝欧洲电子公司存储产品业务发展高级经理Rainer Kaese探讨了温度如何影响硬盘驱动器(HDD)的性能。
Kaese指出,需要重点关注的是气流状况,硬盘驱动器的故障率在超过最佳平均温度运行时会显著倍增。
Kaese还强调了在温度监控方面,SMART(自监控、分析和报告技术)中需要关注的关键数值,这对保持硬盘健康状态至关重要。
**硬盘驱动器过热对系统意味着什么?**
硬盘驱动器的温度是系统中需要密切关注的参数。硬盘驱动器有两种与温度相关的故障模式。
在系统运行过程中,硬盘驱动器会产生热量,需要通过某种方式进行散热。它不像CPU等其他组件那样容易过热,不需要散热片,但至少需要一定的气流来保证正常运行。
这里有两个温度限制。一个是功能限制。如果硬盘驱动器的内部温度升至60°C或70°C,它仍能正常工作。超过这个温度,可能就无法正常运行了。因此,服务器硬盘驱动器的内部温度60°C或客户端硬盘驱动器的70°C应该尽量避免,因为这是功能极限。当硬盘驱动器达到如此高温时,你可能会立即察觉,因为系统可能无法正常工作。
同样重要但不太被认知的是可靠性限制,这个限制出现得更早。从可靠性角度来说,服务器硬盘驱动器的年化平均故障率是0.4%,也就是说每年一千个驱动器中可能有四个发生故障。这个比例很低,所以硬盘驱动器很少发生故障。
对于客户端设备,故障率稍高一些,为0.9%,仍然低于1%。这意味着每年一千个驱动器中只有九个可能发生故障。但这是在平均工作温度保持在40°C范围内的情况下。
你可以让它运行在稍高的温度下,比如41°C、43°C或45°C。但如果整个生命周期的平均温度达到50°C,故障概率就会比标准值高1.5倍。
如果硬盘驱动器的平均运行温度为55°C,故障率会翻倍。在60°C时,故障率会增至三倍。也就是说,如果初始故障率是0.9%或1%,在60°C平均温度下,故障率会达到3%。
虽然97%的驱动器不会发生故障,但3%的故障率是可以避免的。如果能更好地为硬盘驱动器散热,就能避免这种更高的故障概率。
因此,底线是应该保持40°C,最高不超过45°C。这样你就能享受硬盘驱动器的最佳可靠性和最低预期故障率。
**是什么导致硬盘驱动器内部温度升高?**
原因总是相同的:散热不当。
如前所述,硬盘驱动器的散热要求并不高。但它需要一定的气流,在无风扇系统中需要良好的对流,或者在有风扇的系统中需要围绕硬盘驱动器的适当气流。
在我们杜塞尔多夫实验室以及客户现场的所有实验中,每当硬盘驱动器温度超过45°C、50°C或60°C时,总是存在散热问题。要么缺少风扇,要么风扇有缺陷,要么系统设计错误,阻塞了气流,不允许任何对流或硬盘周围的气流。
比如,如果你有一个两盘位或四盘位的家用NAS,其中一些机箱前面有封闭的盖子或门板。虽然看起来美观,但会阻挡部分气流。
因此,我们建议检查驱动器的温度。如果平均温度超过45°C,尝试移除障碍物,调节风扇,或者在最坏的情况下,如果系统不允许改动,那就购买气流更好的系统。
**不管理硬盘驱动器温度会造成什么问题,在数据中心如何缓解这些问题?**
首先要关注硬盘驱动器的温度,这里我们说的是平均温度,大约40°C左右。
假设夏季有一个月是50°C,但冬季有三个月是30°C,这仍然是可以接受的。所以,我们总是在讨论平均温度。
这意味着要时不时地检查系统的温度。你可以通过系统的图形用户界面来做到这一点。NAS可能有一个GUI,你可以在数据中心看到硬盘驱动器的温度。
你只需检查硬盘的SMART值。SMART值编号194就是摄氏度温度。时不时检查一下,如果低于45°C,就没问题。
如果平均温度超过45°C,硬盘可能仍能工作,但你可能会遇到更高的故障率。如果你能接受更高的故障率,因为你的系统无论如何都无法改变,那仍然可以。但请注意,情况并不像它们本可以达到的那样好。
如果你的系统允许,移除障碍物,调节风扇。或者,如果你构建了自己的服务器或游戏PC,而你的硬盘驱动器运行在50°C或55°C,安装另一个风扇。
可以是硬盘驱动器周围的小风扇,至少提供一点对流和气流。这是你能为硬盘驱动器做的好事。你将享受更长的使用寿命或更低的故障率。
关键在于气流。硬盘驱动器需要某种程度的"呼吸"。不需要太多,但应该有一些气流来带走热量,保持在合理的温度范围内。
如我所说,这是可能做到的。没有理由做不到。只需要由设备的供应商或制造商来完成。或者如果你自己管理,也可以自己完成。但最重要的是要时刻关注。
Q&A
Q1:硬盘驱动器的最佳运行温度是多少?
A:硬盘驱动器的最佳平均运行温度应保持在40°C左右,最高不超过45°C。在这个温度范围内,你能享受到硬盘的最佳可靠性和最低预期故障率。
Q2:温度过高会对硬盘故障率产生多大影响?
A:温度对故障率影响很大。如果平均温度达到50°C,故障率会比标准值高1.5倍;55°C时故障率翻倍;60°C时故障率增至三倍。例如,初始故障率1%在60°C下会升至3%。
Q3:如何监控和改善硬盘温度?
A:可以通过系统GUI或检查SMART值194来监控温度。改善方法包括移除气流障碍物、调节风扇设置、增加散热风扇等。关键是确保硬盘周围有适当的气流进行散热。
好文章,需要你的鼓励
OpenAI发布ChatGPT新功能Pulse,可在用户睡眠期间生成个性化报告,提供5-10条简报帮助用户快速了解当日重要信息。该功能旨在让用户像查看社交媒体一样优先使用ChatGPT。Pulse首先向每月200美元的Pro订阅用户开放,未来计划扩展至所有用户。功能支持连接Gmail、日历等应用,可解析邮件、生成日程安排。报告以卡片形式展示,包含AI生成的图像和文本,涵盖新闻摘要、个性化建议等内容。
这项由谷歌DeepMind研究团队完成的开创性研究首次系统阐述了AI智能体经济的概念框架。研究提出"沙盒经济"模型,从起源性质和边界渗透性两个维度分析AI智能体经济形态,预测未来将出现自然涌现且高度透水的AI经济网络。研究详细探讨了科学加速、机器人协调、个人助手等应用场景,提出基于拍卖机制的公平资源分配方案和使命经济概念,并深入分析了技术基础设施需求、社区货币应用以及相关风险防范措施。
AI平台公司Clarifai发布新推理引擎,声称能让AI模型运行速度提升一倍,成本降低40%。该系统采用多种优化技术,从CUDA内核到高级推测解码,能在相同硬件上获得更强推理性能。第三方测试显示其在吞吐量和延迟方面创下行业最佳记录。该产品专门针对推理过程优化,特别适用于需要多步骤响应的智能体和推理模型。
中国人民大学研究团队提出LoFT方法,通过参数高效微调基础模型解决长尾半监督学习中的数据不平衡问题。该方法利用预训练模型的良好校准特性改进伪标签质量,并扩展出LoFT-OW版本处理开放世界场景。实验显示,仅使用传统方法1%的数据量就能取得更优性能,为AI公平性和实用性提供了新的解决方案。