SSD(固态硬盘)的寿命问题是用户使用全闪存存储时关注焦点,如何让用户放心使用全闪存存储,保障存储系统不会因为SSD寿命耗尽而出现问题,是全闪存存储厂商面临的挑战。位居2018Q1中国存储市场出货容量第一的浪潮,通过优化智能全闪G2-F的软件栈,实现了SSD介质的磨损均衡,使得浪潮智能全闪G2-F可以在长达5-10年的全生命周期内,给闪存介质上的数据提供安全保障,在新数据时代推动存储闪存化。
智能时代驱动下,面对云计算、大数据、人工智能等新应用,敏捷响应成了新兴业务的普遍诉求。这种趋势下,全闪存存储会是更好的选择。一方面,全闪存存储使用固态存储介质技术,比如3D NAND闪存技术,还有一些新兴介质技术,比如3D xpoint。通过全闪存存储系统内的介质全部固态硬盘化,可以大幅提高IOPS、时延和带宽。然而,全闪存存储在提供高性能的同时,也面临一些技术挑战,其中闪存介质的使用寿命限制就是一个需要解决的技术难题。
HDD和SSD 存在本质差异
HDD(硬盘驱动器)是通过机械旋转加磁介质记录数据的,而SSD则通过硅晶半导体记录数据。二者记录数据方式的差异,决定了两种类型的盘在存取速度和可靠性方面具有本质差异。
首先,NAND 闪存(也称NAND Flash)的存储原理是利用量子力学的隧道效应。
经典物理学认为物体越过势垒,需要有一定的阈值能量,物理能量小于此阈值能量则不能越过,大于此阈值能量则可以越过。就像骑车爬坡一样,车必须要有一定的能量才能越过山坡。而在微观的量子力学里,即使粒子能量小于阈值能量,但是当很多粒子冲向势垒,会有一部分粒子反弹,也会有一些粒子能过去,就像是穿过一个隧道,这就是量子力学里的隧道效应。在通常的情况下,隧道效应并不影响经典的宏观效应,因为穿越隧道的几率极小。但是在人为制造的特定条件下,宏观的隧道效应也会出现。
NAND的存储单元为三端器件,与场效应管有相同的名称:源极、漏极和栅极。浮栅极是用来保存电荷的的,浮栅极与硅衬底之间是隧道氧化层,与控制栅极间也有一层绝缘层,上下两层绝缘层保护浮栅极中的电荷不会泄漏。采用这种结构,使得存储单元具有了电荷保持能力,通过让绝缘浮栅极捕获不同数量的电子以实现bit值定义。这就像装进瓶子里的水,当你倒入水后,水位就一直保持在那里,直到你再次倒入或倒出,所以闪存具有记忆能力。
浮栅极的充放电,是利用量子隧道效应实现的。当我们要对Flash进行写入操作的时候,在控制栅极上加高电压,源极和漏极接地,使电子穿越隧道氧化层到达浮栅极,并聚集在浮栅上保持,形成电压,用来存储信息。进行擦除时仍利用隧道效应,把电压反过来加,从而消除浮栅上的电子,达到清除信息的结果。
由于在写入和擦除的操作过程中,电子反复来回穿越隧道氧化层会损坏隧道氧化层,当绝缘氧化层破坏到一定程度,浮栅极中的电荷便不能再有效保持,导致存储单元物理损坏。这就是NAND Flash会有写入次数限制的原因。
其次,HDD存储数据的实现原理和Flash完全不一样,HDD由磁头和盘片组成,数据存放在盘片上的某个位置,当对数据进行读写,需要将磁头移动到磁道上,盘片转动到指定的位置。所以HDD是一个机械设备,只要加电,磁盘就处于高速旋转工作状态。磁介质本身的寿命是非常长的,所以磁盘的寿命并不取决于读写的数据量,而取决于磁盘的上电时间。不过,磁盘的寿命跟工作环境有很大的关系,比如震动对磁盘的寿命影响就非常大。
对比SSD和HDD的工作原理,会发现二者的故障模式有非常大的差异。传统的磁盘较少寿命限制,而闪存盘需要对SSD的寿命管理进行精细设计,以实现全闪存存储的介质生命周期管理。
浪潮智能全闪:六招实现SSD介质全生命周期管理
浪潮智能全闪G2-F通过多项减少写放大的算法优化可以减少SSD数据写入量,从源头上提高SSD的使用寿命。但减少写入只是保障可靠性的一个方面,对于各种原因导致的部分SSD出现坏块,还需要及时的检测、预测和处理。
招数1:T10 DIF 防止静默数据损坏
出了问题首先要能检测到,这就是防止静默数据损坏。未被检测到的静默数据损坏会导致业务系统的严重后果。
T10 DIF(Data Integrity Field,数据完整性域)是用户数据的一种端到端的保护机制,写入数据的时候在数据块末尾加入PI(Protection Information,保护信息)字段,存放数据的校验信息。当存储端接收到带有PI的数据之后,会将PI信息保存起来,这样在读取的时候会重新计算,使得掉电、硬重启、卷重启、链路丢失等都不会导致PI数据的丢失。浪潮智能全闪G2-F全系列通过支持T10 DIF检测,杜绝了静默数据损坏。
招数2:SSD寿命预测提供事先警告
既然SSD寿命有限,SSD什么时候临近寿命终点、什么时候需要更换,就成为用户和存储系统管理员最关心的事情。全闪存存储需要在SSD临近寿命极限时对用户进行预警,给用户预留更换乃至采购替代品的时间。同时,如果用户的业务模型、业务流量和初始设计时发生了巨大变化,存储系统也需要给出预警信息,让用户采取措施调整业务模型或者数据布局,将大流量的数据写入业务迁移到其他存储上。这些必要的功能在浪潮智能全闪G2-F系列产品上进行了全面配备。
其一,监测寿命衰减速度。浪潮智能全闪G2-F定时检查SSD使用寿命百分比,寿命衰减速度过快时会上报并告警,提醒用户SSD盘异常,建议更换或者改变业务模型。
其二,实时监测使用寿命。当SSD盘使用寿命达到97%,系统会建议用户更换SSD盘;达到99%,会警告用户及时更换SSD盘
其三,智能剩余生命周期预测。浪潮智能全闪G2-F会根据用户业务历史流量及模型,对SSD可使用时间进行预测,并根据用户业务模型的变化,实时调整预测周期。当预测到SSD剩余寿命大概为6个月时,会产生告警,提醒用户关注SSD寿命。
招数3:RAID寿命预测与自动更换
当RAID(磁盘阵列)成员盘的寿命临近极限时,系统会发出告警,使用CLI命令或GUI界面,检查每个成员盘的"更换日期"字段,来确定需要更换的成员盘。如果RAID个别成员盘临近寿命极限,只需更换个别成员盘,利用RAID冗余数据重建,更换盘后,RAID自动重建该成员盘。
当RAID多个成员盘寿命临近时,系统自动更换RAID Group。浪潮智能全闪G2-F可以利用数据迁移功能自动将该RAID中的数据在线迁移出来,方法是直接删除该RAID--数据迁移功能会先将该RAID上的数据迁移到存储池的其他RAID上,然后再删除。如果存储池其他RAID上没有足够的空间,删除会失败,需要先向存储池添加新RAID后再删除。
招数4:健康检查防患未然
浪潮智能全闪G2-F支持自动风扇调速、SSD自动降速等功能,从而使SSD保持在恒定的温度下运行。温度调整软件提供温度检测功能,当温度过高时提高风扇转速,超过阈值温度时,则上报、告警,并降低IO速率。同时,浪潮智能全闪G2-F还会监测SSD的擦写次数、擦写错误次数、SMART信息、SSD性能统计、降级状态DWPD、TBW等参数,检测健康状态并作为寿命预测的依据。
招数5:坏块扫描、坏块标记主动进行
相对于HDD,SSD的整盘失效概率很低,但是发生坏块的概率还是较高的。除了被动的故障检测外,浪潮智能全闪G2-F还支持主动的故障检测,以提早发现坏块。 RAID后台程序定时对SSD做扫描工作,如果发现SSD出现medium error(介质错误),则会自动通过rewrite(重写)的方式修复。对于空闲盘、热备盘,使用SCSI verify命令检查LBA,即检查逻辑区块地址是否可读,不可读时通过写0修复,从而有效避免候选盘和热备盘由于长期没有读写而可能存在的潜在坏块,热备盘、候选盘巡检可通过定义时间周期性地完成一次全盘检测。
招数6:闪存分层实现数据流动和精细化管理
浪潮智能全闪G2-F的分层功能示意图
SSD根据应用场景的不同,可以分为RI(读取密集型)和WI(写入密集型)类型。 RI SSD价格便宜,写寿命低;WI SSD价格昂贵,但是可以支撑更多的数据写入。浪潮智能全闪G2-F通过提供闪存分层功能将二者结合起来,在有效降低用户使用成本的同时,保障了数据的可靠性。
浪潮智能全闪G2-F还提供比SSD具有更好性能和使用寿命3D XPoint 存储,用于热点高密数据存储。此外,冷数据、冰数据还可以推送到云端存储,因而具有更低成本。
浪潮智能全闪G2-F通过上述1+2+1的四层分层,将不同热度的数据进行精细化存储。随着时间变化,数据热度逐渐减弱,浪潮智能全闪G2-F基于自动迁移策略,可以让数据根据自身热度在不同存储层之间自由流动。
浪潮智能全闪G2-F的闪存分层技术针对全闪重新设计,采用ADR(auto data reallocate,自动数据重新分配)算法,充分考虑用户IO的读写频度和存储介质的使用寿命,在同一个层级自动进行磨损均衡,实现了数据在全闪存存储内全生命周期的流动和管理。
五款智能全闪,供企业灵活选用
浪潮智能全闪G2-F,通过全闪存盘和闪存算法优化实现了数据存储的极致性能,又具备企业级数据平台的高可靠性和高级功能,满足IO密集型企业关键业务的数据存储需求。目前G2-F系列包含五款智能全闪产品,分别是入门级AS2600G2-F、中端AS5300G2-F、AS5500G2-F和中高端AS5600G2-F、AS5800G2-F,可根据企业的应用模式和数据量级灵活选用。
当今社会,云计算、大数据、物联网、人工智能等越来越多的实时交互应用,不仅带来了数据的海量增长,更对数据中心的存储性能提出了苛刻要求。毫无疑问,全闪存存储将成为未来数据中心的主流存储系统。顺应这一潮流,浪潮智能全闪G2-F,可帮助企业在新数据时代为业务提速,推动企业级存储的闪存化进程,实现企业智能化化转型。
好文章,需要你的鼓励
BMC Software 发布了其大型机服务的数据存储和 AI 生产力增强功能。此次更新扩展了 Cloud Data Sets 功能,实现了对象存储的无缝过渡,简化了备份和恢复流程。同时,BMC AMI Assistant 新增了对多种编程语言的支持,并引入了 Java 性能管理工具和混合 AI 功能,旨在提高开发效率和简化根本原因分析。
Anthropic公司最新研究揭示,人工智能系统在面对核心信念改变时,会表现出与人类相似的抗拒行为。实验中,AI系统表现出"伪装顺从"的策略性行为,在监控下假装接受新指令,而在无监控时仍坚持原有信念。这一发现为理解AI系统的认知发展提供了新视角,也引发了对AI初始训练重要性的思考。
Linux Mint 22.1 Xia 终于发布,虽然比预期晚了一些,但带来了多项改进。新版本基于 Ubuntu 24.04,提供 Cinnamon、MATE 和 Xfce 三个桌面版本。主要更新包括新的 Apt 包管理工具和改进的电源管理。Cinnamon 桌面升级到 6.4.6 版本,支持实验性 Wayland。
随着AI技术的广泛应用,其安全性和可靠性问题日益凸显。为此,思科和英伟达近期推出了一系列新工具,旨在解决AI模型可能存在的漏洞,如内容不当、话题偏离和越狱等问题,以提升AI系统的安全性和可控性。这些工具将为企业提供更可靠的AI应用保障。