在2023云栖大会上,阿里巴巴旗下平头哥半导体发布首颗SSD主控芯片-镇岳510。在11月29日举行的2023中国数据与存储峰会上, 平头哥半导体产品总监周冠锋在题为“做智能化时代更好的存储底座”演讲中,详细介绍了镇岳510的技术优势和特性。
峰会期间,DOIT总编宋家雨特邀周冠锋进行了专访,结合镇岳510应用前景进行畅谈。
宋家雨:请简单帮我们介绍一下镇岳510这款产品的情况。
周冠锋:镇岳510是平头哥开发的一款高性能企业级SSD主控芯片或称SSD控制器,它支持PCIe 5.0接口、DDR 5.0技术,内置高性能的RISC-V架构玄铁R910多核CPU,可以支持主流的TLC、QLC存储颗粒,具有极高IOPS性能(3400K IOPS),以及超低时延(4us)。适用于AI计算、大数据分析、在线交易、高性能数据库、分布式存储等业务场景。
镇岳510在2022年底一次性流片成功,2023年回片之后,通过了内部大量的性能、功能、可靠性和兼容性等测试,目前已经达到了量产程度。
宋家雨:在行业内,4us也是非常优异的性能表现,平头哥对此做了哪些优化,最终实现了这样表现?
周冠锋:时延是SSD从收到命令到返回命令响应的耗时。在分布式计算中,为了提高并发能力,业务请求通常会被拆分为多笔子请求分散到众多SSD并发执行,并对众多的执行结果进行汇聚得到最终结果。显然,SSD的处理时延越低,整个业务的总体性能越高。所以主控如果可以实现超低的时延,就可以给应用带来更好的体验。
镇岳510内置了我们自主创新的IO自动化处理机制。对于写入操作(IO)的整个流程,从主机构建提交IO命令(SQE),到SSD解析命令、进行命令切片,到SSD执行数据DMA,再到SSD启动FTL表项操作,SSD构建并返回命令响应(CQE),这一系列的操作步骤我们均实现了全面的硬件自动化。这种自动化程度意味着如果硬件执行的延迟足够低,则IO命令的执行时间理论上可以非常接近PCIe链路的延迟。通过这些自动化机制,镇岳510最终实现了4us的IO执行时延,这个数字比现在业界SSD的指标降低了30%以上。
宋家雨:从产品实践的角度,除了优秀的时延,镇岳510的差错率是否可以满足需求?
周冠锋:完全可以满足需求。
SSD的首要职责就是数据存储的可靠性,而衡量数据存储可靠性的一个重要指标,就是UBER,也就是 Uncorrectable Bit Error Rate,不可纠误码率。它表示的是从SSD读取数据时,会有多大的概率出现数据无法纠错,这个指标,越小越好。行业内企业级SSD的UBER指标为10^-17,也即每读取10亿亿笔数据,可能会有一笔数据出错。
而镇岳510通过自研的LDPC算法,并通过对LDPC译码矩阵的优化,最大程度的去除了译码矩阵中的环结构,最终把LDPC ErrorFloor这个关键指标,优化了一个数量级。仅仅依靠LDPC纠错算法,就可以达到10的负17次方的UBER,再结合RAID算法,就可以达到10的负18次方的水平,相当于百亿亿笔数据才可能有一笔数据出错。所以说,完全可以满足各种业务场景的可靠性要求。
宋家雨:镇岳510有没有适配不同品牌的NAND颗粒?
周冠锋:在镇岳510芯片里面,我们内置了非常灵活的可编程NAND控制器和矩阵灵活的LDPC,所以针对不同品牌的NAND颗粒,只需要在固件上进行调整,就可以适配不同的闪存颗粒,而镇岳510芯片本身不用做任何调整和修改。
宋家雨:镇岳510这样一款产品也会用在消费类产品市场吗?
周冠锋:镇岳510聚焦在企业级SSD市场,可以用在数据中心,也可以用在企业自建IT设备的场景,但消费者场景是另外一个赛道,并不是这个芯片的适用场景。
在企业级SSD场景中,镇岳510芯片已通过大量硬件兼容性测试,可以适配各种不同类型的服务器,在软件上可以适配各个版本的Linux、Windows,在业务上,适用于AI计算、大数据分析、在线业务交易、分布式存储等通用场景。可以说,凡是需要大容量、或高IO性能的场景,镇岳510均可以胜任。
宋家雨:为什么平头哥能够在这么短时间内做出如此优秀的产品?
周冠锋:大家知道,芯片行业是一个技术密集型行业,平头哥内部有非常完善的芯片的前后端设计团队、封装设计团队,还有非常富有经验的软件团队。可以胜任复杂大型芯片的全流程设计。
SSD主控芯片是一个芯片+算法+固件的集合体。平头哥SSD产品线有完整的芯片设计团队,算法设计、介质研究的团队,还有完善的固件团队,同时还有自研的IP和核心算法,所以有能力做出性能领先的、优秀的主控芯片。
宋家雨:这样一款产品的市场定位和市场布局是怎样的?
周冠锋:我们会聚焦在SSD主控芯片的研发与持续迭代,提供SSD主控芯片来支持客户打造优异的SSD产品。希望做智能化时代的存储基座,这是镇岳芯片的定位。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。