Kioxia公司开发了一款专为边缘服务器设计的高速闪存驱动器原型,采用串联连接的闪存"珠链"架构,并使用PCIe 6总线接口。
这种边缘服务器主要面向移动边缘计算单元,通过5G或6G蜂窝网络连接物联网设备,并使用AI模型处理输入数据。由于DRAM成本高昂,这些服务器的内存容量有限,因此需要高带宽的闪存来增强DRAM性能。
Kioxia设计了一种提升带宽的新方法,使用分离式"珠链"闪存串联连接,采用差分串行信号传输而非并行信号传输,每个信号可传输2位数据而非1位。该公司构建的原型设备容量为5TB,通过8通道PCIe Gen 6总线向主机服务器处理器传输数据时,数据传输速率可达64 GBps。
相比之下,美光9650 Pro SSD采用PCIe Gen 6 x 4通道连接,容量范围为6.4TB至25.6TB,可提供高达28 GBps的顺序读取带宽和14 GBps的顺序写入带宽,每通道7 GBps。Kioxia的HBF原型在相同PCIe Gen 6总线上使用8个通道,从5TB容量提供高达64 GBps的传输速度,总吞吐量是美光9650 Pro的约2.3倍,但按每通道计算仅高出约14%(8 GBps对比7 GBps)。
Kioxia的高带宽闪存(HBF)采用闪存珠链和控制器串联连接到每个存储板,而非总线连接方式。该公司表示"即使增加闪存(珠链)数量,带宽也不会下降"。每个串联信号传输2位数据通过PAM4(4级脉冲幅度调制)实现,使用四个不同电压级别编码数据,提供四种可能的2位组合:00、01、10和11。PCIe 6也使用PAM4信号传输。
该公司开发了128 Gbps PAM4高速低功耗收发器,原型的64 GBps带宽功耗不到40W。据了解,美光9650 Pro在顺序读取操作期间峰值功耗为25W。
Kioxia表示,通过在接口中应用低幅度信号传输和失真校正/抑制技术,实现了存储珠链与控制器之间4 Gbps的带宽。在顺序数据访问期间,通过控制器预取技术缩短了读取延迟。
Sandisk作为Kioxia的NAND闪存制造合作伙伴,也拥有HBF技术但实现方式不同。Sandisk的HBF是一组堆叠的NAND层,通过连接线(硅通孔或TSV)将每层连接到基础转接单元,然后连接到主机GPU,而非串行连接。
Kioxia正在开发其HBF技术,用于涉及物联网、大数据分析和AI处理的移动边缘服务器。
Q&A
Q1:Kioxia的高带宽闪存技术有什么特点?
A:Kioxia的高带宽闪存(HBF)采用串联"珠链"架构,使用差分串行信号传输,每个信号可传输2位数据。该技术通过PAM4调制实现,即使增加闪存数量也不会降低带宽,5TB容量原型可提供64 GBps传输速度。
Q2:这种新闪存技术相比传统SSD有什么优势?
A:相比美光9650 Pro SSD,Kioxia HBF原型总吞吐量提升约2.3倍,达到64 GBps。虽然按每通道计算仅高出14%,但整体性能显著提升,同时功耗控制在40W以下,适合边缘服务器应用。
Q3:高带宽闪存主要应用在哪些场景?
A:主要面向移动边缘服务器,用于物联网、大数据分析和AI处理。这些服务器通过5G或6G网络连接物联网设备,由于DRAM成本限制内存容量,需要高带宽闪存来增强性能。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。