2016年8月5日,全球开源领导厂商红帽携手ZD至顶网、Intel、云达科技共同举办的主题为“开放 融合 开源开启存储新世界”的2016年中国开源企业存储峰会在北京富力万丽酒店隆重召开。在下午峰会上,Intel亚太研发有限公司云存储技术组高级软件工程师张建先生带来题为“优化Ceph效能的最佳实务技巧”的主题演讲。
张建表示Intel一直来为Ceph进行优化效能,包括结合最新的3D Xpoint内存技术的性能加速,包括在实际应用中优化压缩,加密、硬件卸载以及RBD缓存和缓存分层的优化,通过IA优化的存储库最大限度的减少延迟。Intel还参与了很多开源项目,做了很多性能分析以及工具,针对特定应用场景的优化,通过这种方式促进Ceph的正当发展。
以下是嘉宾的演讲实录:
张建:大家好,我是来自于Intel亚太研发有限公司云存储技术组的张建,今天给大家分享一下在优化Ceph效能的最佳实务技巧。
首先我会自我介绍一下。下面我会结合背景为什么做Ceph的优化,做这个有什么意义以及怎么做。有通用的部署以及指南。然后有一些案例,包括块、对象以及密集研发过程中的工具,然后通过我一些的特殊工具能够达到什么样的程度,我欧合作在哪里以及未来的机会在哪里。最后做一下Ceph的介绍和SMMARY的介绍。
第一个介绍——Ceph at Intel。这些应用,其实我们在Optimize做了一些,主要是基于Intel平台。比如做Compression, Encryption hardware offloads (QAT、SOCs)。这是第一。
第二是PMStore(for 3D XPointDIMMs)。第三是RBDcaching and Cache tieringwith NVM。第四是IA optimized storage libraries to reduce latency。
第二块是做了很多性能分析以及工具,通过这种方式促进Ceph的正当发展,还有一些针对特定应用场景的优化。
接下来是一些尝试,会有管理工具,比如CDN, Cloud DVR, Video Surveillance, CephCloud Services, Analytics。
然后是基于Intel的产品,做一些开源项目,希望尽快地达成方案。
为什么要对Ceph做各种的优化?通过前面的嘉宾发言能够了解到。广大客户看中Ceph的是蔓延性。但从应用角度来看,有一些复杂的地方,比如怎么对硬件进行配置等,这些都有一些不确定性。另外,运营系统里需要对超系统本身做东西。另外在几百个参数里怎么获得我的参数,以满足我的需求。
在我们介绍的具体案例分享中,看看Intel所做的大会,吸引了400多个人参加,系统上非常好。但同时也存在一些问题,比如右边的图(图),前三个的问题在哪里?(图)第一个是Performance,第二个是code complexity。第三个是Stability。
根据这些问题,做了一些方案。这个图是Ceph的投资架构图。(见PPT图:Ceph—General Community Deployment Practices)(PPT图:Available Ceph solution recipes)(PPT图:Intel solutions for Ceph deployments)
下面是具体的案例,会从这几个方向分享一下我们针对特定的传统做的各种方法。一个是Ceph Tunings。接下来看一下Ceph Block performance。(见PPT图Ceph Blocr perfomance—Test Results)。通过右边的图可以看到,前面的分别可以达到86%和90%的带宽,有一定的优化空间在里面。左边是Drop OSD Cache—Prepare Data (dd)—Run FIO,1.40GB Span。2.4 IOs: Sequential (W,R), Random (W, R)。3.400s test。4.Scale RBD images –1 to 120。
(PPT图:Ceph Block Performance –Tuning effects)
基于前面做的,我们做了优化,数据…5%左右。第二个是把原来的关掉,比较明显,大概有59%。做一些red hat。所以我们会去做一些。
接下来一块是针对对象。在这个节点我们使用了我们自己开发的工具,这种规模比较下,希望100高一点。我们做了很多。后来还有一个best 。接下来是我们做的重点是现在群。这个方面,大家可以看到没有任何性能的保留。参数设得比较高,可以看到在今天的对比下可以非常显著地提高运营系统。
当然还有很多优化空间在里面。
最后一块是基于上面的架构,为了保存数据,还是要去。所以在数据分析上,需要写一个。
这是对比(图),我们看一下对比图,我们做的,现在观察到的结果,有两倍。当然还有好多优化的地方。
最后一部分是CeTune。
第二部分是COSBench,可以到做很多应用。
最后一个VSM,这是2014年做的开源,产品化以后,OpenStack* Paris summit, designed to help lower the barrier to adopt Ceph.会提供不同的界面,The project earns a lot of interests from community, a few companies decided to adopt in production.
所以,第一点是越来越独到了。第二通过前面的案例分析可以看到,需要优化。第三ceph开辟新的领域,但还需要优化,进一步发挥出来。最后和Intel一起合作共同努力。
好,谢谢大家!
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。