11月真不愧是全球剁手党们的狂欢月,在中国每年双11都会创造新的单日网购交易额记录,而从去年开始,作为传统采购旺季的"黑色星期五"也成为了全网狂欢的节日,这不仅仅源于海外电商的发力,同时中国电商们也让国外的"黑五"变成了中国的海淘狂欢节。
虽不及双11的全民狂欢,但相信打着"海外购狂欢节"的电商们也将迎来新一波的大规模访问流量。而为了应对双11而创新、积累下来的那些黑科技们,也将让电商人更从容的应对"黑五"。
几年前我们不能想象有一个计算平台能够支撑25.6万笔/秒的支付峰值,也不能想象每秒4200万次数据库处理需要什么样的架构。而今天已经成为现实,并且被顺利度过。那么在双11的热度即将褪去,黑五、圣诞的狂潮即将来袭时,我们再来看看今年电商的那些新的黑科技。
一天制作4000万张海报设计师鲁班是何方神圣?
相信在双11之前,大家都被一则"卖秋裤"的h5刷过屏,里面提到一个牛人设计师-鲁班,他能够每天设计4000万张海报,并且能够根据不同的产品、不同的诉求迅速做出符合搭配的海报。当然,鲁班不是人,他是阿里巴巴最新发布的AI设计师。在双11期间,鲁班共设计了1.7亿张图片。
那鲁班是怎样工作的? 其实类似鲁班的这种AI需要的是大量已标记的数据、高效的算法和强大的计算平台,并通过用较长的时间来进行反复的训练。而这需要比CPU更优的并行计算能力,GPU就是目前最好的选择。AI图片聚类训练通常至少需要几十万个样本进行十几万次训练迭代,为了保证模型能在有限的时间内做到足够收敛,某些模型甚至需要超过200片GPU卡以AI服务器集群的方式并行。
浪潮NF5288M5
因此,选用更高密度、更高效率的GPU服务器就成为快速、精准模型训练的关键。浪潮NF5288M5就是目前业界最高密度的GPU服务器,它在2U空间内支持部署8块NVLink或PCI-E 接口的NVIDIA? Tesla? V100 GPU,可以在不依赖CPU的前提下,实现机内点到点通讯,减少了异构通讯的次数,GPU间高达300GB/s的互连带宽,并提供极低的延迟,让多块GPU并行的效率大幅提升超过60%。在AI深度学习模型训练上,当采用TensorFlow框架和GoogLeNet模型,NF5288M5处理速度可以达到每秒1165幅图,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。与浪潮支持2U4卡的NF5288M4对比测试,NF5288M5采用P100的Linpack浮点运算性能达29.33TFLOPS,是同样采用P100 NF5288M4的2.47倍。
拍个照就能找到商品,如何让机器找到每个产品?
"拍照购"是淘宝上线多年的一个功能,但从今年双11期间的实际体验来看,拍照购的速度和精度都有明显的提升。据阿里公布的数据显示,今年双11当天通过拍立淘搜索的图片数量超过4000万张。为何机器能够精准地找到与照片一样的商品?
其实与鲁班类似,拍立淘的本质也是图片的识别和处理,通过商品预分类-检测前景对象-提取CNN特征和局部特征-离线建立特征库-提取索引目标特征并在线推理-根据不同的优化目标重新排序这6个步骤,建立照片与商品间的关联。
之前,图片的模型训练过程通常由GPU服务器来承担,在线推理过程则由CPU或者GPU服务器来负责。模型训练过程正如上文所说,需要大量的计算,因此GPU的加入可以极大加速训练过程。但是在线上推理阶段,CPU和GPU服务器却都不是最好的选择。FPGA这种具有更低延迟、更高并发性能的新型加速卡成为目前在线推理重要的一支力量。
浪潮FPGA F10A
上个月,浪潮在云栖大会发布了基于浪潮F10A的AI线上推理加速方案,能够针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。
浪潮FPGA一体化解决方案
实测数据显示,在进行ResNet残差网络的图片识别分类任务时,浪潮F10A加速方案图片处理速度可达每秒742张,Top-5识别准确率达到99.6%,相比同档次GPU能效比提升3倍以上。而与通用CPU对比,在处理这种高并行、小计算量的任务时,F10A的优势将更明显。
每年双11,数据中心管理人员都必须对设备的运行容量参数、数据中心环境温湿度、空调运行状态及IT设备工作状态等进行全天24小时安全巡逻,保障各系统的安全可靠运行。虽然这是一项简单的工作,但是由于需要全天无休且重复性强,极为消耗人力物力。
为此,在双11期间,阿里巴巴华北数据中心的巡检工作将由智能运维机器人"阿里巴巴天巡"完成。天巡采用3D激光雷达,能够在数据中心实现自主导航,独立完成巡检。机器人带有全景高精度摄像头、传感器,在巡检中可以完成温度、湿度、空气质量、电气参数、空调参数等监测工作。根据实际应用看,天巡不仅全天24小时巡检,而且接替了运维人员以往30%的重复性工作。
除了这部分简单、重复的任务,剩下的70%的任务目前仍需要人工的干预和处理。因此双11期间的工程师值守是每个电商企业都需要安排的重要工作。
双十一期间,浪潮向各大电商(如阿里巴巴、京东、苏宁等)派驻专业工程师,进行长达72小时的无休值守,对现场出现的问题进行快速定位和解决。并且这些工程师并不是临时、随意派驻的,所有的值守人员都需要经过浪潮服务器工程师认证培训及客户定制售后服务培训认证,并经过一个月的现场学习,通过最终考核后才能成为值守团队的一员。
举个例子,为支援国内某顶级电商双十一,浪潮提前一个月就开始进行双十一保障准备,成立专项保障小组,在双十一前夕确认所有备件全部到达客户现场,在客户超过20个机房派驻现场服务工程师,并在总部设置超过50个工程师团队进行24小时待命(包括技术专家、备件管理团队、特殊应急小组),严格执行"1小时内定位故障,2小时内修复故障"。
在双11的推动下,数据中心在发生着天翻地覆的变革,为了抵御互联网每年一次的最大网购流量冲击,电商数据中心几乎应用了互联网全部最前沿技术,在解决各种问题的同时又将技术升华。未来,或许目前仍需要人力保障的任务也将被替代,那时候AI将成为我们最得力的助手,"要让工程师们喝着茶度过双十一"这个愿景或许就将来临。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面