GOPS 2016全球运维大会·深圳站于2016年3月25日-26日在深圳隆重举办,汇聚国内一线运维专家和诸多运维同仁达1500余名。作为长期秉持技术实践、坚持技术创新的自营式电商龙头,京东集团在会上带来一系列精彩演讲。京东高级架构师何小峰、京东无线运维及测试负责人徐奇琛、京东商城交易平台架构师李尊敬三位技术专家分享了京东在十余年电商运维实战中的技术沉淀与经验,揭开了京东能够保持高速成长,平稳应对爆发性交易需求的技术秘诀。
弹性计算架构为运维提供肥沃土壤
服务器可以说是运维耕耘的土壤。京东在高速成长中发现,随着各项业务的不断成长,服务器需要承载的数据量越来越大,交易系统建设面临的挑战越来越高。传统数据中心采用物理机,有硬件采购周期长且交付效率低、资源利用率低、不能有效的评估应用资源使用情况、硬件成倍增长、扩容慢等诸多问题,造成了日常运维的困难。
从2014年开始,京东开始着手Docker的应用部署,并快速推进弹性计算云项目。京东弹性计算云通过软件定义数据中心与大规模容器集群调度,实现海量计算资源的统一管理,并满足性能与效率方面的需求,兼容现有的基础设施系统,每个容器都有独立的IP。
从物理机到Docker,容器化部署节约了服务器资源,应用规模能够快速灵活伸缩,这就提高了资源利用率。经过长期的部署和实践,京东如今已拥有世界超大规模的Docker实例,去年双11在生产环境上运行的Docker实例更是超过6万个,支撑了京东一系列核心系统和绝大部分业务,成功展示了这一技术的系统扩展性、稳定性、容灾能力、运维能力、紧急故障处理能力,为618、双11等大促活动保驾护航,弹性计算架构为“云运维”提供了肥沃的土壤。
云运维时代全面开启,专注用户与业务价值提升
由于电商行业的变化发展快以及独有特性,运维面临着流量转换、不断推高的大促峰值、系统复杂繁多、仓配供应链等诸多挑战,传统的技术架构和运维方式已经不能很好的满足云时代的企业运维需求,运维需要主动适配转型以过渡到云时代。京东无线运维测试负责人徐奇琛在演讲中表示:”伴随电商业务的高速增长,应用运维团队技术运营能力的成熟度显得尤为重要。“从可控角度优先入手,得益于内部弹性云的全面覆盖、业务Set分布的合理规划等基础能力和架构能力的完善,团队以高效化能力为业务提供更好的高可用架构服务,以支持京东各类大促、营销活动的稳定。
徐奇琛分享了在风控、秒杀、大促几项实战中的运维经验。前不久曝光的电商平台恶意刷单、刷号、刷激活、套现等这一灰色产业链对用户利益造成极大影响,京东通过完善的多层风控管理体系与业务监控建设做好风控工作,大大提高了规避此现象发生的能力,保障用户权益,维护交易公平。
云计算简化了环境,帮助运维管理建立起标准化自动化能力,使得运维成本的简化。电商运维另一个通用场景是仓配运维的管理。仓配是京东这类自营式电商的重要环节,仓配最大的挑战来自于仓配系统的高可用性、低延迟、自动容灾等业务连续性需求和运营成本控制、复杂的仓储环境及其它不确定因素。徐奇琛也带来了应对之道:围绕区域阶梯形团队管理、IT系统设计及工程规范、仓配标准化管理、仓配运营服务体系等多维配套能力与规范建设,与周边团队做好协同共同保障。
随着流量无线化的趋势,京东团队继续扩展自身服务范围,聚焦于无线海量架构的演进、用户体验优化、持续集成改进、监控系统完善等运维增值能力的建设。做到从技术角度出发,不断提升业务的性能体验、降低用户投诉、提升产品功能的高速迭代和质量把控能力。在DevOps的共赢协作价值观下,协助业务部门做到各项业务线指标的稳定提高。
京东交易系统高可用架构之路
随着移动互联时代的到来,数据量急剧增加,如何在各种各样、纷繁复杂的技术中构建最适合企业的高可用技术架构变成了一件极具挑战的事情。就此,京东商城交易平台架构师李尊敬分享了京东在架构方面的应用案例。
京东交易系统大量采用的是无状态化的架构设计,它具有水平扩展性好和天然高可用的特点,能够用底层存储满足无状态的使用场景。“高可用化的系统分为很多方面,但首先要保证的是自我保护的能力。”李尊敬说。
在自我保护上,京东采取了包括流量隔离、业务分流、防刷保护、异步化、带宽保护等措施。比如在流量隔离方面,会按照运营商维度隔离入口流量,移动、联通、电信通过智能DNS解析到不同机房;还会按照业务重要等级和类型分配不同带宽,而且保证交易系统和大数据系统不在一个机房,做到了互不影响。再比如在业务分流方面, 做到PC端、移动端、微信、手Q独立部署,不同渠道采用不同策略,从而避免了问题产生。
在大促到来之前,京东会通过单机、集群、机房间写流量等压测来进行模拟实验,将问题抹杀在萌芽阶段。即使发生故障,京东还能通过服务路由切换和客户端主动切换,以及交易服务按功能模块降级来应对。再加上京东在北京、廊坊等多地都设有机房,多中心交易也成了保障交易正常运行的万全之策。
京东作为国内最大的自营式电商企业,在发展中不断追求自身技术实力的积累,在电商运维的实践中有着丰富的经验和强大的能力。技术不再是标榜自己的标签,更和提升用户体验息息相关,主张以技术和业务双驱动的京东,必将是这一理念的实践者和受益者!
好文章,需要你的鼓励
研究人员正探索AI能否预测昏迷患者的医疗意愿,帮助医生做出生死决策。华盛顿大学研究员Ahmad正推进首个AI代理人试点项目,通过分析患者医疗数据预测其偏好。虽然准确率可达三分之二,但专家担心AI无法捕捉患者价值观的复杂性和动态变化。医生强调AI只能作为辅助工具,不应替代人类代理人,因为生死决策依赖具体情境且充满伦理挑战。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
麻省理工学院研究发现过度依赖AI会导致认知债务,削弱基本思维能力。研究表明交替进行无辅助思考和AI支持工作的模式能保持认知敏锐度。这种认知高强度间歇训练模仿体能训练中的HIIT模式,通过短时间高强度思考与恢复期交替进行,可以强化大脑神经回路,防止认知衰退,提升独立思考能力。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。