GOPS 2016全球运维大会·深圳站于2016年3月25日-26日在深圳隆重举办,汇聚国内一线运维专家和诸多运维同仁达1500余名。作为长期秉持技术实践、坚持技术创新的自营式电商龙头,京东集团在会上带来一系列精彩演讲。京东高级架构师何小峰、京东无线运维及测试负责人徐奇琛、京东商城交易平台架构师李尊敬三位技术专家分享了京东在十余年电商运维实战中的技术沉淀与经验,揭开了京东能够保持高速成长,平稳应对爆发性交易需求的技术秘诀。

弹性计算架构为运维提供肥沃土壤
服务器可以说是运维耕耘的土壤。京东在高速成长中发现,随着各项业务的不断成长,服务器需要承载的数据量越来越大,交易系统建设面临的挑战越来越高。传统数据中心采用物理机,有硬件采购周期长且交付效率低、资源利用率低、不能有效的评估应用资源使用情况、硬件成倍增长、扩容慢等诸多问题,造成了日常运维的困难。
从2014年开始,京东开始着手Docker的应用部署,并快速推进弹性计算云项目。京东弹性计算云通过软件定义数据中心与大规模容器集群调度,实现海量计算资源的统一管理,并满足性能与效率方面的需求,兼容现有的基础设施系统,每个容器都有独立的IP。
从物理机到Docker,容器化部署节约了服务器资源,应用规模能够快速灵活伸缩,这就提高了资源利用率。经过长期的部署和实践,京东如今已拥有世界超大规模的Docker实例,去年双11在生产环境上运行的Docker实例更是超过6万个,支撑了京东一系列核心系统和绝大部分业务,成功展示了这一技术的系统扩展性、稳定性、容灾能力、运维能力、紧急故障处理能力,为618、双11等大促活动保驾护航,弹性计算架构为“云运维”提供了肥沃的土壤。
云运维时代全面开启,专注用户与业务价值提升
由于电商行业的变化发展快以及独有特性,运维面临着流量转换、不断推高的大促峰值、系统复杂繁多、仓配供应链等诸多挑战,传统的技术架构和运维方式已经不能很好的满足云时代的企业运维需求,运维需要主动适配转型以过渡到云时代。京东无线运维测试负责人徐奇琛在演讲中表示:”伴随电商业务的高速增长,应用运维团队技术运营能力的成熟度显得尤为重要。“从可控角度优先入手,得益于内部弹性云的全面覆盖、业务Set分布的合理规划等基础能力和架构能力的完善,团队以高效化能力为业务提供更好的高可用架构服务,以支持京东各类大促、营销活动的稳定。
徐奇琛分享了在风控、秒杀、大促几项实战中的运维经验。前不久曝光的电商平台恶意刷单、刷号、刷激活、套现等这一灰色产业链对用户利益造成极大影响,京东通过完善的多层风控管理体系与业务监控建设做好风控工作,大大提高了规避此现象发生的能力,保障用户权益,维护交易公平。
云计算简化了环境,帮助运维管理建立起标准化自动化能力,使得运维成本的简化。电商运维另一个通用场景是仓配运维的管理。仓配是京东这类自营式电商的重要环节,仓配最大的挑战来自于仓配系统的高可用性、低延迟、自动容灾等业务连续性需求和运营成本控制、复杂的仓储环境及其它不确定因素。徐奇琛也带来了应对之道:围绕区域阶梯形团队管理、IT系统设计及工程规范、仓配标准化管理、仓配运营服务体系等多维配套能力与规范建设,与周边团队做好协同共同保障。
随着流量无线化的趋势,京东团队继续扩展自身服务范围,聚焦于无线海量架构的演进、用户体验优化、持续集成改进、监控系统完善等运维增值能力的建设。做到从技术角度出发,不断提升业务的性能体验、降低用户投诉、提升产品功能的高速迭代和质量把控能力。在DevOps的共赢协作价值观下,协助业务部门做到各项业务线指标的稳定提高。
京东交易系统高可用架构之路
随着移动互联时代的到来,数据量急剧增加,如何在各种各样、纷繁复杂的技术中构建最适合企业的高可用技术架构变成了一件极具挑战的事情。就此,京东商城交易平台架构师李尊敬分享了京东在架构方面的应用案例。
京东交易系统大量采用的是无状态化的架构设计,它具有水平扩展性好和天然高可用的特点,能够用底层存储满足无状态的使用场景。“高可用化的系统分为很多方面,但首先要保证的是自我保护的能力。”李尊敬说。
在自我保护上,京东采取了包括流量隔离、业务分流、防刷保护、异步化、带宽保护等措施。比如在流量隔离方面,会按照运营商维度隔离入口流量,移动、联通、电信通过智能DNS解析到不同机房;还会按照业务重要等级和类型分配不同带宽,而且保证交易系统和大数据系统不在一个机房,做到了互不影响。再比如在业务分流方面, 做到PC端、移动端、微信、手Q独立部署,不同渠道采用不同策略,从而避免了问题产生。
在大促到来之前,京东会通过单机、集群、机房间写流量等压测来进行模拟实验,将问题抹杀在萌芽阶段。即使发生故障,京东还能通过服务路由切换和客户端主动切换,以及交易服务按功能模块降级来应对。再加上京东在北京、廊坊等多地都设有机房,多中心交易也成了保障交易正常运行的万全之策。
京东作为国内最大的自营式电商企业,在发展中不断追求自身技术实力的积累,在电商运维的实践中有着丰富的经验和强大的能力。技术不再是标榜自己的标签,更和提升用户体验息息相关,主张以技术和业务双驱动的京东,必将是这一理念的实践者和受益者!
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。